新闻是有分量的

资源 | 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集(4)

2018-04-18 10:02栏目:简讯

数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频,只包含导出要素。示例音频可通过哥伦比亚大学提供的代码(https://github.com/tb2332/MSongsDB/tree/master/Tasks_Demos/Preview7digital)从 7digital 等服务中获取。

大小:280 GB

数量:一百万首歌曲!

SOTA:《Preliminary Study on a Recommender System for the Million Songs Dataset Challenge》(http://www.ke.tu-darmstadt.de/events/PL-12/papers/08-aiolli.pdf)

LibriSpeech

链接:http://www.openslr.org/12/

该数据集是一个包含约 1000 小时英语语音的大型语料库。数据来源为 LibriVox 项目的音频书籍。该数据集已经得到了合理地分割和对齐。如果你还在寻找起始点,那么点击 http://www.kaldi-asr.org/downloads/build/6/trunk/egs/查看在该数据集上训练好的声学模型,点击 http://www.openslr.org/11/查看适合评估的语言模型。

大小:约 60 GB

数量:1000 小时的语音

SOTA:《Letter-Based Speech Recognition with Gated ConvNets》(https://arxiv.org/abs/1712.09444)

VoxCeleb

链接:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

VoxCeleb 是一个大型人声识别数据集。它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的(男性占 55%)。这些名人有不同的口音、职业和年龄。开发集和测试集之间没有重叠。对大明星所说的话进行分类并识别——这是一项有趣的工作。

大小:150 MB

数量:1251 位名人的 100,000 条语音

SOTA:《VoxCeleb: a large-scale speaker identification dataset》(https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf)

为了帮助你练习,我们还提供了一些真实生活问题和数据集,供读者上手操作。这一部分,我们列举了 DataHack 平台上关于深度学习的问题。

推特情感分析数据集

链接:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/

涉及种族主义和性别歧视的偏激言论已成为 Twitter 的难题,因此将这类推文与其它推文分开已十分重要。在这个实际问题中,我们提供的 Twitter 数据包含普通言论和偏激言论。作为数据科学家,你的任务是确定哪些推文是偏激型推文,哪些不是。

大小: 3 MB

数量: 31,962 篇推文

印度演员年龄检测数据集

链接:https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/

对于深度学习爱好者来说,这是一个令人着迷的挑战。该数据集包含数千名印度演员的图像,你的任务是确定他们的年龄。所有图像都由人工从视频帧中挑选和剪切而来,这导致规模、姿势、表情、亮度、年龄、分辨率、遮挡和妆容具有高度可变性。

大小:48 MB(压缩后)

数量:训练集中有 19,906 幅图像,测试集中有 6636 幅图像

城市声音分类数据集

链接:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/

该数据集包含超过 8000 个来自 10 个类别的城市声音片段。这个实际问题旨在向你介绍常见分类场景中的音频处理。

大小:训练集 - 3 GB(压缩后)、测试集 - 2 GB(压缩后)

数量:来自 10 个类别的 8732 个标注城市声音片段(单个片段音频时长 <= 4s)