新闻是有分量的

资源 | 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集(3)

2018-04-18 10:02栏目:简讯

上文介绍 ImageNet 数据集时提到,WordNet 是一个大型英语 synset 数据库。Synset 也就是同义词组,每组描述的概念不同。WordNet 的结构让它成为 NLP 中非常有用的工具。

大小:10 MB

数量:117,000 个同义词集,它们通过少量的「概念关系」与其他同义词集相互关联

SOTA:《Wordnets: State of the Art and Perspectives》(https://aclanthology.info/pdf/R/R11/R11-1097.pdf)

Yelp 数据集

链接:https://www.yelp.com/dataset

这是 Yelp 出于学习目的而发布的开放数据集。它包含数百万个用户评论、商业属性(businesses attribute)和来自多个大都市地区的超过 20 万张照片。该数据集是全球范围内非常常用的 NLP 挑战赛数据集。

大小:2.66 GB JSON、2.9 GB SQL 和 7.5 GB 的照片(全部压缩后)

数量:5,200,000 个评论、174,000 份商业属性、200,000 张照片和 11 个大都市地区

SOTA:《Attentive Convolution》(https://arxiv.org/pdf/1710.00519.pdf)

Wikipedia Corpus

链接:http://nlp.cs.nyu.edu/wikipedia-data/

该数据集是维基百科全文的集合,包含来自超过 400 万篇文章的将近 19 亿单词。你能逐单词、逐短语、逐段地对其进行检索,这使它成为强大的 NLP 数据集。

大小:20 MB

数量:4,400,000 篇文章,包含 19 亿单词

SOTA:《Breaking The Softmax Bottelneck: A High-Rank RNN language Model》(https://arxiv.org/pdf/1711.03953.pdf)

Blog Authorship Corpus

链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

该数据集包含从数千名博主那里收集到的博客文章,一号站平台,这些数据从 blogger.com 中收集而来。每篇博客都以一个单独的文件形式提供。每篇博客至少出现 200 个常用的英语单词。

大小:300 MB

数量:681,288 篇博文,共计超过 1.4 亿单词。

SOTA:《Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution》(https://arxiv.org/pdf/1609.06686.pdf)

欧洲语言机器翻译数据集

链接:http://statmt.org/wmt18/index.html

该数据集包含四种欧洲语言的训练数据,旨在改进当前的翻译方法。你可以使用以下任意语言对:

  • 法语 - 英语

  • 西班牙语 - 英语

  • 德语 - 英语

  • 捷克语 - 英语

  • 大小: 约 15 GB

    数量:约 30,000,000 个句子及对应的译文

    SOTA:《Attention Is All You Need》

    参考阅读:

    学界 | 机器翻译新突破:谷歌实现完全基于 attention 的翻译架构

    资源 | 谷歌全 attention 机器翻译模型 Transformer 的 TensorFlow 实现

    音频/语音数据集

    Free Spoken Digit 数据集

    链接:https://github.com/Jakobovski/free-spoken-digit-dataset

    这是本文又一个受 MNIST 数据集启发而创建的数据集!该数据集旨在解决识别音频样本中口述数字的任务。这是一个公开数据集,所以希望随着人们继续提供数据,它会不断发展。目前,它具备以下特点:

  • 3 种人声

  • 1500 段录音(每个人口述 0- 9 各 50 次)

  • 英语发音

  • 大小: 10 MB

    数量: 1500 个音频样本

    SOTA:《Raw Waveform-based Audio Classification Using Sample-level CNN Architectures》(https://arxiv.org/pdf/1712.00866)

    Free Music Archive (FMA)

    链接:https://github.com/mdeff/fma

    FMA 是音乐分析数据集,由整首 HQ 音频、预计算的特征,以及音轨和用户级元数据组成。它是一个公开数据集,用于评估 MIR 中的多项任务。以下是该数据集包含的 csv 文件及其内容:

  • tracks.csv:记录每首歌每个音轨的元数据,例如 ID、歌名、演唱者、流派、标签和播放次数,共计 106,574 首歌。

  • genres.csv:记录所有 163 种流派的 ID 与名称及上层风格名(用于推断流派层次和上层流派)。

  • features.csv:记录用 librosa 提取的常见特征。

  • echonest.csv:由 Echonest(现在的 Spotify)为 13,129 首音轨的子集提供的音频功能。

  • 大小:约 1000 GB

    数量:约 100,000 个音轨

    SOTA:《Learning to Recognize Musical Genre from Audio》(https://arxiv.org/pdf/1803.05337.pdf)

    Ballroom

    链接:http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html

    该数据集包含舞厅的舞曲音频文件。它以真实音频格式提供了许多舞蹈风格的一些特征片段。以下是该数据集的一些特点:

  • 实例总数:698

  • 单段时长:约 30 秒

  • 总时长:约 20940 秒

  • 大小:14 GB(压缩后)

    数量:约 700 个音频样本

    SOTA:《A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles》(https://pdfs.semanticscholar.org/0cc2/952bf70c84e0199fcf8e58a8680a7903521e.pdf)

    Million Song 数据集

    链接:https://labrosa.ee.columbia.edu/millionsong/

    Million Song 数据集包含一百万首当代流行音乐的音频特征和元数据,可免费获取。其目的是:

  • 鼓励研究商业规模的算法

  • 为评估研究提供参考数据集

  • 作为使用 API 创建大型数据集的捷径(例如 The Echo Nest API)

  • 帮助入门级研究人员在 MIR 领域展开工作

  •