新闻是有分量的

资源 | 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集(2)

2018-04-18 10:02栏目:简讯

这是一个现实世界数据集,用于开发目标检测算法。它需要最少的数据预处理过程。它与 MNIST 数据集有些类似,但是有着更多的标注数据(超过 600,000 张图像)。这些数据是从谷歌街景中的房屋门牌号中收集而来的。

大小:2.5GB

数量:6,30,420 张图像,共 10 类

SOTA:《Distributional Smoothing With Virtual Adversarial Training》(https://arxiv.org/pdf/1507.00677.pdf)

这篇论文中,日本京都大学提出了局部分布式平滑度(LDS),一个关于统计模型平滑度的新理念。它可被用作正则化从而提升模型分布的平滑度。该方法不仅在 MNIST 数据集上解决有监督和半监督学习任务时表现优异,而且在 SVHN 和 NORB 数据上,Test Error 分别取得了 24.63 和 9.88 的分值。以上证明了该方法在半监督学习任务上的表现明显优于当前最佳结果。

CIFAR-10

资源 | 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集

链接:http://www.cs.toronto.edu/~kriz/cifar.html

该数据集也用于图像分类。它由 10 个类别共计 60,000 张图像组成(每个类在上图中表示为一行)。该数据集共有 50,000 张训练集图像和 10,000 个测试集图像。数据集分为 6 个部分——5 个训练批和 1 个测试批。每批含有 10,000 张图像。

大小:170MB

数量:60,000 张图像,共 10 类

SOTA:《ShakeDrop regularization》(https://openreview.net/pdf?id=S1NHaMW0b)

Fashion-MNIST

资源 | 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集

链接:https://github.com/zalandoresearch/fashion-mnist

Fashion-MNIST 包含 60,000 个训练集图像和 10,000 个测试集图像。它是一个类似 MNIST 的时尚产品数据库。开发人员认为 MNIST 的使用次数太多了,因此他们把这个数据集用作 MNIST 的直接替代品。每张图像都以灰度显示,并具备一个标签(10 个类别之一)。

大小:30MB

数量:70,000 张图像,共 10 类

SOTA:《Random Erasing Data Augmentation》(https://arxiv.org/abs/1708.04896)

自然语言处理

IMDB 电影评论数据集


链接:http://ai.stanford.edu/~amaas/data/sentiment/

该数据集对于电影爱好者而言非常赞。它用于二元情感分类,目前所含数据超过该领域其他数据集。除了训练集评论样本和测试集评论样本之外,还有一些未标注数据可供使用。此外,该数据集还包括原始文本和预处理词袋格式。

大小:80 MB

数量:训练集和测试集各包含 25,000 个高度两极化的电影评论

SOTA:《Learning Structured Text Representations》(https://arxiv.org/abs/1705.09207)

Twenty Newsgroups 数据集

链接:https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups

顾名思义,该数据集涵盖新闻组相关信息,包含从 20 个不同新闻组获取的 20000 篇新闻组文档汇编(每个新闻组选取 1000 篇)。这些文章有着典型的特征,例如标题、导语。

大小:20MB

数量:来自 20 个新闻组的 20,000 篇报道

SOTA:《Very Deep Convolutional Networks for Text Classification》(https://arxiv.org/abs/1606.01781)

Sentiment140

链接:http://help.sentiment140.com/for-students/

Sentiment140 是一个用于情感分析的数据集。这个流行的数据集能让你完美地开启自然语言处理之旅。数据中的情绪已经被预先清空。最终的数据集具备以下六个特征:

  • 推文的情绪极性

  • 推文的 ID

  • 推文的日期

  • 查询

  • 推特的用户名

  • 推文的文本

  • 大小:80MB(压缩后)

    数量: 1,60,000 篇推文

    SOTA:《Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets》(http://www.aclweb.org/anthology/W17-5202)

    WordNet

    链接:https://wordnet.princeton.edu/