新闻是有分量的

资源 | 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集

2018-04-18 10:02栏目:简讯

原标题:资源 | 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集

选自Analytics Vidhya

作者:Pranav Dar

机器之心编译

参与:陈韵竹、路

本文介绍了 25 个深度学习开放数据集,包括图像处理、自然语言处理、语音识别和实际问题数据集。

介绍

深度学习(或生活中大部分领域)的关键在于实践。你需要练习解决各种问题,包括图像处理、语音识别等。每个问题都有其独特的细微差别和解决方法。

但是,从哪里获得数据呢?现在许多论文都使用专有数据集,这些数据集通常并不对公众开放。如果你想学习并应用技能,那么无法获取合适数据集是个问题。

如果你面临着这个问题,本文可以为你提供解决方案。本文介绍了一系列公开可用的高质量数据集,每个深度学习爱好者都应该试试这些数据集从而提升自己的能力。在这些数据集上进行工作将让你成为一名更好的数据科学家,你在其中学到的知识将成为你职业生涯中的无价之宝。我们同样介绍了具备当前最优结果的论文,供读者阅读,改善自己的模型。

如何使用这些数据集?

首先,你得明白这些数据集的规模非常大!因此,请确保你的网络连接顺畅,在下载时数据量没有或几乎没有限制。

使用这些数据集的方法多种多样,你可以应用各种深度学习技术。你可以用它们磨炼技能、了解如何识别和构建各个问题、思考独特的使用案例,一号站平台,也可以将你的发现公开给大家!

数据集分为三类——图像处理、自然语言处理和音频/语音处理。

让我们一起看看吧!

图像处理数据集

MNIST

资源 | 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集

链接:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/

MNIST 是最流行的深度学习数据集之一。这是一个手写数字数据集,包含一个有着 60000 样本的训练集和一个有着 10000 样本的测试集。对于在现实世界数据上尝试学习技术和深度识别模式而言,这是一个非常好的数据库,且无需花费过多时间和精力进行数据预处理。

大小:约 50 MB

数量:70000 张图像,共分为 10 个类别。

SOTA:《Dynamic Routing Between Capsules》

参考阅读:


  • 终于,Geoffrey Hinton 那篇备受关注的 Capsule 论文公开了

  • 浅析 Geoffrey Hinton 最近提出的 Capsule 计划

  • 先读懂 CapsNet 架构然后用 TensorFlow 实现,这应该是最详细的教程了

  • Capsule 官方代码开源之后,机器之心做了份核心代码解读

  • MS-COCO

    资源 | 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集

    链接:http://cocodataset.org/#home

    COCO 是一个大型数据集,用于目标检测、分割和标题生成。它有以下几个特征:

  • 目标分割

  • 在语境中识别

  • 超像素物品分割

  • 33 万张图像(其中超过 20 万张是标注图像)

  • 150 万个目标实例

  • 80 个目标类别

  • 91 个物品分类

  • 每张图像有 5 个标题

  • 25 万张带有关键点的人像

  • 大小:约 25 GB(压缩后)

    数量:33 万张图像、80 个目标类别、每张图像 5 个标题、25 万张带有关键点的人像

    SOTA:《Mask R-CNN》

    参考阅读:

    学界 | Facebook 新论文提出通用目标分割框架 Mask R-CNN:更简单更灵活表现更好

    深度 | 用于图像分割的卷积神经网络:从 R-CNN 到 Mask R-CNN

    资源 | Mask R-CNN 神应用:像英剧《黑镜》一样屏蔽人像

    ImageNet

    链接:http://www.image-net.org/

    ImageNet 是根据 WordNet 层次来组织的图像数据集。WordNet 包含大约 10 万个短语,而 ImageNet 为每个短语提供平均约 1000 张描述图像。

    大小:约 150 GB

    数量:图像的总数约为 1,500,000;每一张图像都具备多个边界框和各自的类别标签。

    SOTA:《Aggregated Residual Transformations for Deep Neural Networks》(https://arxiv.org/pdf/1611.05431.pdf)

    Open Images 数据集

    资源 | 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集

    链接:https://github.com/openimages/dataset

    Open Images 是一个包含近 900 万个图像 URL 的数据集。这些图像使用包含数千个类别的图像级标签边界框进行了标注。该数据集的训练集包含 9,011,219 张图像,验证集包含 41,260 张图像,测试集包含 125,436 张图像。

    大小:500GB(压缩后)

    数量:9,011,219 张图像,带有超过 5000 个标签

    SOTA:Resnet 101 image classification model (trained on V2 data):

  • 模型检查点:https://storage.googleapis.com/openimages/2017_07/oidv2-resnet_v1_101.ckpt.tar.gz

  • Checkpoint readme:https://storage.googleapis.com/openimages/2017_07/oidv2-resnet_v1_101.readme.txt

  • 推断代码:https://github.com/openimages/dataset/blob/master/tools/classify_oidv2.py

  • VisualQA

    资源 | 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集

    链接:http://www.visualqa.org/

    VQA 是一个包含图像开放式问题的数据集。这些问题的解答需要视觉和语言的理解。该数据集拥有下列有趣的特征:

  • 265,016 张图像(COCO 和抽象场景)

  • 每张图像至少包含 3 个问题(平均有 5.4 个问题)

  • 每个问题有 10 个正确答案

  • 每个问题有 3 个看似合理(却不太正确)的答案

  • 自动评估指标

  • 大小:25GB(压缩后)

    数量:265,016 张图像,每张图像至少 3 个问题,每个问题 10 个正确答案

    SOTA:《Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge》(https://arxiv.org/abs/1708.02711)

    街景门牌号数据集(SVHN)

    资源 | 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集

    链接:http://ufldl.stanford.edu/housenumbers/