近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现机器之心将其整理如下:(内附链接哦~)

最近新增数据集

自然图像数据集

地理空间数据

————————我是深度学习图像的分割线————————

人工数据集

  • Arcade Universe:一个人工数据集生成器,图像包含街机游戏 sprite,如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器。

  • 地址: https://github.com/caglar/Arcade-Universe

  • 以 Baby AI School 为灵感的数据集集合。

  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAISchool

  • Baby AI Shapes Dataset:区分 3 种简单形状。

  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets

  • Baby AI Image And Question Dataset:一个问题-图像-答案数据集。

  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets

  • Deep Vs Shallow Comparison ICML2007:为实证评估深层架构而生成的数据集。

  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007

  • MnistVariations:在 MNIST 中引入受控变化。

  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/MnistVariations

  • RectanglesData:区分宽矩形和垂直矩形。

  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesData

  • ConvexNonConvex:区分凸形和非凸形状。

  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex

  • BackgroundCorrelation:嘈杂 MNIST 背景下相关度的控制

  • 地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation

人脸数据集

————————我是深度学习视频的分割线————————

视频数据集

文本数据集

————————我是深度学习文本的分割线————————

问答数据集

情感数据集

推荐和排名系统

  • Movielens:来自 Movielens 网站的电影评分数据集,各类大小都有。

  • 地址: https://grouplens.org/datasets/movielens/

  • Million Song 数据集:Kaggle 上元数据丰富的大型开源数据集,可以帮助人们使用混合推荐系统。

  • 地址: https://www.kaggle.com/c/msdchallenge

  • Last.fm:音乐推荐数据集,可访问深层社交网络和其它可用于混合系统的元数据。

  • 地址: http://grouplens.org/datasets/hetrec-2011/

  • Book-Crossing 数据集:来自 Book-Crossing 社区。包含 278,858 位用户提供的约 271,379 本书的 1,149,780 个评分。

  • 地址:http://www.informatik.uni-freiburg.de/~cziegler/BX/

  • Jester:来自 73,421 名用户对 100 个笑话的 410 万个连续评分(分数从-10 至 10)。

  • 地址: http://www.ieor.berkeley.edu/~goldberg/jester-data/

  • Netflix Prize:Netflix 发布了他们的电影评级数据集的匿名版;包含 480,000 名用户对 17,770 部电影的 1 亿个评分。首个主要的 Kaggle 风格数据挑战。随着隐私问题的出现,只能提供非正式版。

  • 地址: http://www.netflixprize.com/

————————我是深度学习图表的分割线————————

网络和图形

  • Amazon Co-Purchasing:亚马逊评论从「购买此产品的用户也购买了……」这一部分抓取数据,以及亚马逊相关产品的评论数据。适合在网络中试行推荐系统。

  • 地址: http://snap.stanford.edu/data/#amazon

  • Friendster 社交网络数据集:在变成游戏网站之前,Friendster 以朋友列表的形式为 103,750,348 名用户发布了匿名数据。

  • 地址: https://archive.org/details/friendster-dataset-201107

语音数据集

  • 2000 HUB5 English:最近在 Deep Speech 论文中使用的英语语音数据,从百度获取。

  • 地址: https://catalog.ldc.upenn.edu/LDC2002T43

  • LibriSpeech:包含文本和语音的有声读物数据集。由多个朗读者阅读的近 500 小时的各种有声读物演讲内容组成,包含带有文本和语音的章节。

  • 地址: http://www.openslr.org/12/

  • VoxForge:带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的案例。

  • 地址: http://www.voxforge.org/

  • TIMIT:英语语音识别数据集。

  • 地址: https://catalog.ldc.upenn.edu/LDC93S1

  • CHIME:嘈杂的语音识别挑战数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个扬声器在 4 个嘈杂位置的近 9000 个录音构成,仿真录音由多个语音环境和清晰的无噪声录音结合而成。

  • 地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

  • TED-LIUM:TED 演讲的音频转录。1495 个 TED 演讲录音以及这些录音的文字转录。

  • 地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

————————我是深度学习音频的分割线————————

音符音乐数据集

其它数据集

健康 &生物数据

  • 欧盟传染病监测图集:http://ecdc.europa.eu/en/data-tools/atlas/Pages/atlas.asp