三三文章网 - 科技知识大全是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

史上最强数据集集合:50最佳机器学习通用数据集丨资源-量子比特

  • 时间:
  • 浏览:0

外国自助媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了50个最佳机器学习公共数据集排行榜,并分享了量子比特。

事先说明两个注意事项:

根据查找数据集的奥义CMU,查找易于使用的数据集需要注意几点:

去哪里找数据集Kaggle:爱竞争的盆友们应该很熟悉,Kaggle有各种有趣的数据集、拉面评级、篮球数据,甚至西雅图宠物许可证。

https://www.kaggle.com/

UCI机器学习库:最古老的数据集源之一是寻找有趣数据集的第一站。因为数据集是用户贡献的,所以有不同的清洁度,但大部分都是干净的,不需要注册就可以直接从UCI机器学习库下载。

http://mlr.cs.umass.edu/ml/

VisualData:分类的计算机视觉数据集,可搜索~

https://www.visualdata.io/

接下来是那50个数据集。由于后期加入了一些补充,总数超过了50。

机器学习数据集图像

标签:带注释的大型图像数据集。

http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

ImageNet:熟悉的ImageNet、女神李飞飞参与制作,同名的比赛影响了整个电脑视觉界。

http://image-net.org/

LSUN:场景理解和许多辅助任务(如房间布局估计和显式预测)

http://lsun.cs.princeton.edu/2016/

S COCO:同样是著名的计算机视觉数据集,同名的比赛每年都被中国人排在首位。

http://mscoco.org/

COIL 100:100个不同的物体成像在360度旋转的各个角度上。

http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

视觉基因组:非常详细的视觉知识库。

http://visualgenome.org/

谷歌开放图片:知识共享下的900万个图片URL收藏“注释了超过6000个类别的标签”。

https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

野外标识面:用于开发人脸识别相关应用的13000张人脸标识图片。

http://vis-www.cs.umass.edu/lfw/

斯坦福狗子数据集:20580张狗的图片,包括120个不同品种。

http://vision.stanford.edu/aditya86/ImageNetDogs/

室内场景识别:67个室内类别,包括15620个图像。

http://web.mit.edu/torralba/www/indoor.html

情绪分析

多域情绪分析数据集:使用亚马逊产品评论的有点旧的数据集。

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

IMDB评论:二元情绪分类的数据集,有点旧,有点小,约25000个电影评论。

http://ai.stanford.edu/~amaas/data/sentiment/

斯坦福情感树库:带有情感注释的标准情感数据集。

http://nlp.stanford.edu/sentiment/code.html

Sentiment140:使用160000条推特的流行数据集,该推特事先删除了表情符号。

http://help.sentiment140.com/for-students/

Twitter美国航空情绪:2015年2月美国航空推特数据被分为正、负、中性推特。

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然语言处理

HotspotQA数据集:自然,具有多跳问题的问答数据集,具有支持事实的强大监督,实现更易于解释的问答系统。

https://hotpotqa.github.io/

安然数据集:来自安然高级管理人员的电子邮件数据。

https://www.cs.cmu.edu/~./enron/

亚马逊评论:在长达18年的时间里,亚马逊刊登了约3500万篇评论,数据包括产品、用户信息、评级和文本评论。

https://snap.stanford.edu/data/web-Amazon.html

谷歌Books Ngrams:谷歌Books内的一系列文本。

https://aws.amazon.com/datasets/google-books-ngrams/

Blogger Corpus:blogger.com收集681288条博客,每个博客至少包含200个常用英语单词。

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

维基百科链接数据:维基百科全文包含来自400多万篇文章的近19亿个单词,可以通过段落、短语或段落本身的一部分进行搜索。

https://code.google.com/p/wiki-links/downloads/list

Gutenberg电子书列表:Gutenberg项目的带注释的电子书列表。

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

Hansards加拿大议会文本:来自第36届加拿大议会记录的130万组文本。

http://www.isi.edu/natural-language/download/hansard/

Jeopardy:来自猜谜节目Jeopardy的超过200000个问题存档。

http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

英文垃圾邮件收集:由5574条英文垃圾邮件组成的数据集。

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

Yelp评论:Yelp是美国发布的“公共评论”,其中包含超过500万条评论的开放数据集。

https://www.yelp.com/dataset

UCI Spambase—用于垃圾邮件过滤的大型垃圾邮件数据集。

https://archive.ics.uci.edu/ml/datasets/Spambase

自动运行

Berkeley DeepDrive BDD100k:目前最大的自动驾驶数据集,包含超过100000个视频,包括在一天的不同时间段和天气条件下超过1100小时的驾驶体验。带注释的图片来自纽约和旧金山地区。

http://bdd-data.berkeley.edu/

百度Apolloscaps:度娘大型数据集,定义了汽车、自行车、行人、建筑、路灯等26种不同的物体。

http://apolloscape.auto/

Comma.ai:汽车速度、加速度、转向角、GPS坐标等超过7小时的高速公路运行。

https://archive.org/details/comma-dataset

牛津机器人汽车:该数据集来自牛津机器人汽车,它在一年的时间里在英国牛津的同一条路上,反复行驶了100多次,捕捉到了天气、交通和行人的不同组合、建筑和道路工程等的长期变化。

http://robotcar-dataset.robots.ox.ac.uk/

城市景观数据集:记录50个不同城市城市景观的大型数据集。

CSSAD数据集:该数据集对于自动驾驶车辆的感知和导航非常有用。但数据集严重偏向发达国家的道路。

http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset

KUL比利时交通标志数据集:来自比利时佛兰德斯地区数千个实体交通标志的超过10000条注释。

http://www.vision.ee.ethz.ch/~timofter/traffic_signs/

IT AGE Lab:AgeLab收集的1000小时以上多传感器运行数据集的样本。

http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

LISA:UC圣地亚哥智能与安全汽车实验室数据集。包括交通标志、车辆检查、交通信号灯和轨道模式。

http://cvrr.ucsd.edu/LISA/datasets.html

博世小交通灯数据集:用于深度学习的小型交通灯数据集。

https://hci.iwr.uni-heidelberg.de/node/6132

LaRa交通灯识别:巴黎交通信号灯数据集。

http://www.lara.prd.fr/benchmarks/trafficlightsrecognition

WPI数据集:信号、行人、车道检测的数据集。

http://computing.wpi.edu/dataset.html

临床

MIMIC-III:MIT计算了生理学实验室的公开数据集,标记了约40000名集中治疗患者的健康数据,包括人口统计学、生命体征、实验室测试、药物等维度。

https://mimic.physionet.org/

一般数据集除了机器学习专用的数据集以外还有几个一般数据集,可能很有趣~

公共政府数据集

Data.gov:在这个网站上,您可以从多个美国政府机构下载数据,包括从政府预算到考试分数的各种奇怪数据。但其中大部分数据都需要进一步研究。

食品环境图集:本地食材如何影响美国饮食的数据。

https://catalog.data.gov/dataset/food-environment-atlas-f4a22

学校财务系统:美国学校财务系统调查。

https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

慢性病数据:美国地区慢性病指标数据。

https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

美国国立教育统计中心:教育机构和教育人口统计数据不仅是美国的数据,还有世界其他地方的数据。

https://nces.ed.gov/

英国数据服务:英国最大的社会、经济和人口数据集。

https://www.ukdataservice.ac.uk/

数据美国:全面可视化的美国公共数据。