史上最强数据集集合:50最佳机器学习通用数据集丨资源-量子比特
- 时间:
- 浏览:0
外国自助媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了50个最佳机器学习公共数据集排行榜,并分享了量子比特。
事先说明两个注意事项:
根据查找数据集的奥义CMU,查找易于使用的数据集需要注意几点:
去哪里找数据集Kaggle:爱竞争的盆友们应该很熟悉,Kaggle有各种有趣的数据集、拉面评级、篮球数据,甚至西雅图宠物许可证。
https://www.kaggle.com/
UCI机器学习库:最古老的数据集源之一是寻找有趣数据集的第一站。因为数据集是用户贡献的,所以有不同的清洁度,但大部分都是干净的,不需要注册就可以直接从UCI机器学习库下载。
http://mlr.cs.umass.edu/ml/
VisualData:分类的计算机视觉数据集,可搜索~
https://www.visualdata.io/
接下来是那50个数据集。由于后期加入了一些补充,总数超过了50。
标签:带注释的大型图像数据集。
http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
ImageNet:熟悉的ImageNet、女神李飞飞参与制作,同名的比赛影响了整个电脑视觉界。
http://image-net.org/
LSUN:场景理解和许多辅助任务(如房间布局估计和显式预测)
http://lsun.cs.princeton.edu/2016/
S COCO:同样是著名的计算机视觉数据集,同名的比赛每年都被中国人排在首位。
http://mscoco.org/
COIL 100:100个不同的物体成像在360度旋转的各个角度上。
http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php
视觉基因组:非常详细的视觉知识库。
http://visualgenome.org/
谷歌开放图片:知识共享下的900万个图片URL收藏“注释了超过6000个类别的标签”。
https://research.googleblog.com/2016/09/introducing-open-images-dataset.html
野外标识面:用于开发人脸识别相关应用的13000张人脸标识图片。
http://vis-www.cs.umass.edu/lfw/
斯坦福狗子数据集:20580张狗的图片,包括120个不同品种。
http://vision.stanford.edu/aditya86/ImageNetDogs/
室内场景识别:67个室内类别,包括15620个图像。
http://web.mit.edu/torralba/www/indoor.html
情绪分析
多域情绪分析数据集:使用亚马逊产品评论的有点旧的数据集。
http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
IMDB评论:二元情绪分类的数据集,有点旧,有点小,约25000个电影评论。
http://ai.stanford.edu/~amaas/data/sentiment/
斯坦福情感树库:带有情感注释的标准情感数据集。
http://nlp.stanford.edu/sentiment/code.html
Sentiment140:使用160000条推特的流行数据集,该推特事先删除了表情符号。
http://help.sentiment140.com/for-students/
Twitter美国航空情绪:2015年2月美国航空推特数据被分为正、负、中性推特。
https://www.kaggle.com/crowdflower/twitter-airline-sentiment
自然语言处理
HotspotQA数据集:自然,具有多跳问题的问答数据集,具有支持事实的强大监督,实现更易于解释的问答系统。
https://hotpotqa.github.io/
安然数据集:来自安然高级管理人员的电子邮件数据。
https://www.cs.cmu.edu/~./enron/
亚马逊评论:在长达18年的时间里,亚马逊刊登了约3500万篇评论,数据包括产品、用户信息、评级和文本评论。
https://snap.stanford.edu/data/web-Amazon.html
谷歌Books Ngrams:谷歌Books内的一系列文本。
https://aws.amazon.com/datasets/google-books-ngrams/
Blogger Corpus:blogger.com收集681288条博客,每个博客至少包含200个常用英语单词。
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
维基百科链接数据:维基百科全文包含来自400多万篇文章的近19亿个单词,可以通过段落、短语或段落本身的一部分进行搜索。
https://code.google.com/p/wiki-links/downloads/list
Gutenberg电子书列表:Gutenberg项目的带注释的电子书列表。
http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
Hansards加拿大议会文本:来自第36届加拿大议会记录的130万组文本。
http://www.isi.edu/natural-language/download/hansard/
Jeopardy:来自猜谜节目Jeopardy的超过200000个问题存档。
http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/
英文垃圾邮件收集:由5574条英文垃圾邮件组成的数据集。
http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
Yelp评论:Yelp是美国发布的“公共评论”,其中包含超过500万条评论的开放数据集。
https://www.yelp.com/dataset
UCI Spambase—用于垃圾邮件过滤的大型垃圾邮件数据集。
https://archive.ics.uci.edu/ml/datasets/Spambase
自动运行
Berkeley DeepDrive BDD100k:目前最大的自动驾驶数据集,包含超过100000个视频,包括在一天的不同时间段和天气条件下超过1100小时的驾驶体验。带注释的图片来自纽约和旧金山地区。
http://bdd-data.berkeley.edu/
百度Apolloscaps:度娘大型数据集,定义了汽车、自行车、行人、建筑、路灯等26种不同的物体。
http://apolloscape.auto/
Comma.ai:汽车速度、加速度、转向角、GPS坐标等超过7小时的高速公路运行。
https://archive.org/details/comma-dataset
牛津机器人汽车:该数据集来自牛津机器人汽车,它在一年的时间里在英国牛津的同一条路上,反复行驶了100多次,捕捉到了天气、交通和行人的不同组合、建筑和道路工程等的长期变化。
http://robotcar-dataset.robots.ox.ac.uk/
城市景观数据集:记录50个不同城市城市景观的大型数据集。
CSSAD数据集:该数据集对于自动驾驶车辆的感知和导航非常有用。但数据集严重偏向发达国家的道路。
http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset
KUL比利时交通标志数据集:来自比利时佛兰德斯地区数千个实体交通标志的超过10000条注释。
http://www.vision.ee.ethz.ch/~timofter/traffic_signs/
IT AGE Lab:AgeLab收集的1000小时以上多传感器运行数据集的样本。
http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/
LISA:UC圣地亚哥智能与安全汽车实验室数据集。包括交通标志、车辆检查、交通信号灯和轨道模式。
http://cvrr.ucsd.edu/LISA/datasets.html
博世小交通灯数据集:用于深度学习的小型交通灯数据集。
https://hci.iwr.uni-heidelberg.de/node/6132
LaRa交通灯识别:巴黎交通信号灯数据集。
http://www.lara.prd.fr/benchmarks/trafficlightsrecognition
WPI数据集:信号、行人、车道检测的数据集。
http://computing.wpi.edu/dataset.html
临床
MIMIC-III:MIT计算了生理学实验室的公开数据集,标记了约40000名集中治疗患者的健康数据,包括人口统计学、生命体征、实验室测试、药物等维度。
https://mimic.physionet.org/
一般数据集除了机器学习专用的数据集以外还有几个一般数据集,可能很有趣~
公共政府数据集
Data.gov:在这个网站上,您可以从多个美国政府机构下载数据,包括从政府预算到考试分数的各种奇怪数据。但其中大部分数据都需要进一步研究。
食品环境图集:本地食材如何影响美国饮食的数据。
https://catalog.data.gov/dataset/food-environment-atlas-f4a22
学校财务系统:美国学校财务系统调查。
https://catalog.data.gov/dataset/annual-survey-of-school-system-finances
慢性病数据:美国地区慢性病指标数据。
https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9
美国国立教育统计中心:教育机构和教育人口统计数据不仅是美国的数据,还有世界其他地方的数据。
https://nces.ed.gov/
英国数据服务:英国最大的社会、经济和人口数据集。
https://www.ukdataservice.ac.uk/
数据美国:全面可视化的美国公共数据。