机器学习和计算机视觉的前20个图像数据集

拈花ヽ惹草 提交于 2020-12-16 12:12:56

计算机视觉使计算机能够理解图像和视频的内容。计算机视觉的目标是使人类视觉系统可以完成的任务自动化。

 

计算机视觉任务包括图像采集,图像处理和图像分析。图像数据可以采用不同的形式,例如视频序列,从多个角度不同的摄像机查看的图像或来自医疗扫描仪的多维数据。

 

用于计算机视觉训练的图像数据集

Labelme:MIT计算机科学和人工智能实验室(CSAIL)创建的大型数据集,包含187,240张图像,62,197条带注释的图像和658,992张带标签的对象。

http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

 

乐高积木:通过文件夹和使用Blender渲染的计算机对16种不同乐高积木进行分类的大约12,700张图像。

https://www.kaggle.com/joosthazelzet/lego-brick-images

 

ImageNet:用于新算法的实际图像数据集。根据WordNet层次结构进行组织,其中层次结构的每个节点都以成千上万的图像进行描绘。

http://image-net.org/

 

LSUN场景理解和许多辅助任务(房间布局估计,显着性预测等)

http://lsun.cs.princeton.edu/2016/

 

MS COCOCOCO是一个大规模的对象检测,分割和字幕数据集,包含超过200,000张带标签的图像。它可以用于对象分割,上下文识别以及许多其他用例。

http://mscoco.org/

 

哥伦比亚大学图像库:COIL100是一个数据集,其中包含100个不同的对象,这些对象在360度旋转的每个角度均成像。

http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

 

视觉基因组:视觉基因组是一个数据集和知识库,旨在将结构化图像概念与语言联系起来。该数据库具有详细的视觉知识库,并带有108,077张图像的字幕。

http://visualgenome.org/

 

Google的开放图像:“知识共享”下900万个URL的集合,这些URL“已用6,000多个类别的标签进行注释”。

https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

 

来自“打开图像”数据集的带注释的图像。左:Kevin Krejci的《鬼拱门》。右:J B的某些Silverware。两个图像均在CC BY 2.0许可下使用。

 

Youtube-8M:一个大规模的标签数据集,由数百万个YouTube视频ID组成,并带有3800多个视觉实体的注释。

https://research.google.com/youtube8m/index.html

 

带标签的野外面孔:13,000个带标签的人脸图像,用于开发涉及面部识别的应用程序。

http://vis-www.cs.umass.edu/lfw/

 

斯坦福犬数据集: 包含20,580张图像和120种不同的犬种类别,每个类别约有150张图像。

http://vision.stanford.edu/aditya86/ImageNetDogs/

 

地点:以场景为中心的数据库,其中包含205个场景类别和250万个带有类别标签的图像。

http://places.csail.mit.edu/index.html

 

CelebFaces具有超过200,000张名人图像的人脸数据集,每个图像带有40个属性注释。

http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

 

来自CelebFaces数据集的样本图像。

 

鲜花:在英国常见的鲜花图像数据集,包含102个不同类别。每个花类由40258张图像组成,这些图像具有不同的姿势和光线变化。

http://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html

 

植物图像分析:涵盖超过一百万个植物图像的数据集。可以从11种植物中选择。

https://www.plant-image-analysis.org/dataset

 

家庭对象:一个数据集,其中包含来自家庭的随机对象,大部分来自厨房,浴室和客厅,这些对象分为训练和测试数据集。

http://www.vision.caltech.edu/pmoreels/Datasets/Home_Objects_06/

 

CIFAR-10包含60,00032×32彩色图像的大型图像数据集,分为10类。数据集分为五个训练批次和一个测试批次,每个批次包含10,000张图像。

https://www.cs.toronto.edu/~kriz/cifar.html

 

CompCars包含163种汽车模型,包含1,716种汽车模型,每种汽车模型都标有五个属性,包括最大速度,排量,门数,座位数和汽车类型。

http://mmlab.ie.cuhk.edu.hk/datasets/comp_cars/index.html

 

室内场景识别:非常具体的数据集,非常有用,因为大多数场景识别模型在“外部”效果更好。包含67个室内类别,共15620张图像。

http://web.mit.edu/torralba/www/indoor.html

 

VisualQAVQA是一个数据集,包含有关265,016张图像的开放式问题。这些问题需要对视觉和语言的理解。对于每个图像,至少有3个问题,每个问题10个答案。

http://www.visualqa.org/


推荐阅读

Facebook和Mila推出MeDAL:NLP预训练数据集,用于通过14M文章消除医学上的歧义


点击“阅读原文”图书配套资源

本文分享自微信公众号 - 相约机器人(xiangyuejiqiren)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!