视觉数据集集锦（转）

参考： https://blog.csdn.net/Cydiachencc/article/details/84865194 https://blog.csdn

2023-12-07 技术

参考：
https://blog.csdn.net/Cydiachencc/article/details/84865194
https://blog.csdn.net/qq_14845119/article/details/51913171

0 MNIST

这个数据集主要就是手写数字数据集，这里的话整个数据集一共有60000张训练图片和10000张测试图片。

1 Animals

这个数据集的话，是从Kaggle challenge中间的Dogs vs. Cats提取出来的。其中包括：狗、猫、熊猫。一共就3000张图像。

2 CIFAR-10

CIFAR-10 包括60,000张 32 × 32 × 3 (RGB) 图片，其中的feature vector 为 3072.
CIFAR-10 包括了10个种类: airplanes, automobiles, birds, cats, deer, dogs, frogs,
horses, ships, and trucks.

3 SMILES

SMILES数据包括了人脸，其中的话人脸的话都是小伙着不笑的。
图片的话是灰度图片，其中的话一共有13165张灰度图片，每张图片的尺寸是：64∗6464∗64 64*6464∗64
整个数据集里面的图片都是在人脸区域做了crop，这个对我们希望在人脸上面进行数据处理的情况可以提供很大的方便。

4 kaggle：Dogs vs Cats

这里的话，The Dogs vs. Cats challenge 是kaggle数据科学竞赛的一部分，目的是看我们的算法能够怎么样正确的对于我们的数据进行分类，究竟是包含狗还是猫。总共的话一共有25000张图片，同时的话图片的分辨率也是各不相同的。

5 PASCAL VOC

PASCALVOC 数据集是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。图像如下图所示，包含VOC2007（430M），VOC2012（1.9G）两个下载版本。下载链接为http://pjreddie.com/projects/pascal-voc-dataset-mirror/

6 FLOWER-17

Flowers-17数据集是一个17个种类的数据集，其中的话，每一个种类的话都有80张图片。这个数据集适合进行我们的花的种类分类。
这个花的数据集的话，我们很容易出现overfitting的问题，所以说我们如果需要进行调整这个数据集的话，那么我们需要好好的去应对一下这个数据集。

7 CALTECH-101

CALTECH-101这个数据集的话，是一个流行的在目标识别领域流行的benchmark dataset，是由Li fei-fei女神提出来的。
这个数据集一共有8677张图像，这些图像分别隶属于101个种类，这里的话物体的种类非常的多，包括：大象、自行车、足球甚至还有人类的大脑。
这个数据集的特点是：这些数据的话，各个类别之中的图片是不均衡的，这个在我们训练的时候，也适合我们对于这些情况进行一个特别技巧的学习。

8 ImageNet 200

这里的话，这个数据集的话其实是斯坦福大学cs231n的课程中提出的一个作业的数据集。
这里的话，数据集一共有500张训练图像，50张验证图像和50张测试图像；这些图像一共有200个分类。这里的话每一幅图像都是预先处理过的，尺寸是64∗6464∗64 64*6464∗64的彩色图片。

9 Adience

在Adience 数据集当中，这个数据集的话是用来做人的年龄和性别识别的。总共有26580张图片，人的年龄的话是在0-60岁之间。这里的话我们数据集的整体目标是：预测图片中主体的年纪和性别。

10 ImageNet

ImageNet是一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库。是美国斯坦福的计算机科学家李飞飞模拟人类的识别系统建立的。能够从图片识别物体。目前已经包含14197122张图像，是已知的最大的图像数据库。

11 ImageNet Large Scale Visual Recognition Challenge

这里的话我们会有一个ImageNet 大尺寸的识别挑战。这个挑战的话需要的是把图片都分成1000个独立的类别，这里的话使用了1.2million的训练图像，50000张的验证图像和100000张测试图像。

12 Kaggle： Facial Expression Recognition Challenge

这个数据集。里面的话总共有35888张人脸图像，这里的话我们需要把人脸图片分成7个种类：生气、恶心、害怕、快乐、悲伤、惊讶、中性（面无表情）

13 Indoor CVPR

这里的话这个Indoor的数据集的话，是包括一系列的室内图像的，包括了：店铺、房屋、休闲空间、工作空间和公共空间。这个数据集的目标非常的简单，我们需要训练一个数据集，这个数据集可以识别各个区域。

14 Stanford Cars

这里的话Stanford Car数据集包括了196种类的汽车，一共有16185张图片，这里的话我们可以实现对于车辆的品牌，型号甚至是生产年月进行识别。

15 COCO

COCO是一种新的图像识别，分割和加字幕标注的数据集。其主要特征如下：（1）目标分割（2）通过上下文进行识别（3）每个图像包含多个目标对象（4）超过300000个图像（5）超过2000000个实例（6）80种对象（7）每个图像包含5个字幕（8）包含100000个人的关键点。下载链接为http://mscoco.org/

16 Labelme

Labelme是斯坦福一个学生的母亲利用休息时间帮儿子做的标注，后来便发展为一个数据集。该数据集的主要特点包括：（1）专门为物体分类识别设计，而非仅仅是实例识别（2）专门为学习嵌入在一个场景中的对象而设计（3）高质量的像素级别标注，包括多边形框（polygons）和背景标注（segmentation masks）（4）物体类别多样性大，每种物体的差异性，多样性也大。（5）所有图像都是自己通过相机拍摄，而非copy（6）公开的，免费的。
需要通过matlab来下载，一种奇特的下载方式，下载链接为http://labelme2.csail.mit.edu/Release3.0/index.php

17 SUN

SUN数据集包含131067个图像，由908个场景类别和4479个物体类别组成，其中背景标注的物体有313884个。图像如下图所示，下载链接为:http://groups.csail.mit.edu/vision/SUN/

18 Caltech

Caltech是加州理工学院的图像数据库，包含Caltech101和Caltech256两个数据集。该数据集是由Fei-FeiLi, Marco Andreetto, Marc 'Aurelio Ranzato在2003年9月收集而成的。Caltech101包含101种类别的物体，每种类别大约40到800个图像，大部分的类别有大约50个图像。Caltech256包含256种类别的物体，大约30607张图像。下载链接为http://www.vision.caltech.edu/Image_Datasets/Caltech101/

19 Corel5k

Corel5K图像集，共包含科雷尔（Corel）公司收集整理的5000幅图片，故名：Corel5K，可以用于科学图像实验：分类、检索等。Corel5k数据集是图像实验的事实标准数据集。请勿用于商业用途。私底下学习交流使用。Corel图像库涵盖多个主题，由若干个CD组成，每个CD包含100张大小相等的图像，可以转换成多种格式。每张CD代表一个语义主题，例如有公共汽车、恐龙、海滩等。Corel5k自从被提出用于图像标注实验后，已经成为图像实验的标准数据集，被广泛应用于标注算法性能的比较。Corel5k由50张CD组成，包含50个语义主题。
Corel5k图像库通常被分成三个部分：4000张图像作为训练集，500张图像作为验证集用来估计模型参数，其余500张作为测试集评价算法性能。使用验证集寻找到最优模型参数后4000张训练集和500张验证集混合起来组成新的训练集。
该图像库中的每张图片被标注1~5个标注词，训练集中总共有374个标注词，在测试集中总共使用了263个标注词。图像如下图所示，很遗憾本人也未找到官方下载路径，于是github上传了一份，下载链接为https://github.com/watersink/Corel5K

20 CIFAR（Canada Institude For Advanced Research）

CIFAR是由加拿大先进技术研究院的AlexKrizhevsky, Vinod Nair和Geoffrey Hinton收集而成的80百万小图片数据集。包含CIFAR-10和CIFAR-100两个数据集。 Cifar-10由60000张32*32的RGB彩色图片构成，共10个分类。50000张训练，10000张测试（交叉验证）。这个数据集最大的特点在于将识别迁移到了普适物体，而且应用于多分类。CIFAR-100由60000张图像构成，包含100个类别，每个类别600张图像，其中500张用于训练，100张用于测试。其中这100个类别又组成了20个大的类别，每个图像包含小类别和大类别两个标签。官网提供了Matlab,C，python三个版本的数据格式。图像如下图所示，下载链接为http://www.cs.toronto.edu/~kriz/cifar.html

21 AFLW（Annotated Facial Landmarks in the Wild）

AFLW人脸数据库，是一个包括多姿态、多视角的大规模人脸数据库，而且每个人脸都被标注了21个特征点。此数据库信息量非常大，包括了各种姿态、表情、光照、种族等因素影响的图片。AFLW人脸数据库大约包括25000万已手工标注的人脸图片，其中59%为女性，41%为男性，大部分的图片都是彩色，只有少部分是灰色图片。该数据库非常适合用于人脸识别、人脸检测、人脸对齐等方面的研究，具有很高的研究价值。图像如下图所示，需要申请帐号才可以下载，下载链接为http://lrs.icg.tugraz.at/research/aflw/

22 LFW（Labeled Faces in the Wild）

LFW是一个用于研究无约束的人脸识别的数据库。该数据集包含了从网络收集的13000张人脸图像，每张图像都以被拍摄的人名命名。其中，有1680个人有两个或两个以上不同的照片。这些数据集唯一的限制就是它们可以被经典的Viola-Jones检测器检测到（a
hummor）。图像如下图所示，下载链接为http://vis-www.cs.umass.edu/lfw/index.html#download

23 AFW（Annotated Faces in the Wild）

AFW数据集是使用Flickr（雅虎旗下图片分享网站）图像建立的人脸图像库，包含205个图像，其中有473个标记的人脸。对于每一个人脸都包含一个长方形边界框，6个地标和相关的姿势角度。数据库虽然不大，额外的好处是作者给出了其2012 CVPR的论文和程序以及训练好的模型。图像如下图所示，下载链接为http://www.ics.uci.edu/~xzhu/face/

24 FDDB（Face Detection Data Set and Benchmark）

FDDB数据集主要用于约束人脸检测研究，该数据集选取野外环境中拍摄的2845个图像，从中选择5171个人脸图像。是一个被广泛使用的权威的人脸检测平台。图像如下图所示，下载链接为http://vis-www.cs.umass.edu/fddb/

25 WIDER FACE

WIDER FACE是香港中文大学的一个提供更广泛人脸数据的人脸检测基准数据集，由YangShuo， Luo Ping ，Loy ，Chen Change ，Tang Xiaoou收集。它包含32203个图像和393703个人脸图像，在尺度，姿势，闭塞，表达，装扮，关照等方面表现出了大的变化。WIDER FACE是基于61个事件类别组织的，对于每一个事件类别，选取其中的40%作为训练集，10%用于交叉验证（cross validation），50%作为测试集。和PASCAL
VOC数据集一样，该数据集也采用相同的指标。和MALF和Caltech数据集一样，对于测试图像并没有提供相应的背景边界框。图像如下图所示，下载链接为http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/

26 CMU-MIT

CMU-MIT是由卡内基梅隆大学和麻省理工学院一起收集的数据集，所有图片都是黑白的gif格式。里面包含511个闭合的人脸图像，其中130个是正面的人脸图像。图像如下图所示，没有找到官方链接，Github下载链接为https://github.com/watersink/CMU-MIT

27 GENKI

GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三个部分。GENKI-R2009a包含11159个图像，GENKI-4K包含4000个图像，分为“笑”和“不笑”两种，每个图片的人脸的尺度大小，姿势，光照变化，头的转动等都不一样，专门用于做笑脸识别。GENKI-SZSL包含3500个图像，这些图像包括广泛的背景，光照条件，地理位置，个人身份和种族等。图像如下图所示，下载链接为http://mplab.ucsd.edu，如果进不去可以，同样可以去下面的github下载，链接https://github.com/watersink/GENKI

28 IJB-A (IARPA JanusBenchmark A)

IJB-A是一个用于人脸检测和识别的数据库，包含24327个图像和49759个人脸。图像如下图所示，需要邮箱申请相应帐号才可以下载，下载链接为http://www.nist.gov/itl/iad/ig/ijba_request.cfm

29 MALF (Multi-Attribute Labelled Faces)

MALF是为了细粒度的评估野外环境中人脸检测模型而设计的数据库。数据主要来源于Internet，包含5250个图像，11931个人脸。每一幅图像包含正方形边界框，俯仰、蜷缩等姿势等。该数据集忽略了小于20*20的人脸，大约838个人脸，占该数据集的7%。同时，该数据集还提供了性别，是否带眼镜，是否遮挡，是否是夸张的表情等信息。图像如下图所示，需要申请才可以得到官方的下载链接，链接为http://www.cbsr.ia.ac.cn/faceevaluation/

版权声明

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！