谷歌与CMU联合发文审视数据对深度学习的
谷歌与CMU联合发文:审视数据对深度学习的重要性
深度学习在视觉问题上所获得的成功可归因于以下几点:
高容量模型;
高速增长的计算力;
大规模标记数据的可用性
自2012年以来,模型的性能和GPU的计算力都已取得非常大的进步但最大数据集的大小却出乎意料地保持现状那如果我们将数据集的大小扩大10倍或是100倍会产生甚么呢 本文在揭秘超大规模数据和深度学习之间那云里雾里的关系上取得了1大步进展我们利用JFT300 M数据集,图片超过3亿张中已逾有3.75亿个具有噪声的标签我们在研究,如果这个数据集用于表征学习,那么当前的视觉任务的性能将发生怎样的变化
我们的论文提供了一些预期以外的(和一些预期以内的)发现:
视觉任务的性能仍然以训练数据大小的数量级线性增加;
表征学习(或预训练)依然有很大的用处通过训练更好的基础模型,便可以提高视觉任务的性能;
正如预期的那样,我们在包括图像分类、目标检测、语义分割和人体姿态评估等不同视觉任务上出现出了新的基于目前技术水平的研究成果
我们真诚希望可以以此来激发那些机器视觉的相关社区,不要低估数据的重要性,和要发展集体努力从而建设更大的数据集
众所周知,目前的卷积神经络革命是大型标注数据集的产物(具体来说,来自ImageNet的大小为1M的标记图像)和大规模计算能力(得益于GPU)每年我们都在进一步增加计算能力(更新、更快的GPU),但是我们的数据集并没有那么荣幸ImageNet是一个基于1000个种别的1M标记图象的数据集,五年多以前用于训练AlexNet
奇怪的是,虽然GPU和模型容量都在不断增长,但是对这些模型进行训练的数据库仍然停滞不前即使是具有明显更多容量和深度的101层的ResNet,仍然使用来自ImageNet大约2011年的1M Image图象进行训练为何 在更深层次的模型和计算能力之前,我们再次贬低了数据的重要性吗 如果我们将训练数据的量增加10倍或100倍,性能会翻番么
视觉数据集的奇怪案例:虽然GPU计算能力和模型尺寸在过去五年中不断增加,但是训练数据集的大小却惊人地保持不变这是为何 如果我们使用我们的资源来增加数据集大小,会产生甚么
本论文采取的第一步,是明晰超大规模数据与深度学习之间的神秘关系当然,重要的是,如何收集比ImageNet还大的数据集为了测试当前模型的极限和上限,我们可能需要一个几近比ImageNet大100倍的数据集事实表明,搜集1M图像的1000个种别,每一个问题将需要1000万美元ImageNet使用了几种启发式(例如标签层级)来减少问题,从而将成本下降到10万美元但是,大于100倍的数据集依然需要超过1000万美元
在本论文中,我们利用了一个已存在的JFT图象数据集,该数据集由Geoffrey Hinton等科学家最早提出JFT数据集拥有超过3亿张图像,标有18291个类别注释是自动获得的,因此,这些注释比较嘈杂,并不是详实无遗的这些注释已使用复杂的算法进行清算,以提高标签的精度;然而,精度仍然有大约20%的误差我们将使用这些数据来研究数据量与视觉性能之间的关系具体来说,我们将研究视觉表征学习(预训练)的数据的能力我们评估各种视觉任务的学习性能:图象分类、对象检测、语义分割和人体姿态评估我们的实验产生了一些令人惊讶(和一些预期)的发现:
更好的表征学习真的有用!
我们的第一个视察是,大规模数据有助于表征学习,这是被我们研究的每一个视觉任务的性能改善所证明的
这表明,收集更大范围的数据集以研究预训练进程,可能会对该领域产生极大的好处我们的研究结果还表明,无监督或自监督表征学习方法的光明前景数据量仿佛可以超越标签空间的噪音
性能随着训练数据的数量级线性增加!
也许我们发现的最使人惊奇的要素是,视觉任务的性能与用于表示学习的训练数据(对数量表)的数量之间的关系我们发现这类关系还是线性的!即使是3亿张训练图象,我们对所研究的任务也没有观察到任何平台效应
容量至关重要!
我们还观察到,为了充分利用3亿张图象,需要更高容量的模型例如,在ResNet-50的情况下,COCO对象检测的增益(1.87%),比使用ResNet-152(3%)时,要小得多
长尾训练:我们的数据有相当长的尾巴
,表征学习仿佛有效这类长尾仿佛不会对卷积神经络的随机训练产生不利影响(训练仍然趋于收敛)
最新技术成果:最后,我们的论文使用从JFT-300M取得模型,在几个基准上提出了新成果例如,一个单一的模型(没有任何bell和whistle)AP(目标检测中衡量检测精度的指标)达到 37.4,而COCO检测基准的AP为34.3
孩子流鼻血怎么办
宝宝经常流鼻血
小孩上火吃什么
西安莲湖生殖医院网上预约
宁德治疗前列腺增生方法
乌海治疗早泄费用
安徽治癫痫病医院有哪些贵州哪里有治癫痫病的
江苏治癫痫病专科医院哪家好
-
贴片晶振的小型化带动未来的科技发展经济状
区块链 | 2019-07-16
-
京东联手中电信布局农村电商
区块链 | 2019-07-15
-
物联网板块投资价值体现重点关注受益股
区块链 | 2019-06-28