深度學習--歷史趨勢2

 

深度學習--歷史趨勢2...





subsection{与日俱增的数据量}

label{sec:increasing_dataset_sizes}

人们可能想问,尽管人工gls{NN}的第一个实验在20世纪50年代就完成了,为什么gls{DL}直到最近才被认为是关键技术。

自20世纪90年代以来,gls{DL}就已经成功用于商业应用,但通常被视为是一种艺术而不是一种技术,且只有专家可以使用的艺术,这种观点持续到最近。

确实,要从一个gls{DL}算法获得良好的性能需要一些技巧。

幸运的是,随着训练数据的增加,所需的技巧正在减少。

目前在复杂的任务达到与人类表现的学习算法,与20世纪80年代努力解决的玩具问题(toy problem)的学习算法几乎是一样的,尽管这些算法训练的模型经历了变革,简化了极深架构的训练。

最重要的新进展是现在我们有了这些算法成功训练所需的资源。

figref{fig:chap1_dataset_size_color}展示了基准数据集的大小如何随着时间的推移显著增加。

这种趋势是由社会日益数字化驱动的。

由于我们的活动越来越多发生在计算机上,我们做什么也越来越多地被记录。

我们的计算机越来越多地联网在一起,变得更容易集中管理这些记录,并将它们整理成适于gls{ML}应用的数据集。

因为统计估计的主要负担(观察少量数据以在新数据上泛化)已经减轻,``大数据'的时代使gls{ML}更加容易。

截至2016年,一个粗略的经验法则是,监督gls{DL}算法一般在每类给定约5000标注样本情况下可以实现可接受的性能,当至少有1000万标注样本的数据集用于训练时将达到或超过人类表现。

在更小的数据集上成功是一个重要的研究领域,为此我们应特别侧重于如何通过无监督或半监督学习充分利用大量的未标注样本。

egin{figure}[!htb]

ifOpenSource

centerline{includegraphics{figure.pdf}}

else

centerline{includegraphics{Chapter1/figures/dataset_size_color}}

fi

caption{与日俱增的数据量。

20世纪初,统计学家使用数百或数千的手动制作的测量来研究数据集citep{garson:1900,student08ttest,IrisData1935,Fisher-1936}。

20世纪50年代到80年代,受生物启发的机器学习开拓者通常使用小的合成数据集,如低分辨率的字母位图,设计为在低计算成本下表明神经网络能够学习特定功能citep{Widrow60,Rumelhart86c}。

20世纪80年代和90年代,机器学习变得更加统计,并开始利用包含成千上万个样本的更大数据集,如手写扫描数字的MNIST数据集(如figref{fig:chap1_mnist})所示citep{LeCun98-small}。

在21世纪初的第一个十年,相同大小更复杂的数据集持续出现,如CIFAR-10数据集citep{KrizhevskyHinton2009} 。

在这十年结束和下五年,明显更大的数据集(包含数万到数千万的样例)完全改变了深度学习的可能实现的事。

这些数据集包括公共Street View House Numbers数据集 citep{Netzer-wkshp-2011}、各种版本的ImageNet数据集citep{imagenet_cvpr09,Deng2010,ILSVRCarxiv14}以及Sports-1M数据集citep{KarpathyCVPR14}。

在图顶部,我们看到翻译句子的数据集通常远大于其他数据集,如根据Canadian Hansard制作的IBM数据集citep{brown1990statistical}和WMT 2014英法数据集citep{wmt14} 。

}

label{fig:chap1_dataset_size_color}

end{figure}

egin{figure}[!htb]

ifOpenSource

centerline{includegraphics{figure.pdf}}

else

centerline{includegraphics[width=0.8
extwidth]{Chapter1/figures/mnist}}

fi

caption{MNIST数据集的输入样例。

``NIST'代表国家标准和技术研究所(National Institute of Standards and Technology),是最初收集这些数据的机构。

``M'代表``修改的(Modified)',为更容易地与机器学习算法一起使用,数据已经过预处理。

MNIST数据集包括手写数字的扫描和相关标签(描述每个图像中包含0-9中哪个数字)。

这个简单的分类问题是深度学习研究中最简单和最广泛使用的测试之一。

尽管现代技术很容易解决这个问题,它仍然很受欢迎。

Geoffrey Hinton将其描述为``机器学习的emph{果蝇}',这意味着机器学习研究人员可以在受控的实验室条件下研究他们的算法,就像生物学家经常研究果蝇一样。

}

label{fig:chap1_mnist}

end{figure}


    关注 逍遥GO


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册