2016年深度学习的全球重大进展

 

◇◆◇◆◇编者按2016年在深度学习领域最激动人心的进展是什么?在图像领域,更加成熟的生成式对抗网络已经展现...

◇◆◇◆◇
编者按


2016年在深度学习领域最激动人心的进展是什么?在图像领域,更加成熟的生成式对抗网络已经展现出越来越大的潜力;在文本领域,彼此割裂的任务模块开始配合协同产生更强大的系统。此外,大量开放合作社区的涌现将进一步加速深度学习领域的进展...

深度学习在过去几年一直是机器学习技术群中的的核心主题,而2016 年更是如此。在这篇文章中,回顾了对该领域贡献最大(或有潜力的)的进展,相关组织和社区如何保证这些技术能够有益地被人类使用。

无监督学习一直以来都是研究人员所要解决的主要挑战之一。我们认为该领域在 2016 年取得了重大的进展,这主要由于生成模型(Generative Model)的大量研究。

此外,与机器能够自然地交流也是一个梦想目标,谷歌、Facebook 这样的巨头公司已经提出了几种途径。在这样的背景环境下,2016年出现了很多自然语言处理领域的创新,这些创新对实现这个梦想目标是非常关键的。
 ◇◆◇◆◇
无监督学习


无监督学习与需要标签的监督学习相对立,是指在没有额外信息的情况下,从原始数据中提取模式和结构的任务。

使用神经网络解决该问题的传统经典方法是自编码器。其基础的版本由多层感知机组成,其输入层和输出层有同样的大小,而训练的用来回复输入数据的隐藏层较小。一旦完成训练,隐藏层的输出可以是对聚类、降维、改进监督分类以及数据压缩都有用的数据表征。

  • 生成对抗网络(GAN)


最近,一种被称为生成对抗网络(GAN)的基于生成模型的方法出现了。GAN 可以实现无监督学习解决方案的模型。GAN的提出是具有革命性的意义。 Yann LeCun(深度学习之父之一)在一次关于这个研究的演讲中这样说:GAN 是机器学习在过去的 20 年里最重要的思想。

尽管在 2014 年 IanGoodfellow 就提出了 GAN,可直到现在其真正潜力才逐渐显现。基于 GAN 的更好的训练方法已经出现了,深度卷积式的 GAN也被提出了,解决了之前深度学习的一些限制。不仅如此,一些新的应用(我们稍后将列出一部分)表明这个模型非常强大且灵活。

  • GAN思想的直观解说


想象一个有野心的画家从事名画赝品的制作(称之为 G),另有一个人(称之为 D)以鉴别画的真伪为生。先让 D 观察分析一些毕加索的画作,而G 尝试用他的毕加索画作赝品来愚弄D,目的就是让D相信他的赝品是毕加索的真作。有时候 G 能够成功,但是随着 D 对毕加索作品的了解程度加深,G 发现越来越难以愚弄D了,所以 G 也在不断提升自己制作赝品的能力。如此反复,不仅 D 已经很熟悉毕加索作品的鉴别,同时 G 对毕加索赝品的制作技术也大大提升。这就是 GAN 模型背后的思想。

GAN 模型由两个持续对抗的神经网络:一个生成器(G)和一个鉴别器(D)。给定一组训练样本(如图像),并假设这些图像服从某种分布(x)。在 GAN 网络中,G 会输出一个分布结果而 D 则会判定这个分布是否和训练集的分布一样。

G 会从一些噪声z开始生成得到生成的图像G(z)。D 则会得到来自真实分布x的图像和来自G生成的图像:D(x)和D(G(z))。


GAN 的工作方式
D 和 G 同时进行学习,一旦 G 被训练而对训练样本的分布有了足够的认识,它就可以生成有类似特性的新样本:


GAN 生成的图像
这些图像是在 CIFAR-10 上训练的一个 GAN 生成的。如果你注意细节,你会发现它们确实不是实物。然而,它们捕捉到了让自己从一定距离看起来真实的一些特征。

  • InfoGAN


近期的进展对GAN 的思想进行了扩展,不仅可以用于估计数据分布,还能学习数据的可解释、有用的表征。这些向量表征需要捕捉更丰富的信息(和自编码器中的一样),也需要是可解释的,也就是说我们要区分出生成的输出中特定类型的转换的向量部分。

OpenAI 的研究人员在 8 月份提出InfoGAN 模型,其目的就是为了解决这个问题。简言之,InfoGAN 能够以无监督的方式生成包含数据相关信息的表征。例如,当应用于 MNIST 数据集的时候,它能够在无需手动标记数据的情况下推断出真实数字(1、2、3……)、生成的样本的转动角度(rotation)与宽度(width)。

  • 条件生成式对抗网络


生成式对抗网络的另一个扩展是一类叫条件生成式对抗网络(cGAN)。这些模型能够产生包含一些相关外部信息(类标签,文本,另一个图像)的样本,使用它来迫使G产生一个特定类型的输出。最近出现的一些应用程序是:

文本到图像:

以文字描述(编码为字符级向量)作为外部信息并生成图像。

参阅:GenerativeAdversarial Text to Image Synthesis (Jun 2016). (点击阅读原文可找到链接)

如下图,根据文本自动生成的图像。
图像到图像:

将输入图像映射到输出图像。

参阅:Image-to-ImageTranslation with Conditional Adversarial Nets (Nov 2016).(点击阅读原文可找到链接)

如下图,左图为输入图像,右图为输出图像。
超分辨率:

以原始低分辨率的图像为基础,试图尽可能从细节上更详细地还原图像的自然面貌。任何安国CSI的人都知道我在说什么:)。

参阅:Photo-RealisticSingle Image Super-Resolution Using a Generative Adversarial Network (Nov 2016).(点击阅读原文可找到链接)
 ◇◆◇◆◇
自然语言处理
为了能够与机器进行流利的对话,需要先解决几个问题:文本理解,问题回答和机器翻译。

  • 文本理解
Salesforce MetaMind 已建立了一个叫多任务联合(JMT)的新模型,旨在通过创建一个能够学习五种常见NLP任务的单一模型:

1、词性标注

给每一个词标注词性,如名词、动词、形容词。

2、程序分块

又名浅层分析。设计一系列任务,如发现名词或动词组。

3、依存关系句法分析

识别词与词之间的语法关系(如一个形容词是否在修饰某个名词)。

4、语义关联

测量两个句子之间的语义距离。其结果是一个真正有价值的得分。

5、文本蕴涵

判断前提句是否蕴涵某种假设,如:蕴涵、矛盾、中性。

这个模型背后的魔力在于它是端到端的训练。这意味着它允许不同的层之间的合作,从而利用较高层的结果(更复杂的任务)来改进较低层的任务(这是不太复杂)。相较于只能通过较低层的设计来改进较高层的效果的想法,这是一个新的想法,但并不是一个新的方法。因此,该模型几乎艺术性地实现了除但词性标注(它排第二)以外所有方面。

  • 问题回答


Metamind也提出了一个新的称为Dynamic Coattention Network (DCN)的问题回答模型,这是模型是建立在一个非常直观的想法上。

想象着我会给你一个长的文本,并问你一些问题。你想先读课文,然后被提问,还是在了解问题后再开始读课文?当然,事先知道问题,会让你在阅读时知道要重点关注什么。否则,你将要关注每一个细节,以覆盖未来所有可能的问题。

DCN做同样的事情。首先,基于将要回答的问题,他将生成一个内部表述文件,然后将一系列可能的答案开始迭代,直至汇聚成最终的答案。

  • 机器翻译


在9月,谷歌发布了一个新的翻译模型,神经机器翻译系统(GNMT)。该模型就是专门用于双语互译,如中文-英文。

新的GNMT版本是在十一月公布的。较以往模型的提高在于,它可训练一个单一模型在多个对语言之间翻译。与以往的模型,唯一不同的是,GNMT现在需要先输入一个指定的目标语言。它还可以实现零镜头翻译,这意味着它能够翻译一对没有受过训练的语言。

结果表明,GNMT多对语言训练模型比单一配对训练模型更好,同时也表明它能够在多对语言间传递“翻译知识”。
 ◇◆◇◆◇
机器学习社区


一些公司和企业家创建了非盈利合作伙伴关系,用于讨论机器学习的未来,确保这项令人深刻的技术能合理地用于对社会有利的方向。

OpenAI是一个与科研界和工业界合作的非盈利性组织,并免费向公众发布结果。它成立于2015年底,并于2016年开始陆续交付首期结果(刊物如infogan,平台如Unierse以及一些正式或非正式的会议。它背后的动机是为了确保AI技术可以服务于尽可能多的人,避免AI超级大国的存在。

另一方面,亚马逊、DeepMind、谷歌、脸谱网、IBM和微软签定AI合作伙伴关系。其目标是促进公众对该领域的了解,支持最佳实践,并开发一个开放的以供讨论和参与的平台。

值得强调的另一点是科研社区的开放性。在他们的网站上,你不但能免费找到像ArXiv(或Arxi—Sanity)这样的几乎任何出版物,你也可以通过使用相同的代码复制他们的实验。一个有用的工具是GitXiv,用来连接ArXiv论文与开源项目库。

开源工具到处都是(如我们强调的MLconf SF博客中的10个主要工具),一般是相关研究人员和公司创建并使用的。下面是2016年最流行的深度学习工具列表:

  • TensorFlow     by Google.
  • Keras by     François Chollet.
  • CNTK by     Microsoft.
  • MXNET by     Distributed (Deep) Machine Learning Community. Adapted by Amazon.
  • Theano by     Université de Montréal.
  • Torch by Ronan     Collobert, Koray Kavukcuoglu, Clement Farabet. Widely used by Facebook.
 ◇◆◇◆◇
最后得思考


这是加入机器学习的一个绝佳时机。正如你所看到的,今年是特别令人兴奋的一年。相关研究进展如此快速,以致于都很难跟上最新的进度。我们真的很幸运能生活在这样一个AI已经民主化的时代。

在Tryolabs我们正在利用这项伟大的技术进行一些非常有趣的项目。我们保证公布我们的研究成果,并继续与业界和所有感兴趣的开发人员分享相关经验。

在这篇文章中我们回顾了很多,但还有许多其他伟大的发展,我们不得不省略。如果你觉得我们有表达不当的地方,欢迎评论留言!


    关注 小象


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册