人工智能最强科普贴 北大人工智能专家谭营演讲实录

 

2016-04-18谭营、凌云Xtecher人工智能到底是什么?你对待它的态度是什么?张口讨论之际,让...



2016-04-18 谭营、凌云 Xtecher



人工智能到底是什么?

你对待它的态度是什么?

张口讨论之际,让我们,先搞懂它的历史和基本概念。



2016年4月15日晚上,北京大学研究生会、北京大学燕新社联合Xtecher共同主办“未名对话”系列讲座之一——“对话人工智能”。人工智能专家、北京大学教授谭营发表演讲,主题为《人工智能漫谈》

演讲嘉宾:谭营,北京大学计算智能实验室创建人、烟花算法发明人

本文整理:Xtecher特稿记者 凌云



 以下为谭营教授演讲实录: 
人工智能的起源




说起人工智能,它的思想萌芽可以追溯到17世纪的巴斯卡和莱布尼茨,他们萌生了有智能的机器的想法。

19世纪,英国数学家布尔和摩尔根提出了“思维定律”,机器是不是应该有思想?在19世纪,英国科学家巴贝奇还发明了第一架“计算机器”,成为人工智能发展的最早硬件,认为这是能够把人的智能寄托于机器的一个手段。

但是真正把人工智能作为一种科学来研究,要追溯到M-P模型。这是神经网络最著名的一个模型,是Mcculloch和Pitts(1943年)提出来的。为什么说这个模型奠定了人工智能的基础呢?因为这是第一次对我们人脑神经元系统进行建模。目前人工智能研究领域里非常火的一个模型——“深度神经网络”的最基本的单元还没有离开M-P模型。

除了M-P模型以外,还有Heb学习规则,这是一个让机器具有学习能力的最基本的原理。那么,现在的非监督学习基本还是沿用了这个Heb学习规则。

再一个比较有名的就是Perceptron。Perceptron是美国心理学家Rosenblatt提出来的一个系统,这个模型可以实现一定的分类功能。在当时,Perceptron就比较火,而且掀起了人工智能的第一次高潮。



那么,“人工智能”(Artificial Intelligence)这个词第一次是在哪儿提出来的呢?

是在1956年达特茅斯(Dartmouth)会议上。有几个比较有影响的科学家,像Misnky还有McCarthy,他们在会议上经过讨论,最后提出了这么一个概念。“人工智能”真正是从这个时候开始叫的。在以前,大家都不叫这个名字,有把它叫做perceptron的,有把它叫神经网络的,还有等等其他很多的名词。

那么,从1956年这个Dartmouth会议过后,人工智能就登大雅之堂了。目前,正好是一甲子(60年)。现在全世界很多研究人工智能的一些协会和机构都在筹备活动,来纪念AI诞生60周年,我们国家在这个月下旬可能也要在北京开个会。






在人工智能研究过程中,一个比较重要的人物就是阿兰·图灵。他是第一位比较明确地提出计算机是不是有智能这么一个概念。

阿兰·图灵认为机器可以模拟人脑思维过程;一个良好设计的计算机能够做到人脑所能做的一切。因此,也有人把他称为“人工智能之父”。现在大家真正比较认可的“人工智能之父”还是McCarthy,是他提出了人工智能这个名字。

图灵有一个最著名的测试,叫“图灵测试”,就是判定一个机器是不是有智能。在图灵测试里,有一个提问者提出问题,回答问题的一边是人,一边是机器。如果这个提问者分不清回答问题的人到底是人还是机器的话,那么就认为机器具有人工智能。这是判断机器有没有人工智能,但还没有回答什么是智能。



那么,真正的人工智能是什么?

我给了一个回答,就是:让机器去做需要人类智能才可以做的那些事情

比如,AlphaGo这个程序可以下围棋,可以完成人需要非常高的智能水平完成的一些工作,就是一个典型的人工智能的运用。

那么,在专业术语里面,一般把人工智能定义为“认识、模拟和扩展人的自然智能,目的是为人类服务”。换一句话说,我们研究人工智能主要是去做什么事呢?模拟我们自然智能,然后扩展或者加速我们人类智能的发展,把它提高到更高的水平,我们最终是要把这些技术应用于生产过程或者来提高我们人的生活质量,来为我们人类服务。
人工智能的发展历程




人工智能的发展经历了一个螺旋式上升的发展路线,非常曲折人工智能里面派系复杂,发展起起伏伏,一会儿是这派占了上风,打倒了另一派;过阵子,另一派又打倒了原来的那一派。

我们把它整个的发展历程梳理一下,会发现有三大派别——符号主义学派、联接主义学派和行为主义学派。前两个派别是最主流的发展学派,而且这两个学派之间互不买账,互相贬低对方。

▼符号主义学派——基于规则推理

传统的人工智能,基于规则推理。我刚才提到的几个人物,Misnky、McCarthy、Nillsson这些人实际上就是参加1956年达特茅斯会议的组织者。也就是说在五六十年代,当人工智能这个词一出来,当时占主流的是符号主义学派,是他们在支配人工智能的发展。

▼联接主义学派——模拟神经网络

联结主义学派也是起起落落。五六十年代,是它的低潮,正好被符号主义学派打压下去;到80年代是它的第一次复兴;到90年代初,它又进入瓶颈;现在又进行了第二次胜利,是联接主义学派受到追捧的时代

▼行为主义学派——进化主义或控制论

始于六七十年代,以Wiener(通信原理、雷达系统的奠基人)为代表,就是做控制论,演化控制,实际上是世界二次大战的需求,当时得到了很广泛的发展。
人工智能的研究内容




作为一个学科,人工智能主要从这几个方面进行了深入的研究。

在方法层面,有启发式搜索和推理,这个是建立在知识和知识工程的基础上,从方法层面来讲,应该归于符号主义学派。还有模式识别、机器学习和生物激发方法(计算智能)等是当今或者说近二三十年获得广泛研究和追捧的方法。尤其是机器学习和计算智能,是人工智能研究的热点和前沿。

在应用层面,实际上有很多。像自然语言理解,我们说的自然语言。原来我们认为这些是有智能的人才能做,那么机器实际上现在也能做,能识别语音,能进行翻译。还有数据库的检查检索系统、专家系统、机器定理证明等。现在在我们的图像识别、语音识别以及计算视觉等领域已经取得了非常多的进展。这都是人工智能在应用层面的一些工作。
计算智能的研究(Computational Intelligence)


下面我来说一说现在人工智能发展最前沿的一个研究——计算智能的研究。在计算智能里面,它主要是通过计算智能的方法来实现人类智能。

计算智能现在作为一门学科,主要包括了人工神经网络、模糊逻辑、进化计算、群体智能还有人工生命等领域。

那么计算智能跟传统的人工智能的区别在哪里呢?

传统的人工智能,我们谈的就是基于符号的,然后以知识信息为基础,通过逻辑推理来进行处理。因为当时传统人工智能的想法是人的思维比较高级、比较高等,需要用一些高水平的方法,需要用符号,需要严密的逻辑推理才能实现。这个时候的基本思路是自顶向下。

而计算智能实际上是以数据为基础,通过数值计算进行求解。现在计算手段飞速发展,为计算智能的深入研究提供了很好的手段,所以计算智能得到了非常广泛的发展。

▼人工神经网络

在计算智能里面,研究最早、认识最为广泛的之一的领域就是人工神经网络。

左边是一个生物神经元,神经元之间是有突触连接的,而且这个突触连接是可以调整的,那么通过调整这个连接,就可以去感受输入的信号或者是输出的信号的变化。

人工神经网络实际上就是对生物神经网络进行建模。这个模型实际上就是最早我提到的M-P模型,把神经元都排列起来,组成了这么一个网状结构,有多输入、多输出,它们之间是有分层的,之间是一个全连接状态,这么一个网络就是一个最简单的神经网络,我们把它称为“多层神经网络”。这个是应用最广泛、也潜力巨大的神经网络模型。其实,我们现在的深度神经网络也是建立在这么一个模型的基础上。

▼复杂优化问题

在计算智能里面,还有一大类是要求解一个复杂优化问题。实际上,我们在求解实际问题的时候,任何一个问题都可以等效为一个复杂优化问题来求解。那么我们能不能有一个有效的方法能够在最快的速度找到这个最优值——全局最优点,而不受其他局部最优值的影响?这个是现在计算智能的一个热点问题、通用问题,也是一大类要研究的方法。





一个典型方法是遗传算法。遗传算法是模拟生物体的遗传进化过程,通过对环境的适应能力的大小来进行“适者生存、优胜劣汰”。那么,这个过程是一个优选过程,可以用于求解十分复杂的优化问题,所以它是研究计算智能最主要的方法之一。



除此之外,我们在研究人工智能里面还有一大类,就是生物群体表现出来的一些非常强大的能力。个体可能很简单,你像一只鸟很简单,但是一群鸟却能够在非常恶劣的环境下生存下来,这是为什么?这也是我们现在在研究的群体智能

还有,五年前,我根据烟花爆炸在空中形成的美丽图案而发展的一个空间搜索的新方法,叫做烟花算法。它实际上在求解优化问题方面已经比现在流行的很多方法要好。现在(烟花算法算出)的结果基本上是最好的一个结果。
机器学习的研究(Machine Learning)


机器学习是什么?就是我们让机器能够像人一样学习。机器有自我更新的能力。我们可以造成一个机器出来,在我们普通人眼里,机器造出来什么样,那它就只能是这个样子,对不对?但是我们对机器赋予了学习能力,那它就可以改进自己的性能。机器学习实际上就是经过经验提高自身系统性能的一个过程,或者我们叫“系统自我改进”。

原来我们把机器学习归为人工智能的一个分支,但现在的观点是,机器学习基本可以独立出来了,专门作为一套求解复杂问题的方法来使用,不一定要跟人工智能扯上关系。当然,它和人工智能是有很多交叉的。

那么机器学习为什么会有这么神奇的一个能力呢?实际上,机器学习从原理上讲还是非常简单的。

W
是这个给定世界的有限或无限所有对象的集合,由于观察能力的限制,我们只能获得这个世界的一个有限的子集
Q
W
,称为样本集。机器学习就是根据这个有限样本集
Q
,推算这个世界的模型,使得其对这个世界为真。
这个Q是个很小的部分,然后这个W是我们求解问题的整个搜索空间,就我们刚才谈到的一个复杂问题的整个空间。这个空间很大,可以是我们到目前为止不可能穷尽搜索的一个大的空间,也可以是无限大。

比如,下围棋的搜索空间也是非常庞大,现在的计算资源是不可能进行穷尽搜索的,如果能穷尽搜索的话,那我们就不需要这种智能方法。

正由于我们计算能力有限,所以在整个搜索空间里面,我们只能得到很少一部分的知识,就是说每个人的自身经验只是非常小的一部分。然后我们利用已有的这部分知识,或者将知识进行提炼,建立这个模型。

建立起的这个模型对于我们的经验肯定是适合的,对不对?因为这是从我们的经验中建立起来的。但是我们希望建立的这个模型要对我们没见过的事情同样有效,这就叫做泛化。

也就说,我们可以让这个机器学习我们给它的经验和知识,但是它不能只是在我们的这些知识上工作,而应该具有更强大的能力,从而体现出机器学习的作用。这就是机器学习的过程。那么泛化就在这起到了非常重要的作用。而从这个数据来建模的过程,就是机器学习最重要的一个方面。不论多么重要的模型,都是在做这件事,都是从Q到W的过程。

在机器学习里面,主流看法分成两类。

▼浅层学习(Shallow Learning)

模型采用的就是单层的网络。这个是80年代进行广泛研究的,而且我们把它作为机器学习的第一次浪潮。

最初比较典型的方法是多层感知器(Multi-layer Perceptron)。当神经网络研究到一定程度,我们发现多层感知器的性能提不高,受到很多限制,泛化性能不好,便转而研究像支撑向量机(SVM)、Boosting、随机森林(Random Forest)、ELM等其他方法,但都没有离开神经网络的层数只有一层。

深度学习(Deep Learning)

2006年,Geoffrey Hinton在《科学》杂志上发表了一篇文章,提出了深度学习的概念。也就是说,神经网络应该不止一层,应该多层,而且每一层能表达概念的抽象程度是不一样的,表达知识复杂程度也是不一样的,这是它最基本的一个观点。

第一,多层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类。

第二,它最主要的是有一个预训练,这是它的一个重大贡献,由此掀起了机器学习的第二个浪潮



从上图我们可以看一下,同样是训练10^6次,如果加入了预训练,性能可以急剧提高(错误低于没有预训练的情况)。这意味着深度神经网络加上预训练再进行监督训练的这种方式,可以找到更优的全局最优点。很复杂的函数可能平时找到的是局部最优点,如果我们经过了事先预训练,再进行监督训练,那么这种训练方式可以大大提高性能。

同样,我们把它用来做图片当中物体的识别。我们知道人是具有很强大的识别能力,给你一张图片,能识别出来里面是一个猫还是一个香蕉。用机器来识别一个物体,以前的神经网络SVM在2010年最高做到72%的正确率,2011年做到74%,但是现在实际上已经到99%。所以说,提高得非常快,因为我们现在网络更复杂,计算资源更好,可以利用这种深度学习的表达能力,对这类复杂的、需要我们人去鉴别才能完成的智能工作都可以要求机器来完成。
当前人工智能的热点


 

人脸识别





我们见一个人,马上就能记住他的脸,下次见到很快就能识别出来。那么人具有很强大的识别能力。

以前,我们用计算机尝试做人脸识别系统,识别效率都不高。由于深度神经网的应用,香港中文大学教授汤晓鸥带领他的团队开发了一个名为“Deep ID”的深度学习模型,现在可以在LFW(Labeled Faces In the Wild)数据库上做到99.15%的识别率,这是有史以来首次超过99%的LFW识别率,超过人类肉眼的识别能力。▼围棋人机大战





简单说一说AlphaGo与李世石之间人机大战的博弈机理。

AlphaGo里面主要是组合了这四个策略。一个是蒙特·卡洛(Monte Carlo)的搜索树(Search Tree)方法,再加上监督学习(Supervised Learning)和强化学习(Reinforcement Learning),然后整个是建立在深度神经网络(Deep Neural Networks)的基础上,是建立在一个13层的卷积神经网络上来实现的。

AlphaGo的聪明之处有这么几点:

第一,使用监督学习的策略网络(SL Policy Network),这是一个非常好的起点。整个程序的起点是从人类下棋的经验当中学习,先把人类最精华的部分学到手。

第二,使用一个快速提升算法,叫强化学习的策略网络(RL Policy Network)去提升自己的能力。

最后,使用一个有效的评价策略,我们把它叫做强化学习的价值网络(RL Value Networks),来计算每一步的结果。

那么这几点相互协作,共同来完成一个非常需要智力水平的围棋模拟。

在《自然》上发表的一篇研究文章显示AlphaGo已经达到了业余三段,这个结论是根据AlphaGo和樊辉对弈的结果而得出的,实际上,现在的AlphaGo比起之前可以再让四个子,已经达到人类围棋十五段的样子。

这是一个机器学习的方法,是一个可以逐渐提升继续提高的过程,所以能达到非常高的智能水平。

▼预测比赛结果



上个礼拜,阿里云做了一个小AI的人工智能程序,进行了《我是歌手4》的歌王预测。实际上它也预测出来了。

目前,小Ai的学习速度是人类的1万倍。要成为某一领域的专家,如果人类需要10万小时,则小Ai只需要10小时。

它声称可以做到理解人类的情感,这个实际上它还做不到。所谓的理解情感,只是从网络上搜集其他人的评价,它并不是去听音乐。

实际上,现在最有挑战性的是让计算机去识别音乐的好坏。这个很难识别,因为只有人才能听懂这个音乐,只有人才能感觉这个音乐好听还是不好听。要机器去听它,机器可能按一定规则来,但是人是按心情来的,所以这是非常难、复杂的一件事情。
对人工智能发展的几点思考




人工智能的发展现在正以一个前所未有的速度在往前发展,更多的惊喜在不断地涌现。而且AI技术的应用会广泛深入到我们生活的方方面面,逐渐地将我们人类社会推到前所未有的智能社会的高度。

当然,在这个发展过程当中,跟其他任何技术发展是一样的,都要满足和遵循我们所施加给它的人类社会的规范和行为准则,否则,可能对我们人类社会的发展产生一些不利的影响。结束语

人工智能是一门多学科交叉的综合性前沿学科,在理论上很不成熟,技术上逐渐突破,应用上正在快速扩展和渗透;基于各种生物原理与过程的激发是其继续前进的源泉,人类社会的需求是其不断发展的动力!

希望有兴趣的同学能够加入到“智能科技”研究的行列中来,欢迎大家,谢谢!
关注本公众号(ID:Xtecher),后台回复  “谭营” ,可获得演讲PPT。




深度专访|微软研究院人工智能首席科学家邓力:人工智能的成功在于将多种理论方法整合成一个完整系统 

 2016-04-19 赵云峰 机器之心
机器之心原创
作者:赵云峰


邓力,微软研究院人工智能首席科学家,美国 IEEE 电气和电子工程师协会院士。2015年,邓力凭借在深度学习与自动语音识别方向做出的杰出贡献,荣获 IEEE 技术成就奖。邓力首次提出并解决将深度神经网络应用到大规模语言识别中,这一实践显著提高了机器对语音的识别率,极大推动了人机交互领域的发展与进步。

在阿尔法公社举办的「AI 领域跨越技术/产业/投资」及他在 IEEE-ICASSP 得奖之后的聚会上,机器之心有幸对邓力研究员进行了一次深度专访。邓力介绍了自己和微软研究院在做的关于人工智能的数项研究,回顾了自己在人工智能和语音识别领域的研究历程,并深入分析了人工智能领域的研究现状和未来发展, 针对无监督学习等人工智能难题提出了自己的研究思路和解决方法。相信邓力的精彩分享将会给人工智能从业者带来巨大收获,其对人工智能的深入思考和研究理念也会给大家带来宝贵的灵感和启发。


微软研究院人工智能首席科学家邓力


一、目前所做研究:人工智能算法、大规模商业应用以及各类人工智能方法的整合

很多实际问题不是非黑即白的,而是有很多中间状态,我们在做一些比较大型的研究,将很多层神经网络(包括时空上联合的深层)与其他方法结合起来去应对这些不确定性。

机器之心:您能否介绍一下目前在微软研究院做的人工智能方面的研究,您在语音识别领域获得了巨大成功,除此之外还在做其他方面的研究吗?

邓力:总体来说,人工智能的各项研究我和我在研究院的团队都在做。首先,语音识别和语言模型我做了很多年,图像描述(Image Captioning)和有关多媒态近年来也在深入研究。 图像描述就是给出一个图像,机器可以写出语法标准的句子来描述它,而且相当准。我的一支团队去年用了一个类似于「图灵测试」的方法进行测试,结果有32%的情况大家分不出哪些是机器自动写的,谷歌同类系统的结果是31%,和我们差不多,人类是67%,这个技术在若干年后可能会达到人类水平。

微软研究院的「图像描述(Image Captioning)」,来源:邓力在 IEEE-ICASSP 演讲用的 PPT 和微软美国研究院 CVPR-2015 论文「From Captions to Visual Concepts and Back」。
其次,我们现在做算法方面的研究比较多,包括语音识别和自然语言理解算法、增强学习算法等,以及如何将增强学习和其他机器学习方法整合在一起;如何将生成性深度学习和无监督学习进行融合, 等等。

第三是涉及人工智能在商业方面大规模实际应用。我们在研究具体问题要用什么样的深度学习和人工智能方法来解决并怎样采用最有效的方式。

而最重要的研究方向,是如何将大数据、深度学习以及人工智能各种方法整合在一起,使得机器学习和人工智能更加有效,而且对数据的要求也不能大到现实应用场景提供不了的地步。

总之,不管是方法研究还是应用研究,我们都是在做一些比较大型的和前沿性的研究,比如如何将很多层神经网络与其他方法结合起来去应对解析性(explanability)以及应对各种不确定性(uncertinty),因为很多实际问题不是非黑即白的,而是有很多中间状态,如何将这种概念与神经网络结合起来,人工智能在这方面的研究还做的比较少。但现实世界中其实有很多的不稳定性和不确定性,如何在这种不确定的情况下做出最优决策?这就需要将深度学习其他方法整合在一起,然后才能做出适合真实世界的各类人工智能应用,包括语音、图像、自然语言、翻译,商业数据分析和 insight distillation 等。

机器之心:长短时记忆模型(LSTM)在研究中是否发挥了很大作用?

邓力:是的,我们是在使用这个方法,但我认为目前的长短时记忆模型还不够,它实际上还是个短时模型,用比较简单和非严谨的方法把「短时」(short term)慢慢加长,但加长一段时间之后通常不够有效,所以还需要其他更严谨的方法,包括记忆网络(Memory Network),神经图灵机(Neural Turing Machine)等。这些都是很有效的方法,我们目前也在研究比这些更进一步的方法。

机器之心:您平时会思考一些人工智能哲学方面的问题吗?比如说机器意识之类的。

邓力:我觉得机器意识离我们太远了。我与其想那些,还不如多花些时间在深度学习算法和架构研究上,刚刚提到的无监督深度学习就值得我花大量时间去研究了。

二、个人的人工智能研究历程以及与 Geoffrey Hinton 的合作

这是当时我和 Hinton 合作研究的一部分内容,把隐马尔科夫模型和深度神经网络结合起来,并取得了比较好的初步表现。

机器之心:您本科是学神经科学,后来是如何进入到人工智能领域的?能否介绍一下您和 Geoffrey Hinton 合作过程吗?

邓力:我在中科大本科学习神经科学和物理学,后来到美国研究听觉神经系统与其计算模型。1985 年底还在做博士论文的时候,我用物理模型和神经模型来做听觉模拟,但当时的神经网络算的太慢。当时我也尝试过把生物模型的特征提取出来丢到隐马尔科夫模型里,结果很不理想,因为它们不是成熟的能够相匹配的系统。后来我发现纯统计方法更有用,从 80 年代中末期到深度学习出来之前,我做了很多研究,包括计算人工神经网络。但到了 90 年中末之后贝叶斯统计模型更加流行。

1993-1994 年左右还在加拿大滑铁卢大学当教授的时候,我和我的一位博士生合作了一篇非常漂亮的论文,当把线性的项加到非线性的项之后,可以增强神经网络的记忆能力。并且我做了很多数学上比较严谨的分析为何记忆能力可以增强。那时电脑的计算能力不够,模型做的很简单,但这是一套完整的系统,但当把这个结果真正用在语音识别上时,却还是没有大大超过隐马尔科夫模型的方法。

那时,我为这个博士生论文答辩找的 External Examiner 就是 Geoffrey Hinton,他过来后看到我们的研究就说神经网络真是太难了。但这个博士生还是拿到了博士学位。因为这次的研究结果,我就很长之后不做神经网络研究了,开始完全转向贝叶斯统计方法和生成模型 (Generative Models)。

现在大家因为深度学习对 Hinton 和神经网络比较关注,但实际上他的很多方法也是基于生成模型,比如说深度信念网络(DBN),它并不像传统的神经网络,而是一种从上到下的生成模型。最顶上是两层双向(从上到下和从下到上)的生成模型,然后完全从上到下生成数据。最底层代表了数据向量 (data vectors)。

之后我在微软研究语音识别。在有效的深层神经网络学习方法发明之前,我用贝叶斯网络方法把隐马尔科夫模型(顶层)和 人类语音生成模型相结合并设计了很多层次。多层次是必须的,因为目的是要把重要的物理现象模拟出来。隐马尔科夫模型只是模拟了对大脑对声音的编码这个行为,但整个过程中还包括肌肉运动控制、口腔内声道运动等环节,最后通过声学转化才能变成语音,这就需要许多层,包括对噪音环境的模拟。但这种多层结构不见得就一定是神经网络,用深层生成模型能更自然地实现。

当时(2002-2006)我在微软领导一支小团队在这方面做了很多研究工作。那时相对比较有效的理论就是贝叶斯网络与相应的方法。但关键在于,如果层数很多,并且在动态过程中进行语音识别时,它的学习和推断过程很难驾驭。就是说,增加层数后带来的计算复杂度呈指数级增长。我们发明了很多方法来近似指数级增长的计算。近似之后结果还不错,但是比精心设计和调制的隐马尔科夫模型在准确率上没有非常大的进步,但计算量却大得非常多。

后来我就看到了 Hinton 2006 年关于深度信念网络的论文(注:《A fast learning algorithm for deep belief nets 》)。当时我就很奇怪,他的这个生成模型也是很多层,为何没有出现这些问题?2009 年,我请 Hinton 来微软讨论这个问题,就发现深度信念网络比较容易的原因是它不涉及动态。我们就把严谨的动态模型去掉,但把时域上的向量数加大来近似严谨的动态模型,最后的简化模型给出的结果还不错。但另外一个问题是,即使用了简化的动态模型,有很多层的深度生成学习仍然需要很大计算量。于是我们就想到了下一个巧妙的方法:把生成模型倒转方向 --- 在语音识别中我们有许多打好标签的数据,我们就可以使用自下而上的神经网络而不是自上而下的生成模型。 这实际上就成为深度神经网络与隐马尔科夫模型结合的雏形。最后的实验结果就让人满意了,而且学习的过程也更加可控。


邓力与 Geoffrey Hinton 合办的 NIPS Workshop 《Deep Learning for Speech Recognition and Related Applications》,首次将深度学习用于语音识别。图片来源:邓力演讲 PPT。
这是当时我和 Hinton 合作研究的一部分内容,把隐马尔科夫模型和深度神经网络结合起来,并取得了比较好的初步表现。但是所用的一系列近似产生了其他问题。比如,发音系统的运动是产生语音的一个因果机制(causal mechanism),但神经网络无法模拟这种关系。 所以这种深度神经网络失去了大部分的解析性。这在语音识别应用上问题不算太严重。但在我现在领导的很多其他更重要的应用上, 问题就严重得多。所以我们在做多方面很深入的研究来推进改善现有的深度学习方法。

这种方法整合和创新的思路同样可以用于无监督学习。我在这方面想了很多,与团队成员一起工作,经验也积累了不少。

机器之心: 您和 Hinton 合作了很长时间,他对您有什么启发吗?

邓力:他非常好,我从他身上学到了非常多东西。他对科学充满了激情,而且有着非常好的洞察力,特别对类脑算法的研究非常深入。记得上次同他讨论的整个小时谈的都是类脑算法。过去在和他合作的过程中我收获很大,也希望将来能有机会和他继续合作。

邓力和 Geoffrey Hinton,图片来源:微软研究院。
三、对人工智能研究现状和未来进展的看法

将来人工智能的成功一定是不同种类方法的整合,就像人一样,拥有各种思维方法的完整系统,应该很自然的把神经网络方法、贝叶斯理论方法, 符号式逻辑推理等其他理论方法整合在一起。

机器之心:从 NIPS 2015 来看,不同神经网络之间的模块化组合越来越多,您如何看待这种趋势?

邓力:现在人工智能之所以这么成功,就是因为模块化,可以把不同成功的工具和方法整合在一起。比如在复杂的神经网络里,以前大家没有为训练用的自动求导工具,要花大量时间做求导和程序开发及调试工作。有了这些模型组合和工具之后,您只需要训练输入数据,训练结果就出来了,训练也就完成了,省了很多工程量。所以这种趋势对以深度神经网络为主的人工智能快速发展非常有利。

机器之心:目前序列映射学习(sequence to sequence learning)的效果非常好,它在应用中还有哪些局限吗?

邓力:所谓 sequence to sequence,最早(一年半前)Google Brain 研究人员用在机器翻译时是基于用一个「thought vector」来对整个输入句子进行编码。 但是它的记忆(memory)不够好,后来加上了注意模型(attention model)来弥补记忆不足的问题,所以现在的机器翻译用了注意模型之后已经比之前序列映射学习有了很大提升。我觉得这个方法还不错,但是更好的方法是把记忆能力进一步提升。总之,sequence to sequence 是一个很好的方向,而更好的方向是 structure to structure。

机器之心:您认为在深度学习研究中还面临着哪些亟待解决的问题吗?比如 Yann LeCun 和 Yoshua Bengio 就一直强调说,需要在无监督学习方面取得突破。

邓力:我也在去年夏天就看到这个重要问题有解决的希望。目前我们团队花了很多精力在做有自己特色的无监督学习,但这方面的研究确实比较难做。目前在我们团队之外我看到大家的想法不少但还没有很大的思想突破,我所看到的资料里都没有实质性的进展。

把无监督学习做好是一个很大的挑战,而我们独特的的解决办法依赖于四种知识源泉。1)没有标签也不要紧,因为人类学习也不见得每次都有标签。在没有标签的情况下你就要利用知识,知识应该很容易并几乎不花钱得到,因为很多知识都是现成的,比如说标签的统计特性。现在的机器学习、语音识别和图像描述都可以使用这种统计特性,从取之不尽、用之不竭的互联网和其他大数据中抽取出语言序列的统计特性。这就是说,我们是把输出部分的结构挖掘出来并巧妙地利用它。2)把输入数据的统计结构模拟出来并加以利用。3)模拟并利用从输出(标签)到输入的关系,这个任务是传统神经网络很难做的了,只能依靠与深度生成模型(Deep Generative Modeling)。4)从输入到输出的关系,这个任务是目前神经网络非常擅长的。如果把四种知识源泉全部巧妙地用上,就有可能解决无监督学习问题。所以,要解决无监督学习问题,现有的深度神经网络方法是不够的。


深度无监督学习的要点,来源:邓力演讲 PPT。
机器之心:虽然目前深度学习越来越强大,但之前传统的线性方法和深度学习之间是否也应该是相互补充的关系?

邓力:相对简单的问题可以用线性方法,比较复杂的问题就要用深度学习非线性方法。但有时线性方法也会帮助帮助非线性深度学习方法。比如我开始给你讲的我同我的博士生 1994 年发表在《Neural Networks》上的论文——将线性项加入非线性项会提高原先非线性时间序列的时序记忆能力(temporal correlation structure)并给出严谨的数学分析。 又比如我的同事们近期所研究的 深度残差网络(deep residual networks) 多层结构,还有我和团队在 2011-2013 期间所研究的 deep stacking networks 与 deep kernel networks 都是通过线性方法和非线性方法结合在一起的。所以线性方法还是很有用的,应该成为深度学习的一部分。

机器之心:有研究者称目前的深度学习需要的数据量太大。纽约大学的 Gary Marcus 一直在批评深度学习,他认为应该像婴儿一样通过极少数案例就能完成学习。另外,根据 Brenden Lake 等人在《Science》发表的论文《Human-level concept learning through probabilistic program induction》,使用贝叶斯程序学习的方法让机器很快就能学会陌生字符,解决了特定任务下「one shot」学习的问题。深度学习是不是也应该和其他方法结合起来,来应对不同的数据量?

邓力:我同意,如果是少量数据的话,神经网络不见得是最好的。将来人工智能的成功一定是把不同方法的整合,就像人一样,人的不同的学习方法也很难明显的区分开来,这是一个完整的系统,应该很自然的把神经网络理论、贝叶斯方法等其他理论整合在一起,这样就和人类大脑有点像了。


人工智能未来研究的挑战,来源:邓力演讲 PPT。
这个实现之后,遇到大量数据就使用从下到上的神经网络方法,遇到少量数据就使用从上到下的生成模型,但最好的是将两个过程循环使用。就像人脑一样,白天是从下到上,看到东西听到声音产生感觉;晚上从上到下,做梦生成,不好的东西丢掉,好的东西储存进入记忆。人类不断重复这个醒与睡和睡与醒的过程,而我们的训练方法也应该这样,又有感知,又有生成。目前的深度神经网络还比较简单,信息主体上是从下到上,还无法做到以上那种循环。

我读过 Brenden Lake 等人在《Science》发表的这篇很强的论文。他们的实验显示,单单靠从下到上的神经网络是无法完成类脑的人工智能的。

机器之心:接下来人工智能的研究是否要从神经认知科学领域获得越来越多的灵感?

邓力:我是很赞成这个,但要非常小心。Gary Marcus 属于人工智能和认知科学流派中的符号主义,符号主义可以做推理,但比较难做学习。我和团队同一些大学教授合作,现在的很大一部分工作是如何将符号处理的推理跟深度神经网络整合在一起,使得符号处理可以用深度学习的方法来完成。这个研究课题就是从认知科学领域的核心问题启发出来的。

从整个人工智能体系的方法和认知科学来看,符号处理和推理属于一派(Symbolists);神经网络属于联接主义(Connectionists);第三个是基于统计学的贝叶斯方法(Bayesians);第四种是演化理论(Evolutionaries),但这个实在太慢了,离产业比较远。第五种叫做类比学习(Analogizer),但类比学习有自己的局限性,数据大了之后无法规模化,但是在某些情况下还是可以用。

我觉得到最后这些方法应该全部整合在一起,生成一个非常漂亮、统一的理论,不管遇到各种数据量、各种场合都可以处理。但是从研究来看,不可能五个一起做,我们是两三个整合一起。这个是基础研究,研究到一定程度如果好用,我们再把它应用。

机器之心:之前的自然语言处理、语音识别会基于规则、语法等语言学理论,现在的深度学习研究者是如何看待 Norm Chomsky 语言理论的?

邓力:我认为 Chomsky 语言学理论的一部分还是有用的。为什么呢?像刚才讲的那个贝叶斯程序学习的「one shot leanrning」实际上就和 Chomsky 的理论有点像。所以这个是不能丢掉的,尤其是要做无监督学习的话。当数据少甚至没数据或他们的标签的话,我们就需要知识库。当您想要把标签丢掉来做学习(这会节省巨大资源所以很有实用价值),这些知识库应该都要加进来。至于如何添加,也不是按照以前的方法,而是将其作为一种知识源加进去。我觉得完全丢掉这样一个如此重要的研究成果太可惜了,Chomsky 语言学确实有它的道理,但最大的局限性在于它不重视学习而把语言结构知识归于天赋(innate)。 因此,如果将 Chomsky 理论和深度学习进行整合的话会最好。

机器之心:DeepMind 创始人 Hassabis 曾表示,他们所研究的深度增强学习是要实现一种通用的解决方案,您在演讲中提到增强学习其实解决的是决策最优化的问题,那它将来的应用是不是非常广泛?

邓力:这两者是一致的。决策最优化的问题就是要解决采取什么样的方案才能取得长期的最佳利益。这是非常通用的。这个问题也可以看成用现有的观察数据(状态变量)来「推测」什么是现时的最佳行动。这里并没有在有监督学习中提供的「标签」信号, 而且需要做有监督学习中不需要的探索(exploration)。

以前的增强学习在实际应用上无法很好的工作,是因为状态空间 (state space) 很大,只能做一些小规模的基础研究,太大的状态空间会带来更多的指数型增长的参数,就无法进行学习。而近期由 DeepMind 带来的深度增强学习的突破在于把很大的状态空间用深度神经网络表达出来,而不是像传统方法一样把几乎无限大的所有空间模拟出来。比如 DeepMind 研究的 Atari 游戏,状态空间极端的大。在 DeepMind 引入深度神经网络之前,传统的增强学习方法无法处理。以前也有过用线性方法将状态空间成一个低维向量,但这样太粗浅。深度增强学习把这种机制变成可生成,而且很大,在这种情况下就可以用深度神经网络计算出来的向量把很大空间上的信息吸收进来,而且我们有了很强的学习方法。因此,现在增强学习的成功就是深度学习成功的强有力的证明。

讲到决策最优化和深度增强学习, 我的团队现在还有一个研究就是基于自然语言的人机对话。以前的对话方法很难做成,但我认为深度增强学习会使得人机对话研究有所突破。

四、给人工智能从业者的建议

如果你想要做很实际的应用,就要看准现在已经很成功的方法;如果你想去推动这个领域的发展,做一些非常前沿的研究,那在机器学习和人工智能的基本功方面就要有深厚积累。

机器之心:您在人工智能和语音识别领域有着丰富的研究经验,取得了令人瞩目的成绩,微软研究院也非常注重人工智能基础研究,希望推动行业发展。在人工智能研究方面,您能否给国内的研究者提供一些建议?

邓力:据我所知,国内有很多公司和研究机构在这方面已经做的很好了,比如科大讯飞、百度、思必驰和出门问问等在语音方面就做的非常好。

微软有着比较好的研究条件,而且作为一家大公司想做比较前沿的技术研究,以影响整个科技发展的潮流。我所主持的工作一大部分是在做这方面研究,就是多次提到的把不同种类的人工智能方法整合起来并从中开拓创新领域。所以从这个角度来讲,我感觉这方面的基础研究一定要做好,这样才能够影响人工智能的发展,甚至是科技的发展。国内在这方面好像缺少了一点。

机器之心:他们之所以缺少这些东西,是因为没有像微软、谷歌这么好的硬件条件?还是说在研究的文化和理念上有一些缺失?

邓力:我觉得更多的在于理念上可能不太一样,但现在中国显然比以前好多了,因为有很多从国外回来的研究人员,他们将这种理念带回了国内,所以中国在这方面的观念正在改变。

13 年前有本书叫《成长——微软小子的教育》。 当时李开复安排我跟作者凌志军会谈,志军问了我一模一样的问题,我的回答是中美之间在教育和思想方式有很大区别。我现在已经改变了这一点,从教育上讲,中国确实不比美国差。中科大、清华北大这些学生的成绩非常好。我当时从科大毕业去美国读研究院,我的导师认为我本科毕业时掌握的知识是美国硕士才可以学到的。但我觉得可能还是缺乏一些灵感和想象力。

我举个例子,这个例子好像在凌志军的书上也出现过。在一次 IEEE-ICASSP 会议上,国内一位语音专家问我,为什么你们北美教授写的论文都是很新的东西?那是 20 年前,每次会议的论文集都特别厚,我们的方法是在开会时记录一些重要的东西,然后经过思考去做一些新的东西,而这位中国教授则是把这 1000 多页的资料带回国,每天打太极拳打累了就看几页,一年 365 天刚好看完。当时我就想,难怪在科研上很难创新,把时间都花在了去年的研究成果上。这可能和中国的文化有关系——一定要把现有的东西学习透,然后才去做创新。但有时不需要这样,你要把不重要的东西丢掉,把核心信息提取出来,这样才能更好的创新。不然你连发现哪些是前沿研究的时间都没有。我现在通过媒体获取信息也是这样,不重要的东西要立刻忽略掉。所以判断力很重要。

做科学研究一定要找到最正确的方法。比如刚才提到的无监督学习的重要性,我很早就知道无监督学习很重要,但找到解决的办法是很困难的。你要不断尝试,从失败中吸取教训,在这个过程中一定要看准大的目标,把一些没用的过滤掉。

机器之心:现在有越来越多的人工智能工具开源,而国内的公司又比较注重商业,缺乏做底层创新或基础研究的文化。那开源是否会助长「拿来主义」,使他们把更多的精力放在商业应用上,而更加忽视了基础研究?

邓力:我的意思正好相反。开源并不是说你拿来之后就可以直接用,有开源工具是会使你创新更快。之前我要设计一些算法,我都不敢把神经网络架构和算法设计的太复杂,因为实习学生的实习时间通常就 3 个月,架构和算法太复杂就可能会在有限期内完成不了指定的项目。而现在我就敢把神经网络架构和算法做的很复杂了,因为有了这些开源工具,我们把几个模块搭好,学生就不用一个个去推导了,可以直接获取结果。所以,并不是大家都依赖开源而不去思考新的东西,而是开源以后会让你更有胆量去做更复杂的模型。再拿无监督学习举例,开源大大加快了我带领团队的研究速度。所以,开源确确实实对深度学习的进展起了一个非常大的推动作用。越多开源越好,因为开源的主要好处是大家集体贡献,形成一种良好的生态圈, 并同时推动更快速地实验检验人工智能方法的有效性。

机器之心:微软在人工智能技术应用上也做到非常出色,包括实时翻译、图像识别等工具,在人工智能技术应用方面,您有没有一些心得或者建议给到国内的人工智能公司?

邓力:实际上我们微软在人工智能技术应用上的很多重大进展尚未对外公布。至于心得或者建议, 我想说的是做人工智能研究和应用的技能有几个层次。最底层的技能就是把各种方法弄懂,知道它们各自的局限性。第二层的技能就是把各种工具用熟练,看到问题后马上匹配相应工具,这样就可以把模型做大,解决更难的问题。第三层技能是,要知道在具体领域中哪些方法可以用,哪些方法不可以用。比如说,过去几年内我做了大约20 方面的深度学习和人工智能应用,然后一边看应用一边看数据,理解数据的性质,理解数据多还是少,是否有标签,标签是否干净可靠,要弄清楚这些因素如何影响深度学习方法的有效性,这是需要长时间积累的。因为目前深度学习还没有一个非常漂亮的理论,所以还无法非常明确的解释什么情况下可以得到什么结果。所以我认为,如果想要做很实际的应用,就要看准现在已经很成功的方法;如果你想去推动这个领域的发展,做一些非常前沿的研究,那在机器学习和人工智能的基本功方面就要有深厚积累,只有这样你才能知道不同方法的优势和局限。

机器之心:去年发生了一个事情,机器在解释图片时把一对黑人夫妇标记成了大猩猩,这种问题对于我们做后续研究会带来哪些启示吗?

邓力:我觉得这个问题暴露出了人工智能的一些缺点,这就像 AlphaGo 输掉一局一样,你经历过这些错误之后就学会了这种方法的局限性, 然后开拓新方法新理论。以后公司对此要格外小心,并且我们要从这类错误中吸取教训,这样人工智能就会更少的犯这种错误,这种反复会使人工智能有新的提升和突破。其实这种政治性的错误还是很容易避免的---只要把一些敏感词除掉。

机器之心:您在日常研究和学习过程中,有哪些获取信息和阅读的技巧和方法吗?

邓力:我主要是在 Facebook、Google+ 上关注一些优秀的研究者,包括 Yann LeCun、Geoffrey Hinton 和 Yoshua Bengio 等,然后设置一些信息推送。NIPS,ICML,JMLR,arXiv 上都有很新很好的工作进展,偶尔 Science 和 Nature 也会有。 另外,也会通过微信阅读一些中文内容,希望有更多的机会读机器之心的相关中文内容。
致 谢
采访稿完成后,邓力研究员在百忙之中拿出了几个小时的时间,非常严谨的对涉及人工智能理论和技术细节的内容做了确认和补充,以保证读者获取更加准确和翔实的知识。在此,对邓力研究员表示由衷感谢!同时,也感谢阿尔法公社邀请机器之心参加此次会议,并积极促成了本次专访。




    关注 E路阳光


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册