最简明的人工智能发展史,看完就可以冒充懂AI的砖家了

 

随着《西部世界》的大热,关于人工智能(Artificial Intelligence, AI)的讨论又成为了...





随着《西部世界》的大热,关于人工智能(Artificial Intelligence, AI)的讨论又成为了一个全民问题。其实,从阿尔法狗大胜李世石开始,人工智能就越来越火。你是不是经常看到这样的脑洞问题?

人工智能有感情吗?

人工智能来了!哪些人会失业?

人工智能会统治人类吗?

你可能需要看一下简明AI发展史。


习俗图灵和AI的图灵测试


说起人工智能,不得不提计算机天才图灵。图灵是谁?计算机科学领域最高奖,就是以图灵来命名的。被称为人工智能之父的图灵,人生经历可以堪称传奇,不过那就是另一个故事了~

艾伦·麦席森·图灵(Alan Mathison Turing),生于1912年6月23日,卒于1954年6月7日,英国人,不仅仅被称为计算机之父,更是人工智能之父。  1931年图灵进入剑桥大学国王学院,毕业后到美国普林斯顿大学攻读博士学位,二战爆发后回到剑桥,后曾协助军方破解德国的著名密码系统Enigma,为盟军取得了二战的胜利立下大功。 图灵提出了一种用于判定机器是否具有智能的试验方法,即图灵试验,奠定了人工智能发展的基础。此外,图灵提出著名的“图灵机”(Turing Machine)的设想。“图灵机”不是一种具体的机器,而是一种思想模型,可制造一种十分简单但运算能力极强的计算装置,用来计算所有能想象得到的可计算函数。“图灵机”与“冯·诺伊曼机”齐名,奠定了现代计算机的基础。



右边这个帅气的男人,就是AI的鼻祖图灵

图灵测试原理很简单,让一台电脑在5分钟内回答由人类测试者提出的一系列问题,如果超过30%的回答让测试者认为是这是人类所答,则电脑通过图灵测试。


1950年代,模仿人类
Marvin Minsky其实是一个生物学家,研究神经科学。他提出了一个想法,要用数学建模模拟神经元,这恐怕是现在这么多大脑洞交叉学科的先驱。

神经元,是生物构成神经系统的基本单位,能感受刺激和传到兴奋,也就是接受和释放信号。于是Marvin用数学模型模拟了神经元,叫做感知机。



有了这个神经元的基本的数学模型以后,计算机就可以去模拟神经元的工作,更有意思的事情,这个数学的神经元还能连起来。神经元连起来才能进行信息传递,手上被打一下疼痛可以传到大脑,而感知机,也就是数学的神经元也连起来,传出去,最后就形成一个神经网络。神经网络,又发展为深度学习,是现在人工智能很火的一个研究方向,最基本的原理在1951年就已经出来了,局限于当时的条件,并没有发扬光大。但是Marvin的理论对人工智能的研究很有意义,人工智能在模仿人类的信息传递方式。


1960年代,推理与探索
到60年代,西蒙( Herbert Simon )用人工智能模拟人类的推理,他也在1975年获得图灵奖,1978年获得诺贝尔奖经济学奖。

西蒙做的事情是人工智能是模拟人类的推理。他提出了逻辑和搜索两个方向,AI不仅能推理,还能探索。当时的研究以一般问题求解为主, 发展了各种搜索算法。其中的一种算法αsearch,也是后来谷歌阿尔法狗的名称来源。

提出这两个方向以后,科学家一度非常乐观,在1965年,西蒙预测说,20年内,机器可以完成人做到的一切的东西。1970年,Marvin说,在3到8年内可以让机器具有人平均的智能。

然而这两个寓言都失败了,更糟糕的是,在相当长一段时间内,这两个方向在主流人工智能研究进程中废弃,直到运算能力大幅发展以后,才被重提。


1970年代,专家系统
70~80年代,人工智能发展转向专家系统。

专家系统的原理很简单,就是让某个领域的人类专家把他胸中所学尽可能地写出来,让计算机照他写的东西执行。

理论上,如果专家把自己脑子里的东西写到计算机里面,等同于计算机拥有了这个专家的能力,成百上千的专家录入信息,形成专家系统。如果一台计算机拥有了成百上千专家的能力,就成为“超级专家”,好像听起来就很厉(kong)害(bu)的样子。

然而专家系统这条路并不成功。原因也很简单,概括来说就是:“专家自己不知道自己知道什么”。人类专家掌握的很多能力,要在特定工作条件下综合运用时才能展现。比如一个优秀的医生,在看到特定的病人时能够给出合理的治疗方案,但是没有具体的场景,让他写出自己掌握的技能,可能只有真正拥有的5%。所以,直接将人类了解的知识录入电脑,不足以培养出人工智能。

看吧AI,你对人类真正的能力一无所知!


1990年代,并行处理能力
细心的读者发现上面没有1980年代,怎么能忘了我们80后?对的,1980年代,人工智能没有什么突破,也没什么好写的。

1990年代,AI发展在于并行处理能力。并行处理能力的提高让计算机的运算速度大幅提高,这一点IBM功不可没。简单来说,这个时候的计算机“更能算”了。

1997年,IBM的计算机深蓝在标准时间国际象棋比赛中,战胜了世界冠军世卡斯帕罗夫,这可以说是AI对人类专家的第一次成功进击。

但是由于国际象棋规则导致套路相对固定,人类还是有很多不服气,“人工智能,本质上就是个计算器嘛”,人类引以为豪的思考能力还没有被攻破。

当然,深蓝的软件设计也非常优秀,不止是硬件的运算能力的功劳。和阿尔法狗相比,深蓝是专门针对卡斯帕罗夫设计的,芯片也是专用的,从难度上讲,在优化剪枝之后,覆盖的合理的步骤的计算量是要比围棋小很多的,但在那个时候也是个非常了不起的事情。


21世纪,大数据
21世纪,AI来自大数据。IBM的沃森系统(Watson)一度领跑。

沃森的能力包括三个方面:理解、推理和学习。

第一步,理解,能够“理解”人类的问题,主要运用计算系统处理结构化和非结构化数据的能力。

第二步,推理,沃森主要运用的是一种名为“假设生成”的算法,能从数据中抽丝剥茧,寻找事物间的相关联系。

最后一步,学习,沃森从大数据中提取关键信息,以证据为基础进行学习。

在沃森之后,一批互联网公司崛起。机器学习+大数据是人工智能的重要发展方向。机器学习要建立模型、训练模型、反馈、应用,其实很像我们人类认识世界的过程。

2006年谷歌率先开发出机器学习模型,从自己积累的大数据中找到学习的“原料”,此后,亚马逊、FaceBook、国内的BAT先后开发出自己的机器学习模型。

至于人工智能的感情,能不能统治人类?让我们先交给哲学家和科幻编剧吧~

人工智能(Artificial Intelligence, AI)毫无疑问是今年最火的科技创新领域。从谷歌人工智能围棋阿尔法狗打败人类冠军,到脸书、IBM、谷歌、微软和亚马逊联手成立AI超级联盟,人工智能让一流的互联网公司痴迷,让创业公司和投资人亢奋,也吸引若干全球顶尖科学家投身其中。

嗅觉敏锐的资本市场,也充分印证了AI的火爆。根据CB Insights的数据,2016年第一季度,人工智能初创企业获得投资143笔。据普华永道统计,2016年人工智能领域并购交易已达到29起。 戴文渊的第四范式,就是一家AI创业公司。脱离了“XX数据公司”的窠臼,第四范式的名字和他的创始人一样,透着一股geek的性感。

戴文渊和第四范式首席科学家杨强
10月10日,第四范式创始人CEO回到母校上海交大,在交大创业学院“创业与创新大讲堂”做了一场《AI之路:大数据、算法与企业的未来》的主题讲座。厚势记者根据现场演讲内容,结合公开材料,整理本文。


误入人工智能
我们先来看一看出生于1983年的戴文渊的简历:

  • 2006年本科毕业于上海交通大学
  • 2005年带领上海交大三人团队问鼎计算机科学领域的奥林匹克竞赛ACM世界冠军
  • 2007年发表的论文Boosting for Transfer Learning在迁移学习领域论文引用数至今排名世界第三
  • 2009-2013年就职百度,成为最年轻的百度高级科学家、T10员工,百度最重要的凤巢策略的技术负责人,获得“百度最高奖”
  • 2013-2014年,华为诺亚方舟实验室主任科学家 ,获华为“President Award”
  • 其学术论文多次被国际顶级学术会议NIPS, ICML, AAAI, KDD等收录


年轻的戴文渊已是人工智能领域的顶尖科学家,迁移学习领域奠基人之一,但是他在交大时选择AI这个研究方向,却是“误打误撞”。

戴文渊回忆说,自己在交大的学生生涯分为两个阶段,2005年之前在做ACM竞赛,之后开始研究人工智能。说到为什么进入这个领域,戴文渊很坦诚,并不是自己多有前瞻性,在2005年的大三,交大ACM班要选择研究方向的时候,他在外比赛没法选,等到他回来热门的都被别人选完了,只剩下当时还很冷门的人工智能。

“当时最热门的方向是图形学,因为研究好了可以去好莱坞挣大钱。人工智能呢,只能发发文章了,当然论文写得好能当个老师,写得不好只能回去写代码。”戴文渊如此调侃。

于是在人工智能这个冷板凳的领域,2007年,研一的戴文渊发了一篇文章。这篇文章引用数661,至今在迁移学习领域世界排名第三。也是在研究生期间,戴文渊和香港科技大学计算机系主任杨强教授结识,杨强是迁移学习领域引用数世界排名第一的文章作者,后来的第四范式首席科学家。


领导百度凤巢,技术领先
但是戴文渊的冷板凳并没有坐很久。

随着互联网公司数据量的引爆和摩尔定律下指数上升的运算能力,人工智能领域快速发展。戴文渊把大数据比作大米,机器学习是电饭煲,开发出“电饭煲”这样的神器后,把“大米”放入其中,就能输出人工智能的“米饭”。

2006年谷歌首先开发出机器学习模型,2009年百度做起了机器学习,也是在那一年,戴文渊放弃读博加入百度。
在百度期间,凤巢系统的VC维度做到了1000亿,基于凤巢系统的广告推荐也给公司带来了最核心的利润(所以说技术真的是好技术)。

十多年的时间里,戴文渊所在的人工智能领域,从门前冷落鞍马稀,到五陵年少争缠头,资本不断涌入,创造了许多高估值的公司。从十年寒窗无人问,到一举成名天下知,在遇到问题时,很多公司也会倾向于找到AI来搞定。戴文渊觉得,这样的热度,对人工智能行业很重要,能推动这个行业的发展。


要让数据科学家失业
2014年,带着自己ACM团队和几个原同事,戴文渊创立了第四范式。

从互联网公司走出来,戴文渊觉得,在机器学习的时代,会发现杰出的代表往往是互联网公司,其实这个是不是说互联网公司的人牛逼,不见得。过了一段时间回过头反思并不见得是这样的,更重要的是互联网公司先拥有了成熟的条件,互联网公司的数据更多,当数据达到一定程度的时候,就可以做出你要的人工智能。互联网公司的数据先达到,所以就先做出来了。别的公司可能没有,所以就还没做出来,但是今天的市场发展已经不一样了,现在不仅有互联网公司,更多的传统企业,也都开始拥有大数据,都有做人工智能的基础条件。
从2000年的互联网浪潮,2008年的移动互联网浪潮,再到前两年的O2O,该圈的地已经圈得差不多了。这个时候,很难再去靠做一个网站、APP、平台来圈地,企业的机会就在于精细化的运营,提高运营效率,才能获得下一步增长。而人工智能,就是这样一件提高效率的事情。

戴文渊认为,今天,数据科学家、AI专家还显得很高大上,即使顶级学校计算机系非AI方向的毕业生,在使用类似Hadoop、Spark等工具都会有困难。但是他相信,AI目前这种高大上的状态就和20年前做网站一样,在20年后,AI就是一件平常的事情。

见识过AI的真正用处,戴文渊特别希望更多的企业能使用这项技术,他自己算过,假如自己每3年换一个公司,搭建系统,到退休也不过十多家公司。因此,他的创业项目从2B开始,推出“先知”平台,把AI和行业经验结合,封装成产品,先知由顶尖科学家设计算法集成到平台中,同时解决计算资源和外部反馈的强化学习算法,解决所有的专业事情,而把业务交给客户的业务专家去做。这样可以说是一个傻瓜平台,降低AI的行业门槛。

当非从业者经过简单培训就能处理大数据的时候,数据科学家恐怕就要失业了。


先知平台的火箭速度
第四范式的先知平台,比当前应用广泛的数据分析工具Spark运行效率提高了一个时代。当处理的数据在5万条规模时,先知快28%,并不明显,但随着数据量越大,先知的优势就体现出来了。625万条数据,先知的处理效率是Spark的86.6倍。



与数据分析不同,机器学习要求集群在短时间内进行大量迭代,异步处理的效率要高于同步处理,所以第四范式采用独立开发的计算框架GDBT来支持机器学习,运行效率可达Spark的数十倍,MapReduce的数百倍。

GDBT,超大规模并行机器学习框架–(General Distributed Brain Technology)


AI解决数据清洗的灾难
除了要建成“先知”这个AI应用平台,第四范式还要利用AI取代大数据里数据清洗的环节。

数据清洗的概念在传统的建模里面是很重要的环节,过去有一种说法是做数据挖掘的,你70%以上的工作不是在做数据挖掘,而是在做数据清洗,清洗完了以后剩下的30%工作量做数据挖掘。但是戴文渊的理论把这个事情给颠覆了,他们现在做的整个机器学习的流程里面是没有数据清洗,通过算法自动把脏数据选出来。

“其实你想过去那个算法很傻的,为什么我告诉你的数据里面有错的就学不出来呢?就比方说我们人去学东西,你能保证你听到的每一条东西是对的?你是有辨别能力的,机器学习也是有辨别能力的,我们现在这个理论把数据清洗废弃掉了,这个很关键。因为数据清洗在小规模里,变量是一百,样本是一千,是可以做数据清洗的。大数据情况下变量是一千亿,是做不完的,唯一的办法是不做数据清洗。第二部分是相对比较基础的东西,现在已经成熟了,比较关键的是算法层面的,要有一个好的算法,要有一个好的实现,能够让他支持大样本,大的变量数,能够不用数据清洗计算出来。”


和产业相结合的AI,才是好AI
第四范式和很多AI公司不一样的地方在于,有高技术但不致力于炫技,第四范式甚至也没有美国的对标公司。他们想做的,就是和产业深度的结合。

目前第四范式的客户主要在金融行业,因为他们既有丰富的大数据,又有支付能力。

比如,第四范式和某商业银行合作,把信用卡交易分期营销系统的VC维度从200+个提升到5000万个,VC维的增加,使信用卡的手续费收入增加了61%,营销响应率增加了68%。

戴文渊说,在百度做的AI系统的时候,每年的投入在几个亿,2012年降到了几百万,门槛还是比较高的。但我们追求的是每天都在降低这个成本,随着技术能力的提升,今天先知平台可以让AI覆盖到中小企业甚至到开发者个人,第四范式最终希望实现“AI for everyone ” 的愿景。

AI公司很害怕说我就是高大上,我是一流的科学家,做最牛的AI的技术。但是这个技术跟行业有什么关系,跟产业有什么关系,假设没有关系,那你做的东西其实是没有用的,第四范式希望做到的是,一边是最先进的技术,另外一边是充分和行业做对接,这两部分对于整个公司都是非常重要。

来源:海纳百创


    关注 上海创业汇


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册