最简明的人工智能发展史，看完就可以冒充懂AI的砖家了_【上海创业汇】

随着《西部世界》的大热，关于人工智能（Artificial Intelligence， AI）的讨论又成为了...

随着《西部世界》的大热，关于人工智能（Artificial Intelligence， AI）的讨论又成为了一个全民问题。其实，从阿尔法狗大胜李世石开始，人工智能就越来越火。你是不是经常看到这样的脑洞问题？

人工智能有感情吗？

人工智能来了！哪些人会失业？

人工智能会统治人类吗？

你可能需要看一下简明AI发展史。

❆

习俗图灵和AI的图灵测试

说起人工智能，不得不提计算机天才图灵。图灵是谁？计算机科学领域最高奖，就是以图灵来命名的。被称为人工智能之父的图灵，人生经历可以堪称传奇，不过那就是另一个故事了~

艾伦·麦席森·图灵（Alan Mathison Turing），生于1912年6月23日，卒于1954年6月7日，英国人，不仅仅被称为计算机之父，更是人工智能之父。 1931年图灵进入剑桥大学国王学院，毕业后到美国普林斯顿大学攻读博士学位，二战爆发后回到剑桥，后曾协助军方破解德国的著名密码系统Enigma，为盟军取得了二战的胜利立下大功。图灵提出了一种用于判定机器是否具有智能的试验方法，即图灵试验，奠定了人工智能发展的基础。此外，图灵提出著名的“图灵机”(Turing Machine)的设想。“图灵机”不是一种具体的机器，而是一种思想模型，可制造一种十分简单但运算能力极强的计算装置，用来计算所有能想象得到的可计算函数。“图灵机”与“冯·诺伊曼机”齐名，奠定了现代计算机的基础。

右边这个帅气的男人，就是AI的鼻祖图灵

图灵测试原理很简单，让一台电脑在5分钟内回答由人类测试者提出的一系列问题，如果超过30%的回答让测试者认为是这是人类所答，则电脑通过图灵测试。

❆

1950年代，模仿人类

Marvin Minsky其实是一个生物学家，研究神经科学。他提出了一个想法，要用数学建模模拟神经元，这恐怕是现在这么多大脑洞交叉学科的先驱。

神经元，是生物构成神经系统的基本单位，能感受刺激和传到兴奋，也就是接受和释放信号。于是Marvin用数学模型模拟了神经元，叫做感知机。

有了这个神经元的基本的数学模型以后，计算机就可以去模拟神经元的工作，更有意思的事情，这个数学的神经元还能连起来。神经元连起来才能进行信息传递，手上被打一下疼痛可以传到大脑，而感知机，也就是数学的神经元也连起来，传出去，最后就形成一个神经网络。神经网络，又发展为深度学习，是现在人工智能很火的一个研究方向，最基本的原理在1951年就已经出来了，局限于当时的条件，并没有发扬光大。但是Marvin的理论对人工智能的研究很有意义，人工智能在模仿人类的信息传递方式。

❆

1960年代，推理与探索

到60年代，西蒙( Herbert Simon )用人工智能模拟人类的推理，他也在1975年获得图灵奖，1978年获得诺贝尔奖经济学奖。

西蒙做的事情是人工智能是模拟人类的推理。他提出了逻辑和搜索两个方向，AI不仅能推理，还能探索。当时的研究以一般问题求解为主, 发展了各种搜索算法。其中的一种算法αsearch，也是后来谷歌阿尔法狗的名称来源。

提出这两个方向以后，科学家一度非常乐观，在1965年，西蒙预测说，20年内，机器可以完成人做到的一切的东西。1970年，Marvin说，在3到8年内可以让机器具有人平均的智能。

然而这两个寓言都失败了，更糟糕的是，在相当长一段时间内，这两个方向在主流人工智能研究进程中废弃，直到运算能力大幅发展以后，才被重提。

❆

1970年代，专家系统

70~80年代，人工智能发展转向专家系统。

专家系统的原理很简单，就是让某个领域的人类专家把他胸中所学尽可能地写出来，让计算机照他写的东西执行。

理论上，如果专家把自己脑子里的东西写到计算机里面，等同于计算机拥有了这个专家的能力，成百上千的专家录入信息，形成专家系统。如果一台计算机拥有了成百上千专家的能力，就成为“超级专家”，好像听起来就很厉（kong）害（bu）的样子。

然而专家系统这条路并不成功。原因也很简单，概括来说就是：“专家自己不知道自己知道什么”。人类专家掌握的很多能力，要在特定工作条件下综合运用时才能展现。比如一个优秀的医生，在看到特定的病人时能够给出合理的治疗方案，但是没有具体的场景，让他写出自己掌握的技能，可能只有真正拥有的5%。所以，直接将人类了解的知识录入电脑，不足以培养出人工智能。

看吧AI，你对人类真正的能力一无所知！

❆

1990年代，并行处理能力

细心的读者发现上面没有1980年代，怎么能忘了我们80后？对的，1980年代，人工智能没有什么突破，也没什么好写的。

1990年代，AI发展在于并行处理能力。并行处理能力的提高让计算机的运算速度大幅提高，这一点IBM功不可没。简单来说，这个时候的计算机“更能算”了。

1997年，IBM的计算机深蓝在标准时间国际象棋比赛中，战胜了世界冠军世卡斯帕罗夫，这可以说是AI对人类专家的第一次成功进击。

但是由于国际象棋规则导致套路相对固定，人类还是有很多不服气，“人工智能，本质上就是个计算器嘛”，人类引以为豪的思考能力还没有被攻破。

当然，深蓝的软件设计也非常优秀，不止是硬件的运算能力的功劳。和阿尔法狗相比，深蓝是专门针对卡斯帕罗夫设计的，芯片也是专用的，从难度上讲，在优化剪枝之后，覆盖的合理的步骤的计算量是要比围棋小很多的，但在那个时候也是个非常了不起的事情。

❆

21世纪，大数据

21世纪，AI来自大数据。IBM的沃森系统（Watson）一度领跑。

沃森的能力包括三个方面：理解、推理和学习。

第一步，理解，能够“理解”人类的问题，主要运用计算系统处理结构化和非结构化数据的能力。

第二步，推理，沃森主要运用的是一种名为“假设生成”的算法，能从数据中抽丝剥茧，寻找事物间的相关联系。

最后一步，学习，沃森从大数据中提取关键信息，以证据为基础进行学习。

在沃森之后，一批互联网公司崛起。机器学习+大数据是人工智能的重要发展方向。机器学习要建立模型、训练模型、反馈、应用，其实很像我们人类认识世界的过程。

2006年谷歌率先开发出机器学习模型，从自己积累的大数据中找到学习的“原料”，此后，亚马逊、FaceBook、国内的BAT先后开发出自己的机器学习模型。

至于人工智能的感情，能不能统治人类？让我们先交给哲学家和科幻编剧吧~

人工智能（Artificial Intelligence, AI）毫无疑问是今年最火的科技创新领域。从谷歌人工智能围棋阿尔法狗打败人类冠军，到脸书、IBM、谷歌、微软和亚马逊联手成立AI超级联盟，人工智能让一流的互联网公司痴迷，让创业公司和投资人亢奋，也吸引若干全球顶尖科学家投身其中。

嗅觉敏锐的资本市场，也充分印证了AI的火爆。根据CB Insights的数据，2016年第一季度，人工智能初创企业获得投资143笔。据普华永道统计，2016年人工智能领域并购交易已达到29起。戴文渊的第四范式，就是一家AI创业公司。脱离了“XX数据公司”的窠臼，第四范式的名字和他的创始人一样，透着一股geek的性感。

戴文渊和第四范式首席科学家杨强

10月10日，第四范式创始人CEO回到母校上海交大，在交大创业学院“创业与创新大讲堂”做了一场《AI之路：大数据、算法与企业的未来》的主题讲座。厚势记者根据现场演讲内容，结合公开材料，整理本文。

❆

误入人工智能

我们先来看一看出生于1983年的戴文渊的简历：

2006年本科毕业于上海交通大学
2005年带领上海交大三人团队问鼎计算机科学领域的奥林匹克竞赛ACM世界冠军
2007年发表的论文Boosting for Transfer Learning在迁移学习领域论文引用数至今排名世界第三
2009-2013年就职百度，成为最年轻的百度高级科学家、T10员工，百度最重要的凤巢策略的技术负责人，获得“百度最高奖”
2013-2014年，华为诺亚方舟实验室主任科学家，获华为“President Award”
其学术论文多次被国际顶级学术会议NIPS, ICML, AAAI, KDD等收录

年轻的戴文渊已是人工智能领域的顶尖科学家，迁移学习领域奠基人之一，但是他在交大时选择AI这个研究方向，却是“误打误撞”。

戴文渊回忆说，自己在交大的学生生涯分为两个阶段，2005年之前在做ACM竞赛，之后开始研究人工智能。说到为什么进入这个领域，戴文渊很坦诚，并不是自己多有前瞻性，在2005年的大三，交大ACM班要选择研究方向的时候，他在外比赛没法选，等到他回来热门的都被别人选完了，只剩下当时还很冷门的人工智能。

“当时最热门的方向是图形学，因为研究好了可以去好莱坞挣大钱。人工智能呢，只能发发文章了，当然论文写得好能当个老师，写得不好只能回去写代码。”戴文渊如此调侃。

于是在人工智能这个冷板凳的领域，2007年，研一的戴文渊发了一篇文章。这篇文章引用数661，至今在迁移学习领域世界排名第三。也是在研究生期间，戴文渊和香港科技大学计算机系主任杨强教授结识，杨强是迁移学习领域引用数世界排名第一的文章作者，后来的第四范式首席科学家。

❆

领导百度凤巢，技术领先

但是戴文渊的冷板凳并没有坐很久。

随着互联网公司数据量的引爆和摩尔定律下指数上升的运算能力，人工智能领域快速发展。戴文渊把大数据比作大米，机器学习是电饭煲，开发出“电饭煲”这样的神器后，把“大米”放入其中，就能输出人工智能的“米饭”。

2006年谷歌首先开发出机器学习模型，2009年百度做起了机器学习，也是在那一年，戴文渊放弃读博加入百度。

在百度期间，凤巢系统的VC维度做到了1000亿，基于凤巢系统的广告推荐也给公司带来了最核心的利润（所以说技术真的是好技术）。

十多年的时间里，戴文渊所在的人工智能领域，从门前冷落鞍马稀，到五陵年少争缠头，资本不断涌入，创造了许多高估值的公司。从十年寒窗无人问，到一举成名天下知，在遇到问题时，很多公司也会倾向于找到AI来搞定。戴文渊觉得，这样的热度，对人工智能行业很重要，能推动这个行业的发展。

❆

要让数据科学家失业

2014年，带着自己ACM团队和几个原同事，戴文渊创立了第四范式。

从互联网公司走出来，戴文渊觉得，在机器学习的时代，会发现杰出的代表往往是互联网公司，其实这个是不是说互联网公司的人牛逼，不见得。过了一段时间回过头反思并不见得是这样的，更重要的是互联网公司先拥有了成熟的条件，互联网公司的数据更多，当数据达到一定程度的时候，就可以做出你要的人工智能。互联网公司的数据先达到，所以就先做出来了。别的公司可能没有，所以就还没做出来，但是今天的市场发展已经不一样了，现在不仅有互联网公司，更多的传统企业，也都开始拥有大数据，都有做人工智能的基础条件。

从2000年的互联网浪潮，2008年的移动互联网浪潮，再到前两年的O2O,该圈的地已经圈得差不多了。这个时候，很难再去靠做一个网站、APP、平台来圈地，企业的机会就在于精细化的运营，提高运营效率，才能获得下一步增长。而人工智能，就是这样一件提高效率的事情。

戴文渊认为，今天，数据科学家、AI专家还显得很高大上，即使顶级学校计算机系非AI方向的毕业生，在使用类似Hadoop、Spark等工具都会有困难。但是他相信，AI目前这种高大上的状态就和20年前做网站一样，在20年后，AI就是一件平常的事情。

见识过AI的真正用处，戴文渊特别希望更多的企业能使用这项技术，他自己算过，假如自己每3年换一个公司，搭建系统，到退休也不过十多家公司。因此，他的创业项目从2B开始，推出“先知”平台，把AI和行业经验结合，封装成产品，先知由顶尖科学家设计算法集成到平台中，同时解决计算资源和外部反馈的强化学习算法，解决所有的专业事情，而把业务交给客户的业务专家去做。这样可以说是一个傻瓜平台，降低AI的行业门槛。

当非从业者经过简单培训就能处理大数据的时候，数据科学家恐怕就要失业了。

❆

先知平台的火箭速度

第四范式的先知平台，比当前应用广泛的数据分析工具Spark运行效率提高了一个时代。当处理的数据在5万条规模时，先知快28%，并不明显，但随着数据量越大，先知的优势就体现出来了。625万条数据，先知的处理效率是Spark的86.6倍。

与数据分析不同，机器学习要求集群在短时间内进行大量迭代，异步处理的效率要高于同步处理，所以第四范式采用独立开发的计算框架GDBT来支持机器学习，运行效率可达Spark的数十倍，MapReduce的数百倍。

GDBT，超大规模并行机器学习框架–（General Distributed Brain Technology）

❆

AI解决数据清洗的灾难

除了要建成“先知”这个AI应用平台，第四范式还要利用AI取代大数据里数据清洗的环节。

数据清洗的概念在传统的建模里面是很重要的环节，过去有一种说法是做数据挖掘的，你70%以上的工作不是在做数据挖掘，而是在做数据清洗，清洗完了以后剩下的30%工作量做数据挖掘。但是戴文渊的理论把这个事情给颠覆了，他们现在做的整个机器学习的流程里面是没有数据清洗，通过算法自动把脏数据选出来。

“其实你想过去那个算法很傻的，为什么我告诉你的数据里面有错的就学不出来呢？就比方说我们人去学东西，你能保证你听到的每一条东西是对的？你是有辨别能力的，机器学习也是有辨别能力的，我们现在这个理论把数据清洗废弃掉了，这个很关键。因为数据清洗在小规模里，变量是一百，样本是一千，是可以做数据清洗的。大数据情况下变量是一千亿，是做不完的，唯一的办法是不做数据清洗。第二部分是相对比较基础的东西，现在已经成熟了，比较关键的是算法层面的，要有一个好的算法，要有一个好的实现，能够让他支持大样本，大的变量数，能够不用数据清洗计算出来。”

❆

和产业相结合的AI，才是好AI

第四范式和很多AI公司不一样的地方在于，有高技术但不致力于炫技，第四范式甚至也没有美国的对标公司。他们想做的，就是和产业深度的结合。

目前第四范式的客户主要在金融行业，因为他们既有丰富的大数据，又有支付能力。

比如，第四范式和某商业银行合作，把信用卡交易分期营销系统的VC维度从200+个提升到5000万个，VC维的增加，使信用卡的手续费收入增加了61%，营销响应率增加了68%。

戴文渊说，在百度做的AI系统的时候，每年的投入在几个亿，2012年降到了几百万，门槛还是比较高的。但我们追求的是每天都在降低这个成本，随着技术能力的提升，今天先知平台可以让AI覆盖到中小企业甚至到开发者个人，第四范式最终希望实现“AI for everyone ” 的愿景。

AI公司很害怕说我就是高大上，我是一流的科学家，做最牛的AI的技术。但是这个技术跟行业有什么关系，跟产业有什么关系，假设没有关系，那你做的东西其实是没有用的，第四范式希望做到的是，一边是最先进的技术，另外一边是充分和行业做对接，这两部分对于整个公司都是非常重要。

来源：海纳百创