强化学习、深度学习、直觉创新 ——人工智能教我们如何培养孩子 主笔发言 余艳波原创

 

本文刊载于《稻场故事会》254期转载请联系,并注明“来自稻场故事会,微信号SS-DCGSH”。SS-DCGS...





本文刊载于《稻场故事会》254期转载请联系,并注明“来自稻场故事会,微信号SS-DCGSH”。

围棋有多么复杂?一共有10的170次方种可能性。比整个宇宙中的原子数10的80次方都多。



一场世界围棋冠军李世石与人工智能机器人阿尔法狗的围棋大战,在一周之内,吸引了28亿人次观看,全球35000多家媒体转播或关注,随后阿尔法狗在网上匿名一口气战胜人类几乎所有围棋顶尖高手,连续60盘棋全部获胜,无一次输棋,更引发了一场真正的人类生存危机——如果机器人的智力水平超越了人类,人类还有生存机会吗?

其实,人工智能的代表阿尔法狗,所有的智能学习,都是向人类学的。

最近,阿尔法狗之父杰米斯·哈萨比斯,在母校英国剑桥大学做了一场题为“超越人类认知的极限”的演讲,在这个演讲中,哈萨比斯详细介绍了阿尔法狗的智能开始过程。

杰米斯·哈萨比斯
他将人工智能分为两种:

一种是仅在某一领域发挥特长的狭义人工智能,这种狭义人工智能在过去的40-50年非常流行。IBM发明的深蓝系统就是一个很好的狭义人工智能的例子, 1997年,IBM的人工智能深蓝曾打败了国际象棋冠军加里·卡斯帕罗夫,轰动世界。

深蓝系统他的智能学习方法是一个“手工”程序——程序员从国际象棋的规则中提炼出信息、获得启发。其实是一个人工帮助机器人学习的过程,这样的人工智能只能部分适用于某些领域,他是一种预设,针对专门的应用场景进行预编程,因此只能处理预编程范围内的逻辑,一旦预设的环境改变,它就完全无法适应。现在一些工厂、学校、公共环境使用的机器人,都是这种狭义人工智能机器人。

另外一种人工智能,是通用人工智能,可以用于不同的任务和领域,甚至是一些从未见过的全新领域。它的学习方法是从零开始,机器人完全自主学习,像每一个人一样。
通用人工智能有两个核心任务:
第一个任务,它需要了解自己所处的环境,并尽力找出自己要达到的目的。这里的环境可以指真实事件,可以是机器人,也可以是虚拟世界,比如游戏环境;主体通过两种方式与周围环境接触;它先通过观察熟悉环境,我们起初通过视觉,也可以通过听觉、触觉等,我们也在发展多感觉的系统;

第二个任务,就是在此基础上,建模并找出最佳选择。这可能涉及到对未来的预期,想像,以及假设检验。这个主体经常处在真实环境中,当时间节点到了的时候,系统需要输出当前找到的最佳方案。这个方案可能或多或少会改变所处环境,从而进一步驱动观察的结果,并反馈给主体。

这就是强化学习原则:准确把握环境,在关键节点,找出最佳选择。



因为人类面对的问题太过复杂,阿尔法狗通过引人深度神经网络,模仿人类。在这里,需要训练两个神经网络:

一种是决策网络,我们从网上下载了成百万的业余围棋游戏,通过监督学习,我们让阿尔法狗模拟人类下围棋的行为;我们从棋盘上任意选择一个落子点,训练系统去预测下一步人类将作出的决定;系统的输入是在那个特殊位置最有可能发生的前五或者前十的位置移动;这样,你只需看那5-10种可能性,而不用分析所有的200种可能性了。

一旦我们有了这个,我们对系统进行几百万次的训练,通过误差加强学习,对于赢了的情况,让系统意识到,下次出现类似的情形时,更有可能做相似的决定。相反,如果系统输了,那么下次再出现类似的情况,就不会选择这种走法。我们建立了自己的游戏数据库,通过百万次的游戏,对系统进行训练,得到第二种神经网络——数值网络。选择不同的落子点,经过置信区间进行学习,选出能够赢的情况,这个几率介于0-1之间,0是根本不可能赢,1是百分之百赢。

通过把这两个神经网络结合起来(决策网络和数值网络),我们可以大致预估出当前的情况。这两个神经网络树,通过蒙特卡洛算法,把这种本来不能解决的问题,变得可以解决。

这就是——深度学习:模拟人类、通过误差加强学习、建立决策网络和数值网络:根本不可能赢(0),和百分之百赢(1),也就是价值观、价值系统。

人类行为中,有一种特别的能力,不是已经预设的,完全是一种随机的行为,是一种直觉创新。它是基于人类的经历和本能的一种思维形式,不需要精确计算。在已有知识和经验的基础上,产生一种原始的,创新的观点。阿尔法狗通过数亿次的自我学习,从整个棋局考虑、评估每一步的价值,从而能够下出一些人类无法想象的新的步骤,显示出惊人的直觉力与创新力。



阿尔法狗具有如此惊人的智能水平,其根本出发点,就是用科学方法,拆解、分析人类的思维习惯,找到最佳学习、模仿方法,从而开发出一种超越人类的思维系统。通过阿尔法狗之父的这个演讲,我们对照发现,科研团队可以把一个机器,培养得具有如此深度的智能水平,而我们每天、每一个学校、每一个家庭,都梦寐以求,希望把孩子教育培养成为一个高智商的人,差距就在于:

阿尔法狗:强化学习:准确把握环境,在关键节点,找出最佳选择。

人    类:弱化学习:预设环境,一旦生存环境变化,就找不到最佳选择;

阿尔法狗:深度学习:模拟人类、通过误差加强学习、建立决策网络和数值网络:根本不可能赢(0),和百分之百赢(1),也就是价值观、价值系统。

人     类:简单学习:知识有限、思维能力有限、记忆能力有限,更可怕的是:不允许孩子试错,一旦不按照学校规定,就是惩罚,没有明确目标,没有建立良好的思维决策系统,无法建立清晰价值观;

阿尔法狗:直觉创新:能够从整体棋局出发,找到石破天惊的新步骤、新方法

人    类:没有整体观,拘泥于局部,不敢大胆创新,打击、压制个性直觉。
SS-DCGSH | 稻场故事会

长按下方二维码关注



一年中,近百种野生、 原生 、养生的优质农产品 ,1分钱,任意抢 ;一年中,无数的时令佳肴低价到你不相信,送到你的餐桌;一年中,三大原创写手 ,嬉笑怒骂、纵横捭阖、品鉴世事风云,笔下就算不能生花,长出的也一定是有思想的芦苇。


    关注 稻场故事会


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册