围观AI互撕,我们能看出什么门道?

 

在机器和机器的博弈中,我们其实不止能学到算计。...

2017年刚过去两个月,人工智能在各个领域进展就开始频频曝光。比如年初,我们提到过的,美国卡耐基-梅隆大学开发的人工智能软件“Libratus”经过20多天的鏖战,最终战胜了4名世界顶尖的德州扑克选手。宣告了在不完全信息博弈当中,计算机能够掌握“纳什均衡”,最大可能让自己不会吃亏。
点击图片,查看「人工智能怎么赢的世界德扑冠军
一个有意思的想法就出现了——如果让AI和AI互相博弈,结果会是怎样呢?

最近,谷歌旗下的DeepMind——就是研发AlphaGo的那个AI公司,做了一个实验。让人工智能玩儿了两种游戏,分别是:“收集水果”以及“狼群狩猎”。

游戏规则很简单:比如收集水果游戏,就是在一张游戏地图上,你和你的对手一起收集水果,最终比谁收集的多。为了击败对手,你可以向你的对手发射激光。如果命中两次,对方会被迫脱离游戏一段时间,为你赢得更多收集水果的时间。
「收集水果」游戏视频,红蓝两方AI对峙,绿色代表苹果,数量少时 AI 会发出黄色光束标记对方




规则简单,但是博弈起来却很难。如果你侧重攻击对手,那就意味着放弃了收集水果的时机。可如果一味收集,又有可能被对手打个措手不及。

在大量的对决之后,研究人员最终发布论文结论:在资源相对丰富,行动成本比较低的环境当中,人工智能倾向于保守,大家相安无事。而一旦苹果变少了,人工智能会立刻改变策略,变得激进,更频繁地攻击对手。
而如果人工智能发现自己将要失败,那么它会表现出“更激进的行为方式”。

在另一个“狼群狩猎”游戏当中,虽然也有博弈的成分,但只要可能的收益更大,那么人工智能一定会选择合作。
「狼群狩猎」游戏视频,两个红色AI捕猎者 会通过合作抓捕猎物

美国密歇根大学也曾经做过一个让AI多次博弈的游戏实验。它们把15个程序放在一起,让它们进行循环比赛,我们可以把这个游戏想象成十五个特别精明的人在一起做交易,最终决出幸存者。比如:咱俩商量合作,一起去打第三个人,期间我们可以彼此忠诚,当然也能使诈或者背叛。

您也可以想一下,如果是您,该怎么设计这个程序?是大多数时候合作偶尔背叛,还是正好相反?

在这个涉及信任和欺诈的复杂游戏当中,最终胜出的那个程序,核心策略居然只有4点:
1、假定所有人都是好的,他们不会骗我。(善良)

2、如果别人跟我合作,一定配合且兑现自己的承诺。(守信)

3、如果对方背叛我,那一定要惩罚对方。比如下次假装和对方合作,然后突然背叛。(正义)

4、如果经历了以上,一个曾经背叛过我的人过来跟我合作,我依旧会选择合作。(宽恕)

因为多次博弈并非一战定生死,其他程序会发现和这个程序合作,成本很低收益很高,但如果背叛,却总是会付出代价。时间一长,愿意和它合作的程序越来越多,最后的赢家就一定是它。

用人文主义的概念解释这4行策略,就是:善良、守信、正义、宽恕。在机器和机器的博弈中,我们其实不止能学到算计。

富赜│音频

阿喂│编辑
点击图片查看往期精彩图文
小程序公布一个月为啥没有火起来?


2016年第一的智能手机品牌是谁?


    关注 科技富能量


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册