围观AI互撕，我们能看出什么门道？

在机器和机器的博弈中，我们其实不止能学到算计。...

2017年刚过去两个月，人工智能在各个领域进展就开始频频曝光。比如年初，我们提到过的，美国卡耐基-梅隆大学开发的人工智能软件“Libratus”经过20多天的鏖战，最终战胜了4名世界顶尖的德州扑克选手。宣告了在不完全信息博弈当中，计算机能够掌握“纳什均衡”，最大可能让自己不会吃亏。

▼

点击图片，查看「人工智能怎么赢的世界德扑冠军

」

一个有意思的想法就出现了——如果让AI和AI互相博弈，结果会是怎样呢？

最近，谷歌旗下的DeepMind——就是研发AlphaGo的那个AI公司，做了一个实验。让人工智能玩儿了两种游戏，分别是：“收集水果”以及“狼群狩猎”。

游戏规则很简单：比如收集水果游戏，就是在一张游戏地图上，你和你的对手一起收集水果，最终比谁收集的多。为了击败对手，你可以向你的对手发射激光。如果命中两次，对方会被迫脱离游戏一段时间，为你赢得更多收集水果的时间。

▼

「收集水果」游戏视频，红蓝两方AI对峙，绿色代表苹果，数量少时 AI 会发出黄色光束标记对方

规则简单，但是博弈起来却很难。如果你侧重攻击对手，那就意味着放弃了收集水果的时机。可如果一味收集，又有可能被对手打个措手不及。

在大量的对决之后，研究人员最终发布论文结论：在资源相对丰富，行动成本比较低的环境当中，人工智能倾向于保守，大家相安无事。而一旦苹果变少了，人工智能会立刻改变策略，变得激进，更频繁地攻击对手。

而如果人工智能发现自己将要失败，那么它会表现出“更激进的行为方式”。

在另一个“狼群狩猎”游戏当中，虽然也有博弈的成分，但只要可能的收益更大，那么人工智能一定会选择合作。

▼

「狼群狩猎」游戏视频，两个红色AI捕猎者会通过合作抓捕猎物

美国密歇根大学也曾经做过一个让AI多次博弈的游戏实验。它们把15个程序放在一起，让它们进行循环比赛，我们可以把这个游戏想象成十五个特别精明的人在一起做交易，最终决出幸存者。比如：咱俩商量合作，一起去打第三个人，期间我们可以彼此忠诚，当然也能使诈或者背叛。

您也可以想一下，如果是您，该怎么设计这个程序？是大多数时候合作偶尔背叛，还是正好相反？

在这个涉及信任和欺诈的复杂游戏当中，最终胜出的那个程序，核心策略居然只有4点：

1、假定所有人都是好的，他们不会骗我。（善良）

2、如果别人跟我合作，一定配合且兑现自己的承诺。（守信）

3、如果对方背叛我，那一定要惩罚对方。比如下次假装和对方合作，然后突然背叛。（正义）

4、如果经历了以上，一个曾经背叛过我的人过来跟我合作，我依旧会选择合作。（宽恕）

因为多次博弈并非一战定生死，其他程序会发现和这个程序合作，成本很低收益很高，但如果背叛，却总是会付出代价。时间一长，愿意和它合作的程序越来越多，最后的赢家就一定是它。

用人文主义的概念解释这4行策略，就是：善良、守信、正义、宽恕。在机器和机器的博弈中，我们其实不止能学到算计。

富赜│音频

阿喂│编辑

点击图片查看往期精彩图文

▼