在电销场景，机器人就是通过用户需求响应概率，来帮助人发挥更大的价值。...

导语：疫情过后，数字化运营成为了摆在所有金融机构面前的一道难题。非接触运营、人工成本的提升，都为新一代语音机器人的应用带来了广阔的土壤和巨大的需求。但是市场上对于语音机器人的运作原理和商业应用，可能依然存在疑惑。本文摘自“智能机器人：“新基建”落地案例解析”主题沙龙，通过度小满金融RPA产品业务部总经理周建龙的演讲，我们可以很清晰的了解语音机器人的前世今生，更重要的是，我们还可以了解到新一代机器人所拥有的超能力——决策森林和用户画像，并获知“人机”是如何协同的。

（度小满语音机器人录音，度小满金融提供）

语音机器人的发展历程

智能语音机器人这个产品，到现在为止大概经历了三代。

第一代，以IVR(Interactive Voice Response，即互动式语音应答)为主，大家过去都接到过银行的电话或者打客服电话。比如一句开场白之后，让你选：办业务按一或二，相当于第一代交互的机器人，按键式的。

到了第二代，在2017年—2019年，这两三年的时间里面，由于深度学习算法快速的普及、发展，出现了实时的对话机器人。它在电话那边，客户可能感知不是特别明显，但是细听的话也能够听出来是机器人。大家经常接到一些电话，聊了几句发现这是机器人。一般这种机器人相对来说对话能力偏简单一些，一般聊几轮或者三十秒左右结束了，只做简单的任务。

到现在为止，未来几年就是下一代机器人，过去更多的还是学习人的能力，到现在下一代机器人主要是在决策方面。

一个机器人想工作，主要从三方面去学习人的能力。

第一，话术。正常情况下，所有的机器人在任何一个场景用的话，首先要有人工、客服积累语料，正常的人跟用户对话过程中，看他怎么说的。不管客服、电销还是其他的场景，人工客服跟用户怎么聊，就是聊天的内容，话术要怎么说。

第二，声音。上一代机器人更多是在用TTS(Text To Speech)语音合成。实际上大家家里面的各种智能音响，你去问一些问题，它给你播放一些东西的时候，就是走语音合成的，你能够明显地听出来合成的效果。它里边的一些声音、语气、音色和真人还是有些差别的。

现在，市场上所有的语音合成，包括国内中文的语音合成，如果细听的话都能够听出来。首先，语音合成声音大多会比较平。其次，里面没有情感，很多情感听不出来。所以，下一代机器人声音一定要更加地接近人工或者追平人工的效果。

最重要的就是决策，因为人在对话过程中，除了听、说这些能力之外，大脑一直在理解对方要表达的意思是什么。

比如对方说一句话，我心里面肯定要想，他说这句话是什么意思。当我明白这句话背后的含义之后，我还要想怎么答复他。我回答他的问题、意图的时候，肯定会带入自己的目的。结合我的目的，脑子里面想一句话，想完之后，这句话就会说出来。其实就是这样一个过程。做机器人，要先知道过去人是怎么和用户对话的。

过去几年大家决策做得都很简单，机器人后台人工通过拖拽的方式，配一个对话的逻辑出来就可以了。但是完全基于人工的经验，如果用户表达的内容不在这个逻辑圈里面，跳出去，机器人就不知道该怎么回答这个问题了。

如果往后看，机器人的决策能力追上人工，有可能10年、20年甚至更远。实际上，从现在开始我们要走出这一步。

新一代的机器人的超能力——决策森林

机器人有四项基本能力：模拟人的听、说、理解和决策的能力，过去更多是在听和说方面。

一是听。用户说一句话，我要通过语音识别，把它转化成文字。就像用手机输入法一样或者微信说一段话，会把文字转化成文本，这就相当于模拟人脑听的能力；

二是说。把这段话用语音合成的方式，合成一段声音放给用户听。

三是决策。过去是让人配一个简单的逻辑图，现在更多要通过机器深度学习，去学习过去客服和人、用户对话的各种语料里面，人是怎么完成对话的套路以及决策。从深度学习到深度理解，未来机器要通过深度理解去学习人怎么在对话过程中，判断用户的意图，再根据用户的意图做接下来的决策，怎么去表达。

这是新一代的方案。

我们会把一个一线客服过去两年和用户对话上万通的录音拿出来，从这些录音里边通过深度学习，去学习它的声音，包括在和用户对话过程中言语上的习惯、口头词，包括在什么地方容易停顿，以及激动、生气、平缓的时候怎么说。学习各种各样的情绪，最重要的是它的决策。

在正常的过程中，每一个客服都有一个公共、通用的标准要求，客服进线怎么跟客户聊。实际上，在这个工作流程的基础上，每个客服都会结合自己的一些兴趣、爱好、特长自由发挥。同样一段话，用户表达同样一个问题的时候，客服可能用不同的话去回答用户，每个人都会有他自己的决策逻辑。

假如这是一个电销的场景，我们会从业务的最终结果出发——去选，哪个客服在过去几个月内业绩最高，投诉最低。选出来之后，用它历史上作业的所有录音，刻录出来这么一个人。再用这个人的声音、话术、决策逻辑和用户对话，用户完全无感知。

现在市场主流机器人，一段声音要先转化成文本，通过语音识别和自然语言的理解，猜出用户的意图。决策怎么做？人工会在这个位置给他配一个决策逻辑，比如开场白怎么说。用户问了A，你怎么回答B。用户问了B，你怎么回答C，是人工按照经验画了一个图。机器人在对话过程中，完全按照这个图的逻辑往下走，它不会改。甭管是谁，怎么问，它都会按照这个逻辑跳。如果用户说了一句不在决策图里的问题，它就不知道怎么回答。

新一代的机器人深度学习的底层基础没有发生太大变化，更多的改变是决策方面。过去是单独的一棵决策树，现在更多是决策森林。

我们会根据过去所有对话、各个地图节点里边，哪一条路径是机器学习的最佳路径，然后在最佳路径上面强化学习。假如这条对话路径过去成单率、回收率、客户满意度最高，那这一条决策路径权重会更高，相当于机器永远去学习人工在整个业务场景里面最佳的对话决策逻辑。这样的话，就会朝着金牌客服能力去靠近。

刚才讲了机器人实现的原理，包括新一代机器人的方向。现在机器人更多用在金融的场景里面，包括银行这种金融机构，可能会做获客、电销、信审、客服、贷后的催收。

机器人的另一个超能力——用户画像

一个机器人客服和用户聊天，当他聊完一分钟或者两分钟结束之后，能够根据整个对话，给用户做一个画像。这个能力是实时的，而且是非常客观的。如果人工客服和用户做聊天，聊几分钟之后，挂完电话，让人工给用户打标签，这是一个非常主观的过程，每个人的理解不一样。

但如果是机器人的话，就会严格按照对话的逻辑去给用户画像。用户承诺还款或者拒绝还款；客户对于额度、利率感兴趣，或对产品有疑问；不会漏掉任何一个信息，每个信息都会非常客观地记录下来，并且给用户实时地打一个标签。

在疫情期间，机器人和客户聊天过程中做的画像标签，我们会观察它的历史趋势。

看画像标签的趋势，能够实时地反映出大规模用户的情况。疫情期间无收入，用户电话里面说最近钱还不上，可能是因为现在没有收入来源，可能被隔离，可能村被封了出不去。实际上，疫情爆后在1月15号的时候，在电话中有相当大的一部分比例开始说受疫情影响，大概到1月底2月初的时间达到一个高峰。到了三四月份的时候，快速下来了。在6月初的时候，又有一个小反弹，这可能跟新发地疫情有关系。

通过人工去做这个事，是不现实的。但是，我们后台有大量的用户标签，每天机器人都在画像，每个标签背后代表业务上面的含义，有些偏宏观，有些偏微观。疫情导致失去收入，更多偏宏观，代表这波用户群体受疫情的影响。

也大概是在2月份，大量的用户在对话过程中想要跟客服去协商（实际上是在跟机器人协商）。三四月份的时候，电话里边说现在做生意失败或者经营困难，比例不是特别高。但从5月份开始，明显有一个上升，主要是小微客户。在疫情初期，虽然不经营，客群很少，但过去有一些资金流。随着疫情对市场的冲击，很多小微支撑不下去，因此银行在这个过程中也给客户做了延期、展期。在接下来下半年，尤其到明年一整年，疫情会产生持续的影响。

从这上百万通电话里边，去挖掘这些标签，每个标签都会做各种各样的监控。我们可以通过这些标签，去解读、做判断、研究市场、研究政策，包括用户群体的一些变化趋势，方便做一些决策，这是机器人的画像能力。

这只是在金融场景。可以在其他场景根据业务的需要，做画像标签。机器人在和人对话过程中，它能够实时理解用户表达的意图。

虽然机器人这两年发展非常快，但是机器人的作业能力、水平，包括聪明度离人工还有非常大的差距。尤其是在决策能力方面，离人工差别非常大，机器人还处在学习、理解的过程中。

这种情况下，既然机器人在短期甚至很长一段时间内取代不了人工，机器人也不能站到人工的对立面，一定要和人做结合——人机结合，帮助人工把作业的效率、效果最大化的提升。

机器人怎么和人工配合？

在机器人之前，是有人工客服团队的，很多银行都有客服中心。没有用机器人之前，可能有上千人或者几千人的人工客服团队在打电话。现在机器人要发挥作用，就面临一个问题，那用机器人打还是用人工打？

人工的效果肯定是好的，但机器人的效率肯定是最高的。这个过程中，不可能把人全部解雇掉，全用机器人，那效果会打折扣。但也不能全用人工，人工成本太高了。在这个过程中，通过一些策略，不同场景用不同的策略，让机器人最大化地帮助人，提升效率、效果。

基于用户需求的人机结合电销方案，在获客场景里面，会把所有要营销的客户，通过机器学习的形式，先去预测人的需求，背后是各种各样的互联网行为的大数据，去预测这个用户现在有没有信贷需求。判断他的信贷需求概率非常大，这部分客户转化率相对比较高，就交给人工。还有一部分客户，借贷的概率没有那么高，就交给机器人。

这里有一个人工电销的盈亏平衡线，因为养一个人工客服团队需要成本。比如，这一个团队要花1亿的人工成本，就要去测算，打什么样的客群能在盈亏平衡线上面，平衡线以上人工可以打，平衡线以下，如果用人工打的话，一定是亏的。

因为付了一个人的工资，可能一个月带来10个客户，这些客户跟他做两年生意，都赚不到那么多钱，那么这个生意肯定是亏的。所以，根据用户群的静态响应概率，就能确定盈亏平衡线。

把所有的客群分成两波之后，上边人工去打，下边是机器人打。机器人打的过程中，也会识别出来一些借贷概率比较高的客户，这部分客群继续给人工打。大数据预测有一定的准确率，但有些也预测不准。在这种情况下，用机器人跟他聊，因为机器人的成本低。跟他聊完之后，基于这些数据测算的概率是动态概率。这样既能够保证盈亏平衡线，也能够最大化让人工去和高响应的客户交流，会有价值。

如果没有机器人，没有这些模型去预测用户的概率，人工可能要面对10万个客户，一个一个按顺序打，运气好的话还是赚的，运气不好的话就赔了。

在这个过程中，不管人工还是机器人，毕竟是一种营销。营销的过程中会涉及到投诉，有些用户觉得很烦就会投诉。基于人工和机器人对话，也可以预测用户的投诉概率。如果在打电话之前，通过大数据机器学习预测投诉概率非常高的话，那这个电话绝对不打。

因为你一旦投诉我，那对于一个企业影响是非常大的，尤其在这种监管非常严的背景下。所以，在这个基础上通过大数据预测用户的投诉概率，包括和用户对话过程中，如果用户情绪很激动，把他筛出来，这部分投诉敏感人群是不触达的。

总之，在电销场景，机器人就是通过用户需求响应概率，来帮助人发挥更大的价值。

看懂小程序上线啦！