交互人机语音

听说，AI请“话题终结者”喝了杯茶

AIUI教你正确的聊天方式，有什么话不能坐下好好“撩”~...

“话题终结者”的能力向来不可小觑，他们总能用简单的几个字让火热的气氛瞬间冷冻至冰点。如果你不幸中招，被“哦”、“呵呵”们围绕，那该怎么办？

不用担心，听说我们的知乎Live邀请到一位新朋友——AIUI，它的独门秘籍可以让“话题终结者”一秒变“话唠”。今天就由科大讯飞AIUI平台业务线大牛来为大家介绍神奇的AIUI，以及它最强有力的靠山“人机交互”。（周末阅读小文章，一起涨姿势！
）

| 全文共2191字，阅读时长约4分钟。

主讲老师：丁瑞

科大讯飞AIUI开放平台业务线

项目负责人、AIUI系统架构师

Q

什么是人机交互

所谓人机交互（Human-Computer Interaction，HCI），简单理解就是人与计算机之间的信息交换，这种交换是双向的，不仅是人到计算机，也包括计算机到人。我们的日常生活不乏人机交互的身影，最常见的就是与Siri聊天啦。（Siri,Siri,谁是这个世界上最美丽的人？

）

（白雪公主动画片中的魔镜可能是人机交互的"始祖"）

Q

人机交互的发展历程

不过，想要成长为不被吐槽、屡被“调戏“的模样可不是一夕之功。人机交互最早是以键盘+鼠标的形式出现在人们面前的，一经面世便被誉为PC时代最伟大的发明。但此时的人机交互离我们普通人的距离依旧很远很远，直到智能移动设备逐渐普及，它才算慢慢进入我们的生活，我们开始习惯使用多点触控、手写、手势以及部分语音来操控智能设备。

而伴随着智能语音技术的飞速发展，人机交互也从“能听会说”迈向“能理解会思考”，语音交互成为人机交互重要入口，被广泛应用于智能硬件、智能家居、智能机器人等领域，智能语音也迎来了新的市场增长点。

Q

语音人机交互四大痛点

尽管拉近了人与机器的距离，语音人机交互也因为使用过程不够顺畅引来了人们的疯狂吐槽，究其背后是语音人机交互存在的四大痛点。

但是，作为行走AI世界多年的高手，讯飞可不在怕的

。2015年我们便向大众宣布我们获得了一个宝物，那就是AIUI。（AIUI在手，天下我有）

Q

人工智能时代的人机交互界面—AIUI

AIUI作为人机智能交互界面，旨在实现人机之间交互无障碍，使人与机器之间的交流，像人与人一样，可以通过语音、图像、手势等自然交互的方式，进行持续、双向、自然地沟通。（Hi，AIUI，能帮我写作业么？）

AIUI的核心突破

AIUI最大的突破在于实现了传统人机交互链路向自然人机交互链路的重大转变。

传统的人机语音交互链路，在前端设备接受用户说话的语音，在本地或者云端做语音识别，将语音识别成文本，然后对识别出的文本做语义理解，对语义理解的结果做出一定的处理给出回答的文本，最终通过TTS，将文本合成为语音，传回客户端进行播报。

这种简单的人机语音交互链路很容易导致前面所说的四大痛点的出现，使用过程有一个点断了，就需要对着机器来回不停地讲。最终导致用户体验严重下降，使用户失去对语音交互的信心。（喂？喂？喂？

）

AIUI自然人机交互链路远比我们单点的技术要复杂，它将传统人机交互链路进行多种打点，将语音识别进行拆分，大致有音频采集、语音唤醒、声源定位、人声检测、断句、语音听写、语义理解等主要过程。

AIUI的独门招数

基于人机交互链路的转变，AIUI也习得了多个独门招数，但若论起秒杀，莫过于远场拾音、全双工交互、多轮对话这三招。靠它们，AIUI几乎能够解决上述语音人机交互的四大痛点。（来啊，who怕who

)

1

远场拾音

首先亮出AIUI第一招，远场拾音。目前识别距离已经达到5米，且识别率已经突破了90%，同时有国际领先的回音消除技术，消除量可以达到50db，无论是稳态的噪音抑制还是动态噪音抑制，也都可以得以体现。并且，麦克风还可以呈现360°声源定位。( 是不是瞬间被它征服？)

当然，在这一功能的背后，是前后端的共同协作与提升。在前端我们使用了麦克风阵列硬件，它通过波束成形和精准定位的技术方案，解决远场拾音，噪声、混响等问题；同时为解决因近场、远场的语音信号所具有的一定差异，在后端的语音识别上结合了基于深度神网络训练、针对远场环境的声学模型，从而真正解决识别率的问题。

2

全双工交互

全双工交互看起来很复杂，但若将它类比到你与他人的日常交流，你可能就能很快领会到它的强大。人与人之间的交流，最重要的就是持续、双向、可打断。全双工交互就是一个这样的全链路的贯穿过程，不只是持续的拾音和网络传输，更需要包括持续的语音唤醒、人声的检测、智能断句、无效语音拒识等各个模块相互配合，才能完成。

全双工交互作为一个持续的交互过程，语音的识别和理解，需要能够做出快速的响应。这就需要前端的人声检测和智能断句。

传统的断句是基于能量的检测来判定的，但是有两个主要缺点，一是无法解决噪音和无效的语音，另外就是对说话人的要求较高，中间不能有停顿。如果后端点设置的太短，容易造成截断；后端点太长，又会造成响应不及时。

所以为了解决这两个问题，AIUI采用了基于模型的人声检测和基于语义的断句。基于模型的检测可以有效解决噪音和无效语音，这块主要是通过采集不同的语音数据，基于深度神经网络的训练的声学模型，可以过滤一部分噪音，把有效的语音传送到云端，进行持续的交互。

3

多轮对话

假设你现在需要找人问路，你会先告诉对方你的目的地，而被问的人可能会问你这个目的地的明显特征。当信息描述越来越精确，他可能会告诉你过去的路线。这种交互是需要通过多轮对话才能完成的。

（图片来源于网络）

如果AI能够如上述问路过程一样，那你就不会再吐槽人工智能不智能了。AIUI就集成了这种智能的多轮对话系统，这一系统采用多对话场景管理、跨场景信息共享、长时记忆，语义理解的系统升级为基于贴弧的深度学习系统，可以很好的解决语义消歧等问题。它能基于内容主动提问，且上下文与业务密切相关，利用否定词还能进行纠错。