【十万个为什么】语音识别中的鸡尾酒问题_【上海科协】

万物互联时代，智能语音作为最自然的交互工具，能被运用到哪些场景呢？...

万物互联时代，智能语音作为最自然的交互工具，能被运用到哪些场景呢？《十万个为什么》节目邀请到云知声创新事业部总裁陈吉胜,讲述语音识别技术的应用。

语音识别“鸡尾酒问题”

所谓鸡尾酒问题是指人的一种听力选择能力，在这种情况下，注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音。具体来说，鸡尾酒问题的任务就是在高度重叠的音频中将不同说话者的内容分离和识别出来。

❂ 语音识别可以应用在哪些场景？

说话是人类最自然的交流方式，我们可以说人工智能是伪智能，机器永远不会像人一样去活着，但机器可以变得越来越善解人意。

提起语音识别，我们最容易想到的可能是不会讲笑话的 Siri。但在医疗领域语音识别简单的通过智能手表追踪运动情况和心率；在智能车载方面可以帮用户实现语音控制 GPS 导航，信息收发，电话接打，社交网络更新等等；在教育领域，可以让数据库提供一个标准，可以为口语评测提供一种更加简便高效的方式去学习一门语言。

❂ 国内外语音识别行业现状

任何时候提到语音识别，都不能避过Nuance这家公司，这家公司曾经在语音领域一统江湖，但事实上Nuance有点过于自大了，语音技术即便冠绝全球，但也在走没落的地步。

这个领域当然少不了大名鼎鼎的谷歌，但是谷歌动作稍微迟缓，2011年谷歌才出手收购语音通信公司Say Now和语音合成公司Phonetic Arts。而Phonetic Arts可以把录制的语音对话转化成语音库，然后把这些声音结合到一起，从而生成听上去非常逼真的人声对话。

科大讯飞是目前国内最有影响力的语音技术公司，成立于1999年底，依靠中科大的语音处理技术以及国家的大力扶持，很快就走上了正轨。

❂ 语音识别中的芯片

语音识别芯片最大的特点就是能够语音识别，它能让机器听懂人类的语音，并且可以根据命令执行各种动作，如眨眼睛、动嘴巴（智能娃娃）。除此之外，语音识别芯片还具有高品质、高压缩率录音放音功能，可实现人机对话。语音识别芯片所涉及的技术包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

拓展阅读

语音识别的发展史

1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。

1960年英国的Denes等人研究成功了第一个计算机语言识别系统。

大规模的语音识别研究是在进入了70年代以后，在小词汇量、孤立词的识别方面取得了实质性的进展。

进入80年代以后，研究的重点逐渐转向大词汇量、非特定人连续语音识别。此外，再次提出了将神经网络技术引入语音识别问题的技术思路。

进入90年代以后，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化方面出现了很大的进展。

到了80年代，美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划，其中包括噪声下的语音识别和会话（口语）识别系统，识别任务设定为“（1000单词）连续语音数据库管理”。

到了90年代，这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分，识别任务设定为“航空旅行信息检索”。

1987年起，日本又拟出新的国家项目---高级人机口语接口和自动电话翻译系统。