微信语音卢鲤：首次公开解读智能语音技术_【云头条】

近期，腾讯云推出智能语音服务，以云端+嵌入式的方式，向开发者提供语音识别、语音合成、声纹识别等语音处理技术，...

近期，腾讯云推出智能语音服务，以云端+嵌入式的方式，向开发者提供语音识别、语音合成、声纹识别等语音处理技术，满足用户在多种场景下的使用需求。

本次上线的智能语音服务，各项技术均通过了亿万级别用户业务并发验证，语音识别率达行业顶尖水平，其中现网抽样通用领域准确率达到93.8%，在餐饮、娱乐、教育、金融等垂直领域识别更为精准，识别率平均达94%。另外语音合成MOS值4.4，声纹识别也达到准确率99%。

然而语音技术是怎么实现的？技术难点是什么？可以用到哪里？以下是微信语音技术组组长卢鲤的解读。

语音技术的实现人机交互的新体验

腾讯云推出的智能语音服务包括语音识别、语音合成、声纹识别、语言识别、性别识别、情绪识别等。其中以语音识别算法最为复杂，可谓是语音技术皇冠上的一颗明珠。

人认知语音的三个过程，是由声音到发音单元，发音单元到字词，最后是字词到到一句话，这也是计算机实现语音识别的三要素。因此，在机器里建立声学模型，词典和语言模型，便可对语音进行识别。

如何建立上述模型？首先是对语音信号的处理，由于语音信号具有短时平稳性，可以先对其进行分帧，针对每一帧语音信号，变换成机器更易理解的特征。

然后是声学模型，由于每一个音的发声和前后音相关，因此无法以最小发音单元构建声学模型，于是用triphone来确定发音单元，并构建声学模型，向机器描述声音和发音单元之间的关系。经典的声学模型结构是隐马尔科夫模型(HMM)，如下图：

最后是词典和语言模型，词典规定每个字的读音，语言模型则需要机器利用数据去学习。常用的模型结构是Ngram模型。例如通过在大量语料中数数，学习到A这个字的出现概率p(A)多大，A出现之后出现B的概率多大即p(B|A),以此类推。这样的概率描述，在输入法、语音识别等很多技术中都有强大的实用性。

克服三大技术难题识别率业界领先

由于当前技术的局限，语音识别在实际应用中还会遇到如下难题，研发团队也在多年业务实践中不断寻求能提升语音识别率的方法。

难题1：口语。口语中语速快、口音、吞字、叠字等现象都影响语音识别率。研发团队对此进行了多项优化工作：

第一，将语音识别技术的分段融合音频属性，在说话人以及部分语义信息中达成良好的断句；
第二，采用LSTM结合DNN的做法，有效学习语音的短时特征和长时依赖；
第三，通过开发并行解码空间，实现具体业务的快速适配，同时并行通用搜索空间；最后，对语音识别结果进行过滤及规整，增强可读性。

难题2：环境噪声以及距离。通过模拟真实场景的算法，把历史无噪数据转换成包含多种不同场景噪声数据，让模型在学习内容的同时也学习到不同的环境干扰，增加了引擎识别率的鲁棒性。

难题3: 大数据的挑战。海量数据的训练会让机器更智能，但在无监督学习算法暂不成熟的情况下，数据的积累是缓慢的。研发团队对此进行反向思考，由于每个个体的声音都不一样，通用模型的长尾问题是导致错误发生的重要原因，因此采取算法让声学模型学习的过程中将说话人的信息抹去的方式，帮助提升识别率。

真正解放双手多样场景定制化应用

智能语音服务已被广泛应用，如微信语音输入、语音转文字、腾讯智能手表、腾讯游戏语聊、为盲胞读书等。腾讯云此次开放智能语音服务，提供强大的垂直领域定制化智能语音服务，打造专业高效的语音大脑，将满足开发者们更多样的场景需求。

语音技术可以应用在呼叫中心领域以及企业以语音为服务的情况下，如珍爱网红娘业务，智能语音服务可通过关键词，情绪识别等技术手段对客服语音进行质检。另外手机APP中的语音搜索、智能硬件中的语音指令、音视频的机器分析和检索、在线教育中进行学习评估矫正等都是语音技术的可用场景。在这些场景中，语音技术都将真正解放用户双手，提升用户体验，同时节约运营成本，增加企业产能。

对于开发者和创业者而言，智能语音服务还将绽放出更多创新的可能性。腾讯云为各行业提供定制化的解决方案，提供全面的、一站式的产品服务，与开发者们携手共进，构建共享价值的云端生态，为用户带来方便快捷的智慧生活。

关注云头条

微信语音卢鲤：首次公开解读智能语音技术

0 个评论

发起人

微信语音卢鲤：首次公开解读智能语音技术

0 个评论

发起人

云头条相关文章