语音识别的准确率，永远达不到100%？

现有的语音识别软件，可能永远无法达到100%的准确率。...

制图：杰伊·本特（Jay Bendt）

撰文 | 韦德·劳什（Wade Roush）

翻译 | 赵剑琳

回首2010年，马特·汤普森（Matt Thompson）在美国国家公共广播网（NPR）的一篇评论文章中预言：“在不远的将来，自动语音转录技术将变得快捷、好用，而且是免费的。”他将那一时刻称为“语音奇点”，巧妙地借用了发明家雷·库兹韦尔（Ray Kurzweil）的“奇点理论”——后者认为我们的意识有朝一日可以上传到电脑上。汤普森还预言，可靠的自动语音识别（ASR）软件将会改变记者的工作，更不用说律师、销售人员和听力障碍者了，所有处理语言说和写的从业人员都会受到影响。

汤普森的预言曾令我十分激动，我迫切希望有一种技术能把我从令人疲倦的整理采访记录的工作中解脱出来。不过，虽然他在广播领域有着辉煌的职业生涯，而且还在继续（他目前担任NPR调查报道中心的主任，负责《揭秘》节目等），但他预言的“语音奇点”似乎遥不可期。

不过，我们显然已经取得了重大的进展。大量初创企业，例如Otter、Temi和Trint，开始提供在线服务。用户可以上传数字音频文件，在几分钟后就能获得语音转录的文本。在我担任音频制作人时，几乎每一天都在使用这些服务。服务软件生成文本的速度在提升，而所需的费用也在不断降低，这确实令人欢喜鼓舞。

但文本的准确率却是另一回事。2016年，微软研究院的一个团队宣布，他们的机器学习算法经过训练后，将标准语料库的录音转换成文本的准确率高达94%。在微软的测试实验中，这一软件几乎能和专业的转录员做得一样好，大量媒体也开始称赞语音识别软件与人类“平起平坐”的时代已经到来。

但事实上，最后6%的准确率才是真正的难题所在。一个更惨痛的教训的是：校对一份准确率为94%的文本耗费的时间，几乎和直接手动转录原始录音所耗费的时间相差无几。而在这一次突破的4年后，Temi等服务软件仍没能将准确率提高至95%以上，而且只能处理音质清晰、没有口音的语音。

准确率为何如此重要？举一个例子，越来越多的音频制作者在发布播客时会遵循着网络的易用性规范，附带一份文本版本，但是，如果文本里的文字每隔20个单词就出现一处错误，那肯定没人愿意看。再考虑一下，如果像Alexa、Bixby、Cortana、Google Assistant和Siri这样的语音助手能够正确识别它们接收到的每一个问题或指令，能给人们节省多少时间？

ASR软件可能永远无法达到100%的准确率。毕竟人们说话未必总是十分流利，即使是使用母语。语言中也有太多需要结合上下文才能理解的同音异义词。（语音转录服务曾将“iOS”识别为“Ayahusca”。）

但我所期望的是，这些语音服务还能提升1%~2%的准确率。在机器学习领域，为了减少算法错误率，一个至关重要的方法是提供更多高质量的训练数据。因此，大多文本转录服务商都会采用不侵犯隐私的方式搜集更多的数据。举例来说，每一次我修订由Trint或是Sonix转录的文本时，我都在生成一份验证过的符合原始录音的新数据，这可以用于提升算法模型的质量。如果这能让今后的错误率变得更低，我很乐于让这些企业使用这些数据。

显然，增加训练数据是实现“语音奇点”的方法之一。随着我们和机器对话的数量增多，我们产生的音频数量也会与日俱增，可靠的语音转录技术将不再是奢侈的幻想或是遥遥无期的目标，它必然会实现。