【摘要】二十八讲:未来已来——机器人时代触手可及

 

互联网经济体崛起大视野下的AlphaGo与三万亿——移动互联网大数据沙龙第二十七讲主持:王韵...



未来已来——机器人时代触手可及——移动互联网大数据沙龙第二十八讲

主持:于    丹  教授

主讲:王    磊  科大讯飞产品负责人



【主讲人简介】
王磊,现任科大讯飞产品总监。曾任中兴通讯固网产品线系统架构设计师,主导了多款发货量超过千万PON终端设计。现作为科大讯飞开放平台产品负责人,构建了具备面向十亿级互联网用户提供语音交互服务能力的“讯飞开放平台”,全面负责科大讯飞智能硬件业务线,协助上百家公司进行新产品研发和项目落地。

【精彩观点分享】

1、 讯飞科技在1999年成立,最早是做语音合成,即把文字变成声音的技术;而后开始做语音识别,就是现在看到的讯飞输入法,可以快速地把用户说的话变成文字,现在讯飞更多地投入在人工智能方向。

2、 IT浪潮的发展:在上个世纪60年代,它是一个大型机的时代,后很快速地进入到一个小型机时代,然后是个人电脑,继而出现了移动互联网时代和移动可穿戴设备,也包含最近很火的AR、VR技术。整个浪潮式的不断向前发展,其实是在技术层面提出了新的要求。其不同之处体现在从有屏时代向无屏时代转换,人机交互更加方便自如。在万物互联的时代,交互形态也发生了变化,已经进入了以语音为主、键盘触摸为辅的时代。

3、 讯飞输入法从2011年到如今,通过六年多的迭代将准确率从最初的百分之六十多改进到了百分之九十五以上,主要在于以下两点:第一点是,现在的计算能力是远远超过以前的;第二点是它的数据源实质是很多的,在大数据时代语音听写技术能够做到如此准确,主要依赖于互联网上讯飞科技产品的用户,海量的用户提供了大量语音上的数据。

4、 语音合成技术指的是把文成转化成了声音的过程。如高德地图的导航播报,公司的语音团队在台湾和林志玲在一起待了十天左右,录取了大约一千句话的原始文本,回来以后进行一些标注,合成了林志玲的音库,所以导航的播报(林志玲、郭德纲等)是通过技术来实现的。后又在平台上开放了名词识别,能够快速地识别出一些简单的key words,进而准确地识别出这句话的意思。把这些词语放在云端,产品就能非常准确地识别出你说的字了,准确率可以达到99%以上。

5、 语音理解技术,其实就是人工智能,它可能是一个基础性的研究技术,在讯飞输入法中只做到第一步,就是可以把声音变成文字,但是它并不知道这句话的意思。智能问答技术,机器可以在用户说话以后快速做出回应。离线技术主要解决了在没有网络信号或者网络信号不好的情况下,仍然可以使用语音合成、语音识别等相关技术。

6、 在万物互联的时代里,语音唤醒技术相当于给设备起一个名字,让设备知道用户在呼唤它,进而跟它进行交互。这其中包括两方面,第一是在用户与设备进行交互时,设备要给予反馈;第二是当用户没有与设备进行交互时,设备不要主动进行交互行为。麦克风阵列的技术主要是为了解决远距离情况下的识别,可以判断出说话者的方位,然后对该方向做一个波束,对说话者的声音进行识别,同时屏蔽掉周围的其他声音。

7、 情感机器人在声音方面最重要的就是声纹的识别,基于声纹的不同,不同的人即使说同一句话,设备所呈现的内容也可能是完全不同的。对于用户本身来说,可以基于此做很多个性化的改变。

8、 全双工交互技术突破了以往的不能纠错、不能打断设备进行对话等缺点。ARUI技术是指定义了一个人工智能时代的全新的一套人机交互的界面,在其中集成一个开发包(SDK包),并在云端进行选择使用,更加便捷,也在将该方案全面试用于各个领域。

·




    关注 互联网大数据沙龙


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册