从三星Bixby看智能语音系统的未来

 

正如英国的某位先贤说过的:“有远见的人才能领导未来。”没错,我们只有大胆地看向未来,才可能看清楚未来,Bixby只是一个阶梯,它远远不是全部。...



昨晚,三星在纽约的发布会上推出了新的Galaxy产品S8。此次三星以“A New Experience”作为主题,希望通过新的产品带给人们全新的使用感受。这其中就包括了三星新的智能语音识别和控制系统Bixby。



在移动终端搭载智能语音系统似乎已经司空见惯,比如Siri,Cortana等,而且人们习惯性地认为这些东西就是人工智能或者是人工智能的一部分。但是我认为一流的投资者绝不会轻易地理解或者使用一个概念,比如“人工智能”。所以,我们必须重新界定“人工智能”的意义,不过这种界定不是给产品制造确定标准,而是为我们的思考给出参考。

Artificial Intelligence, 两个简单的英文词汇,前者标志着这个东西是人类的制造物,后者则表示它与众不同的特点,也就是有着类似于人类智慧地能力。那么什么叫做类似于人类智慧呢?我的理解是,我们的设备能够替代人类帮手的时候,它就可以承担这个词汇真正的意思了。

举个例子,古代大户人家往往会有管家,管家负责处理府里的所有杂事,他是主人不可缺少的帮手。接下来让我们试想,这个管家是个机器人,它能和真人管家一样自主处理那些事情,并且表现出来的行为与真人没有什么差别,而且能像真人管家一样随机应变,这时我们就可以认定这就是真正的人工智能了。

“人工智能”   
Artificial Intelligence

从这个标准来看,今天我们讨论的人工智能还处在初级阶段。从语音处理上来说,就是能够识别并“理解”我们的语言。处在最底层的是移动终端上一般的语音控制,这类软件仅仅能够实现打开或者关闭某个系统特定应用的功能,高一层的语音控制系统则能够打开软件以后进行自动编辑,比如使用Siri发送短信等,再高一层就可以代替我们处理各个软件日常的通知以及分析各种后台推送并且给出我们优先级(当然了,如果我们终端上的软件屈指可数,那这样的能力似乎就可有可无了),这在未来每个人都可能被大量的数据和信息淹没的情况下就显得极其方便,算得上是半个管家了,最后它可以像真人一样用语音和我们交互并且管理其他的智能设备。

也就是说,实现Artificial Intelligence的智能语音系统必须成为我们的一份子,而非仅仅是一个软件。为什么这么说呢?我相信大家还记得我们在前面一篇《人工智能:危机与策略》中讲到人工智能在经过了算法和设备完善的阶段之后就会进入到互联互通的阶段,而智能语音系统就是通过语言和我们的听觉让它更现实,让电影《她》中的情节变得比电影更真实。



我想,真正有远见的投资不会仅仅看到脚下的路怎么走,而是投资未来。投资者为创造未来而投资,而非为了利益而投资,当然,在创造未来的过程中我们获得的奖励就是利益。所以,我们需要为未来谋划。在这个进程中,可以肯定的是,从产品到体验,再从体验到生态 ,这是条稳步上升的路。这就回到了文章开头的Bixby。

根据发布会上的介绍,Bixby实现了对使用环境的检测,比如当你让它截图的时候,它“知道”该截哪张图,这一点确实是进步。其次,Bixby可以通过应用实现对其他家用电器的连通控制,当然,在联网之后才能实现。不过这次发布会并没有提到Bixby的语音识别效率以及相关的细节,但是我们可以根据现有的算法水平合理地猜测,Bixby的语音识别效率较高而且错误率较低,能够满足我们日常生活的使用,同时Bixby仍然不具备语句联系能力,就像人类可以把两个问句联系起来思考一样,Bixby只能一问一答。所以总的来看Bixby并没有我们想象中的那样对智能语音控制系统技术长足的推动,只是加入了对系统进行监测的能力。同时,Bixby就好像突如其来的东西一样,在三星的整个产业生态中并不能被看做不可缺少的一环,对用户体验的提升有限。但是正因为如此,我们的态度才是乐观的。因为未来还没有到来!




如前文所说,我们希望智能语音系统能够将人工智能变得更加现实,更加像人类智慧,使未来可能出现的类人形机器人更像人类。那么我们最先需要注意的就是人机交互。

我们应该知道现在是人机交互2.0时代,因为人机交互1.0时代的时候我们都还在用双手敲击键盘,而现在则可以使用触摸屏进行触控。然后,我们可以把正在到来的时代叫做人机交互3.0时代,这个时代有三大感官标志,一个是声音,一个是视觉,一个是触觉。声音就是智能语音系统,视觉就是VR等,触觉就是AR等,或者3DTouch。(还记得吗,这正式人类感官在机器上的延伸。)在声音这方面,我们已经实现了初步的语音控制,接下来还会实现更加复杂的语音控制。其他两个方面也是如此。

值得注意的是,语音控制有两个难点。

第一个难点是,我们如何在复杂的声音环境中进行准确的语音控制,就像人类在复杂的声音环境中准确判断出一个人的声音一样,智能语音系统怎么能够做到这一点。我们知道,当周围环境安静的时候,Siri这类软件会准确识别,但是周围有好几个人同时说话的时候,它们就会陷入迷茫而不知所措。这种困难该怎么克服?未来是不是通过算法进行解决,还是使用某种类似数据库的东西提前储存信息。

第二个难点是我们使用语音系统的时候都是在设备开启的状态下,而且如果我们主动通过语音系统让设备关机,那么我们完全不能再通过语音控制让设备重新开机。当我们仅仅使用手机或者电脑的时候,这种行为看起来似乎没有意义,但是,未来人工智能的使用绝不仅仅是现在的样子,那将是一个庞大的复杂的人工智能联系体,我们不可能手工直接操作所有设备。比如晚上睡觉的时候,我们用语音关闭了离我们比较远的电视机,早上醒来的时候睡眼惺忪,不想走过去打开,那我们就希望给电视机说一句话让它开机(这种方便程度一定大于拿出手机,打开控制器,最后打开电视机),但是,困难就在于怎么让语音系统在设备关机的时候还能接受开机指令,而且能够完比打开电视机更加复杂的活动。



可能有人对第二个难点十分疑惑,认为我们不需要如此。但是请不要忘记,我们需要的是互联互通的未来,不仅仅是人机交互,更是机器与机器之间的交互,这可能并不总是像从关机到启动这么极端,但是随时都能处理语音这点是不变的。因为现在电池护航能力上并不能让人满意,那么当没有外接电源的时候,几个同样的设备最佳的工作方案就是一个工作,其余的关机,然后这几个设备要实现交互控制,即使可能不通过语音。因为这种工作模式正式机器自动化的未来。

这或许是未来智能语音系统需要克服的困难,抑或因为其他技术的进步,语音系统会绕过某个困难。但是,在人工智能发展的未来中,一个互联互通的人机交互时代一定会到来!

总而言之,Bixby确实让我们看到了三星在智能语音系统上的努力,但是更让我们去思考智能语音系统和人工智能的未来,这个未来包括三点:第一,完善的产业产品生态;第二,应对复杂环境的算法系统;第三,具备自动化通信的能力。

正如英国的某位先贤说过的:“有远见的人才能领导未来。”没错,我们只有大胆地看向未来,才可能看清楚未来,Bixby只是一个阶梯,它远远不是全部。


声明:文中涉及的投资内容仅供参考,不构成任何投资建议。理性投资,健康致富。



i投资 始终站在产业研究的风口浪尖

百位首席分析师智慧平台

把控稍纵即逝的投资机会

构建高端人脉的优质圈子
如果您想成为我们一员
请长按以上二维码加微信 itouzi10好友
(备注:加会员+姓名+公司+职位+手机)



    关注 i投资


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册