人机交互的分支：图形用户界面

时间：2015-09-17　|　来源：雷锋网　|　阅读：177

话题：人机交互

但事实是：语音接口的效果仍然不尽如人意。例如，不少公司已经使用这一技术来做简单的客户服务，但在在实际使用中，我仍然经常需要放下电话用虚拟键盘输入生日信息等内容（可能和我的广东腔英语有关），至于Siri，如果是一些诸如问路之类的简单问题倒是可以对付，但如果你的问题逻辑太复杂把Siri逼急了，Siri也会无耻的给告诉你，外事不决问Google然后丢一个页面给你让你自己看去。像Tony Stark一样和人工智能JAVIS那样对话的场景，也只能出现在电影里。

不过，这一切总在朝好的方向发展。今年6月初，SoundHound的首席执行官Keyvan Mohajer对外展示了一个从其2005年初创之时就一直在打磨作品。在此之前，我们对SoundHound的理解是一个流行音乐识别应用，如果你对着手机哼上几句歌，SoundHound就会识别这首歌曲的名称。但这款叫“猎犬”（Hound）的原型则更进一步：一开始，Keyvan问的是一些简单的问题，例如现在在柏林的时间、日本的人口等。突然Keyvan冒出一句：“它们之间相距多远？”根据之前的问题，“猎犬”对此作出了正确的回答：“大约5536英里”。

在接下来的测试中，“猎犬”成功回答了诸如计算按揭贷款的数额以及“告诉我首都有Space Neddle这个建筑物的那个国家有多少人口？”之类的问题，对于Keyvan一口气连珠炮发问的多个问题，一般人或许都需要想一阵才能反映过来，但对于“猎犬”来说同样不在话下。就其表现而言，仍然处于内侧阶段的“猎犬”或许是迄今为止速度最快、功能最全的语音识别系统。猎犬的牛逼之处在于可以同时进行语音识别和自然语言处理，但对其他类似系统而言，要迎头赶上或许只是时间问题。

对于上个世纪七十年代的Ronald来说，他们所头疼的“门槛技术”现在已经是任何一家语音识别公司都能轻易掌握的东西。今天的对话式界面技术是一个经典的跨界融合：技术计算能力的增长、语音识别、移动通信、云计算和神经网络都在同一阶段达到一个临界点，最终使得这一领域的研究者开发出足够好、足够便宜和无处不在的实时对话界面。而这种交互方式的发展，也进一步推进了那些没有屏幕的联网设备（例如路由器或者烟雾报警器之类），毕竟对于这些设备，我们需要的是一种不需要按钮、菜单和图标的自然交互方式。