智能音箱在中国火了。双11,阿里巴巴的天猫精灵卖到了99元一台,一下子出货上百万,而此前京东与科大讯飞合作的叮咚智能音箱一年才销售十万。
在中国市场,价格绝对是第一竞争力。当天猫精灵面世的时候,499元的价格就已经是将行业低价穿透,随后小米的“小爱同学”将价格下拉到了299元。此前,杭州一家名为Rokid的产品卖到了1399元,喜马拉雅的小雅售价为999元。当然,也有不服的,作为市场的后来者,百度智能音箱标价再上新高,算是另类。
不管怎么讲,这种低价确实带来了普及型的发展,也有利于提升开发者的信心。在世界上看,亚马逊的Echo因为有千万级别的销量,全球有超过5000位工程师在为它工作,这也让亚马逊有足够的能力提升产品,这一点在国内是最为欠缺的。在拥有了百万级别的玩家和大量的开发者关注之后,智能音箱的能力有望得到大幅度的快速提升,智能化水平也会水涨船高,由此会带来新的大面积的普及应用。
专家们认为,智能音箱的核心在于远场语音识别和自然语言理解。前者属于硬件层面上的问题,可以通过不断的产品迭代进行优化。事实上,包括阿里人工智能实验室、百度的DuerOS团队等均给出了完善的远场语音识别解决方案。但软件层面的服务却是渐进性的,几乎所有的互联网巨头在语音识别的准确度上都做到了97%以上,并在自然语言处理技术、多轮对话技术、大数据知识图谱等领域各有所长。尤其是在用户层面上,智能音箱成为刚需的前提是对需求的最大化满足,解决用户在产品使用过程中的实际痛点,实验室等显然难以实现这一条件下诉求,庞大用户量是加速智能音箱走向成熟的不可或缺因素。
出门问问的创始人曾经表示,未来语音交互将会占到人机交互30%的时间,很可能就在未来3-5年。事实上,中国的互联网企业都在努力攀登这一高峰。阿里利用AliOS重塑了汽车生态,抛弃了手机上“桌面+APP”的形式,借助语音交互实现“服务找人”的模式;百度在DuerOS中最大的亮点便是语音识别和处理,并贯穿百度的人工智能生态当中。日前,科大讯飞更是列入到智能语音识别的人工智能创新平台国家战略中。
不过,一切并不是很乐观。作为世界上最为源远流长也最为成熟复杂的语言,中文的电脑输入与语义理解一直是科技领域的巨大难题,每一次的微小进步都非常困难。当然,这方面的每一次进步也往往会带来巨大的科技突破性成就。
我们可以看看中文文字输入的过程。曾经被认为不适合电脑时代的中文,在1983年被一个叫王永民的创造性的用五笔字型进行了解决,使用传统的中文汉字拆分方式,以汉字创造时的方式让中文从此成为计算机上输入最为快捷的文字之一,中国人从此开启了全民普及电脑的时代。
当然,这个曾经被新华社誉为中国文化史上“意义不亚于活字印刷术”的重大发明,五笔字型也随着大数据的使用被一些智能拼音输入给冲淡了,但其历史贡献依然巨大,也给语音识别的发展指明了前进的方向。
搜狗输入法、百度输入法、讯飞输入法等等,依赖庞大的词库、编码优化和大数据优化开创的整句输入、联想输入、云联想等功能,加上强大的联网词库,彻底颠覆了拼音输入法的体验,硬是让拼音输入法的速度实现了质的飞跃。随着语音识别技术的发展,语音输入、文字自动识别等技术将取代这一切,也最终实现中文在文字输入与语音识别上的能力统一。
正是如此技术的限制,很多人在使用中文的智能音箱进行语音对答的时候还总是感到其力不从心,无法实现像对待一个正常人一样的交流,这就是智能音箱发展中最大的困难,需要通过时间去克服,而使用数量是其发展的第一步,也是最关键的一步。
我们相信,随着智能音箱大面积的落地,随着智能音箱被各种各样的戏弄使用,其内在的能力也在快速的提升,两三年之后,这种承载着下一代互联网入口重任的产品就非常有可能具备五六岁孩子的智商,和你对答如流并帮助你完成你交给的任务。
举报/反馈

马继华

22.7万获赞 3.6万粉丝
关注移动互联,醉心数据分析
财经领域创作者
关注
0
0
收藏
分享