今年下半年,思必驰有点忙,蛰伏三年终于推出了第二个对话定制平台“DUI”。距离思必驰发布的第一个对话式平台,也是中国第一个口语式对话平台“对话工场”,已有四年时间。这四年里,带着平台赋能开发者行业的初衷,思必驰走了不少“弯路”。
时间回溯到 2013 年 9 月 7 日,思必驰发布“对话工场”。这是做智能语音对外汉语口语教育系统和解决方案出身的思必驰团队重新审视互联网行业的结果。
这一年中国爆发了智能手机换机潮,出货量 3.2 亿台,同比 2012 年上涨了 64%,同时移动互联网市场规模突破千亿大关。海尔、高通等企业针对物联网发起了 AllSeen 联盟,同时海尔、美的等家电企业也都有落地的物联网家电批量进入市场。
思必驰 CEO 高始兴觉得,那一年中国移动互联网的中场拉开帷幕,思必驰需要迎风而上,找到一个落脚的大方向,另一方面,Siri 等语音助手的兴起,也让思必驰看到了语音对话平台的方向。“那个时候的很多语音助手市场,有几百上千款产品。”于是就有了“对话工场”这个对话平台,并开放底层的 ASR、TTS、NLU 等 SDK 接口,试图赋能当时的语音助手开发者,然而这个平台没有做起来。
这一步走的有点早
“当时物联网刚刚起步,市场规模没发展起来。更不用说物联网中的人工智能自然语音交互市场,从产品普及度到产业链的成熟度、产业化落地速度和质量都不够。”高始兴分析其当时的市场环境感叹颇深,2013 年做对话平台,方向对了,只是这一步走的有点早。
图丨思必驰 CEO 高始兴
一年之后,物联网的风口渐起。有了前车之鉴的思必驰把对话平台暂且放在一边,转而选择软硬一体化的道路,顺势而为地做了一款智能车载产品“车萝卜”,将语音人工智能落地到创新端。
2015 年,基于车萝卜的技术提炼,思必驰推出了 AIOS 系统,开始赋能三个垂直市场:车载、家居、机器人,满足这三个垂直领域在自然语言领域不同的需求。
到了 2016 年,物联网市场的帷幕完全拉开。思必驰的团队发觉,越来越多的开发者和客户在个性化、定制化、敏捷度等方面的需求越来越高,AIOS 已经跟不上了市场需求了。辗转四年的思必驰终于可以做回初衷,全链路定制一体化对话式平台“DUI”。
图丨四年后的 9 月 7 日,思必驰正式发布 DUI 对话开放平台。
从“对话工场”到“DUI”,思必驰回到了对话平台。中间的探索在高始兴看来不是弯路,最多算的上小弯路,这些小弯路是为了让大方向的道路越走越直。
“对话工场”这个早产儿让高始兴明白,当时思必驰的能力不足以提炼出一个平台。如果思必驰没有做车萝卜,没有做 AIOS,没有对那三个垂直市场的理解,就不会有对开发者的理解,对客户的理解。不明白他们需要什么样的能力,就无法将这些能力去模块化,更无法给开发者提供全链路服务。高始兴反思的很深很彻底,当时的对话工场没有这些能力,做不了平台。
“你不深入扎到水里面,你不知道这个水的深浅。绕的这些小弯路都是顺势而为,大方向没错。”
未来所有的端都有对话能力
有了车萝卜和 AIOS 的经验后,思必驰认识到做平台,要把端到端的各个环节大通,才能将体验做好。比如一个音箱产品用了 A 公司的麦克风阵列、B 公司的语音 C 公司的自然语言理解技术,这种割裂的系统带来的体验会非常差。
高始兴解释道,“因为前端麦克风阵列是别人的,就很难去根据他采集的数据来调自己的模型。而平台是可以做到的。此外交互感非常差,因为交互是基于识别结果的。未来人机对话的过程应该系统化地去优化这个交互方案,而不是一个串行的系统。”
“未来整个物联网人工智能世界一定是对话的世界,人机对话的世界就是万物赋能对话。”在高始兴眼里,未来所有的端都要有对话的能力。这就需要一个能灵活定制各种需求的全链路一体化对话平台。
据思必驰介绍,DUI 几乎每个模块都能实现定制,包括唤醒词、语音识别、语义理解、对话管理和输出、 TTS,它可以向开发者提供完整的智能对话交互方案。DUI 是一个端到端的全链式大系统,其中包含了四个子系统:天机系统支持实时的数据监测和系统反馈预警;青囊系统包含监控反馈支持迭代、项目管理;玲珑系统支持跨平台和离线操作;紫微系统提供接口资源平台,兼容 AVS 服务。
不过高始兴表示,一体化的平台并不代表,里面包含所有能力都由思必驰来做。“思必驰会联合其他的合作伙伴组成一个大的能力平台,最终做出能赋予开发者 All in one 能力的一体化平台”
未来很多流量入口会消失
在传统移动互联网时代,流量入口被切分为很多块,应用市场、各种 App、社交网站、资讯网站等等,但是未来的流量入口会有颠覆性的变化。高始兴的想象是,在物联网端,很多流量入口将会消失。不会再有 App、输入法、安卓市场等等,这些分散的流量入口会汇聚成一个大端,形成一个流量入口。
“未来可能就是你买了几个不同的端,不同的端代表不同的服务,中间是一个大的人工智能系统在运转。”他的另一种想象是未来下载的不是 App,而是 Avatarstore(阿凡达)。安卓市场会演变成虚拟人物市场,每个虚拟人物背后代表不同的服务。
因此“未来一定会走向对话智能”,对话智能意味着机器更懂人类的想法。在人机对话中,当机器听不懂时,它能主动并且知道怎么问人类,以求得更好的理解。这是一种完全自然的语言交互。
而现在的交互系统大多是结构式。用手机订餐馆时,需要选择菜系、位置等等,像填空一样必须按照系统提供的结构去填。这种方式颠覆了人性化的需求。高始兴认为人性化的方式应该是,你对它说我晚上要和女朋友吃饭,帮我定个浪漫的餐馆。未来人机交互体验应该是追求人性化的道路。同时未来的人机交互不知是自然语言交互,还会加入图像人脸识别等多模态,这也是一个趋势。
虽然从终局看现在,很多事情都有不一样的局面。但市场往往是以当下为中心看未来。高始兴回想起互联网市场早期严重的中心化现象,“手机上被安插了所有能想象到的功能,做 App 的恨不能冰箱上都能下载 App。但是终局不一定是这样的,一个时代的迭代变革是巨大的,就像今日头条,当年很多人看不上,但后来它展示信息的方式还是吸引了大量受众,现在已经很少有人看门户网站了,未来门户会消失。未来的逻辑在物联网端”
语音对话平台市场饱和了吗?
2016 下半年开始,对话开放平台市场进入爆发期。BAT 陆续发布自家的人机交互平台。2016 年 8 月阿里云发布初步具备与用户自然交互能力的人工智能 ET,并且通过阿里云开放其 API。很快,2017 年 1 月百度发布对话式智能开放平台 DuerOS,并被业内人士称为中国的 Alexa。紧接着,今年 6 月腾讯也发布了具备语义分析能力的智能语音平台“小微”。除了三大巨头外,还有深耕语音多年讯飞,以及云知声等专注语音系统的公司,都在做语音开放平台。这个市场似乎在走向饱和。
然而高始兴并不这么看,他认为,“市场是否饱和不看有多少家公司在做,而是看它们的目标市场服务的对象市场怎么样。因为无论是谁在做,服务的市场大致是一样的。目标市场起来之后,再去推演上游市场达到什么阶段。现在物联网市场刚刚拉开大幕,所以这个市场远远没有饱和。移动互联网刚刚从红海到血海,这是个巨大的市场。”
“思必驰排在第二梯队?我不认”
在互联网市场,有玩家就一定有排队。在语音技术领域,业内把百度、讯飞这样的公司排在了第一梯队,而把思必驰和云知声放在一起排在第二梯队。高始兴并不认同这种粗暴的排队方式,“排队可以,但要看维度”。
从公司规模上,思必驰当然没法与 BAT 比。从产业维度来看,讯飞在 2B2G 上也是第一梯队。但从技术上看,高始兴信心满满,“思必驰在物联网端的自然语言交互技术是全球领先的。”据其介绍,思必驰目前在物联网自然语言交互上有 150 名 AI 人才,人数超过了所有其他公司。此外,刚从阿里 iDST 挖来的语音技术专家初敏也让思必驰在技术上有了更多的信心。
图丨思必驰北京研发院院长初敏
除了自家的 DUI,高始兴也表达了对百度的敬佩,并非常看好 DuerOS,他认为思必驰和百度应该排在物联网自然语言交互技术的第一梯队。未来的物联网将会是一个对话的世界,是一个千亿级的市场。而思必驰的愿景就是要帮助开发者在不同场景中打造极致体验的交互产品。
举报/反馈

DeepTech深科技

102万获赞 65.1万粉丝
百度文库精选系列专家号
鲲鹏计划获奖作者,DeepTech深科技官方账号
关注
0
0
收藏
分享