人机对话的浪潮:语音助手、聊天机器人、机器伴侣

刘挺 2015-08-30 10:04 阅读:4.3万
摘要:人机对话的浪潮:语音助手、聊天机器人、机器伴侣

(一)语音助手

2011年10月,乔布斯临终前在iPhone4S中加入了Siri功能,用户可以用语音对手机发号施令了,国内厂商随即跟进,当时国内一位企业家对我说,以前的搜索方式都错了,Siri方式是未来。2012年,国内的语音助手产品纷纷上市,然而,经过市场的检验,两年过后,大陆的语音助手类产品从火爆到冷清,纷纷下马。

究其原因,主要有两个方面:

1. 技术尚未成熟,尤其是自然语言处理技术不成熟,用户以为他可以自由发问,但机器能够理解的广度、深度和精度都很有限。几次使用失效后,用户开始调戏他的助手了,以至于原来用于闲聊的附属功能反而成了主角。调戏一段儿,用户发现机器实在太傻,干脆弃之不用,以至于语音助手产品的总用户量巨大,而留存量很小。

2. 语音并非总是最自然的沟通方式,当一个人没有独立的私人空间时,点几下触摸屏比小声地跟机器说话要方便得多。

(二)聊天机器人

第一轮人机对话技术实用化的冲击波在震荡下行,几乎落幕,第二波随即登场,2014年5月,微软发布聊天机器人“小冰”,此后“小度”(百度)诞生了,”小微“(腾讯)还没有出世,但江湖中已经有他的传说。

小冰与语音助手有什么不同?

1. 从实用主义转向娱乐化,语音助手想帮你解决实际问题,比如预定饭店,但小冰在陪你闲聊,闲聊就可以不对事务处理和知识服务的任务是否准确完成负责,你说东,他说西,也无所谓,现实中消磨时光难道不是常常如此吗?于是,用户的期望值大幅度降低了。

2. 放弃语音的使用,直接用文字进行沟通。

对比一下,大家可以看到,小冰的两个特点恰好规避了语音助手的两个弱项,但功能模式的变化只是一方面,更重要的是技术在进步,大数据、深度学习被充分地运用到聊天机器人的系统当中,技术水平已非三年前可比。用户期望值降低,技术水平提高,鸿沟在缩小,当然,也只能说是缩小,还远远谈不上填平。

那么,聊天机器人的困难主要在哪儿呢?

我们对比一下搜索引擎和机器翻译。人们在搜索引擎中发出的相同的请求,其答案往往也是相同的。在机器翻译中,句子尽管跟上下文有关系,但不做篇章级分析对翻译系统而言并没有那么致命。因此,我们如果有了”查询-点击对”大数据就可以造出一个搜索引擎来,有了双语例句大数据,就可以造出一个机器翻译系统来。但有了人与人的聊天记录呢,我们能够快速构造一个聊天机器人吗?

答案是:聊天记录大数据对聊天机器人系统肯定是有用的,但没有查询日志对搜索引擎,双语例句对机器翻译那么重要,那么有效,因为聊天是和语境紧密关联的,也是跟用户紧密关联的,机器人自己还需要维护其自身一个统一的属性状态集,机器人不能今天说自己结婚了,明天又说自己才5岁。

因此,聊天机器人需要对当前语境建模,对用户建模,对机器人自身建模,只靠聊天记录,尤其是单轮的聊天记录,只能不断制造令人啼笑皆非的笑话出来。

(三)机器伴侣

这一轮(聊天机器人)的努力会在短期(2-3年)内取得重大的商业成功吗?我的答案是否定的,因为技术仍然不够成熟,而普通用户的素质还没到能够有效地配合蹩脚的机器人的时候。我猜测这一轮会进一步地培养用户,摸清人机对话的沟沟坎坎,把技术提升到一个新的高度,但因为仍然令广大用户失望,而再次被抛弃,成为新产品的铺路石。

那么,未来的人机对话产品会是什么样儿呢?在探讨未来可能出现的新的产品形态之前,我们先把人机对话的主要模式归纳一下,最主要的分类是两种:

模式1. 以快速结束人机对话为目标(语音助手主要采用这种模式)

这又包括两种,一种是命令执行,一种是信息查询。

所谓命令执行是指用户发出的一个祈使句,要求机器做一件事儿,可能是在虚拟世界中对数据库的操作,比如预定机票、酒店等,也可能是在现实世界中要求机器人鞠个躬,走两步。总之,机器响应用户的结果不是给出答案,而是实施某种行为、进行某种操作,准确地说是“半对话”,机器要做的是理解与行动,至多需要反问用户,以澄清用户的指令。

所谓信息查询是指用户想要得到某种信息,有时是将用户的自然语言问句转化为结构化数据库的查询语句,有时是从开放的互联网自由文本中找到一个词儿、一句话或者一段话作为答案返还给用户。

无论是命令执行,还是信息查询,用户都希望快速达到其目的而结束对话。

模式2. 以尽可能延续人机对话为目标(聊天机器人模式)

对于聊天而言,不管机器对用户问题的回答是否正确,只要用户愿意跟机器一直聊下去,每次聊很多轮,即构成多轮对话,又能长期聊下去,机器就得到了用户的认可,认可机器具备了一定的人性,这是一种新的图灵测试。

在模式1中,机器是被动的,不断响应用户的请求,但在模式2中,机器时而可以是主动的,可以主动抛出话题。在模式1中,如果对用户的话没有正确理解,而能够做出正确的行为或给出正确答案的概率几乎为零,而在模式2中,即便没听懂用户的意思,也完全能磕磕绊绊地聊下去,甚至卖个萌还给用户一个惊喜,故评价标准真的是不同了。

未来的产品形态,就称其为“机器伴侣”吧,他会将模式1和模式2融为一体,需要发号施令或者查找信息的时候,就用模式1,需要情感慰藉,打发时间的时候,就用模式2,机器伴侣既是你勤快利落的仆人、秘书,又是你体贴缠绵的妻子、恋人。机器伴侣,前期可能只是一个机器宠物,再后来是一个机器孩童,然后一点点儿成长,在使用中不断地向主人学习,向环境学习,直至长大成人。要实现这个理想,需要太多的条件,对语言的深度理解,对用户情绪的准确感知,语境分析,个性建模,尤其是强大的推理能力。 

在商业上,机器伴侣,注定是入口的入口,是总入口,是互联网大企业的必争之地。在技术上,只要你发挥想象,就会发现各种自然语言处理、模式识别、人机交互技术几乎都可以在机器伴侣中找到其用武之地,比如上下文指代消解技术、文本生成技术、人脸表情识别,语音情绪识别等等。

人机对话的风潮,一浪高过一浪,每一个身处其中的技术家都有机会用激情、创意和汗水去满足其继续称霸或造反成功的野心,让我们拭目以待吧,同时记住那句话:预测未来的最好方式是创造未来。

版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。
阅读量: 4.3万