智东西(公众号:zhidxcom)文 | 寓扬
随着共享经济的“热情”渐渐平复,又一股浪潮在智能音箱或语音入口中上演。
在过去三四个月里,国内关于智能音箱的发布会一场接着一场。4月18日,出门问问发布虚拟个人助理“问问”及智能音箱;4月25日,腾讯推出语音助手腾讯叮当;6月8日,京东发布叮咚TOP和叮咚二代;6月18日,喜马拉雅联合猎户星空等推出小雅AI音箱;6月22日,腾讯发布腾讯云小微智能语音平台;7月5日,百度发布DuerOS开放平台,当天阿里也推出智能音箱天猫精灵X1和AliGenie语音助手······
除此之外,还有更多的家电企业、运营商、方案商、技术提供商、代工厂商等涌入这一领域。在BAT及京东,以及产业链众多玩家的推动下,一场关乎语音交互与智能音响的风口已经形成,并风起云涌。
而在北京上地东路35号的一座写字楼里,便有一家提供语音解决方案的创业公司——(北京)先声互联,智东西和其创始人付强博士围绕语音交互入口展开深入对话,付强曾是中国科学院声学所的研究员,20余年语音信号处理领域的研究,他和他的团队又有怎样的故事呢?
一、20余年声学研究 一朝创业
2000年,付强从西安电子科技大学博士毕业,他博士的研究方向便是信号与信息处理。后来,又在美国和欧洲的科研院校从事相关的博士后研究工作。他在回忆这段经历时谈到:“从硕士开始,我的科研都是围绕Speech进行的”。
2004年,付强回国并到中国科学院声学所工作。期间,他完成了国家自然科学基金面上等30余项科研课题,并在包括IEEE Trans.等国内外权威学术刊物及会议上发表论文70余篇,学术成果众多。此外,他还积极将学术成果应用到实际,在2006年和2008年分别和通用、大众合作,将远讲语音方案应用到车载中。
从2004年到2016年,付强在中科院声学所已经从事了12年的研究。如果从他硕士求学算起,付强已经在声学领域有20余年的积淀。那么为什么会选择在2016年12月这样一个节点进行创业呢?语音终端的火热、市场的需求、方案打磨的成熟,这些共同推动着付强从一个研究员向创业者迈进。
付强谈到,去年有一个趋势性的风口,国内大大小小的语音终端都很热。尽管过去几年也有过热潮,但都比不上去年,甚至深圳很小的个体方案商都来找他们,半年内多达几十个客户。
市场对语音的需求确实大量存在,尤其是在车载、家居等几个场景。而三星在2012年推出具有远讲语音能力的电视,也带动了国内的智能电视潮。当时付强在中科院的团队联合(山东)共达电声和海信集团合作推出了国内第一款支持远讲语音的海信电视XT810,提供远讲语音的信号处理、远讲算法、唤醒以及硬件模组。此后,其团队联合共达电声和海信又推出了两代支持远讲语音的电视产品,和TCL合作在北美市场推出TCL平板电视等等。这些合作也不断打磨付强团队的语音方案以及技术,这些条件共同促使他创立先声互联,以便获得更大的发展。
(先声互联的客户案例)
先声互联的创始团队大多是付强在中科院声学所的原班人马,其中一个创始人来自著名的杜比实验室。他谈到,团队中有他的博士后学生,负责核心算法,也有跟了他七八年的声学所的部下,团队之间能够无缝磨合,效率也较高。目前,先声互联在北京有一个10余人的正式团队,在共达电声方面有一个10多人的协作团队。
目前,物灵的luka阅读养成机器人、极米科技的Lightank W100、数字家圆的亲见H2、360的巴迪龙儿童陪伴机器人等产品都采用了先声互联的远讲算法以及麦克风拾音模组。此外,先声互联也正在和腾讯、联想、小米等大公司就某些智能硬件产品展开合作。
二、对标科胜讯 提供整套语音解决方案
如果把一个智能语音产品分为前端和后端,那么先声互联的核心业务就集中在前端,一方面他们提供远讲算法和麦克风阵列,另一方面提供麦克风拾音模组,即提供一整套软硬件相结合的语音解决方案。
付强谈到,先声互联还提供语音语义技术,并能够和亚马逊AVS、百度度秘、腾讯云小微、谷歌Assistant和微软Cortana等主流语音交互平台对接,从而协助客户进行平台准入测试认证,以及内容接入。甚至基于先声互联现有的方案,客户只需要装一个音箱外壳就可以使用了。
(先声互联智能音箱样品展示)
而在今年7月5日的百度AI开发者大会上,作为百度的合作伙伴,先声互联也展示了其最新研发的多麦克风硬件开发套件。该方案采用全志科技四核R16处理器,内嵌先声互联的麦克风阵列和远讲算法,搭载百度DuerOS SDK,支持双唤醒词,以供开发者使用。
(先声互联基于全志R16平台开发的模组套件)
在谈到在这个领域的竞争对手时,付强指出科胜讯是一个令人尊敬的对手。科胜讯主要提供芯片和远讲算法等软硬件解决方案,其优势在于芯片和降噪算法方面。另外像亚马逊打磨了四年才推出Echo,三星也磨合了4年才推出了全球第一款远讲语音电视,其中芯片用的就是科胜讯,而科胜讯也一样,其技术也经历了4年的磨合,因此也更加成熟。
而付强团队在国内也较早从事了远讲语音研究,在2006年和通用合作就开始涉及这块,因此在技术上拥有较深的积淀。相比科胜讯,先声互联在增强算法这块更具优势,其后期也会发力语音专用芯片,对标科胜讯,提供更全面的软硬件方案服务。
另外,随着远讲语音设备在麦克风阵列方面的需求大增,科大讯飞、思必驰、云知声等语音技术公司以及近期涌现的语音方案商都开始涌入这一领域,而这也正是先声互联的机会所在。此外,付强还谈及,先声互联已通过基于Alexa的AVS标准认证,也间接表明先声互联在远场算法方面的优势。
先声互联目前更侧重于语音解决方案的提供,在拾音模组的生产方面,是由其合作伙伴共达电声负责代工的。付强也指出,他们在供应链上有很强的人脉资源,像通利电子、超声音响等整机代工厂商,都保持着密切的联系。
三、远讲语音设备的关键部分:麦克风阵列
麦克风阵列是远讲语音设备的一个关键部分,它包含2个以上的麦克风和远讲算法,通过声源定位、波束形成、噪声抑制、回声消除等算法,有效拾取声音,从而保证在具体场景中的语音识别率。麦克风阵列是拾取声音、唤醒设备的第一步,“你家用的谁的麦克风阵列”一时间成为热议。
在智能音箱中,亚马逊Echo采用了6+1麦克风阵列,Google Home采用双麦克风阵列,叮咚音箱A1采用7+1麦克风阵列,阿里的天猫精灵X1采用6麦克风阵列等等,不同的玩家采用了不同的麦克风阵列方案。
(先声互联正在测试的小哥)
那么麦克风的数量和拾音效果究竟有没有必然关系呢?付强指出,首先相对于后端的语音识别,前端的信号处理主要是为了解决背景噪声、非平稳干扰、设备回声、以及房间混响这4个问题,麦克风阵列只是其中一种手段,并且始终有人在用一个麦克风来做拾音研究。
目前,麦克风阵列语音增强大致可分为两种技术路线:一种是以亚马逊Echo为代表的经典波束形成路线,它对麦克风的数目和阵列拓扑结构依赖较大。通过使用较多的麦克风以及特定的拓扑结构,从而使得波束的空间区分性更强,保证声源定位和拾音效果。另外一种就是以科胜讯为代表的路线,该路线更加依赖于语音增强算法,而对麦克风的数量和阵列拓扑结构依赖较小。通过自适应降噪、降低混响、语音分离等技术,从而靠少量麦克风获得良好的拾音效果。也难怪科胜讯会说,其双麦克风就可以实现相当于友商5-8麦克风的解决方案。
而先声互联的技术路线和科胜讯相似,其优势更在于阵列的增强算法。具体而言,先声互联的麦克风阵列将物理建模的信号处理与机器学习的数据建模相融合,从而将背景噪声、设备回声、房间混响等因素进行抑制,其提供的麦克风方案包括双麦、四到六麦以及七麦以上的解决方案。此外付强还谈到,其团队的前端处理技术可以支持更加灵活的麦克风阵列排布方式,这意味着产品的ID设计可以有更多元的选择。
四、再谈语音入口与智能音箱
时下智能音箱的火热,引发了大家对语音入口及智能音箱的讨论,支持和唱衰的声音此起彼伏。付强则认为,语音作为交互的入口确实是一种趋势,可能现实中存在波折。这需要我们找到更有刚需的场景,并且不要局限到语音交互上,比如也可以是语音通话设备等。尽管亚马逊Echo在智能终端方面具有里程碑的意义,但它并不具有革命性意义。
从市场方面来说,智能音箱目前还是科技圈人士和潮流人士的玩物,用户的使用习惯还有待培养。科大讯飞在其2016年的年度报告中指出,叮咚音箱2016年的整体销量近10万台。灵隆科技总经理魏强也曾说过,叮咚音箱在国内智能音箱的市场中占据近八成,那么国内智能音箱的市场还是相对乏力的。
(先声互联的合作伙伴及客户)
付强也指出,虽然确实有太多的人在做智能音箱,但并不能说这不是一个入口,它是有可能占领家庭某个场景的。目前芯片成本大概在3-4美金,开发套件成本也在20美金左右,成本过高也是影响市场推进的一个重要因素。此外,智能音箱想要获得更多的发展,需要在成本、内容资源、功能、社交要素整合、交互体验等方面共同发力。
但同时设备制造商也应该考虑更多的可能性,布局不同的细分场景。比如像先声互联的客户中,已经就某些细分场景进行深耕,如车载的中控设备、移动场景下的智能耳机、以及家居场景中的电视、儿童机器人等都是不错的切入点。
另一方面,BAT布局语音入口,无疑也会进一步催熟这个市场。付强谈到,BAT的基因决定了他们更多布局平台和软件层,这也是他们的优势所在。至于是否做硬件,其实就是先做一个精品再推生态,或者先推生态再打造精品的一个选择罢了。长远来讲,他们的目的还是生态,最终还是希望引流,物联网也是同样的道理。
此外,付强也谈到,考虑到Alexa的生态建设,平台的测试体系和测试标准也将会是一个重要的问题,而目前我国在这方面还没有太多进展。比如百度、阿里、腾讯都应该建立自己的接入标准,从而推动这个语音交互生态的发展。
结语:学者创业胜算几何?
从学界到业界,从研究员到创业者,这是付强走过的轨迹。而这也反映出,在智能语音入口火热的大背景下,更多的科研人员走到一线,成为时代的弄潮儿。
对标科胜讯,这位在声学领域钻研20余年的学者式创业者,将会带来怎样的故事?
举报/反馈

智东西

64.2万获赞 37.8万粉丝
智能行业媒体官方账号,鲲鹏计划获奖作者,优质科技领域创作者
智能行业媒体官方账号,鲲鹏计划获奖作者,优质科技领域创作者
关注
0
0
收藏
分享