>科技>>正文

谷歌助手带火国内智能语音创业?7天融资超1.8亿美元

原标题:谷歌助手带火国内智能语音创业?7天融资超1.8亿美元

Google Assistant再次给智能语音行业注入一剂强心针。巨头夹击下,国内智能语音创业者是否还有一线生机?

本文共计3100字,阅读时间5分钟。

本文为寻找中国创客(ID:xjbmaker)原创

记者 / 蔡浩爽

编辑 / 魏佳

作为AI领域第一个现象级硬件产品,智能音箱在过去一年火到发烫,一年前的夏天,关于智能音箱产品的发布会一场接着一场,BAT也在一个月内先后入局。

而一年过去,爱尝鲜的极客市场已经饱和,市场增长逐渐放缓。

直到5月9日凌晨,谷歌I/O开发者大会上,Google Assistant的流畅的人机对话像一阵春风吹过,不少媒体惊呼“谷歌‘造人’了”,关于智能语音的讨论再次占据大众焦点。

紧跟其后,国内智能语音市场迅速复苏,仅仅一周内,就有包括云知声、小鱼在家、三角兽在内的明星创业公司发布共计超过1.8亿美元的融资。

和国外相比,我们的技术差在哪儿?资本再次涌入,巨头夹击下,智能语音创业者该往哪儿走?

不断迭代的语音助手

1966年,麻省理工学院的计算机科学家发布了最早也是最著名的聊天机器人程序Eliza,通过分析用户输入计算机的话语,然后将它们匹配以生成可能的脚本的响应列表。随后,聊天机器人制造商不断在Eliza的基础上,打造更多人性化的聊天机器人。

半个世纪过去,语音识别技术经历了由小词汇量、孤立词的识别到大词汇量、非特定人连续语音识别的飞跃。终于,2010年,苹果收购了Siri,并与全球最大的语音识别厂商nuance合作,在2011年推出了搭载人工智能语音交互软件的iPhone4S手机,语音助手从此被公众所关注。

发布之初,Siri支持语言种类少、反应缓慢、语义理解能力差,被公认为智商低、常常答非所问。但随着技术的发展和市场的培育,Siri与电话、地图、提醒、音乐等功能实现连接,不久前Siri还通过拨打电话帮助南京警方成功找到手机失主。

Siri之后,微软Cortana(小娜)、GoogleAssistant、亚马逊的Alexa、国内的百度度秘、科大讯飞的灵犀等一批语音助手涌现。“目前国内的语音助手平台至少有50家。”智能语音交互公司思必驰CMO龙梦竹告诉寻找中国创客(ID:xjbmaker)

技术公司们意识到智能语音互动会成为下一代技术产品最核心的用户入口,但这些语音识别助手及搭载他们的硬件产品似乎并没有戳中用户痛点,直到亚马逊Echo出现。

图片来源于网络

2014年,亚马逊CEO杰夫·贝索斯玩票似的做出智能音箱产品Echo,甚至都没开产品发布会。但就是这样一款当时在亚马逊内部也不被看好的产品,由于首次搭

载了语音助手,可以通过语音交互实现开关电器、定闹钟等功能,背后还有亚马逊庞大的内容资源,面市两周内销量即达100万。达到同样的订单数,iPhone用了70天。

Echo的火爆催熟了语音市场,有媒体报道称,业内人士表示,智能语音助手设备的全球需求将在2018年从3000万台猛增至5000万台。

/ 视觉中国

实现人机对话分几步?

从初代聊天机器人Eliza开始,通过图灵测试就是这些智能语音类产品的共同目标。

1950年,计算机学家阿兰·图灵提出“图灵测试”的概念,如果一台机器与人类(通过电传设备)展开对话不被辨别出身份,就具有智能。近年来,尽管深度学习、神经网络等技术有了显著进步,但依然没有一个机器人能够真正通过的图灵测试。

就在谷歌I/O大会首日,谷歌CEO皮查伊展示了Google Assistant的新功能——可以打预约电话的“Duplex”,它能够模仿真人的语气,帮助用户完成电话预定理发、用餐等操作。

不久后,谷歌方面随即宣称,Duplex达成了一项里程碑式的成就——通过了图灵测试。

图 / CNET

但是,在一些智能语音公司看来,Google Assistant只是“部分通过图灵测试”。

要实现真正的人机对话,需要经过语音识别、语义理解、语音合成几个主要环节。

“图灵测试最复杂的地方,就在于没有边界。”智能机器人公司Rokid副总裁向文杰解释,在对话意图可以穷举的垂直领域,比如谷歌在此次I/O大会上展示的预定餐位、预约理发等场景,经过积累数据、打磨、优化,做到谷歌展示的准确理解对话意图、做出相应反应并不难。

“在电话预约等命令类语音助手使用场景,即便有上万种说法,但对话的意图是可以穷举的。语义理解在单一领域可以打磨得非常好。”向文杰说,语音助手通过语义理解,识别每句话的意图,即可通过对话管理功能做出得体应答。

但向文杰同时表示,每个行业都有不同特点,把每个领域的各种对话情况都穷举出来,是非常耗费人力的。根据现有的科研进度,没有一个公司可以在短期内做到深入理解所有场景。

家庭人工智能设备Rokid

在他看来,谷歌这次的展示,最让他惊艳的技术在于语音合成(即TTS,文本到语音),也就是引起舆论狂欢的“像真人一样的语音语调”。

TTS自然度的一个主要测试标准是MOS(Mean Opinion Scores),其评分在1-5分,其中5分最好。

“像我这种水平的普通话,得分在4.5左右。国内大部分厂家的TTS可以做到

4.0分,也就是人们常说的有‘机械感’的发音,而谷歌这次做到了4.6。”向文杰说。也就是说,Google Assistant的发音,已经做到了比正常人更为流畅自然。

这得益于谷歌两年前推出的WaveNet深度神经网络,采用自然生成的方法,以少量的语料辅以强大的计算,生成原始语音,不仅更贴近真人,而且制作时长也从几个月降低到几百小时。

除了语义理解、语音合成外,还有一环是语音识别。

国内语音交互企业思必驰技术负责人戴中原告诉寻找中国创客(ID:xjbmaker),目前,国内头部玩家识别准确率基本可以达到97%以上。

向文杰认为,在语音识别方面,国内前几名的互联网巨头、创业公司水平差距都不大,而只有在极端场景下,极高的识别准确率才能创造价值。

“与人相比,机器的优势在于特定领域的专业度,尤其是非标准知识的专业度。但在语义上下文的理解方面(NLU)和输出环节的语义组织与生成方面(NLG)方面,不同场景各有特色。所以目前只能有垂直领域的对话机器人比较有价值,通用的、广泛的聊天机器人,要达到完整的自然对话、交流还是非常有难度的。”戴中原总结道。

丰台Kirobo Mini

创业者还有机会吗?

苹果Siri、微软Cortana(小娜)、Google Assistant以及亚马逊Alexa占据全球四大主流语音助手席位,中国市场还有机会吗?

国内市场上的“玩家”大致可按公司体量分为三个梯队:“BATJ”加上科大讯飞、小米是第一梯队;思必驰、云知声、Rokid、出门问问等企业处于第二梯队;声智科技、智能一点等更小的初创公司则是第三梯队。

对于巨头们来说,平台战略是他们的一贯打法。

2017年7月5日,百度推出了对话式人工智能系统DuerOS,希望做智能语音领域的“安卓”。基于DuerOS,百度推出了小度智能设备开放平台,为开发者提供包括硬件和软件在内的一揽子解决方案。

就在百度推出DuerOS同一天,阿里也推出其智能音箱产品“天猫精灵 X1”。

“天猫精灵X1”的背后,是阿里人工智能实验室自主研发的第一代人机交流系统AliGenie。

去年6月,腾讯也推出了基于腾讯云的小微智能服务开放平台。

为抢滩物联网入口,阿里和小米不惜大打价格战。去年双十一,阿里以99元的价格售出超过百万台天猫精灵X1,小米也将补贴进行到底,其售价299元的小爱音箱,一直处于缺货状态。

“当尝鲜成本足够低的时候,用户购买体验的意愿还是非常强的。”向文杰认为,阿里和小米在抢占山头的同时,很大程度上教育了市场。

在巨头环伺的语音市场,创业者如何寻找到自己的破局点?

想要打造智能语音领域“苹果”的Rokid追求极致的用户体验。在唤醒词、反应时间、外观设计以及远场识别等方面,为打磨出更优的用户体验,Rokid整整花了两年时间。

在Google提出wavenet模型后,国内创业公司也在追赶这一语音合成趋势。据了解,今年下半年,Rokid和思必驰即有相应功能投入使用。

同时,在向文杰看来,作为与巨头不存在对抗关系的第三方,Rokid能够获得更多巨头的开放接口。目前,Rokid已经与米家、sonos、中国电信、lifesmart等达成合作。

这也是思必驰的逻辑。思必驰CMO龙梦竹认为,相比其他创业公司,思必驰在智能音箱、机器人市场占据的市场份额,使得其在洽谈接入资源时更具议价能力。

2014年调整战略方向后 ,思必驰专注于2B的IOT技术赋能以及智能企业启发式对话交互,目前已与百度地图、高德地图、支付宝、微信、大众点评、携程、喜马拉雅等技术服务商达成合作。

“至于现在才起步的初创企业,只能在更垂直、更细分的领域寻找机会。”龙梦竹补充说。

本文为寻找中国创客原创

未经授权不得转载返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
投诉
免费获取
今日推荐