“我要在去曲院风荷的路上开着天窗听周杰伦的老歌。”

如果你说这句话的对象是人,他一定能够很轻易地理解你的三个意图:一、去曲院风荷;二、打开天窗;三、听周杰伦的老歌。

但如果把人换成机器,例如车,车又是否能够理解并作出相应的操作反馈呢?

众所周知,因为操控便利、安全,语音天然是最适合车内交互的方式之一,也几乎已经成为行业内车载方案的标配,尽管目前各家做出的语音方案差距较大。例如开篇说到的语义理解多任务处理,目前在行业内还属于比较新的技术应用,还没有几家能够实现,大多数厂商主要聚焦在提升语音识别及自然语言理解准确率的问题上。AliOS数据智能负责人陈华良透露,目前他们正在对语音做技术升级,重点提升场景智能语义理解(SSLU:Scene-based Spoken Language Understanding)的体验,是在自然语言理解的基础上基于场景进行语言理解的智能升级,其中就包含了对多领域任务处理能力的提升。

常见的对话系统一般由自动语音识别(ASR,Automatic Speech Recognition)、自然语音理解(NLU,Natural Language Processing)、对话管理(DM,Dialog Management)、自然语言生成(NLG,Natural Language Generation)和语音合成(TTS,Text To Speech)几个模块构成。

据介绍,目前AliOS已经实现了创新的self-play对话训练数据生成和众包方案,结合人、车、场景的综合理解,将语言学、语义的先验知识、知识图谱知识迁移到对话系统中,训练端到端的深度学习对话系统模型,提升场景覆盖率和对话流畅度,使系统能够基于场景更好地理解语音指令。

以开篇提到的指令为例,AliOS首先会准确地识别“我要在去曲院风荷的路上开着天窗听周杰伦的老歌”这句话的每个字,然后结合用户当前的使用场景,理解这句话的意思,并调用相关的服务,执行导航到曲院风荷、打开天窗,以及播放周杰伦老歌的复杂操作。

陈华良表示:“口语通常表义是模糊,表义是不完整,仅凭借海量的语料数据,实现口语表达理解是不够。我们认为基于人、车、场景等更多信息,才能实现场景智能的自然语言理解能力,为用户获得更好的语音体验。”他介绍道,目前AliOS重点针对导航、音乐、有声读物、电台等几个车载高频应用场景下的语音技术做了重点优化升级,实现多条件搜索、导航多任务、导航中更改偏好、多槽位查询等。

举几个形象的例子, 例如“从这里到中山公园还有多远?”,
AliOS能准确理解为是询问从当前位置到中山公园的距离;“把之前的途经点删除了”,AliOS能准确删除上一次的途径点;“给我放几首应景的歌”,AliOS能基于当前天气、时间信息播放合适的歌曲。

此外,目前AliOS已经从系统底层实现语音与视觉、手势等交互方式的多模态融合,力求为用户提供沉浸式的体验,将被广泛应用于车载音乐、新闻广播、有声读物、车载导航等多种场景。