要跟机器说上话,总共分几步?

原标题:要跟机器说上话,总共分几步?

智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。可以理解为人类与机器间通过自然语言完成信息传递的技术。

语音交互的完整流程,如下图所示。

通常,根据距离远近语音交互场景可分为两种:

  • 近场语音场景: 通常通过按键激活,例如智能手机等便携设备。
  • 远场语音场景: 通常通过唤醒词激活,例如智能音箱等固定设备。

远场语音场景下,在产品策略上通常会采取两种方案,以提高唤醒的准确率:

  • 将唤醒词的音节长度增加到4音节。这是因为音节越长,唤醒的准确率就会越高。比如:“小兴小兴”的唤醒准确率远高于“小兴”。

  • 白天只对唤醒词做本地校验,夜间则再增加云端二次校验。这是唤醒速度和准确率间的平衡策略。
  • 白天用户更看重响应速度,发生偶尔的误唤醒用户能理解或接受,这时候仅由本地的唤醒检测模块进行快速检测,保证 700 ms 内快速响应用户。
  • 晚上睡觉时用户对误唤醒是零容忍的,这时候就要偏重唤醒的准确度,将本地检测过的语音上传到云端进行二次确认,再决定本地是否响应。

1. 寻向降噪。

NLU 的工作逻辑是将用户的指令进行 Domain(领域)→Intent(意图)→Slot(词槽)三级拆分。

例如:“设置一个明早 8 点的闹钟”这样一条指令,经过 NLU 处理,用户的指令则被拆分为如下三级:

  • 领域:“闹钟”
  • 意图:“设置闹钟”
  • 词槽:“明早8点”

NLG 的主要目的是降低人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式。简单的 NLG 可以将数据进行合并处理,而高级的 NLG 则可以理解数据想要表达的意图,并考虑上下文,呈现出可以轻松阅读的内容。

目前在一些有比较明显规则的领域中,比如体育新闻,已经可以借助 NLG 进行新闻的自动发布了。也许你现在正在看的一篇文章就是由机器生成的~

将文字内容转换成语音输出,让机器跟我们对话。这涉及到两个过程:

家庭中语音交互的主要应用场景包括:

Internet,语音查询资讯 ▲

IPTV/OTT,语音播控影视 ▲

IMS固话,语音免提拨号 ▲

IOT智家,语音控制家电 ▲

可能,你觉得上面的小盒子只是个智能音箱?

其实,它开屏是盒子,息屏是音箱~

目前,它已经在各电信营业厅上架的路上了...

现在,你是不是已经迫不及待地想盘它了呢?

我们先通过下面的短视频了解一下吧!

缩略语:

NLU:Natural Language Understanding,自然语言理解

DM:Dialog Management,对话管理

NLG:Natural Language Generation,自然语言生成

TTS:Text To Speech,从文本到语音

NLP:Natural Language Processing,自然语言处理

IPTV:Internet Protocol Television,网际协议电视

OTT:Over The Top,通过互联网向用户提供各种应用服务

IMS:Interactive Multimedia Service,交互式多媒体服务

IOT:Internet of Things,物联网返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
免费获取
今日搜狐热点
今日推荐