对话管理

对话管理(Dialog Management, DM) 控制着人机对话的过程,DM 根据对话历史信息,决定此刻用户的反应。最常见的应用还是任务驱动的多轮对话,用户带着明确的目的如订餐、订票等,用户需求比较复杂,有很多限制条件,可能需要分多轮进行陈述。一方面,用户在对话过程中可以不断修改或完善自己的需求,另一方面,当用户的陈述的需求不够具体或明确的时候,机器也可以通过询问、澄清或确认来帮助用户找到满意的结果。

云端DM

在早期大部分对话管理在本地实现(本地 DM),实现简单,响应速度也非常快,但非常依赖于本地对话的业务丰富度,同时很难做到动态更新或定制新的对话场景,只能通过 OTA 来更新迭代。

随着移动互联网4G、5G的快速发展,思必驰 DUILite-SDK 方案提供了云端对话管理的能力,配合DUI平台强大的在线更新能力,可以做到云端对话技能秒级更新。开发者在接入 AICloudDMEngine 之前需要先在DUI平台配置云端技能,则 AICloudDMEngine 会按照云端对话内容的配置进行对话内容的分发,达到可定制化的场景对话,云端DM也会是后续语音交互的发展趋势。

全双工技术

过去,在人机交互的设计中有一个假设前提:让用户知道是在与机器对话

基于这个前提,产品经理定义产品时,通常设计苛刻的交互条件或者话术。如频繁使用唤醒词来明确是与机器交互。 而用户对人工智能的预期较高,交互方式具有多样性,更加接近人与人的交互方式。 为了在有限的条件下,尽可能贴近人与人的交互,研究人员开发了各式交互技术。如,oneshot、唤醒打断等。 而使用多种技术,在产品落地中又存在各项技术的相互融合、参数调优等费时、费力的问题,导致落地周期长。

在此技术背景上,研发人员从工程的角度,提出了全双工交互的概念。下图可以很好的解释全双工交互,以及与现有人机交互的对比。

fBqCEl_20210209095154

基本特性

1. 连续语音识别
  • 功能点:

    在全双工交互中,连续音频采集,连续语音识别,用户音频上传与机器内容播报两条链路并行,交互期间没有任何中断。同时大量减少交互的中唤醒的次数,全双工交互只需要在开始交互时唤醒开启。

  • 使用场景:

    一次唤醒、连续对话,不再是一问一答的模式,不必每次说“你好小驰”来唤醒后再执行指令。

  • 实现方式:

    识别语义一体化

    动态VAD

2. 智能动态断句
  • 功能点:

    动态断句/犹豫发问,云端根据用户说话节奏和内容,动态断句,根据断句结果送对话。

    适用用户:特别适合儿童、老人的交互

  • 使用场景:

    User:我想听...周杰伦的...七里香

    User:查一下...云朵的云字...怎么写

    User:窗前...明月光

  • 实现方式:

    DUI 高级配置

3. 实时语义
  • 功能点:

    语义打断/交互加速

  • 使用场景:

    TTS时长过长,用户高频使用的领域,识别错误纠正等。

  • 实现方式:

    实时语义

4. 拒识
  • 功能点:

    无效输入拒识

  • 使用场景:

    周围人的聊天声音

    唤醒后与他人说话

    设备内发出的人声

  • 实现方式:

    声学语义一体化

    多模态:声学图像一体化

5. 多次请求多次响应
  • 功能点:

    一次请求多次响应,支持在智能家居等预期延迟较大的领域上,通过先导语或话术策略,保持交互流畅

  • 使用场景:

    User:打开空调 Sys:好的正在为您打开 Sys:空调已开启

  • 实现方式:

    在云端异步处理

results matching ""

    No results matching ""