对话管理

对话管理(Dialog Management, DM) 控制着人机对话的过程，DM 根据对话历史信息，决定此刻用户的反应。最常见的应用还是任务驱动的多轮对话，用户带着明确的目的如订餐、订票等，用户需求比较复杂，有很多限制条件，可能需要分多轮进行陈述。一方面，用户在对话过程中可以不断修改或完善自己的需求，另一方面，当用户的陈述的需求不够具体或明确的时候，机器也可以通过询问、澄清或确认来帮助用户找到满意的结果。

云端DM

在早期大部分对话管理在本地实现（本地 DM），实现简单，响应速度也非常快，但非常依赖于本地对话的业务丰富度，同时很难做到动态更新或定制新的对话场景，只能通过 OTA 来更新迭代。

随着移动互联网4G、5G的快速发展，思必驰 DUILite-SDK 方案提供了云端对话管理的能力，配合DUI平台强大的在线更新能力，可以做到云端对话技能秒级更新。开发者在接入 AICloudDMEngine 之前需要先在DUI平台配置云端技能，则 AICloudDMEngine 会按照云端对话内容的配置进行对话内容的分发，达到可定制化的场景对话，云端DM也会是后续语音交互的发展趋势。

全双工技术

过去，在人机交互的设计中有一个假设前提：让用户知道是在与机器对话。

基于这个前提，产品经理定义产品时，通常设计苛刻的交互条件或者话术。如频繁使用唤醒词来明确是与机器交互。而用户对人工智能的预期较高，交互方式具有多样性，更加接近人与人的交互方式。为了在有限的条件下，尽可能贴近人与人的交互，研究人员开发了各式交互技术。如，oneshot、唤醒打断等。而使用多种技术，在产品落地中又存在各项技术的相互融合、参数调优等费时、费力的问题，导致落地周期长。

在此技术背景上，研发人员从工程的角度，提出了全双工交互的概念。下图可以很好的解释全双工交互，以及与现有人机交互的对比。

基本特性

1. 连续语音识别

功能点：

在全双工交互中，连续音频采集，连续语音识别，用户音频上传与机器内容播报两条链路并行，交互期间没有任何中断。同时大量减少交互的中唤醒的次数，全双工交互只需要在开始交互时唤醒开启。
使用场景：

一次唤醒、连续对话，不再是一问一答的模式，不必每次说“你好小驰”来唤醒后再执行指令。
实现方式：

识别语义一体化

动态VAD

2. 智能动态断句

功能点：

动态断句/犹豫发问，云端根据用户说话节奏和内容，动态断句，根据断句结果送对话。

适用用户：特别适合儿童、老人的交互
使用场景：

User：我想听...周杰伦的...七里香

User：查一下...云朵的云字...怎么写

User：窗前...明月光
实现方式：

DUI 高级配置

3. 实时语义

功能点：

语义打断/交互加速
使用场景：

TTS时长过长，用户高频使用的领域，识别错误纠正等。
实现方式：

实时语义

4. 拒识

功能点：

无效输入拒识
使用场景：

周围人的聊天声音

唤醒后与他人说话

设备内发出的人声
实现方式：

声学语义一体化

多模态:声学图像一体化

5. 多次请求多次响应

功能点：

一次请求多次响应，支持在智能家居等预期延迟较大的领域上，通过先导语或话术策略，保持交互流畅
使用场景：

User：打开空调 Sys：好的正在为您打开 Sys：空调已开启
实现方式：

在云端异步处理

8. 对话管理