引言
1. 谈谈语音交互

上图展示的是一次简单的语音交互流程,从用户输入语音到用户 听/看 到设备 播报/执行(UI变换),需要经过一个完整的技术闭环。
不同于移动互联网时代的触摸交互,语音交互在流程上要更加复杂,尤其涉及多轮交互,对开发者的要求更高。
下面是语音单项技术对接说明,以帮助理解和集成。
2. 面向对象
本文档是面向开发者的开发对接文档,需要开发者有一定的语音开发经验。
如果是零基础的新手,请先参阅DUI 开放平台,学习相关语音技术知识点。
3. duilite-for-car 是什么
duilite 是基于思必驰 DUI 开放平台全链路语音交互技术的原子基础能力,为开发者提供专业的单项语音技术的 SDK,方便开发者灵活、自由组合和定制专属的语音助手。
duilite-for-car 与开放平台-单项技术 相比,有部分车载相关的定制差异,请勿从官网下载更新sdk。如需集成,请联系项目输出sdk。
4. 提供哪些单项技术
4.1 前端信号处理
语音交互之前对采集到的单路或多路音频信号进行处理,用以提取到用户输入、交互部分的音频信号,降低噪声干扰,提升信噪比,降低后端语音识别或语音唤醒的难度。
音频信号处理的好坏,会直接影响到后续语音识别的交互体验。
4.2 语音唤醒
当设备处于休眠状态也能检测到特定的词汇,从休眠状态进入到等待用户输入指令的状态,这种在连续实时检测出说话人特定片段的能力,我们称之为语音唤醒。
4.3 语音识别
目标是以计算机自动将人类的语音内容转换为相应的文字。
4.4 语义理解
也称之为自然语言理解,自然语言理解是研究如何让电脑读懂人类语言的一门技术,是自然语言处理技术中最困难的一项。
其中语义理解部分的处理过程都已经融合在SDK内提供的识别引擎内,开发者无需关注太多。
4.5 对话管理
控制着人机对话的过程,DM 根据对话历史信息,决定此刻对用户的反应。最常见的应用还是任务驱动的多轮对话,用户带着明确的目的如订餐、订票等,用户需求比较复杂,有很多限制条件,可能需要分多轮进行陈述,一方面,用户在对话过程中可以不断修改或完善自己的需求,另一方面,当用户陈述的需求不够具体或明确的时候,机器也可以通过询问、澄清或确认来帮助用户找到满意的结果。对话管理模块也直接决定了整个语音助手交互流程控制,是整个工程最核心和最复杂的模块。
4.6 语音合成
也称之为文本转语音技术(TTS),它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
5. 总结
duilite-for-car 提供了上述全部语音技术单项能力,本文档是为了帮助开发者理解各项专业的技术能力以减少在开发过程中可能遇到的问题。
sdk 各个引擎的具体接口和使用方式,还请参考SDK版本内的java_doc文档和sample示例。