语音唤醒

当设备处于休眠状态也能检测到特定的词汇,从而让设备从休眠状态进入到等待用户输入指令的状态的这种在连续语流中实时检测出说话人特定片段的能力,我们称之为语音唤醒。

使用场景

这些年,伴随人工智能的逐步火热,越来越多搭载着相关语音技术能力的设备进入到人们的生活中,产品对唤醒的使用场景要求越来越多,下面是常见的几种唤醒使用场景:

传统唤醒

包含主唤醒和快捷唤醒。其中,

主唤醒方式:设定主唤醒词,如:小爱同学、天猫精灵、你好小驰等,语音输入上述内置的特定唤醒词,则将启动识别,等待用户输入指令。

快捷唤醒方式:不需要先唤醒语音,直接对系统说出快捷命令,系统在不弹出语音交互界面的情况下即可做出对应的处理。如系统接收到“增大音量”、“减小音量”、“放大地图”、“缩小地图”等指令,分别直接进行音量调节和地图缩放的操作。

场景唤醒

意为在不同场景下可直接响应不同的特定唤醒词命令,离开该场景时,对应的唤醒词立即失效。如导航列表场景下,可以响应“上一页”、“下一页”、“第一个”、“第二个”等场景唤醒词,但是退出该列表场景时,这些唤醒词失效。

one-shot 唤醒

直接将唤醒词和命令词一起说出,如:小爱同学,我要听周杰伦的发如雪。客户端需要在唤醒后直接启动识别,并将之前的音频 一起cache下来并送入识别。

zero-shot 唤醒

将常用命令词直接设置为唤醒词,达到用户无感知唤醒。如:导航去天安门。就可以把导航去等高频使用的唤醒词设置为唤醒词,达到用户无感知唤醒交互的目的。

可见即可说

一种新型的个性化交互方案,字面意思就是页面上一些关键信息皆可以直接说,并能准确执行相关命令。如:导航去海底捞,页面上出现海底捞方大城店、海底捞南山店、海底捞南山茂业店选项,用户可直接说:方大城店、南山店、南山茂业店即可。

上述几种唤醒交互方案都依赖唤醒实现,其中传统的唤醒交互方案使用SDK内置的AIWakeupEngine可直接实现,one-shot、zero-shot 交互方案需要融合唤醒和识别实现,场景唤醒依据场景内唤醒词需求重新设定不同的唤醒词即可。较为麻烦的是所见即可说的实现,实现上述交互方案,需要借助SDK内的本地热词引擎。

如何选定唤醒词?

1、不要设置敏感词。

2、不要设置日常口语词。

3、不要设置重复音素的词,如:你好哈哈,小哈小哈 等。

4、不要设置连续的零声母发声的词,如:ying、yin、yi、yu、ai、a、ang 等。

方案选择

SDK 支持两套唤醒方案,分别应对不同的使用场景,建议开发者结合自身的使用场景,作出合理的选择,或将二者搭配使用,以做出更加优秀的产品体验。

  • 唤醒
速度快 最多允许同时存在128个词表
更灵敏 需要提前预置唤醒词(拼音)和阈值
资源占用更少 对唤醒词本身存在要求,参见 4.1.语音唤醒-WAKEUP
  • 本地热词
支持>=128个词表 比唤醒慢
支持中文词表,接口更加友好 资源占用比唤醒多
没有阈值,无需再提前内置词表和阈值
支持动态词表

results matching ""

    No results matching ""