声音复刻
声音复刻(VoiceCopy) 又称声音克隆,即发音者通过录制一些固定文本对应的音频,通过训练得到一个与 发音者声音相似的 tts 音色资源。可以通过 AICloudTTSEngine (云端合成引擎)来合成并播放发音者专属的声音。
1.关键流程:
1.1 环境噪音检测
环境噪音对复刻出来的效果影响很大,所以在录音的时候最好选择一个相对安静的环境;建议录音时的环境噪音不超过50db ,需要上层在录音之前,先检测环境是否满足要求。
1.2 获取录音文本
训练需要录制一些固定文本的音频,即:需要拿到固定的文本展示给用户,用户按照所显示的文本朗读,进行录制训练所需的音频文件。
1.3 音频检测
训练模型需要上传符合训练标准的录音,云端会对录制的音频进行检测,若音频质量较差,对应的打分比较低;不符合要求的,需要重新进行录音。
1.4 提交训练
录音任务完成(音频检测都通过,一般要求不少于20句,具体看录音的文本来定),然后就可以提交训练,等训练完结束,就会生成对应的 voiceId (音色资源)。
1.5 状态查询
发起训练以后,可以查询当前复刻训练的状态,如:训练中、训练成功、训练失败。
1.6 删除音色资源
默认一个终端最大可以训练3个音色,SDK提供删除音色资源的接口;若觉得复刻的效果不满意,或者想删除某个音色资源可以通过该接口来实现。
1.7 自定义音色名称
训练好的音色资源,支持用户自定义音色的名称,用来区分发音者的信息。
2. 集成前准备
接入声音复刻能力,需要到思必驰DUI平台注册产品ID 并 申请 DCA账号,基本操作如下: