声音复刻

声音复刻(VoiceCopy) 又称声音克隆,即发音者通过录制一些固定文本对应的音频,通过训练得到一个与 发音者声音相似的 tts 音色资源。可以通过 AICloudTTSEngine (云端合成引擎)来合成并播放发音者专属的声音。

1.关键流程:

1.1 环境噪音检测

环境噪音对复刻出来的效果影响很大,所以在录音的时候最好选择一个相对安静的环境;建议录音时的环境噪音不超过50db ,需要上层在录音之前,先检测环境是否满足要求。

1.2 获取录音文本

训练需要录制一些固定文本的音频,即:需要拿到固定的文本展示给用户,用户按照所显示的文本朗读,进行录制训练所需的音频文件。

1.3 音频检测

训练模型需要上传符合训练标准的录音,云端会对录制的音频进行检测,若音频质量较差,对应的打分比较低;不符合要求的,需要重新进行录音。

1.4 提交训练

录音任务完成(音频检测都通过,一般要求不少于20句,具体看录音的文本来定),然后就可以提交训练,等训练完结束,就会生成对应的 voiceId (音色资源)。

1.5 状态查询

发起训练以后,可以查询当前复刻训练的状态,如:训练中、训练成功、训练失败。

1.6 删除音色资源

默认一个终端最大可以训练3个音色,SDK提供删除音色资源的接口;若觉得复刻的效果不满意,或者想删除某个音色资源可以通过该接口来实现。

1.7 自定义音色名称

训练好的音色资源,支持用户自定义音色的名称,用来区分发音者的信息。

2. 集成前准备

接入声音复刻能力,需要到思必驰DUI平台注册产品ID 并 申请 DCA账号,基本操作如下:

  • DUI开放平台注册一个账号成为开发者,进入基础技术页面创建声音复刻产品,获取 productId 和 apiKey,创建产品,并勾选“声音复刻”服务。
  • 创建的产品,授权配置参数:选择 接入API,创建APIKEY。
  • 获取免费调用量套餐包:用于调试时请求训练接口的用量消耗。(*:调试完成后,联系思必驰客户经理,签署合作协议,思必驰客户经理完成调用量的充值操作。)
  • pdca平台→公共页面管理 →新建→DCA SDK ,填入相关信息。

results matching ""

    No results matching ""