10分鐘“復刻”專屬音色,思必馳TTS技術如何練成的?
2022-02-08 06:18:35 來源:
聲音復刻又稱聲音克隆,是語音合成技術(TTS ,Text To Speech)的個性化應用,用戶可通過少量的錄音進行模型訓練,得到與用戶本人在音色和發音風格上非常相似的聲音模型,快速復刻個性化聲音,該復刻聲音可使用在講故事、播天氣、讀小說、導航播報等功能場景。

TTS(Text-To-Speech,語音合成)對比熟悉的ASR(語音識別)技術,是將文字轉化為聲音朗讀出來,常見的Siri、小愛同學等語音助手的聲音,都是TTS技術的杰作。
近日,思必馳DUI開放平臺上線聲音復刻技術服務,支持男聲、女聲、童聲的復刻,支持中、英文文本,支持UTF-8等多種文本格式,支持SSML標簽控制。同時,該服務支持8k、16k、32k等多種采樣率,支持合成mp3、wav、pcm等多種音頻格式……
快速定制 專屬音色
如果想用愛豆或親人的聲音做終端設備的語音播報,用戶只需要錄制≤5分鐘語音內容,等待10分鐘左右即可獲得專屬音色。
思必馳語音合成技術是如何通過少量的數據,訓練出一個高還原度的聲音模型呢?
思必馳TTS技術,基于多年累積的多說話人的聲學特征,將新數據輸入既有的模型參數里進行遷移學習和精調,通過20句錄音等少量語料,就可訓練出高相似度的聲音模型。模型通過短時間訓練完成克隆,保持了較高的MOS值(中文普通話場景下,相似度≥90%),還原度高。TTS技術上線DUI開放平臺后,使用更便捷,提供API、SDK接入方式,滿足標準化的服務要求。
技術的升級是漸進的,思必馳充分利用基于Attention的機制,及遷移學習技術,提升了聲音復刻的效果,改善用戶體驗。受限于較少的數據量,如何保證穩定輸出是訓練模型時要面對的挑戰。但在未來,少樣本音色克隆仍是研究趨勢。
復刻的聲音 還安全嗎?
以智能語音技術的另一項黑科技——聲紋識別來作為參照。人的聲紋是類比指紋一樣獨一無二的存在,常被用作身份驗證和解鎖。常見的支付寶、微信的聲音鎖背后都是聲紋技術。
克隆的聲音可以 瞞過聲紋喚醒嗎?是否會有安全隱患?
常規聲紋解鎖,使用復刻的聲音確實能解鎖設備。但當思必馳在聲紋技術中增加了反欺詐技術后,聲音復刻便無法闖關帶有防欺詐的聲紋,安全性得到保障。
克隆專屬聲音,不僅是新鮮感、娛樂性,更是AI技術拓展應用惠及到了普通大眾,能克隆出媽媽聲音的音箱帶給了孩子更多陪伴。
-
鈔券雕刻師花瑞松講述雕刻背后的故事
人物名片 花瑞松 上海印鈔有限公司高級工藝美術師 鈔券雕刻師第四套人民幣一元券背面主景圖案雕刻者第五套人民幣壹佰元券背面主景圖案雕刻
2019-07-11 10:03
-
新版人民幣即將發行 怎樣收藏最好呢
中國人民銀行定于2019年8月30日起發行2019年版第五套人民幣50元、20元、10元、1元紙幣和1元、5角、1角硬幣。 新版人民幣發行的時期,往
2019-07-16 12:37
-
99版成龍頭品種 第六套人民幣將不再發行
前段時間,19版人民幣的發行公告在市場中吵得沸沸揚揚!突如其來的人民幣改版既在意料之中,又挺讓人意外。意料之中的是紙幣改版早有傳言,
2019-07-16 12:39
-
關于新版人民幣疑問解答在這里
前幾天,新版人民幣又雙叒叕上微博熱搜了!幸好,從8月30日起,萬眾期待的新版人民幣就要來了!新版人民幣包含50元、20元、10元、1元紙幣
2019-07-18 13:19














