12月2日~8日,第十屆中國國際新媒體短片節(jié)在深圳舉辦。AI數(shù)字人「陸川導演」與國內(nèi)首個AI虛擬偶像「子書美」與觀眾見面,可實現(xiàn)面對面互動交流,為觀眾帶來打破虛擬空間和現(xiàn)實空間次元壁的實時實感交流互動體驗。
虛擬形象不僅要看的見,其高辨識度的「嗓音」更是重要的聲音名片。值得一提的是,這兩位虛擬形象的「造聲」,均由思必馳提供的技術支持。
其中,AI數(shù)字人陸川導演「造聲」是基于思必馳神經(jīng)網(wǎng)絡建立的語音合成學習模型,將采集錄制的陸川導演本人的音頻進行訓練學習,合成出了以假亂真的AI數(shù)字人陸川導演的聲音。
與復刻AI數(shù)字人陸川導演的嗓音不同,子書美的合成音需要「憑空創(chuàng)造」。思必馳結(jié)合子書美形象性格與人設屬性,為其量身打造了一款知性優(yōu)雅的合成音。
語音合成技術也是當今國際人機交互領域競相研究的熱門技術之一,合成音的應用極大減少了人力錄音的成本,成為了智能機器的標配能力,幫助廠商打造voice-IP。
思必馳提供數(shù)十種語音合成預設方案作為音色選擇,同時還可以對合成音進行大數(shù)據(jù)深度定制與小數(shù)據(jù)快速定制服務。
此外,關于語音合成的效果,一方面依賴算法模型,另一方面,依賴于用戶提供音頻語料的質(zhì)量。因此在音頻語料的采集上,建議在安靜的環(huán)境下進行,說話語速勻速、聲音大小適當、音色盡量一致、不要噴麥。語料音頻質(zhì)量越高,合成音效果自然越貼近真實人聲。
語音合成,好比AI時代的活字印刷術,創(chuàng)建一套合成模型,便可以「印出」你想要的聲音。語音合成出的聲音,以前所未有的方式改變著信息傳播交流的形式。