從面向廣大英語和普通話聽眾的測試中發(fā)現(xiàn),WaveNet的表現(xiàn)已經(jīng)優(yōu)于現(xiàn)有的語音合成系統(tǒng),但結(jié)果還是略遜于人類真正的語言水平。
目前的語音合成系統(tǒng)只有兩種工作方式:第一種是截取實際的講話錄音,然后打碎重組成新的語音——有點像綁架電話慣用的手段;另一種是依賴電腦合成,通過編程生成語音,這意味著它不需要預(yù)先錄制好語音材料,但是聽起來的效果并不好,很像機器人。
另一方面,WaveNet仍然使用真實的語音輸入,但通過學(xué)習(xí)和模仿來合成語音,而不是將其打破重組。項目的研究人員寫道:“單單一個WaveNet就能以相同的保真度捕捉記錄下各個不同說話者的特點,并且可以任意切換聲音。”
同樣令人印象深刻的是,它可以利用諸如唇部運動和人工呼吸來模擬語調(diào)、情緒和口音。如果這還不夠,WaveNet也許還能像鋼琴一樣彈奏樂曲,研究人員只需提供一些經(jīng)典片段,它就能創(chuàng)作出自己的作品。
DeepMind在Twitter發(fā)文稱:“讓人類和機器對話是人機交互領(lǐng)域長久以來的夢想”