捷通華聲TTS在聲訊領(lǐng)域的應(yīng)用
2001/11/08
1.1市場(chǎng)背景
隨著信息平臺(tái)的多樣化,傳統(tǒng)的聲訊服務(wù)正在經(jīng)受著越來越嚴(yán)峻的考驗(yàn)。伴隨著互聯(lián)網(wǎng)的迅速普及,人們對(duì)信息更新速度的要求也越來越高。同時(shí),傳統(tǒng)的人工聲訊以及用人工錄音實(shí)方式現(xiàn)的自動(dòng)聲訊服務(wù)需要很高的日常維護(hù)費(fèi)用,這使得聲訊臺(tái)的運(yùn)營(yíng)者不堪重負(fù)。而恰恰在此時(shí),北京捷通華聲軟件技術(shù)有限公司的語音合成(Text To Speech)技術(shù)實(shí)現(xiàn)了飛躍性的突破,從而使真正意義上的自動(dòng)聲訊得以實(shí)現(xiàn)。
TTS(Text To Speech)技術(shù)就是將計(jì)算機(jī)中的文本轉(zhuǎn)換為語音的過程,它可以輕而易舉地將傳統(tǒng)的人工聲訊系統(tǒng)轉(zhuǎn)換為自動(dòng)聲訊系統(tǒng)。信息的提供者只需要更新數(shù)據(jù)庫中的文本內(nèi)容,利用TTS技術(shù),信息的需求者就可以通過電話隨時(shí)獲取最新的信息。與傳統(tǒng)的聲訊服務(wù)相比,自動(dòng)聲訊系統(tǒng)無論是在信息的更新速度、維護(hù)成本、操作靈活性上,還是在服務(wù)的質(zhì)量、管理、規(guī)范上都有著絕對(duì)的優(yōu)勢(shì)。因此,隨著新一代TTS技術(shù)的誕生,自動(dòng)聲訊系統(tǒng)正在以無法阻擋的速度,占領(lǐng)著原有的聲訊市場(chǎng)。
1.2技術(shù)背景
要想實(shí)現(xiàn)真正的自動(dòng)聲訊系統(tǒng),需要在幾個(gè)關(guān)鍵部分實(shí)現(xiàn)技術(shù)突破,只有關(guān)鍵技術(shù)達(dá)到了產(chǎn)品化的要求,市場(chǎng)運(yùn)作才成為可能。
第一:任意文本合成
為了使各種各樣的文本信息能夠及時(shí)的轉(zhuǎn)化為語音,TTS技術(shù)必須能夠做到任意文本合成,也就是說它的音庫必須能夠適應(yīng)各個(gè)行業(yè)語言習(xí)慣,只有這樣,信息的提供者才能不受局限地為用戶提供各種信息。
第二:即時(shí)合成
如果事先把文本合成為語音,再存放到服務(wù)器中播放給用戶,那無疑又回到了原有聲訊服務(wù)的模式,更新速度及工作量都不能滿足要求。因此,TTS技術(shù)必須能夠做到即時(shí)合成,即:當(dāng)用戶向聲訊服務(wù)器發(fā)出信息請(qǐng)求時(shí),聲訊服務(wù)器做出分析判斷,并從內(nèi)容數(shù)據(jù)庫中提取相應(yīng)文本,然后發(fā)送給語音合成服務(wù)器。語音服務(wù)器邊合成邊回傳給聲訊服務(wù)器,進(jìn)而再傳送給用戶。整個(gè)的合成過程是在用戶收聽的同時(shí)進(jìn)行的,不能有明顯的延遲,也不能在播放的過程中停頓,這就要求TTS技術(shù)有相當(dāng)?shù)姆(wěn)定性以及非?斓暮铣伤俣取
第三:自然語調(diào)合成
為什么TTS技術(shù)經(jīng)過數(shù)十年地研究,一直都沒有得到大規(guī)模的實(shí)際應(yīng)用?其主要原因就在于早期的合成語音效果一直沒有達(dá)到真正自然的階段,僅達(dá)到“可以聽懂”的水平。因此,傳統(tǒng)的聲訊服務(wù)系統(tǒng)寧愿花大力氣去進(jìn)行人工錄音,也不愿意給用戶聽一些磕磕絆絆的合成效果,這也正是長(zhǎng)期以來制約自動(dòng)聲訊系統(tǒng)發(fā)展的一個(gè)重要因素。
捷通華聲公司2001年7月份推出的TTS核心在合成語音的質(zhì)量上實(shí)現(xiàn)了飛躍,成功地實(shí)現(xiàn)了自然語調(diào)合成,字詞間平滑過度。這標(biāo)志著自動(dòng)聲訊系統(tǒng)的又一技術(shù)壁壘被打破了。
第四:“集群式并發(fā)”處理
眾所周知,聲訊服務(wù)的用戶數(shù)量是相當(dāng)巨大的,當(dāng)大量的用戶同時(shí)向聲訊服務(wù)器發(fā)出信息請(qǐng)求時(shí),我們稱之為“集群式并發(fā)”。
每臺(tái)服務(wù)器的負(fù)載能力是有限的,因此,通常中型以上的聲訊系統(tǒng)中都會(huì)采用多臺(tái)聲訊服務(wù)器及多臺(tái)語音合成服務(wù)器。那么,如何解決好多臺(tái)服務(wù)器之間的負(fù)載平衡問題就顯得尤為重要。如果不能解決負(fù)載問題,在系統(tǒng)實(shí)際運(yùn)行中就會(huì)造成某些服務(wù)器滿負(fù)荷運(yùn)轉(zhuǎn),而某些服務(wù)器則長(zhǎng)期空閑,不僅是對(duì)資源的浪費(fèi),而且會(huì)直接影響到整個(gè)聲訊服務(wù)系統(tǒng)的暢通。
捷通華聲公司針對(duì)這一現(xiàn)象做了專門的研究,并開發(fā)出了“動(dòng)態(tài)負(fù)載平衡機(jī)制”。通過捷通華聲的動(dòng)態(tài)負(fù)載平衡機(jī)制,語音服務(wù)器可以動(dòng)態(tài)地分配語音合成請(qǐng)求,使多臺(tái)服務(wù)器的負(fù)載相對(duì)比較均衡,以確保整個(gè)聲訊系統(tǒng)保持最佳的運(yùn)行效果。
捷通華聲動(dòng)態(tài)負(fù)載平衡機(jī)制的成功研制,為大規(guī)模自動(dòng)聲訊服務(wù)的實(shí)現(xiàn)奠定了穩(wěn)固的技術(shù)基礎(chǔ)。
1.3技術(shù)流程
當(dāng)用戶通過電話向聲訊服務(wù)器發(fā)出請(qǐng)求時(shí),聲訊服務(wù)器會(huì)首先作出分析判斷,然后從內(nèi)容數(shù)據(jù)庫中提取相應(yīng)的文本信息,經(jīng)過負(fù)載平衡機(jī)制發(fā)送給語音合成服務(wù)器。語音合成服務(wù)器在接收到文本后立刻開始合成,同時(shí)將合成好的語音發(fā)送回語音服務(wù)器,再由語音服務(wù)器回傳給用戶。其中內(nèi)容數(shù)據(jù)庫中的信息可以由系統(tǒng)管理員定期進(jìn)行維護(hù)管理。(系統(tǒng)連接結(jié)構(gòu)見流程圖)
1.4配置要求
1.語音服務(wù)器配置:?jiǎn)蜟PU——PIII 800;內(nèi)存256M或更高(具體數(shù)量根據(jù)聲訊系統(tǒng)規(guī)模而定)
2.軟件需求:操作系統(tǒng)、jTTS系統(tǒng)、捷通華聲動(dòng)態(tài)負(fù)載平衡機(jī)制
捷通華聲TTS在聲訊領(lǐng)域的應(yīng)用(流程圖)
捷通華聲供稿 CTI論壇編輯
捷通華聲發(fā)布jASR5.5 ASR價(jià)格面前將無怯步 2008-04-16 |
捷通華聲TTS成功登陸中國(guó)郵政儲(chǔ)蓄銀行 2008-04-03 |
捷通華聲 jTTS 5.5 全面支持 MRCPv2標(biāo)準(zhǔn) 2008-03-31 |
捷通華聲移動(dòng)導(dǎo)航HCI解決方案廣受青睞 2008-03-26 |
身邊的“智能”生活 2007-12-28 |