首頁>>>技術(shù)>>>語音應(yīng)用>>>語音合成(TTS)  語音合成產(chǎn)品

 

國內(nèi)語音合成技術(shù)“叫板”IBM

語音市場“一枝獨(dú)秀”將成歷史

  “未來的十年是語音技術(shù)的時(shí)代”。隨著語音技術(shù)研究的突破,其對計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來,漢語語音輸入輸出技術(shù)更是孕育著巨大的產(chǎn)業(yè)機(jī)遇。面對著十幾億人使用漢語、聽說中國話的泱泱大國,中文語音技術(shù)的應(yīng)用和經(jīng)濟(jì)社會(huì)效益前景非常巨大。據(jù)專家對未來國內(nèi)市場預(yù)測,五年內(nèi),整個(gè)中文語音市場份額將至少在1000億人民幣以上。

1997:中文語音市場痛失半壁江山

  面對如此巨大的中文語音市場前景,國際上一些大公司早就虎視眈眈地注視著這塊市場,紛紛加緊對中文語音技術(shù)、產(chǎn)品、市場的全面拓展。像IBM早就致力于語音技術(shù)的研究,在英語領(lǐng)域已經(jīng)進(jìn)行了近30年的研究。針對中國的廣大市場,IBM推出了中文語音識別產(chǎn)品ViaVoice,并投入大量資金進(jìn)行市場開拓。自1997年以來,IBM ViaVoice搶占了中國90%的語音識別市場,可以說,中文語音市場的半壁江山已經(jīng)落入人手。國內(nèi)語音技術(shù)領(lǐng)域資金短缺、力量渙散、人才流失是導(dǎo)致語音識別市場痛失江山的主要原因。此外,英特爾、微軟、L&H、摩托羅拉等公司也都瞄準(zhǔn)了中文語音市場,投入了大量的人力、物力和資金。英特爾已推出電話語音識別的完整Demo系統(tǒng);微軟也有了詳細(xì)的中文語音開發(fā)和Windows操作系統(tǒng)的捆綁方案;L&H則推出了虛擬的中文語音播音員。目前,中文語音市場正面臨著國際競爭的巨大壓力,這些國際型的大公司將基礎(chǔ)研究和產(chǎn)品開發(fā)結(jié)合得較緊密,資金優(yōu)勢和市場優(yōu)勢的運(yùn)作也相得益彰,國內(nèi)如果不采取有效的措施,語音產(chǎn)業(yè)這塊陣地極有淪陷的危險(xiǎn)。如果在將來整個(gè)中文語音市場都被外企所占領(lǐng),炎黃子孫所使用的語音軟件都是由金發(fā)碧眼的老外所發(fā)明所提供的,讓老外來教中國人怎么使用漢語產(chǎn)品,那將是整個(gè)中華民族的恥辱。難道中國人連自己的語音產(chǎn)品都做不出來嗎?當(dāng)然不是。

2000:國內(nèi)廠商重整山河

  面對資金強(qiáng)大、實(shí)力雄厚的國際型企業(yè),國內(nèi)的企業(yè)又拿什么來和他們競爭呢?記者在最近采訪在中文語音技術(shù)方面頗具實(shí)力的中國科大訊飛公司時(shí)了解到,作為一家在863智能計(jì)算機(jī)轉(zhuǎn)換基地的研發(fā)中心和科技大學(xué)語言研究基礎(chǔ)上成立的公司,科大訊飛將致力于成為全球最大的語音和語言技術(shù)提供商,為各行各業(yè)的系統(tǒng)開發(fā)商、軟件開發(fā)商和運(yùn)營服務(wù)商、設(shè)備制造商提供最好的語音和語言技術(shù)方案。當(dāng)談及訊飛的優(yōu)勢時(shí),該公司總經(jīng)理劉慶峰告訴記者:通過融資之后,訊飛的資金問題已經(jīng)基本解決。不久前成立的中國語音創(chuàng)業(yè)聯(lián)盟使原來國內(nèi)語音技術(shù)力量各自為戰(zhàn)的現(xiàn)象徹底改變,國內(nèi)語音技術(shù)的中堅(jiān)力量通過聯(lián)盟實(shí)現(xiàn)了強(qiáng)強(qiáng)聯(lián)合、優(yōu)勢互補(bǔ)。

  語音技術(shù)作為一種典型的交叉科學(xué),有三個(gè)重要方面:一、計(jì)算機(jī)的工程模擬,即能夠讓計(jì)算機(jī)模擬整個(gè)人講話的過程,像如何從肺部發(fā)出氣流,經(jīng)過聲帶的調(diào)整,通過口腔變成聲音出來等。這一方面中國科技大學(xué)做得最好,在幾次評比和國際大會(huì)上都得到公認(rèn)。二、對聲音信號本身要有一個(gè)非常深刻的了解,這一點(diǎn)中國科學(xué)院聲學(xué)所做得最好。三、要對漢語本身的一個(gè)運(yùn)用規(guī)則有所了解(不同的字、詞在不同環(huán)境下的聲調(diào)、時(shí)差、能量等),這一方面中國社會(huì)科學(xué)院語言所做得最好,F(xiàn)在,通過中國語音創(chuàng)業(yè)聯(lián)盟,由訊飛出資,將科大、聲學(xué)所、語言所這三支在語音技術(shù)方面最強(qiáng)的力量團(tuán)結(jié)起來,通過股權(quán)融合在一起,形成技術(shù)互補(bǔ),共同將技術(shù)轉(zhuǎn)化為產(chǎn)業(yè)化的產(chǎn)品。這三塊的有力配合,將局部優(yōu)勢化為整體優(yōu)勢;和相關(guān)的IT企業(yè)的結(jié)盟都為訊飛在自然語言理解方面尋求真正突破,為語音合成技術(shù)打下了一個(gè)非常好的基礎(chǔ)。

  語音技術(shù)分為語音合成技術(shù)和語音識別技術(shù)。語音合成技術(shù)主要是好與不好的問題,而語音識別技術(shù)主要是對與不對的問題。目前大眾對語音識別技術(shù)知之較多,對語音合成技術(shù)所知不多。很多時(shí)候語音識別只是作為一種噱頭在用,雖是一個(gè)好東西,但沒有真正解決最普通老百姓的需求。其實(shí)語音合成技術(shù)更為實(shí)用,更能解決人民大眾的需求,更能夠深入到社會(huì)的各行各業(yè)中去。

  中文語音合成技術(shù)中的合成自然度問題是實(shí)現(xiàn)高性能文語轉(zhuǎn)換的關(guān)鍵。特殊符號處理、分詞處理和拼接處理是漢語文語轉(zhuǎn)換系統(tǒng)的整體性能提高的三大處理環(huán)節(jié)。劉慶峰告訴記者:目前科大訊飛以民族語音屏障作為切入點(diǎn),利用在漢語言文化方面的研究實(shí)力,利用中文語音創(chuàng)業(yè)聯(lián)盟在計(jì)算機(jī)模擬、聲訊號的了解和漢語本身的理解的優(yōu)勢,較好地解決了語音合成中的三大處理環(huán)節(jié),使得漢語文語轉(zhuǎn)換系統(tǒng)的整體性能有很大提高。而在語音識別技術(shù)上,像IBM、微軟等公司所做的基本都是一種工作量的工作,都是在比誰的音庫多,比誰的音庫大。然而真正的語音識別應(yīng)該有理解和自動(dòng)糾錯(cuò)的功能。英特爾最關(guān)鍵的是自然語言理解的程度不夠。科大訊飛在中文語音、自然語言理解方面已經(jīng)做了大量的工作,在近期將有創(chuàng)新和突破。一旦自然語言理解方面有所突破后,就會(huì)在語音識別上超過IBM等國際大戶。而且,中文語音創(chuàng)業(yè)聯(lián)盟為這次突破做了長期的積累和準(zhǔn)備,在語音技術(shù)的自然語言理解方面已經(jīng)看到了曙光。明年,訊飛將要成為中國最大的語音合成提供商,這都將為語音識別技術(shù)的推廣打下接口。

  整合我們的技術(shù)、人才和本土化的優(yōu)勢,用我們一流的語音合成的核心技術(shù)來鋪開市場,從而帶動(dòng)語音識別市場,那么中文語音陣地終將為我們所占領(lǐng)。

摘自:〈中國經(jīng)營報(bào)〉2000/11/07


分類信息:     技術(shù)_語音合成_文摘