首頁>>廠商>>語音識別與合成>> 捷通華聲

中文語音技術(shù)應(yīng)掌握在中國人手中

2000/11/22

  在如今的信息海洋中,直到目前為止,我們接受信息的方式主要依靠眼睛,面對著報紙、雜志和各式各樣的熒屏。但是在很多情況下,“視”的方式有一定的局限性,那么,我們?yōu)槭裁醋屪约旱亩洹伴e置”呢?語音是信息傳播的另一大媒介,在人們看不見、不愿看或是不方便看的情況下,“聽”可以使我們突破視線的限制,極大地擴展了接受信息的空間,也極大地降低了對接受信息的條件的要求。別忘了,人類最早的語言,就是在用“看”的方式無法傳達信息的情況下,經(jīng)由無數(shù)次吶喊而逐漸形成的。

  對于今天的IT業(yè)界,提供語音服務(wù)的語音系統(tǒng)正在迅猛地發(fā)展起來。先說說時下火熱的掌上PC、PDA和WAP手機,它們所共有的缺陷就是屏幕小,但是,“看”著不方便可以“聽”呀,為什么不讓它們把信息“說出來”?語音合成技術(shù)將是打破“識讀不便”這個瓶頸的利器;萜展救蛞苿覧-Services總監(jiān)Lawrence Sellin說:“我們預(yù)測Internet最大的增長點就是語音技術(shù)。無論你在哪,都能通過你手機里發(fā)出的聲音來接受網(wǎng)上信息,這將導(dǎo)致Internet使用的大爆炸!痹凇叭Pe化”的各行各業(yè),計算機電信集成系統(tǒng)(CTI)的發(fā)展如日中天,三網(wǎng)合一(電話網(wǎng)、有線電視網(wǎng)、互聯(lián)網(wǎng))的大趨勢給語音技術(shù)帶來了巨大的商機。結(jié)合其他技術(shù),語音合成將廣泛應(yīng)用于金融、郵電、工商、政府機關(guān)、交通、教育和游戲娛樂等領(lǐng)域?傊,從股票、航班查詢到電腦文檔的閱讀,再到能說話的信息家電,凡是能“看”的地方,就應(yīng)該能“聽”;“看”成問題的地方,更應(yīng)該能“聽”!在未來幾年內(nèi),語音合成技術(shù)的應(yīng)用將遍及所有與IT相關(guān)的產(chǎn)業(yè),其國內(nèi)的市場價值,將達到幾十億甚至上百億元。

  語音合成技術(shù)的學(xué)名叫“文語轉(zhuǎn)換系統(tǒng)”,簡稱為TTS-text to speech,其實就是讓計算機把文字說出來,其追求的目標是計算機輸出的“合成語音”可懂、清晰、自然、具有表現(xiàn)力。不用說,這種技術(shù)也是世界各國競相研究的熱點,20世紀60年代,英文TTS系統(tǒng)首先被研制出來。80年代,我國開始介入漢字TTS領(lǐng)域的研究,清華大學(xué)、中國科大、中科院聲學(xué)所等單位都在這一領(lǐng)域取得了很好的成績。近年來,在國家“863”智能計算機主題的支持下,漢語TTS技術(shù)有了長足的進步。有專家稱:中文語音合成是我國具有一定競爭優(yōu)勢的中文軟件領(lǐng)域中“最后的一塊處女地”。早已圍坐在爐邊的狼群

  據(jù)說鯊魚可以在很遠的地方就能聞到血腥味,然后迅速趕到獵物身邊。國外的IT巨頭們的嗅覺比鯊魚更厲害,對于中文TTS技術(shù)來說,它們能在國內(nèi)的市場苗頭還未凸現(xiàn)之前,就瞄準了這塊肥肉。原因很簡單,目前世界上已經(jīng)開發(fā)出多種語言的TTS系統(tǒng),Bell實驗室、ATR、Siemens公司已研制出多語種的TTS系統(tǒng),法國CNET的多語種TTS已用于電話網(wǎng)中的公共話音服務(wù)。毋庸質(zhì)疑,下一個巨大的市場當然就是以中國大陸地區(qū)為代表的使用漢語的人群。

  國外著名的IT廠家很早就開始了對中文TTS技術(shù)和市場的培養(yǎng)與爭奪,他們在這一領(lǐng)域投入的巨資,顯示出他們對這個市場的信心和野心。微軟、Intel、Motorola、IBM等均投巨資、集中大批優(yōu)秀的開發(fā)力量進行語音識別方面的研究。他們對技術(shù)的占有欲就象對利潤的占有欲一樣強烈,因此也不惜血本地投入,微軟中國研究院高級研究員的年薪一般也為幾十萬元人民幣。和在其他領(lǐng)域一樣,他們第一步所做的,就是抓住TTS技術(shù)的命脈——人才,在這些大公司的中文TTS實驗室里,絕大部分科研人員是國內(nèi)培養(yǎng)多年的、畢業(yè)于幾個著名語音合成技術(shù)實驗室的碩士和博士。更值得注意的是,1998年比爾-蓋茲派往中國籌建研究院的李開復(fù)博士,就是國際著名的語音技術(shù)專家。

  據(jù)筆者了解,國內(nèi)兩個著名的語音合成技術(shù)實驗室培養(yǎng)的碩士、博士生,有90%以上都進入了國外著名廠商的實驗室,甚至一些還沒畢業(yè)的學(xué)生,就已被獵頭挖走,或是提前為他們打工。某代表國內(nèi)最高水平的實驗室,其關(guān)鍵技術(shù)的發(fā)明人今年已進入微軟,并開始領(lǐng)導(dǎo)一個語音合成技術(shù)小組,而他的當年的導(dǎo)師、一位業(yè)已退休的老教授,也被另一個國外著名大公司回聘,擔任技術(shù)開發(fā)工作的指導(dǎo)。這家實驗室本身也受這兩家委托,進行語音合成音庫的開發(fā)。不知道國內(nèi)的IT人們急不急,反正老外們的確是“只爭朝夕”,據(jù)上述那個實驗室的某位員工說,這兩家公司幾乎每天都在查詢研發(fā)的進度,估計不久就要向中文語音市場推出商品化產(chǎn)品。

  其實,國外廠商的產(chǎn)品已經(jīng)出現(xiàn)在國內(nèi)的市場上了。我國某大型通信公司已開始采用由以色列一公司開發(fā)完成的中文語音合成技術(shù),進行電話查詢及聲訊業(yè)務(wù),每一條電話線的技術(shù)使用費是1萬元/年。國內(nèi)著名的一家軟件廠商,其最新推出的手寫識別軟件即采用了美國L&H公司的語音合成技術(shù),所需費用為每年幾十萬乃至上百萬元。冰山的一角,已經(jīng)開始露了出來。

  據(jù)不完全統(tǒng)計,目前在中國開拓語音技術(shù)市場的“狼群”有以下這些成員:微軟中國研究院、IBM中文語音研究中心、Intel中文語音研究中心、摩托羅拉公司、西門子公司、Dialogic公司(國際著名電話語音卡生產(chǎn)商)、飛利浦公司、L&H公司、Dragon公司、郎訊公司、AT&T公司。從“電子白溝”到硅谷有多遠的路

  中關(guān)村,這條街上的事情說起來沒完沒了。這條原本普通的街道承載了太多的雄心和夢想,承擔了太多的責任和憂患。二十年來,多少IT業(yè)界的成功傳奇和失敗的遺憾都發(fā)生在這里,時至今日,這里大廈林立,各個國內(nèi)外公司的標志和廣告爭奇斗妍,熙熙攘攘的人群中,多少IT精英正攥緊拳頭,拓展自己的夢想。

  可是,每一個IT人心里都明白,我們的數(shù)字產(chǎn)業(yè)的命脈——從CPU到操作系統(tǒng),都握在別人的手里。在普通的中國人心中,這里代表著我們的未來、科技的明天,那么對于微軟、Intel這樣的國際IT巨人們呢?這里只是他們的組裝車間和銷售店鋪,即使一些與他們沒有直接業(yè)務(wù)聯(lián)系的軟件或是別的廠家,也都是在巨人們搭起的基礎(chǔ)上修筑自己的小屋。

  捷通公司的總經(jīng)理張連毅先生把中關(guān)村的發(fā)展歸結(jié)為三個階段,或者說三個浪潮。最早的是知識分子走出象牙塔,下海經(jīng)商辦企業(yè);接著是國內(nèi)的一流大學(xué)和科研院所開始做校辦企業(yè)和“院辦公司”,現(xiàn)在的幾乎所有的大型IT集團都脫胎于此,譬如聯(lián)想、同方、紫光、方正等等;近年來,在政府的大力扶持之下,一批民辦高科技企業(yè)逐漸顯山露水,把目標定位在自主產(chǎn)權(quán)的IT產(chǎn)品和互聯(lián)網(wǎng)服務(wù)。那么,我們有多少自己開發(fā)的關(guān)鍵技術(shù)呢?有哪些領(lǐng)域離了我們自己的技術(shù)專利就玩不轉(zhuǎn)呢?答案是讓人揪心的……。

  在國外,當人們提到高新技術(shù)時,想到的是那些大公司如IBM、微軟、摩托羅拉,而在中國,人們更多的是想到清華、北大,亦或是科大、復(fù)旦。這是一個值得深思的問題,我們的大學(xué)是做什么的,其主要的職能是什么?難道它們只是企業(yè)孵化器,各公司的產(chǎn)品開發(fā)部?大家都知道,諸如斯坦福、伯克利、麻省理工這樣的世界名校支撐著硅谷,但是人家在做什么?是培養(yǎng)人才、做并沒有多少現(xiàn)時的商業(yè)利益的學(xué)科基礎(chǔ)研究,還是緊跟著市場開發(fā)產(chǎn)品?也許有人會用“中國特色”來解釋這個現(xiàn)象,也許我們的知識分子絕不愿意再回到貧窮的昨天、讓咱們的大學(xué)里先出“一百個百萬富翁”再說?墒,如果代表著中國高等教育和科學(xué)研究最高水平的清華、北大都忙于辦公司、經(jīng)商,那么,誰來完成它們的職責呢?又有誰能完成得了呢?另外,高校自己出技術(shù)辦企業(yè),其產(chǎn)品的專利技術(shù)的擁有權(quán)、管理權(quán),以及企業(yè)做到一定程度之后的產(chǎn)權(quán)等等問題,這些方方面面的關(guān)系如何理順?面對這些問題,我們不禁要問:我們的大學(xué)是要爭做世界一流大學(xué)還是要做“世界五百強”呢?沒有世界一流的大學(xué),中國硅谷的基礎(chǔ)何在?

  如果我們對美國高科技產(chǎn)業(yè)領(lǐng)先于世界的原因稍作一點深層次的考察,就會發(fā)現(xiàn)在具體的那些專利技術(shù)的背后和底層,有著強大的基礎(chǔ)科學(xué)研究的基礎(chǔ)。90年代初,為了在二十一世紀保持科技的領(lǐng)先水平,美國政府曾經(jīng)制訂了一個龐大的科技發(fā)展綱要,其中列在第一位的,是要保持美國數(shù)學(xué)界的世界權(quán)威水平,接下來是理論物理學(xué)。從最基礎(chǔ)的科學(xué)研究到最具商業(yè)效益的專利技術(shù),這中間有很長的路途,很多的環(huán)節(jié),這些工作筆者認為絕不是某個企業(yè)能完成的。

  回過頭來看看我們的所謂高科技公司,他們掌握了多少自主產(chǎn)權(quán)的高科技技術(shù)?打著高新企業(yè)的幌子賣電子配件的先不必說,就是那些響當當?shù)膰鴥?nèi)IT巨頭們,他們又有多少自己的“硬家伙”,他們的利潤有多少來自于自己的專利技術(shù),而不是靠各級政府的扶持和保護、或是地緣優(yōu)勢?作為國內(nèi)第一PC廠商的聯(lián)想,賣出一臺微機自己能賺多少錢,而Intel和微軟又從中賺了多少錢?

  沒有成功的人總是寂寞的,如果他不能在困境之中堅守自己的選擇而隨波逐流,那么他永遠也不會有成功的那一天。對于一個企業(yè)來說也是如此,我們的許多公司太浮躁了,太不能承受痛苦和寂寞,他們總是盯著眼前的利益,要么就是做那些低級的炒作,其實,歸根到底就是尋找投機的機會,一夜暴富?赡挠心敲慈菀椎氖卵!這方面,日本、韓國和臺灣的一些優(yōu)秀的IT廠家是值得我們學(xué)習的,我們今天的困難他們也曾遇到過,甚至現(xiàn)在也時常遇到,但是,如果你放棄自己參與技術(shù)競爭的權(quán)利,那么就總會受制于人,永遠不得翻身。這方面,我們的慘痛經(jīng)歷太多了,不用敷述。

  高校和科研院所向來是國家重要的科研中心,是高新技術(shù)主要的發(fā)源地。國家長期以來投入了大量資金支持其研究課題,但對技術(shù)商品化并沒有明確規(guī)定,特別是軟件產(chǎn)業(yè)中,知識產(chǎn)權(quán)的概念模糊,導(dǎo)致關(guān)鍵技術(shù)隨著人才的流動而轉(zhuǎn)移,造成許多技術(shù)“墻內(nèi)開花,墻外結(jié)果”的局面。人材流失了,技術(shù)錯過了市場,體制和觀念等因素,使一些技術(shù)發(fā)源地逐漸地干涸了。譬如,在語音技術(shù)領(lǐng)域,我們可以去看看,高校、研究所有多少“專職”的科研人員?

  在于語音合成技術(shù)同等重要的語音識別領(lǐng)域,上述的悲慘局面更始讓人嘆息。將近二十年來,國家投入了巨大的人力和資金,但1997年,IBM公司搶先在中國大陸市場推出了語音識別產(chǎn)品IBM Viavoice,一年時間內(nèi)占領(lǐng)了大陸近90%的市場份額,獲取了上億元的利潤。使國內(nèi)語音識別技術(shù)的商品化功虧一簣。美國的另外兩大語音技術(shù)公司L&H和Dragon分別于99年、2000年宣布進軍大陸語音識別市場,Philip公司1998年僅出資二百萬元給清華大學(xué)某語音識別實驗室,就要求該實驗室兩年之內(nèi)不得與其它國內(nèi)、外廠家合作!國內(nèi)語音識別技術(shù)廠商的市場占有率幾乎為零,重要的技術(shù)源頭又被別人控制,因而有業(yè)內(nèi)專家預(yù)測,我國的語音識別產(chǎn)品幾年內(nèi)已無法在中國大陸市場立足!拒絕再次讓別人扼住我們的咽喉

  可以說,中文語音合成技術(shù)是中文民族軟件市場的最后一塊陣地。這一國家投入了巨大資金和人材的技術(shù)日趨成熟,一個潛在的巨大市場業(yè)已浮出水面。當然,我們的國內(nèi)TTS技術(shù)相關(guān)廠家也面臨巨大的挑戰(zhàn),此項技術(shù)和市場流失的危險也是大家都能看得到的。

  在此,筆者想請諸位讀者關(guān)注一個正在蓬勃而上的民辦軟件廠商——捷通華聲。這是一家民營的股份制軟件公司,匯集了眾多著名高校學(xué)子和海外歸國人材,有著非常雄厚的科技實力和先進的經(jīng)營管理理念。

  這家公司成立短短兩年來,為客戶提供了用于計算機電信集成系統(tǒng)(CTI)的語音合成技術(shù)、錄易漢語智能輸入/輸出系統(tǒng),以及可聽可說的飛達多媒體電子郵件等等眾多的解決方案,這一切的核心技術(shù),就是他們自主產(chǎn)權(quán)的中文TTS技術(shù)。一個年輕的民營軟件公司在今天所面臨的困難是可想而知的,面對低迷的市場和國外IT巨頭們的打壓,捷通人勇敢地邁出了一大步——與中科院有關(guān)機構(gòu)和清華的語音合成技術(shù)實驗室合作,在科技部、市科委的大力支持下,成立民營企業(yè)的第一個語音技術(shù)研究中心——捷通華聲。

  日前,捷通華聲語音研究中心正式成立。這個中心的成立,標志著我國軟件企業(yè)在語音技術(shù)領(lǐng)域獨立開發(fā)、自主產(chǎn)權(quán)的道路上邁出了嶄新的一步,從具體產(chǎn)品的開發(fā)向關(guān)鍵技術(shù)的研究深入。我國一位國內(nèi)、外著名的中文語音專家放棄國外幾家大公司的高薪聘請參與組建捷通華聲,以首席科學(xué)家的身份“坐鎮(zhèn)”捷通華聲,幾位年輕的畢業(yè)于清華、中科院的優(yōu)秀博士、碩士、工程師加盟捷通華聲,雖然它的規(guī)模和影響還很有限,但是讓我們看到了希望:真正有骨氣、有遠見的中國企業(yè),開始在IT的核心技術(shù)層面向國外的大公司說不,他們拒絕再讓別人扼住自己的咽喉!

  捷通公司在資金并不雄厚的情況下,到目前為止,已將一半以上的資金用于技術(shù)開發(fā),其眼光和魄力的確是令人敬佩的。掌握本領(lǐng)域的最先進技術(shù),做中國市場上一流的TTS軟件廠家,是捷通成立伊始就定下的發(fā)展方針,華聲語音研究中心的成立,使他們進一步地靠近了自己的目標,為成為一流的民族軟件廠商打下了堅實的基礎(chǔ)。我們應(yīng)該為華聲語音技術(shù)有限公司的成立而歡呼,捷通人不能容忍,所有的中國人也不能容忍再次讓別人扼住我們的咽喉!

 

捷通公司供稿 CTI論壇編輯 2000/11/22

 


分類信息:  語音合成TTS_與_語音識別ASR     技術(shù)_語音合成_新聞   技術(shù)_語音識別_新聞   技術(shù)_語音合成_文摘