占據(jù)人機語音交互技術(shù)的制高點
2001/07/27
IT技術(shù)和市場的下一個熱點是什么?當(dāng)計算能力不再是瓶頸,當(dāng)計算機、手機、PDA和各種智能機器,都通過有線或無線網(wǎng)絡(luò)連接起來的時候,IT 技術(shù)的熱點和市場競爭的焦點是什么?是人機智能交互技術(shù)—人類通過什么手段或技術(shù)與信息終端進行交互,從而實現(xiàn)人與人、人與機器及網(wǎng)絡(luò)進行信息溝通。
IT下一個熱點:人機智能交互
當(dāng)PC機的利潤越來越薄,DOTCOM遭遇挫折的時候,從事文字識別開發(fā)的漢王公司迅速崛起,把手寫識別引入PDA的恒基偉業(yè)獲利頗豐。IBM的中文普通話連續(xù)語音識別系統(tǒng)一推出,就被漢王公司集成到聽寫產(chǎn)品中,一舉打敗了摩托羅拉在人機智能交互市場上的進攻。
事實上我們正在進入這樣的時代,近幾年來,隨著文字識別技術(shù)、語音識別與合成技術(shù)的進步,我們已經(jīng)讓計算機實現(xiàn)了“我寫你認(rèn),你聽我說”的交互方式。實現(xiàn)了手機撥號用嘴說,PDA輸入用手寫。隨著計算機和互聯(lián)網(wǎng)的進一步普及、移動智能消費類電子產(chǎn)品的流行,人們越來越發(fā)現(xiàn),需要更符合人類生活習(xí)慣人機交互技術(shù)。從鍵盤、鼠標(biāo)到掃描儀、手寫筆,我們正朝著讓計算機說人話、認(rèn)草書的方向快步推進。技術(shù)趨勢和需求的拉動都在明白無誤地告訴人們,IT下一個巨大的市場當(dāng)然就是占世界人口五分之一的使用漢語人群的人機交互。實用性語音識別、語音合成技術(shù)和產(chǎn)品的需求如此巨大,無限的商機正在凸顯出在我們的眼前。
爭鋒,在語音技術(shù)的“中國區(qū)域”
就像鯊魚嗅到了血腥,無限的商機必然會帶來激烈的競爭,說出來人們可能會大吃一驚。單單在讓計算機能聽懂中國語、說中國話——漢語語音識別與合成技術(shù)領(lǐng)域,就聚集了幾乎所有的世界級IT巨擎。微軟、Intel、Motorola、IBM都在這一領(lǐng)域投入巨資,顯示出他們對這個市場的信心。就連家電巨擎PHILIPS、松下和大量的手機廠商也紛紛覬覦這塊即將到口邊的“肥肉”,集中大批優(yōu)秀開發(fā)力量進行漢語語音技術(shù)的研究與開發(fā)。因為誰擁有了技術(shù),誰就擁有了市場,無論這個市場處在地球的哪一個角落。
微軟董事長比爾·蓋茨從CEO的位置上退下來要干什么?他自己說得好,終于可以踏下心來搞手寫輸入和語音識別技術(shù)。而微軟中國研究院的主要研究方向恰恰就是中文信息處理和語音技術(shù)領(lǐng)域。這些國外的IT大廠商,在吸引國內(nèi)技術(shù)人才上更是不惜血本地投入,微軟中國研究院高級研究員的年薪最少也達到幾十萬元人民幣。這樣做的目的就是抓住語音識別與合成技術(shù)的命脈——人才,在這些大公司的中文語音實驗室里,絕大部分科研人員是國內(nèi)培養(yǎng)多年的、畢業(yè)于幾個著名語音合成技術(shù)實驗室的碩士和博士。1998年比爾·蓋茲派往中國籌建微軟研究院的李開復(fù)博士,就是國際著名的語音技術(shù)專家。據(jù)了解,國內(nèi)中科院和清華大學(xué)兩個著名的語音合成技術(shù)實驗室培養(yǎng)的碩士、博士生,有90%以上都進入了國外知名廠商的實驗室,甚至一些還沒畢業(yè)的學(xué)生,也成為獵頭目標(biāo),在畢業(yè)之前就開始為他們服務(wù)。甚至在國內(nèi)最高水平的語音技術(shù)實驗室,都有關(guān)鍵技術(shù)發(fā)明人乃至項目負責(zé)人,不斷地進入國外大公司。有的語音技術(shù)專家已經(jīng)成為外企的語音項目的領(lǐng)導(dǎo)和組織者。
其實,伴隨著國外廠商們馬不停蹄、只爭朝夕的技術(shù)推進,國外廠商的語音技術(shù)產(chǎn)品已經(jīng)出現(xiàn)在國內(nèi)的市場上跑馬圈地了。我國某大型通信公司采用由以色列一公司開發(fā)完成的中文語音合成技術(shù),進行電話查詢及聲訊業(yè)務(wù),每一條電話線的技術(shù)使用費是1萬元/年。國內(nèi)著名的一家軟件廠商,其最新推出的手寫識別軟件即采用了美國L&H公司的語音合成技術(shù),所需費用為每年幾十萬乃至上百萬元。冰山的一角,已經(jīng)開始露了出來。要不了多久中文語音市場就會亂云飛渡、硝煙四起。
據(jù)不完全統(tǒng)計,目前在中國開拓語音技術(shù)市場的外國廠商包括:微軟中國研究院、IBM中文語音研究中心、Intel中文語音研究中心、摩托羅拉公司、西門子公司、Dialogic公司(國際著名電話語音卡生產(chǎn)商)、飛利浦公司、L&H公司、Dragon公司、朗訊公司、AT&T公司、日本松下。說到這里,我們不禁要問,中國人在做什么嗎?我們這些寫方塊字操漢語母語的軟件企業(yè)、語音技術(shù)專家在做什么?中文語音合成——在中文軟件領(lǐng)域中我國具有一定競爭優(yōu)勢的“最后的一塊處女地”我們還敢丟嗎?
語音技術(shù):不是說“不”而是如何“說”的問題
我們曾經(jīng)因為別人的壟斷和歧視說“不”,我們還可以“挑戰(zhàn)微軟”,擬或挑戰(zhàn)別的什么,但是你不能反對人家研究你的語言,開發(fā)你的文字。市場是共同的,決不因為民族的緣故而給那一家企業(yè)例外的規(guī)則。語音識別技術(shù)我們已經(jīng)走在后面,而語音合成技術(shù)市場還未見分曉,機遇尚存,路在腳下,關(guān)鍵是看怎么走。
漢王因有技術(shù)在手可與微軟平坐于談判桌前,中文之星因有在手的技術(shù)方可在微軟拼音之上加掛“狂拼”。在外商IT列強強攻中文語音合成技術(shù)的背景下,這計算機的中國話怎么說呢?
沒有成功的人總是寂寞的,如果他不能在困境之中堅守自己的選擇而隨波逐流,那么他永遠也不會有成功的那一天。當(dāng)我們看見漢王發(fā)布它識別行草漢字的軟件時,當(dāng)我們登陸北京捷通軟件公司的網(wǎng)站,聽著計算機(不是放錄音)真人一般說著IT界的新鮮事時,我們的心才稍稍感到一絲輕松,在IT技術(shù)和市場的數(shù)字戰(zhàn)線上,還有人在不懈地堅持著、奮進著。北京捷通軟件公司,用IT圈里的俗話說是“海龜民營”企業(yè)。不用說這里了名校的高才和海外歸國人材。它的老總張連毅總說他的企業(yè)有著非常雄厚的科技實力和先進的經(jīng)營管理理念。這話我還真信,為什么?因為它有一個語音研究實驗室,它有國際和國內(nèi)語音技術(shù)著名專家呂士楠親自擔(dān)綱,其技術(shù)實力在語音技術(shù)領(lǐng)域那是不言而喻的。
捷通公司成立的時間并不長,但已經(jīng)為客戶提供了用于計算機電信集成系統(tǒng)(CTI)的語音合成技術(shù)、錄易漢語智能輸入/輸出系統(tǒng),以及可聽可說的飛達多媒體電子郵件系統(tǒng)等眾多的解決方案,而這一切的核心技術(shù),就是他們自主產(chǎn)權(quán)的中文TTS技術(shù)。其實一個年輕的民營軟件公司要面對國內(nèi)低迷的市場和國外IT巨頭們的打壓,想搞自己的技術(shù)研發(fā)并不是一件容易的事情,捷通人能夠取得進步還真的說它有先進的管理經(jīng)營理念,他們與中科院有關(guān)機構(gòu)和清華大學(xué)語音合成技術(shù)實驗事合作,在科技部、市科委的大力支持下,成立民營企業(yè)的第一個語音技術(shù)研究中心--捷通華聲。國內(nèi)、外著名的中文語音專家呂??教授放棄國外幾家大公司的高薪聘請以首席科學(xué)家的身份“坐鎮(zhèn)”捷通華聲,這標(biāo)志著我國軟件企業(yè)在語音技術(shù)領(lǐng)域獨立開發(fā)、自主產(chǎn)權(quán)的道路上邁出了嶄新的一步,從具體產(chǎn)品的開發(fā)向關(guān)鍵技術(shù)的研究深入。
捷通在資金并不雄厚的情況下,將一半以上的資金用于技術(shù)開發(fā),其眼光和魄力的確是令人敬佩的。也許正是許多個捷通的不懈努力,才有我們在中文語音軟件領(lǐng)域說“不”的資本,因為是我們自己的技術(shù),率先讓計算機以人性化的聲音“說”出了我們的語言,“說”出了我們自己本該占領(lǐng)的市場。
摘自硅谷動力