首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)  語(yǔ)音識(shí)別產(chǎn)品

 

語(yǔ)音技術(shù):走出實(shí)驗(yàn)室的革命

蔡虹 2001/06/21

  最近在清華大學(xué)計(jì)算機(jī)系智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室里,記者參觀了一項(xiàng)名為“Talking Head”的技術(shù)展示。與近期十分熱鬧的“虛擬主持人”電腦合成的形象不同,這里屏幕上顯示的是一張真實(shí)的人臉,能清晰地朗讀出任選的一段中文或者中、英文夾雜的文字,她的嘴唇及整個(gè)面部隨著發(fā)音的不同而變化。實(shí)驗(yàn)室的陶建華博士跟記者開玩笑說(shuō):“把你的照片拿來(lái),20分鐘我就能讓它開口說(shuō)話!笨量痰卣f(shuō)“說(shuō)話的人臉”仍顯得有些可怕。陶博士解釋說(shuō)數(shù)據(jù)分析的量很大,現(xiàn)在還未做到眼睛以上部分的緣故,所以“說(shuō)話時(shí)”整張臉的活動(dòng)還不太自然。

  如果有了十分自然的“Talking Head”,人們將會(huì)擁有許多個(gè)性化的TTS(語(yǔ)音合成技術(shù))應(yīng)用。例如可以在用在E-mail里,用自己的形象和聲音“口述”郵件內(nèi)容;母親可以利用它給獨(dú)自留在家中的小孩講故事。國(guó)外某機(jī)構(gòu)甚至宣布了“復(fù)活夢(mèng)露”的瘋狂計(jì)劃,宣稱夢(mèng)露可以在重新活躍在銀幕上,她甚至可以主演新的劇本,與觀眾談?wù)摤F(xiàn)在的時(shí)事。   種種美好的、有趣的、大膽的、革命性的應(yīng)用得益于語(yǔ)音技術(shù)的發(fā)展。語(yǔ)音是核心技術(shù),與其他任何技術(shù)的交叉組合,就會(huì)產(chǎn)生活力。優(yōu)美而復(fù)雜的漢語(yǔ)因處理的困難屢次受到“是否阻礙了信息化進(jìn)程”的質(zhì)疑,如今在語(yǔ)音技術(shù)方面也慢慢地跟上來(lái)了。

  應(yīng)用突圍

  語(yǔ)音技術(shù)可分為語(yǔ)音識(shí)別和語(yǔ)音合成兩大類。語(yǔ)音識(shí)別涉及的問(wèn)題更復(fù)雜一些,例如方言、應(yīng)用中語(yǔ)音通過(guò)電話(特別是無(wú)線方式)傳遞時(shí)的失真等等。就漢語(yǔ)來(lái)說(shuō)TTS技術(shù)更成熟,若把機(jī)器的發(fā)音分為能聽懂——清晰——有表現(xiàn)力三個(gè)階段的話,目前只能說(shuō)“接近比較自然”,能播新聞,但也許不能講故事。技術(shù)已經(jīng)到了可以走上應(yīng)用的階段,各種產(chǎn)品早就迫不及待地冒出了頭。

  有關(guān)通信的應(yīng)用是市場(chǎng)比較需要、產(chǎn)品也相對(duì)豐富的方面。在“移動(dòng)夢(mèng)網(wǎng)”建設(shè)中,炎黃新星公司與清華大學(xué)合作提供的IP—IVR與TTS語(yǔ)音網(wǎng)關(guān)產(chǎn)品已在5月安裝到了杭州和廣州的中國(guó)移動(dòng)統(tǒng)一信息平臺(tái)上。用戶將可以用手機(jī)、固定電話播打或接收電子消息,并可以利用IP網(wǎng)關(guān)技術(shù),進(jìn)行IP語(yǔ)音消息、IP傳真在公網(wǎng)與專網(wǎng)上的數(shù)據(jù)傳送。電子詞典以及圖書發(fā)行方面的應(yīng)用也很廣泛。

  由新華書店等投資的新華世紀(jì)軟件公司新推出了以漢語(yǔ)普通話為標(biāo)準(zhǔn)發(fā)音的朗讀軟件—“新華音霸KingVoice1.0”,在電腦朗讀的同時(shí)能顯示具有口型變化的Talking Head。2000年掌上電腦“開口說(shuō)話”的話題炒得很熱,捷通公司開發(fā)出WinCE環(huán)境下的語(yǔ)音閱讀軟件。這些用的都是清華大學(xué)的核心技術(shù)。

  同為863計(jì)劃基地的中科大訊飛公司在“國(guó)家863計(jì)劃十五周年成就展”上展出了新穎有趣的“虛擬主持人”、“機(jī)器人足球賽虛擬評(píng)論員”,引得觀眾駐足圍觀。訊飛推出了一系列的“EVoice有聲電子郵件系統(tǒng)”、“電話語(yǔ)音金融雷達(dá)系統(tǒng)”等解決方案,以及針對(duì)教育領(lǐng)域的“老師家長(zhǎng)一線通”和“網(wǎng)絡(luò)信息凈化器”等軟件產(chǎn)品。由其承建的我國(guó)首家應(yīng)用語(yǔ)音技術(shù)的數(shù)字化圖書館在安徽通過(guò)了驗(yàn)收,突破了傳統(tǒng)數(shù)字圖書館只能通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)查詢的限制,讀者通過(guò)電話就可以獲取圖書館的大量信息。

  企業(yè)需要一般公務(wù)及商業(yè)方面的應(yīng)用,例如“統(tǒng)一消息處理系統(tǒng)”。只要一臺(tái)計(jì)算機(jī)或電話,員工無(wú)論在家中、在路上,還是在辦公室或旅館,都可以隨時(shí)隨地處理個(gè)人語(yǔ)音信息、傳真和電子郵件,十分方便。例如員工通過(guò)電話登錄,系統(tǒng)可以用“口述”的方式讓員工了解郵件的內(nèi)容。 TTS應(yīng)用已經(jīng)開始滲透到大眾身邊。打開個(gè)人電腦,號(hào)稱“無(wú)話不說(shuō)的超厚詞典”—金山詞霸.net 2001,就能夠?qū)θ我鈫卧~、語(yǔ)句,甚至可以流利的帶語(yǔ)氣的朗讀出用戶指定的任何一段英文。

  與國(guó)內(nèi)各大科研院所不同,IBM、Intel等跨國(guó)公司花了更多力氣在語(yǔ)音識(shí)別技術(shù)方面。IBM早在1997年就推出了中文的“聽寫機(jī)”。其“ViaVoice”軟件已經(jīng)不僅用于電腦,還應(yīng)用于電視和便攜式信息終端等,如智能電話轉(zhuǎn)接系統(tǒng)、Web網(wǎng)站上的應(yīng)用、在Word2000文檔模板中可以直接通過(guò)語(yǔ)音輸入文件等。Intel公司自己就采用了語(yǔ)音識(shí)別自動(dòng)轉(zhuǎn)接系統(tǒng),撥通其總機(jī)后,說(shuō)出撥叫方的姓名,經(jīng)確認(rèn)后就可自動(dòng)轉(zhuǎn)接過(guò)去,而無(wú)需按鍵。

  市場(chǎng)升溫

  一個(gè)方便的系統(tǒng)肯定需要語(yǔ)音識(shí)別與語(yǔ)音合成兩種技術(shù)的配合,例如系統(tǒng)通過(guò)語(yǔ)音識(shí)別來(lái)確定身份、了解要求,然后通過(guò)語(yǔ)音合成使移動(dòng)的用戶通過(guò)手機(jī)、PDA等便攜的終端“聽”到消息。 技術(shù)最近看來(lái)不會(huì)有飛躍性的突破。各公司的技術(shù)基礎(chǔ)基本相同,倒是在系統(tǒng)的集成和市場(chǎng)的推廣上分出了高低。

  市場(chǎng)需求十分高漲。韓國(guó)的智能家電系列、美國(guó)的能提醒人們按時(shí)服藥的藥瓶、德國(guó)的會(huì)說(shuō)話的全自動(dòng)洗衣機(jī)、英國(guó)的能說(shuō)四國(guó)語(yǔ)言的新穎吸塵器等無(wú)不吸引了眾多傳媒的目光以及用戶的擁有欲望。語(yǔ)音不僅是“錦上添花”,使應(yīng)用更方便的技術(shù),而且常!把┲兴吞俊。例如印尼政府近日為盲人開設(shè)了一個(gè)有聲網(wǎng)站www.mitranet.or.id,看不見屏幕的盲人也能在該網(wǎng)站的語(yǔ)音提示下進(jìn)行上網(wǎng)操作,大大方便了盲人與世界的交流。而且很多應(yīng)用已帶來(lái)了巨大的經(jīng)濟(jì)效益。如幾年前Bell實(shí)驗(yàn)室研制出的ZeroPlus自動(dòng)語(yǔ)音應(yīng)答系統(tǒng)為AT&T電話公司每年節(jié)省1億美元的人工服務(wù)費(fèi)用,該系統(tǒng)根據(jù)美國(guó)的多種電話付費(fèi)方式,通過(guò)自動(dòng)語(yǔ)音交互應(yīng)答,自動(dòng)識(shí)別用戶的付費(fèi)方式。韓國(guó)使用語(yǔ)音股票交易服務(wù)的用戶以四五十歲的人士居多,雖然只占了整體用戶的20%,卻是交易量最高的一群。

  爭(zhēng)奪也很激烈,早在1998年市場(chǎng)上銷售的語(yǔ)音識(shí)別系統(tǒng)已經(jīng)超過(guò)80多種。2001年中國(guó)市場(chǎng)上語(yǔ)音產(chǎn)品也已經(jīng)形成了一定的市場(chǎng)規(guī)模。IBM和Intel 在中國(guó)市場(chǎng)上已經(jīng)努力了很久,IBM的語(yǔ)音識(shí)別軟件占據(jù)了大半的市場(chǎng)份額。2000年底兩大巨人牽手,IBM中國(guó)與Intel中國(guó)Dialogic分部聯(lián)合推出了語(yǔ)音開發(fā)平臺(tái)。國(guó)內(nèi)企業(yè)很小很弱,但是擁有一些語(yǔ)音合成方面的核心技術(shù),應(yīng)該說(shuō)市場(chǎng)機(jī)會(huì)還是有的。

【互聯(lián)網(wǎng)周刊消息】 2001/06/21



相關(guān)鏈接:
炎黃新星與新華世紀(jì)聯(lián)手推出《新華音霸KingVoice 1.0》 2001-06-08
統(tǒng)一消息平臺(tái)中的語(yǔ)音技術(shù) 2001-06-04
數(shù)據(jù)挖掘走入語(yǔ)音處理 2001-06-04
語(yǔ)音技術(shù)的拓展與展望 2001-06-01
語(yǔ)音門戶:讓網(wǎng)絡(luò)接入更便捷 2001-05-11