盧曉信、段云峰 2001/06/25
語音技術,雖然在國外出現(xiàn)得很早,但在國內(nèi)開始步入實用領域,還是最近的事情。這一方面是因為硬件處理能力的提高,另一方面也是因為漢語處理在技術上已經(jīng)有所突破。國外有資料顯示,語音技術在未來的幾年里,將以31%的年增長率進行發(fā)展。
語音技術主要是指基于語音進行處理的技術,主要包括:語音識別ASR、語音合成TTS等等。
語音技術進入商用
語音技術開辟了一個如此巨大的應用市場,那么目前的語音技術發(fā)展到何種程度了呢?
技術成熟進入商用
在技術方面,英語的語音技術比漢語的語音技術的商用程度更廣,實用程度更好。國內(nèi)在漢語的語音技術方面,語音合成技術比較成熟,已經(jīng)達到了商用的標準。而在語音識別方面,雖然已經(jīng)有一些產(chǎn)品開始投入商用,但還有很多的技術問題要解決。
廠家眾多
由于語音技術不僅要涉及到軟件算法,而且也要涉及到硬件的實現(xiàn)技術問題,因此,目前的語音技術廠家,也分為幾類。
有的是從傳統(tǒng)的CTI語音板卡廠商的角度,在產(chǎn)品中增加語音處理功能,國內(nèi)像深圳東進技術、飛環(huán),國外NMS、Intel通信產(chǎn)品事業(yè)部的Dialogic板卡;有的完全是語音技術的科研機構,根據(jù)自己的研究成果,進行產(chǎn)品化,例如中國科技大學的訊飛公司、清華大學的人機交互與媒體集成研究所等。在語音識別方面,國外的IBM、飛利浦、Nuance等公司,均有相關的產(chǎn)品;國內(nèi)的有香港的InfoTalk、捷通等。
在語音合成方面,能夠提供產(chǎn)品的公司就十分多了,有的產(chǎn)品是用軟件來實現(xiàn),有的專門設計了硬件芯片。
促進網(wǎng)絡的融合
語音技術的發(fā)展,帶動了網(wǎng)絡的融合過程。目前,世界上的兩大通信網(wǎng)絡是電信網(wǎng)和計算機網(wǎng),電信網(wǎng)絡是以語音信號為處理對象,計算機網(wǎng)絡則是以數(shù)據(jù)對象為其處理內(nèi)容。而語音技術為兩個網(wǎng)絡的結合,奠定了技術基礎。
在為用戶服務的過程中,兩種網(wǎng)絡分別扮演不同的角色。
語音接入通過PSTN
目前,人們進行信息交流的主要方式,還是通過電話網(wǎng)。用戶可以通過撥打一個電話號碼,接入到信息訪問中心。
語音處理依靠計算機網(wǎng)絡
計算機網(wǎng)絡最大的優(yōu)點是處理信息的能力十分強大。因此,采用語音技術,計算機就可以讀懂用戶想要哪方面的信息,并自動尋找該信息,然后,通過語音技術將信息以語音的形式回放給用戶。
這就形成了一個理想的網(wǎng)絡信息訪問模式,電話網(wǎng)絡負責語音接入,計算機網(wǎng)絡負責信息的處理。
開辟新應用
語音技術的應用十分廣泛。
金融方面
采用了語音技術后,通過電話,不用人工的干預,就可以進行賬戶余額查詢,完成賬戶間的轉(zhuǎn)賬等工作。不僅提高了工作的效率,也改善了服務的形象。
證券方面
用戶通過電話可以查詢當前的股市情況,不用再按電話上的按鍵,而是直接說出自己關心的股票的名稱,例如“深發(fā)展”,然后計算機就通過語音合成技術,將結果播報出來。這樣,用戶就不用記那些股票號碼了。
電信方面
采用語音技術,在電信業(yè)務中將產(chǎn)生很多的應用。例如在“114”電話黃頁中,目前還要有大量的人工服務,而如果采用語音技術,就可以不用人工服務,讓計算機自動接聽用戶的需要,然后回放查詢的電話號碼。
旅游方面
用戶可以通過電話,自動查詢那些感興趣的景點的語音介紹材料,相當于請了一個電話導游。而且出現(xiàn)問題時,也可以通過電話,進行各種求助。
尋呼方面
尋呼目前還是通過尋呼小姐記下用戶要尋呼的目標號碼,然后將內(nèi)容輸入到尋呼系統(tǒng)進行發(fā)射。采用語音技術后,可以讓計算機自動地進行整個操作過程。
娛樂方面
語音技術在娛樂方面,也可以激發(fā)出許多的新應用。例如,在通過電話進行電視MTV點播時,可以避免重復地按電話上的按鍵,而是直接說出哪個歌手的哪首歌,電視臺就接受語音輸入,而播放相應的曲目。
面臨問題
可以看到,將來成熟的語音技術將會帶來巨大的影響,但目前的語音技術還存在著一些問題,而且,單靠語音技術也是不夠的,要和其他領域的知識進行結合,才能產(chǎn)生豐富的應用。
語音識別技術方面
目前,在漢語方面,語音合成的技術已經(jīng)達到了實用階段,但在語音識別方面,還有很多問題要解決。
用戶的獨立性問題:就是如何識別不同嗓音和口音的用戶,而無需通過軟件訓練來實現(xiàn)。
自然語音理解能力:能夠直接了解用戶的需要,就像人一樣,可以通過幾個簡單縮語,就可以明白對方的想法。
插入處理能力:插入能力允許用戶在系統(tǒng)提示時中斷系統(tǒng),但系統(tǒng)仍然能夠知道用戶的請求。
聲紋識別問題:每個人的聲音都有一定的特點,是否也能夠像識別指紋一樣,識別聲紋呢?這樣許多鑒權應用將十分簡單。
業(yè)務策略方面
業(yè)務的應用情況,也取決于業(yè)務的管理水平,業(yè)務的營銷能力、服務水平、售后能力等因素,也同樣制約著最終業(yè)務的應用情況。
摘自《中國計算機報》
|