首頁>>廠商>>語音板卡開發(fā)商>>東進(jìn)技術(shù)

用板卡搭建語音門戶

劉建全 2001/06/21


  語音門戶展現(xiàn)在我們面前的巨大的市場潛力。但是,語音門戶在也對語音技術(shù)提出要求的同時,也對語音板卡提出了更多的需求,要求“語音打斷”功能,要能有效“消除回聲”等。只有這樣,才能用語音板卡成功搭建技術(shù)上成熟的語音門戶。

  語音門戶的本質(zhì)是應(yīng)用了語音識別技術(shù)的IVR(語音自動應(yīng)答)系統(tǒng)。那么,當(dāng)前存在的問題主要有哪些呢?


  IVR系統(tǒng)使用不方便


  在IVR系統(tǒng)中引入ASR技術(shù)的初衷是什么?

  拋開冠冕堂皇的商業(yè)目的,我們需要承認(rèn),在IVR系統(tǒng)中引入ASR技術(shù)的初衷在于解治IVR中存在的痼疾。

  語音選單界面有太多的選項。語音提示+按鍵選擇的方法已經(jīng)無法滿足需求。比如,在航班查詢系統(tǒng)中,如此多的目的城市不可能全部通過語音播報出來。

  效率低下。通過語音識別技術(shù)提升了接入手段,用戶可以直接用語音進(jìn)行有關(guān)的交互工作,這樣,工作效率大為提高。例如,目前在聽完了大段的語音提示選單后,用戶還要不斷地停下來,按動電話上有限的數(shù)字按鍵,進(jìn)行相應(yīng)的選擇,然后繼續(xù)聽下一段的語音提示。在使用了語音識別技術(shù)后,用戶可以像與服務(wù)員一樣,采用語音的方式,在一句話里面發(fā)出全部指令,避免了連續(xù)按鍵的過程。

  IVR流程跳轉(zhuǎn)困難,F(xiàn)有的IVR流程都是樹形結(jié)構(gòu),從一個分支跳到另外一個分支必須通過根(最上級菜單)進(jìn)行。比如:用戶在進(jìn)入1860移動通信公司的客戶服務(wù)系統(tǒng)后,進(jìn)入“辦理業(yè)務(wù)”選單下面的“開通業(yè)務(wù)”,如果想進(jìn)入查詢手機(jī)的話費(fèi),需要首先退出到最頂層選單,然后進(jìn)入“話費(fèi)查詢”的“查詢本機(jī)話費(fèi)”一項。

  須通過DTMF按鍵操作。特別在雙手都被占用的情況下,嚴(yán)重影響工作效率。


  現(xiàn)有ASR系統(tǒng)存在問題


  ASR技術(shù)被引入后,其優(yōu)勢得到發(fā)揮,同時也在IVR系統(tǒng)中引入了一些問題。

  無法打斷語音提示。在很多IVR系統(tǒng)中,通過DTMF打斷語音提示進(jìn)行操作。引入ASR技術(shù)后,無法通過語音來打斷語音提示,只能在語音提示結(jié)束后才可以進(jìn)行操作。



  圖1 傳統(tǒng)的ASR示意圖

  沒有處理語音插入的能力。語音插入的能力允許用戶在系統(tǒng)播放聲音時仍然對系統(tǒng)具有控制權(quán)。可以想像,當(dāng)用戶對IVR播放的一段漫長的新聞失去興趣的時候,如果無法跳過它,唯一的選擇就是掛機(jī)。一個成熟的IVR系統(tǒng)應(yīng)該賦予用戶在任何時候都可以具有控制流程的權(quán)力。換而言之,在放音時仍然能夠識別語音命令。

  電話線路質(zhì)量差,回聲嚴(yán)重,識別率不高。在針對IVR系統(tǒng)開發(fā)商的一項調(diào)查中,研究機(jī)構(gòu)發(fā)現(xiàn)影響ASR技術(shù)推廣的首要問題在于ASR的識別率。在家用電腦中使用的ASR效果明顯好于CTI中的應(yīng)用,究其原因,與電話線路質(zhì)量和嚴(yán)重的回聲干擾有關(guān)系。

  如果不能充分發(fā)揮語音識別在減少系統(tǒng)延遲、提高效率、降低整體響應(yīng)時間方面的優(yōu)勢,而僅僅將語音輸入作為DTMF按鍵輸入的替代品,那么語音門戶存在的意義將大打折扣。


  D系列支持語音門戶


  D系列PCI語音卡

  DSP是通信設(shè)備的重要基石。它以先進(jìn)的數(shù)字計算方法對信號進(jìn)行處理,具有處理速度快、靈活、抗干擾能力強(qiáng)等優(yōu)點(diǎn),尤其適合進(jìn)行語音處理。

  D系列PCI語音卡是采用DSP數(shù)字信號處理技術(shù)實現(xiàn)對語音、交換、信令進(jìn)行處理的新一代語音板卡,支持環(huán)路中繼、1號信令、7號信令、數(shù)字1號信令(ISDN-PRI)等線路接口,提供會議、TTS、語音壓縮等功能。

  D系列PCI語音卡具有400-1000 MIPS的運(yùn)算能力,為語音識別這樣需要占用大量資源的應(yīng)用提供了廣闊的天地;與傳統(tǒng)的ASR不同的是,D系列PCI語音卡通過語音打斷、回聲消除、內(nèi)存錄音等技術(shù)的應(yīng)用,減輕了ASR的沉重負(fù)擔(dān),為打破ASR應(yīng)用瓶頸發(fā)揮了關(guān)鍵的作用。

  回聲消除技術(shù)處理語音命令

  回聲消除ECR,是基于DSP技術(shù)對語音通道的聲音進(jìn)行的實時控制。其實現(xiàn)方法在于:在電話線路上收到的聲音里,去掉IVR系統(tǒng)播放的聲音,從而保證收到的聲音是純凈的。

  東進(jìn)的ECR算法是與美國某DSP專業(yè)算法研究機(jī)構(gòu)合作,基于G.168國際標(biāo)準(zhǔn),并做了大量算法優(yōu)化工作。

  圖2 達(dá)到商用要求的ASR系統(tǒng)

  語音識別的過程實際是一個話音樣本錄音和聲音比較的過程。當(dāng)錄下來的聲音樣本(收到的聲音)是純凈或者比較純凈的時候,識別率將大大提高。試驗表明,采用回聲消除技術(shù)后,語音識別率得到顯著提高,從原有的70-80%提高到95%以上,滿足了商用要求,如圖2所示。

  采用語音檢測實現(xiàn)語音打斷

  語音打斷(barge-in)可以減輕系統(tǒng)資源占用,提高語音識別系統(tǒng)的利用率,而且減少用戶等待的時間,節(jié)省話費(fèi)開支,為構(gòu)建高精度和高密度的系統(tǒng)創(chuàng)造了條件。

  語音檢測 (VAD-Voice Activity Detection)技術(shù)的應(yīng)用是實現(xiàn)語音打斷的前提。其原理是檢測線路上的聲音能量(Voice Energy Detection),只有在檢測到語音后才啟動錄音和語音識別進(jìn)程。

  圖3 語音門戶系統(tǒng)結(jié)構(gòu)圖

  一個貼近現(xiàn)實應(yīng)用的語音門戶應(yīng)該同時基于D系列PCI語音卡的VAD和ECR技術(shù)。在應(yīng)用了上述技術(shù)后,語音門戶的系統(tǒng)結(jié)構(gòu)圖如圖3 所示。

《中國計算機(jī)報》2001/06/21