丰满热舞美女视频,肉色丝袜美女视频

用板卡搭建語音門戶

劉建全 2001/06/21

　　語音門戶展現(xiàn)在我們面前的巨大的市場潛力。但是，語音門戶在也對語音技術(shù)提出要求的同時，也對語音板卡提出了更多的需求，要求“語音打斷”功能，要能有效“消除回聲”等。只有這樣，才能用語音板卡成功搭建技術(shù)上成熟的語音門戶。

　　語音門戶的本質(zhì)是應(yīng)用了語音識別技術(shù)的IVR（語音自動應(yīng)答）系統(tǒng)。那么，當(dāng)前存在的問題主要有哪些呢？

　　IVR系統(tǒng)使用不方便

　　在IVR系統(tǒng)中引入ASR技術(shù)的初衷是什么？

　　拋開冠冕堂皇的商業(yè)目的，我們需要承認(rèn)，在IVR系統(tǒng)中引入ASR技術(shù)的初衷在于解治IVR中存在的痼疾。

　　語音選單界面有太多的選項。語音提示+按鍵選擇的方法已經(jīng)無法滿足需求。比如，在航班查詢系統(tǒng)中，如此多的目的城市不可能全部通過語音播報出來。

　　效率低下。通過語音識別技術(shù)提升了接入手段，用戶可以直接用語音進(jìn)行有關(guān)的交互工作，這樣，工作效率大為提高。例如，目前在聽完了大段的語音提示選單后，用戶還要不斷地停下來，按動電話上有限的數(shù)字按鍵，進(jìn)行相應(yīng)的選擇，然后繼續(xù)聽下一段的語音提示。在使用了語音識別技術(shù)后，用戶可以像與服務(wù)員一樣，采用語音的方式，在一句話里面發(fā)出全部指令，避免了連續(xù)按鍵的過程。

　　IVR流程跳轉(zhuǎn)困難�，F(xiàn)有的IVR流程都是樹形結(jié)構(gòu)，從一個分支跳到另外一個分支必須通過根（最上級菜單）進(jìn)行。比如：用戶在進(jìn)入1860移動通信公司的客戶服務(wù)系統(tǒng)后，進(jìn)入“辦理業(yè)務(wù)”選單下面的“開通業(yè)務(wù)”，如果想進(jìn)入查詢手機(jī)的話費(fèi)，需要首先退出到最頂層選單，然后進(jìn)入“話費(fèi)查詢”的“查詢本機(jī)話費(fèi)”一項。

　　須通過DTMF按鍵操作。特別在雙手都被占用的情況下，嚴(yán)重影響工作效率。

　　現(xiàn)有ASR系統(tǒng)存在問題

　　ASR技術(shù)被引入后，其優(yōu)勢得到發(fā)揮，同時也在IVR系統(tǒng)中引入了一些問題。

　　無法打斷語音提示。在很多IVR系統(tǒng)中，通過DTMF打斷語音提示進(jìn)行操作。引入ASR技術(shù)后，無法通過語音來打斷語音提示，只能在語音提示結(jié)束后才可以進(jìn)行操作。

　　圖1 傳統(tǒng)的ASR示意圖

　　沒有處理語音插入的能力。語音插入的能力允許用戶在系統(tǒng)播放聲音時仍然對系統(tǒng)具有控制權(quán)。可以想像，當(dāng)用戶對IVR播放的一段漫長的新聞失去興趣的時候，如果無法跳過它，唯一的選擇就是掛機(jī)。一個成熟的IVR系統(tǒng)應(yīng)該賦予用戶在任何時候都可以具有控制流程的權(quán)力。換而言之，在放音時仍然能夠識別語音命令。

　　電話線路質(zhì)量差，回聲嚴(yán)重，識別率不高。在針對IVR系統(tǒng)開發(fā)商的一項調(diào)查中，研究機(jī)構(gòu)發(fā)現(xiàn)影響ASR技術(shù)推廣的首要問題在于ASR的識別率。在家用電腦中使用的ASR效果明顯好于CTI中的應(yīng)用，究其原因，與電話線路質(zhì)量和嚴(yán)重的回聲干擾有關(guān)系。

　　如果不能充分發(fā)揮語音識別在減少系統(tǒng)延遲、提高效率、降低整體響應(yīng)時間方面的優(yōu)勢，而僅僅將語音輸入作為DTMF按鍵輸入的替代品，那么語音門戶存在的意義將大打折扣。

　　D系列支持語音門戶

　　D系列PCI語音卡

　　DSP是通信設(shè)備的重要基石。它以先進(jìn)的數(shù)字計算方法對信號進(jìn)行處理，具有處理速度快、靈活、抗干擾能力強(qiáng)等優(yōu)點(diǎn)，尤其適合進(jìn)行語音處理。

　　D系列PCI語音卡是采用DSP數(shù)字信號處理技術(shù)實現(xiàn)對語音、交換、信令進(jìn)行處理的新一代語音板卡，支持環(huán)路中繼、1號信令、7號信令、數(shù)字1號信令（ISDN-PRI）等線路接口，提供會議、TTS、語音壓縮等功能。

　　D系列PCI語音卡具有400-1000 MIPS的運(yùn)算能力，為語音識別這樣需要占用大量資源的應(yīng)用提供了廣闊的天地；與傳統(tǒng)的ASR不同的是，D系列PCI語音卡通過語音打斷、回聲消除、內(nèi)存錄音等技術(shù)的應(yīng)用，減輕了ASR的沉重負(fù)擔(dān)，為打破ASR應(yīng)用瓶頸發(fā)揮了關(guān)鍵的作用。

　　回聲消除技術(shù)處理語音命令

　　回聲消除ECR，是基于DSP技術(shù)對語音通道的聲音進(jìn)行的實時控制。其實現(xiàn)方法在于：在電話線路上收到的聲音里，去掉IVR系統(tǒng)播放的聲音，從而保證收到的聲音是純凈的。

　　東進(jìn)的ECR算法是與美國某DSP專業(yè)算法研究機(jī)構(gòu)合作，基于G.168國際標(biāo)準(zhǔn)，并做了大量算法優(yōu)化工作。

　　圖2 達(dá)到商用要求的ASR系統(tǒng)

　　語音識別的過程實際是一個話音樣本錄音和聲音比較的過程。當(dāng)錄下來的聲音樣本（收到的聲音）是純凈或者比較純凈的時候，識別率將大大提高。試驗表明，采用回聲消除技術(shù)后，語音識別率得到顯著提高，從原有的70-80%提高到95%以上，滿足了商用要求，如圖2所示。

　　采用語音檢測實現(xiàn)語音打斷

　　語音打斷（barge-in）可以減輕系統(tǒng)資源占用，提高語音識別系統(tǒng)的利用率，而且減少用戶等待的時間，節(jié)省話費(fèi)開支，為構(gòu)建高精度和高密度的系統(tǒng)創(chuàng)造了條件。

　　語音檢測 (VAD-Voice Activity Detection)技術(shù)的應(yīng)用是實現(xiàn)語音打斷的前提。其原理是檢測線路上的聲音能量（Voice Energy Detection），只有在檢測到語音后才啟動錄音和語音識別進(jìn)程。

　　圖3 語音門戶系統(tǒng)結(jié)構(gòu)圖

　　一個貼近現(xiàn)實應(yīng)用的語音門戶應(yīng)該同時基于D系列PCI語音卡的VAD和ECR技術(shù)。在應(yīng)用了上述技術(shù)后，語音門戶的系統(tǒng)結(jié)構(gòu)圖如圖3 所示。

《中國計算機(jī)報》2001/06/21