首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音合成(TTS)  語(yǔ)音合成產(chǎn)品

 

語(yǔ)音為CTI注新活力

段云峰、盛志健


  語(yǔ)音應(yīng)用(VAP)技術(shù)指基于語(yǔ)音進(jìn)行處理的技術(shù),包括語(yǔ)音識(shí)別技術(shù)和語(yǔ)音合成技術(shù)等。語(yǔ)音應(yīng)用技術(shù)(以下簡(jiǎn)稱(chēng)VAP技術(shù))反映了對(duì)語(yǔ)音信號(hào)進(jìn)行處理的能力,其發(fā)展的程度,將影響計(jì)算機(jī)通過(guò)語(yǔ)音與人類(lèi)進(jìn)行交互的能力,并將影響計(jì)算機(jī)應(yīng)用的領(lǐng)域。

  下面將就VAP技術(shù)與CTI技術(shù)的結(jié)合進(jìn)行有關(guān)的介紹。


  四大變化


  我們知道,目前世界范圍內(nèi)最大的通信網(wǎng)絡(luò)仍然是電話網(wǎng)絡(luò)。不管將來(lái)數(shù)據(jù)網(wǎng)絡(luò)技術(shù)如何發(fā)展,人與人之間最方便的交流方式還是語(yǔ)音交流。畢竟對(duì)于很多人來(lái)說(shuō),熟練地操作鍵盤(pán)并不是容易的事情。

  對(duì)于CTI技術(shù)也是一樣。CTI技術(shù)的優(yōu)勢(shì),在于將傳統(tǒng)的電話語(yǔ)音網(wǎng)絡(luò)發(fā)展成為用戶獲得各種信息的接入手段,而通過(guò)VAP技術(shù)可以極大地加強(qiáng)這種接入手段的能力。例如,通過(guò)VAP技術(shù),用戶可以在旅行的過(guò)程中,通過(guò)電話“聽(tīng)”取自己電子郵件的內(nèi)容,并通過(guò)語(yǔ)音留言回復(fù)有關(guān)的郵件,而不必?cái)y帶笨重的計(jì)算機(jī)。

  CTI技術(shù)的核心是有個(gè)龐大的信息庫(kù),通過(guò)CTI技術(shù)完成與用戶的交互功能。而采用了VAP技術(shù)后,用戶就可以通過(guò)語(yǔ)音,直接對(duì)這個(gè)信息庫(kù)進(jìn)行24小時(shí)的訪問(wèn),并十分容易地獲得各種個(gè)性化服務(wù),這無(wú)疑將會(huì)對(duì)CTI技術(shù)產(chǎn)生革命性的影響。

  1.接入手段的提升

  通過(guò)VAP技術(shù),我們可以直接用語(yǔ)音進(jìn)行有關(guān)的交互工作。其優(yōu)勢(shì)表現(xiàn)在如下幾個(gè)方面。

  第一,效率提高了。例如,目前在聽(tīng)完了大段的語(yǔ)音提示選單后,我們還要不斷地停下來(lái),按動(dòng)電話上有限的數(shù)字按鍵,進(jìn)行相應(yīng)的選擇,然后繼續(xù)聽(tīng)下一段的語(yǔ)音提示。

  在使用了VAP技術(shù)后,我們可以像與服務(wù)員一樣,采用語(yǔ)音的方式,連續(xù)地聽(tīng)語(yǔ)音選單,并直接通過(guò)語(yǔ)音“說(shuō)”出相關(guān)的選擇,避免了連續(xù)按鍵的過(guò)程。

  第二,交互的界面更加豐富了。我們知道,傳統(tǒng)的電話僅能通過(guò)DTMF信號(hào),傳送有限的幾個(gè)數(shù)字及符號(hào)按鍵,這使得與用戶的交互界面常常受到限制,而VAP技術(shù)則采用了語(yǔ)音識(shí)別的方式,其交互的界面幾乎不受限制,極大地?cái)U(kuò)展了交互的能力。

  第三,信息終端的小型化。在目前,信息終端普遍是計(jì)算機(jī),體積大而不便攜帶。采用VAP技術(shù)以后,電話將成為有效的信息終端。用戶在馬路邊的公共電話亭,就可以方便地獲得信息,將產(chǎn)生出許多嶄新的應(yīng)用。

  2.開(kāi)辟語(yǔ)音服務(wù)的廣闊市場(chǎng)

  將VAP技術(shù)與CTI技術(shù)相結(jié)合,將產(chǎn)生許多新的業(yè)務(wù)應(yīng)用。這些應(yīng)用不僅可以強(qiáng)化CTI傳統(tǒng)的一些應(yīng)用,如語(yǔ)音自動(dòng)應(yīng)答業(yè)務(wù)等,而且能夠發(fā)展出許多嶄新的業(yè)務(wù)應(yīng)用,既豐富了為用戶服務(wù)的形式,也給運(yùn)營(yíng)商帶來(lái)巨大的利潤(rùn)。具體的例子詳見(jiàn)本文下面的應(yīng)用舉例。

  3.與移動(dòng)通信技術(shù)的結(jié)合,促進(jìn)個(gè)人化信息終端的發(fā)展

  目前的移動(dòng)通信技術(shù),可以使用戶在語(yǔ)音通信方面具有移動(dòng)性。與VAP技術(shù)結(jié)合后,用戶可以方便地在移動(dòng)中,通過(guò)語(yǔ)音獲得各種信息。

  這可以在某種程度上,分擔(dān)WAP技術(shù)中顯示屏幕過(guò)小所帶來(lái)的信息訪問(wèn)的不便。例如,可以通過(guò)WAP進(jìn)行有關(guān)文字方面的檢索,然后將大段的信息通過(guò)語(yǔ)音拼讀以語(yǔ)音的形式通知用戶。

  4.促進(jìn)自動(dòng)信息服務(wù)的發(fā)展

  在傳統(tǒng)的IVR系統(tǒng)中,只能事先錄好各種提示音,既占用了大量的存儲(chǔ)資源,又很難靈活應(yīng)對(duì)用戶的交互需求。采用VAP技術(shù)以后,事先可以不用錄制提示音,信息仍以數(shù)字化方式存在,通過(guò)語(yǔ)音合成技術(shù)將信息“讀”給用戶聽(tīng)。這樣,IVR還可以擔(dān)負(fù)有關(guān)的信息檢索的功能。例如,通過(guò)有關(guān)的搜索引擎,可以直接在互聯(lián)網(wǎng)上檢索信息,并將結(jié)果“讀”給用戶。

  由于這種技術(shù)是24小時(shí)不間斷的,而且服務(wù)的內(nèi)容完全可以依據(jù)海量的信息庫(kù)自動(dòng)進(jìn)行,因此將完全改變現(xiàn)有IVR系統(tǒng)的形式和內(nèi)容。


  四大新應(yīng)用


  下面列舉一些VAP技術(shù)與CTI技術(shù)結(jié)合后的應(yīng)用例子。

  1. 電子郵件語(yǔ)音識(shí)別

  采用VAP技術(shù)后,用戶可以直接通過(guò)撥打一個(gè)電話,而“聽(tīng)”自己的新郵件內(nèi)容,并通過(guò)電話直接進(jìn)行語(yǔ)音回復(fù)。在撥通號(hào)碼的時(shí)候,系統(tǒng)首先進(jìn)行有關(guān)的用戶身份鑒別,然后檢查郵箱。如果有新的電子郵件到達(dá),將通過(guò)語(yǔ)音合成技術(shù),將郵件的題目和發(fā)信人直接“讀”給用戶聽(tīng),然后通過(guò)語(yǔ)音識(shí)別技術(shù)判斷用戶的選擇,如果用戶想知道郵件的內(nèi)容,則繼續(xù)通過(guò)語(yǔ)音合成技術(shù),將郵件的內(nèi)容讀給用戶聽(tīng)。當(dāng)用戶需要進(jìn)行立刻回復(fù)時(shí),系統(tǒng)將自動(dòng)錄取用戶的回復(fù)內(nèi)容,并將該錄音文件通過(guò)電子郵件系統(tǒng)回復(fù)給發(fā)信人。

  如果用戶想發(fā)新的郵件,可以通過(guò)語(yǔ)音識(shí)別技術(shù),告訴系統(tǒng)收信人地址,然后將該郵件直接發(fā)給收信人。如果“語(yǔ)音”郵件不方便閱讀,則可以通過(guò)語(yǔ)音識(shí)別技術(shù)將用戶的語(yǔ)音信息轉(zhuǎn)成文字信息,然后傳給有關(guān)的閱信人。

  2. 虛擬主持人

  通過(guò)語(yǔ)音合成技術(shù),目前已經(jīng)出現(xiàn)了虛擬主持人主持的新聞節(jié)目。用戶在互聯(lián)網(wǎng)上有關(guān)站點(diǎn)檢索到自己感興趣的內(nèi)容后,屏幕上將顯示一個(gè)虛擬的主持人形象(一般是通過(guò)動(dòng)畫(huà)技術(shù)來(lái)顯示),這位主持人將根據(jù)信息的內(nèi)容,自動(dòng)地通過(guò)語(yǔ)音合成技術(shù)將這些信息播放給用戶,同時(shí)嘴唇做相應(yīng)的動(dòng)作,就像新聞播音員直接進(jìn)行報(bào)道一樣。這種虛擬主持人技術(shù),可以提供24小時(shí)的全天候報(bào)道,報(bào)道的內(nèi)容根據(jù)用戶選擇的內(nèi)容決定。

  這種虛擬的主持人技術(shù),可以應(yīng)用到新聞、娛樂(lè)等不同的領(lǐng)域,如果與電視應(yīng)用結(jié)合,還會(huì)產(chǎn)生出更多的應(yīng)用內(nèi)容。

  3. 聲紋密碼識(shí)別

  目前,我們的身份識(shí)別可以采用指紋、照片等方式進(jìn)行。另一方面,每個(gè)人的聲音也包含了其自身的特點(diǎn),如果將其作為身份鑒別的一種依據(jù),就要考慮聲紋密碼識(shí)別技術(shù)。

  能夠通過(guò)聲紋識(shí)別技術(shù),可以完全確定一個(gè)人的身份,就可以極大地加強(qiáng)在語(yǔ)音方面的應(yīng)用領(lǐng)域。例如,在現(xiàn)有的電話系統(tǒng)中,如果沒(méi)有專(zhuān)用的端加密設(shè)備,通過(guò)DTMF信號(hào)輸入身份密碼,很容易就可能被別人竊取。而如果是通過(guò)聲紋鑒別技術(shù),可十分安全地保證系統(tǒng)的可靠性,同時(shí)別人無(wú)法模仿,即使竊取了也沒(méi)有用處。這樣,將來(lái)就可以很容易地進(jìn)行有關(guān)的電話銀行業(yè)務(wù)的處理。通過(guò)電話,用戶就可以進(jìn)行各種銀行業(yè)務(wù),遠(yuǎn)遠(yuǎn)超出今天電話銀行所能夠提供的業(yè)務(wù)內(nèi)容。

  另一方面,在CTI應(yīng)用中,傳統(tǒng)的“Screen Pop”功能,僅能夠通過(guò)用戶的主叫號(hào)碼進(jìn)行用戶身份的自動(dòng)識(shí)別,而電話號(hào)碼并不能唯一地確定用戶的身份。通過(guò)聲紋識(shí)別技術(shù),可以唯一地確定用戶的身份,因此能更加快捷地為用戶提供“個(gè)性化”服務(wù)。

  同時(shí),在電話訂購(gòu)商品方面,也將有極大的推動(dòng)作用。廠家可以根據(jù)有關(guān)的聲紋識(shí)別技術(shù),判斷這些信息的可信度如何,并據(jù)此決定是否送貨等,由此可以大大地提高電話訂購(gòu)商品的效率,推動(dòng)“電話商務(wù)”的發(fā)展。

  4. 語(yǔ)音瀏覽互聯(lián)網(wǎng)

  目前,互聯(lián)網(wǎng)是世界上最大的信息庫(kù),而通過(guò)計(jì)算機(jī)進(jìn)行信息檢索,對(duì)移動(dòng)用戶等十分地不便。如果通過(guò)電話網(wǎng)絡(luò),就可以在互聯(lián)網(wǎng)上進(jìn)行信息檢索,無(wú)疑具有十分誘人的前景。通過(guò)語(yǔ)音合成技術(shù),可以將檢索到的信息以簡(jiǎn)單的形式播放給用戶聽(tīng),然后用戶可選擇是否聽(tīng)詳細(xì)的內(nèi)容。

  以上僅列舉了一些應(yīng)用的內(nèi)容。因?yàn)镃TI技術(shù)代表的是與電話網(wǎng)絡(luò)的接口,而VAP技術(shù)則代表了通過(guò)語(yǔ)音技術(shù)進(jìn)行信息處理的能力。因此,兩者的結(jié)合,能夠產(chǎn)生出更多的、目前無(wú)法預(yù)料的業(yè)務(wù)應(yīng)用。


  影響力還會(huì)更深


  目前的VAP技術(shù),還存在許多的技術(shù)難點(diǎn)。英語(yǔ)方面研究較多,也比較成熟,有些方面已經(jīng)可以進(jìn)行商用。但在漢語(yǔ)方面,還有很多的工作要做。另一方面,由于VAP技術(shù)還比較新,因此在CTI產(chǎn)業(yè)中還沒(méi)有形成影響力,缺乏一支相應(yīng)的產(chǎn)業(yè)化隊(duì)伍進(jìn)行推動(dòng)。

  為此,應(yīng)加大在兩者相互結(jié)合方面的研究工作。同時(shí),結(jié)合一些已經(jīng)可以商用的VAP技術(shù),尋找可以商用的應(yīng)用業(yè)務(wù),為用戶帶來(lái)真正的實(shí)惠。

  在VAP技術(shù)與CTI技術(shù)結(jié)合方面,還要做大量的宣傳工作,吸引兩方面企業(yè)聯(lián)合,共同開(kāi)拓有關(guān)的市場(chǎng)。

賽迪網(wǎng)》2000/09/28


分類(lèi)信息:  語(yǔ)音合成TTS_與_語(yǔ)音識(shí)別ASR     文摘   cti文摘   呼叫中心文摘   技術(shù)_語(yǔ)音合成_文摘
           技術(shù)_語(yǔ)音識(shí)別_文摘