首頁>>廠商>>交換機(jī)/ACD系統(tǒng)平臺廠商>>杭州邁可行

淺談ASR和TTS技術(shù)在CTI中的應(yīng)用

2004/01/02

什么是ASR、TTS?

  計算機(jī)技術(shù)總是在朝著功能更強(qiáng)大、使用更方便的方向發(fā)展,用戶的需求永遠(yuǎn)都是技術(shù)前進(jìn)的動力。ASR和TTS的出現(xiàn),讓人和計算機(jī)的距離更加靠近,人機(jī)接口更加自然。由于技術(shù)(識別率不夠高)和人們習(xí)慣上的原因,ASR離真正的普及還有一段距離。但是,在通信領(lǐng)域,由于CTI的廣泛應(yīng)用,計算機(jī)技術(shù)不斷融入通信平臺,這項技術(shù)正在如火似涂的發(fā)展、普及。VoiceXML就是一個很好的例子,它的應(yīng)用就是以ASR和TTS作為基礎(chǔ)的。

  ASR,英文的全稱是Automated Speech Recognition,即自動語音識別技術(shù),它是一種將人的語音轉(zhuǎn)換為文本的技術(shù)。語音識別是一個多學(xué)科交叉的領(lǐng)域,它與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號處理理論、信息論、計算機(jī)科學(xué)等眾多學(xué)科緊密相連。由于語音信號的多樣性和復(fù)雜性,目前的語音識別系統(tǒng)只能在一定的限制條件下獲得滿意的性能,或者說只能應(yīng)用于某些特定的場合。語音識別系統(tǒng)的性能大致取決于以下4類因素:1. 識別詞匯表的大小和語音的復(fù)雜性;2. 語音信號的質(zhì)量;3. 單個說話人還是多說話人;4. 硬件。

  TTS,英文全稱是TextToSpeech,即文語轉(zhuǎn)換,又稱為計算機(jī)語音合成,它的過程和ASR剛好相反,是把計算機(jī)中任意出現(xiàn)的文字轉(zhuǎn)換成自然流暢的語音輸出。一般認(rèn)為,語音合成系統(tǒng)包括三個主要的組成部分:文本分析模塊、韻律生成模塊和聲學(xué)模塊。目前,TTS的技術(shù)已經(jīng)可以達(dá)到商業(yè)化的地步。

SAPI簡介

  目前,市場上有很多比較成熟的語音ASR和TTS產(chǎn)品,而且他們大多數(shù)都支持二次開發(fā),如微軟的Speech Application SDK(SASDK)、IBM的Dutty++等。他們能識別(生成)英語、日語和中文等不同國家的語言,Dutty++甚至能夠識別某些地區(qū)的方言,如廣東的方言-粵語。下面我們以SAPI作為例子,簡單的介紹一下ASR和TTS的開發(fā)引擎。

  微軟的SAPI是作為Windows的一部分,已經(jīng)被被集成在Windows里面。相對于其他引擎,他的識別率也比較高,如果做過適應(yīng)性調(diào)整,識別率可以達(dá)到90%以上,而且他的開發(fā)包是還可以免費獲取的,各種文檔資源也很齊全,很方便做二次開發(fā)。由于SAPI是作為Windows的一個獨立組件在發(fā)展,版本更新也比較快。

  最新的SAPI 3.1提供了基于COM的高級編程接口,應(yīng)用程序通過這些接口與語音引擎打交道。SAPI將ASR和TTS功能集成在同一個語音引擎中,TTS可以將文本和文件合成為語音,ASR則是將人的聲音信號轉(zhuǎn)換為可讀的文本或文件。


如何將ASR和TTS功能附加到CTI應(yīng)用中去

  對于設(shè)備提供商和業(yè)務(wù)提供商,他們采用語音識別和文語轉(zhuǎn)換的方式可能不太一樣。某些比較先進(jìn)的交換平臺,已經(jīng)在交換機(jī)的內(nèi)部實現(xiàn)了ASR和TTS的功能,并作為標(biāo)準(zhǔn)接口的一部分對外提供,業(yè)務(wù)開發(fā)商只需要簡單的調(diào)用他們即可以在業(yè)務(wù)中使用該功能。如杭州邁可行的MPS2000交換系統(tǒng),他們就集成了ASR和TTS,并將他們作為統(tǒng)一業(yè)務(wù)接口(USI)的一部分對外提供。而對那些應(yīng)用開發(fā)商來說,大部分的時候并沒有這么幸運,他們選擇的交換機(jī)可能大多數(shù)都不會支持ASR和TTS,因此,要想在業(yè)務(wù)中加入這些功能的話,只有自己基于某種引擎進(jìn)行二次開發(fā)。

  下面,我們針對兩種不同當(dāng)前情況,站在業(yè)務(wù)開發(fā)商的角度,看如何將ASR和TTS功能附加到我們的應(yīng)用中去。

帶語音接口的PBX

  目前,市場上真正支持ASR功能的開發(fā)式業(yè)務(wù)接口并不多,主要有微軟的TAPI電話應(yīng)用接口和邁可行的USI(統(tǒng)一業(yè)務(wù)接口)。這兩種接口都不是標(biāo)準(zhǔn)的電話業(yè)務(wù)接口,不過,他們的應(yīng)用卻很廣泛。

  這里還是以MPS2000系統(tǒng)為例,MPS2000是一套面向下一代網(wǎng)絡(luò)的、集成了多種業(yè)務(wù)能力的交換平臺。它具有很強(qiáng)的接入和組網(wǎng)能力,支持V5.2、SS7、ISDN PRI等信令,以及面向IP的H.323、SIP、MeGaCo等媒體控制協(xié)議。同時,它的業(yè)務(wù)資源也非常豐富,有IVR、會議、會議抑制、DTMF、ASR、TTS等資源,能面向各種不同的應(yīng)用。

  在MPS2000系統(tǒng)中,ASR被抽象為一種簡單的可替代DTMF進(jìn)行語音撥號的資源,用戶提起電話,可以不用按鍵,直接呼叫某人或者說出電話號碼,就可以呼出。TTS則被抽象為一種文本放音的資源,你可以摒棄以往的放音模式(通過路由文件播放),而直接把你想說的文本向用戶放出來

下圖顯示了MPS2000中ASR和TTS的應(yīng)用層次關(guān)系:


不帶語音接口的PBX

  對于不帶語音接口的PBX,就需要業(yè)務(wù)開發(fā)商自己去選擇合適的平臺,包括媒體采集設(shè)備、語音識別引擎等,并在此基礎(chǔ)上進(jìn)行二次開發(fā)。

下面這副圖描述了這種應(yīng)用的業(yè)務(wù)模型:


  媒體采集設(shè)備主要用來采集各種語音信號,如對普通的電信網(wǎng),就是PCM a律信號的采集;而對VOIP應(yīng)用,采集的信號可能有很多種,包括G.711/G.723/G.729等各種語音格式。同時,該設(shè)備還需要具備一定的媒體轉(zhuǎn)換能力,能將各種媒體流轉(zhuǎn)換為ASR能夠識別的語音格式。

語音識別技術(shù)的前景展望

  隨著電信行業(yè)的競爭日益加劇,網(wǎng)絡(luò)運營商和業(yè)務(wù)開發(fā)商都在尋找不同的業(yè)務(wù)增長點去吸引客戶。ASR和TTS作為一種誘人的新技術(shù),如果能很好的嵌入到增值業(yè)務(wù)的應(yīng)用中去,必將形成一個很好的應(yīng)用前景。

杭州邁可行公司供稿 CTI論壇編輯



相關(guān)鏈接:
下一代網(wǎng)絡(luò)(NGN)的核心組件:軟交換技術(shù) 2009-08-18
專業(yè)通信調(diào)度系統(tǒng)服務(wù)中石化華東成品油管網(wǎng)工程 2009-05-19
邁可行建設(shè)江西省政府應(yīng)急指揮系統(tǒng) 2009-04-21
邁可行通信建立新的合作伙伴管理體系 2009-03-17
邁可行承建中石油呼和浩特?zé)捰蛷S混合調(diào)度系統(tǒng) 2009-03-06

分類信息:  語音合成TTS_與_語音識別ASR     文摘   技術(shù)_語音合成_文摘   技術(shù)_語音識別_文摘