成人免费美女视频,丰满热舞美女视频,美女视频在线观看直播主播

淺談ASR和TTS技術(shù)在CTI中的應(yīng)用

2004/01/02

什么是ASR、TTS？

　　計算機(jī)技術(shù)總是在朝著功能更強(qiáng)大、使用更方便的方向發(fā)展，用戶的需求永遠(yuǎn)都是技術(shù)前進(jìn)的動力。ASR和TTS的出現(xiàn)，讓人和計算機(jī)的距離更加靠近，人機(jī)接口更加自然。由于技術(shù)（識別率不夠高）和人們習(xí)慣上的原因，ASR離真正的普及還有一段距離。但是，在通信領(lǐng)域，由于CTI的廣泛應(yīng)用，計算機(jī)技術(shù)不斷融入通信平臺，這項技術(shù)正在如火似涂的發(fā)展、普及。VoiceXML就是一個很好的例子，它的應(yīng)用就是以ASR和TTS作為基礎(chǔ)的。

　　ASR，英文的全稱是Automated Speech Recognition，即自動語音識別技術(shù)，它是一種將人的語音轉(zhuǎn)換為文本的技術(shù)。語音識別是一個多學(xué)科交叉的領(lǐng)域，它與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號處理理論、信息論、計算機(jī)科學(xué)等眾多學(xué)科緊密相連。由于語音信號的多樣性和復(fù)雜性，目前的語音識別系統(tǒng)只能在一定的限制條件下獲得滿意的性能，或者說只能應(yīng)用于某些特定的場合。語音識別系統(tǒng)的性能大致取決于以下4類因素：1. 識別詞匯表的大小和語音的復(fù)雜性；2. 語音信號的質(zhì)量；3. 單個說話人還是多說話人；4. 硬件。

　　TTS，英文全稱是TextToSpeech，即文語轉(zhuǎn)換，又稱為計算機(jī)語音合成，它的過程和ASR剛好相反，是把計算機(jī)中任意出現(xiàn)的文字轉(zhuǎn)換成自然流暢的語音輸出。一般認(rèn)為，語音合成系統(tǒng)包括三個主要的組成部分：文本分析模塊、韻律生成模塊和聲學(xué)模塊。目前，TTS的技術(shù)已經(jīng)可以達(dá)到商業(yè)化的地步。

SAPI簡介

　　目前，市場上有很多比較成熟的語音ASR和TTS產(chǎn)品，而且他們大多數(shù)都支持二次開發(fā)，如微軟的Speech Application SDK（SASDK）、IBM的Dutty++等。他們能識別（生成）英語、日語和中文等不同國家的語言，Dutty++甚至能夠識別某些地區(qū)的方言，如廣東的方言－粵語。下面我們以SAPI作為例子，簡單的介紹一下ASR和TTS的開發(fā)引擎。

　　微軟的SAPI是作為Windows的一部分，已經(jīng)被被集成在Windows里面。相對于其他引擎，他的識別率也比較高，如果做過適應(yīng)性調(diào)整，識別率可以達(dá)到90％以上，而且他的開發(fā)包是還可以免費獲取的，各種文檔資源也很齊全，很方便做二次開發(fā)。由于SAPI是作為Windows的一個獨立組件在發(fā)展，版本更新也比較快。

　　最新的SAPI 3.1提供了基于COM的高級編程接口，應(yīng)用程序通過這些接口與語音引擎打交道。SAPI將ASR和TTS功能集成在同一個語音引擎中，TTS可以將文本和文件合成為語音，ASR則是將人的聲音信號轉(zhuǎn)換為可讀的文本或文件。

如何將ASR和TTS功能附加到CTI應(yīng)用中去

　　對于設(shè)備提供商和業(yè)務(wù)提供商，他們采用語音識別和文語轉(zhuǎn)換的方式可能不太一樣。某些比較先進(jìn)的交換平臺，已經(jīng)在交換機(jī)的內(nèi)部實現(xiàn)了ASR和TTS的功能，并作為標(biāo)準(zhǔn)接口的一部分對外提供，業(yè)務(wù)開發(fā)商只需要簡單的調(diào)用他們即可以在業(yè)務(wù)中使用該功能。如杭州邁可行的MPS2000交換系統(tǒng)，他們就集成了ASR和TTS，并將他們作為統(tǒng)一業(yè)務(wù)接口（USI）的一部分對外提供。而對那些應(yīng)用開發(fā)商來說，大部分的時候并沒有這么幸運，他們選擇的交換機(jī)可能大多數(shù)都不會支持ASR和TTS，因此，要想在業(yè)務(wù)中加入這些功能的話，只有自己基于某種引擎進(jìn)行二次開發(fā)。

　　下面，我們針對兩種不同當(dāng)前情況，站在業(yè)務(wù)開發(fā)商的角度，看如何將ASR和TTS功能附加到我們的應(yīng)用中去。

帶語音接口的PBX

　　目前，市場上真正支持ASR功能的開發(fā)式業(yè)務(wù)接口并不多，主要有微軟的TAPI電話應(yīng)用接口和邁可行的USI（統(tǒng)一業(yè)務(wù)接口）。這兩種接口都不是標(biāo)準(zhǔn)的電話業(yè)務(wù)接口，不過，他們的應(yīng)用卻很廣泛。

　　這里還是以MPS2000系統(tǒng)為例，MPS2000是一套面向下一代網(wǎng)絡(luò)的、集成了多種業(yè)務(wù)能力的交換平臺。它具有很強(qiáng)的接入和組網(wǎng)能力，支持V5.2、SS7、ISDN PRI等信令，以及面向IP的H.323、SIP、MeGaCo等媒體控制協(xié)議。同時，它的業(yè)務(wù)資源也非常豐富，有IVR、會議、會議抑制、DTMF、ASR、TTS等資源，能面向各種不同的應(yīng)用。

　　在MPS2000系統(tǒng)中，ASR被抽象為一種簡單的可替代DTMF進(jìn)行語音撥號的資源，用戶提起電話，可以不用按鍵，直接呼叫某人或者說出電話號碼，就可以呼出。TTS則被抽象為一種文本放音的資源，你可以摒棄以往的放音模式（通過路由文件播放），而直接把你想說的文本向用戶放出來

下圖顯示了MPS2000中ASR和TTS的應(yīng)用層次關(guān)系：

不帶語音接口的PBX

　　對于不帶語音接口的PBX，就需要業(yè)務(wù)開發(fā)商自己去選擇合適的平臺，包括媒體采集設(shè)備、語音識別引擎等，并在此基礎(chǔ)上進(jìn)行二次開發(fā)。

下面這副圖描述了這種應(yīng)用的業(yè)務(wù)模型：

　　媒體采集設(shè)備主要用來采集各種語音信號，如對普通的電信網(wǎng)，就是PCM a律信號的采集；而對VOIP應(yīng)用，采集的信號可能有很多種，包括G.711/G.723/G.729等各種語音格式。同時，該設(shè)備還需要具備一定的媒體轉(zhuǎn)換能力，能將各種媒體流轉(zhuǎn)換為ASR能夠識別的語音格式。

語音識別技術(shù)的前景展望

　　隨著電信行業(yè)的競爭日益加劇，網(wǎng)絡(luò)運營商和業(yè)務(wù)開發(fā)商都在尋找不同的業(yè)務(wù)增長點去吸引客戶。ASR和TTS作為一種誘人的新技術(shù)，如果能很好的嵌入到增值業(yè)務(wù)的應(yīng)用中去，必將形成一個很好的應(yīng)用前景。

杭州邁可行公司供稿 CTI論壇編輯

專業(yè)通信調(diào)度系統(tǒng)服務(wù)中石化華東成品油管網(wǎng)工程 2009-05-19

邁可行建設(shè)江西省政府應(yīng)急指揮系統(tǒng) 2009-04-21

邁可行通信建立新的合作伙伴管理體系 2009-03-17

邁可行承建中石油呼和浩特?zé)捰蛷S混合調(diào)度系統(tǒng) 2009-03-06

分類信息: 語音合成TTS_與_語音識別ASR 文摘技術(shù)_語音合成_文摘技術(shù)_語音識別_文摘