首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)  語(yǔ)音識(shí)別產(chǎn)品

 

認(rèn)準(zhǔn)語(yǔ)音識(shí)別的“內(nèi)核”

劉學(xué)習(xí) 2002/07/12

    有專家說(shuō),語(yǔ)音識(shí)別用途廣泛,潛力巨大,但要真正實(shí)現(xiàn)人與計(jì)算機(jī)的自然交流卻很難,它不僅需要高深的基礎(chǔ)理論的突破,更需要大量的實(shí)際工作的積累。

    語(yǔ)音交互就要實(shí)現(xiàn)?

    1996年,IBM公司發(fā)布了VoiceType中文語(yǔ)音識(shí)別軟件,首次將其語(yǔ)音識(shí)別產(chǎn)品介紹給中國(guó)用戶;1997年9月,IBM推出了ViaVoice中文連續(xù)語(yǔ)音識(shí)別系統(tǒng),標(biāo)志著中文語(yǔ)音識(shí)別技術(shù)商業(yè)化進(jìn)程開始啟動(dòng)。

    然而,語(yǔ)音識(shí)別技術(shù)并不是一夜之間冒出來(lái)的神話,自從有了計(jì)算機(jī),人們就開始了語(yǔ)音識(shí)別技術(shù)的研究,因此可以說(shuō)語(yǔ)音識(shí)別的歷史和計(jì)算機(jī)一樣長(zhǎng)。特別是在70年代前后,研究的脈絡(luò)日漸清晰,貝爾實(shí)驗(yàn)室和IBM等都先后建立了專門的研究機(jī)構(gòu)。今天這兩家公司在這一領(lǐng)域都已取得了顯著的成果,并且在商業(yè)上應(yīng)用成功,貝爾實(shí)驗(yàn)室主要偏重于電信方面應(yīng)用的語(yǔ)音識(shí)別系統(tǒng),如電話查詢等;而IBM則偏重于商務(wù)應(yīng)用,因而在連續(xù)語(yǔ)音識(shí)別上取得了不小的成功。

    不談商業(yè)方面的應(yīng)用,事實(shí)上,很多公司都提供語(yǔ)音識(shí)別的引擎(Engine),并且都表示能支持微軟的SAPI?匆豢碨API 4.0SUITE就不難發(fā)現(xiàn),微軟在這方面的研究并不遜色,只是很奇怪它居然沒(méi)有將成果商業(yè)化。微軟同時(shí)提供了一系列引擎,如SpeechRecognition(語(yǔ)音識(shí)別)、Command&Control(發(fā)布指令并控制)、PhoneQuery(電話語(yǔ)音識(shí)別)、Texttospeech(文本語(yǔ)音轉(zhuǎn)換)等。

    今天,許多用戶已能享受到語(yǔ)音技術(shù)的優(yōu)勢(shì)了,可以對(duì)計(jì)算機(jī)發(fā)送命令,或者要求計(jì)算機(jī)記錄用戶所說(shuō)的話,以及將文本轉(zhuǎn)換成聲音朗讀出來(lái)。盡管如此,距離真正的人機(jī)自由交流的境界似乎還很遙遠(yuǎn)。現(xiàn)在已有商用系統(tǒng)存在的主要問(wèn)題是:系統(tǒng)魯棒性還有待改進(jìn),如對(duì)于噪聲環(huán)境下或方言的語(yǔ)言識(shí)別率和穩(wěn)健性等都不盡如人意。

    不可否認(rèn),語(yǔ)音識(shí)別技術(shù)還有一段路需要走,要做到真正成功的商業(yè)化,它還需要在很多方面取得突破性進(jìn)展,這實(shí)際上也是其技術(shù)的未來(lái)走向。

    語(yǔ)音識(shí)別難在哪兒?

    計(jì)算機(jī)自動(dòng)語(yǔ)音識(shí)別就是讓計(jì)算機(jī)能聽懂人說(shuō)話。這一問(wèn)題曾經(jīng)被一位知名的美國(guó)教授稱之為是“比登月還難”的科學(xué)難題。其實(shí),人們很早就認(rèn)識(shí)到語(yǔ)音識(shí)別對(duì)于人類生活的重要性。世界上第一臺(tái)計(jì)算機(jī)問(wèn)世之后,馬上就有人想到要讓計(jì)算機(jī)聽懂人說(shuō)話。所以說(shuō),語(yǔ)音識(shí)別的研究歷史與計(jì)算機(jī)的發(fā)展歷史一樣長(zhǎng)。計(jì)算機(jī)的發(fā)展已經(jīng)經(jīng)歷了好幾代,今天已經(jīng)進(jìn)入到了普通家庭。但是,語(yǔ)音識(shí)別方面的產(chǎn)品卻遲遲未能進(jìn)入市場(chǎng)。那么,它難在哪兒呢?

    計(jì)算機(jī)語(yǔ)音識(shí)別是一個(gè)模式識(shí)別匹配的過(guò)程。在這個(gè)過(guò)程中,計(jì)算機(jī)首先要根據(jù)人的語(yǔ)音特點(diǎn)建立語(yǔ)音模型,對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行分析,并抽取所需的特征,在此基礎(chǔ)上建立語(yǔ)音識(shí)別所需的模板。而計(jì)算機(jī)在識(shí)別過(guò)程中要根據(jù)語(yǔ)音識(shí)別的整體模型,將計(jì)算機(jī)中存放的語(yǔ)音模板與輸入的語(yǔ)音信號(hào)的特征進(jìn)行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入的語(yǔ)音匹配的模板。然后,據(jù)此模板的定義,通過(guò)查表就可以給出計(jì)算機(jī)的識(shí)別結(jié)果。顯然,這種最優(yōu)的結(jié)果與特征的選擇、語(yǔ)音模型和語(yǔ)言模型的好壞、模板是否準(zhǔn)確等都有直接的關(guān)系。

    一個(gè)語(yǔ)音識(shí)別系統(tǒng)性能好壞的關(guān)鍵首先是它所采用的語(yǔ)音模型能否真實(shí)地反映話音的物理變化規(guī)律,所用的語(yǔ)言模型能否表達(dá)自然語(yǔ)言所包含的豐富語(yǔ)言學(xué)知識(shí)。然而無(wú)論是語(yǔ)音信號(hào)還是人類的自然語(yǔ)言都是隨機(jī)、多變和不穩(wěn)定的,很難把握。這就是目前語(yǔ)音識(shí)別過(guò)程中的最大難點(diǎn)。

    其次,模板訓(xùn)練的好壞也直接關(guān)系到語(yǔ)音識(shí)別系統(tǒng)識(shí)別率的高低。為了得到一個(gè)好的模板,往往需要有大量的原始語(yǔ)音數(shù)據(jù)來(lái)訓(xùn)練語(yǔ)音模型。因此,在開始進(jìn)行語(yǔ)音識(shí)別研究之前,首先要建立起一個(gè)龐大的語(yǔ)音數(shù)據(jù)庫(kù)和語(yǔ)料數(shù)據(jù)庫(kù)。一個(gè)好的語(yǔ)音數(shù)據(jù)庫(kù)包括足夠數(shù)量、具有不同性別、年齡、口音說(shuō)話人的聲音,并且必須要有代表性,能均衡地反映實(shí)際使用情況。

    有了語(yǔ)音數(shù)據(jù)庫(kù)及語(yǔ)音特征,就可以建立語(yǔ)音模型,并用語(yǔ)音數(shù)據(jù)庫(kù)中的語(yǔ)音來(lái)訓(xùn)練這個(gè)語(yǔ)音模型。訓(xùn)練過(guò)程是指選擇系統(tǒng)的某種最佳狀態(tài)(如對(duì)語(yǔ)音庫(kù)中的所有語(yǔ)音有最好的識(shí)別率),不斷地調(diào)整系統(tǒng)模型(或模板)的參數(shù),使系統(tǒng)模型的性能不斷向這種最佳狀態(tài)逼近的過(guò)程。這是一個(gè)復(fù)雜的過(guò)程,要求計(jì)算機(jī)有強(qiáng)大的計(jì)算能力,并有很強(qiáng)的理論指導(dǎo),才能保證得到良好的訓(xùn)練結(jié)果。

    當(dāng)語(yǔ)音識(shí)別系統(tǒng)對(duì)語(yǔ)音進(jìn)行識(shí)別時(shí),相對(duì)來(lái)說(shuō),其識(shí)別過(guò)程要比訓(xùn)練過(guò)程簡(jiǎn)單,對(duì)計(jì)算機(jī)的運(yùn)算能力要求也很低,并且速度較快。這有利于實(shí)時(shí)地實(shí)現(xiàn)語(yǔ)音識(shí)別系統(tǒng)和進(jìn)行商品化開發(fā)應(yīng)用。

    那么,制約語(yǔ)音識(shí)別技術(shù)發(fā)展的根本是什么呢?接受記者采訪的清華大學(xué)王作英教授認(rèn)為,語(yǔ)音識(shí)別的關(guān)鍵是其依據(jù)的模型和算法,模型算法是計(jì)算機(jī)描述語(yǔ)音的能力能否抓住人的語(yǔ)音的本質(zhì)的關(guān)鍵。在語(yǔ)音識(shí)別領(lǐng)域,固然有資金實(shí)力、人力資源等的競(jìng)爭(zhēng),但最根本是其關(guān)鍵核心技術(shù)——模型和算法的競(jìng)爭(zhēng)。

    DTW逐漸淡出HMM占據(jù)統(tǒng)治地位

    要建立一個(gè)語(yǔ)音識(shí)別系統(tǒng)僅有一個(gè)好的語(yǔ)音特征還不夠,還要有一個(gè)好的語(yǔ)音識(shí)別的模型和算法。在語(yǔ)音識(shí)別系統(tǒng)中通常分為兩個(gè)部分:聲學(xué)層部分主要研究如何充分利用語(yǔ)音信號(hào)中的信息;語(yǔ)音學(xué)層部分主要研究如何充分利用已有語(yǔ)音學(xué)知識(shí)來(lái)提高系統(tǒng)的識(shí)別率。目前,大家關(guān)注的中心是低層中聲學(xué)層部分所涉及的模型和算法。

    目前,在研發(fā)語(yǔ)音識(shí)別系統(tǒng)時(shí)常用的算法有基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和識(shí)別算法、基于動(dòng)態(tài)時(shí)間歸整匹配(DTW)的識(shí)別算法和基于統(tǒng)計(jì)的隱含馬爾可夫模型(HMM)識(shí)別和訓(xùn)練算法。

    基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練識(shí)別算法由于實(shí)現(xiàn)起來(lái)較復(fù)雜,且識(shí)別率并不見得比基于統(tǒng)計(jì)的語(yǔ)音識(shí)別模型好,因此,這種算法目前仍處于實(shí)驗(yàn)室研究階段。

    基于動(dòng)態(tài)時(shí)間歸整匹配的DTW算法從目前來(lái)看,可能是一個(gè)最為小巧的語(yǔ)音識(shí)別的算法。其系統(tǒng)開銷小,識(shí)別速度快,在對(duì)付小詞匯量的語(yǔ)音命令控制系統(tǒng)中是一個(gè)非常有效的算法。但是,如果系統(tǒng)稍微復(fù)雜一些,這種算法就顯得力不從心了。

    基于統(tǒng)計(jì)的HMM算法可能是目前最為成功的一種語(yǔ)音識(shí)別模型和算法了。目前所能見到的各種性能優(yōu)良的連續(xù)語(yǔ)音識(shí)別系統(tǒng)幾乎無(wú)一例外地采用了這種模型。這是因?yàn)檫@種數(shù)學(xué)模型出現(xiàn)的時(shí)間較早,人們對(duì)它的研究也比較深入,已建立起了完整的理論框架。從20世紀(jì)80年代初人們開始用這種模型來(lái)描述語(yǔ)音信號(hào)后,就不斷有人對(duì)它進(jìn)行了各種改良和發(fā)展。這種隱含馬爾可夫模型的算法是將語(yǔ)音看成是一連串特定狀態(tài),這種狀態(tài)是不能被直接觀測(cè)到的(如這種狀態(tài)可以是語(yǔ)音的某個(gè)音素),而是以某種隱含的關(guān)系與語(yǔ)音的觀測(cè)量(或特征)相關(guān)聯(lián)。而這種隱含關(guān)系在HMM模型中通常以概率形式表現(xiàn)出來(lái),模型的輸出結(jié)果也以概率形式給出。這為系統(tǒng)最后給出一個(gè)穩(wěn)健的判決創(chuàng)造了條件。

    如今,各種形式的HMM模型和算法已日趨成熟,以它為基礎(chǔ)已經(jīng)形成了語(yǔ)音識(shí)別的整體框架模型,它統(tǒng)一了語(yǔ)音識(shí)別中聲學(xué)層和語(yǔ)音學(xué)層的算法結(jié)構(gòu),制定了最佳的搜索和匹配算法,以概率的形式將聲學(xué)層中得到的信息和語(yǔ)音學(xué)層中已有的信息完美地結(jié)合在一起。因此,HMM語(yǔ)音識(shí)別模型與算法是迄今為止最為完美的一個(gè)語(yǔ)音識(shí)別模型,從中也可看出好的理論體系對(duì)研究工作所起的重要的指導(dǎo)作用。

    HMM的“內(nèi)傷”

    許多從事語(yǔ)音識(shí)別技術(shù)研究的公司都把HMM當(dāng)做“救命稻草”,對(duì)其展開了大量的研究開發(fā),隨著語(yǔ)音識(shí)別研究工作的深入開展,HMM語(yǔ)音識(shí)別方法愈來(lái)愈受到人們的重視,但與此同時(shí),人們也愈來(lái)愈認(rèn)識(shí)到經(jīng)典HMM語(yǔ)音識(shí)別模型在一些重要方面存在嚴(yán)重的缺陷,這就是:

    任何一個(gè)成功的語(yǔ)音識(shí)別模型,都是基于其參數(shù)具有聚類性這一基礎(chǔ)上的。HMM模型之所以能達(dá)到很高的識(shí)別率,是由于反映其狀態(tài)的特征參數(shù)具有聚類性,從而它必然是對(duì)應(yīng)于語(yǔ)音學(xué)中的語(yǔ)音單位(如音素),聲學(xué)上則必然是對(duì)應(yīng)于某種聲學(xué)單元或發(fā)聲器官的某種結(jié)構(gòu)狀態(tài)。語(yǔ)音學(xué)的研究表明,語(yǔ)音單位(如音素)在詞中的長(zhǎng)度有一個(gè)相對(duì)平穩(wěn)的分布。正是這種狀態(tài)長(zhǎng)度分布的相對(duì)平穩(wěn)性破壞了HMM模型的齊次性結(jié)構(gòu)。

    DDBHMM浮出水面

    王作英教授1988年年底向“863”計(jì)劃提交的“語(yǔ)音識(shí)別的改進(jìn)隱含馬爾可夫模型”,可以說(shuō)是對(duì)語(yǔ)音識(shí)別模型算法的一次重大革新。它指出了傳統(tǒng)的HMM模型在語(yǔ)音識(shí)別應(yīng)用中存在的問(wèn)題,得到了一個(gè)基于段長(zhǎng)分布的非齊次隱含馬爾可夫模型(Duration Distribution Based Hidden Markov Model,DDBHMM)。以此理論為指導(dǎo)所設(shè)計(jì)的語(yǔ)音識(shí)別聽寫機(jī)系統(tǒng)在1994年~1998年的全國(guó)語(yǔ)音識(shí)別系統(tǒng)評(píng)測(cè)中取得三連冠,從而顯示了這一新模型的生命力和在這一研究領(lǐng)域內(nèi)的領(lǐng)先水平。

    HMM模型是在國(guó)際上在語(yǔ)音識(shí)別系統(tǒng)中被廣泛引用的一種模型,但是它有一個(gè)主要的缺點(diǎn),即根據(jù)詞模型推出的狀態(tài)段長(zhǎng)分布是指數(shù)分布,這不符合語(yǔ)音的本質(zhì)屬性。而王作英教授提出的DDBHMM(基于段長(zhǎng)分布的HMM)模型解決了這一缺陷。它是一個(gè)非齊次的HMM語(yǔ)音識(shí)別模型。在此模型中用狀態(tài)的段長(zhǎng)分布函數(shù)替代了齊次HMM中的狀態(tài)轉(zhuǎn)移矩陣,徹底拋棄了“平穩(wěn)的假設(shè)”,而從非平穩(wěn)的角度考慮問(wèn)題,使模型成為一種基于狀態(tài)段長(zhǎng)分布的隱含Markov模型。段長(zhǎng)分布函數(shù)的引入澄清了經(jīng)典HMM語(yǔ)音識(shí)別模型的許多矛盾。

    同時(shí),由于非齊次HMM是一個(gè)有后效過(guò)程,不能用Bellman的動(dòng)態(tài)規(guī)劃求最大似然路徑,也不能用Baum的重新估值算法對(duì)模型參數(shù)進(jìn)行訓(xùn)練。對(duì)于這類有后效的多階段決策問(wèn)題,如果用完全搜索算法求解最佳路徑,其計(jì)算復(fù)雜性太大,甚至在現(xiàn)有硬件水平上無(wú)法實(shí)時(shí)運(yùn)行。因而,必須建立新的非齊次HMM訓(xùn)練算法和識(shí)別算法。DBBHMM比國(guó)際上流行的HMM語(yǔ)音識(shí)別模型有更好的識(shí)別性能和更低的計(jì)算復(fù)雜度(訓(xùn)練算法比流行的Baum算法復(fù)雜度低兩個(gè)數(shù)量級(jí))。由于該模型解除了對(duì)語(yǔ)音信號(hào)狀態(tài)的齊次性和對(duì)語(yǔ)音特征的非相關(guān)性的限制,因此為語(yǔ)音識(shí)別研究的深入發(fā)展提供了一個(gè)和諧的框架。

    有好的模型只是一個(gè)開始,還需要做大量的工作。以前的模型可以借助其他技術(shù)如神經(jīng)網(wǎng)絡(luò)技術(shù)改進(jìn)模型的不足,而DBBHMM模型的出現(xiàn)促進(jìn)了語(yǔ)音識(shí)別模型與算法的競(jìng)爭(zhēng)與發(fā)展。未來(lái),在語(yǔ)音識(shí)別領(lǐng)域,基于HMM和DBBHMM兩種模型的語(yǔ)音識(shí)別系統(tǒng)將齊頭并進(jìn),展開競(jìng)爭(zhēng);贖MM的系統(tǒng)“走得早”,且有大量資金和技術(shù)力量的支持;后發(fā)的DBBHMM系統(tǒng)有理論優(yōu)勢(shì),但需要做的工作卻很多,短期內(nèi)兩種系統(tǒng)將共存。另外會(huì)不會(huì)出現(xiàn)更好的第三種模型算法,現(xiàn)在還不能斷定。

計(jì)算機(jī)世界網(wǎng)



相關(guān)鏈接:
中文信息處理的主流技術(shù)是什么? 2002-07-08
解決語(yǔ)音門戶 2002-06-17
連續(xù)數(shù)字及數(shù)字串識(shí)別技術(shù) 2002-04-04
電話遠(yuǎn)程身份認(rèn)證技術(shù) 2002-04-04
如何選擇語(yǔ)音識(shí)別引擎 2002-03-11

分類信息:     技術(shù)_語(yǔ)音識(shí)別_文摘