1、首先,讓我們看看人體的聲音系統(tǒng)是如何進(jìn)行工作的。人體的空氣通過肺,然后通過導(dǎo)管傳遞到喉嚨。喉嚨本身是一個非常復(fù)雜的系統(tǒng),包括發(fā)音的主要核心部分-聲帶。人體嘴唇,鼻腔,咽喉等通過振蕩等處理流程共同控制了發(fā)音,頻率,男女發(fā)音等不同的語音參數(shù)。
人的語言系統(tǒng)可以轉(zhuǎn)化成一個工程化的處理流程來模擬真正的人體發(fā)音。通過工程轉(zhuǎn)化以后的示例結(jié)果如下。因為性別的不同,男性和女性的音高有所不同,女性的范圍大概在120-500Hz之間,男性則為50-250hz 之間。
2、語音識別需要考慮很多的環(huán)境因素和人自己本身的因素。人們發(fā)音環(huán)境受很多因素的影響:
- 每個人都發(fā)音都是獨(dú)特的,而且每個人都口音也不同。
- 每個人都說話方式也完全不同,在有壓力的狀態(tài)下和無放松環(huán)境中,語音可能完全不同。
- 講話環(huán)境不同可能導(dǎo)致不同的語音信號,增加了語音識別的復(fù)雜程度。
總體來說,語音識別的基本流程概括如下:
- 根據(jù)以上圖例說明,基本的語音識別流程大概幾個主要的處理流程。首先原始的語音通過Feature Extraction 功能提取過程,此過程通過各種環(huán)境變量,把原始語音中有價值的語音數(shù)據(jù)提取出來,過濾掉一些不相關(guān)的數(shù)據(jù),形成一組緊湊,穩(wěn)定的,可識別的數(shù)據(jù),以方便通過數(shù)據(jù)模型來進(jìn)行處理。
- 在模式識別中,此處理流程需要通過語法,語音模型和詞匯處理來對提取出來的語音進(jìn)行加工。在模式識別處理中,識別模型使用了Hidden Markov Models (HMM) 模型來進(jìn)行處理。HMM是一種數(shù)學(xué)結(jié)構(gòu)模型,它分為兩個部分。第一個部分是把語音按序轉(zhuǎn)化成一種有方向性的圖形。第二部分在給定的狀態(tài)下,把所需功能進(jìn)行模式化處理。如果大家需要了解更多具體的HMM細(xì)節(jié),請參考相關(guān)技術(shù)文檔。
3、Endpoint detection(終端檢測)是針對背景噪音進(jìn)行處理。它主要解決的問題是來自背景噪音的連續(xù)信號中部分獨(dú)立的語音進(jìn)行分析處理。比較早的語音識別技術(shù)只能識別各自獨(dú)立的,缺乏對終端檢測的準(zhǔn)確判斷。比較新的語音識別技術(shù)中可以對識別連續(xù)的語音。新語音識別技術(shù)可以通過訓(xùn)練樣本來進(jìn)行獲得準(zhǔn)確的結(jié)果。
在話語識別中,兩個主要的任務(wù)就是speaker verification 和 speaker identification。其中speaker verification 主要的目的就是實(shí)現(xiàn)講話人的驗證,講話人通過密碼輸入,其他相關(guān)編碼來識別器身份。講話者的驗證最終輸出的結(jié)果是接受此驗證或者拒絕此驗證;
而speaker identification 的主要作用是從講話人中間確定某一個的身份。最終的輸出結(jié)果是以模型為基礎(chǔ),從各種講話人中找到最相似的結(jié)果。
Text-to-Speech(TTS)文本語音合成也是MRCP重要的一個技術(shù)概念。其主要目的是通過前后端引擎的處理,把自然文本語言轉(zhuǎn)化成語音流的過程。通過合成處理以后,其結(jié)果必須是正確的,智能的,當(dāng)然也要具有語言的自然性。語音IVR就是一個非常典型的例子。以下圖例是一個語音合成的實(shí)現(xiàn)流程圖:
前端處理主要負(fù)責(zé)用戶輸入的文本文字經(jīng)過解析分析對比,然后形成語句單元,聲音音量等相關(guān)標(biāo)簽。后端處理則根據(jù)前端的輸出結(jié)果存儲,重新排序,存儲,和數(shù)據(jù)庫的語句查詢重新構(gòu)建語音流。后端處理中的Unit Selection是一個比較重要的技術(shù)話題,它涉及了數(shù)據(jù)庫存儲方面的問題和語義單元存儲方式的問題,包括存儲全句還是偏語或者其他的關(guān)鍵詞等。我們這里不再做過多討論。在未來的MRCP合成中會涉及。
4、在本期的分享學(xué)習(xí)中,我們介紹了幾個基本的關(guān)于語音識別的概念和基本的處理流程。因為篇幅的關(guān)系和討論的側(cè)重點(diǎn)不同,這其中沒有涉及很多重要的概念,例如統(tǒng)計模型,語言模型,訓(xùn)練,Mel-cepstrum等話題。我們主要把未來需要的幾個重點(diǎn)概念和處理流程做了簡要介紹,結(jié)合了幾個拓?fù)鋱D來幫助大家進(jìn)一步了解語音識別的技術(shù)核心要素。當(dāng)然,這些內(nèi)容遠(yuǎn)遠(yuǎn)不能涵蓋語音識別的技術(shù)深度,并且難免存在很多問題,用戶需要自己通過語音識別的權(quán)威技術(shù)資料做進(jìn)一步的研究。
關(guān)注微信公眾號:asterisk-cn,獲得有價值的行業(yè)分享
freepbx 技術(shù)論壇:www.ippbx.org.cn
Asterisk, freepbx技術(shù)文檔: www.freepbx.org.cn
歐米(Omni)智能客服解決方案
融合通信商業(yè)解決方案,協(xié)同解決方案首選產(chǎn)品:www.hiastar.com