首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識(shí)別(ASR)  語音識(shí)別產(chǎn)品


ASR:“說得出做得到”

——語音識(shí)別技術(shù)正在走進(jìn)大眾生活

陳青松

  愛看科幻電影的朋友恐怕都不會(huì)忘記,在影片中常常有以聲控方式來操縱汽車、電腦及一切電器的情節(jié),而現(xiàn)在人們依靠電腦電話整合系統(tǒng)CTI(ComputerTelephoneIntegration)技術(shù)已經(jīng)讓這些科學(xué)幻想走向現(xiàn)實(shí)。例如,當(dāng)你對(duì)著某品牌手機(jī)直呼某人姓名時(shí),就可以自動(dòng)撥通對(duì)方的電話;三菱汽車推出的Galant車款,駕駛員也可透過聲控來操作音響等設(shè)備。

  所謂“電腦電話整合系統(tǒng)”CTI,其實(shí)就是我們熟悉的“電話語音系統(tǒng)”。在通訊日漸發(fā)達(dá)的日常生活中,CTI已到了無所不在的地步。打電話到車站訂票、到醫(yī)院掛號(hào),接聽電話語音廣告,銀行的查帳、國際長途通訊的網(wǎng)絡(luò)電話等等,這些都是CTI領(lǐng)域下的產(chǎn)品。而這些產(chǎn)品,若繼續(xù)延伸到新的發(fā)展趨勢(shì),除了網(wǎng)絡(luò)電話的發(fā)展模式較為獨(dú)立之外,語音辨識(shí)和自動(dòng)話務(wù)系統(tǒng)兩者將會(huì)是未來市場(chǎng)的主流。

  CTI的核心技術(shù)就是電腦語音辨識(shí)系統(tǒng)的應(yīng)用。電腦語音辨識(shí)系統(tǒng)可分為二種:一是個(gè)人使用;二是大眾服務(wù)。個(gè)人使用的語音辨識(shí)系統(tǒng)在技術(shù)上較容易實(shí)現(xiàn),如IBM等公司開發(fā)的語音輸入法已在市場(chǎng)上銷售。這種個(gè)人用的語音辨識(shí)系統(tǒng)具有幾個(gè)特點(diǎn):一是產(chǎn)品使用者單一,二是詞匯簡(jiǎn)易,三是電腦學(xué)習(xí)使用者語音特點(diǎn)的機(jī)會(huì)多。此類產(chǎn)品目前能夠走向市場(chǎng)化,主要是因?yàn)樗麄儾扇〉氖恰捌Z式”辨識(shí),藉由特定詞匯、片語,電腦很容易學(xué)習(xí)和熟悉這些指令;同時(shí),操作者的多半是某個(gè)固定的使用者,只要經(jīng)過多次的練習(xí),電腦可以很快地熟悉這些特定的發(fā)音和語句。

  另一種供大眾使用的語音辨識(shí)系統(tǒng),如:用于大型電腦服務(wù)需求的金融機(jī)構(gòu)、電信公司、航空和鐵路等部門的自動(dòng)話務(wù)系統(tǒng)(CallCenter),其技術(shù)層次較高,目前國內(nèi)這類產(chǎn)品投入商業(yè)應(yīng)用的極少。這主要是由于目前的語音辨識(shí)系統(tǒng)至多只能做到“條件式”的階段(注:“條件式”語音辨識(shí),是指電腦在有限的條件下,才可以執(zhí)行的聲音指令。)

  當(dāng)然要達(dá)到無所不識(shí)的“自然語音辨識(shí)”水平還是一個(gè)長遠(yuǎn)的目標(biāo),預(yù)計(jì)可能還要幾年的時(shí)間才有可能成熟。其中的技術(shù)“瓶頸”關(guān)鍵在于語言的千變?nèi)f化。語言當(dāng)中的聲紋和語意的分析,可說是對(duì)電腦的兩項(xiàng)極大的挑戰(zhàn)。

  在聲紋方面,電腦接收聲音的環(huán)境必須很單純,而在人類語言當(dāng)中,夾雜了太多的同音、相似音和腔調(diào),光是數(shù)字“一”和“七”的發(fā)音就容易混淆;相較于聲紋的掌控,語意分析對(duì)電腦程序設(shè)計(jì)人員更是一大挑戰(zhàn)。一個(gè)人若不是照著規(guī)矩講話,可能會(huì)造成電腦的誤判和混淆,而一句話的意思該怎么表達(dá),不同人往往有不同的習(xí)慣。

  除了上述兩種問題之外,還可能出現(xiàn)速度問題。有些人說話速度快,有些人說話速度慢,而電腦在處理各種南腔北調(diào)時(shí),如何在最短時(shí)間內(nèi)辨識(shí)出其中語意,將會(huì)是非常重要的一環(huán)。

  為了解決語音問題,業(yè)界最普遍的做法,就是針對(duì)某一行業(yè)某個(gè)領(lǐng)域,依賴歸納法,搜集大量的專有詞匯及語法,進(jìn)行分類歸納后,儲(chǔ)存在電腦中用來在以后辨識(shí)中應(yīng)用。目前解決這些技術(shù)難題較成功的有美國Nuance公司,據(jù)稱其語音辨識(shí)系統(tǒng)已達(dá)到了97%的效果,但中文的辨識(shí)能力有多高,目前還在評(píng)估之中,F(xiàn)在許多國際大廠商,如IBM、英特爾和西門子等都在這方面積極開拓,可以相信不久的將來,語音辨識(shí)系統(tǒng)的應(yīng)用將會(huì)更加大眾化,讓人們的生活更加隨“語”所欲。

 



相關(guān)鏈接:
主要語音引擎及開發(fā)工具 2002-01-30
聲揚(yáng)語音識(shí)別系列開發(fā)工具 2002-01-30
IBM ViaVoice語音軟件開發(fā)工具 2002-01-30
語音識(shí)別的應(yīng)用前景 2002-01-30
語音識(shí)別技術(shù)的發(fā)展趨勢(shì) 2002-01-30

分類信息:     技術(shù)_語音識(shí)別_文摘