語音識別還有幾道坎
高皓 2000/12/07
憑心而論,語音識別是一項復(fù)雜的技術(shù),特別對于漢語語音識別尤其如此。因此,盡管多年前就有眾多公司和研究機構(gòu)開始了語音技術(shù),包括語音識別和語音合成技術(shù)的研究,但直到最近一兩年,在國內(nèi)應(yīng)該說是今年,才開始有規(guī)模的商用。
國外已經(jīng)有了不少較大規(guī)模的語音識別IVR系統(tǒng)或者呼叫中心的應(yīng)用,然而在國內(nèi),雖然有將語音識別和呼叫中心結(jié)合起來的趨勢,但仍沒有多少應(yīng)用。這其中雖然有諸多影響因素,但重要的一點就是漢語語音識別技術(shù)還不夠完善。那么,語音識別技術(shù)要進(jìn)入大規(guī)模商用,還要跨越哪些障礙呢?
■用戶的獨立性
所謂用戶的獨立性,就是語音識別軟件能夠識別有不同嗓音和口音的用戶,而無需通過訓(xùn)練軟件來使其識別一個特殊用戶的聲音。目前的許多語音識別軟件,是基于標(biāo)準(zhǔn)的發(fā)音來進(jìn)行識別的。而實際上,人們說話千差萬別,發(fā)音也各不相同,特別對于有口音的語音來說,更是對語音識別軟件提出了嚴(yán)峻的挑戰(zhàn)。目前的語音識別軟件大部分是通過自學(xué)習(xí)功能,不斷的訓(xùn)練來達(dá)到軟件對于特定用戶語音的識別。
將來,語音識別軟件的一個發(fā)展趨勢就是加強處理性,可以識別在一定范圍內(nèi)的各種發(fā)音。而實際上,現(xiàn)在有許多語音軟件公司在從事這方面的工作,盡量將所有可能的方言發(fā)音收入語音庫。這樣,無需經(jīng)過專門的特殊訓(xùn)練,軟件就能識別用戶的發(fā)音。
■自然的語言能力
許多語音識別系統(tǒng)還具有自然的語言能力,這就是軟件理解講話者的能力。這種能力不僅表現(xiàn)在特定的單詞上,甚至還表現(xiàn)在短語和完整的句子上。自然的語言意味著兩點:第一,它可讓用戶用句子來表達(dá)意思。例如,為表達(dá)checking
account,用戶可使用有更多單詞的自然句子,如I'd like my checking account balance。 第二指用戶可使用包含多義詞的句子。例如,我們可說I
want to transfer $500 dollars from my savings account to my checking
account。這是自然語言的一個主要準(zhǔn)則,用戶可在一個單句中使用多個多義詞。
有少數(shù)復(fù)雜的語音識別系統(tǒng)使用提示性對話。在這里,語音識別系統(tǒng)提示用戶用一個單詞或記號來回答。根據(jù)專門機構(gòu)的調(diào)查,多數(shù)人更喜歡用約定俗成的自然語言,而不喜歡使用提示性對話。人們討厭的是不完善的自然語言,當(dāng)能使用完善的自然語言時,人們當(dāng)然不可抗拒地選擇了它。
■處理插入的能力
新增的插入的能力是語音識別軟件的另一個主要進(jìn)步。插入的能力允許用戶在系統(tǒng)提示時中斷系統(tǒng),但系統(tǒng)依然能知道用戶的請求。
這點對于實際的應(yīng)用來說是有相當(dāng)意義的。因為人們在說話時,總是在自覺不自覺地思考,經(jīng)常會在打斷語言的連續(xù)性,而插入一些補充性的語言。這樣的語言,在語法上來說經(jīng)常不正確的,常規(guī)的語音識別系統(tǒng)會很難處理這些語音。
■軟件身份驗證的能力
語音識別銷售商最近還介紹了軟件身份驗證的能力,即根據(jù)用戶的嗓音和語言特點,來達(dá)到識別用戶的能力。這在實際中是一個非常有價值的特點,如可用于人事管理上。
《賽迪市場專家》 2000/12/07