語音識別將把鼠標(biāo)鍵盤打入冷宮?
四大技術(shù)難點阻礙語音識別技術(shù)平民化
劉喜喜 2008/03/17
當(dāng)“語音識別(ASR)五年內(nèi)將取代鍵盤”被比爾·蓋茨在多個場合再三強調(diào),語音識別勢必成為業(yè)界關(guān)注的焦點。但語音識別何時才能走近消費者?科學(xué)家正在攻克什么難關(guān)?語音識別真會取代鼠標(biāo)和鍵盤嗎?
從孤立詞到大詞匯量連續(xù)語音的識別(LVCSR),再到語音庫檢索,語音識別技術(shù)一直在向前發(fā)展,只是語音識別似乎離我們還有些遙遠!敖窈5年內(nèi),互聯(lián)網(wǎng)搜索將更多地通過語音來完成。”2月23日,比爾·蓋茨在美國卡內(nèi)基-梅隆大學(xué)發(fā)表演講說道, 這已數(shù)不清是他第幾次在公開場合提及語音識別了。
語音識別將會取代鼠標(biāo)和鍵盤嗎?面對記者拋出的問題,幾乎所有被訪問者都有一個共識:語音識別將會給用戶提供多一種的輸入方式,但現(xiàn)階段不可能完全替代鼠標(biāo)和鍵盤。不過談及語音識別進展為何比較慢時,各路專家卻是見仁見智:標(biāo)準(zhǔn)的差別、噪聲的困擾、嵌入式芯片計算量的脫節(jié)、產(chǎn)品化的難題一一被擺到臺面上來。
標(biāo)準(zhǔn)輸入的難題
不要小看鼠標(biāo)和鍵盤,雖貌似技術(shù)含量低,但它所具備的統(tǒng)一的輸入標(biāo)準(zhǔn)和精準(zhǔn)的視覺反饋這兩點,正是語音識別技術(shù)目前的短板。
當(dāng)南方人把“牛奶”念成“留來”的時候,究竟是機器識別錯了,還是人錯了?微軟中國研發(fā)集團下屬微軟亞洲研究院語音識別組組長宋言哥平提出這樣一個問題。不要小看這個問題,語言輸入不標(biāo)準(zhǔn)從而導(dǎo)致識別錯誤率高過鍵盤,是語音識別無法取代鼠標(biāo)鍵盤的首要原因。
事實上,不僅是南北口音差異,每個人都有獨有的發(fā)音習(xí)慣。因此在Vista中,每個用戶在用語音控制電腦前,都需要以自己的語音,對電腦進行適應(yīng)訓(xùn)練,使其習(xí)慣自己的發(fā)音,識別出正確的指令。在2006年的一次公開示范中,Vista語音識別系統(tǒng)認“Mom”為“Aunt”,并100%誤讀了演示員工的意思,使業(yè)界嘩然。對這個“認母為姨”的錯誤,宋言哥平做出這樣的解釋:“演示組里每個員工都有自己的適應(yīng)模型,正是演示人員張三慌忙中誤使用了李四的身份和模型,才導(dǎo)致了這樣的錯誤!边@從一個側(cè)面也可以反映出語音輸入不易規(guī)范的弊病。
除去口音參差不齊,安徽科大訊飛研究院副院長胡郁認為,輸入設(shè)備沒有統(tǒng)一標(biāo)準(zhǔn)也導(dǎo)致了語音輸入的不標(biāo)準(zhǔn):“在語音識別狀態(tài)下,麥克風(fēng)錄音不是給人聽,而是給機器聽。而現(xiàn)在很多嵌入式設(shè)備上的麥克風(fēng)的錄音質(zhì)量是以人可以聽懂為依據(jù)的。但在什么標(biāo)準(zhǔn)范圍內(nèi),機器才能聽清聽懂,目前還沒有統(tǒng)一標(biāo)準(zhǔn)!贝送,面對“取C盤的某個文件”這樣一個指令,鼠標(biāo)需要層層點擊,但語音識別只需要一句話,當(dāng)然方便。但當(dāng)遇到“點擊這張圖片上的某一點”這樣的命令時呢?電腦將很難聽懂和判斷這句話的精準(zhǔn)目的,而鼠標(biāo)卻可輕易辦到。
噪聲的困擾
語音輸入很難規(guī)范,從某種程度上說是人為因素造成的,但噪聲卻是一種不可抗力。宋言哥平與胡郁均表示,噪聲環(huán)境的處理是目前語音識別領(lǐng)域公認的技術(shù)難題!斑@很好理解,機器無法像人那樣分辨出人聲和噪聲!彼窝愿缙浇忉尩,“同時,不同場景有不同噪聲,訓(xùn)練的情況也不能匹配真實環(huán)境,這使語音識別在噪聲中比在安靜的環(huán)境下難得多!
目前,主流的技術(shù)思考方向是,研究出盡可能好的算法,使誤差降到最低:在前端,在已混入噪聲的語音中,提取一個抗噪性高的語音特征;在語音訓(xùn)練的時候,利用“最小識別錯誤訓(xùn)練方法”,結(jié)合噪聲處理算法訓(xùn)練出一個語音模型,使識別系統(tǒng)在噪聲環(huán)境里的魯棒性比較高;在語音解碼的過程中進行多重選擇,憑借放入解碼機制的信息,判斷第一順位的答案是否正確,如不正確可以看看第二、三順位的方法。這些方法都可為提高語音識別在噪聲環(huán)境中使用的精準(zhǔn)性而服務(wù)。
完全消除噪聲的干擾從理論上說是可能的——只要算法足夠復(fù)雜和龐大。但是運算量的龐大勢必造成兩個問題:芯片存儲量有限和“萬靈模板”問題。
要不要等待芯片
之前,有科學(xué)家提出“2010年將是語音識別市場爆發(fā)之年”。其實,這是建立在算法成熟的基礎(chǔ)上來預(yù)測的。北京拓源信息咨詢有限公司的總經(jīng)理鄭院生一直關(guān)注語音識別以及其他人工智能技術(shù)的應(yīng)用問題,他認為:“從算法和計算過程的角度看,語音識別其實是一個人工智能的問題,如果芯片的運算速度足夠快,很多語音識別的技術(shù)難題就可以迎刃而解。”
但在現(xiàn)實中,語音識別在產(chǎn)品轉(zhuǎn)換中遇到了問題,大多運用語音識別技術(shù)的設(shè)備都是嵌入式設(shè)備,比如手機、導(dǎo)航儀、學(xué)習(xí)機等!靶酒\算量、存儲量和消費比的問題沒有得到解決。假使嵌入式芯片能像臺式機的芯片一樣厲害(目前只和1997年的臺式機一樣),那就解決大問題了!焙舾嬖V記者,“手機用戶目前只能語音查號碼,這是因為手機芯片不夠強大。汽車電腦也達不到臺式機的水平!
“摩爾定律仍舊有效,芯片基礎(chǔ)架構(gòu)和運算能力的代際演進,將為語音識別技術(shù)的不斷成熟提供越來越可靠的物理平臺!编嵲荷鷮φZ音識別的未來保持很大的樂觀!白鳛榧夹g(shù)研究者,我們要么就是提前研究,要么就是坐等芯片運算量上來了再研究!彼窝愿缙秸J為,技術(shù)一定是跑在市場前頭的。
“松緊帶”怪圈
科學(xué)家大多是完美主義者,都想設(shè)計一個像松緊帶一樣的萬靈模板的通用產(chǎn)品,粗腰細腰都能穿!暗聦嵣希凑照f話人量身打造的東西才是最好的,可這樣做工本又太高了。”宋言哥平認為,做好語音識別通用產(chǎn)品,針對不同場景做細微調(diào)整之間的權(quán)衡很重要。
此前IBM推出的Via Voice憑借當(dāng)時堪稱完美的技術(shù)轟動一時,但用戶卻并不買賬,很多軟件被束之高閣!拔艺J為包括Vista在內(nèi)的語音識別產(chǎn)品,在人機界面的人性化設(shè)計上仍不夠完美自然,這大大降低了用戶的接受度!彼窝愿缙奖硎。好的人機界面可在用戶說錯而渾然不知時,使計算機不被干擾,識別如常。
胡郁則認為,目標(biāo)定位不正確(直接采用口述的方式輸入需要不斷思考文本內(nèi)容)是Via voice叫好不叫座的主要原因。而從國內(nèi)外成功的語音識別產(chǎn)品來看,符合用戶需求確實非常重要。在國內(nèi),語音點歌(有些運營商稱之為聲動炫鈴)十分受歡迎,其實就是孤立詞搜索的一種應(yīng)用。微軟去年年初的時候,用8億美元收購了一家做電話語音尋址的公司TellMe,從一定程度上說明微軟認為語音識別技術(shù)在PC操作之外更有發(fā)展前景,比如在手機、client-server 的呼叫中心、電話、汽車、智能家電上。
此外,人機交互界面只是語音識別的一個用途,另一個用途則是多媒體的業(yè)務(wù)管理。比如blinkx網(wǎng)站,它把每段視頻中對應(yīng)的語音部分都靠語音識別技術(shù)轉(zhuǎn)換成文字(雖然不一定完全正確),這樣就可以通過輸入文字來協(xié)助搜索視頻內(nèi)容。美國最大的語音技術(shù)提供廠商Nuance就擁有一個賺錢的成功業(yè)務(wù)——幫助美國醫(yī)生寫醫(yī)囑。這完全依靠大詞匯量連續(xù)語音識別技術(shù)(LVCSR)來識別醫(yī)生的口頭醫(yī)囑。
如此看來,只要找到一個好的切入點,國內(nèi)企業(yè)也可以做得很好。胡郁甚至隨即開始構(gòu)想如何為記者圈服務(wù)了:采訪累計下來的歷史錄音,可以借鑒前面Nuance公司的想法轉(zhuǎn)寫出來,從而幫助記者更有效地整理和利用錄音數(shù)據(jù),而這只需要很少的費用。
我想,當(dāng)很多人愿意為此掏腰包時,語音識別離平民的世界也將不再遙遠。
計算機世界網(wǎng)(www.ccw.com.cn)
相關(guān)鏈接: