據悉,CHiME比賽重點解決的是真實、復雜場景下的語音識別,因此是語音識別領域最高難度的比賽之一。參賽的各個語音系統(tǒng)需要克服高噪聲、混響等干擾,在咖啡廳、公交車、街道等日常生活場景中,準確地識別和處理英文語音。
團隊負責人、科大訊飛研究院副院長劉聰介紹說,科大訊飛語音系統(tǒng)在六麥克風、雙麥克風和單麥克風場景這三個項目中表現(xiàn)優(yōu)異,并大幅刷新了各項目的紀錄。比如,在六麥克風場景下,系統(tǒng)的詞錯誤率降至2.24%,相比歷史成績,錯誤率下降了逾六成。
參賽系統(tǒng)凝聚了科大訊飛研究院、中國科學技術大學杜俊教授團隊、西北工業(yè)大學陳景東教授、佐治亞理工學院李錦輝教授等國內外知名專家的合作成果。大賽組委會認為,在復雜場景語音識別任務上,“該系統(tǒng)已經給出了接近完美的解決方案”。
劉聰認為,更具抗噪性、實用性的語音識別技術,對于促進中國制造業(yè)的轉型升級,價值巨大。“這意味著,我們可以把語音識別拓展到更多生活場景中去,而不受限于室內、會場或語音通話等安靜環(huán)境,從而真正讓語音取代電子屏幕,成為‘萬物互聯(lián)’的入口。”
在剛剛發(fā)布的蘋果iPhone7上,其人工智能“大腦”以及智能家居平臺“HomeKit”引發(fā)業(yè)界關注。今年6月,蘋果宣布向第三方開發(fā)者開放語音接口,被視為向人工智能語音路徑邁進的又一步。谷歌、微軟、Nuance等科技企業(yè)也在智能語音領域動作頻頻。
語音作為最自然的人機交互方式,隨著人工智能的發(fā)展,將在未來發(fā)揮巨大的作用。中國的智能語音技術應如何應對全球競爭?
劉聰認為,不管中文還是英文,在語音技術上是相通的。“在一個英語語音識別系統(tǒng)的高難度比賽中奪冠,說明我們在核心算法上是領先的。”但他也指出,拋開技術,在業(yè)務和產品層面,微軟、谷歌、蘋果等“巨頭”擁有各自不同的數(shù)據優(yōu)勢,可能會產生更好的用戶體驗。這是中國智能語音產業(yè)亟待補齊的短板。
CHiME比賽始于2011年,今年由谷歌公司承辦。它由法國計算機科學與自動化研究所、英國謝菲爾德大學、美國三菱電子研究實驗室等知名研究機構所發(fā)起,旨在使學術界和工業(yè)界提出全新的語音識別解決方案,以進一步提升語音識別的實用性和普適性。