據(jù)國外媒體報道稱,谷歌高級研究員杰夫-迪恩(JeffDean)當(dāng)?shù)貢r間周三在于加州圣克拉拉召開的人工智能前沿峰會(AI Frontiers Conference)上表示,谷歌自2012年以來已經(jīng)將語音識別的錯誤率降低了30%以上,這對于如今AI當(dāng)?shù)赖目萍碱I(lǐng)域來說可謂意義非凡。
在這兒,迪恩所說的語音識別錯誤率是指“谷歌將一個詞語從語音轉(zhuǎn)錄成為文字時的錯誤率”。迪恩表示,谷歌自2012年以來已經(jīng)成功將這一錯誤率降低了30%以上。與此同時,一名谷歌發(fā)言人也同科技媒體VentureBeat證實了這一數(shù)據(jù)的準(zhǔn)確性。
迪恩表示,這一語音識別錯誤率的下降得益于神經(jīng)網(wǎng)絡(luò)的應(yīng)用。目前,包括谷歌和其他企業(yè)均在深度學(xué)習(xí)中使用了這一神經(jīng)網(wǎng)絡(luò)技術(shù),研究人員通過使用大量數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。比如通過大量的語音片段練習(xí),然后讓他們基于已經(jīng)獲悉的內(nèi)容對新數(shù)據(jù)作出推斷。
消息稱,谷歌最早在2012年,也就是Android“果凍豆”系統(tǒng)發(fā)布的時候首次將神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于語音識別領(lǐng)域。具體來說就是,當(dāng)用戶向Android“果凍豆”系統(tǒng)的語音識別軟件說話時,聲音頻譜會被分解并發(fā)送到谷歌全球服務(wù)器“大軍”中的八臺電腦,隨后由負責(zé)開發(fā)這個項目的谷歌研究科學(xué)家文森特-凡毫克(VincentVanhoucke)及其團隊開發(fā)的“神經(jīng)網(wǎng)絡(luò)”模型進行處理。
凡毫克在當(dāng)時就表示,與此前版本的Android系統(tǒng)相比,“果凍豆”語音識別系統(tǒng)的誤差率要低25%左右,而這能讓用戶更加愿意使用語音命令。
在此之后,盡管這一技術(shù)的發(fā)展影響著越來越多的谷歌產(chǎn)品,但該公司卻鮮有公開討論自己在語音識別技術(shù)上取得的進展。2015年,谷歌CEO桑德加-皮查伊(SundarPichai)曾表示“谷歌語音識別的錯誤率約為8%”。
蘋果Siri團隊資深總監(jiān)、前微軟語音識別項目高管亞歷克斯-阿賽洛(Alex Acero)在去年8月接受Backchannel主編史蒂芬-列維(StevenLevy)采訪時透露,Siri在所有語言中的錯誤率降低了兩倍,甚至在許多情況下超過了兩倍。此外,微軟也在去年9月份表示,旗下語音識別技術(shù)的出錯率已經(jīng)降至6.3%,打破了IBM超級電腦沃森之前保持6.9%的出錯率紀(jì)錄。
事實上,為了能在這場技術(shù)革命中處于領(lǐng)先位置,包括亞馬遜、蘋果、谷歌和IBM在內(nèi)的科技企業(yè)都已經(jīng)開始面向消費者提供語音識別技術(shù)。比如,蘋果不久前在Siri中添加了第三方整合功能,允許它與第三方應(yīng)用通訊,這意味著用戶將可以利用Siri服務(wù)直接呼叫Uber專車。
然而,如果要想成為消費者最主要的計算平臺,語音助手仍需迎來進一步改進。凱鵬華盈分析師、被巴倫雜志冠以“互聯(lián)網(wǎng)女王”稱號的瑪麗-米克爾(Mary Meeker)就表示,語音識別的準(zhǔn)確率必須達到99%左右才有可能成為最有效的計算輸入形式。