華少的快,矮大緊的京范兒口音,神仙打架的《奇葩說》,這些復(fù)雜場景的語音識別有多難?今天依圖帶你領(lǐng)略新鮮出爐的語音識別算法實力。
今天開始,依(zui)圖(hao)語音開放平臺上線了!
業(yè)內(nèi)首次系統(tǒng)測試主流語音識別廠商的技術(shù)性能
(測試完成于2018年11月底)
在全球最大中文普通話數(shù)據(jù)庫AISHELL-2的三個測試子集、Accent近場口音測試集、Chat近場安靜聊天測試集上,依圖語音識別算法最近測得多項第一。AISHELL-2數(shù)據(jù)規(guī)模達1000小時,是目前全球最大的中文開源數(shù)據(jù)庫。在AISHELL2-2018A-EVAL數(shù)據(jù)集中,依圖語音識別準(zhǔn)確率達到96.29%,字錯率(CER)為3.71%,領(lǐng)先第二名約17%。
無論是語音助手還是節(jié)目,電話客服或是閑聊,依圖更懂你。
依圖語音識別性能優(yōu)于第二名約17%語音未來任重道遠
通過手機近距離收集聲音,依圖優(yōu)于第二名約17%,字字再現(xiàn)強時效內(nèi)容
語速超快又有地方口音?依圖和訊飛挺下來了
考驗系統(tǒng)是不是夠“皮實”、夠“穩(wěn)健”的時候到了!在遠距離場景,環(huán)境中會存在噪聲、混響和反射,依圖和訊飛聽見優(yōu)勢明顯
從技術(shù)性能來說,字錯率曲線抖動越小,算法的場景通用性越好。綜合各場景測試的結(jié)果,業(yè)界主流算法中,依圖和訊飛的算法字錯率抖動相對較小。
但是同樣說明了語音識別的發(fā)展既有驚喜也有遺憾。各大廠商的近場場景識別能力讓我們感受到了科技的力量,而加入遠場演講的高難度場景的識別能力不足,也表明了未來的路還很遠。
花式挑戰(zhàn)算法性能依圖表現(xiàn)穩(wěn)定
聽寫大會小程序一經(jīng)發(fā)布,各種評(tiao)測(xi)洶涌而來。依圖語音憑借自身優(yōu)秀的技術(shù),展現(xiàn)了極其穩(wěn)定的語音識別能力。
再熱血的足球解說我們hold住
繞口令?依圖能聽清!
語音識別歌詞,依圖可帶勁啦!
呂昊博士現(xiàn)場演示的這款“聽寫大會”小程序也是業(yè)界第一次基于公開API將市場上的主流語音識別技術(shù)性能做比較——歡迎大家去花式調(diào)戲!
語音識別命題深遠 攜手華為、微軟共同推動技術(shù)發(fā)展
語音是語言的物質(zhì)外殼,它最直接記錄了人的思維活動,從語言的誕生第一天起,用語音溝通就成了最自然的一件事情。直到今天,它還是人與人之間交流的最重要的渠道。在語音識別發(fā)展的漫長過程中,不僅僅需要對聲音的記錄,還有對語言句子的理解和當(dāng)事人的經(jīng)驗,語音識別能力與對知識理解的能力正相關(guān)。
正因如此,人工智能的語音識別不僅有趣,更是很有意義,它是機器理解世界的重要組成部分,是人人交互、人機交互最重要的入口,也是邁向智能發(fā)展更高階段的必經(jīng)之路。盡管這條道路已經(jīng)顯得非常擁擠,語音識別落地場景隨處可見,做語音識別的機構(gòu)百家爭鳴,人工智能的語音識別仍處于初步發(fā)展的階段。
作為一家對人工智能有著深入理解和推廣應(yīng)用的公司,語音識別是依圖人工智能布局下一個不可或缺的組成部分。我們將始終保持在技術(shù)層面的投入,通過技術(shù)的突破來解鎖更多的可能,也期待更多合作伙伴與我們共同探索語音技術(shù)的行業(yè)應(yīng)用,共同推動行業(yè)發(fā)展。
(依圖首席創(chuàng)新官呂昊博士與微軟大中華區(qū)合作伙伴發(fā)展總經(jīng)理周芳女士聯(lián)合發(fā)布語音開放平臺)
(依圖首席創(chuàng)新官呂昊博士與華為智能計算渠道合作部部長康鑫先生聯(lián)合發(fā)布智能語音聯(lián)合解決方案)
今天,依圖還與微軟Azure聯(lián)合推出依圖語音開放平臺(speech.yitutech.com),與華為聯(lián)合發(fā)布“智能語音聯(lián)合解決方案”,將依圖最新的語音識別技術(shù)能力提供給第三方應(yīng)用開發(fā)者,共同推動行業(yè)進步。
就像物理學(xué)家理查德·費曼所說:“我無法創(chuàng)造的東西,我就不能理解。”我們認為只有真的實現(xiàn)了人工智能,才有可能弄明白學(xué)習(xí)是怎么回事。依圖對人工智能的探索永無止境。
。O客公園創(chuàng)始人張鵬對話依圖首席創(chuàng)新官呂昊博士、依圖科學(xué)家吳雙博士)