6月6日下午,全球人工智能技術(shù)大會(huì)期間,聚焦全球化多語(yǔ)種需求,著眼于語(yǔ)言互通在“一帶一路”戰(zhàn)略中的基礎(chǔ)性作用,在多語(yǔ)種智能信息處理專(zhuān)題論壇上,科大訊飛研究院執(zhí)行院長(zhǎng)劉聰發(fā)表《用系統(tǒng)性創(chuàng)新破局多語(yǔ)種智能語(yǔ)音語(yǔ)言技術(shù)難題》主題演講。
用系統(tǒng)性創(chuàng)新破局多語(yǔ)種技術(shù)難題
當(dāng)前,語(yǔ)音已成為萬(wàn)物互聯(lián)時(shí)代人機(jī)交互的關(guān)鍵入口,語(yǔ)音輸入、語(yǔ)音搜索、語(yǔ)音交互等技術(shù)已經(jīng)成為手機(jī)、車(chē)載、玩具等智能產(chǎn)品的標(biāo)配。另一方面,“一帶一路”國(guó)家戰(zhàn)略的建設(shè)依賴(lài)語(yǔ)言互通,多語(yǔ)種翻譯技術(shù)價(jià)值凸顯。此外,多語(yǔ)種語(yǔ)音語(yǔ)言技術(shù)也涉及國(guó)家信息安全等重大方向,成為世界各國(guó)競(jìng)相布局的關(guān)鍵技術(shù)方向。
因此,無(wú)論從社會(huì)剛需,還是國(guó)家戰(zhàn)略、信息安全等方面考慮,布局多語(yǔ)種語(yǔ)音語(yǔ)言技術(shù)都顯得尤為重要。
劉聰表示,未來(lái)十年,我們將圍繞語(yǔ)音交互、語(yǔ)言翻譯等剛需應(yīng)用場(chǎng)景,開(kāi)展多語(yǔ)種語(yǔ)音識(shí)別、語(yǔ)音合成、機(jī)器翻譯、圖文識(shí)別等智能語(yǔ)音語(yǔ)言技術(shù)的系統(tǒng)性布局,覆蓋包括“一帶一路”和世界主要國(guó)家在內(nèi)的70多種語(yǔ)言。
“我們非常清楚要將70多種語(yǔ)言的智能語(yǔ)音語(yǔ)言技術(shù)做到實(shí)用水平,并沒(méi)有那么容易,所以我們計(jì)劃用十年的時(shí)間去攻克這個(gè)難題。”
針對(duì)未來(lái)十年布局,劉聰總結(jié)出多語(yǔ)種技術(shù)研發(fā)中面臨的三個(gè)挑戰(zhàn):
一是不同語(yǔ)言的用戶(hù)分布存在明顯的長(zhǎng)尾效應(yīng),小語(yǔ)種語(yǔ)言分析研究的積累和投入不足。不同語(yǔ)言獨(dú)特的語(yǔ)言現(xiàn)象十分復(fù)雜,相關(guān)知識(shí)的全面積累以及知識(shí)與技術(shù)的融合均存在困難;
二是多語(yǔ)種訓(xùn)練數(shù)據(jù)稀缺,制作難度和成本較大,難以支撐大量語(yǔ)種系統(tǒng)的研發(fā);
三是語(yǔ)音合成、圖文識(shí)別、語(yǔ)音識(shí)別、機(jī)器翻譯等多語(yǔ)種技術(shù)涉及70多個(gè)語(yǔ)種、云端和本地引擎,以及不同領(lǐng)域需要研發(fā)部署成百上千套系統(tǒng),眾多系統(tǒng)批量構(gòu)建存在難題。同時(shí),當(dāng)前基于級(jí)聯(lián)的語(yǔ)音翻譯、圖片翻譯也存在誤差擴(kuò)散問(wèn)題。
劉聰認(rèn)為:“多語(yǔ)種技術(shù)的全面推動(dòng),包括技術(shù)創(chuàng)新和應(yīng)用落地,不能只靠單點(diǎn)技術(shù)的創(chuàng)新,迫切需要通過(guò)系統(tǒng)性創(chuàng)新的方式來(lái)破局。”
從數(shù)據(jù)、算法、平臺(tái)多維度
構(gòu)建多語(yǔ)種技術(shù)的系統(tǒng)性創(chuàng)新研發(fā)體系
什么是系統(tǒng)性創(chuàng)新?科大訊飛總結(jié)了三大關(guān)鍵要素:一是關(guān)鍵的核心技術(shù)效果要跨越技術(shù)鴻溝,達(dá)到應(yīng)用門(mén)檻;深度融合創(chuàng)新鏈條上的各個(gè)關(guān)鍵技術(shù),激發(fā)創(chuàng)新能力;針對(duì)重大的歷史命題社會(huì)命題進(jìn)行系統(tǒng)性解析,并將其轉(zhuǎn)化為科學(xué)問(wèn)題。
單點(diǎn)技術(shù)突破方面,從2006年研發(fā)的中文口語(yǔ)評(píng)測(cè)機(jī)器評(píng)分超過(guò)專(zhuān)業(yè)評(píng)測(cè)員平均水平,到2015年研發(fā)的機(jī)器中文語(yǔ)音轉(zhuǎn)寫(xiě)正確率超過(guò)人類(lèi)速記員水平,再到智醫(yī)助理機(jī)器人通過(guò)國(guó)家執(zhí)業(yè)醫(yī)師資格考試綜合筆試測(cè)試、中英語(yǔ)音翻譯達(dá)到CATTI全國(guó)翻譯專(zhuān)業(yè)資格(水平)考試二級(jí)合格標(biāo)準(zhǔn)……科大訊飛不斷在單點(diǎn)技術(shù)上取得突破。
在創(chuàng)新鏈條上各關(guān)鍵技術(shù)的深度融合方面,基于核心技術(shù)的深度理解,我們可以進(jìn)行多個(gè)方向技術(shù)的協(xié)同創(chuàng)新。劉聰舉例,2016年,科大訊飛基于語(yǔ)音譜圖和圖像的相似性,成功將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音識(shí)別,提出DFCNN建模技術(shù),將其拓展到圖文識(shí)別任務(wù)上,效果取得了大幅提升。
“對(duì)于多語(yǔ)種智能語(yǔ)音語(yǔ)言技術(shù)研發(fā)及產(chǎn)業(yè)化而言,由于其涉及語(yǔ)言眾多、技術(shù)實(shí)現(xiàn)復(fù)雜,我們將其作為一個(gè)系統(tǒng)工程進(jìn)行推動(dòng)。”劉聰表示。
他從數(shù)據(jù)、算法、平臺(tái)等維度,分享了科大訊飛在多語(yǔ)種智能語(yǔ)音語(yǔ)言技術(shù)系統(tǒng)性創(chuàng)新中的思考和實(shí)踐。在數(shù)據(jù)方面,科大訊飛研發(fā)了基于人機(jī)協(xié)同的多語(yǔ)種數(shù)據(jù)標(biāo)注平臺(tái);在算法方面,重點(diǎn)開(kāi)展了多語(yǔ)種端到端統(tǒng)一建?蚣、無(wú)監(jiān)督/弱監(jiān)督訓(xùn)練,以及語(yǔ)音/圖片翻譯多任務(wù)協(xié)同優(yōu)化等方向的研究;在研發(fā)訓(xùn)練效率優(yōu)化方面,構(gòu)建了多語(yǔ)種模型自動(dòng)訓(xùn)練及定制優(yōu)化平臺(tái),以推動(dòng)多語(yǔ)種系統(tǒng)的批量研發(fā),解決人工耗時(shí)耗力問(wèn)題。
“基于系統(tǒng)性創(chuàng)新,我們已經(jīng)完成一套完整的多語(yǔ)種語(yǔ)音語(yǔ)言系統(tǒng)研發(fā),包括60種語(yǔ)言的語(yǔ)音合成,69種語(yǔ)言的語(yǔ)音識(shí)別,56種語(yǔ)言的圖文識(shí)別,以及168種語(yǔ)言與中文的機(jī)器翻譯。”劉聰指出,部分語(yǔ)種現(xiàn)已上線(xiàn)訊飛開(kāi)放平臺(tái),對(duì)外提供服務(wù)。
用系統(tǒng)性創(chuàng)新推動(dòng)多場(chǎng)景廣泛落地
得益于系統(tǒng)性創(chuàng)新,科大訊飛多語(yǔ)種智能語(yǔ)音語(yǔ)言技術(shù)在語(yǔ)音交互、語(yǔ)言翻譯等場(chǎng)景初步取得規(guī)模化應(yīng)用落地。
在多語(yǔ)種交互方面,科大訊飛與俄羅斯汽車(chē)工程研究院(NAMI)、奇瑞等國(guó)內(nèi)外多個(gè)廠商開(kāi)展多語(yǔ)種合作,目前已覆蓋英語(yǔ)、俄語(yǔ)、日語(yǔ)、泰語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)等主要語(yǔ)種。
在多語(yǔ)種翻譯方面,科大訊飛2016年發(fā)布的訊飛翻譯機(jī)開(kāi)創(chuàng)了AI翻譯機(jī)新品類(lèi),今年5月又推出雙屏翻譯機(jī),持續(xù)引領(lǐng)智能翻譯硬件潮流。訊飛聽(tīng)見(jiàn)同傳產(chǎn)品廣泛應(yīng)用于大型會(huì)議、發(fā)布會(huì)、展覽會(huì)等場(chǎng)景,已服務(wù)超1萬(wàn)場(chǎng)次大會(huì),服務(wù)超3億人次。科大訊飛還成為北京2022年冬奧會(huì)和冬殘奧會(huì)官方自動(dòng)語(yǔ)音轉(zhuǎn)換與翻譯獨(dú)家供應(yīng)商,助力打造人類(lèi)歷史上首個(gè)信息溝通無(wú)障礙的奧運(yùn)會(huì)。
此外,為了賦能海外開(kāi)發(fā)者,依托智能語(yǔ)音國(guó)家新一代人工智能開(kāi)放創(chuàng)新平臺(tái),2020年4月科大訊飛在新加坡部署了海外站點(diǎn),為海外開(kāi)發(fā)者提供多語(yǔ)種語(yǔ)音識(shí)別、語(yǔ)音合成、機(jī)器翻譯、圖文識(shí)別和語(yǔ)音評(píng)測(cè)等能力,海外開(kāi)發(fā)者數(shù)量已經(jīng)超過(guò)7萬(wàn)人。
劉聰指出,盡管在多語(yǔ)種技術(shù)研發(fā)和產(chǎn)業(yè)應(yīng)用方面,我們?nèi)〉贸醪匠尚,但我們也?yīng)清醒認(rèn)識(shí)到,當(dāng)前大量低資源語(yǔ)種的技術(shù)水平相比中英文等資源豐富語(yǔ)種還有較大差距。依托“科技冬奧”“科技創(chuàng)新2030”等國(guó)家科技部重點(diǎn)研發(fā)計(jì)劃,科大訊飛目前聯(lián)合了中科大、哈工大、新疆大學(xué)、上海外國(guó)語(yǔ)大學(xué)等國(guó)內(nèi)眾多科研單位,已形成了廣泛的多語(yǔ)種產(chǎn)學(xué)研聯(lián)盟,共同推動(dòng)我國(guó)多語(yǔ)種智能語(yǔ)音語(yǔ)言技術(shù)進(jìn)步。