欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

百度賈磊:深度學(xué)習(xí)助力語音識別打破領(lǐng)域壁壘

2020-01-03 09:39:27   作者:   來源:中關(guān)村在線   評論:0  點擊:


  2019年12月26日,由百度與ZOL聯(lián)手舉辦的“智見未來”峰會——暨2019年度“星標(biāo)大獎”頒獎盛典在北京舉行。在盛典上百度語音首席架構(gòu)師賈磊發(fā)表了主旨為“百度大腦語音技術(shù)的前沿進展”的演講,從百度語音產(chǎn)品矩陣、百度智能語音解決方案、百度智能語音交互系統(tǒng)這三方面全方位介紹了百度智能語音交互系統(tǒng)全景。
百度語音首席架構(gòu)師賈磊
  賈磊指出,面對未來智能語音產(chǎn)業(yè)鏈的新需求,百度將研發(fā)新一代的端到端智能語音交互系統(tǒng),實現(xiàn)語音交互全鏈路協(xié)同處理。
  百度創(chuàng)新提出復(fù)數(shù)CNN網(wǎng)絡(luò)的語音增強和聲學(xué)建模一體化方案
  賈磊在演講中提到,傳統(tǒng)的遠場語音交互系統(tǒng)中,是先采用一個基于麥克陣列的語音增強模塊,之后再接一個語音識別模塊,兩個模塊串聯(lián)連接。這種系統(tǒng)設(shè)計方法具有很多先天局限性。為了更好的智能遠場語音交互體驗,我們需要設(shè)計一套全新的深度學(xué)習(xí)模型。“如果能設(shè)計一種全新架構(gòu),一套模型,從原始多路聲音信號開始,對識別文字直接端到端建模,從而使得遠場識別性能大幅度的提升?梢詥拘押螅360度隨意的識別,并且不用要求設(shè)備音頻回路必須是線性”,賈磊說。
  而這就是百度推出“基于復(fù)數(shù)CNN網(wǎng)絡(luò)的語音增強和聲學(xué)建模一體化的端到端語音識別”方案的初衷。其最大特點就是顛覆了數(shù)字信號處理學(xué)科和語音識別學(xué)科的傳統(tǒng)經(jīng)典理論,直接一套模型端到端的打通兩個學(xué)科,完全數(shù)據(jù)驅(qū)動,端到端建模“,賈磊說。
  具體來講是,該模型底部以復(fù)數(shù)CNN為核心,利用復(fù)數(shù)CNN網(wǎng)絡(luò)挖掘生理信號特點。采用復(fù)數(shù)CNN,復(fù)數(shù)全連接層以及CNN等多層網(wǎng)絡(luò),直接對原始的多通道語音信號進行多尺度多層次的信息抽取,期間充分挖掘頻帶之間的關(guān)聯(lián)耦合信息。
  在保留原始特征相位信息的前提下,這個模型一次性實現(xiàn)了前端聲源定位、波束形成和增強特征提取等功能。該模型底部CNN抽象出來的特征,直接送入端到端的流式多級的截斷注意力模型(SMLTA)中,從而實現(xiàn)了從原始多路麥克信號到識別目標(biāo)文字的端到端一體化建模。
  百度賈磊:百度大腦語音實現(xiàn)突破,深度學(xué)習(xí)助力語音識別打破領(lǐng)域壁壘
  因為整個網(wǎng)絡(luò)的優(yōu)化準(zhǔn)則完全依賴于語音識別網(wǎng)絡(luò)的優(yōu)化準(zhǔn)則來做,完全以識別率提升為目標(biāo)來做模型參數(shù)調(diào)優(yōu)。而由此帶來的好處也不言而喻。根據(jù)統(tǒng)計數(shù)據(jù)顯示,相較于傳統(tǒng)基于數(shù)字信號處理的麥克陣列算法,基于復(fù)數(shù)CNN網(wǎng)絡(luò)的語音增強和聲學(xué)建模使得錯誤率降低超過30%。
  賈磊說:“我們基于以上這個技術(shù),對于語音交互上將有更大的提升,而這種提升和進步是顛覆性的。另外深度學(xué)習(xí)完成了數(shù)據(jù)革命和計算革命之后,開始進行跨學(xué)科整合,繼續(xù)獲得生命力和提升”。
  另外從“復(fù)數(shù)CNN網(wǎng)絡(luò)的語音增強和聲學(xué)建模一體化方案”來看,深度學(xué)習(xí)在完成數(shù)據(jù)革命和計算革命之后,開始進行跨學(xué)科的整合,打破學(xué)科間的壁壘,兩個學(xué)科聯(lián)合在一起繼續(xù)獲得生命力提升,這是百度語音技術(shù)提升的軌跡,賈磊指出。
  SMLTA+全雙工免喚醒拓展百度多語音識別能力
  百度提出流式多級的截斷注意力模型SMLTA,在國際上首次實現(xiàn)流式注意力建模超越整句注意力模型的性能,也是國際上首次實現(xiàn)在線語音識別大規(guī)模使用注意力模型。SMLTA在大幅提升識別速度的同時,也提高了識別準(zhǔn)確率。輸入法有效產(chǎn)品相對準(zhǔn)確率提升15%,音箱有效產(chǎn)品相對準(zhǔn)確率提升20%。
  基于此百度在對話能力迎來重大技術(shù)革新——全球領(lǐng)先的全雙工免喚醒能力,實現(xiàn)了“一次喚醒,多輪交互”免喚醒詞連續(xù)對話。
  基于以上技術(shù),百度提出了語音語義一體化解決方案,即百度可以做到一套模型同時識別中文英文和方言。如在2019年1月百度輸入法上線河南、山東、四川、東北、陜西、安徽方言的無障礙輸入,今年年底將支持河北、山西、湖北、湖南、云南等。另外,值得一提的是,百度輸入法還是支持中英文混合語音輸入,而且識別率大幅度改進提升。
  除了在應(yīng)用和技術(shù)上的突破創(chuàng)新,賈磊還帶來了百度大腦語音技術(shù)的前沿進展:百度2018年和2019年先后推出“百度昆侖”“百度鴻鵠”兩款人工智能專用芯片,讓智能時代的核心硬件技術(shù)自主可控。經(jīng)過不斷優(yōu)化發(fā)展迭代升級,基于鴻鵠語音芯片已逐漸開始覆蓋智能家居、智能車聯(lián)、智能IoT的三大場景解決方案。
  賈磊說,“2018年和2019年先后推出“百度昆侖”“百度鴻鵠”兩款人工智能專用芯片,讓智能時代的核心硬件技術(shù)自主可控”。
  主題演講最后,賈磊表示:希望通過語音技術(shù)和硬件芯片,為各大廠商為中國社會做更好地服務(wù)。
  寫在最后
  當(dāng)前以AI技術(shù)為核心的第四次工業(yè)革命已經(jīng)拉開大幕。特別是隨著5G商用之后,AI技術(shù)的落地正在加速,同時也是AI滲透到社會生活方方面面的開始。
  這里百度憑借自身AI核心技術(shù)上取得諸多突破和儲備,以及積極打造AI開放生態(tài)這兩大優(yōu)勢,正確立在AI技術(shù)革命中的行業(yè)領(lǐng)先地位。
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題

CTI論壇會員企業(yè)