欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

您當(dāng)前的位置是:  首頁 > 新聞 > 國內(nèi) >
 首頁 > 新聞 > 國內(nèi) >

捷通華聲:風(fēng)雨兼程17載,中國人工智能公司中的甲骨文

2017-04-24 10:00:23   作者:   來源:   評論:0  點擊:


  人工智能在廣闊的領(lǐng)域?qū)崿F(xiàn)了技術(shù)突破,讓AI的表現(xiàn)形式(載體)上,完成了交互體驗升級換代,比如視覺領(lǐng)域里的避障技術(shù)、圖像識別領(lǐng)域里的人臉識別,還有語音領(lǐng)域中的語音交互。而語音交互主要涉及語音識別、語義理解、機(jī)器翻譯、語音合成和麥克風(fēng)陣列。我們以麥克風(fēng)陣列為例,看看它是如何被捷通華聲攻克?
捷通華聲:風(fēng)雨兼程17載,中國人工智能公司中的甲骨文
  神秘的麥克風(fēng)陣列,是什么樣一種技術(shù)?
  麥克風(fēng)陣列(Smart Microphone Array),從字面上,指的是麥克風(fēng)的排列。也就是說由一定數(shù)目的聲學(xué)傳感器(一般是麥克風(fēng))組成,用來對聲場的空間特性進(jìn)行采樣并處理的系統(tǒng)。一般應(yīng)用于語音處理的按一定規(guī)則排列的多個麥克風(fēng)系統(tǒng),也可以簡單理解為2個以上麥克風(fēng)組成的錄音系統(tǒng)。
  麥克風(fēng)陣列一般來說有直線形、環(huán)線形和球狀之分,嚴(yán)謹(jǐn)?shù)膽?yīng)該說成一字、十字、平面、螺旋、球形及無規(guī)則陣列等。至于麥克風(fēng)陣列的陣元數(shù)量,也就是麥克風(fēng)數(shù)量,可以從2個到上千個不等。
捷通華聲:風(fēng)雨兼程17載,中國人工智能公司中的甲骨文
  看捷通華聲如何攻克麥克風(fēng)陣列的四大難點!
  如此復(fù)雜的麥克風(fēng)陣列主要應(yīng)用于工業(yè)和國防領(lǐng)域,消費領(lǐng)域(例如機(jī)器人領(lǐng)域)考慮到成本會簡化很多,但也需要攻克四大技術(shù)難點:
  01噪音抑制:太嘈雜了,聽不清!
  語音識別在有些場合需要完全去除噪聲,通話系統(tǒng)中則需要的技術(shù)則是噪聲去除。這里說的噪聲一般指環(huán)境噪聲,比如空調(diào)噪聲,這類噪聲通常不具有空間指向性,能量也不是特別大,不會掩蓋正常的語音,只是影響了語音的清晰度和可懂度。一般情況下,不怎么做強(qiáng)噪聲環(huán)境下的處理,只需滿足日常場景的語音交互就夠了。
  02聲源定位:聲音太多,在哪里?
  現(xiàn)實中,聲源的位置是不斷變化的,這對于麥克風(fēng)收音來說,是個障礙。麥克風(fēng)陣列則可以進(jìn)行聲源定位,聲源定位技術(shù)是指使用麥克風(fēng)陣列來計算目標(biāo)說話人的角度和距離,從而實現(xiàn)對目標(biāo)說話人的跟蹤以及后續(xù)的語音定向拾取,是人機(jī)交互、音視頻會議等領(lǐng)域非常重要的前處理技術(shù)。所以麥克風(fēng)陣列技術(shù)不限制說話人的運動,不需要移動位置以改變其接收方向,具有靈活的波束控制、較高的空間分辨率、高的信號增益與較強(qiáng)的抗干擾能力等特點,因而成為智能語音處理系統(tǒng)中捕捉說話人語音的重要手段。
捷通華聲:風(fēng)雨兼程17載,中國人工智能公司中的甲骨文
  03混響消除:享受混響,卻麻煩!
  一般我們聽音樂時,希望有混響的效果,這是聽覺上的一種享受。合適的混響會使得聲音圓潤動聽、富有感染力。
  混響(Reverberation)現(xiàn)象指的是聲波在室內(nèi)傳播時,要被墻壁、天花板、地板等障礙物形成反射聲,并和直達(dá)聲形成疊加;而當(dāng)聲源停止發(fā)聲后,聲波在房間內(nèi)要經(jīng)過多次反射和吸收,似乎若干個聲波混合持續(xù)一段時間。
  混響會嚴(yán)重影響語音信號處理,比如互相關(guān)函數(shù)或者波束主瓣,降低測向精度。由于混響則會使得不同步的語音相互疊加,帶來了音素的交疊掩蔽效應(yīng)(Phoneme Overlap Effect),從而嚴(yán)重影響語音識別效果。
  混響去除的效果很大程度影響了語音識別的效果,因此利用麥克風(fēng)陣列去混響的主要方法有以下幾種:
  a.基于盲語音增強(qiáng)的方法(Blind signal enhancement approach),即將混響信號作為普通的加性噪聲信號,在這個上面應(yīng)用語音增強(qiáng)算法。
  b.基于波束形成的方法(Beamforming based approach),通過將多麥克風(fēng)對收集的信號進(jìn)行加權(quán)相加,在目標(biāo)信號的方向形成一個拾音波束,同時衰減來自其他方向的反射聲。
  c.基于逆濾波的方法(An inverse filterin gapproach),通過麥克風(fēng)陣列估計房間的房間沖擊響應(yīng)(Room Impulse Response,RIR),設(shè)計重構(gòu)濾波器來補(bǔ)償來消除混響。
  良好的麥克風(fēng)陣列的去混響技術(shù)能很好的對房間的混響情況進(jìn)行自適應(yīng)的估計,從而很好的進(jìn)行純凈信號的還原,顯著的提升了語音聽感和識別效果,在測試對比中,多種混響時間下識別效果接近手機(jī)近講水平。
  嚴(yán)格來說,這里說的“回聲消除”不應(yīng)該叫回聲,應(yīng)該叫“自噪聲”;芈暿腔祉懙难由旄拍,這兩者的區(qū)別就是回聲的時延更長。一般來說,超過100毫秒時延的混響,人類能夠明顯區(qū)分出,似乎一個聲音同時出現(xiàn)了兩次,我們就叫做回聲,比如天壇著名的回聲壁。實際上,這里所指的是語音交互設(shè)備自己發(fā)出的聲音,比如Echo音箱,當(dāng)播放歌曲的時候若叫Alexa,這時候麥克風(fēng)陣列實際上采集了正在播放的音樂和用戶所叫的Alexa聲音,顯然語音識別無法識別這兩類聲音;芈曄褪且サ羝渲械囊魳沸畔⒍槐A粲脩舻娜寺暎越谢芈曄,只是延續(xù)大家的習(xí)慣而已,其實是不恰當(dāng)?shù)摹?/div>
  04云端識別:聲音很多,卻好用!
  麥克風(fēng)陣列增益,主要是解決拾音距離的問題,若信號較小,語音識別同樣不能保證,通過陣列處理可以適當(dāng)加大語音信號的能量。
  而波束形成是指將一定幾何結(jié)構(gòu)排列的麥克風(fēng)陣列的各麥克風(fēng)輸出信號經(jīng)過處理(例如加權(quán)、時延、求和等)形成空間指向性的方法。波束形成主要是抑制主瓣以外的聲音干擾,這里也包括人聲,比如幾個人圍繞機(jī)器人談話的時候,機(jī)器人只會識別其中一個人的聲音;但對于機(jī)器人來說,能同時識別不同距離和不同方位的聲源,變得尤為重要——這也代表了人工智能的語音交互領(lǐng)域趨于成熟!
  對于語音交互中的模型匹配,主要是和語音識別以及語義理解進(jìn)行匹配,使得語音交互成為一個完整的信號鏈,從麥克風(fēng)陣列開始的語音流不可能割裂的存在,必然需要模型匹配在一起。實際上,效果較好的語音交互專用麥克風(fēng)陣列,通常是兩套算法,一套內(nèi)嵌于硬件實時處理,另外一套服務(wù)于云端匹配語音處理;而“本地+云端”中,成立于世紀(jì)之交2000年的捷通華聲是一家專注于智能語音、智能圖像、生物特征識別、語義理解等人工智能技術(shù)的研究與應(yīng)用,全面發(fā)展人工智能云服務(wù)的高新技術(shù)企業(yè)。
  捷通華聲的靈云平臺在2014年面向人工智能產(chǎn)業(yè)全面開放,并以“云+端”方式,為產(chǎn)業(yè)界提供語音合成(TTS)、語音識別(ASR)、聲紋識別(VPR)、手寫識別(HWR)、光學(xué)字符識別(OCR)、指紋識別(FPR)、機(jī)器翻譯(MT)、自然語言理解(NLU)等全方位的人工智能云服務(wù);服務(wù)于百度導(dǎo)航、搜狗導(dǎo)航、小米、樂視、京東商場、攜程網(wǎng)、去哪兒網(wǎng)、奔馳、中國農(nóng)業(yè)銀行、導(dǎo)航犬、嘀嘀打車、快的打車、漢字英雄、天行聽書、天行輸入法、觸寶輸入法等知名公司。
 

專題