欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

您當(dāng)前的位置是:  首頁(yè) > 新聞 > 國(guó)內(nèi) >
 首頁(yè) > 新聞 > 國(guó)內(nèi) >

捷通華聲:風(fēng)雨兼程17載,中國(guó)人工智能公司中的甲骨文

2017-04-24 10:00:23   作者:   來(lái)源:   評(píng)論:0  點(diǎn)擊:


  人工智能在廣闊的領(lǐng)域?qū)崿F(xiàn)了技術(shù)突破,讓AI的表現(xiàn)形式(載體)上,完成了交互體驗(yàn)升級(jí)換代,比如視覺(jué)領(lǐng)域里的避障技術(shù)、圖像識(shí)別領(lǐng)域里的人臉識(shí)別,還有語(yǔ)音領(lǐng)域中的語(yǔ)音交互。而語(yǔ)音交互主要涉及語(yǔ)音識(shí)別、語(yǔ)義理解、機(jī)器翻譯、語(yǔ)音合成和麥克風(fēng)陣列。我們以麥克風(fēng)陣列為例,看看它是如何被捷通華聲攻克?
捷通華聲:風(fēng)雨兼程17載,中國(guó)人工智能公司中的甲骨文
  神秘的麥克風(fēng)陣列,是什么樣一種技術(shù)?
  麥克風(fēng)陣列(Smart Microphone Array),從字面上,指的是麥克風(fēng)的排列。也就是說(shuō)由一定數(shù)目的聲學(xué)傳感器(一般是麥克風(fēng))組成,用來(lái)對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。一般應(yīng)用于語(yǔ)音處理的按一定規(guī)則排列的多個(gè)麥克風(fēng)系統(tǒng),也可以簡(jiǎn)單理解為2個(gè)以上麥克風(fēng)組成的錄音系統(tǒng)。
  麥克風(fēng)陣列一般來(lái)說(shuō)有直線形、環(huán)線形和球狀之分,嚴(yán)謹(jǐn)?shù)膽?yīng)該說(shuō)成一字、十字、平面、螺旋、球形及無(wú)規(guī)則陣列等。至于麥克風(fēng)陣列的陣元數(shù)量,也就是麥克風(fēng)數(shù)量,可以從2個(gè)到上千個(gè)不等。
捷通華聲:風(fēng)雨兼程17載,中國(guó)人工智能公司中的甲骨文
  看捷通華聲如何攻克麥克風(fēng)陣列的四大難點(diǎn)!
  如此復(fù)雜的麥克風(fēng)陣列主要應(yīng)用于工業(yè)和國(guó)防領(lǐng)域,消費(fèi)領(lǐng)域(例如機(jī)器人領(lǐng)域)考慮到成本會(huì)簡(jiǎn)化很多,但也需要攻克四大技術(shù)難點(diǎn):
  01噪音抑制:太嘈雜了,聽(tīng)不清!
  語(yǔ)音識(shí)別在有些場(chǎng)合需要完全去除噪聲,通話系統(tǒng)中則需要的技術(shù)則是噪聲去除。這里說(shuō)的噪聲一般指環(huán)境噪聲,比如空調(diào)噪聲,這類(lèi)噪聲通常不具有空間指向性,能量也不是特別大,不會(huì)掩蓋正常的語(yǔ)音,只是影響了語(yǔ)音的清晰度和可懂度。一般情況下,不怎么做強(qiáng)噪聲環(huán)境下的處理,只需滿足日常場(chǎng)景的語(yǔ)音交互就夠了。
  02聲源定位:聲音太多,在哪里?
  現(xiàn)實(shí)中,聲源的位置是不斷變化的,這對(duì)于麥克風(fēng)收音來(lái)說(shuō),是個(gè)障礙。麥克風(fēng)陣列則可以進(jìn)行聲源定位,聲源定位技術(shù)是指使用麥克風(fēng)陣列來(lái)計(jì)算目標(biāo)說(shuō)話人的角度和距離,從而實(shí)現(xiàn)對(duì)目標(biāo)說(shuō)話人的跟蹤以及后續(xù)的語(yǔ)音定向拾取,是人機(jī)交互、音視頻會(huì)議等領(lǐng)域非常重要的前處理技術(shù)。所以麥克風(fēng)陣列技術(shù)不限制說(shuō)話人的運(yùn)動(dòng),不需要移動(dòng)位置以改變其接收方向,具有靈活的波束控制、較高的空間分辨率、高的信號(hào)增益與較強(qiáng)的抗干擾能力等特點(diǎn),因而成為智能語(yǔ)音處理系統(tǒng)中捕捉說(shuō)話人語(yǔ)音的重要手段。
捷通華聲:風(fēng)雨兼程17載,中國(guó)人工智能公司中的甲骨文
  03混響消除:享受混響,卻麻煩!
  一般我們聽(tīng)音樂(lè)時(shí),希望有混響的效果,這是聽(tīng)覺(jué)上的一種享受。合適的混響會(huì)使得聲音圓潤(rùn)動(dòng)聽(tīng)、富有感染力。
  混響(Reverberation)現(xiàn)象指的是聲波在室內(nèi)傳播時(shí),要被墻壁、天花板、地板等障礙物形成反射聲,并和直達(dá)聲形成疊加;而當(dāng)聲源停止發(fā)聲后,聲波在房間內(nèi)要經(jīng)過(guò)多次反射和吸收,似乎若干個(gè)聲波混合持續(xù)一段時(shí)間。
  混響會(huì)嚴(yán)重影響語(yǔ)音信號(hào)處理,比如互相關(guān)函數(shù)或者波束主瓣,降低測(cè)向精度。由于混響則會(huì)使得不同步的語(yǔ)音相互疊加,帶來(lái)了音素的交疊掩蔽效應(yīng)(Phoneme Overlap Effect),從而嚴(yán)重影響語(yǔ)音識(shí)別效果。
  混響去除的效果很大程度影響了語(yǔ)音識(shí)別的效果,因此利用麥克風(fēng)陣列去混響的主要方法有以下幾種:
  a.基于盲語(yǔ)音增強(qiáng)的方法(Blind signal enhancement approach),即將混響信號(hào)作為普通的加性噪聲信號(hào),在這個(gè)上面應(yīng)用語(yǔ)音增強(qiáng)算法。
  b.基于波束形成的方法(Beamforming based approach),通過(guò)將多麥克風(fēng)對(duì)收集的信號(hào)進(jìn)行加權(quán)相加,在目標(biāo)信號(hào)的方向形成一個(gè)拾音波束,同時(shí)衰減來(lái)自其他方向的反射聲。
  c.基于逆濾波的方法(An inverse filterin gapproach),通過(guò)麥克風(fēng)陣列估計(jì)房間的房間沖擊響應(yīng)(Room Impulse Response,RIR),設(shè)計(jì)重構(gòu)濾波器來(lái)補(bǔ)償來(lái)消除混響。
  良好的麥克風(fēng)陣列的去混響技術(shù)能很好的對(duì)房間的混響情況進(jìn)行自適應(yīng)的估計(jì),從而很好的進(jìn)行純凈信號(hào)的還原,顯著的提升了語(yǔ)音聽(tīng)感和識(shí)別效果,在測(cè)試對(duì)比中,多種混響時(shí)間下識(shí)別效果接近手機(jī)近講水平。
  嚴(yán)格來(lái)說(shuō),這里說(shuō)的“回聲消除”不應(yīng)該叫回聲,應(yīng)該叫“自噪聲”;芈暿腔祉懙难由旄拍,這兩者的區(qū)別就是回聲的時(shí)延更長(zhǎng)。一般來(lái)說(shuō),超過(guò)100毫秒時(shí)延的混響,人類(lèi)能夠明顯區(qū)分出,似乎一個(gè)聲音同時(shí)出現(xiàn)了兩次,我們就叫做回聲,比如天壇著名的回聲壁。實(shí)際上,這里所指的是語(yǔ)音交互設(shè)備自己發(fā)出的聲音,比如Echo音箱,當(dāng)播放歌曲的時(shí)候若叫Alexa,這時(shí)候麥克風(fēng)陣列實(shí)際上采集了正在播放的音樂(lè)和用戶所叫的Alexa聲音,顯然語(yǔ)音識(shí)別無(wú)法識(shí)別這兩類(lèi)聲音;芈曄褪且サ羝渲械囊魳(lè)信息而只保留用戶的人聲,之所以叫回聲消除,只是延續(xù)大家的習(xí)慣而已,其實(shí)是不恰當(dāng)?shù)摹?/div>
  04云端識(shí)別:聲音很多,卻好用!
  麥克風(fēng)陣列增益,主要是解決拾音距離的問(wèn)題,若信號(hào)較小,語(yǔ)音識(shí)別同樣不能保證,通過(guò)陣列處理可以適當(dāng)加大語(yǔ)音信號(hào)的能量。
  而波束形成是指將一定幾何結(jié)構(gòu)排列的麥克風(fēng)陣列的各麥克風(fēng)輸出信號(hào)經(jīng)過(guò)處理(例如加權(quán)、時(shí)延、求和等)形成空間指向性的方法。波束形成主要是抑制主瓣以外的聲音干擾,這里也包括人聲,比如幾個(gè)人圍繞機(jī)器人談話的時(shí)候,機(jī)器人只會(huì)識(shí)別其中一個(gè)人的聲音;但對(duì)于機(jī)器人來(lái)說(shuō),能同時(shí)識(shí)別不同距離和不同方位的聲源,變得尤為重要——這也代表了人工智能的語(yǔ)音交互領(lǐng)域趨于成熟!
  對(duì)于語(yǔ)音交互中的模型匹配,主要是和語(yǔ)音識(shí)別以及語(yǔ)義理解進(jìn)行匹配,使得語(yǔ)音交互成為一個(gè)完整的信號(hào)鏈,從麥克風(fēng)陣列開(kāi)始的語(yǔ)音流不可能割裂的存在,必然需要模型匹配在一起。實(shí)際上,效果較好的語(yǔ)音交互專(zhuān)用麥克風(fēng)陣列,通常是兩套算法,一套內(nèi)嵌于硬件實(shí)時(shí)處理,另外一套服務(wù)于云端匹配語(yǔ)音處理;而“本地+云端”中,成立于世紀(jì)之交2000年的捷通華聲是一家專(zhuān)注于智能語(yǔ)音、智能圖像、生物特征識(shí)別、語(yǔ)義理解等人工智能技術(shù)的研究與應(yīng)用,全面發(fā)展人工智能云服務(wù)的高新技術(shù)企業(yè)。
  捷通華聲的靈云平臺(tái)在2014年面向人工智能產(chǎn)業(yè)全面開(kāi)放,并以“云+端”方式,為產(chǎn)業(yè)界提供語(yǔ)音合成(TTS)、語(yǔ)音識(shí)別(ASR)、聲紋識(shí)別(VPR)、手寫(xiě)識(shí)別(HWR)、光學(xué)字符識(shí)別(OCR)、指紋識(shí)別(FPR)、機(jī)器翻譯(MT)、自然語(yǔ)言理解(NLU)等全方位的人工智能云服務(wù);服務(wù)于百度導(dǎo)航、搜狗導(dǎo)航、小米、樂(lè)視、京東商場(chǎng)、攜程網(wǎng)、去哪兒網(wǎng)、奔馳、中國(guó)農(nóng)業(yè)銀行、導(dǎo)航犬、嘀嘀打車(chē)、快的打車(chē)、漢字英雄、天行聽(tīng)書(shū)、天行輸入法、觸寶輸入法等知名公司。
 

專(zhuān)題