魅惑美女视频,性感美女私房视频

　　人工智能在廣闊的領(lǐng)域?qū)崿F(xiàn)了技術(shù)突破，讓AI的表現(xiàn)形式（載體）上，完成了交互體驗升級換代，比如視覺領(lǐng)域里的避障技術(shù)、圖像識別領(lǐng)域里的人臉識別，還有語音領(lǐng)域中的語音交互。而語音交互主要涉及語音識別、語義理解、機(jī)器翻譯、語音合成和麥克風(fēng)陣列。我們以麥克風(fēng)陣列為例，看看它是如何被捷通華聲攻克？

　　神秘的麥克風(fēng)陣列，是什么樣一種技術(shù)？

　　麥克風(fēng)陣列(Smart Microphone Array)，從字面上，指的是麥克風(fēng)的排列。也就是說由一定數(shù)目的聲學(xué)傳感器(一般是麥克風(fēng))組成，用來對聲場的空間特性進(jìn)行采樣并處理的系統(tǒng)。一般應(yīng)用于語音處理的按一定規(guī)則排列的多個麥克風(fēng)系統(tǒng)，也可以簡單理解為2個以上麥克風(fēng)組成的錄音系統(tǒng)。

　　麥克風(fēng)陣列一般來說有直線形、環(huán)線形和球狀之分，嚴(yán)謹(jǐn)?shù)膽?yīng)該說成一字、十字、平面、螺旋、球形及無規(guī)則陣列等。至于麥克風(fēng)陣列的陣元數(shù)量，也就是麥克風(fēng)數(shù)量，可以從2個到上千個不等。

　　看捷通華聲如何攻克麥克風(fēng)陣列的四大難點！

　　如此復(fù)雜的麥克風(fēng)陣列主要應(yīng)用于工業(yè)和國防領(lǐng)域，消費領(lǐng)域（例如機(jī)器人領(lǐng)域）考慮到成本會簡化很多，但也需要攻克四大技術(shù)難點：

　　01噪音抑制：太嘈雜了，聽不清！

　　語音識別在有些場合需要完全去除噪聲，通話系統(tǒng)中則需要的技術(shù)則是噪聲去除。這里說的噪聲一般指環(huán)境噪聲，比如空調(diào)噪聲，這類噪聲通常不具有空間指向性，能量也不是特別大，不會掩蓋正常的語音，只是影響了語音的清晰度和可懂度。一般情況下，不怎么做強(qiáng)噪聲環(huán)境下的處理，只需滿足日常場景的語音交互就夠了。

　　02聲源定位：聲音太多，在哪里？

　　現(xiàn)實中，聲源的位置是不斷變化的，這對于麥克風(fēng)收音來說，是個障礙。麥克風(fēng)陣列則可以進(jìn)行聲源定位，聲源定位技術(shù)是指使用麥克風(fēng)陣列來計算目標(biāo)說話人的角度和距離，從而實現(xiàn)對目標(biāo)說話人的跟蹤以及后續(xù)的語音定向拾取，是人機(jī)交互、音視頻會議等領(lǐng)域非常重要的前處理技術(shù)。所以麥克風(fēng)陣列技術(shù)不限制說話人的運動，不需要移動位置以改變其接收方向，具有靈活的波束控制、較高的空間分辨率、高的信號增益與較強(qiáng)的抗干擾能力等特點，因而成為智能語音處理系統(tǒng)中捕捉說話人語音的重要手段。

　　03混響消除：享受混響，卻麻煩！

　　一般我們聽音樂時，希望有混響的效果，這是聽覺上的一種享受。合適的混響會使得聲音圓潤動聽、富有感染力。

　　混響(Reverberation)現(xiàn)象指的是聲波在室內(nèi)傳播時，要被墻壁、天花板、地板等障礙物形成反射聲，并和直達(dá)聲形成疊加；而當(dāng)聲源停止發(fā)聲后，聲波在房間內(nèi)要經(jīng)過多次反射和吸收，似乎若干個聲波混合持續(xù)一段時間。

　　混響會嚴(yán)重影響語音信號處理，比如互相關(guān)函數(shù)或者波束主瓣，降低測向精度。由于混響則會使得不同步的語音相互疊加，帶來了音素的交疊掩蔽效應(yīng)(Phoneme Overlap Effect)，從而嚴(yán)重影響語音識別效果。

　　混響去除的效果很大程度影響了語音識別的效果，因此利用麥克風(fēng)陣列去混響的主要方法有以下幾種：

　　a.基于盲語音增強(qiáng)的方法(Blind signal enhancement approach)，即將混響信號作為普通的加性噪聲信號，在這個上面應(yīng)用語音增強(qiáng)算法。

　　b.基于波束形成的方法(Beamforming based approach)，通過將多麥克風(fēng)對收集的信號進(jìn)行加權(quán)相加，在目標(biāo)信號的方向形成一個拾音波束，同時衰減來自其他方向的反射聲。

　　c.基于逆濾波的方法(An inverse filterin gapproach)，通過麥克風(fēng)陣列估計房間的房間沖擊響應(yīng)(Room Impulse Response，RIR)，設(shè)計重構(gòu)濾波器來補(bǔ)償來消除混響。

　　良好的麥克風(fēng)陣列的去混響技術(shù)能很好的對房間的混響情況進(jìn)行自適應(yīng)的估計，從而很好的進(jìn)行純凈信號的還原，顯著的提升了語音聽感和識別效果，在測試對比中，多種混響時間下識別效果接近手機(jī)近講水平。

　　嚴(yán)格來說，這里說的“回聲消除”不應(yīng)該叫回聲，應(yīng)該叫“自噪聲”�；芈暿腔祉懙难由旄拍�，這兩者的區(qū)別就是回聲的時延更長。一般來說，超過100毫秒時延的混響，人類能夠明顯區(qū)分出，似乎一個聲音同時出現(xiàn)了兩次，我們就叫做回聲，比如天壇著名的回聲壁。實際上，這里所指的是語音交互設(shè)備自己發(fā)出的聲音，比如Echo音箱，當(dāng)播放歌曲的時候若叫Alexa，這時候麥克風(fēng)陣列實際上采集了正在播放的音樂和用戶所叫的Alexa聲音，顯然語音識別無法識別這兩類聲音�；芈曄褪且サ羝渲械囊魳沸畔⒍槐Ａ粲脩舻娜寺暎越谢芈曄�，只是延續(xù)大家的習(xí)慣而已，其實是不恰當(dāng)?shù)摹?/div>

　　04云端識別：聲音很多，卻好用！

　　麥克風(fēng)陣列增益，主要是解決拾音距離的問題，若信號較小，語音識別同樣不能保證，通過陣列處理可以適當(dāng)加大語音信號的能量。

　　而波束形成是指將一定幾何結(jié)構(gòu)排列的麥克風(fēng)陣列的各麥克風(fēng)輸出信號經(jīng)過處理（例如加權(quán)、時延、求和等）形成空間指向性的方法。波束形成主要是抑制主瓣以外的聲音干擾，這里也包括人聲，比如幾個人圍繞機(jī)器人談話的時候，機(jī)器人只會識別其中一個人的聲音；但對于機(jī)器人來說，能同時識別不同距離和不同方位的聲源，變得尤為重要——這也代表了人工智能的語音交互領(lǐng)域趨于成熟！

　　對于語音交互中的模型匹配，主要是和語音識別以及語義理解進(jìn)行匹配，使得語音交互成為一個完整的信號鏈，從麥克風(fēng)陣列開始的語音流不可能割裂的存在，必然需要模型匹配在一起。實際上，效果較好的語音交互專用麥克風(fēng)陣列，通常是兩套算法，一套內(nèi)嵌于硬件實時處理，另外一套服務(wù)于云端匹配語音處理；而“本地+云端”中，成立于世紀(jì)之交2000年的捷通華聲是一家專注于智能語音、智能圖像、生物特征識別、語義理解等人工智能技術(shù)的研究與應(yīng)用，全面發(fā)展人工智能云服務(wù)的高新技術(shù)企業(yè)。

　　捷通華聲的靈云平臺在2014年面向人工智能產(chǎn)業(yè)全面開放，并以“云+端”方式，為產(chǎn)業(yè)界提供語音合成（TTS）、語音識別（ASR）、聲紋識別（VPR）、手寫識別（HWR）、光學(xué)字符識別（OCR）、指紋識別（FPR）、機(jī)器翻譯（MT）、自然語言理解（NLU）等全方位的人工智能云服務(wù)；服務(wù)于百度導(dǎo)航、搜狗導(dǎo)航、小米、樂視、京東商場、攜程網(wǎng)、去哪兒網(wǎng)、奔馳、中國農(nóng)業(yè)銀行、導(dǎo)航犬、嘀嘀打車、快的打車、漢字英雄、天行聽書、天行輸入法、觸寶輸入法等知名公司。