美女视频黄视频美女大全免费看,mmm131美女视频

讓視頻會議多一些人工智能

劉喜喜 2008/05/28

　　網(wǎng)絡(luò)視頻會議中，人們都希望能實(shí)現(xiàn)發(fā)言人的特寫與其聲音同步的音視頻效果。那么，這一技術(shù)如何突破傳統(tǒng)的人工搜索方式，讓設(shè)備自己也能“尋聲辯人”呢？

　　說話人的聲音不能被清楚地收音，會議雙方聽不到對方的聲音，產(chǎn)生回音或者斷續(xù)音現(xiàn)象從而使與會雙方無法互相理解……即使現(xiàn)在使用視頻會議系統(tǒng)時(shí)，我們?nèi)猿Ｓ龅竭@樣的問題。如何盡可能逼真地遠(yuǎn)程再現(xiàn)會議環(huán)境的聲音和圖像，給人以身臨其境之感，一直是聲音處理領(lǐng)域的頭等課題。

　　在視頻會議產(chǎn)品領(lǐng)域，中國產(chǎn)品重視視頻編解碼與聲音處理技術(shù)，歐美產(chǎn)品更著重軟硬件設(shè)備、管理套件以及與統(tǒng)一通信架構(gòu)融合的研究，而日本的產(chǎn)品則堅(jiān)持其一貫的技術(shù)分工精細(xì)的主張：索尼在顯示器領(lǐng)域深耕，雅馬哈則在音頻處理領(lǐng)域細(xì)作。

　　日前，日本雅馬哈在中國推動(dòng)PJP（Projectphone）網(wǎng)絡(luò)會議系列產(chǎn)品巡展，試圖為該領(lǐng)域引入另一種完全不同的技術(shù)解決思路。通過本報(bào)記者對日本雅馬哈株式會社Sound Network事業(yè)部長田丸卓也、雅馬哈中國網(wǎng)絡(luò)會議系列產(chǎn)品技術(shù)總監(jiān)谷田的專訪，以下問題將得到解答：雅馬哈會采用哪些技術(shù)解決目前聲音傳輸?shù)蔫Υ�，并輔助視頻功能？視頻會議中惱人的回聲與吞字現(xiàn)象如何得到解決？會議中重要的錄音功能，該如何設(shè)計(jì)？如何以人工智能的思路來設(shè)計(jì)網(wǎng)絡(luò)與視頻會議產(chǎn)品，最終使這一計(jì)算機(jī)科技成果貼近自然、符合人類習(xí)慣？

　　讓機(jī)器學(xué)會尋聲辨人

　　據(jù)谷田介紹，如何將新型視頻會議系統(tǒng)擬人化，以貼近人工智能需求，是雅馬哈PJP系列倡導(dǎo)的最新網(wǎng)絡(luò)會議技術(shù)理念。這些理念將通過瞬間呈現(xiàn)技術(shù)、聲音非增幅音響設(shè)計(jì)、內(nèi)置適應(yīng)型回聲消除器等一系列技術(shù)得以體現(xiàn)。

　　假如甲地和乙地一起舉行遠(yuǎn)程視頻會議，甲地人員如何清楚確定乙地哪位與會者正在發(fā)言（視頻追蹤）十分重要。在處理這一問題上，思科、北電—寶利通采取的措施霸氣十足：打造一個(gè)30萬美元以上的網(wǎng)真會議室，租用超寬帶寬傳輸聲音和圖像，用超大電視墻1∶1地還原場景和參會者；而蘇州科達(dá)等國內(nèi)企業(yè)的做法相對經(jīng)濟(jì)實(shí)惠：用甲地員工手中的遙控器去控制乙地會議室攝像頭的轉(zhuǎn)動(dòng)和焦距調(diào)節(jié)，尋找小顯示屏幕一次裝不下的參會者或給出特寫鏡頭。總體來說，這兩種做法都使用的是“尋聲辨人”的方式，但用的是人眼搜索。

　　雅馬哈給這一問題增加了一條技術(shù)解決路徑，那就是使攝像頭學(xué)會尋聲辨人。谷田向記者介紹道：“不要忽略人類都是‘尋聲望去’這一聽覺的天性，在視頻會議系統(tǒng)中，視頻顯示與聲音的處理技術(shù)其實(shí)是密不可分的。以PJP-300V這款攝像頭、麥克風(fēng)、揚(yáng)聲器一體機(jī)為例，它可以實(shí)現(xiàn)說話人瞬間顯示的功能。即使使用普通液晶屏幕，會議發(fā)言人的特寫和聲音也能瞬間呈現(xiàn)�！边@項(xiàng)技術(shù)的實(shí)現(xiàn)，依靠的是在PJP-300V上面配列16個(gè)麥克風(fēng)陣列，可以自動(dòng)判別說話人的位置；通過說話人的位置信息和3個(gè)攝像機(jī)的切換、聯(lián)動(dòng)，使說話人可以瞬間在屏幕上顯示出來。這項(xiàng)技術(shù)不需要攝像頭的切換動(dòng)作，保證了會議順暢進(jìn)行。同時(shí)這項(xiàng)瞬間呈現(xiàn)技術(shù)，在桌面型VoIP電話中也可以應(yīng)用，使音頻會議呈現(xiàn)立體感，實(shí)現(xiàn)與語話者座位的匹配。

　　回聲與吞字現(xiàn)象的消除

　　聲音從會議系統(tǒng)的揚(yáng)聲器中播放，又回到麥克風(fēng)的時(shí)候，容易產(chǎn)生回音。會議過程中，異地雙方進(jìn)行激烈的快語速交談時(shí)，往往會出現(xiàn)“吞字”的現(xiàn)象，即首句的末字與后句的首字會發(fā)生重疊和消音。當(dāng)會議變成多地、多人同時(shí)發(fā)言的時(shí)候，這種情況將更糟。

　　針對這些問題，谷田介紹了雅馬哈成功應(yīng)用于產(chǎn)品中的基于參照人類講話方式設(shè)計(jì)的兩種技術(shù)。第一，使用適應(yīng)型回聲消除器消除回音。什么是適應(yīng)型回聲消除器？谷田解釋道，就是系統(tǒng)可以自動(dòng)學(xué)習(xí)周圍音場環(huán)境和旋繞余音，并算出濾波系數(shù)，從而使用戶不必依房間類型選擇不同的產(chǎn)品，節(jié)省了重復(fù)購置產(chǎn)品的成本。第二，據(jù)點(diǎn)語音分隔模式可以幫助我們解決吞字的難題。雅馬哈PJP-100H形狀窄長，具有12個(gè)揚(yáng)聲器和16個(gè)麥克風(fēng)，沒有MCU時(shí)，最多可以連接8個(gè)據(jù)點(diǎn)的音頻會議�！霸谑褂盟M(jìn)行多地點(diǎn)會議的時(shí)候，讓各地點(diǎn)的聲音從揚(yáng)聲器的不同方向傳送至與會者，聲音不會混雜，不但能清楚地收聽，而且能簡單地識別出是哪個(gè)連接地點(diǎn)的發(fā)言。”

　　只收錄需要的聲音

　　谷田表示，如何讓機(jī)器學(xué)會只錄取特定人和特定聲音是視頻會議音頻處理技術(shù)的重要研究方向，也是雅馬哈人工智能理念的體現(xiàn)。

　　首先，在網(wǎng)絡(luò)或視頻會議進(jìn)行的過程中，如果在開放空間或者有來自投影儀等雜音源的場所，如何識別音源的位置是對視頻會議產(chǎn)品與技術(shù)的一個(gè)挑戰(zhàn)。

　　面對這個(gè)挑戰(zhàn)，雅馬哈采取的對策是，使會議用傳聲揚(yáng)聲器可以根據(jù)場面的不同而采取不同的收音模式。該揚(yáng)聲器中的麥克風(fēng)陣列可以識別音源的位置，只收錄說話人的聲音，并清楚地傳達(dá)給對方。具體到具備了這樣功能的PJP-100H上，它擁有三種特定模式：第一，區(qū)域模式：最適合在安靜環(huán)境下的會議，在場所有人的聲音都可被錄入；第二，點(diǎn)式模式：可收錄特定方向上的聲音；第三：追蹤模式，設(shè)備可以自動(dòng)追蹤發(fā)言人的聲音。

　　其次，視頻會議系統(tǒng)通常會面臨出差員工從外地接入，參加會議這樣的情況，臨時(shí)會議錄音功能非常重要。市場上現(xiàn)有的產(chǎn)品一般的解決思路是靠一臺筆記本電腦、軟件外加耳麥，組成臨時(shí)的視頻會議端點(diǎn)。但是，長時(shí)間使用耳麥容易造成疲勞，也不利于兩位以上的出差員工同時(shí)參與。因此，雅馬哈研制了一系列輕巧、便于攜帶的Web會議用傳聲揚(yáng)聲器，采用USB供電的方式，供連接筆記本電腦使用。

　　針對此類產(chǎn)品，谷田如此描述他們的技術(shù)設(shè)計(jì)思路：這類小型揚(yáng)聲器具備和個(gè)人電腦、音樂播放器連接，以增強(qiáng)其使用率；但更重要的是，不能忽略其傳聲和會議錄音的功能，只錄最需要的聲音。在一次對此類產(chǎn)品PJP-25UR的體驗(yàn)中，記者一邊利用揚(yáng)聲器大聲播放電腦中的音樂，同時(shí)利用揚(yáng)聲器錄音現(xiàn)場的對話。最后播放錄音，里面只能聽到記者說話的聲音，完全沒有音樂等雜聲。田丸卓也表示，這是通過對揚(yáng)聲器和軟件的設(shè)定實(shí)現(xiàn)的。

　　多終端自由接入會議

　　在企業(yè)辦公自動(dòng)化朝統(tǒng)一通信發(fā)展的大趨勢下，視頻會議應(yīng)該要考慮到“無處不在”的接入特性。谷田告訴記者，多種多樣的連接終端可以使與會者成功應(yīng)對各種場面，雅馬哈的設(shè)計(jì)理念是在產(chǎn)品中配置3個(gè)端口：LAN連接、模擬電話線、與PC連接的AUDIO（IN/OUT）。這一理念使得手機(jī)、固定電話、PC、筆記本電腦都可穩(wěn)定用聲音加入IP音頻會議、Web會議或者視頻會議系統(tǒng)。

　　日本雅馬哈株式會社Sound Network事業(yè)部長田丸卓也：“寶利通在中國市場會出現(xiàn)一個(gè)新的競爭者——雅馬哈�！�

　　雅馬哈中國網(wǎng)絡(luò)會議系列產(chǎn)品技術(shù)總監(jiān)谷田：“使會議系統(tǒng)更逼真地滿足人工智能需求，是網(wǎng)絡(luò)會議技術(shù)未來的發(fā)展方向�！�

　　VoIP技術(shù)支持模塊

　　為了在IP網(wǎng)絡(luò)中實(shí)現(xiàn)語音傳輸并保證一定的服務(wù)質(zhì)量，基于IP的語音傳輸系統(tǒng)中通常包含有以下的技術(shù)支持模塊。

　　信令模塊

　　信令是順利實(shí)現(xiàn)電話呼叫和保證話音質(zhì)量的重要技術(shù)前提，目前被廣泛接受的IP語音傳輸控制信令體系包括ITU－T的H.323系列和IETF的會話初始化協(xié)議SIP。

　　編碼模塊

　　話音壓縮編碼技術(shù)是IP語音傳輸技術(shù)的一個(gè)重要組成部分。目前，主要的編碼技術(shù)有ITU－T定義的G.729、G.723(G.723.1）等。

　　QoS保障模塊

　　IP語音傳輸業(yè)務(wù)的QoS保障技術(shù)是當(dāng)前業(yè)界探討最多的話題，IETF建議了數(shù)種支持QoS的技術(shù)解決方案，主要有：綜合服務(wù)（Int－serv）/資源預(yù)留協(xié)議（RSVP）、區(qū)分服務(wù)（DiffServ）、多協(xié)議標(biāo)簽交換（MPLS）、業(yè)務(wù)流量工程（Traffic Engineering）等。

中計(jì)報(bào)(www.ccidnet.com)

相關(guān)鏈接:

四招打造SMB視頻會議方案 2008-05-28

視頻會議系統(tǒng)應(yīng)用方案的比較 2008-05-28

孫朝暉：移動(dòng)多媒體廣播的發(fā)展戰(zhàn)略 2008-05-26

中小企業(yè)安全性是移動(dòng)運(yùn)營商視頻監(jiān)控產(chǎn)品主要針對點(diǎn) 2008-05-22

視頻化身消息應(yīng)用服務(wù)：你看到我了嗎？ 2008-05-20

分類信息: