將音頻標準提高到新的水平

引言
  要實現高質量的視頻會議,產品的哪個方面的特性最重要?
  多數人大概都會說答案很簡單-- 一流的視頻,然而情況并非如此。目前對于視頻會議的直觀效果來講,一流的音頻是最重要的,因為與會者之間重要信息的交流通常是通過對話和討論實現的。具備好的視頻和出色的音頻的系統(tǒng)比具備出色的視頻和好的音頻的系統(tǒng)要有用得多。幸運的是,寶利通 能向業(yè)界提供具備一流的音頻和視頻的產品,使客戶在購買視頻會議產品時可以輕松地作出選擇。難怪寶利通擁有一半以上的視頻會議產品市場。
  寶利通 和所有視頻會議廠商面臨的一個挑戰(zhàn)是:如何實現一種音頻質量,獲得如同與遠端與會者同在一個房間的效果。從最低要求上講,廠商都在盡量提供相當于傳統(tǒng)電話的話音質量。只有寶利通的音頻質量,能夠達到使遠端參與者如處一室的效果。而其他廠商提供的質量要差得多,以至于沒人會相信他們與遠端處于同一地點。實際上,寶利通的許多競爭者提供的音頻質量甚至還不如普通電話的質量。如果口型與聲音的同步對用戶不是非常重要的話,這些廠商的客戶最好關掉系統(tǒng)的音頻,拿起電話。
  寶利通還利用它特有的音頻技術開發(fā)了LimeLight。這是一種具有音頻自動跟蹤功能的攝像裝置,可以自動對準說話人。這樣,當一個人開始發(fā)言時,不再需要手動調整攝像機去對準他,從而減少了開會時的麻煩。
  為什么寶利通 能提供具有這樣高質量音頻的產品,使它的競爭者黯然失色呢?我們將在下面幾個部分中找到答案。

音頻規(guī)范
  確定人們處于同一房間里的音頻質量的規(guī)范標準是什么?首先,人耳通?梢月犚20Hz到20000Hz之間的頻率。語音信息一般包含在100~7000Hz的范圍內。音樂和其他聲音則通常涵蓋更寬的頻率范圍。舉例如下:

  為了達到人耳的全部聽力范圍,從而模擬正常環(huán)境中的聲音,視頻會議系統(tǒng)應該具有能再現20~20000Hz 范圍的能力。系統(tǒng)必須至少能處理到7kHz頻率,以提供出色的語音質量,有時也稱為FM質量語音。要想達到電話的傳音質量,系統(tǒng)必須能夠支持至少3.4kHz。
  面對面會議的音頻還應具有流暢自然的特點。與會者不必擔心插話是否會引起回聲或聲音的中斷,以及自己所選擇的座位是否會影響聲音的收聽效果。
  為使會議可以有效地進行,視頻會議系統(tǒng)同樣必須提供這種級別的交互性。全雙工技術允許自然的插話,智能的麥克風和自動增益控制(AGC)技術使用戶可以隨處落座,并且講話又能被聽見。

寶利通創(chuàng)新的、業(yè)界領先的方案
  音頻壓縮和傳輸算法
  為了提供最高質量的音頻,寶利通的所有產品都可以在標準的、以及自己專有的技術下,提供7kHz、3.4kHz兩種音頻模式。這些算法是:
  G.711  3.4kHz音頻標準,占用網絡56~64kbit/s
  G.728  3.4kHz音頻標準,占用網絡16kbit/s
  G.722  7kHz音頻標準,占用網絡48~64 kbit/s
  PT724  寶利通 專有算法,可以提供7kHz 音頻,占用網絡24 kbit/s
  PT716plus  寶利通 專有算法,可以提供7kHz 音頻,占用網絡16、24或32kbit/s

  PT724使寶利通的客戶在與寶利通的其他客戶通信時,可以在最多占用工業(yè)標準一半帶寬的情況下獲得7kHz的音頻。這樣,它在提供一流的音頻質量的同時,至少能將額外的24kbit/s分配給數據傳輸或用于改善視頻質量。與使用48kbit/s提供7kHz音頻質量的G.722(除寶利通以外的所有視頻會議廠商就是采用這種方法)相比,PT724具有以下優(yōu)勢:

  省出的比特非常寶貴,它使數據的傳輸速度更快,或使寶利通領先業(yè)界的視頻質量更好。
  所有寶利通產品都包含PT724。PT724 應用于SG4 通信,以及寶利通設備之間的 H.320標準的通信(通常被稱為H.320plus)。工業(yè)標準的音頻算法通常只應用于與非寶利通設備之間的操作。一些愿意犧牲保真度的客戶也可能選擇G.728,因為他們需要額外的8kbit/s 以滿足數據或視頻的高要求。
  寶利通一直在不斷改進語音壓縮技術,發(fā)展了PT716plus。PT716plus只用16kbit/s 即可給出7kHz的音頻帶寬,從而可以再省下一個8kbit/s(與PT724相比)以用于改善視頻質量。測試顯示PT716plus的音頻質量與需用48kbit/s的ITU標準--G.722的質量相同。
  1999年9月,ITU最新推出的G.722.1標準,即是源自寶利通的PT716算法。G.722.1,能夠在24或32kbps速率下提供7kHz的音頻帶寬,是普通電話呼叫質量的兩倍多,所用速率僅為先前標準的一半。
  寶利通的競爭對手無一擁有專有的音頻算法。因此,他們的產品要么犧牲音頻質量,要么需要更大的頻道帶寬。

拾音技術
  寶利通以其真正創(chuàng)新的麥克風拾音技術領導視頻會議業(yè)界。寶利通音頻研究組開發(fā)的麥克風技術將使寶利通產品在未來的許多年里一直處于音頻技術的前沿。該技術有助于在SG3、SG4、H.320或標準的聲音呼叫(例如,在Concord 上使用Voice Call 選項)時,提供盡可能最佳的音頻質量。

定向麥克風
  寶利通競爭對手提供的大多數視頻會議系統(tǒng)使用的是簡易定向麥克風。通常這些麥克風的拾音范圍是+/-45度(從麥克風前端的軸線測量)。這些麥克風可以在7英尺(2.1米)的范圍內拾音。由于麥克風的拾音范圍固定,所以任何拾音范圍之外的聲音都不會被聽見,而拾音范圍內的任何噪音源包括麥克上方的通氣孔都會被傳送到遠端。
  對于那些小型會議,只要與會者位于拾音的有限范圍內,而噪音源又不在主要的拾音路徑上,那么用這種麥克風技術也是可以的。但當這類技術用于大型會議時,與會者必須注意坐在麥克風周圍特定的位置,在通話時移動麥克風,或在房間內串聯上多個麥克風。但是,如果系統(tǒng)不使用特殊的智能,串聯麥克風將會導致雜音和回聲,而寶利通大多數競爭者沒有這樣的功能。
  寶利通 的某些產品使用簡易定向麥克風。寶利通的桌面系統(tǒng)使用這種技術,因為其成本低廉,而且多數用戶都位于桌面系統(tǒng)的7英尺和+/-45度的范圍內。

超級定向麥克風陣列
  超級定向麥克風陣列是 SwiftSite產品的標準配置,安裝于系統(tǒng)內部。SwiftSite放置在電視監(jiān)視器的頂部。超級定向麥克風陣列由三個排成一條線的麥克風組成,來自每個麥克風的信號經過處理和組合后,拾音以及降噪能力要遠遠好于單個定向麥克風。使用這種陣列,再結合寶利通音頻研究組發(fā)明的一些非常復雜的處理手段,超級定向麥克風陣列的拾音范圍可以達到10英尺(3米)內的+/-45度。該麥克風技術還能在保持對說話者最佳拾音效果的同時,使噪音源方向的信號失效。因此,電扇和通風口的背景噪音大大降低,而人們的說話聲則既清晰又響亮。
  超級定向麥克風陣列是寶利通開發(fā)的一項獨一無二的技術,它使SwiftSite產品成為高集成的單一頂置盒裝置。在小房間里,即使桌子上沒有外接麥克風,也能達到高質量的音頻效果。SwiftSite設備里超級定向麥克風陣列的拾音范圍極其優(yōu)越,提供的拾音效果要比標準的定向麥克風優(yōu)良得多。當然,如果房間比較大,SwiftSite的客戶可以選購PowerMic以獲得更好的拾音效果。

PowerMic
  一種更為復雜的、名叫PowerMic的麥克風是Venue Model 50和Concorde/System 4000ZX產品的標準配置。Venue Model 30 和SwiftSite 產品線也可以選擇配置它。
  PowerMic是音頻領域的革命性成果。該技術的拾音范圍覆蓋7英尺內的360度,可以獲得麥克風周圍的所有聲音。PowerMic內置有4個麥克風,PowerMic通過對它們信號的合成,能提供可控制的拾音范圍。當有人開始發(fā)言時,麥克風能夠智能地將拾音方向轉向前當發(fā)言者,在拾音布局方位發(fā)生變化時不會造成任何中斷。在大房間里,可以串聯多個PowerMic以提供更大的拾音范圍。由于寶利通音頻系統(tǒng)內有智能算法,串聯多個PowerMic不會像串聯一般定位麥克風那樣帶來不良效果。
   PowerMic的另一個主要優(yōu)點是它的拾音布局中有朝向天花板的靜音裝置。這有利于將空調通風口的噪音從音頻拾音路徑中消除掉。一般的定位麥克風沒有這種非常有用的性能。
  因此, 使用PowerMic時,人們可以在房間中隨處落座,而不必擔心自己的聲音會不會被漏掉。此外,它還有從音頻信號中消除雜音的好處,沒有任何競爭對手音頻拾音裝置可與它媲美。

音頻增強算法
  除了能提供業(yè)界領先的音頻拾音技術外,寶利通還引入了幾種音頻增強算法,它們將有助于增強與遠端處于同一房間的真實感。這些算法包括:
  IDEC  集成的動態(tài)回聲消除器(以提供真正的全雙工音頻)
  ANS  自動噪音抑制(消除房間噪音)
  AGC  自動增益控制(使說話的音量正常)

* IDEC
  IDEC是寶利通音頻研究組目前最卓著的成果。回聲是視頻會議和喇叭擴音器應用中最難解決的音頻問題。如果遠端的聲音通過揚聲器進入房間,然后被麥克風接收,聲音將會傳回遠端。如果不采取任何措施,將會導致不小的回聲問題。使用簡單的回聲消除設備時,在當遠端說話的時候,近端的麥克風被關掉。在有人插話或兩個人同時講話時,這種半雙工方式會導致在某些系統(tǒng)中常會聽到的中斷。這樣一來,聲音不是自然的,不能再現面對面交談的聲音質量,甚至還不如通過電話交談的聲音效果。
  有了IDEC,真正的全雙工音頻得以實現,因此,插話和兩個人的同時講話不會造成普通揚聲器和視頻會議產品里的回聲和中斷。其他試圖靠粗劣模仿IDEC來取得全雙工音頻效果的揚聲器和視頻會議系統(tǒng)存在大量的中斷和回聲問題,它們常常被叫做3/4雙工。
  IDEC 為何這樣特別呢?簡單地說,對于揚聲器、房間和本地麥克風對從來自遠端的音頻信號的所有影響,IDEC都加以分析。隨后,IDEC建立一個極其復雜的房間模型,用它來預測本地麥克風如何接收未來發(fā)自遠端的音頻信號。然后,從本地音頻里減去這些被預測到的信號,回聲就不會被傳送,從而實現沒有中斷的全雙工音頻;芈曇虼吮幌,本地的語音可以清晰而響亮地到達遠端。
  IDEC不斷更新房間環(huán)境的模型,因此如果麥克風移動了或房間變樣,IDEC會迅速(在幾秒鐘內)進行調整并繼續(xù)提供全雙工音頻。對于沒有調整能力、特別是那些在通信開始需要靠傳送幾秒雜音進行人工設置的同類產品來說,IDEC 具備顯著的優(yōu)勢。如果采用那些系統(tǒng),移動麥克風、人們走動或房間稍稍變樣都會大大影響回聲消除器的消音效果。
* ANS
  ANS(自動噪音抑制)是寶利通開發(fā)的一種技術,它可以降低聲音頻道里的噪音。ANS 算法能夠識別真正的聲音信號(例如語音)和由通風口、風扇等引起的背景噪音之間的不同。ANS借助它建立的噪音源模型,甚至可以在有說話聲的情況下消除雜音。ANS能大大改善簡易定位麥克風的主觀質量,在與PowerMic或超級定位麥克風陣列共同用于大多數會議環(huán)境時,幾乎沒有雜音。
  寶利通許多競爭對手的系統(tǒng)沒有噪聲抑制,在背景音里總能聽到嘶嘶聲。一些廠商試圖使用噪聲門限消除雜音,但當本地的音量低于設定的門限值時,這種做法也把麥克風關閉了。他們總是按噪音低于門限值而所有真正的聲音信號高于門限值來考慮,這種處理會導致一個人講話時,如果有人輕敲桌子、關門或噪音量高于門限值時,產生時強時弱的嘶嘶聲,其結果令人非常惱火。
* AGC
  AGC(自動增益控制)是另一種算法,它極大地改進了寶利通產品的音頻拾音系統(tǒng)。AGC能智能地調節(jié)音量,使離麥克風較遠的人的聲音聽起來和離麥克風較近的人的聲音一樣。AGC 借助尖端智能使耳語的音量低到不會被遠端的人聽見,使人們的大聲喊叫一如他們期望的那樣能夠有力地表達出自己的觀點。
  AGC 可以放大離麥克風12英尺(3.7米)內的說話音量,有效地增加PowerMic、SwiftSite超級定向麥克風和任何定向麥克風的拾音半徑。
  寶利通 競爭對手的AGC實現不像寶利通算法那樣完善。它們增加音量的能力有限,并且不知道具體該增加多少音量。

聲音的定位(LimeLight)
  現在,大多數視頻會議進行時都將可移動的攝像機設置在固定位置。開會者要么不愿或擔心要學習如何控制攝像系統(tǒng),要么寧愿把注意力投向會議的主題。這種會議的畫面實際上是廣角鏡頭,喪失了視頻會議本應具有的面對面時的直接性和人際交流。最糟的時候,一些發(fā)言積極的與會者也許根本進不到畫面中去。
  LimeLight 是一種智能的自動攝像機定位機械裝置。它通過使用麥克風陣列和聲音信號處理來確定發(fā)言者的方位,然后參考一系列的內部規(guī)則決定向何處和如何移動鏡頭;它控制主攝像機進行搖、拉、推,將發(fā)言者收入畫面。采用LimeLight的會議不需要開會者調整攝像機,相反,攝像機將在兩到三秒的采樣間隔后對準說話人。以LimeLight為媒介的會議參加者反映當前發(fā)言者能夠被顯示,使會議體驗更加豐富。裝上LimeLight后, 不僅增加了顯示內容,還免去了大量人工控制攝像機的操作,從而使我們向自動控制會議的目標邁進了一步。
  事實上,所有的視頻會議都能從LimeLight技術中受益,但受益最大的是那些包括兩個或兩個以上的參加者以及在大中型房間里進行的會議。
  LimeLight 的設計思想是按照人工操縱的方式移動攝像機;驹O想是攝像機應該以適合會議發(fā)言活動的方式進行移動。為達到這種效果,LimeLight系統(tǒng)能夠迅速、可靠并準確地確定房間里的說話者位置,并根據這些信息決定否移動攝像機、向何處以及如何移動攝像機。LimeLight的所有此類活動進行時不需要開會者的介入。
   LimeLight 的另一個特點是其攝像機的自動定位模式與人工攝像控制模式結合得十分完美。使用者不管出于什么原因都可以要求打開相應的人工攝像控制,或暫停、關閉和打開LimeLight的自動攝像定位功能。LimeLight 系統(tǒng)提供給用戶反饋,并清晰表明"自動到手動"對準模式的操作特性的改變。
  具備LimeLight的寶利通系統(tǒng)比傳統(tǒng)的寶利通 手動控制系統(tǒng)要容易使用,因此,LimeLight既能適用于該領域里業(yè)已使用的機動攝像裝置系統(tǒng),也能適合目前手動控制的寶利通 VCS平臺。

拾音技術
  寶利通以其真正創(chuàng)新的麥克風拾音技術領導視頻會議業(yè)界。寶利通音頻研究組開發(fā)的麥克風技術將使寶利通產品在未來的許多年里一直處于音頻技術的前沿。該技術有助于在SG3、SG4、H.320或標準的聲音呼叫(例如,在Concord 上使用Voice Call 選項)時,提供盡可能最佳的音頻質量。

聲音再現
  多年以來,寶利通的集團視頻會議系統(tǒng)在再現聲音時用的都是電視監(jiān)視器的揚聲器。但這些揚聲器通常再現語音的效果不是很好,而語音在視頻會議應用中是最常被傳送 的音頻信號。電視揚聲器一般用來進行適當且低廉的全帶寬音頻再現,因此多數揚聲器常常聽起來象廉價的內置式揚聲器。在視頻會議中,揚聲器最重要的要求是話音清晰。
  就象家庭影院的廠商為節(jié)目和電影中的語音提供優(yōu)越的中央通道揚聲器,同樣,寶利通推出了能實現視頻會議最佳質量語音再現的定制的高保真揚聲器。這種揚聲器由BOSE 和寶利通共同開發(fā)而成,可以非常逼真地再現語音,忠實地再現深沉嗓音的低頻和改善語音清晰度及易懂度的高頻。該揚聲器尺寸雖小,但對80Hz(大多數人最低的聲音頻率)的響應曲線與對1kHz的響應曲線相差最多2dB。該揚聲器還可以與WorldCart 和SystemCart2000完美地結合。它是Venue Model 50和Concorde 的標準配置,其他產品可選用。

寶利通的完整解決方案
  有了這些一流的音頻技術,不難理解寶利通 為何會技壓群雄。沒有哪個廠商能夠提供與寶利通可堪媲美的音頻質量-- 一種與遠端如處一室的質量。

視頻會議系統(tǒng)中的音頻測試指南

  音頻測試最重要的規(guī)則是埋怨另一邊!如果你聽見自己的揚聲器里傳出了回聲、雜音或失真,很可能你聽到的是來自另一端的噪音,而不是來自你的房間里。下面是測試步驟:
(1)在視頻通信時,在近端和遠端同時安置測試人員(非公司演示向導)。
(2)確保遠端和近端的房間沒有被墊上襯墊或經過特殊處理,而是具備有硬質墻面和空調等物的一般房間環(huán)境。
(3)讓遠端的人從麥克風處后退幾步并輕聲說話,再讓遠端的人走到麥克風后并輕聲說話。仔細聽話音的開始或結束。仔細聽消失又出現的背景雜音。測試時音頻聽起來應十分自然。
(4)確保遠端和近端揚聲器的音量適當。讓遠端的人不斷地讀些東西。當遠端的人在閱讀時,你自己也讀點東西。在該次雙重談話測試中,
  兩邊的人都仔細聽被中斷或失真的詞。優(yōu)良的回聲消除器在測試期間只會有微弱的失真。
(5)當你對著遠端閱讀時,讓遠端的人移動麥克風?匆豢贷溈孙L移動后,你的聲音的回聲要多久才能消失(回聲消除器的收斂時間)。優(yōu)良的回聲消除器只需幾秒即可進行再次收斂。