江疏影视频资源,美女视频视频视频,国产高清美女视频

　　線上會議、在線教育、電商直播等多個場景的興起，也使得實時互動技術(shù)從幕后走到臺前，得到了更多人的關(guān)注。編解碼、網(wǎng)絡(luò)傳輸、計算機視覺等 RTE 相關(guān)的一系列技術(shù)也正煥發(fā)出更強的生命力。2021 年，在深度學習、5G 等技術(shù)的加持下，RTE 會進一步催生哪些可能？

　　聲網(wǎng)Agora 開發(fā)者社區(qū)聯(lián)合 InfoQ 共同策劃，邀請了聲網(wǎng)Agora 開發(fā)者社區(qū)中的多位技術(shù)專家，從視頻傳輸、計算機視覺、編解碼標準發(fā)展、WebRTC、機器學習、音頻技術(shù)等角度，共同撰寫「2021 實時互動技術(shù)展望系列」，一窺技術(shù)新趨勢。本文源于對北京大學王選計算機研究所的張行功教授的采訪。本系列內(nèi)容由聲網(wǎng) Agora 開發(fā)者社區(qū) 與 InfoQ 聯(lián)合策劃，并由 InfoQ 審校，首發(fā)于 InfoQ。

　　在 RTC 技術(shù)領(lǐng)域，如何兼顧實時視頻傳輸?shù)牡脱訒r和視頻質(zhì)量，以及如何評定視頻傳輸質(zhì)量，始終都是備受關(guān)注的話題。隨著 5G 的商用，視頻傳輸在協(xié)議層、應用層又面臨著一些急需解決的變革。盡管不少 AI 模型在編解碼、傳輸層已經(jīng)開始落地應用，但其實 AI 模型還有很大的提升空間。我們邀請了北京大學王選計算機研究所的張行功教授，聊聊 2021 年視頻傳輸技術(shù)、VR 視頻以及 AI 模型在 RTC 領(lǐng)域應用，將會發(fā)生哪些改進與革新。

　　實時網(wǎng)絡(luò)擁塞控制

　　聲網(wǎng)開發(fā)者社區(qū)：您曾經(jīng)在演講中分享過實時網(wǎng)絡(luò)擁塞控制的研究思路。有提到數(shù)據(jù)驅(qū)動的網(wǎng)絡(luò)模型，用于預測網(wǎng)絡(luò)狀況，您還引入了神經(jīng)網(wǎng)絡(luò)。您認為目前網(wǎng)絡(luò)擁塞控制算法的瓶頸是什么？引入神經(jīng)網(wǎng)絡(luò)帶來哪些改變？

　　張行功：我們先看一下網(wǎng)絡(luò)擁塞控制的目標是什么，尤其在實時音視頻傳輸方面。第一個目標就是要求公平，其次就是低延時，最后是帶寬使用率。

　　實現(xiàn)上述三個目標，最大的問題是無法預測其他用戶行為方式，互聯(lián)網(wǎng)是一個開放共享的網(wǎng)絡(luò)。

　　另一個瓶頸就是由于存在網(wǎng)絡(luò)延遲，無法獲得最新的網(wǎng)絡(luò)狀態(tài)。

　　所以這些障礙會限制我們的決策，即決定應該發(fā)多少數(shù)據(jù)量，才能保證低延遲、高帶寬，尤其在物理鏈路波動劇烈的 4G/5G 移動網(wǎng)絡(luò)。

　　在一個不清楚網(wǎng)絡(luò)狀態(tài)和動態(tài)變化的網(wǎng)絡(luò)環(huán)境下，要實現(xiàn)上述三個目標，那么這就是擁塞控制面臨的最大挑戰(zhàn)。傳統(tǒng)上有很多種方法對網(wǎng)絡(luò)帶寬或者網(wǎng)絡(luò)延時進行探測、建模，例如 AIMD、delay-based 等方法。但是由于互聯(lián)網(wǎng)太過于復雜，尤其是互聯(lián)網(wǎng)用戶的行為不可預測，傳統(tǒng)上用數(shù)學模型的方法來描述網(wǎng)絡(luò)狀態(tài)是已被證明不夠準確的了。

　　基于上述原因，我們引入了神經(jīng)網(wǎng)絡(luò)和機器學習方法，進行擁塞控制研究。主要包括兩部分，一部分是公平性目標，可采用數(shù)學模型，這是針對網(wǎng)絡(luò)模型中可以抽象出來的，而且并且可以去驗證和重現(xiàn)的特征，進行數(shù)學建模。另一部分是網(wǎng)絡(luò)狀態(tài)，尤其像現(xiàn)在的互聯(lián)網(wǎng)狀態(tài)，它缺乏比較明確的數(shù)學模型，那么采用統(tǒng)計和機器學習就是一個比較好的方法。

　　聲網(wǎng)開發(fā)者社區(qū)：神經(jīng)網(wǎng)絡(luò)、深度學習，被當做工具應用到了很多 RTC 技術(shù)環(huán)節(jié)中，比如網(wǎng)絡(luò)傳輸、編解碼。僅視頻網(wǎng)絡(luò)傳輸層面，您認為 AI 模型這個工具是否已經(jīng)被物盡其用了？還有哪些可以改進或發(fā)揮的空間？

　　張行功：在我看來，現(xiàn)在機器學習在網(wǎng)絡(luò)中的使用，還處于一個非常初級的階段。它的潛力還沒有被充分挖掘出來，目前大家只是嘗試用它解決一些簡單問題，但有時效果并不好。

　　這里涉及到一個問題，什么地方適合用機器學習或 AI 模型，什么時候不適用？

　　其實并不是所有的問題，只要把數(shù)據(jù)給機器學習的模型，它都能處理。因為這也違背了人類對智能的定義。智能本來就分成演繹推理部分和歸納推理部分。AI 模型只能代表歸納部分，演繹推理的職能它還承擔不了。

　　所以從這個角度來講，我覺得機器學習的潛力遠遠的沒有被發(fā)揮出來，尤其在網(wǎng)絡(luò)領(lǐng)域，還有很多新的技術(shù)沒有被發(fā)掘。

　　一個可能的改進方向，從目前來看，不管在網(wǎng)絡(luò)傳輸還在編碼部分的應用上，AI 模型一般都對數(shù)據(jù)有依賴，那么一旦換了一個數(shù)據(jù)集或換了一個場景，它的性能表現(xiàn)就會變差。

　　這其實證明了現(xiàn)在的機器學習算法有很大的局限性，其中最重要的一個問題就是模型在設(shè)計時，并沒有針對于數(shù)據(jù)集的通用性和局限性，設(shè)計出一個泛化性能更好的，適用于不同場景的積極學習的模型。

　　所以，我覺得未來機器學習的發(fā)展，更會從一種模型復用和小樣本學習的角度去設(shè)計，而不僅僅在神經(jīng)網(wǎng)絡(luò)本身去做優(yōu)化。舉個例子，我們在做傳輸?shù)臅r候經(jīng)常講預測帶寬。我們可以根據(jù)歷史的數(shù)據(jù)，去預測未來的網(wǎng)絡(luò)帶寬。但是訓練出來的模型，一旦換了一個網(wǎng)絡(luò)環(huán)境，比如從 4G 到 5G，這時訓練后的模型到新的環(huán)境下，泛化性就特別差。這也就是為什么一些新的機器學習的方法，會從架構(gòu)上來改進。

　　聲網(wǎng)開發(fā)者社區(qū)：目前大家普遍都是在 4G 網(wǎng)絡(luò)下進行實驗和應用落地。不過大家也在關(guān)注 5G。您認為 5G 商用后，視頻傳輸相關(guān)的技術(shù)，比如從協(xié)議層面、算法層面，會需要作出哪些改進來適應這樣的網(wǎng)絡(luò)變化？

　　張行功：5G 出現(xiàn)后，會對傳輸層協(xié)議的要求更高，這里面主要有幾個原因：首先是由于 5G 的帶寬更大了，然后是由于 5G 的抖動，不管是延遲抖動還是帶寬波動都會更大，已經(jīng)遠遠超出了 4G 范疇。

　　這里先解釋一下，為什么 5G 網(wǎng)絡(luò)抖動會更大？通過測量發(fā)現(xiàn)，5G 是通過時間片方式調(diào)度頻譜資源，這意味著將某個時間片分配給一個用戶時，它帶寬資源是獨占的，但在其他時刻是得不到網(wǎng)絡(luò)資源的。因此，如果我們從非常細的粒度，比如從某一個數(shù)據(jù)包的角度來看，它的延時波動以及數(shù)據(jù)包之間的帶寬波動都會非常劇烈。5G 的理論帶寬是 1GB/s，所以一旦出現(xiàn)某個時間片未將資源分配你的時候，那么你的帶寬波動會非常大。

　　除了以上兩點，5G 會帶來邊緣計算的普及，未來很多數(shù)據(jù)和服務都會放在一些邊緣服務器上。邊緣計算加上 5G 的整個物理帶寬和延時的提升，會倒逼傳輸層協(xié)議的改進。不管是傳統(tǒng)的 TCP 還是這些年大家比較關(guān)注的像 QUIC、BBR，以及一些私有協(xié)議�，F(xiàn)在的傳輸層協(xié)議已經(jīng)存在 40 年了，存在較大變革的需求。

　　另外從應用層的角度講，比如說我們說的 ABR 或其它業(yè)務層相關(guān)的算法，隨著 5G 商用后，都會在邊緣節(jié)點發(fā)揮作用。因此，內(nèi)容緩存算法、動態(tài)自適應、分布式視頻編碼和處理等，都會遷移到邊緣節(jié)點上，而且對這些算法的性能和交互能力提出更高的要求。

　　5G 會推動 VR、AR、云游戲等實時視頻應用場景的發(fā)展。從應用層的算法，包括剛剛提到的海量節(jié)點、小存儲，到實時交互、邊緣節(jié)點的業(yè)務層算法等都會得到改進。

　　VR 視頻相關(guān)技術(shù)

　　聲網(wǎng)開發(fā)者社區(qū)：您的研究中也有涉及到 VR 領(lǐng)域。您認為目前 VR 視頻類應用，最急需解決的技術(shù)問題有哪些？分別有什么解決思路？

　　張行功：從廣義來講，VR 視頻包含全景視頻、AR、云游戲，因為現(xiàn)在很多云游戲也是基于視頻的實時交互。所以這些都是屬于 VR 視頻的應用的體現(xiàn)形式。實際上其中最核心的問題有三個：

　　第一個問題就是它是一種實時交互式的視頻。交互式視頻就存在一個延時的問題，不管是我們看視頻，還是去打云游戲，只要用戶做一動作，或頭部移動一個角度，畫面就需要在 20ms 之內(nèi)做出相應的反饋。否則，人的體驗就會下降。

　　這對網(wǎng)絡(luò)傳輸就提出了很高的要求。因為我們知道 20ms 是一個端到端的延時，而且是一個 round trip time，這里包含了網(wǎng)絡(luò)、編解碼、服務器處理、客戶端渲染的延時。即使是未來實現(xiàn)邊緣計算，想實現(xiàn) 20ms 的端到端往返延時也絕非易事。

　　第二個核心的問題就是人的運動預測。例如，我們看 VR 視頻的時候會有頭部的運動。未來會有 6DoF 的視頻，我們不僅會有頭部運動，還會在虛擬場景中運動。在這種情況下，我們?nèi)绾稳ヮA測人的運動是一個非常重要且急需解決的問題。

　　運動預測主要是解決第一個延遲問題，從物理角度來講，20ms 是一個難以達到的延時�，F(xiàn)在業(yè)界提出的解決方案是通過預測人的運動，然后預加載數(shù)據(jù)。相當于在用戶沒有看到這一部分的視頻畫面的時候，我就把這個數(shù)據(jù)下載到本地。當用戶移動到某個位置時，實際上就是從本地來獲取這個畫面，延時就小很多了。

　　但是，人的行為是有很大的隨機性，所以隨之而來的問題是如何去預測人的行為？比如我們觀看 VR 視頻時，每個人感興趣的內(nèi)容和位置可能都不一樣。這是目前急需解決的一個難題。

　　第三個問題就是高通量數(shù)據(jù)。我們現(xiàn)在看到的這些 VR 視頻可能還只是 4K、8K 分辨率的，它的碼率大約在 100MB 級別。但是未來可能會有 16K，甚至 24K 的視頻。16K 是什么概念呢？相當于我們在電視上看的 720P 平面視頻。我們在電腦顯示器上可觀看的視角大約 30 度。如果將 720P 的視頻延展為 360 度，這時候的數(shù)據(jù)量就相當于一個 16K 視頻。未來如果加入 6DoF 視頻，支持用戶在 VR 視頻場景中自由活動，則會有更大的數(shù)據(jù)量。另外，AR、云游戲等場景也會產(chǎn)生越來越多的數(shù)據(jù)。

　　我們看到，硬件在不斷發(fā)展。蘋果已經(jīng)可以實現(xiàn)單眼 8K 的 VR 終端了。但網(wǎng)絡(luò)的發(fā)展實際上還沒能跟上硬件的步伐。如此來看，很長時間以內(nèi)，網(wǎng)絡(luò)傳輸?shù)钠款i會始終存在。

　　在這方面，我們做了幾個探索，一個是 QoE 驅(qū)動的視點傳輸。我們根據(jù)用戶看的區(qū)域，傳輸對應的數(shù)據(jù)。這是一個比較有效的手段，已經(jīng)在很多地方應用。

　　另一方面的研究是針對云游戲的。云游戲?qū)儆?VR 視頻的一個分支，對延遲更加敏感，數(shù)據(jù)量也很大，同時用戶交互行為更加復雜，很難進行動作預測。所以我們探索一種零延遲的畫面預測方法，在一定程度上來解決交互延遲的問題。

　　聲網(wǎng)開發(fā)者社區(qū)：一直以來，您都在研究事視頻通信、網(wǎng)絡(luò)傳輸相關(guān)的課題。從您的角度來看，您認為 2020 年這些方向出現(xiàn)了哪些值得一提的研究進展？您認為 2021 年最重要的技術(shù)趨勢是什么？

　　張行功：從視頻通信、網(wǎng)絡(luò)傳輸方面，在 2020 年出現(xiàn)了一些比較新的場景，例如云游戲和云桌面。其本質(zhì)上就是實時視頻，但是技術(shù)挑戰(zhàn)會比傳統(tǒng)的視頻更大。因為就像之前分析的，它的延時要求很苛刻，人的行為很難預測。2020 年有一些技術(shù)嘗試，但是效果不是很理想。所以在 2021 年，業(yè)界還會有更多新角度的嘗試來解決這些問題。

　　第二個就是面向 5G 以及衛(wèi)星網(wǎng)絡(luò)的研究和應用。5G 網(wǎng)絡(luò)已經(jīng)開始商用，衛(wèi)星網(wǎng)絡(luò)方面，我們已經(jīng)可以看到 Elon Musk 的 StarLink 也開始提供測試服務了。所以面向新型網(wǎng)絡(luò)的低延時傳輸研究也會是 2021 的熱點之一。

　　視頻傳輸方面。在 2020 年，機器學習、強化學習等方法更多地被用在了網(wǎng)絡(luò)領(lǐng)域，包括傳輸層、應用層的視頻通信。在 2021 年將會有更多這方面的研究，提供它的實用性和泛化能力。

　　最后，視頻傳輸質(zhì)量評價也是 2020 年重要的熱點之一。由于現(xiàn)在網(wǎng)絡(luò)視頻的種類很多，包括實時視頻、直播、短視頻、VR 視頻等，但傳統(tǒng)上視頻質(zhì)量評價都是面向編碼，但對傳輸?shù)脑u價一直沒有一個很好的框架。視頻傳輸質(zhì)量的監(jiān)控和評價是業(yè)務的核心，包括由數(shù)據(jù)監(jiān)測、質(zhì)量評價到故障報警、修復的一套閉環(huán)的質(zhì)量體系，將會是 2021 年被持續(xù)關(guān)注的熱點之一。