我的演講主題是《新媒體編碼時代》。這里的“新”有兩個含義,第一是指新時代,技術與應用場景出現創(chuàng)新;第二是指媒體“新”,需要編碼的材料數據改變了。
我在 RTC 2017 曾講過《視頻編碼未來簡史》。當時叫視頻編碼新時代(如上圖圖解),革命之一是采集革命,采集的數據發(fā)生了變化,視頻從標清向高清、超高清方向發(fā)展。還有其它的一些數據,包括光場、點云、神經脈沖。理論也有很多,包括傳統的奈奎斯特采樣、壓縮感知。
革命之二是計算革命,編碼計算提升了很多,有 CPU、GPU、NPU,計算能力的提升使得原先因太過復雜而無法使用的算法變得可用了,提高了編碼效率。
第三個是認知革命,數據處理有了新的方法,處理能力更強了,業(yè)界談的比較多的方法就是深度學習。
基于這三個革命,編碼在朝智能編碼的方向發(fā)展。其實,智能編碼并不是新概念,80年代后期到90年代中期,業(yè)界一直在講智能編碼。不過,到現在為止智能編碼還始終處于第二代。
今天,我從三方面講:新媒體,我們看到新的數據類型要編碼;新技術,技術從編碼、傳輸、跨媒體智能講,我們朝智能方向發(fā)展了;新應用,一般是大家說的 4K、8K、VR 這些應用。
1、新媒體編碼時代:新媒體
首先講新媒體。很多人介紹自己專業(yè)的時候通常說我是做數字媒體技術的,或多媒體技術的。我們要把媒體和技術分開來看,所謂的技術是計算機對媒體的處理技術。在以前“通信基本靠吼,交通基本靠走”的年代,沒有媒體,后來出現了文字,再后來,聲音、視頻、圖像可以保存,隨后催生了新的產業(yè)。接著出現了 3D、AR、VR,最后到智能媒體?偟膩碚f,技術催生新媒體的誕生,這是關于媒體的介紹,F在提的比較多的凡是包含三維信息比如光場、點云的媒體都統稱為新媒體、三維媒體,這些不是新名詞,只是現在我們強調的越來越多。
關于沉浸媒體,在今年的 ACM Multimedia Systems 大會上,Philip Chou 提出,“Holograms are the Next Video”。在他看來,全息是下一代視頻。上面有兩個圖,1977年的星球大戰(zhàn)電影里,出現了光場投影,是那時候我們最初對三維沉浸媒體的想象。右圖則是2018年的想象。我們已經想象了40多年。Philip Chou 在會上有兩句話我印象很深刻,一句話是“Hologram compression today is like video compression in 1988”。王田博士也講到,今天的點云編碼水平,相當于 30 年前視頻編碼的水平。1988 年時 MPEG 剛剛成立,當時只有 JPEG。MPEG1-VCD 是在 1992 年才出現的。另一句話是關于流媒體的,“Hologram streaming today is like video treaming in 1997”。1997 年,國際會議在討論流媒體技術。我想,當初討論流媒體技術的人看到今天互聯網流媒體的發(fā)展,應該是感到很震驚的。還有一句話,“如果你看到了視頻的發(fā)展趨勢,那么你一定會同樣看到全息的趨勢。” 所以,沉浸媒體是未來的趨勢。
關于沉浸媒體提供的感覺,主要有三類:視覺、聽覺、交互。視覺要提供更高分辨率,分辨率上去之后才更清楚、更清晰。聽覺方面,要高質量、三維全景聲,感覺好比演唱會、演奏會。交互方面,講求低延時、交互自然。
沉浸式媒體的系統是比較復雜的,從前端采集到中間編碼傳輸到后端顯示時間,每個模塊都是相互關系很強的,每個模塊都得做好才能呈現好的效果。
相關的組織都在做很多的研究,大概可以分成上圖這樣幾個層次,第一個層次是關于最基本的數據的表示,看到的 JEPG 圖像、MPEG 視頻、IEEE、AVS;中間層是關于應用,比如 VR-IF,3GPP 等國際組織都在演講。上層是體驗,用戶端體驗做不好用戶肯定不接受,包括 ITU-T、VQEG、QUALINET 等組織。
我們今天關心的主要是最底層的編碼技術表示。今天另一場演講中,王田老師提到了沉浸式媒體,這是 MPEG 目前做的工作標準。這些技術的應用從早先 MPEG1、2,后來到了 MPEG4,H.265 等等。
我們今天主要說的是 MPEG-I,沉浸式媒體。上圖是 MPEG-I 的發(fā)展路線圖,只包含視覺相關的,不包含音頻的內容。其中之一是關于 New Video Codec,還有點云,從靜態(tài)對象到動態(tài)對象,以及光場,包括相機陣列等。
我們熟悉的是手機上數碼相機上都在用的 JPG。但實際上 JPEG 做了很多,其中一個是 XL,新一代圖像壓縮;另一個是 PLENO,光場圖像壓縮。
AVS 一直都在做高效視頻編碼,做的是面向廣播的編碼。從 2002 年開始,至今已經 16 年了。2006 年成為國家標準,進展比較快,2012 年能 AVS 成為廣電行標,2016 年 AVS2 成為廣電行標,也是國家標準。目前在4K的超清廣播應用比較多,今年 10 月做試運行,明年北京冬奧會會有 4K 的超清廣播。對于 VR,AVS 有一個 HV 的工作組,有專門面向 VR 的 HV1857.9 視頻標準。
先普及一下沉浸式視頻的多維度屬性。包括分辨率,從標清到高清到超高清,有更高的幀率、更高的采樣精度,更多的模型數據,色域更豐富。
全景視頻方面,視場角中的 1° 能看到 60 個像素就可以達到視網膜級別。如果是 4K ,視角是 36°,平均下來每度 100 多個像素。有時候說看 4K 就夠了,不需要 8K 了,依據是從這兒來的。但實際上,8K 之后視角變得更大,也需要更高的像素。如果以這個算目前的 4K 全景,平均下來 1° 只有 11 個像素,離 4K 高清差的很遠。為什么 4K 全景質量差?因為本身信號提供的就不夠。如果要做全景視頻,按照前面的分辨率算的話,像素值至少要到 22Kx11K,完全全景的話要 24Kx12K。計算下來數據量達到 4Gbps,只能等 5G 技術的到來。
還有其他媒體,點云、網格、光場、深度之間都可以轉換處理,不止體現在數據格式上轉換處理,后面編碼的時候也可以做相應的融合。
剛才看到的都是比較傳統的相機采集的數據進行編碼,現在已經出現了另外一種形式的采集,是在仿生的采集(如上圖)。原理是這樣的。首先,視頻采集的數據量很大,尤其是運動速度很快的時候,普通的相機采集的話都會出現模糊。第二,我們采集完這些視頻再做處理,做特征的提取,進行對象的分析識別。這個處理過程與人的視覺識別處理是相差很遠的。第一個問題,人眼是每秒 30 幀嗎?肯定不是,因為人眼的獲取原理本身就和傳統相機不一樣。那么仿生采集指的就是后端傳輸的是神經脈沖信號,當環(huán)境中要測那個點發(fā)生變化時才傳輸信號,這個原理與普通的相機采集不一樣。但是傳輸神經脈沖信號后如何進行編碼,到現在也沒有完全解決。我們可以看下面這個視頻,它直觀解釋了傳統相機采集與仿生采集的區(qū)別。
2、新媒體編碼時代:新技術
現在已經進入第三代標準時期。MPEGY 有 VVC(Versatile Video Coding),俗稱是萬能的。AV1、AVS3,都是第三代標準。
視頻編碼做了這么多代標準,做編碼的人會問編碼效率做了這么多優(yōu)化,繼續(xù)做下去有沒有意義?
有一個經濟學的悖論:提升資源消耗效率,結果消耗的資源更多。比如,要提高煤炭的燃燒效率,后來煤炭的燃燒效率提上去了,煤燒得更多了。原理是效率支撐了更多的需求,從而帶來了更多資源的消耗。帶寬傳送也是一樣,如果我們提升帶寬,進一步提升壓縮效率,全景視頻、點云等新的應用就會跟著來,然后帶寬消耗還會更高。從這個角度來看,需要更高效的壓縮技術。
再看編碼的具體技術,下圖是我們熟悉的框架,編碼所做的工作非常精細、瑣碎。整個工程就像手表里一個個連接的小齒輪、大齒輪。我們的工作就是刪掉其中一個齒輪或者把幾個齒輪并成一個齒輪,并讓表跑得更準,更省電。
在 AVS3 的時間規(guī)劃上,預計明年 8 月份會發(fā)布第一版,第一版是復雜度和效率做的比較平衡的一版。2021 年會發(fā)布第二版,最終目標是面向8K、VR、流媒體等應用,編碼效率比 AVS2 再高一倍。AVS3 的特征可以這從兩方面看,傳統技術 AVS 在做很多研究,包括塊劃分、運動預測、變換等;智能方面也有研究,用神經網絡做變化預測濾波,編碼與傳輸的聯合。
早先我們一直做的是信源信道聯合編碼。我們可以靠一些傳輸技術來折中編碼效率,不用很復雜的編碼方法就達到編碼效率的提升,比如,媒體端 CDN 中存了很多視頻流,不同流之間存在關聯,一句話解釋就是類似于 P2P 傳輸式,我可以在傳輸中利用高層的傳輸支持達到相關內容的更高效的預測編碼。利用這種技術可以提升 30% 以上的壓縮效率。
國際標準方面,2015年10月份已經開始圍繞新一代 JVET VVC 標準進行討論,現在已經三年了。技術進展很快,編碼效率相比 H.265 提升 40% 以上。今年4月份在圣地亞哥開的一次會議上,有一個環(huán)節(jié):響應提案征集,SDR 有 22 項提案,HDR 12 項,360 全景 12 項。
下圖那次會提交的 SDR 提案征集。中國從 1996 年開始參加 MPEG,前期參與的時候主要是大學和研究所,沒有中國的公司。但是近年,中國的公司,比如華為、?低、騰訊、大疆、頭條等都開始積極參與國際標準的制定,這是很好的現象。同時說明中國近十年二十年來培養(yǎng)了不少人才,這是我們學校的貢獻。也歡迎更多的公司可以參與國際標準,也可以參與 AVS 標準的制定。AVS 和 MPEG China 是一體的,加入 AVS 就相當于加入 MPEG China。
再看技術情況,新特色是體現在從信號處理到深度學習。這些提案里,有5個都用到了深度學習的技術,其中有關于預測的,也有關于濾波的。我會重點講一下預測。
神經網絡和編碼之間的聯系在哪兒呢?可以用一個比較簡單的圖來解釋。下圖是傳統的變換,分解成變換系數,后來做量化、反量化,量化反量化之后帶來失真。失真之后如何做一個最優(yōu)的量化,使得量化的誤差最小?最小誤差范圍表示成二進制的形式,S1、S2 每個數要么是 0 要么是 1。量化決策的過程,實際上是,選擇 0 或者選擇 1 使得整個誤差最小,這就是一個優(yōu)化的問題。優(yōu)化的問題就是神經網絡最擅長的工作,這個工作就可以交給神經網絡,幫你選擇是 0 還是 1,這是變換和神經網絡的相通之處。
原來做幀的預測,選周圍像素,找一個插值濾波器,使得插值之后要逼近預測的值,使得誤差最小。如果用神經網絡做的話,把周圍像素傳過去,神經網絡幫我找加權、找偏移量。計算完之后失真最小,那么網絡就訓練好了。以后做預測的時候,把數據送給它就自動處理,像黑盒一樣。這就是基于神經網絡的預測。
目前用神經網絡去做變換、預測、濾波的已經有很多了,每個模塊都很多。但如果只做這些的話,還是像玩票一樣。畢竟神經網絡在模式識別方面應用得很好,到了編碼這邊做了很多,但是還沒有打敗傳統編碼,還是基于信號處理這套。
現在有了新的概念,Towards Conceptual Compression。在下圖中,最底部的一行原始圖像,最頂部模糊的編碼的。從上面的編碼,一步步推理迭代,能夠生成底下的原始圖像,這是用神經網絡來做的。我認為可以叫做概念(意象)壓縮。它強調的是,人的腦子里對一個圖像有個模糊的印象,但是恰恰靠這個模糊的印象就能夠做判定。這個概念正在進行中。
這是另外一個工作,剛才是用神經網絡做表示、做生成,現在可以用神經網絡在壓縮層次上提供對這個內容分析理解的支持。傳統基于信號處理的壓縮,如果要進行分析會很困難。如果是基于神經網絡的話,由于是基于特征的表示,對于媒體的分析理解會更加智能。
再看一看媒體分析,從多媒體到跨媒體。左邊從視頻到文字,給定視頻后可以對應生成文字。右邊反過來再從文字生成視頻,從文字到視頻比較有限制,限制于數據集,靠文字描述生成視頻出來。這種技術再結合前邊基于神經網絡的壓縮,智能壓縮前景無限,這種技術對媒體的分析和理解肯定比傳統編碼更優(yōu)越。
接下來的內容是關于新媒體編碼。關于光場,目前光場有兩類,一類是基于相機陣列,還有用一些小凸透鏡,相當于集中成像。對于光場,新類型的媒體可以用現有的框架去進行編碼。
對于點云,雖然我們感覺它是新數據,其實也有比較好的編碼處理方法。原來圖像是二維的,分成一個塊一個塊處理。到了點云之后是三維的,也很簡單,把它分成三維的塊,原來是平面劃分,現在改成立體劃分,劃分完之后這些數據可以進行變換、預測、處理。和傳統編碼也可以做一個很好的結合,目前這塊都是處于比較初步的階段,還需要繼續(xù)研究。
以上是點云和光場與傳統的編碼框架之間的結合。還有一部分是關于光場編碼和點云編碼,光場編碼處理也可以用點云的編碼進行編碼框架表示;舅枷胧切⊥雇哥R成像,從每個角度情趣看這個圖像,就可以看成一個球的圖像。把球的圖像進行分解,有一些系數,系數類似于點云的屬性系數。
關于傳輸,編碼和傳輸都有很大的影響。傳輸有些是我們比較熟悉,比如 HLS、DASH。后端基于 Tile,把內容劃分成 Tile,根據帶寬情況,選擇傳輸相應質量的內容。這個工作對于全景視頻傳輸很有用處,因為全景視頻某些時候只是看某些角度,不是看整個內容,所以可以基于 Tile 的傳輸降低整個傳輸的工作量,還能提升圖像的質量。
視點依賴的流媒體傳輸就是指全景傳輸。那么,我們就可以利用神經網絡,提前預測人看哪塊內容,提前把信號內容發(fā)送過去以獲得更好的體驗質量?梢曰谟^者本人,也可以基于其他觀眾的注意來預測。
神經網絡智能不止是在編碼,在傳輸上也有很多用處。再看點云的傳輸,也是一樣的,點云數量很大,可以考神經網絡來幫忙,比如點云傳輸劃分成三維的Tile,你看哪塊我給你傳哪塊,來降低傳輸工作量。
3、新媒體編碼時代:新應用
新應用,有線上抓娃娃,連抓娃娃這種應用都可以搞這種火,我相信新媒體應用可以搞得更火。
還有超高清,目前看到的有 4K、8K,也有人問我們需不需要 8K。我在八年前第一次看見 8K 的時就未曾懷疑過,一定有人需要。別說 8K,16K、24K 也有其必要性。對于全景視頻來講,我們還是需要更高的質量、更好的傳輸支持才會有更好的節(jié)目、更好的體驗。
5G 與 VR,對于全景傳輸、動態(tài)點云的傳輸都可以提供更好的支持。
智能媒體的制作,紐約大學的研究人員 Ross Goodwin 訓練了一個神經網絡,給它輸入幾部電影它自己就可以寫出劇本來,然后 9 分鐘的電影就排出來了。也許未來我們需要只明星的臉,不需要明星來演。
最后總結一下,The best is yet to come,最好的 TA 會來臨。我們要做的事情就是擁抱新技術,攜手新媒體,研發(fā)新應用,開創(chuàng)新時代,我的報告就是這些,謝謝大家。