經(jīng)過多年的技術(shù)發(fā)展,目前互聯(lián)網(wǎng)視頻的觀看視頻體驗仍然無法滿足用戶預(yù)期,因此我們需要應(yīng)用更新的技術(shù)來持續(xù)超越傳統(tǒng)在線觀影體驗。與此同時,長周期、大投入的視頻內(nèi)容源,成為“超高清”大規(guī)模落地的瓶頸。如何讓新片在制作階段就滿足超高清要求?如何增強用戶的觀看體驗?如何通過高清修復(fù)技術(shù)讓經(jīng)典老片換新顏?這些問題都將通過下文一一解答。本文內(nèi)容來自阿里巴巴高級技術(shù)專家梅大為在LiveVideoStackCon2019北京站上的精彩分享。
大家好,我是阿里巴巴高級技術(shù)專家梅大為,本次分享的主題是優(yōu)酷在超高清視頻技術(shù)的實踐,主要內(nèi)容是優(yōu)酷在超高清視頻技術(shù)上的理解和思考,以及在超高清視頻上進行修復(fù)增強的具體實踐。大眾在互聯(lián)網(wǎng)上觀看視頻,除了視頻本身的內(nèi)容和VIP的價格以外,最關(guān)注的的應(yīng)該就是視頻的觀看體驗。根據(jù)優(yōu)酷的用戶調(diào)查數(shù)據(jù)來看,很大部分的用戶在選擇視頻APP時更關(guān)注是否有藍光、4K或者HDR、杜比音效這些選項,也有70%的用戶會在觀看視頻1分鐘后因為視頻清晰度的原因而棄劇,這兩個數(shù)據(jù)都體現(xiàn)出視頻觀看體驗對用戶的重要性。
1. 超高清視頻體驗
經(jīng)過這么多年的發(fā)展,目前互聯(lián)網(wǎng)視頻的觀看體驗仍然無法滿足用戶預(yù)期,以《血戰(zhàn)鋼鋸嶺》中的片段作比較,對比三家藍光流和介質(zhì)質(zhì)量可以發(fā)現(xiàn),騰訊、優(yōu)酷、愛奇藝三家藍光流的質(zhì)量都小于原始介質(zhì)質(zhì)量,網(wǎng)友知乎@馬小帥也很直接的指出了其中關(guān)于碼率的問題,碼率相較原片相差很多倍,清晰度自然也會有差異。
2. 高清不清晰的原因
碼率受限確實是目前互聯(lián)網(wǎng)視頻“高清不清”的主要原因,而碼率問題也主要受限于網(wǎng)站帶寬成本和用戶網(wǎng)絡(luò)條件兩個方面,從視頻網(wǎng)站來考慮的話,碼率意味著帶寬,帶寬意味著成本,在視頻網(wǎng)站多數(shù)都還在虧損的大環(huán)境下,加大在帶寬上的投入是比較困難的。如果從用戶角度來看碼率受限的問題,可以看到目前多數(shù)用戶的有效帶寬還是在幾兆到十幾兆的范圍內(nèi)。因此視頻網(wǎng)站的核心技術(shù)問題是如何做到窄帶高清,在保障帶寬不增長的前提下提供更優(yōu)質(zhì)的視頻體驗,提升單位帶寬承載的信息量。
3. 優(yōu)酷超高清視頻之路
3.1 窄帶高清
窄帶高清目前有很多公司都在做,而優(yōu)酷主要基于硬壓縮能力和內(nèi)容分析理解兩方面來解決窄帶高清的問題,提升壓縮工具的硬壓縮能力,不斷適應(yīng)新的標(biāo)準,在同一個標(biāo)準體系框架內(nèi)也可以不斷地迭代壓縮算法。從壓縮對象/視頻內(nèi)容來講的話,根據(jù)對質(zhì)量貢獻的不同將內(nèi)容進行分類,比如噪聲、干擾對視頻清晰度有副作用內(nèi)容,以及背景和雜亂的細節(jié)、人臉特寫等內(nèi)容,將其進行區(qū)別的視頻處理和壓縮,以此達到最優(yōu)帶寬和清晰度的效果;谶@兩點優(yōu)酷也在前幾年推出了窄帶高清2.0版本,在業(yè)界有一些不錯的反響。
3.2 從窄帶高清到超高清
從窄帶高清到超高清是一個巨大的跳躍,因為窄帶高清歸根結(jié)底還是個轉(zhuǎn)碼技術(shù),追求的目標(biāo)是在轉(zhuǎn)碼過程中的損失最小,而超高清是一個端到端全鏈條的體驗技術(shù),關(guān)注的不僅僅是轉(zhuǎn)碼,還包括轉(zhuǎn)碼前的介質(zhì)和轉(zhuǎn)碼后流渲染的質(zhì)量,超高清各項數(shù)據(jù)指標(biāo)如上圖所示。
從視頻生產(chǎn)消費的全鏈條中來看優(yōu)酷實現(xiàn)超高清過程中遇到的問題,視頻鏈條主要分為介質(zhì)制作、流生產(chǎn)和終端渲染三個部分,這三個部分對于視頻的質(zhì)量和清晰度都非常重要,其中介質(zhì)制作基本決定了視頻清晰度的基礎(chǔ),這一步處理不好再之后就很難補救,而在流生產(chǎn)轉(zhuǎn)碼過程中需要盡量減少壓縮帶來的損失,盡可能的保留原清晰度,最后在終端渲染方面需要充分利用母帶的能力,做最適合的顏色和亮度呈現(xiàn)。優(yōu)酷在三個部分所做的工作如上圖所示。
4. 優(yōu)酷超高清實踐
4.1 介質(zhì)品質(zhì)保障
對于介質(zhì)品質(zhì)保障,優(yōu)酷首先推出了視頻介質(zhì)標(biāo)準,在此之前由于介質(zhì)來源很多,介質(zhì)的制作流程各不相同,所以介質(zhì)的畫質(zhì)也不同。在優(yōu)酷的視頻庫中可以看到各種各樣分辨率的介質(zhì),很多介質(zhì)分辨率和碼率不匹配,最終播放效果就不可能做到清晰,因此優(yōu)酷推出視頻介質(zhì)標(biāo)準,希望借此規(guī)范介質(zhì)的碼率和分辨率,保障在視頻介質(zhì)制作部分不出差錯。
僅僅依靠視頻介質(zhì)標(biāo)準沒辦法對介質(zhì)品質(zhì)進行保障,因為高碼率和高分辨率并不是高清晰度的充分條件,因此優(yōu)酷利用基于內(nèi)容理解的線上質(zhì)量檢測系統(tǒng),對常見的幾種介質(zhì)問題分別建模、設(shè)計算法、訓(xùn)練模型和檢測。
有了視頻介質(zhì)標(biāo)準和質(zhì)量檢測系統(tǒng)還是不能夠充分保障介質(zhì)的品質(zhì),因此需要在后期通過高質(zhì)剪輯將質(zhì)量檢測中發(fā)現(xiàn)的問題解決。優(yōu)酷在這方面也有在做一些嘗試,包括和后期公司進行定期交流,了解介質(zhì)在后期公司的處理流程、使用的工具和設(shè)置參數(shù),如果遇到疑難素材,優(yōu)酷會給后期公司開放云端修復(fù)工具來處理,完成后期替換和剪輯。
5. 視頻畫質(zhì)修復(fù)
5.1 算法修復(fù)
關(guān)于視頻畫質(zhì)修復(fù)很容易讓人聯(lián)想到老電影,老電影也是視頻畫質(zhì)修復(fù)的主要應(yīng)用場景,優(yōu)酷創(chuàng)立時間很早,所以視頻庫中有很多老視頻資源,而老視頻資源中存在的最普遍問題就是噪聲和模糊,優(yōu)酷的解決方式有母帶介質(zhì)、膠片修復(fù)和算法修復(fù)三種。首先可以去找版權(quán)方拿到更好的介質(zhì)源進行替換,但大多時候版權(quán)方也沒有更好的介質(zhì)。其次可以用當(dāng)前的介質(zhì)拿去做膠片修復(fù),但膠片修復(fù)費時費力,沒辦法大規(guī)模應(yīng)用。最后,算法修復(fù)的好處是可以做批量化處理,可以設(shè)計算法去解決視頻畫質(zhì)的問題,但缺點是通用算法沒辦法對個別問題進行修正,所得到的結(jié)果不會那么穩(wěn)定。
5.2 視頻去噪
噪聲在視頻中是一個普遍存在的問題,不僅僅出現(xiàn)在老電影中,在新片和特定的場景中也會出現(xiàn)噪聲,噪聲會影響主觀畫質(zhì),并且噪聲會使得碼率增加,對壓縮并不友好,因此視頻去噪就顯得尤為重要。
優(yōu)酷面對的視頻種類很多,噪聲種類也很多。優(yōu)酷使用基于網(wǎng)絡(luò)的去噪方式來做視頻的去噪處理,要做到兼容噪聲多樣性就需要多種噪聲增強數(shù)據(jù)去訓(xùn)練網(wǎng)絡(luò),使得它可以對不同噪聲進行處理。針對噪聲強度的問題,優(yōu)酷也有前置的噪聲估計模塊,讓噪聲估計結(jié)果來指導(dǎo)網(wǎng)絡(luò)進行去噪處理。最后,視頻去噪有豐富的時間和空間信息,所以優(yōu)酷使用三維去噪網(wǎng)絡(luò)保證去噪效果的最大化。
關(guān)于去噪流程框圖首先來看去噪網(wǎng)絡(luò)模塊,三維的卷積去噪網(wǎng)絡(luò)和普通去噪網(wǎng)絡(luò)的不同是,在網(wǎng)絡(luò)輸入除了不同的多幀數(shù)據(jù)外還包括代表噪聲強度的額外數(shù)據(jù)輸入,依靠噪聲強度來指導(dǎo)網(wǎng)絡(luò)進行更好的卷積,兼容大噪聲和小噪聲的情況,根據(jù)線下運行的數(shù)據(jù)來看還是很有效果的,而這個方法的代價是需要一個比較可靠的噪聲強度估計作為前置處理步驟。MEMC又叫做運動估計運動補償模塊,它的作用是抵消畫面中的運動,把相關(guān)的內(nèi)容在時間和空間上聚集起來,方便三維的去噪網(wǎng)絡(luò)做卷積處理。
噪聲估計也是視頻去噪中比較經(jīng)典的問題,其中目標(biāo)壓制的噪聲又分為熱噪聲和壓縮噪聲兩類,對熱噪聲估計采用圖像分塊方差統(tǒng)計量,方法雖然老卻十分有用;對壓縮噪聲的估計采用CNN分類網(wǎng)絡(luò),這兩個噪聲估計完之后會將兩個結(jié)果合并形成每一幀的噪聲估計值,把幀間的各種估計效果做融合和后處理。值得一提的是,在后處理中由于噪聲有很強的場景相關(guān)性,在同一個場景內(nèi)噪聲是差不多的,但在場景切換時噪聲會發(fā)生突變,所以在做噪聲后處理的時候需要基于場景進行噪聲估計,保證后處理后噪聲在一個場景中是緩變的,去噪效果有一致性,在場景切換時去噪效果要能夠及時響應(yīng),避免由于場景切換去噪效果出現(xiàn)呼吸效應(yīng)。
ME、MC在傳統(tǒng)的圖像處理中運用十分普遍,ME更多用于多尺度運動搜索,先在大尺度上進行運動搜索,然后把搜索結(jié)果傳遞到小尺度上,這種方式效率很高,既能保證大物體運動與場景的一致性,也能保證對小物體與運動邊界刻畫的精細程度。MC的目標(biāo)是基于匹配score融合當(dāng)前塊和最佳匹配塊,最終融合需要考慮匹配的程度如何,匹配的越好就越多的使用臨近塊的能量,匹配的越差就越多使用當(dāng)前塊的能量,這樣做既能保證去噪效果,又能克服匹配很差導(dǎo)致去噪效果不佳。
5.3 老片字幕修復(fù)
影視資源的陳舊感雖然多半來自于內(nèi)容,但還是有一部分是由于字幕的影響,如果對字幕進行修復(fù)的話也可以在一定程度上將老影視資源的觀看質(zhì)量提升一個臺階。
字幕修復(fù)的流程分為字幕檢測、字幕分割、字幕擦除和字幕回貼四個步驟,具體實現(xiàn)過程由上圖所示。
5.4 算法創(chuàng)造價值
視頻修復(fù)從其他維度來看算法創(chuàng)造的價值,左上圖的內(nèi)容表示的是優(yōu)酷最為關(guān)注的用戶觀看時長數(shù)據(jù),可以看到在視頻修復(fù)前后用戶的觀看時長有明顯的提升,對于某些視頻甚至可以達到較修復(fù)前幾倍的提升。右上角是從用戶彈幕數(shù)據(jù)中觀察視頻修復(fù)對于用戶的影響,紅色是視頻修復(fù)完成的時間點,在修復(fù)前彈幕對于畫質(zhì)的吐槽較多,而修復(fù)后彈幕對于畫質(zhì)清晰的內(nèi)容逐漸增多。左下相關(guān)媒體對于優(yōu)酷高清畫質(zhì)的報道,而右下的圖是優(yōu)酷將《士兵突擊》進行畫質(zhì)修復(fù)后的一場放映會,吸引了大量粉絲前來觀影,這樣的線下互動對優(yōu)酷自身來講也很有意義。
6. 超高清增強
做超高清增強很大一部分的原因,是由于家用電視的尺寸越來越大,以更近的距離看更大屏幕的訴求使得用戶對視頻清晰度有了更高的要求,因此超高清就變得非常有必要。在真正的超高清設(shè)備上看超高清的視頻流,觀感是完全不一樣的。超高清的本質(zhì)是信息量,信息量主要由采集時獲得的分辨率、幀率、動態(tài)范圍和視角決定,超高清在云端重建的時候就可以補足在采集過程中沒有拿到的信息,以此獲得更好的體驗效果。增強手段包括視頻超分辨率、視頻幀率上采樣、SDR轉(zhuǎn)HDR和視角重建。
6.1 視頻超分辨率問題分析
視頻超分辨率目標(biāo)就是提升空間分辨率,補足內(nèi)容的高頻細節(jié),其背后的假定是高頻與中低頻有一定的聯(lián)系,通過中低頻來做高頻的反演,這一般是通過深度網(wǎng)絡(luò)來解決這個問題。另外,噪聲對于視頻增強有很大的干擾,處理不好容易使超分辨率出現(xiàn)bad case,在這部分優(yōu)酷是采用一些適量加噪的數(shù)據(jù)去訓(xùn)練網(wǎng)絡(luò),讓網(wǎng)絡(luò)可以具備一定的抗噪能力。視頻超分辨率問題比較復(fù)雜,不可能用一個網(wǎng)絡(luò)去解決所有問題,因此優(yōu)酷在這部分把問題分為很多類,做到專網(wǎng)專用來提升最后的超分效果。最后,提前預(yù)估網(wǎng)絡(luò)能力,聚焦目標(biāo)效果,在做網(wǎng)絡(luò)訓(xùn)練時把握尺度,這里需要對訓(xùn)練數(shù)據(jù)做預(yù)處理,評估訓(xùn)練難度。
6.2 視頻超分辨率訓(xùn)練數(shù)據(jù)產(chǎn)生
由于優(yōu)酷主營業(yè)務(wù)是互聯(lián)網(wǎng)視頻,所以關(guān)于視頻訓(xùn)練的數(shù)據(jù)非常豐富,同一個視頻內(nèi)容既有高清版本又有低清版本,這種情況下就可以對網(wǎng)絡(luò)進行真實的訓(xùn)練,但通常情況下沒有這么好的數(shù)據(jù)對供測試使用,往往只有高清的視頻版本,所以低清視頻更多是靠隨機壓縮、模糊、采樣和噪聲自己生成,根據(jù)實際問題來進行調(diào)整,這兩種方式都可以產(chǎn)生訓(xùn)練數(shù)據(jù)對,最后再經(jīng)過數(shù)據(jù)的篩選和重置得到最終的訓(xùn)練數(shù)據(jù)對。
6.3 視頻超分辨率訓(xùn)練數(shù)據(jù)處理流程
當(dāng)獲得訓(xùn)練數(shù)據(jù)對后,處理流程就更像一個自然而然的過程,從輸入視頻開始,經(jīng)過分類得到不同的類別,不同的類別用不同的網(wǎng)絡(luò)處理,最后得到超分結(jié)果。流程圖雖然簡單,但涉及分類的部分其實非常復(fù)雜,首先可根據(jù)內(nèi)容標(biāo)簽將視頻分為電影、動漫、電視劇等類型,也可以根據(jù)內(nèi)容來源和屬性分為DVD超分1080P、1080P超分4K等類型,核心思想是把退化方式相近的視頻分成同一類,退化方式差異大的視頻分成不同類做不同處理,這個分類問題目前還在不斷地探索和發(fā)展。
6.4 SDR與HDR對比效果
SDR與HDR對比之下可以看到SDR畫面發(fā)灰且對比度不夠,而HDR在顏色豐富度和亮度、對比度都要優(yōu)于SDR。
6.5 超高清終端渲染
優(yōu)酷在超高清終端渲染上做了一些超高清的工作,由于不同終端存在差異性,需要正確認識每個終端的能力去做適配。另外,不同的終端設(shè)備存在一定的顯示誤差,也需要去做矯正以求在不同終端設(shè)備上顯示效果一致。后處理分為設(shè)備本身的后處理和自身視頻的后處理,前者包括硬件芯片和系統(tǒng)層的后處理,優(yōu)酷將其納入整個超高清的處理鏈條中,以達到最終的渲染效果。優(yōu)酷自身的后處理包括畫質(zhì)增強和渲染工作等。
7. 關(guān)于超高清技術(shù)的未來
關(guān)于超高清的未來,優(yōu)酷有清晰的戰(zhàn)略規(guī)劃。首先是真4K的拍攝&制作,這是從介質(zhì)制作方面提高視頻的質(zhì)量,而且拍攝過程要做到高效和低成本才能夠普及,目前已和合作伙伴有了些階段性的進展,在未來應(yīng)該會達到更好的制作水平。在真4K介質(zhì)制作能力發(fā)展和普及的過程中,云端超高清重置也會起到補充作用,由于單純的靠采集端來制作超高清介質(zhì)肯定是不現(xiàn)實的,有關(guān)VR的技術(shù)一定需要視角重建的工作,這部分在超分辨率技術(shù)中也是需要不斷深入。在信息壓縮方面,優(yōu)酷更多將展望下一代的編碼標(biāo)準和更好的通信技術(shù),包括已定稿的H.266和目前比較火熱的5G通信技術(shù),未來關(guān)于超高清技術(shù)的發(fā)展一定會更加精彩。
來源:LiveVideoStack