誰說阿爾法狗們只會下棋玩遊戲? DeepMind用它們給油管影片做壓縮


選自DeeMind部落格

作者:The MuZero Applied Team

機器之心編譯

機器之心編輯部

在保證影片質量相似的前提下,DeepMind 的MuZero 可以降低大約4% 的位元率。

2016 年,DeepMind 推出了第一個能夠在圍棋中擊敗人類的智慧體——AlphaGo。在之後的幾年裡,其繼任者AlphaZero 和MuZero繼續向通用演算法進發,用更少的預定義知識掌握了更多的遊戲。例如,MuZero 在沒有被告知規則的情況下就掌握了象棋、圍棋、日本將棋和雅達利遊戲。

然而,說來說去,這些應用還是沒能脫離遊戲的範疇,能不能用它們來解決現實世界的問題一直是外界關注的焦點。

昨天,DeepMind 在部落格中公佈了一個好訊息:他們的MuZero 已經向現實世界邁出了第一步,展現出了在最佳化影片壓縮質量方面的潛力。相關細節呈現在一篇預印版論文中。

論文連結:https://storage.googleapis.com/deepmind-media/MuZero/MuZero%20with%20self-competition.pdf

在這項研究中,DeepMind 的研究者和YouTube 展開了合作,一起探索Muzero 在影片壓縮領域的潛力。分析人士預測,流媒體影片將佔據網際網路流量的絕大部分。為了節省頻寬,影片在傳輸之前就必須進行壓縮。這樣一來,如何將壓縮後的影片畫質、流暢度等損失降到最小就成了影片廠商關注的重要問題,也是一個有望用強化學習解決的問題。 DeepMind 的Muzero 可以在保證影片質量相似的前提下降低大約4% 的位元率。

推薦文章  日本最美星二代木村光希,完美身材掀熱話,大方分享木村家飲食法

大多數線上影片依賴於編解碼器在影片的源頭對其進行壓縮或編碼,然後透過網際網路將其傳輸給觀眾,最後再解壓或解碼播放。這些編解碼器為影片中的每一幀做出多個決定。經過幾十年的手工工程,這些編解碼器已經實現了一定程度的最佳化,在影片點播、影片通話、影片遊戲和虛擬現實等多個領域得到了應用,但還有很大的最佳化空間。

由於強化學習特別適用於像編解碼器那樣的順序決策問題,所以DeepMind 就在這個問題上展開了探索。

他們的首個研究物件是被YouTube 和其他流媒體服務廣泛使用的VP9 編解碼器(特別是開源版本libvpx)。與其他編解碼器一樣,使用VP9 的服務提供商需要考慮位元率。位元率是指傳送每幀影片所需的1 和0 的數量,是服務和儲存影片所需的計算量和頻寬的主要決定因素,影響影片載入所需時間、解析度、緩衝和資料使用等很多指標。

在編碼影片時,編解碼器使用之前幀的資訊來減少未來幀所需的位元數。

在VP9 中,最佳化位元率最直接的方法是藉助速率控制模組中的量化引數(QP)。這個引數決定了每一幀要應用的壓縮級別。給定一個目標位元率,影片幀的QP 按順序決定,以實現整體影片質量最最佳化。直觀地說,我們應該為複雜場景分配較高的位元率(較低的QP),為靜態場景分配較低的位元率(較高的QP)。 QP 選擇演算法解釋了影片幀的QP 值如何影響其他影片幀的位元率分配和整體影片質量。強化學習對於解決這類序列決策問題特別有幫助。

對於VP9 處理的每一幀影片,MuZero-RC 取代VP9 的預設速率控制機制,決定應用的壓縮級別,從而在較低的位元率下獲得相似的質量。

推薦文章  人到中年淪為配角心酸?於波:我有2套四合院,在雍和宮

MuZero 結合了搜尋能力和學習環境模式並做出相應計劃的能力,在各種任務中實現了超越人類的表現。這種方法在大型的組合動作空間中特別有效,使其成為解決影片壓縮速率控制問題的理想候選方案。

然而,要讓MuZero 處理這一現實世界的問題,還需要解決一系列全新的問題。例如,上傳到YouTube 等平臺的影片集在內容和質量上存在差異;任何智慧體都需要泛化至不同的影片,包括部署後的全新影片。相比之下,棋盤遊戲往往只有一個已知環境。而在影片任務上,許多其他的指標和約束會影響最終的使用者體驗和位元率節省程度,比如PSNR(峰值訊雜比)和位元率約束。

為了應對這些挑戰,DeepMind 為Muzero 建立了一種名為「自我競爭(self-competition)」的機制,它透過比較智慧體當前的效能和歷史效能,將影片壓縮的複雜目標轉化為一個簡單的WIN/LOSS 訊號。這使得一組豐富的編解碼器需求轉換成了一個簡單的訊號,再由智慧體進行最佳化。

透過學習影片編碼的動態變化和確定如何最好地分配位元,MuZero 速率控制器(MuZero-RC)能夠在不降低質量的情況下降低位元率。 QP 選擇只是編碼過程中眾多編碼決策中的一個。雖然幾十年的研究和工程已經產生了高效的演算法,DeepMind 還是設想了單一的演算法可以自動學習作出這些編碼決定,以獲得最佳的率失真權衡。

誰說阿爾法狗們只會下棋玩遊戲? DeepMind用它們給油管影片做壓縮自動播放 騰訊影片v.qq.com 網路連結似乎出現問題, 你可以重新整理或使用相容模式播放試試使用PC客戶端播放更穩定立即下載返回繼續播放或使用最新QQ瀏覽器/ Chrome觀看 [ 錯誤碼: xx, xxx ] 我要反饋播放下一集00:00 / 00:00 直播00:00 彈幕字幕自適應倍速0.5x 1.0x 1.25x 1.5x 2.0x 倍速播放在這裡全屏到騰訊影片觀看此影片 下一個即將播放取消50% 75% 100% 畫中畫

推薦文章  渣男倪安东扶正小三!

.

Scroll to Top