看了今年《英雄聯盟》S11比賽,我見識到了不少黑科技


文/嚴錦彥

最近,《英雄聯盟》除了推出國服手游以外,也迎來了一年一度的世界總決賽。上週,葡萄君在虎牙看比賽時,發現今年的賽事直播竟然多了一些黑科技。

比如,《英雄聯盟》本身是沒有HDR配置的,虎牙卻可以將直播調整為色彩更豐富、對比度更高的HDR畫面。

各個平台都會有一路、二路、主播解說等多個房間同時直播賽事,這不是什麼稀奇事。有趣的是,虎牙這次有個直播間叫AI字幕。進去後,你會看到解說的人聲內容都實時轉變為了字幕,而且準確度還挺高,不僅英雄、技能名字翻譯正確,連國外選手的外號、一些賽場梗也能對應上。

當然,AI還沒有聰明到能完全聽懂外國人說話。當國外選手接受採訪時,AI字幕的「可愛表現」往往能成為另一種趣梗。

同樣,通過AI實現的,還有彈幕防遮擋和打點回放功能。在S賽這種高熱度賽事上,如果你打開全部彈幕,畫面會瞬間被彈幕淹沒。從實際效果來看,彈幕防遮擋可以識別英雄、皮膚、技能,就像檢測到真人一樣,彈幕會主動避開。像EZ大招那種全圖型技能經過時,還會掃走彈幕,開出一條路。

或許某種程度上,這也算是一種加強沉浸感的方式(?)

如果你留意進度條,還會看到有團戰、爭奪大龍資源等關鍵時刻的時間點,直接點擊就能回到對應的比賽時間。更方便我們回看選手下飯精彩操作,也不用全程盯著螢幕,生怕錯過某些精彩瞬間。

那麼,這些黑科技到底是如何實現的?虎牙又為什麼要花這麼大力氣去做?

01

「嘗試定義遊戲直播HDR的效果」

相關文章  《榮耀新三國》新手武將之魏延全方位講解

從數據統計來看,目前在支持HDR功能的虎牙直播APP版本里,約15%的S11觀眾在觀看HDR直播,而這個比例在4K HDR頻道裡還要更高。

虎牙音視頻算法負責人陀健告訴我,HDR是音視頻直播技術疊代的必然趨勢。目前市面上一些採集設備以及高端手機都已經支持了HDR的視頻拍攝,該類型的顯示屏更是越來越多。虎牙在極大優化了直播的延時和清晰度等問題後,視頻色彩順理成章地成為了提升畫質的著力點。

HDR畫面

普通畫面

葡萄君是技術門外漢,一開始看到直播支持HDR的時候,有過一陣納悶。畢竟《英雄聯盟》本身是沒有HDR配置的,那直播視頻要怎麼做出HDR的效果?

陀健認為這也是他們遇到的難點之一。大家普遍把一般視頻稱為SDR視頻,以此來區別HDR,這裡涉及到色深、峰值亮度、色域映射等一系列參數。舉例來說,SDR的圖像理論上色深是8bit,而虎牙用到的HDR10是10bit。從感性認知角度來看,SDR能顯示約1658萬個顏色單位,而HDR10的標準下,能擁有10億多個顏色單位。

「目前雖然有很多視頻平台會對SDR視頻進行HDR的轉換處理,但其實轉換後的視頻有些只是經過色域映射,即用tonemapping技術來擬合HDR效果,實際上還是一個SDR的普通視頻。」

事實上,目前大部分遊戲本身也是沒有HDR效果的。陀健團隊要通過AI圖像生成模型、視頻編解碼、播放器渲染等方式,把遊戲畫面轉換為色彩更豐富的HDR視頻畫面。這裡面,大到虎牙流媒體各個系統的支持,小到一個圖像內存拷貝的函數優化,都得按需進行。

「與所有音視頻直播領域面對的問題一樣,我們還有個最入門但也最苛刻的要求:實時性。尤其對S11直播而言,以4K+60FPS+HDR舉例,我們需要在1秒內對60張1080P圖像進行超解析度到4K,以及對4K圖像進行SDR2HDR的AI模型推理,最後通過編碼器編碼成4K HDR視頻流。」

在研發過程中,為了獲取最佳HDR效果,陀健團隊做了一系列精細化的處理。比如對視頻場景實時分類,以此區別遊戲場景和舞台場景的HDR效果;為了準確控制HDR的亮度分佈和色彩呈現效果,進行了實時的ROI分割,使用對應的SDR2HDR模型進行調色轉換等等。

在落實SDR2HDR的AI模型時,陀健團隊裡有個年輕的算法研究員小曹,在做效果fine-tuning時,需要長時間盯著螢幕校對效果。由於HDR擁有更高的峰值亮度和對比度,眼藥水成了小曹的常備物品。團隊甚至開玩笑地用滴眼藥水的次數來檢驗各模型的優劣。

「我們其實也不知道遊戲的HDR效果應該是什麼樣。我們無意參與到遊戲創作裡面去,但我們嘗試去定義遊戲直播HDR的效果。這需要長期的算法和優化經驗沉澱。」

02

相關文章  和平精英新版本來了!隊友可復活還能打殭屍前五提示框改了

要怎麼保證AI字幕的準確和流暢?

再說到黑科技的部分。像去年就推出的AI智能回放和彈幕防遮擋功能,我們不難想像它們的使用場景。比如經典的The Shy劍魔天神下凡1V4,這種精彩操作總會讓人去回顧和欣賞,同時玩家還會有討論熱情,想要看看彈幕是怎麼說的。

而AI字幕功能,放眼所有傳統體育賽事中都頗為罕見。虎牙技術副總裁許佳告訴我,其實這也是從用戶需求出發。

「首先,虎牙賽事觀眾有很多硬核玩家,他們想要通過觀看比賽向職業選手學習。解說可以把專業的戰術、關鍵的操作捕捉到,講解出來,便於玩家學習。光聽一遍,可能很快就會過去,但如果配合字幕,觀眾可以加深印象,或者更好地理解賽事裡轉瞬既逝的內容。

另外,直播內容本身是視覺+語音多模態的。當觀眾沒有耳機也不方便外放(或者聽力不方便時),比如在乘車坐地鐵,或者晚上和家人在一起,甚至上班的時候,AI字幕就可以滿足觀眾的需求,將多模態內容完整呈現出來。 」

正如文章開頭提到,遊戲賽事直播中,會涉及到大量的黑話、專業術語、甚至是無厘頭的梗等等。大家用過語音轉文字,都能感受到文字轉換的準確性是影響體驗的重要因素。那虎牙的AI字幕要怎麼保證準確性?

許佳表示:「虎牙從5、6年前就開始直播S賽事,現在還有LPL、LCK等聯賽的語音和視頻數據。我們會針對S賽事做很多標註,比如戰隊名、英雄名、選手名、黑話,積累一個比較大的數據集,並且訓練一個深度學習模型。這個模型在AI領域叫作語言模型,我們也叫熱詞模型,能夠識別專業的術語。保證準確性就是在虎牙積累的數據前提下,不斷做內部算法疊代的過程。

雖然字幕功能真正測試可能就1-2個月,但真正底層的語音轉文字技術,我們做了一年多。目前我們AI字幕的識別錯誤率已經降低到了4.02%,在遊戲直播場景上已經領先所有第三方識別引擎。 」

此外,我在實際觀賽時,發現虎牙的AI字幕顯示類似於YouTube的識別字幕,是逐字逐詞出來,而不是一整句話的形式。許佳說這種流式的處理方式也是為了保證識別的低延遲性。

「舉個簡單的例子,我們講一句話需要3到5秒時間,當聽完整句話再去做識別時,其實直播裡已經跳到了下一句話,所以用流式的方法邊講邊識別,在延遲和算法上有天然的優勢。如果觀眾對比其他平台的直播字幕,會發現我們至少快上10秒。這也是前端後端配合開發出來的。

比如,我們從賽事方拿到視頻流以後,直接在local的伺服器上做了語音識別,然後把文字發送到觀眾端,這個過程其實數據量很小,打的是時間差,最後文字和音頻、視頻到觀眾端的時間是同步的。相比於第三方拿到視頻做完識別後,先把文字嵌入到視頻中,做了一次視頻轉碼再走CDN把整個視頻發出去,我們的傳輸會更快。虎牙的AI字幕通過信令傳輸到觀眾端渲染顯示,不僅延遲更低,字幕呈現也更清晰流暢。 」

相關文章  有文化有底蘊,《王者榮耀》誕生於天府成都

而當談到AI字幕難以識別國外選手的採訪時,許佳也承認,目前他們在技術上還有很多疊代的空間。不只是語言翻譯問題,語速較快的解說也會對流式的語音識別有較大的挑戰,又或者多個解說同時講話,能否準確識別也是一個可以改進的地方。

03

技術驅動內容

有了這些黑科技之後,我的觀賽體驗確實有所提升,雖然不算天翻地覆,但起碼我多了好幾個選項,可以自由地選擇各個功能。

對於虎牙來說,更重要的是,通過S賽事這樣的大型節點,他們可以針對性地對直播基礎能力做優化,在底層技術上研發出更多的配套功能。

去年S賽推出的智能回放和彈幕防遮擋功能,目前已經成為了虎牙的賽事直播標配,應用到了《王者榮耀》《和平精英》等比賽中。虎牙視頻、主播動態中,系統自動捕捉並剪輯的主播精彩時刻,其實用的也是智能回放的技術方案。

而像AI字幕的核心技術——語音轉文字也可以應用到更多場景。比如在直播間的合規審核中,可以更智能地辨別主播是否違規;在算法推薦時,可以通過識別語音,自動給直播間加上標籤,幫助用戶找到他們想看的內容;甚至在商業化、功能性的相關內容上,語音識別也可以更靈活地觸發廣告、特效,輔助主播直播。

在實際的觀賽功能以外,虎牙也結合虛擬形象技術、AI技術、肢體驅動系統推出了虎牙雙馬尾的虛擬形象,在PGC綜藝《虎說S11》中,和解說、主播同台互動。類似的還有《聯盟鍵盤俠》這樣的賽事評論節目,在賽後承接用戶的討論。

目前,直播這條賽道上,頭部平台已經形成。我們可以看到,虎牙近年的策略便是從用戶的角度出發,在技術疊代的過程中,用內容滿足用戶體驗與需求。而這些技術驅動下誕生的功能,如果未來能得到更廣泛的衍生與應用,或許整個直播行業生態,都會得到一個更好的發展。

遊戲葡萄招聘產業記者/內容編輯,

舉報/反饋

回到頂端