it之家 12 月 17 日消息,meta 今日發布了首個統一的多模態音頻分離模型 —— 音頻本身。
meta 表示 sam audio 是一個“最先進的統一模型”,通過使用自然的、多模態的提示,使音頻處理變得簡單,能夠輕鬆地從複雜的音頻混合中分離出任何聲音 —— 無論是通過文本、視覺提示還是時間段標記。這種直觀的方法模擬了人們自然與聲音互動的方式,使音頻分離更加易於使用和實用。
sam audio 的核心是感知編碼器視聽(pe-av),這是一個幫助實現先進性能的技術引擎。pe-av 基於 meta 今年早些時候分享的開源感知編碼器模型構建,它使人們能夠創建更先進的計算機視覺系統,以協助日常任務,包括聲音檢測。
meta 官方把 pe-av 類比為“耳朵”,幫助 sam audio 這個“大腦”完成音頻分割任務。比如,一段樂隊演出的視頻錄像,只需點擊一下吉他,就能分離出吉他音頻。
sam audio 還可以通過文本提示來分離音頻,例如從戶外拍攝的視頻中過濾掉嘈雜的交通噪音。此外,跨度提示功能可以幫助人們一次性解決音頻問題,例如在整個播客錄音中過濾掉狗叫聲的噪音。
sam audio 提出了三種音頻分割方法,可以單獨使用或任意組合以達到所需的效果:
- 文本提示:輸入“狗吠”或“人聲演唱”以提取特定的聲音。
- 視覺提示:在視頻中點擊說話的人或發聲的物體,以分離其音頻。
- 時間片段提示:這是行業首創的方法,允許用戶標記目標音頻出現的時間段,類似《賽博朋克 2077》里的超夢。
meta 還發布了 山姆音頻工作台,這是首個真實場景下的音頻分離基準測試;以及 薩姆音頻法官,這是首個用於音頻分離的自動評估模型。
meta 今日發布了第二個模型 —— perception encoder audiovisual,是 sam audio 成果的核心引擎。它支持核心組件,如主要的字幕生成模型和 sam audio judge。該模型基於 meta 於四月發布的開源模型 meta perception encoder 構建,pe-av 將計算機視覺能力擴展到了音頻領域。
it之家附 sam audio 訪問地址如下: