吳恩達:AI是時候從大資料轉向“小資料”了


豐色編譯整理

量子位| 公眾號QbitAI

AI大牛吳恩達不久前剛被檢測出新冠陽性,許多網友都向他表達了早日康復的祝願。

如今,他的工作重心放在了他的Landing AI公司上。

這是一家專門面向製造業廠商數字化轉型的初創公司,創立目標就是幫助製造業公司更快速、輕鬆地構建和部署人工智慧系統。

對於傳統企業來說,預訓練好的模型都是基於公開資料,實際派不上用場。

但畢竟是傳統企業,上哪兒收集海量的特定資料來支撐訓練?

那Landing AI是如何克服的這個困難?

最近,吳恩達在接受IEEE Spectrum的一段專訪中,討論了人工智慧領域下一個十年的風向,表達了“是時候從大資料轉向小資料、優質資料”的觀點。

或許我們能從中找到這個問題的答案。

以下整理自採訪原文,略有刪減。

IEEE Spectrum:得益於越來越大的模型和資料集,深度學習在過去十年間取得了巨大的進步。一些人認為這是一個不可持續發展的軌跡。你同意嗎?

吳:這確實是個值得思考的問題。 NLP領域已經有了基礎模型(foundation model),並正在繼續擴大規模。計算機視覺領域也有構建基礎模型的潛力,就是在影片領域由於計算頻寬(算力)和處理成本的限制還有待開發。雖然擴充套件深度學習演算法的引擎已經執行了大約15年,但它還有足夠的動力。不過,它只適用於某些問題,還有一系列場景需要小資料解決方案。

注:基礎模型是Percy Liang和吳在斯坦福大學的一些朋友創造的一個術語,指的是在非常大的資料集上訓練的巨大模型,這種模型可以針對特定的應用進行調整,例如GPT-3。

過去十年裡,面向消費者的企業由於擁有大量使用者群(有時甚至高達數十億),因此獲得了非常大的資料集得以開展深度學習。這給它們帶來了不少經濟價值,但我發現這種法則不適用於其他行業。

IEEE Spectrum:有意思,你以前就是在這種公司工作。

推薦文章  俄軍戰車經過烏克蘭布恰市伴有開炮射擊聲音

吳:確實,不過十多年前,當我提議啟動谷歌大腦專案、利用谷歌的計算基礎設施建設大規模網路時就引起了爭議。一位非常資深的人把我拉到一邊,警告我說,這會對我的職業生涯不利。我想他的意思是這個專案不能只注重擴大規模,應該把重點放在架構創新上。

我還記得當我和我的學生,發表第一篇倡導使用CUDA進行深度學習的論文時,另一位AI資深人士坐下來對我說:“CUDA程式設計非常複雜。作為一種程式設計範例,如果這麼做的話工作量太大了。”

IEEE Spectrum:我想他們後來肯定都被說服了。

吳:是的。

現在當我與大家討論以資料為中心的人工智慧(Data-centric AI)運動時,也會想到15年前與大家討論深度學習時的場景。這一年,許多人和我說“方向錯了”、“兩者之間似乎沒有什麼新東西”。

IEEE Spectrum:你是如何定義以資料為中心的人工智慧,為什麼你認為它是一種運動(movement)?

吳:以資料為中心的AI是為構建成功AI系統所需資料的系統準則。對於AI系統來說,你必須用程式碼實現一些演算法,然後在你的資料集上進行訓練。過去十年裡,主要的應用範例就是我們下載資料集,同時專注於改進程式碼。這種模式給深度學習網路帶來了顯著的改進,但其架構基本上表達的就是一個已解決的問題。因此,對於許多實際應用來說,現在更有效的方法是固定神經網路結構,找到改進資料的方法。

而當我提出這個觀點時,有從業者說:“這事兒我們已經做了20年了。” 我想說的是,現在是時候把這件少數人憑直覺做的事情變成一門系統的事。

IEEE Spectrum:你前面提到,一些公司或機構只有少量資料可供使用。以資料為中心的人工智慧如何幫助他們?

吳:像很多視覺模型都是用數百萬張影像構建的,我也曾經花3.5億張影像搭建了一個人臉識別系統。但這種模型在只有50張影像的資料集上卻沒法執行。不過事實證明,如果你有50個非常好的資料,你也可以做出有價值的東西,比如缺陷檢查系統。在許多根本不存在巨型資料集的行業,我認為重點必須從大資料轉向優質資料。有50個經過深思熟慮的例項就足以向神經網路解釋你想要它學會什麼。

IEEE Spectrum:用50張影像訓練一個模型的意思是在一個用大資料集訓練好的現有模型上對其進行微調嗎?還是說這是一個全新的模式,就從這個小資料集上學習?

吳:我來講一下Landing AI是做什麼的吧。在給製造商提供暇疵檢查服務時,我們一般就用帶有我們自己風格的RetinaNet。它是一個預訓練模型。話說過來,預訓練只是難題的一小部分,更大的難題是提供一個工具讓製造商能夠選擇正確的影像集(用於微調),並用一致的方式對圖集進行標記。面對大資料集的應用時,我們的通常反應都是如果資料有噪音也沒關係,所有資料照單全收,演算法會對其進行平均(average over)。但是,如果我們能夠開發出用來標記出資料不一致的地方的工具,為製造商提供一種非常有針對性的方法來提高資料質量,那這將是獲得高效能係統的更有效方法。

就比如你現在你有10000張影像,其中30張屬於一個類別,但這30張的標籤不一致。我們要做的一件事就是構建工具來吸引你注意到這個特殊的資料子集,使你能夠快速重新對它們進行標記,從而提高模型效能。

IEEE Spectrum:像這樣生成高質量的資料集是否有助於消除資料偏見?

推薦文章  都说偶像小生看颜值,白白净净才吸睛,可这三位却“脏”得圈粉

吳:非常有幫助。有偏見的資料是導致最終模型產生偏見的眾多因素之一。在NeurIPS會議上,Mary Gray的演講談到了以資料為中心的AI是這個問題的解決方案之一(並非全部)。

以資料為中心的AI給我們帶來的強大能力之一是構建(engineer)資料子集。想像一下,你訓練了一個機器學習模型,它的效能對於大多數資料集都還可以,但只有一個子集有偏差。要是僅僅為了提高該子集的效能就更改整個神經網路架構,那是相當困難的。

但如果你能針對這個子集構建(engineer)出合適的資料,解決方式也就更有針對性。

IEEE Spectrum:構建(engineer)資料的確切意思是?

吳:在AI領域,資料清洗很重要,但目前都是靠很機械的方式。面對一個非常大的資料集時,這個工具可以快速地將你的注意力吸引到有噪音的資料子集上,針對該子集進行集中收集。

就像我曾經發現語音識別系統的效能很差,主要是背景中有汽車噪音。知道了這一點,我就可以再收集更多帶這種噪音背景的資料,而不是對所有內容都採取行動,省錢又省時。

IEEE Spectrum:使用合成資料怎麼樣?這也是個好的解決方式嗎?

吳:合成資料也是Data-centric AI工具集中的一個重要工具。在NeurIPS研討會上,Anima Anandkumar做了一次涉及合成資料的精彩演講。我認為它僅僅只是一個為模型增加資料的預處理步驟。我希望能看到開發人員將生成合成資料作為迭代機器學習模型閉環的一部分。

IEEE Spectrum:你的意思是合成資料可以讓你在更多不同資料集上嘗試模型嗎?

吳:不止如此。假設你要檢測智慧手機外殼上的瑕疵,包括劃痕、凹痕、材料變色等。如果你的訓練模型在這個檢測任務上總體表現良好,但就是在識別凹痕上表現不佳,那麼就可以用合成資料生成更有針對性的資料來解決問題。

IEEE Spectrum:能和我們詳細說一下當一家公司找到Landing AI,比如要做視覺檢驗,你們會提供何種幫助?

吳:我們會要求他們將資料上傳到我們的平臺,用以資料為中心的人工智慧方法向他們提供建議,並幫助他們標記資料。

Landing AI的重點是授權製造商自己做機器學習工作,我們的很多工作是確保軟體快速且好上手。在機器學習的迭代過程中,我們會為客戶提供建議,比如如何在平臺上訓練模型,如何以及何時改進資料標記來提高模型效能。

IEEE Spectrum:如果產品或照明條件什麼的發生變化,這種模型能跟上嗎?

推薦文章  4位自詡救世主的男主,打著為心上人好的旗號,卻把美人坑得更慘

吳:所以說授權製造業客戶自己更正資料、重新訓練和更新模型非常重要。

在消費網際網路中,我們只需訓練少數機器學習模型就能服務10億使用者。在製造業中,有10000家製造商就要搭建10000個定製模型。挑戰是,你如何做到這點還不用僱傭10000名機器學習專家?

這個問題在其他行業比如醫療健康領域也存在。

擺脫這一困境的唯一辦法是開發出能夠讓客戶自己設計資料、表達專業領域知識的工具,讓他們自己構建模型。這也是Landing AI在計算機視覺領域中正在做的事兒。

IEEE Spectrum:最後還有什麼想說的?

吳:在過去十年中,人工智慧的最大轉變是向深度學習的轉變。我認為在這十年中,最大的轉變很可能是轉向以資料為中心的人工智慧。隨著當今神經網路架構的成熟,我認為對於許多實際應用而言,瓶頸將是我們能否有效地獲取讓模型執行良好所需的資料。

而以資料為中心的人工智慧運動在整個社羣擁有巨大的能量和動力。我希望更多的研究人員和開發人員能夠加入並致力於它。

完。

.

Scroll to Top