Categories
最新消息

反直覺!一種新方法或讓AI模型擁有「聯想」力,甚至能識別從未見過的事物


一種新的方法正在讓人工智慧模型獲得人類的 「聯想」 能力,甚至能讓它識別此前從未見過的事物。

來自加拿大滑鐵盧大學的博士生伊利亞(Ilia Sucholutsky)和他的博士導師馬賽厄斯 尚勞(Matthias Schonlau)教授,首次提出了「少於一次」 樣本學習的概念和方法,並由此為人工智慧技術的演進提供了新的思路。

相關研究論文於 2020 年 9 月發表在預印本網站 arXiv 上,名為 「’Less Than One’-Shot Learning: Learning N Classes From M

伊利亞告訴 DeepTech,他們的研究顯示,對於機器學習模型來說,理論上通過兩個樣本(example)即可訓練模型學會識別任意數量類別(class)。

沒人知道,這種方法一旦實現大規模應用,人工智慧會迸發出怎樣的火花。

高企的訓練成本

機器學習,尤其是深度學習往往需要大量的訓練數據。

著名的語言模型 GPT-3 使用了 45TB 的數據進行訓練,這個過程耗資達到了驚人的 1200 萬美元,即使有微軟的鼎力相助,訓練結束之後發現了一些小 Bug 也不捨得重新訓練。

目前,GPT-3 是煉丹師們 「大力出奇迹」 的集大成者,但可以預見,不遠的將來一定會有新的模型超越並取代它的位置。

「更多更大更強」 的思路是沒有盡頭的。假如我們稍稍停下疲於奔命的腳步,回歸到現實中的人類學習過程,就會發現一個觸及靈魂的拷問 ——人工智慧真的必須依託如此巨量的數據才能夠實現嗎?

相信很多人的答案並不篤定。

舉個例子,假如現在需要讓人工智慧模型 「認識」 馬這種動物。常規的做法是挑選成百上千的馬匹圖像對其進行訓練。

之所以需要如此之多的樣本,是因為同樣一匹馬,僅僅是轉換一個拍攝角度,或微調一些肉眼無法觀察的像素點,人工智慧就會識別失敗,所以需要大量的大小、顏色、體態、朝向、品種不一的樣本填滿人工智慧的 「盲區」。

即便如此,人工智慧的識別成功概率也不能達到 100%,我們離創造真正可以復現大腦理解能力的人工智慧還非常遙遠。

但人類的兒童,卻只需要一張看圖識字的卡片,便能輕易分辨出唐僧所騎乘的是馬,而不是其他外型類似的生物。並且,兒童一旦學會識別某種事物,這項技能終其一生都很難忘記,只會越來越熟練。

更有甚者,兒童可以在沒有任何真實示例的情況下 「認出」 一個新的物體。例如,展示給他們一匹馬和一頭犀牛的圖片,並告訴他們獨角獸結合了兩者的特點,他們就可以在第一次看到獨角獸時認出這個傳說中的生物。

反直覺!一種新方法或讓AI模型擁有「聯想」力,甚至能識別從未見過的事物

圖 | 犀牛 + 馬 = 犀牛馬?好吧,這張圖並不像獨角獸,但一定程度上體現了論文作者的意圖。

伊利亞和導師認為,人工智慧模型也應該具備同樣的能力。也就是說,人工智慧模型應該可以從 M 個樣本中學習到 N 個類別,其中 N 可以遠遠大於 M。這樣,理論上模型就可以識別比訓練示例更多的圖像,而此前的科研人員可能並未充分挖掘訓練數據的全部潛力。

他們將這一過程稱為 「少於一個」 樣本學習(LO-Shot Learning)。

考慮到居高不下的訓練成本和日益龐大到接近極限的訓練數據,這種讓人工智慧學會 「合理聯想」 的方法或許會在未來產生顛覆性影響。

如何實現 「少於一個」 樣本學習?

在此前的一篇論文中,現為麻省理工學院博士生的 Tongzhou Wang 和同事介紹了一種 「蒸餾」 方法,可以將大數據集 「提純」 為小數據集。

作為實踐,他們將 MNIST(一個包含了 6 萬張從 0 到 9 手寫數字圖片的業內常用測試數據集)提純壓縮成了一個僅由 10 張圖像組成的訓練數據集。

這些圖像不是直接從原始數據集中選取的,而是經由一系列的設計和優化后,賦予了這 10 張圖像幾乎與整個原始數據集相同的信息。

因此,僅僅用這個超精簡數據集對人工智慧模型進行訓練,就可以達到與用 MNIST 所有圖像進行訓練的模型幾乎一致的識別精度。

反直覺!一種新方法或讓AI模型擁有「聯想」力,甚至能識別從未見過的事物

圖 | MNIST 數據集樣例

反直覺!一種新方法或讓AI模型擁有「聯想」力,甚至能識別從未見過的事物

圖 | 「蒸餾」 后的 MNIST 精簡數據集。以上 10 張圖是從 MNIST 所含 6 萬張圖像中提純出的,可以用於訓練人工智慧模型,並且它們在識別手寫數字時擁有 94% 的準確性。

伊利亞和導師從中受到啟發,並且認為可以在 Tongzhou Wang 的方法上更進一步 —— 既然可以將 6 萬張圖像壓縮到 10 張,那麼為什麼不能將它們壓縮到 5 張或更少呢?一旦實現,就意味著,通過區區幾張圖象的訓練,人工智慧模型就能掌握從 0 到 9 這 10 個數字的各種手寫數字圖片,從而實現前面所說的 N 大於 M。

伊利亞很快發現,想要達到這個效果的訣竅就是創建混合有多個數字特徵的圖像,然後為它們打上 「軟標籤(讓一個數據點同時成為多個類別成員的矢量表示)」,再來用這些樣本訓練人工智慧模型(類似於前文的馬 + 犀牛混合體)。

「你可以想象一下數字 3,它看起來有點像 8,但一點都不像 7。」 伊利亞說。

反直覺!一種新方法或讓AI模型擁有「聯想」力,甚至能識別從未見過的事物

軟標籤的目的在於標註這些共同的特徵,進而以這種方式增加信息密度和維度。因此,相比於直接告訴模型這個圖像是 3,我們會說,這個圖像有 60% 可能是 3,30% 可能是 8,10% 可能是 0。」 使用這種數據訓練出的模型,基本可以達到與常規訓練方式一樣的精度。

「少於一個」 樣本學習的局限性

當伊利亞和導師成功地使用軟標籤在 MNIST 上實現 「少於一個」 樣本學習后,他們開始思考這個方法能否用於更廣闊的領域。人工智慧模型從小樣本中可以識別出的類別數量是否存在上限?

答案是否定的。

從理論上來看,使用精心設計的軟標籤,甚至只用兩個示例就可以承載任意數量的類別信息。伊利亞說:「通過兩個數據點,你就可以分離出一千個,一萬個,甚至是一百萬個類別。」

伊利亞和導師通過純數學方式的推導,在論文中證明了這一點。他們使用一種最簡單的機器學習演算法 ——K-近鄰演算法(kNN)來表述這一概念,該演算法使用圖形方法來為對象分類。值得注意的是,他們在 kNN 演算法的基礎上進行了開發,並將最終的演算法稱為SLaPkNN(軟標籤原型kNearest Neighbors)。

在進一步說明之前,有必要以水果分類任務為例,簡單說明 kNN 演算法的核心邏輯。

假設我們要訓練 kNN 模型識別蘋果和橙子,你必須先確定每個水果的特徵,這裡以顏色(X 軸)、重量(Y 軸)為例。這樣你就可以將多個蘋果和橙子的信息輸入 kNN 模型。

kNN 演算法會將所有數據點繪製在一張二維圖表上,並在蘋果和橙子分佈點的中間地帶繪製邊界線。

反直覺!一種新方法或讓AI模型擁有「聯想」力,甚至能識別從未見過的事物

圖 | kNN 演算法原理。由圖可見,坐標軸上分佈著紅蘋果、青蘋果和橙子的數據點。當模型需要判定黑色點屬於哪種水果時,它會依據藍色框選區域內的色彩分佈,將比例最大的橙色判斷為 「鄰近」,進而將黑色點歸類為橙子。

為了將 kNN 演算法應用於 「少於一個」 樣本學習,伊利亞和導師創建了一系列微型的合成數據集,並精心設計了它們的軟標籤。

然後,他們讓 kNN 演算法繪製了它從樣本中看到的邊界線,發現它成功地將樣本分成了比數據點更多的類別。

反直覺!一種新方法或讓AI模型擁有「聯想」力,甚至能識別從未見過的事物

圖 | 上圖中,有兩個實例可以調節機器學習模型(用黑點表示)。經典的 kNN 演算法會在兩個點和類別之間分界。但 SLaPkNN 演算法在兩個類別之間創建了一個新的類別(綠色區域),它代表著一個新標籤。這樣,研究者用 N-1 個樣本實現了 N 類別。

通過對類別邊界線的複雜編碼和樣本軟標籤的調整,他們讓 kNN 演算法精確畫出不同形狀的花朵圖案。

反直覺!一種新方法或讓AI模型擁有「聯想」力,甚至能識別從未見過的事物

圖 | 作者在論文中炫技。圖表上的每個彩色區域代表一個不同的類別,每個圖表側面的餅圖則顯示了每個數據點的軟標籤分佈。

當然,凡事總有兩面,這個方法也有其局限性。

當伊利亞和導師嘗試將 「少於一次」 樣本學習的方法應用到其他更複雜的演算法(如深度學習等)時,他們發現設計軟標籤的工作變得異常困難。

kNN 演算法具有很好的可解釋性和可視性,為人們設計標籤提供了良好基礎。但神經網路是複雜且不可穿透的,這意味著同樣的方法未必可行。並且,設計用於 「凝練」 神經網路訓練數據的軟標籤時也有一個主要難點:設計者需要面對龐大的數據集並凝練出有效的內容。

這一工作目前看來不可能全部通過人工完成。伊利亞說,他現在正在研究其他方法來設計這些凝練后的合成數據集 —— 無論是手動設計還是使用其他演算法進行設計。

儘管存在諸多挑戰,但不可否認這篇論文為 「少於一次」 樣本學習提供了理論基礎。「無疑經過凝練的數據集將帶來極大的效率提升。」 伊利亞說。

反直覺!一種新方法或讓AI模型擁有「聯想」力,甚至能識別從未見過的事物

圖 | 伊利亞(Ilia Sucholutsky)

需要從圖像或視頻幀中識別成千上萬個類別的計算機視覺系統(如自動駕駛)、執行情感分析的自然語言處理系統等都將從中受益。

Tongzhou Wang 對此補充道,這篇論文同時也提出了一個非常新穎且重要的目標 ——如何從小數據集中訓練強大的模型

從人類的學習經驗來看,這是能夠實現的,應用領域也異常寬廣。從抓捕只有一張照片的犯罪嫌疑人,到識別海上航行的敵方艦艇,都是典型的小樣本場景。

對於這項成果,也有業內人士指出 「可能很難實現」。一名杜克大學的計算機科學博士生告訴 DeepTech:「用很少的樣本去生成很多的類,是一件非常反直覺的事情。雖然他做到了這一點,但後續依然需要將各種特徵組合成現實中的真實事物。

該博士生分析稱,如果把人類的眉、目、鼻、口、耳這五官特徵提取出來,然後通過伊利亞的方式整合到一起,可能可以組成世界上所有存在、不存在的人臉,但在訓練模型的時候,依舊需要讓機器知道真正的人臉是怎樣的

也就是說,模型通過伊利亞的方法訓練之後,還需要再增加一個新的步驟來實現閉環,這個新的學習步驟如何實現,以及實現的難易程度,才是關鍵所在。並且,五官的特徵也是需要從大量的、有標籤的數據中來的。但他也承認,「從這個角度看,這篇論文的確提出了一個非常新穎的思路。」

最後,伊利亞強調這個研究尚處在早期階段,但他對此充滿信心。

他說,每當他向其他研究人員介紹這篇論文時,他們的第一反應是說這個想法不可能實現,但緊接著他們便意識到事實並非如此,它可能無意間觸及了一扇通往全新世界的大門。

反直覺!一種新方法或讓AI模型擁有「聯想」力,甚至能識別從未見過的事物

參考

https://www.technologyreview.com/2020/10/16/1010566/ai-machine-learning-with-tiny-data/

https://arxiv.org/abs/2009.08449

https://arxiv.org/abs/1811.10959

-結束-