一種新的方法正在讓人工智能模型獲得人類的
來自加拿大滑鐵盧大學的博士生伊利亞(Ilia
相關研究論文於
伊利亞告訴
沒人知道,這種方法一旦實現大規模應用,人工智能會迸發出怎樣的火花。
高企的訓練成本
機器學習,尤其是深度學習往往需要大量的訓練數據。
著名的語言模型
目前,GPT-3
「更多更大更強」
相信很多人的答案並不篤定。
舉個例子,假如現在需要讓人工智能模型
之所以需要如此之多的樣本,是因為同樣一匹馬,僅僅是轉換一個拍攝角度,或微調一些肉眼無法觀察的像素點,人工智能就會識別失敗,所以需要大量的大小、顏色、體態、朝向、品種不一的樣本填滿人工智能的
即便如此,人工智能的識別成功概率也不能達到
但人類的兒童,卻只需要一張看圖識字的卡片,便能輕易分辨出唐僧所騎乘的是馬,而不是其他外型類似的生物。並且,兒童一旦學會識別某種事物,這項技能終其一生都很難忘記,只會越來越熟練。
更有甚者,兒童可以在沒有任何真實示例的情況下
圖
伊利亞和導師認為,人工智能模型也應該具備同樣的能力。也就是說,人工智能模型應該可以從
他們將這一過程稱為
考慮到居高不下的訓練成本和日益龐大到接近極限的訓練數據,這種讓人工智能學會
如何實現 在此前的一篇論文中,現為麻省理工學院博士生的 作為實踐,他們將 這些圖像不是直接從原始數據集中選取的,而是經由一系列的設計和優化後,賦予了這 因此,僅僅用這個超精簡數據集對人工智能模型進行訓練,就可以達到與用 圖 圖 伊利亞和導師從中受到啟發,並且認為可以在 伊利亞很快發現,想要達到這個效果的訣竅就是創建混合有多個數字特征的圖像,然後為它們打上 「你可以想象一下數字 「軟標簽的目的在於標注這些共同的特征,進而以這種方式增加信息密度和維度。因此,相比於直接告訴模型這個圖像是 「少於一個」 當伊利亞和導師成功地使用軟標簽在 答案是否定的。 從理論上來看,使用精心設計的軟標簽,甚至只用兩個示例就可以承載任意數量的類別信息。伊利亞說:「通過兩個數據點,你就可以分離出一千個,一萬個,甚至是一百萬個類別。」 伊利亞和導師通過純數學方式的推導,在論文中證明了這一點。他們使用一種最簡單的機器學習算法 在進一步說明之前,有必要以水果分類任務為例,簡單說明 假設我們要訓練 kNN 圖 為了將 然後,他們讓 圖 通過對類別邊界線的複雜編碼和樣本軟標簽的調整,他們讓 圖 當然,凡事總有兩面,這個方法也有其局限性。 當伊利亞和導師嘗試將 kNN 這一工作目前看來不可能全部通過人工完成。伊利亞說,他現在正在研究其他方法來設計這些凝練後的合成數據集 盡管存在諸多挑戰,但不可否認這篇論文為 圖 需要從圖像或視頻幀中識別成千上萬個類別的計算機視覺系統(如自動駕駛)、執行情感分析的自然語言處理系統等都將從中受益。 Tongzhou 從人類的學習經驗來看,這是能夠實現的,應用領域也異常寬廣。從抓捕只有一張照片的犯罪嫌疑人,到識別海上航行的敵方艦艇,都是典型的小樣本場景。 對於這項成果,也有業內人士指出 該博士生分析稱,如果把人類的眉、目、鼻、口、耳這五官特征提取出來,然後通過伊利亞的方式整合到一起,可能可以組成世界上所有存在、不存在的人臉,但在訓練模型的時候,依舊需要讓機器知道真正的人臉是怎樣的。 也就是說,模型通過伊利亞的方法訓練之後,還需要再增加一個新的步驟來實現閉環,這個新的學習步驟如何實現,以及實現的難易程度,才是關鍵所在。並且,五官的特征也是需要從大量的、有標簽的數據中來的。但他也承認,「從這個角度看,這篇論文的確提出了一個非常新穎的思路。」 最後,伊利亞強調這個研究尚處在早期階段,但他對此充滿信心。 他說,每當他向其他研究人員介紹這篇論文時,他們的第一反應是說這個想法不可能實現,但緊接著他們便意識到事實並非如此,它可能無意間觸及了一扇通往全新世界的大門。