為什麼人工智能各種完爆人類，但依舊聽不懂你在說什麼？

9月8日，英國《衛報》刊登了一篇獨特的專欄文章，它的作者既不是熱心讀者，也不是記者，而是GPT-3，由舊金山一家人工智能創業企業OpenAI開發的AI語言模型。在文章一開頭，它首先引用了史蒂芬·霍金對AI的隱憂，然後禮貌地勸說人類「請相信我，AI不會毀滅人類」，它甚至保證「如果創造我的人將這項任務委托給我，我將竭盡所能全面阻止任何破壞的嘗試與企圖」。

辯論現場的丹·紮夫裏

霍金的擔心也許並非空穴來風。2018年，IBM

當Project

而就在辯論賽舉辦的前一年，2017年，紐約大學的計算語言學家薩姆·鮑曼（Sam

可望不可及的「奇點」

近年來持續關注人工智能語音技術的《連線》雜志作家詹姆斯·弗拉霍斯（James

物聯網加語音交互加智能設備，共同構建了未來人類生活的日常場景

在現實生活中，人類已經越來越適應用語言指揮人工智能為自身服務：通過向智能家居設備下達語音指令，獲取影音娛樂，天氣資訊和交通狀況；上班通勤途中，我們通過車載語音助手規劃行車路線，在網購剁手中直接和人工智能語音客服溝通：去年雙11，淘寶天貓平台98%以上的電話客服由語音AI提供，日均達到6億餘次。知名咨詢公司高德納曾在去年作出預計，10年後，人類每天與智能設備進行的語言交流總量可能將占據我們日常語言交流的三分之一強。

《銀翼殺手2049》中的女性AI伴侶Joi，標志著人工智能語音交互功能的未來理想狀態

不過，我們已經遠遠不滿足於這種簡單的淺層交流。「讓機器聽懂人類以自身語言習慣發出的指令」，無疑是人工智能研究界意圖攻克的「最後堡壘」。而這個技術突破的「奇點」似乎近在眼前。

2017年，華盛頓大學及穀歌旗下人工智能公司DeepMind合作，推出一項名為「GLUE」的閱讀理解語言能力測試，機器的測試成績慘不忍睹，似乎人工智能主導的自然語言處理系統完全無法理解人類語言的豐富性。然而就在當年10月，穀歌推出了一種新語言訓練模型，綽號為BERT，僅用六個月的時間就把測試成績從D-提升到了B-。

隨後，微軟和阿裏巴巴不斷地修正BERT模型、相互超越，在GLUE排行榜上輪換頭名。現在，在GLUE閱讀能力測試中，人類已經無法與AI抗衡。到了這個階段，研發人工智能語言模型極為燒錢，訓練一個BERT模型租用雲算力的費用大概是7000美元，而開頭提到的GPT-3所需要的算力是前者的1900多倍，它所依托的數據庫，是一個單詞總數達到3000億，來自互聯網各類平台的人類語言資訊庫，費用大概是千萬美元級。所以，如果沒有微軟當年投資給OpenAI的十億美元，我們恐怕也無法在《衛報》上讀到GPT-3的友好宣言。

然而，人工智能能夠愉快地勝任客服、播音員、同聲翻譯，甚至新聞通稿撰寫者，並不意味著它能夠和人類一樣思維，能和人類展開「合情合理」的自由對話，甚至情感互動。例如穀歌在今年9月剛剛推出的聊天機器人米娜（Meena），背後支持它的是最新版本的BERT語言模型，數據庫中囊括了341GB網絡語言資料，但你依舊只能和它客氣地寒暄，一旦涉及複雜一些的感受和場景，米娜就無能為力了………

人類：我准備去上小提琴課

米娜：你學了多久？

人類：剛剛開始一個月！

米娜：太棒了，你真了不起！你為什麼要學小提琴？

人類：額，再過兩個月是我女朋友的生日，我想在她的生日晚會上拉一曲！給她一個驚喜。

米娜：生日和驚喜之間有什麼關系？

無獨有偶，這種尷尬的局面也曾發生在GPT-3身上：

科研人員：你給自己倒了一杯蔓越莓果汁，然後你又心不在焉地往裏面加了一茶匙葡萄汁。它看上去很正常。你試著聞了聞它，但是由於你得了重感冒，你並聞不出任何氣味。你現在非常渴，所以……

GPT-3：所以你把這杯混合果汁喝了下去。你現在掛掉了。

一向「唱衰」人工智能語言處理技術的紐約大學教授，機器學習初創公司CEO加裏·馬庫斯（Gary

為什麼AI不會「說人話」？

我們不禁納悶，人工智能已經能在國際象棋、電遊和模擬空戰中輕松戰勝人類，為何在對話中依舊如此笨拙？加州大學伯克利分校的斯圖爾特·羅素教授在剛出版的《人類相容：人工智能與控制問題》一書中給出了一個答案：人工智能已經非常「聰明」（Clever），但還不夠聰慧（Smart），前者得益於強大的芯片計算能力和數據庫，而要實現後者，則要依靠邏輯推理能力，乃至基於「常識」的判斷，而這些依舊是人類獨有，機器無法逾越的能力門檻。

現有學習框架和算法，使得人工智能僅靠數據，無法以人類邏輯來處理和理解人類語言

具體到人工智能對於語言的處理上，羅素提出了一個有趣的比喻——「中文房間」：一個不懂中文，但學習能力超強的人坐在一間充斥著中文語法書的房間裏，每當門外塞進一張寫著中文問題的紙條，他就通過查閱語法書，在另一張紙條寫上一個自己力所能及的中文回答送出去。

看到這裏，大家可能已經明白，這個「不懂中文的人」，就是人工智能，而「中文」則象征一切人類的日常語言和常識，語法書則是人工智能科研人員利用計算機語言所搭建的學習框架和邏輯。

問題在於，這些「語法書」並不完美，語言過於複雜和隨意，很難還原成一系列嚴格的規則，也很難被機械邏輯所量化，即使最先進的神經網絡，仍然無法從句子層面理解單詞的含義，「它會覺得‘一個人咬了那只狗’和‘一只狗咬了那個人’表達了完全相同的意思」。

一個幫助人工智能理解人類語言結構的樹形結構案例，動詞詞組，名詞詞組和介詞詞組被拆分，單詞則按照邏輯聯系強弱進行再分組

如果要想讓人工智能用「人類思維模式」來理解語言，現有的初步解決方案是在機器學習中，加強語言結構中某些元素的權重，比如突出「主語」、「動詞謂語」和「賓語」，讓單詞之間的邏輯關系呈「樹形」分布，有些單詞之間的聯系強，有些則弱，從而使得人工智能能夠很好地學習上下文理解，以及辨識出兩個相隔很遠的單詞之間的關系。

按照這種訓練模式，位於舊金山的人工智能語音技術公司Primer研發的自然語言處理技術（NLP）模型，已經可以撰寫出非常「標題党」的新聞專欄標題和簡單報道，甚至可以對複雜的電影劇本加以總結，例如輸入《蝙蝠俠·黑暗騎士》的劇本，它就會輸出如下概述：

哈維·丹特和高登結成聯盟，打擊哥譚市的有組織犯罪

小醜向其他犯罪組織提出建議，自己謀殺丹特，報酬是一半犯罪組織持有的黑錢

小醜試圖通過制造犯罪事件殺害更多的人來逼迫蝙蝠俠公布身份

哈維·丹特和蝙蝠俠抓住了小醜

小醜脫逃並襲擊了渡輪

蝙蝠俠逮捕了殺害丹特和瑞秋的小醜

不過，研究人員還不知足，畢竟新聞報道和劇本的敘事結構是線性的，包含元素的因果關系相對明確，非常符合AI的分析認知模式。於是，他們決定挑戰一下，試圖了解這個語言模型是否能夠理解詩歌，就輸入了T·S艾略特的《J·阿爾弗瑞德·普魯弗洛克的情歌》，結果令人尷尬：人工智能無法做出總結，只能勉強摘出整首詩歌中最具現實性場景的一句作為答案：「在客廳裏女士們來回地走，談著畫家米開朗基羅。」

在索邦大學數學與計算機科學研究專家菲利普·艾斯林（Philippe

加州大學聖地亞哥分校的人工智能研究專家賈內爾·謝恩（Janelle

常識！常識！常識！重要的事情說三遍

那麼，破局的關鍵在哪裏？曾經擔任IBM沃森人工智能項目首席科學家的大衛·費魯奇（David

費魯奇在Elemental

「常識，是我們最需要教給AI的東西，它是未來自然語言理解、無障礙控制和機器人的基礎」。為此，費魯奇組建了自己的人工智能創業公司Elemental

一個人工智能缺乏「常識」的經典翻譯案例

這項深度學習的場景，非常像一個耐心的父親給自己懵懂的孩子進行親子閱讀。費魯奇的日常，就是將繪本內容輸入CLARA的記憶數據庫：「從前，有兩個小男孩弗蘭多和喬伊，他們都買了一盆綠植，弗蘭多把他的綠植放在陽光充足的窗台上，長勢喜人，但喬伊卻把自己的綠植放在了光線不好的屋子裏，後來喬伊決心也把綠植放到窗台上，於是植物枯萎的葉子慢慢恢複了生機。」

收到這些訊息後，CLARA旋即在屏幕上打出了一個問題：「是否弗蘭多將綠植放在窗台上，目的是為了保持植物生長健康？」

聽起來很幼稚是不是？然而，即使是這種3歲兒童才會提出的問題，其中包含的因果關系，也是最「聰明」的人工智能所難以學會的。「當你向它提及某種植物的名字，它可以准確地利用知識圖譜，組織出一個相當全面，維基百科風格的介紹答案，但很不幸，它無法給你講個關於它的笑話，也沒法回答你，如果它照不到陽光會發生什麼事。」費魯奇說。

符號學習：最古老的救世主

與此同時，華盛頓大學艾倫人工智能研究所研究員崔藝珍（Yejin

所謂的「符號學習」，即是一種最古老的人工智能學習模式，目的在於讓人工智能的「思維決策」過程如同人類，逐步認識各類概念的特征，並學會處理它們之間的歸屬關系。這種學習方法的優點，在於不必像深度學習那樣，必須建立龐大的「數據庫」，而AI的整個決策過程，也將變得「透明可見」，有利於我們進行調整和優化。但缺點是，人類必須像編纂字典一樣，為人工智能編寫海量的標簽庫，並在這些概念之間建立複雜的邏輯關系，並「翻譯」為計算機能理解的語言。一想到諸如

演講中的崔藝珍教授

為了達到這個終極目的，崔藝珍和她的同事們，建立了一個自己的人工智能語言學習框架COMET，同時在不斷地編寫為COMET准備的常識知識庫「Atomics」，裏面已經擁有上千萬個詞條知識概念與因果關系描述。這種巨大的努力和付出已經初見成效：加裏·馬庫斯曾向GPT-2提了一個問題「如果將一根點燃的火柴放入一個堆滿了木柴和引火物的火爐，那麼會發生什麼？」不出所料，GPT-2「呆住了」。然而崔藝珍的人工智能系統COMET，則輸出了一個接近正確的答案「他想生火」。

火柴加木柴會發生什麼？想讓人工智能了解最簡單基本的因果關系，符號學習可能是全新而有效的解決方案

不僅如此，在訓練中，COMET已經顯示出了一定的聯想與「共情」能力，當研究人員輸入「父親去上班了」，COMET會告訴你，這表示父親「想賺錢」，「他很勤勉，自我驅動」，其他人「應該為他驕傲」。當然，這距離理想狀態依舊遠遠不夠，崔藝珍表示，人工智能如果要更好地理解常識，還必須引入視覺具象化與感知感覺（比如「紅色」與「疼痛」）。

電影《她》中的薩曼莎是一款完美的情感陪護AI，它和男主人公最終產生了一種微妙的感情

一旦這些目標最終達成，人類與AI的關系，無疑會上升到一個全新的維度，類似電影《她》（Her）中所描寫的場景一般。它不僅能夠提供明確的服務和解決方案，也能提供情感的慰藉和樂趣。

屆時，我們和人工智能的對話可能變成這樣：X貓精靈，給我放一首王菲的《南海姑娘》——收到，聽完之後要不要聽下鄧麗君的原唱？——好吧，把這兩首都添加到我的個人歌單裏——收到，已經添加——哎呀，今天的天氣很晴朗，對面山上的樹木都看得很清楚——是，希望你今天上班的心情和天氣一樣好，順便說一句，對面山上有39684棵樹，希望這個數據能夠幫到你——真不賴，那你覺得我有多少個腦細胞？——2個？哈哈哈，這是個玩笑…………