像小孩子一樣邊問邊學，能讓人工智慧更聰明嗎？

80 多年前，圖靈提出了著名的圖靈測試。

這個測試非常簡單，就是讓一個人與一臺機器隨便聊天，在不知道對方是機器的前提下，如果你無法分辨和你對話的是真人還是機器，就說明這臺機器具有智慧。

如果你一眼就看穿真相，只能說明這臺機器還很蠢，還配不上“人工智慧”這個稱呼。

圖靈測試得到了很多人的認可，但也有人持不同看法，這個人叫做賽爾。

賽爾並非和圖靈有過節，在“如何判斷一個機器是否具有智慧”問題上，賽爾有自己的理由，也就是“漢字屋”。

想象一個：一間密閉小屋，屋裡坐著一個不懂漢語的美國人，屋外守著一個不懂英語的中國人。

美國人想營造出自己精通漢語的假象，中國人想知道屋裡那哥們是真懂漢語還是在搞笑。

實際情況是，美國人不懂漢語，但他低頭看著手裡的中文對話寶典，根本不慌。

假設屋外遞進來的紙條上寫著“你吃飯了嗎？”，美國人翻開詞典，找到問題及對應回答，照抄下來再遞出去就行：“已經吃了，你呢？”

如果這本中文對話寶典的內容足夠充實，查詢也足夠便捷，那麼在這樣一來一往間，屋外的人想找到破綻並非易事，因為寶典總能幫屋裡的人做出最優迴應。

終於，屋外的人放棄了，因為他實在無法判斷屋裡的人是不是真的精通漢語，雖然偶爾回答刻板，但又沒出大錯，實在難以下定論。

同理，假設屋內是一臺機器，用類似的手段與人交流，對屋外的人來說，別說判斷它是不是機器，恐怕連它懂不懂漢語都難以判斷。

換個角度來看，圖靈測試之所以經久不衰，很大程度是因為相當比例的人工智慧，確實是不太聰明。

從人工智慧誕生至今，研究者一直試圖從人類自己身上總結智慧經驗，再將其化作程式碼，在人工智慧身上覆現，以此來實現真正的智慧。

所以，如同給人工智慧喂記憶麵包一樣，研究者讓人工智慧快速吞嚥資料，可即便上下五千年的資料都餵了，人工智慧仍然表現不佳。

或許是因為人工智慧總在與世隔絕的虛擬世界中獨自學習，缺少與外界的互動，才導致當一個智慧體出現在真實世界中時，不斷被持續變化的難題所困住，無法脫身。

將智慧體從閉關修煉的狀態裡“解放”出來，讓它能夠在廣闊的社會情境中學習，即是一個新挑戰，也是一個新機會。

最近，斯坦福大學計算機系的 Ranjay Krishna、Donsuk Lee、李飛飛、Michael Bernstein 等人，針對此問題提出了一種新的研究框架：社會化人工智慧（socially situated AI），即智慧體透過在現實社會環境中與人的持續互動來學習。

1、強化學習框架

這個社會化 AI 的強化學習框架，重點在於探索智慧體真正與人互動的學習方法：要開發社會化的 AI，智慧體不僅要收集資料來學習新概念，還要學習如何與人互動來收集資料。

尤為重要的一點是，智慧體必須要在互動學習（interacting to learn）和學習互動（learning to interact）這兩個目標之間進行權衡。

這是非常具有挑戰性的事情，因為智慧體要遍歷的可能互動空間是巨大的，只有一部分社會互動空間是有用的，並且資訊互動空間還會隨著智慧體的學習程序而不斷變化。

在強化學習中，研究者需要將可能的互動形式化為行動空間，將反饋形式化為獎勵，需要數億次互動才能獲得具有資訊量和親社會的互動的子空間，這讓很多研究人員望而卻步。

所以，社會化的 AI 形式化，其實是一個迭代強化學習問題。

社會化 AI 的強化學習框架

智慧體在與人類互動時，只有當人的迴應包含對智慧體有用的新資訊時，迴應才是有用的。因此，智慧體必須與環境中數十萬人的單次互動，從中選擇能夠引發對模型有用的新概念的社會互動。

為了平衡智慧體的互動學習和學習互動兩個目標，研究者引入了知識獎勵（knowledge reward），引導智慧體進行互動以獲得有用的新概念，同時採用互動獎勵（interaction reward），引導智慧體進行符合環境中社會規範的互動。

在使用新概念改進模型的基礎上，智慧體會更新其策略，開始學習如何就人們有興趣迴應的新概念提出問題，來改進自身效能還比較差的部分。

2、問答互動

為了驗證社會化 AI 框架在計算機視覺中的實用性，研究者在照片共享社交網路應用 Instagram 上部署了一個社會化智慧體：它向人們提出自然語言問題，並從人的迴應中提取答案，收集視覺知識。

這種使用自然語言來獲取視覺知識的方法，可以用來測試很多計算機視覺識別任務，如物件檢測（“影象中有什麼？”）、細粒度識別（“花瓶裡是什麼花？”）、屬性分類（“這張桌子是用什麼材料做的？”）、知識庫推理（“這份食物是素食嗎？”）和常識推理（“這張照片是在冬天拍攝的嗎？”）等等。

在這項工作中，研究團隊設計了一個計算機視覺問答模型，其輸入是一張影象和相應的自然語言問題，輸出是一個自然語言答案。智慧體提出的問題非常多樣。

社會化智慧體在Instagram上的互動示例

起初，識別模型不知道如何識別任何概念，但隨著看到的特定概念的增長，它會對自己的判斷更加肯定。比如，如果人們幫助智慧體將影象中的動物識別為鹿，那麼它的不確定性就會減少。

3、少即是多

在社會化 AI 的框架中，智慧體同時有兩個目標：一個發起社互動動，讓人們根據資訊資料作出迴應；另一個是透過收集有用的資料來改進其基礎模型。

這兩個目標就是智慧體的評估指標。

首先，為了評估該智慧體獲得迴應的能力，我們需要測量對它所提問題的資訊迴應率（Informative Response Rate），也就是它收到問題答案（即獲得有用的互動）的互動百分比。較高的資訊迴應率意味著對智慧體對隱性社會規範有更好的理解，而較低的資訊迴應率則意味著人們不給予迴應，這會減慢甚至停止智慧體的學習程序。

其次，為了評估智慧體識別新的視覺概念的能力，研究人員使用由 Amazon Mechanical Turk 的註釋器收集的 50104 個社交媒體影象、問題和答案，構成測試集，來評估視覺識別模型的準確率。

實驗進行了 8 個月，每個智慧體可以發起至少 20 萬次互動。當它們與人互動、並收集新的視覺知識時，資訊迴應率和識別準確率的變化結果表明，社會化智慧體整體上優於其他智慧體。

在 236000 次互動中，社會化智慧體的資訊迴應率從最初的 22% 提高到 33%，相對提高了 50%。相比之下，主動學習和基線智慧體在每次迭代後獲得的迴應較少，分別為 6% 和 12。3%。

主動學習智慧體的弊端則在於它會提出更長、更難的問題，無法引起熱人們的興趣。例如，要回答“這些工具是為左撇子還是右撇子設計的？”這個問題，還得知道有關特定工具的知識以及是否可以用任何一隻手操作。

相比之下，主動學習智慧體共發起了 274893 次互動，但僅收到 30000 條迴應，並且效能開始飽和，達到 31。4%，迴應率也下降到 12。3%。

這再次表明，在某些社會環境中，純粹的主動學習方法是不可行的。

整體而言，這項研究的重要創新在於，提出了一個智慧體從與人的互動中學習的形式框架，並透過使用語言互動的視覺模型驗證了該框架的實用性，這對於互動式智慧體的研究或許會是一個極大幫助。

參考資料：

https：//www。pnas。org/doi/10。1073/pnas。2115730119#：~：text=To%20enable%20socially%20situated%20AI，learn%20and%20learning%20to%20interact。

文 | 木子Yanni

嗨，這裡是淺黑科技，在未來面前，我們都是孩子。

想看更多科技故事，歡迎戳→微信公眾號：淺黑科技。

百聞網

像小孩子一樣邊問邊學，能讓人工智慧更聰明嗎？

相關文章