首頁/ 汽車/ 正文

像小孩子一樣邊問邊學,能讓人工智慧更聰明嗎?

80 多年前,圖靈提出了著名的圖靈測試。

這個測試非常簡單,就是讓一個人與一臺機器隨便聊天,在不知道對方是機器的前提下,如果你無法分辨和你對話的是真人還是機器,就說明這臺機器具有智慧。

如果你一眼就看穿真相,只能說明這臺機器還很蠢,還配不上“人工智慧”這個稱呼。

圖靈測試得到了很多人的認可,但也有人持不同看法,這個人叫做賽爾。

賽爾並非和圖靈有過節,在“如何判斷一個機器是否具有智慧”問題上,賽爾有自己的理由,也就是“漢字屋”。

想象一個:一間密閉小屋,屋裡坐著一個不懂漢語的美國人,屋外守著一個不懂英語的中國人。

美國人想營造出自己精通漢語的假象,中國人想知道屋裡那哥們是真懂漢語還是在搞笑。

實際情況是,美國人不懂漢語,但他低頭看著手裡的中文對話寶典,根本不慌。

假設屋外遞進來的紙條上寫著“你吃飯了嗎?”,美國人翻開詞典,找到問題及對應回答,照抄下來再遞出去就行:“已經吃了,你呢?”

如果這本中文對話寶典的內容足夠充實,查詢也足夠便捷,那麼在這樣一來一往間,屋外的人想找到破綻並非易事,因為寶典總能幫屋裡的人做出最優迴應。

終於,屋外的人放棄了,因為他實在無法判斷屋裡的人是不是真的精通漢語,雖然偶爾回答刻板,但又沒出大錯,實在難以下定論。

同理,假設屋內是一臺機器,用類似的手段與人交流,對屋外的人來說,別說判斷它是不是機器,恐怕連它懂不懂漢語都難以判斷。

換個角度來看,圖靈測試之所以經久不衰,很大程度是因為相當比例的人工智慧,確實是不太聰明。

從人工智慧誕生至今,研究者一直試圖從人類自己身上總結智慧經驗,再將其化作程式碼,在人工智慧身上覆現,以此來實現真正的智慧。

所以,如同給人工智慧喂記憶麵包一樣,研究者讓人工智慧快速吞嚥資料,可即便上下五千年的資料都餵了,人工智慧仍然表現不佳。

或許是因為人工智慧總在與世隔絕的虛擬世界中獨自學習,缺少與外界的互動,才導致當一個智慧體出現在真實世界中時,不斷被持續變化的難題所困住,無法脫身。

將智慧體從閉關修煉的狀態裡“解放”出來,讓它能夠在廣闊的社會情境中學習,即是一個新挑戰,也是一個新機會。

最近,斯坦福大學計算機系的 Ranjay Krishna、Donsuk Lee、李飛飛、Michael Bernstein 等人,針對此問題提出了一種新的研究框架:社會化人工智慧(socially situated AI),即智慧體透過在現實社會環境中與人的持續互動來學習。

像小孩子一樣邊問邊學,能讓人工智慧更聰明嗎?

1、強化學習框架

這個社會化 AI 的強化學習框架,重點在於探索智慧體真正與人互動的學習方法:要開發社會化的 AI,智慧體不僅要收集資料來學習新概念,還要學習如何與人互動來收集資料。

尤為重要的一點是,智慧體必須要在互動學習(interacting to learn)和學習互動(learning to interact)這兩個目標之間進行權衡。

這是非常具有挑戰性的事情,因為智慧體要遍歷的可能互動空間是巨大的,只有一部分社會互動空間是有用的,並且資訊互動空間還會隨著智慧體的學習程序而不斷變化。

在強化學習中,研究者需要將可能的互動形式化為行動空間,將反饋形式化為獎勵,需要數億次互動才能獲得具有資訊量和親社會的互動的子空間,這讓很多研究人員望而卻步。

所以,社會化的 AI 形式化,其實是一個迭代強化學習問題。

像小孩子一樣邊問邊學,能讓人工智慧更聰明嗎?

社會化 AI 的強化學習框架

智慧體在與人類互動時,只有當人的迴應包含對智慧體有用的新資訊時,迴應才是有用的。因此,智慧體必須與環境中數十萬人的單次互動,從中選擇能夠引發對模型有用的新概念的社會互動。

為了平衡智慧體的互動學習和學習互動兩個目標,研究者引入了知識獎勵(knowledge reward),引導智慧體進行互動以獲得有用的新概念,同時採用互動獎勵(interaction reward),引導智慧體進行符合環境中社會規範的互動。

在使用新概念改進模型的基礎上,智慧體會更新其策略,開始學習如何就人們有興趣迴應的新概念提出問題,來改進自身效能還比較差的部分。

2、問答互動

為了驗證社會化 AI 框架在計算機視覺中的實用性,研究者在照片共享社交網路應用 Instagram 上部署了一個社會化智慧體:它向人們提出自然語言問題,並從人的迴應中提取答案,收集視覺知識。

這種使用自然語言來獲取視覺知識的方法,可以用來測試很多計算機視覺識別任務,如物件檢測(“影象中有什麼?”)、細粒度識別(“花瓶裡是什麼花?”)、屬性分類(“這張桌子是用什麼材料做的?”)、知識庫推理(“這份食物是素食嗎?”)和常識推理(“這張照片是在冬天拍攝的嗎?”)等等。

在這項工作中,研究團隊設計了一個計算機視覺問答模型,其輸入是一張影象和相應的自然語言問題,輸出是一個自然語言答案。智慧體提出的問題非常多樣。

像小孩子一樣邊問邊學,能讓人工智慧更聰明嗎?

社會化智慧體在Instagram上的互動示例

起初,識別模型不知道如何識別任何概念,但隨著看到的特定概念的增長,它會對自己的判斷更加肯定。比如,如果人們幫助智慧體將影象中的動物識別為鹿,那麼它的不確定性就會減少。

3、少即是多

在社會化 AI 的框架中,智慧體同時有兩個目標:一個發起社互動動,讓人們根據資訊資料作出迴應;另一個是透過收集有用的資料來改進其基礎模型。

這兩個目標就是智慧體的評估指標。

首先,為了評估該智慧體獲得迴應的能力,我們需要測量對它所提問題的資訊迴應率(Informative Response Rate),也就是它收到問題答案(即獲得有用的互動)的互動百分比。較高的資訊迴應率意味著對智慧體對隱性社會規範有更好的理解,而較低的資訊迴應率則意味著人們不給予迴應,這會減慢甚至停止智慧體的學習程序。

其次,為了評估智慧體識別新的視覺概念的能力,研究人員使用由 Amazon Mechanical Turk 的註釋器收集的 50104 個社交媒體影象、問題和答案,構成測試集,來評估視覺識別模型的準確率。

實驗進行了 8 個月,每個智慧體可以發起至少 20 萬次互動。當它們與人互動、並收集新的視覺知識時,資訊迴應率和識別準確率的變化結果表明,社會化智慧體整體上優於其他智慧體。

在 236000 次互動中,社會化智慧體的資訊迴應率從最初的 22% 提高到 33%,相對提高了 50%。相比之下,主動學習和基線智慧體在每次迭代後獲得的迴應較少,分別為 6% 和 12。3%。

像小孩子一樣邊問邊學,能讓人工智慧更聰明嗎?

主動學習智慧體的弊端則在於它會提出更長、更難的問題,無法引起熱人們的興趣。例如,要回答“這些工具是為左撇子還是右撇子設計的?”這個問題,還得知道有關特定工具的知識以及是否可以用任何一隻手操作。

相比之下,主動學習智慧體共發起了 274893 次互動,但僅收到 30000 條迴應,並且效能開始飽和,達到 31。4%,迴應率也下降到 12。3%。

這再次表明,在某些社會環境中,純粹的主動學習方法是不可行的。

整體而言,這項研究的重要創新在於,提出了一個智慧體從與人的互動中學習的形式框架,並透過使用語言互動的視覺模型驗證了該框架的實用性,這對於互動式智慧體的研究或許會是一個極大幫助。

像小孩子一樣邊問邊學,能讓人工智慧更聰明嗎?

參考資料:

https://www。pnas。org/doi/10。1073/pnas。2115730119#:~:text=To%20enable%20socially%20situated%20AI,learn%20and%20learning%20to%20interact。

文 | 木子Yanni

嗨,這裡是淺黑科技,在未來面前,我們都是孩子。

想看更多科技故事,歡迎戳→微信公眾號:淺黑科技。

相關文章

頂部