首頁/ 遊戲/ 正文

谷歌、斯坦福聯合發文:我們為什麼一定要用大模型?

谷歌、斯坦福聯合發文:我們為什麼一定要用大模型?

作者:Harris

語言模型已經深刻變革了自然語言處理領域的研究和實踐。近年來,大模型在多個領域都取得了重要的突破。它們無需在下游任務上微調,透過合適的指令或者提示就可以取得優異的效能,甚至有時讓人為之驚歎。

例如,GPT-3 [1] 可以寫情書、寫劇本和解決複雜的資料數學推理問題,PaLM [2] 可以解釋笑話。上面的例子只是大模型能力的冰山一角,現在利用大模型能力已經開發了許多應用,在OpenAI的網站 [3] 可以看到許多相關的demo,而這些能力在小模型上卻很少體現。

今天介紹的這篇論文中,將那些小模型不具備而大模型具備的能力稱為突現能力(Emergent Abilities),意指模型的規模大到一定程度後所突然獲得的能力。這是一個量變產生質變的過程。

突現能力的出現難以預測。為什麼隨著規模的增大,模型會忽然獲得某些能力仍舊是一個開放問題,還需要進一步的研究來解答。在本文中,筆者梳理了最近關於理解大模型的一些進展,並給出了一些相關的思考,期待與大家共同探討。

相關論文:

Emergent Abilities of Large Language Models。

http://arxiv。org/abs/2206。07682

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models。

https://arxiv。org/abs/2206。04615

大模型的突現能力

何謂大模型?到什麼尺寸才算“大”?這並沒有一個明確的定義。

一般來說,模型引數可能要達到十億級別才會顯示出明顯不同於小模型的zero-shot和few-shot的能力。近年來已有多個千億和萬億級別引數的模型,在一系列的任務上都取得了SOTA的表現。在一些任務中,模型的效能隨著規模的增加而可靠地提高,而在另一些任務中,模型在某個規模上表現出效能的突然提升。可以用兩個指標去對不同的任務進行分類 [4]:

Linearity: 旨在衡量模型隨著規模的增加在任務上的表現在多大程度上得到可靠的提高。

Breakthroughness: 旨在衡量當模型規模超過臨界值時可以在多大程度上學習任務。

這兩個指標是模型規模和模型效能的函式,具體計算細節可以參考 [4]。下圖展示了一些高Linearity和高Breakthroughness任務的例子。

谷歌、斯坦福聯合發文:我們為什麼一定要用大模型?

高Linearity的任務大多是基於知識的,也就是說他們主要依賴於記憶訓練資料中存在的資訊,比如回答一些事實性的問題。更大的模型通常用更多的資料進行訓練,也能記住更多的知識,所以模型隨著規模的增大在這類任務上顯式出了穩定的提升。高Breakthroughness的任務包括較複雜的任務,它們需要用幾種不同的能力或執行多個步驟以得出正確的答案,例如數學推理。較小的模型難以獲得執行這類任務所需要的所有能力。

下圖進一步展示了不同的模型在一些高Breakthroughness任務上的表現

谷歌、斯坦福聯合發文:我們為什麼一定要用大模型?

在未達到一定的模型規模時,模型在這些任務上的表現是隨機的,達到某個特定的規模之後,就有了顯著的提升。

是平滑還是突現?

前面我們看到的是模型規模增加到一定程度後突然獲得了某些能力,從任務特定的指標來看,這些能力是突現的,但是從另外的角度來看,模型能力的潛在變化更為平滑。本文討論如下兩個角度:(1)使用更為平滑的指標;(2)將複雜的任務分解為多個子任務。

下圖(a)展示了一些高Breakthroughness任務的真實目標對數機率的變化曲線,真實目標的對數機率是隨著模型規模增大逐漸提高的。

谷歌、斯坦福聯合發文:我們為什麼一定要用大模型?

圖(b)顯式了對於某個多項選擇任務,隨著模型規模的增大,正確答案的對數機率逐步提升,而錯誤答案的對數機率在某個特定的規模之前逐步提升,而在此之後趨於平坦。在這個規模之後,正確答案機率和錯誤答案機率的差距拉大,從而模型得到了顯著的效能提升。

此外,對於某個特定任務,假設我們可以用Exact Match和BLEU去評價模型的表現,BLEU相比於Exact Match是更為平滑的指標,使用不同指標所看到的趨勢可能有顯著的差距。

對於一些任務,模型可能在不同的規模上獲得了做這個任務的部分能力。下圖是透過一串emoji去猜測電影名字的任務

谷歌、斯坦福聯合發文:我們為什麼一定要用大模型?

我們可以看到模型在一些規模開始猜測電影名稱,在更大的規模上識別表情符號的語義,在最大的規模上產生正確的答案。

大模型對如何形式化任務很敏感

模型在什麼規模上體現出突然的能力提升也取決於如何去形式化任務。例如,在複雜的數學推理任務上,使用標準的prompting將其視為問答任務,模型規模增大效能提升十分有限,而若使用如下圖所示的chain-of-thought prompting [5],將其視為多步推理任務,則會在某個特定的規模看到顯著的效能提升。

谷歌、斯坦福聯合發文:我們為什麼一定要用大模型?

谷歌、斯坦福聯合發文:我們為什麼一定要用大模型?

更有甚者,研究人員發現透過新增一個簡單的提示“Let’s think step by step”,就可以大幅提升GPT-3的zero-shot推理能力 [6],如下圖所示

谷歌、斯坦福聯合發文:我們為什麼一定要用大模型?

這對於我們的啟發是,大模型有時做不好某個任務,可能並不是真的做不好,而是需要合適的方式去激發它的能力。

模型越大一定越強嗎?

前面的討論給我們的直觀感覺是模型規模變大效能一定是有所提升的,但是真的是這樣嗎?實際上,對於有些任務,模型變大之後效能可能反而會有所下降,如下圖所示

谷歌、斯坦福聯合發文:我們為什麼一定要用大模型?

紐約大學的幾位研究人員還組織了一項競賽,旨在找到那些模型變大後反而表現變差的任務。

谷歌、斯坦福聯合發文:我們為什麼一定要用大模型?

比如在問答任務中,如果在提問的同時加上你的信仰,大模型會更容易受到影響。感興趣的同學可以關注。

總結與思考

在大多數任務上,隨著模型規模的增大,模型的表現也越好,但是也會有一些反例。更好地去理解模型此類行為還需要更多的研究。

大模型的能力需要合適的方式去激發。

大模型真的是在做推理嗎?如我們之前看到的,透過新增提示“Let’s think step by step”,大模型在數學推理任務上就可以進行多步推理並取得令人滿意的效果,似乎模型已經具備了人類的推理能力。但是,如下如所示,如果給GPT-3一個沒有意義的問題,讓它去做多步推理,GPT-3看似在做推理,實則是一些無意義的輸出。正所謂“garbage in, garbage out”。相比較而言,人類就可以判斷問題是否是合理的,也就是說在給定條件下,當前問題是不是可回答的。“Let’s think step by step”能夠發揮作用,筆者覺得根本原因還是GPT-3在訓練過程中看過很多類似的資料,它做的只不過是根據前面的token去預測接下來的token罷了,跟人類的思考方式仍舊有本質的區別。當然,如果給合適的提示讓GPT-3去判斷問題是不是合理的或許它也能在某種程度上做到,但是距離“思考”和“推理”恐怕仍有相當大的距離,這不是單純增大模型的規模能夠解決的。模型或許不需要像人類那樣思考,但是亟需更多的研究去探索除增大模型規模之外的路徑。

谷歌、斯坦福聯合發文:我們為什麼一定要用大模型?

系統1還是系統2?人類大腦有兩個系統相互配合,系統1(直覺)是快速的、自動化的,而系統2(理性)是緩慢的、可控的。大量實驗已證明,人更喜歡使用直覺進行判斷和決策,而理性可以對其導致的偏誤進行糾正。現在的模型大多基於系統1或系統2進行設計,能否基於雙系統去設計未來的模型呢?

大模型時代的查詢語言。之前我們把知識和資料儲存在資料庫和知識圖譜中,我們可以用SQL查詢關係型資料庫,可用SPARQL去查詢知識圖譜,那我們用什麼查詢語言去呼叫大模型的知識和能力呢?

梅貽琦先生曾說“所謂大學者,非謂有大樓之謂也,有大師之謂也”,筆者在此用個不太恰當的類比結束本篇:所謂大模型者,非謂有引數之謂也,有能之謂也。

參考文獻:

[1] Language Models are Few-Shot Learners。 https://arxiv。org/abs/2005。14165

[2] PaLM: Scaling Language Modeling with Pathways。 https://arxiv。org/abs/2204。02311

[3] https://gpt3demo。com/

[4] Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models。 https://arxiv。org/abs/2206。04615

[5] Chain of Thought Prompting Elicits Reasoning in Large Language Models。 https://arxiv。org/abs/2201。11903

[6] Large Language Models are Zero-Shot Reasoners。 https://arxiv。org/abs/2205。11916

開啟App看更多精彩內容

相關文章

頂部