首頁/ 遊戲/ 正文

研究表明,有影響力的資料集正在壟斷機器學習研究

研究表明,有影響力的資料集正在壟斷機器學習研究

作者 | Martin Anderson

譯者 | 馬可薇

策劃 | 凌敏

加州大學和谷歌研究院聯合發表的一篇新論文稱,少數來自高影響力的西方機構所發表的“基準”計算機資料集逐漸開始主導 人工智慧 研究領域,而這些機構中不乏政府組織。

研究人員總結,這種傾向於使用常用開源資料集(如 ImageNet)的趨勢,將會帶來各種現實和道德上,甚至政治層面的困擾。

基於 Facebook 社群專案“論文 + 程式碼(PWC)”中的核心資料,《減少、複用和回收:機器學習研究中資料集的一生》論文作者得出結論,“廣泛使用的資料集僅由少數頂尖機構引入”,並且近幾年來,這類現象已逐漸覆蓋了 80% 的資料集。

“(我們發現)全球資料集的使用情況愈發不平等。在我們的 43,140 個樣本中,超過 50% 樣本所使用的資料集全部是由 12 個頂尖西方組織引入的。”

研究表明,有影響力的資料集正在壟斷機器學習研究

過去十年間非任務特定的資料集使用情況圖示。只收錄機構或公司佔已有資料集使用的 50% 及以上的資料集。右圖是隨時間推移,機構和資料集二者的基尼係數資料集集中指數。來源:https://arxiv。org/pdf/2112。01716。pdf

其中主導的機構包括斯坦福大學、微軟、普林斯頓、Facebook、谷歌、德國馬普所,以及 AT&T。十大資料集來源中有四個都是公司機構。

論文中還將這些傾向使用精英資料集的趨勢描述為“讓科學走向不平等的工具”。這是因為研究團隊為尋求社群的認同,會更傾向於使用常用資料庫以達到頂尖水平(SOTA),而不是自己生成一個全新的,在研究領域毫無地位的資料集,而其結果因為不是標準指標,因此還需要同行們重新適應的新資料集。

就如論文中闡述的一樣,無論怎麼說,對於資源不是那麼充足的機構或團隊來說,創造自己的資料集是一個成本高昂的追求。

“人們往往混淆 SOTA 基準所認可的科學有效性,與社會上由可信度高的研究者所展示、在一個接受度高的資料集上所實現的結果,即使更符合上下文的基準可能在技術上來說會更合適。

“我們認為,這些現象創造了一種“馬修效應”(窮的越窮,富的越富),出身精英機構的成功基準將註定在研究領域中獲得顯著地位。”

《減少、複用和回收:機器學習研究中資料集的一生》這篇論文是由加州大學洛杉磯分校的 Bernard Koch 與 Jacob G。 Foster,谷歌研究院的 Emily Denton 與 Alex Hanna 合作編著。

該論文針對當前日益增長的整合趨勢提出了不少問題,並在開放審查中得到了 普遍的認可。來自 NeurIPS 2021 的一位審稿人評論說,這項研究“與任何參與機器學習研究的人都息息相關”,並預言它將成為大學課程的閱讀材料之一。

從必要到腐敗

論文作者稱,目前這種“超越基準線”潮流的出現是為補償客觀評估工具的匱乏,而正是這種匱乏,導致了 三十年前 由於企業對新興“專家系統”研究熱情的消退,並第二次削減在人工智慧領域的投資和興趣:

基準線的設定通常是資料集在執行特定任務時,以其對應的標準評估後的結果。這種做法最初是在 1980 年代“AI 寒冬”後,由政府資助引入到機器學習研究中的,目的是為更準確地評估獲得資助的專案價值。”

論文認為,這種非正式的標準化最初的優勢在於降低了參加門檻、統一了評估尺標以及提供更靈活的開發機會。但隨著資料體量日益強大足以在實質上定義其“使用條款”和影響範圍時,這些優勢已經被其自然而然帶出的缺點所抵消。

對此,作者的觀點與目前行業與學術界的想法一致,任何研究團隊所提出的問題,如不能透過現有用作基準的資料庫解決,則不能算作是新的發現。

作者同樣還指出,盲目堅持少數“黃金”資料集會讓研究者的結果過度擬合;研究得出的高效能結果將會更針對於某個資料集,但在現實資料、新的學術研究或是原始資料集中可能不會有太好表現,甚至是在其他的“黃金”資料集中也可能表現欠佳。

“鑑於大量研究高度集中在少數基準資料集中,我們認為多樣化的評估形式對避免過度擬合現有資料集,扭曲該領域研究的進展尤為重要。”

計算機視覺研究中的政府影響

論文稱,計算機視覺研究相較於其他 AI 研究,更易受前文中描述的現象所影響;而 自然語言處理(NLP)受到的影響則更小。作者認為,這可能是因為 NLP 社群更“連貫”,規模也更大,並且 NLP 資料集無論是訪問還是策劃,都要容易得多,再加上其在資料收集方面資源密集程度也更低。

作者稱,計算機視覺,尤其是面部識別(FR)資料集,更易引起企業、國家以及私人利益間的衝突。“企業和政府機構的目標(如監控)會與隱私相沖突,他們對(隱私與其目標)優先順序的判定可能會與學術界或人工智慧領域中更廣泛的社會利益相關者相悖。”

對面部識別任務來說,研究者發現純粹的學術性資料集的數量相較平均而言已有大幅的下降:

“八中之四的資料集(佔總體用量的 33。69%)是完全由大企業、美國軍方或中國政府(MS-Celeb-1M,CASIA-Webface,IJB-A,VggFace2)提供的。由於不同利益相關者關於隱私價值的爭執,導致 MS-Celeb-1M 最終被撤回。”

研究表明,有影響力的資料集正在壟斷機器學習研究

用於影象生成和人臉識別研究社群的頂尖資料集使用分佈。

從上圖可看出,就如作者所言,近年來的影象生成或影象合成領域嚴重依賴於現有的,也更古老的資料集現象,哪怕這些資料集在當時建立時並不適用於影象生成。

事實上,目前資料集已有“遷離”其預期目的的趨勢,令人質疑它們是否還適用於現今或冷門的研究需求。再加上研究經費的限制,研究的雄心壯志可能會被“一般化”到一個僅使用手頭材料的狹窄框架,並日益痴迷於基準評級的研究氛圍之中,從而導致新誕生的資料集很難獲得應有的關注。

“我們的研究還表明,資料集經常在多個任務社群之間轉移。最極端的情況下,某個任務社群中主要的基準資料集全部是為其他任務所建立的。”

近年來,機器學習領域包括 Andrew Ng 在內的多位知名人士,不斷呼籲業內增加資料集的多樣性和策展性,作者對此類倡導表示支援的同時,認為只要當前對 SOTA 結果和已有資料集依賴的研究氛圍持續存在,這種努力終將功虧一簣。

“我們的研究表明,僅僅是改善獎勵機制並呼籲 ML 研究人員開發更多資料集,讓資料集的開發能夠收到認可和回報,可能還不足以讓資料集的使用以及最終確立 MLR 研究議程的觀念真正變得多樣化。”

“除了激勵資料集的開發,我們主張引入以公平為導向的政策干預;優先為研究資源較少的機構提供大量資金,以建立高質量資料集。這將從社會和文化的雙重角度,讓評估現代 ML 方法的資料集多樣化。”

原文連結:

https://www。unite。ai/a-cartel-of-influential-datasets-are-dominating-machine-learning-research-new-study-suggests/

瓜分6666元現金紅包!領取8%+理財券,每日限額3000份!

相關文章

頂部