首頁/ 遊戲/ 正文

麻省理工研究:深度影象分類器,居然還會過度解讀

麻省理工研究:深度影象分類器,居然還會過度解讀

作者:青蘋果

某些情況下,深度學習方法能識別出一些在人類看來毫無意義的影象,而這些影象恰恰也是醫療和自動駕駛決策的潛在隱患所在。換句話說,深度影象分類器可以使用影象的邊界,而非物件本身,以超過 90% 的置信度確定影象類別。

不過,麻省理工學院的科學家最近發現了一種新穎的、更微妙的影象識別失敗類:“過度解讀”,即演算法基於一些人類無法理解的細節,如隨機模式或影象邊界,而做出自信的預測。對於高風險的環境來說,這可能尤其令人擔憂,比如自動駕駛汽車的瞬間決策,以及需要立即關注的疾病醫療診斷等,這都與生命安全息息相關。

研究團隊發現,在 CIFAR-10 和 ImageNet 等流行資料集上訓練的神經網路,就存在著過度解讀的問題。

例如,在 CIFAR-10 上訓練的模型,即使輸入影象存在 95% 缺失的情況下,也能做出自信的預測。也就是說,在未包含語義顯著特徵的影象區域中,分類器發現強有力的類證據時,就會發生模型過度解釋。

過度解釋與過擬合有關,但過擬合可以透過降低測試精度來診斷。過度解釋可能源於底層資料集分佈中的真實統計訊號,而這些統計訊號恰好來自資料來源的特定屬性(如面板科醫生的臨床評分表)。

因此,過度解釋可能更難診斷,因為它承認決策是由統計上有效的標準做出的,而使用這些標準的模型可以在基準測試中表現的較為出色。

過度解釋發生在原始影象的未修改子集上。與使用額外資訊修改影象的對抗性示例相反,過度解釋基於訓練資料中已經存在的真真實模式,這些模式也可以泛化到測試分佈。要想揭示過度解釋,則需要一種系統的方法來識別哪些特徵被模型用來做出決策。

這篇研究論文被 NIPS 收錄,標題為“Overinterpretation reveals image classificationmodel pathologies”,文中引入了一種新的方法——批處理梯度 SIS(Sufficient Input Subsets),用於發現複雜資料集的充足的輸入子集,並利用該方法在ImageNet中顯示邊界畫素的充分性,用於訓練和測試。

該文章的第一作者、MIT 計算機科學與人工智慧實驗室博士生Brandon Carter說,“過度解讀實質上是一種資料集問題,由資料集中的無意義訊號而引起的。這些高置信度影象不僅無法識別,而且在邊界等不重要的區域,它們只包含不到 10% 的原始影象。我們發現這些影象對人類來說毫無意義,但模型仍然可以高度自信地對其進行分類。”

麻省理工研究:深度影象分類器,居然還會過度解讀

比如,在用於癌症檢測的醫學影象分類器的示例中,可以透過找到描述標尺的畫素來識別病理行為,這足以讓模型自信地輸出相同的分類。

早先研究者便提出了 SIS 的概念,用於幫助人類解釋黑盒模型的決策。SIS 子集是特徵(如畫素)的最小子集,它足以在所有其他特徵被掩蓋的情況下,產生高於某個閾值的類機率。

基準資料集的隱藏統計訊號可能導致模型過度解釋或不適用於來自不同分佈的新資料。

CIFAR-10 和 ImageNet 已成為最流行的兩種影象分類基準。大多數影象分類器由 CV 社群根據其在這些基準之一中的準確性進行評估。

除此之外,團隊還使用 CIFAR-10-C 資料集來評估 CIFAR-10 模型可以泛化到分佈外(OOD,Out-Of-Distribution)資料的程度。在這裡,團隊成員分析了在這些基準上流行的 CNN 架構的過度解釋,以表徵病理。透過一系列的實驗證明,在 CIFAR-10 和 ImageNet 上訓練的分類器,可以基於 SIS 子集進行決策,哪怕只包含少量畫素和缺乏人類可理解的語義內容。

圖1 顯示了來自 CIFAR-10 測試影象的示例 SIS 子集(閾值為 0。99)。對於這些 SIS 子集影象,每個模型對預測類的置信度均≥99%,能夠自信且正確地進行分類。

麻省理工研究:深度影象分類器,居然還會過度解讀

團隊觀察到,這些 SIS 子集具有高度稀疏的特徵,在此閾值下,SIS 的平均尺寸小於每幅影象的 5%(如圖2 所示),這表明這些 CNNs 可以自信地對那些對人類來說似乎毫無意義的影象進行分類,隨之也就掀起了對魯棒性和泛化性的關注熱潮。此外,團隊發現, SIS 的尺寸大小也是影響類預測準確性的重點因素。

麻省理工研究:深度影象分類器,居然還會過度解讀

到目前為止,深度影象分類器應用領域愈加廣泛,除了醫療診斷和增強自動駕駛汽車技術外,在安全、遊戲,甚至在一款可以告訴你某物是不是熱狗的小程式上也有所應用。

考慮到機器學習模型能夠捕捉到這些無意義的微妙訊號,影象分類的難度之大也就不言而喻。比如,在 ImageNet 資料集上訓練影象分類器時,它們便可以基於這些訊號做出看似可靠的預測。

儘管這些無意義的訊號會削弱模型在真實世界中的魯棒性,但實際上,這些訊號在資料集中是有效的,這也就意味著,基於該準確性的典型評估方法無法診斷過度解釋。

為了找到模型對特定輸入的預測的基本原理,本研究中的方法從整幅影象入手,反覆研究,每一步究竟可以從影象上刪除的內容。

團隊採用區域性後向選擇(local backward selection),在每幅影象中保留 5% 的畫素且用零掩碼其餘的 95%。從本質上說,這個過程會一直掩蓋影象,直到殘留的最小的部分仍然可以做出有把握的決定,讓這些畫素子集的分類精度堪比完整影象的分類精度。

如表1 所示,相比於從每幅影象中均勻隨機選擇的畫素子集,通過後向選擇所篩選的同樣大小的子集具有更強的預測性。

麻省理工研究:深度影象分類器,居然還會過度解讀

圖3a 顯示了所有 CIFAR-10 的測試影象中,這些 5% 畫素子集的畫素位置和置信度。

研究發現,ResNet20 的底部邊界上畫素的集中是SIS向後選擇過程中“決勝”的結果。此外,團隊成員還在 CIFAR-10 上運行了分批梯度 SIS,併為 CIFAR-10 找到了充足的邊緣輸入子集。

而圖3b 顯示了來自 1000 張 ImageNet 驗證影象的隨機樣本的 SIS 畫素位置。關注度沿影象邊界分佈,表明該模型嚴重依賴於影象背景,存在嚴重的過度解釋問題。

麻省理工研究:深度影象分類器,居然還會過度解讀

圖4 顯示了,在經過預訓練的 Inception v3,透過批處理梯度 SIS 自信分類的影象上發現的例子 SIS 子集(閾值 0。9)。這些 SIS 子集看起來毫無意義,但網路將其分類的置信度≥90%。

麻省理工研究:深度影象分類器,居然還會過度解讀

CNNs 對影象分類的過度自信可能會引發懷疑,在語義無意義的 SIS 子集上觀察到的過度自信是否是校準的偽像,而非資料集中的真實統計訊號呢?

實驗結果如表1 所示,隨機 5% 的影象子集仍然能夠捕捉到足夠的訊號,預測效果大約是盲猜的 5 倍,然而這並不足以捕捉到充足的資訊,讓模型做出準確的預測。

更多地,團隊發現,無論是 CIFAR-10 測試影象(圖5)還是 CIFAR-10- C OOD 影象,在所有 SIS 置信閾值上,正確分類影象的 SIS 子集都顯著大於錯誤分類影象的 SIS 子集。

麻省理工研究:深度影象分類器,居然還會過度解讀

有研究表示,模型整合可以提高分類效能。由於團隊發現,畫素子集的大小與人類畫素子集分類的準確性密切相關,於是,用來衡量整合程度可以緩解過度解釋的指標是 SIS 子集大小的增加。

結果顯示,整合測試一致地增加了預期的測試準確性,與此同時也增加了 SIS 的大小,因此削弱了過度解釋的損害。

麻省理工研究:深度影象分類器,居然還會過度解讀

當然,文中的方法也可以作為一種驗證標準。

例如,如果你有一輛自動駕駛汽車,它使用訓練有素的機器學習方法來識別停車標誌,你可以透過識別構成停車標誌的最小輸入子集來測試這種方法。

雖然看起來模型可能是罪魁禍首,但資料集的嫌疑更大。這可能意味著在更受控制的環境中建立資料集。

“存在一個問題,我們如何修改資料集,使模型能夠更接近地模仿人類對影象分類的想法,從而有望在自動駕駛和醫療診斷等現實場景中更好地推廣和應用,這樣一來,模型就不會再產生荒謬的行為,” Carter 表示。

集虎卡,開鴻運!最高拆522元驚喜福袋!

相關文章

頂部