魏茨曼聯合英偉達釋出Text2LIVE，用自然語言就能PS

使用Photoshop類的軟體算是創造性工作還是重複性工作？

對於用PS的人來說，重複性工作如摳圖可能是一大噩夢，尤其是頭髮絲、不規則的圖形、與背景顏色貼近的，更是難上加難。

如果有AI模型能幫你摳圖，還能幫你做一些如替換紋理、新增素材等工作，那豈不是能節省大把時間用來創作？

一些專注於視覺效果（VFX）的從業者對影象和影片合成方面的新工作和創新很感興趣，但他們同時也會感覺到威脅，擔心AI的快速發展是否會替代他們，畢竟現在AI從繪畫到生成影片，簡直無所不能。

比如讓一個新手生成一個偽造影片需要大量的學習和操作時間，如果使用deepfake的話則不需要什麼門檻，而且效率也高得多。

不過好訊息是，AI目前並非全知全能，一個模型只能做軟體內的一點點工作；如果要把多個模型組裝成一個Pipeline，那還得需要人來操作才行；對於更復雜的任務，那還需要人類的創造力。

魏茨曼科學研究學院和英偉達的研究人員就提出了一個模型Text2Live，使用者只需要輸入自然語言文字作為命令，就能對給定的圖片和影片進行處理。模型的目標是編輯現有物體的外觀（如物體的紋理）或以語義的方式增加場景的視覺效果（如煙、火等）。

論文連結：https：//arxiv。org/pdf/2204。02491。pdf

Text2Live能夠用複雜的半透明效果增強輸入場景，而不改變影象中的無關內容。

比如對模型念出咒語「煙」或者「火」，就可以給圖片合成上相應的效果，十分真實；

對著麵包圖片說「冰」，就可以變成一個冰面包，甚至「奧利奧蛋糕」也不在話下；

或是對著影片說「給長頸鹿戴個圍脖」，它也能精確識別出來長頸鹿的脖子，並在每一幀都給它戴上一個圍脖，還能換各種不同的效果。

用自然語言P圖

受視覺語言模型（Vision-Language models）強大的語義表達能力啟發，研究人員想到，為什麼我們不能用自然語言命令來P圖呢？這樣使用者就可以輕鬆而直觀地指定目標外觀和要編輯的物件和區域，而開發出的模型需要具備識別出給定文字提示的區域性、語義編輯的能力。

多模態的話，在4億個文字-影象對上學習過的CLIP模型就是現成的，並且其內包含巨大的視覺和文字空間豐富性已經被各種影象編輯方法所證明了！

但還有一個困難，就是在所有真實世界的影象中想用CLIP達到完美效能還是不容易的。

大多數現有方法都是將預訓練好的生成器（例如GAN或Diffusion模型）與CLIP結合起來。但用GANs的話，影象的域是受限制的，需要將輸入影象反轉到GAN的潛空間，本身就是一個具有挑戰性的任務。而擴散模型雖然克服了這些障礙，但在滿足目標編輯和保持對原始內容的高保真度之間面臨著權衡。但將這些方法擴充套件到影片中也並不簡單。

Text2LIVE採取了一條不同的路線，提出從單一的輸入（影象或影片和文字提示）中學習一個生成器。

新問題來了：如果不使用外部生成式的先驗，該如何引導生成器走向有意義的、高質量的影象編輯操作？

Text2LIVE主要設計了兩個關鍵部分來實現這一目標：

1。模型中包含一種新穎的文字引導的分層編輯（layered editing），也就是說，模型不是直接生成編輯過的影象，而是透過在輸入的圖層上合成RGBA層（顏色和不透明度）來表示編輯。

這也使得模型可以透過一個新的目標函式來指導生成的編輯內容和定位，包括直接應用於編輯層的文字驅動的損失。

比如前面的例子中使用文字提示「煙」，不僅輸出最終的編輯影象，還表達了編輯層所代表的目標效果。

2。模型透過對輸入的影象和文字進行各種資料增強，在一個由不同的影象-文字訓練例項組成的「內部資料集」上訓練生成器。實驗結果也表明，這種「內部學習方法」可以作為一個強大的regularization，能夠高質量地生成複雜的紋理和半透明的效果。

文字增強主要使用預定義的14個模板提示符，能夠提供CLIP向量的多樣性。

影象資料的Pipeline由一個在單一輸入影象上訓練的生成器和目標文字提示組成。

左側就是生成內部資料集的過程，即由不同訓練例項組成的內部（影象，文字）對和資料增強後得到的資料集。

右測是生成器將影象作為輸入，並輸出一個RGBA的可編輯層（顏色+透明度），在輸入的基礎上進行合成，從而形成最終的編輯過的影象。

生成器的的最佳化函式為多個損失項之和，每個損失項都是在CLIP空間中定義，包括主要的目標Composition loss，能夠反映影象和目標文字提示之間的匹配程度；Screen loss，應用於生成的編輯層中，主要技術是在純綠色背景上合成一個噪音背景影象，判斷摳圖準確度；Structure loss，保證替換的紋理和顯示效果能夠保持原始目標的空間分佈和形狀。

除了影象外，研究人員還將Text2LIVE擴充套件到了文字指導的影片編輯領域。

現實世界的影片通常由複雜的物體和攝像機運動組成，包括了關於場景的豐富資訊。然而，想實現一致的影片編輯是很困難的，不能只是簡單地對圖片的每一幀都使用相同操作。

因此，研究人員提出將影片分解為一組二維圖集（atlases）。每個圖集可以被視為一個統一的二維影象，代表了整個影片中的一個前景物體或背景。這種表示方法大大簡化了影片編輯的任務。應用於單個二維圖集的編輯會以一種一致的方式對映到整個影片中。

影片的訓練Pipeline包括（a）一個預訓練的固定分層神經圖集模型，可以用作「影片渲染器」，包括了一組二維圖集、從畫素到圖集的對映函式，以及每個畫素的前景/背景透明值；（b）框架訓練一個生成器，將選定的離散圖集IA作為輸入，並輸出；（c）一個圖集編輯層EA；（d）使用預訓練對映網路M把編輯過的圖集渲染回每一幀；（e）在原始影片上進行合成。

在實驗的量化評估中，研究人員選擇人類感知評估的方式，參與者會看到一個參考影象和一個目標編輯提示，以及兩個備選方案。

參與者必須選擇「哪張圖片能更好地根據文字提示來編輯參考影象」？

實驗資料包括了82個（影象，文字）對，收集了12450個使用者對影象編輯方法的判斷，投票結果可以看到Text2LIVE在很大程度上超過了所有的基線模型。

在影片的實驗中，參與者需要選擇「質量更好、更能體現文字的影片」，實驗資料包含19個（影片，文字）對和2400個使用者的判斷結果。結果可以看到，Frames基線模型產生了時間線不一致的結果，而Atlas基線的結果更一致，但在生成高質量紋理方面表現不佳，經常產生模糊的結果。

開啟App看更多精彩內容

百聞網

魏茨曼聯合英偉達釋出Text2LIVE，用自然語言就能PS

相關文章