首頁/ 遊戲/ 正文

谷歌推出文字到影象模型Muse:生成圖片質量更高、推理時間更短

谷歌推出文字到影象模型Muse:生成圖片質量更高、推理時間更短

作者 | 冬梅

自 2021 年初以來,隨著大量深度學習支援的文字到影象模型(例如 DALL-E-2、Stable Diffusion 和 Midjourney 等)的誕生,人工智慧研究的進展發生了革命性的變化。

近日,谷歌Muse AI 系統正式亮相。據谷歌 Muse AI 團隊稱,Muse 是一種文字到影象的 Transformer 模型,該模型可以實現先進的影象生成效能。

我們提出 Muse,一種文字到影象的 Transformer 模型,可實現先進的影象生成效能,同時比擴散或自迴歸模型更有效。

——谷歌 Muse AI 團隊

據開發團隊介紹,與  Imagen  和 DALL-E 2 等畫素空間擴散模型相比,Muse 由於使用離散標記並且需要更少的取樣迭代,因此效率顯著提高;與 Parti  和其他自迴歸模型不同,Muse  利用了並行解碼。為了生成高質量的影象並識別物體、它們的空間關係、姿態、基數等視覺概念,使用預訓練的 LLM 可以實現細粒度的語言理解。Muse 還可以直接啟用許多影象編輯應用程式,而無需微調或反轉模型:修復、修復和無蒙版編輯。

Muse 的 900M 引數模型在 CC3M 上實現了新的 SOTA,FID 得分為 6。06。Muse 3B 引數模型在零樣本 COCO 評估中實現了 7。88 的 FID,以及 0。32 的 CLIP 分數。Muse 還可以直接啟用許多影象編輯應用程式,而無需微調或反轉模型:修復、修復和無蒙版編輯。

Muse 模型能夠根據文字提示快速生成高質量影象:在 TPUv4 上,512x512 解析度為 1。3 秒,256x256 解析度為 0。5 秒。

根據 MUSE 的基準測試可以看出,Muse 的推理時間明顯低於競爭模型。

谷歌推出文字到影象模型Muse:生成圖片質量更高、推理時間更短

參考連結:

https://muse-model。github。io/

https://dataconomy。com/2023/01/Google-muse-ai-explained-how-does-it-work/

開啟App看更多精彩內容

相關文章

頂部