谷歌推出文字到影象模型Muse：生成圖片質量更高、推理時間更短

作者 | 冬梅

自 2021 年初以來，隨著大量深度學習支援的文字到影象模型（例如 DALL-E-2、Stable Diffusion 和 Midjourney 等）的誕生，人工智慧研究的進展發生了革命性的變化。

近日，谷歌Muse AI 系統正式亮相。據谷歌 Muse AI 團隊稱，Muse 是一種文字到影象的 Transformer 模型，該模型可以實現先進的影象生成效能。

我們提出 Muse，一種文字到影象的 Transformer 模型，可實現先進的影象生成效能，同時比擴散或自迴歸模型更有效。

——谷歌 Muse AI 團隊

據開發團隊介紹，與 Imagen 和 DALL-E 2 等畫素空間擴散模型相比，Muse 由於使用離散標記並且需要更少的取樣迭代，因此效率顯著提高；與 Parti 和其他自迴歸模型不同，Muse 利用了並行解碼。為了生成高質量的影象並識別物體、它們的空間關係、姿態、基數等視覺概念，使用預訓練的 LLM 可以實現細粒度的語言理解。Muse 還可以直接啟用許多影象編輯應用程式，而無需微調或反轉模型：修復、修復和無蒙版編輯。

Muse 的 900M 引數模型在 CC3M 上實現了新的 SOTA，FID 得分為 6。06。Muse 3B 引數模型在零樣本 COCO 評估中實現了 7。88 的 FID，以及 0。32 的 CLIP 分數。Muse 還可以直接啟用許多影象編輯應用程式，而無需微調或反轉模型：修復、修復和無蒙版編輯。

Muse 模型能夠根據文字提示快速生成高質量影象：在 TPUv4 上，512x512 解析度為 1。3 秒，256x256 解析度為 0。5 秒。

根據 MUSE 的基準測試可以看出，Muse 的推理時間明顯低於競爭模型。

參考連結：

https：//muse-model。github。io/

https：//dataconomy。com/2023/01/Google-muse-ai-explained-how-does-it-work/

開啟App看更多精彩內容

百聞網

谷歌推出文字到影象模型Muse：生成圖片質量更高、推理時間更短

相關文章