作者 | 冬梅
自 2021 年初以來,隨著大量深度學習支援的文字到影象模型(例如 DALL-E-2、Stable Diffusion 和 Midjourney 等)的誕生,人工智慧研究的進展發生了革命性的變化。
近日,谷歌Muse AI 系統正式亮相。據谷歌 Muse AI 團隊稱,Muse 是一種文字到影象的 Transformer 模型,該模型可以實現先進的影象生成效能。
我們提出 Muse,一種文字到影象的 Transformer 模型,可實現先進的影象生成效能,同時比擴散或自迴歸模型更有效。
——谷歌 Muse AI 團隊
據開發團隊介紹,與 Imagen 和 DALL-E 2 等畫素空間擴散模型相比,Muse 由於使用離散標記並且需要更少的取樣迭代,因此效率顯著提高;與 Parti 和其他自迴歸模型不同,Muse 利用了並行解碼。為了生成高質量的影象並識別物體、它們的空間關係、姿態、基數等視覺概念,使用預訓練的 LLM 可以實現細粒度的語言理解。Muse 還可以直接啟用許多影象編輯應用程式,而無需微調或反轉模型:修復、修復和無蒙版編輯。
Muse 的 900M 引數模型在 CC3M 上實現了新的 SOTA,FID 得分為 6。06。Muse 3B 引數模型在零樣本 COCO 評估中實現了 7。88 的 FID,以及 0。32 的 CLIP 分數。Muse 還可以直接啟用許多影象編輯應用程式,而無需微調或反轉模型:修復、修復和無蒙版編輯。
Muse 模型能夠根據文字提示快速生成高質量影象:在 TPUv4 上,512x512 解析度為 1。3 秒,256x256 解析度為 0。5 秒。
根據 MUSE 的基準測試可以看出,Muse 的推理時間明顯低於競爭模型。
參考連結:
https://muse-model。github。io/
https://dataconomy。com/2023/01/Google-muse-ai-explained-how-does-it-work/
開啟App看更多精彩內容