作者
|格林
出品
| 新芒X
最近幾個月,一種強大的新形式的人工智慧突然出現並吸引了公眾的想象力:文字到影象的生成式人工智慧。
文字到影象的 AI 模型只需要根據簡單的文字輸入就能生成原始影象。使用者可以輸入他們喜歡的任何文字提示——比如,“一隻可愛的柯基犬住在一個用壽司做的房子裡”——然後,人工智慧就像施了魔法一樣,會產生相應的影象。(此示例見上文)
這些模型產生的影象在世界上和任何人的想象中都從未存在過。它們不是對網際網路上現有影象的簡單操作;它們是新穎的創作,其獨創性和複雜性令人歎為觀止。
最著名的文字到影象模型是 OpenAI 的 DALL-E。OpenAI 於 2021 年 1 月推出了最初的 DALL-E 模型。其繼任者 DALL-E 2 於 2022 年 4 月釋出。DALL-E 2 引起了公眾的廣泛關注,將文字轉影象技術推向了主流。
在圍繞 DALL-E 2 的興奮之後,沒過多久競爭對手就出現了。幾周之內,一個名為“DALL-E Mini”的輕量級開源版本風靡一時。與 OpenAI 或 DALL-E 無關,DALL-E Mini 在 OpenAI 的壓力下更名為 Craiyon。
5 月,谷歌釋出了自己的文字到影象模型,名為 Imagen。(本文所有圖片均來自Imagen。)
此後不久,一家名為 Midjourney 的初創公司出現了一個強大的文字到影象模型,該模型已可供公眾使用。Midjourney 的使用者增長驚人:僅在兩個月前推出,截至撰寫本文時,其 Discord 組中的使用者已超過 180 萬。Midjourney 最近登上了《經濟學人》的封面和約翰·奧利弗的深夜電視節目。
該類別中的另一個關鍵進入者是 Stability。ai,它是 Stable Diffusion 模型背後的初創公司。與任何其他競爭對手不同,Stability。ai 公開發布了其 AI 模型的所有細節,線上釋出模型的權重供任何人訪問和使用。這意味著,與 DALL-E 或Midjourney不同,Stable Diffusion 可用於生成的內容沒有過濾器或限制,包括暴力、色情、種族主義或其他有害內容。
Stability。ai 的完全無限制釋出策略一直存在爭議。另一方面,該公司毫無歉意的開放精神正在幫助它圍繞其平臺建立一個強大的開發人員和使用者社群,這可能被證明是一種寶貴的競爭優勢。
關於作為當今生成 AI 基礎的突破性技術有很多話要說,但特別值得強調的一項關鍵創新是:擴散模型。最初受到熱力學概念的啟發,擴散模型在過去一年中大受歡迎,迅速取代了生成人工網路 (GAN),成為基於 AI 的影象生成的首選方法。DALL-E 2、Imagen、Midjourney 和 Stable Diffusion 都使用擴散模型。
簡而言之,擴散模型透過使用增加的噪聲破壞訓練資料來學習,然後找出如何逆轉這種噪聲過程以恢復原始影象。一旦經過訓練,擴散模型就可以應用這些去噪方法從隨機輸入中合成新穎的“乾淨”資料。
退一步說,我們要如何看待這個領域最近的所有活動和聲音?事情將何去何從?以下是四個預測,旨在消除噪音併為您提供有關生成 AI 狂野新世界的原始觀點。
一:在接下來的 12 個月內,大量風險投資將湧入這一賽道。
風險投資界已經開始流傳一種說法,即文字到
影象
的人工智
能是“下一件大事”。
毫
無疑問,這項技術
是
非凡的。
時間
會證明
它是否以及如何成為大規模、經久不衰的企業的基礎。
無論如何,隨著投資者尋求乘風破
浪,預計短期內該領域會出現一連串的風險投資。
上週開場,有報道稱 Stability。ai 正在從 Lightspeed 和 Coatue 等藍籌投資者那裡以高達 10 億美元的估值籌集高達 1 億美元的資金。
這不會是該類別中的最後一筆鉅額交易。
例如,Midjourney 目前可能會吸引大量入境投資者的興趣。
到目前為止,Midjourney 一直由創始人 David Holz(前 Leap Motion 首席技術官/聯合創始人)自籌資金,但如果該公司很快決定用風險投資資金填補其資金池,以便在這個日益增長的領域競爭和擴大規模,請不要感到驚訝快速發展的生態系統。
許多新的文字到影象的初創公司將在未來幾個月內出現,它們具有不同的願景和方法來將這種強大的新技術商業化。
即使在當今不利的市場條件下,風險資本家也會熱切地為其中許多人提供資金。
二:該技術最大的商業機會和最佳商業模式尚未被發現。
迄今為止,推動文字到
影象 AI
採用的
主要
用例
是個人使用者的
純粹
新穎性和好奇心。
難怪
任何
玩過這
些模
型的人都
可以證明,這是一種
令人振奮和引人入勝的體驗,尤其是剛開始時。
但從長遠來看,個人愛好者的隨意使用本
身並不太可能維持大規模的新業務。
哪些用例將釋放巨大的
企業價值創造,併為這項技術帶來最引人注目的商機?
簡而言之,文字到影象 AI 的“殺手級應用”是什麼?
立
即想到的一個應用程式是廣告。
廣告本質上是視覺的,因此非常適合這些生成的 AI 模型。
畢竟,廣告為 Alphabet 和 Facebook 等科技巨頭的商業模式提供了動力,這些都是歷史上最成功的企業之一。
一些品牌,例如卡夫亨氏,已經開始
嘗試
使用 DALL-E 2 等人工智慧模型來製作新的廣告內容。
毫無疑問,我們會看到更多這樣的情況。
但是
,
坦率地說
,
讓我們
都希望
能
為這項
令人難以置信的
新技術找到更有意義的用例,而
不僅僅是
更多的廣告。
退後一步,考慮一下這些 AI 模型可以快速、經濟且富有
想象力地生成和迭代
任
何
視覺
內容,而
無需
任何
特殊的專業知識
或培訓。
當我
們如此廣泛地
界定這
項技
術的範圍時,
就會
更加
明顯
地發現,各種
變革
性的、顛覆性的商業機
會應該會出現。
也許這項
技術最直觀
的用
例是創造
藝術。
全球美術市
場規
模為
650 億美元
。
即使撇開
這個高階市場
不談,文字到
影象
AI 可以
應用
於藝
術的更多日常
用途:
書籍
封面、雜誌
封面
、明信片、海
報、音
樂專輯設計、桌布、數字媒體
等等。
以庫存圖片為例。
庫存影象可能看起來是一
個
相對
利基的
市場,但它本身代表了一個價值數十億
美
元的機會,包括
Getty Images 和 Shu
tterstock 在內
的
公開
交易
的
競爭對手。
這些
企業
面
臨著生成人工智慧的生存破壞。
從長遠來看,任何實體
產品(汽車、傢俱、衣服)的
設
計
(以及生產)都可以
轉
變
,
因為
生成式 AI
模型
被用於構思新穎
的功能和設計
,從而吸引消費者。
相關地,文字到影象的人工智慧可能會透過“提出”獨特的、意想不到的新結構和佈局來影響建築和建築設計,進而激發人類建築師的靈感。
今天
已經在進行
這些方面的初步
工作。
圖注:“撒哈拉沙漠中戴著草帽和霓虹墨鏡的小仙人掌。” 資料來源:谷歌
除了殺手級應用的問題之外,還有一個相關但獨特的話題,即這一類別的競爭格局將如何演變,以及哪些產品和上市策略將被證明是最有效的。
OpenAI 和 Midjourney 等先行者已將自己定位為與行業無關的核心 AI 技術的橫向供應商。他們構建了通用的文字到影象模型,透過 API 將它們提供給客戶(按使用付費),並將其留給使用者來發現他們自己的用例。
一個或多個橫向參與者是否會透過提供一個基礎的文字到影象平臺來實現大規模運作,在該平臺上構建一個由各種應用程式組成的整個生態系統?如果是這樣,它會是贏家通吃嗎?隨著技術最終商品化,這樣的企業的長期護城河是什麼?
或者隨著行業的成熟和不同的用例成為焦點,為特定應用程式構建專門構建的專業解決方案是否會有更多價值?
例如,可以想象一種專為汽車行業設計的用於新車型設計的文字到影象的解決方案。除了 AI 模型本身針對此特定用例的訓練資料進行微調外,此類解決方案可能包括完整的 SaaS 產品套件和完善的使用者介面,旨在無縫整合到汽車設計師的整體工作流程中。
另一個關鍵的戰略問題涉及核心 AI 模型本身。這些模型能否成為公司可持續的防禦來源,還是會迅速商品化?回想一下,Stable Diffusion 是當今領先的文字到影象模型之一,它已經完全開源,其所有權重都可以線上免費獲得。與利用開源社群或其他公司已經構建的模型相比,新創業公司在內部訓練自己專有的文字到影象模型的頻率和條件是多少?
我們還不能確定地知道這些問題中的任何一個的答案。我們唯一可以確定的是,在未來的幾個月和幾年裡,這個領域將以令人驚訝、意想不到的方式發展。新技術的部分魔力在於它開啟了以前無法想象的可能性。當撥號上網第一次出現時,誰預測到了 YouTube?當第一部智慧手機問世時,誰看到了優步的到來?
企業家最終將透過自己設想和建設未來來回答這些問題。
3。 文字到影象的人工智慧將引發版權、法律和道德問題的蜂窩。不要指望這些會減慢技術速度。
任何
能夠
深刻改變現狀
的新
技術
都會與
現有的社會規範
和政策
框架
產生摩擦和挑戰。
生成式
人工
智
能
也不
例
外。
這項技術引發了許多宏觀問題:
人工智慧
驅動
的
工
作
崗位
流失
這一永遠存在的話題,這些模
型
加劇
的
深
度
偽造的
迫在
眉
睫
的
威脅,什麼是真
正的藝術
以及
人工智慧
是否
可
以創造的哲學
問題
。
這些問題
沒有
簡
單的答案,關於
這些
問題的公眾討論將
持續多年。
這裡有一個近期值得
簡要
討論的問
題
:
誰
擁有
並有
權
將
這些
模型產生的影象商業化的
問題。
提出文字提示並將
其輸入 AI
模型的人能
否獲取
生成
的影象
並用它做任何他或她喜歡的
事情(包括在商業環境中)?
或者構建 AI
模型的組織是否
保留
對該模型產生的所有媒體的權利?
如果 AI 模型是開源的呢?
讓事情更復雜的是,谷歌和 OpenAI 等公司首先建立這些模型
的方式是透過對這些公司不擁有的
大量公
開可用影象進行
訓練,包括無數其他藝術家、設計師和組織。
這些問題不僅僅是理論上的;它們將產生非常真實和直接的商業後果。是否以及如何解決這些問題將對使用該技術的公司的戰略和機會產生重大影響。企業家和投資者需要注意。
“如果按照我認為 [OpenAI] 設想的方式採用 DALL-E,那麼使用該工具將產生大量收入,”貝克麥堅時律師事務所專注於人工智慧的律師 Bradford Newman說。 “而且當你在市場上有很多參與者和問題時,你就有很高的訴訟機會。”
OpenAI 目前宣告的政策是,DALL-E 的個人使用者擁有將他們使用該模型建立的影象商業化的全部權利——包括重印、出售或商品化影象的權利——但 OpenAI保留對原始影象的最終所有權。Midjourney 的服務條款也有類似的說法。
但是,當涉及這些影象的高風險爭議不可避免地被提起訴訟時,法院會這樣看嗎?這是未知的領域;沒有直接的法律先例。
Epstein Becker & Green 律師事務所的高階合夥人 Jim Flynn提供了一個具體的例子來說明其中的動態:“如果我代表其中一家廣告公司或廣告公司的客戶,我不會建議他們使用這個軟體來建立一個活動,因為我確實認為人工智慧提供商會[目前]對智慧財產權有一些要求。我會尋求談判一些更明確的東西。”
最終,這些問題不應被視為技術的阻礙,而應被視為在這個新興行業全速前進時將發揮作用的未解決問題。別搞錯了:法律上的模糊性不會阻止企業家和技術人員推動這一領域的先進技術,也不會阻止建立將這項技術帶給大眾的企業。
OpenAI 的一位發言人總結得很好:“版權法過去已經適應了新技術,並且需要對人工智慧生成的內容做同樣的事情。”
圖注:“泰迪熊在奧運會 400 米蝴蝶比賽中游泳。” 由 Google Brain 提供
四:這項技術將很快變得更加令人興奮。
與今天的文字到影象模
型
一樣令人印象深刻,我們仍處於生成人工智慧擴散的最早階段。
文
本到影象只
是
一個開始。
最
自然的下一步將是
文字到
視
頻
的AI 模型
:
生成
模型
可
以接受文字描述,不
僅可以生成靜
態影象,還可以
生成
指定長度的影片。
不用說,文字到影片
是
比文字到影象更復雜的技術挑戰。
一方面,它需要更大的計算
資源;
另一方面,註釋
良好的
影片訓
練數
據是稀缺的。
但這裡的機會是巨大的。
從 TikTok 到 Netflix,影片已
成為我們數字生活的主要媒介。
據思科稱
,
當今
互聯
網上
超過
80% 的資料是影片。
從娛樂到社交媒體再到營銷等等,輕鬆、
廉
價地按
需生成新
影片
內容的能力將帶來變革。
該主題最有前途的學術研究是
CogVideo
,這是 2022 年 5 月釋出的大規模文字轉
影片模型。
就在兩
天前,影片 A
I 初創公
司
Runway
宣佈
即將在其平臺上釋出文
本轉
影片
工
具,它說
“即
將推出”。
Run
way
似乎正在
與 Stability。ai 合作開展這項工作
。
未來創新的另一個途徑是生成 3D 數字
內容的 AI 模型(與 DALL-E 等模型的 2D 輸出相反)。
這
項
技術
將對
遊戲、動畫電影制
作和虛擬世界等領域產生巨大影響。
最後
一種誘人的可能性:
想象
將
生成
的 AI 模型與 3
D
打
印
機
配
對,
以實現
文字到現實世界的對
象
生成
。
正如一位推特
使用者生動
描述
的那樣:
“字面上是
用咒語
召喚
物
體。
”
可以肯定的是,
這在今天仍然遙不
可及。
但是,
使這樣的事情成為現實的核心技術構建
塊基
本上已經到位。
未來將是令人興奮
的,
它會比你想象的更早到來。
炒股開戶享福利,入金抽188元紅包,100%中獎!
開啟App看更多精彩內容