首頁/ 遊戲/ 正文

當被大模型輸入技術內功,數字人文畫兩開花,還在手機裡隨時陪你聊天

機器之心原創

作者:杜偉

能互動、擅寫作、會作畫,百度數字人度曉曉應了這樣一句話,「天空才是她的極限」。

這年頭,數字人直播帶貨、虛擬主播、銀行客服,這些應用場景已經不再是多稀奇的事了。從時尚娛樂到文化商業,數字人迎來了全面開花。國內大廠也紛紛抓住數字人這個發展機遇,推出花樣百出的娛樂和實用性數字人產品,致力於讓數字人更智慧化更服務化。

百度 2020 年 9 月推出的國內首個可互動虛擬偶像度曉曉,最近用她的智慧互動、寫作和繪畫表現讓人們見識到了 AI 大模型的能力。

6 月 14 日,一段由百度打造的度曉曉和龔俊數字人聯袂出演的《每分 每秒 每天》歌曲 MV 刷屏全網,並登上各大音樂電臺、多個音樂排行榜,播放量更是超過 1300 多萬。與一般透過人工換聲實現虛擬人唱歌不同,度曉曉參與演唱的這首歌從作詞到編曲都是由 AI「操刀」,成為國內首個虛擬偶像 AIGC(AI generated content, 人工智慧創造內容)歌曲。

度曉曉變身為 AI 唱作人,而在唱歌的表象下,歌詞中「每分每秒每天,我都在這裡;等著你,來邀請,我隨時給你迴應 …… 」點出了度曉曉更深層次的身份 —— 入端百度 APP、每分每秒每天陪伴人類的虛擬助手。度曉曉為使用者提供全程 AI 陪聊功能,升級搜尋體驗,情感聊天、定外賣、寄快遞、講故事等,幾乎你能想到的需求都可以一呼即達。

如你所見,

度曉曉實現自然的多輪聊天互動,在對話中識別使用者的搜尋和服務需求,其中多輪聊天能力由百度文心大模型提供強大的底層技術支援,尤其是全球首個基於隱空間的生成式開放域對話大模型文心 PLATO

當被大模型輸入技術內功,數字人文畫兩開花,還在手機裡隨時陪你聊天

除了 APP 端更擬人的智慧對話之外,

百度文心大模型還一度讓度曉曉變身為高考作文寫手和 AI 畫家,分別要歸功於融合任務相關知識的千億大模型 ERNIE 3.0 Zeus 和跨模態圖文生成模型 ERNIE-ViLG

6 月 7 日高考語文考試之後,度曉曉化身數字人考生挑戰全國新高考 Ⅰ 卷作文題《本手、妙手、俗手》,40 秒的時間內完成了 40 篇高考作文,平均 1 秒生成 1 篇,寫作速度遠超了人類。那麼度曉曉生成的作文能滿足高考寫作的審題、邏輯和創意等要求嗎?

這一擔心也被證明是多餘的,曾任北京高考語文閱卷組組長的申怡為她隨機生成的一篇作文打出了 48 分的成績(滿分 60 分),從歷年統計資料來看,這個分數超過了 75% 的人類考生。稱呼她一聲寫作高手絕不為過。

當被大模型輸入技術內功,數字人文畫兩開花,還在手機裡隨時陪你聊天

度曉曉生成的高考作文示例。

給出一段話就能輸出一幅圖,這種神奇的跨模態能力成為近年來各大 AI 公司追捧的熱點,如英偉達的 GauGAN 和 GauGAN2、OpenAI 的 DALL·E 和 DALL·E 2。度曉曉數字人也擁有了這種繪畫能力,完成的 AI 畫作甚至得到了專業人士的認可。

6 月初,度曉曉創作的「無界」系列數字藏品上線百度 APP 開啟限時搶購,該系列共有 4 幅畫作。作為國內首個數字人創作的藝術數字藏品,這些畫作在 24 小時內就賣出了 17 萬元。更令人想不到的是,每幅畫作的創作時間僅需幾十秒,這種畫畫速度大概會令通常仔細斟酌、耗時很長的專業畫家羨慕吧。

隨後,度曉曉帶著她的畫作現身西安美術學院 2022 年「時空留痕・無界西美」本科畢業展,在自己的專屬展區展出了此前製成數字藏品的四幅作品以及兩幅有關西安大雁塔的本地特色作品。這些畫作的水平又如何呢?西安美院教授評價稱「已經達到了本科美術生的基本要求」。

當被大模型輸入技術內功,數字人文畫兩開花,還在手機裡隨時陪你聊天

度曉曉化身 AI 美術生,開了自己的專屬展區。

度曉曉出圈的背後 —— 百度 AI 技術賦予她內涵

但應看到,數字人的背後少不了技術的支撐,百度文心大模型為度曉曉的一系列外在能力展現提供了技術核心。在 5 月 20 日的 WAVE SUMMIT 2022 深度學習開發者峰會上,文心大模型迎來了自發布以來的最大一次升級,新增 10 個大模型,包括基礎通用大模型、任務大模型、行業大模型三大類,比如基礎 NLP 大模型中新增的融合任務相關知識的千億大模型 ERNIE 3。0 Zeus。

當被大模型輸入技術內功,數字人文畫兩開花,還在手機裡隨時陪你聊天

同屬文心 NLP 大模型範疇的全球首個基於隱空間的生成式開放域對話大模型文心 PLATO ,保證了度曉曉在百度 APP 端不再尬聊。

作為百度研發的具有大規模引數的中英文對話預訓練生成模型,文心 PLATO 歷經多個版本。2019 年推出了通用領域的對話生成預訓練模型 PLATO,在 NLP 領域國際頂會 ACL 2020 上正式展示;到 2020 年升級為 PLATO-2,涵蓋中英文版本,實現了開放域話題深度暢聊。現在升級到了百億引數的文心 PLATO- XL 版本,在開放域對話效果上得到了持續的提升。

既然說到了 文心 PLATO,那我們就先來看在它的加持下,

度曉曉如何在百度 APP 端實現接近真人水平的多輪流暢對話以及更擬人的智慧化搜尋

?度曉曉和龔俊數字人目前實現了四大功能,即個性化聊天陪伴、輔助搜尋、服務分發和互動玩法。其中個性化聊天可以實現多輪對話以及人設定製化能力,這也正是文心 PLATO 大模型的用武之地。

首先,為了學習通用對話生成能力,文心 PLATO 採用了完全生成方式,並根據多輪對話上下文(Context)生成對話回覆(Response),在大規模對話語料上進行預訓練。PLATO 只有 8。3M 的訓練樣本;PLATO-2 的英文和中文訓練集樣本分別為 684M 和 1。2B,模型規模最高達到了 1。6B;到了 PLATO-XL,英文和中文訓練集樣本分別 811M 和 1。2B,模型規模更是來到了 11B。

預訓練時,針對開放域中涉及上下文的對話理解和回覆的對話生成,文心 PLATO 採用編碼器和解碼器共享引數的 Unified Transformer 作為基礎框架,使對話理解和對話生成進行充分的資訊融合互動。此外,考慮到對話答覆與場景、意圖等對話情景資訊相關,相同上下文不同的情境會對應不同的答覆(即一對多關係),而情境資訊又難以用顯示文字進行表示,文心 PLATO 又提出用隱變數因子表示情境資訊,如下圖所示。

大規模預訓練樣本和預訓練技術創新的基礎上,文心 PLATO 為度曉曉帶來了多輪流暢的開放域對話能力

當被大模型輸入技術內功,數字人文畫兩開花,還在手機裡隨時陪你聊天

文心 PLATO 的模型架構。

人工智慧發展至今,資料價值正在不斷得到體現和提升,可以說,資料即 “石油”。同樣,在開放域對話中,高質量的對話語料也同樣重要,對模型訓練起著重要作用,但我們都知道,高質量的對話語料少之又少,另外語料所依附的人設資訊千差萬別,導致模型在效果上參差不齊。

如何賦予對話機器人穩定一致的人設一直是對話技術領域面臨的重要挑戰,文心 PLATO 在預訓練對話模型的基礎上進一步學習不同畫像資訊下的對話生成能力,使模型具備了圍繞人設的定製化對話能力,還能在答覆過程中始終保持人設的一致性。

這一能力加持到度曉曉身上,她便更加彰顯了自己的人設或個性化 IP。用一句流行的話說,

度曉曉的人設要保持一致

。同時,在對話時,度曉曉充分考慮使用者上下文的聯絡,生成的回覆始終不脫離語境,像人與人聊天那樣不偏題。

當被大模型輸入技術內功,數字人文畫兩開花,還在手機裡隨時陪你聊天

百度 APP 端內度曉曉的多輪聊天能力展示。

最後,即使度曉曉已經具備了一定的知識對話能力,但受限於預訓練語料存在的知識稀疏性,生成回覆中仍然會有不知如何答覆或答非所問的情況出現。

針對這一問題,文心 PLATO 提出了問答生成任務 + 預訓練對話任務的連續預訓練策略,將海量問答知識內化到模型引數中,使模型及其支援的度曉曉在知識問答時更準確、更全面。

這麼一套技術組合拳下來,文心 PLATO 成就了現在的度曉曉,

更擬人化、更具針對性、更貼合用戶真實需求成為了她在百度 APP 內的標籤

。她可以與使用者進行語境連續的多輪自然對話,支援文字、圖片、表情包、音訊等多樣化聊天形態;當在對話中識別出使用者的搜尋意圖時,要麼直接回復答案要麼呈現 APP 內相關問題的搜尋結果;使用者想要看電影、訂車票時,她也會直接跳轉至相應服務介面。

當被大模型輸入技術內功,數字人文畫兩開花,還在手機裡隨時陪你聊天

百度 APP 端內的多工小能手度曉曉。

而此前,

度曉曉 40 秒完成 40 篇高考語言作文的表現,背後利用的是文心大模型中的 NLP 千億大模型 ERNIE 3.0 Zeus

。它是知識增強大模型 ERNIE 3。0 系列模型的最新升級,更在國內首個開放了 API 呼叫。

在訓練時,除了從海量無監督文字資料和百度知識圖譜的學習之外,還針對上百種不同形式的任務資料進行持續學習,增強了模型效果,顯著提升了在自由問答、資訊抽取和情感分析等下游各類 NLP 任務上的零樣本 / 小樣本學習能力。

當被大模型輸入技術內功,數字人文畫兩開花,還在手機裡隨時陪你聊天

ERNIE 3。0 Zeus 大模型概覽。

對於此次高考寫作挑戰,度曉曉一方面具有資料「底氣」。得益於 ERNIE 3。0 Zeus 的千億引數,度曉曉在寫作訓練時接受了大量風格各異的高考作文樣本資料,在不斷的吸收消化過程中,

培養出了自己的寫作風格以及對於高考作文的需求認知,在實戰中「應題而作」

另一方面,在充足、多樣化高考作文樣本資料的基礎上,度曉曉進一步確立了一整套自己的寫作套路。在扣題立意方面,她始終不離給定的作文題目,圍繞主題組織文字,輸出支援該主題的積極正向觀點;在行文結構上,面對 800 字的長文字生成要求,她能保持整體文章脈絡清晰、邏輯完整,並在開篇和結尾雙重扣題;在寫作技巧上,歷史典故、古詩詞拈手就來,還學會了排比、比喻等修辭手法,文章可讀性大大提升。

當被大模型輸入技術內功,數字人文畫兩開花,還在手機裡隨時陪你聊天

在 ERNIE 3。0 Zeus 的賦能下,

度曉曉就像是眾多見多識廣的「尖子生」、「學霸」的集合體

,理解能力和創作能力更強,寫出高分作文也就不足為奇了。

除了以上 NLP 領域的智慧對話和 AI 寫作,跨模態也是文心大模型深耕已久的領域。

度曉曉引起關注的「無界」系列畫作採用的正是文心大模型跨模態圖文生成大模型 ERNIE-ViLG

,它不僅構建了包含 1。45 億高質量中文文字 - 影象對的大規模跨模態對齊資料集,而且基於飛槳平臺在該資料集上訓練了百億引數模型,在文字生成影象、影象描述等跨模態生成任務具有顯著效果。

當被大模型輸入技術內功,數字人文畫兩開花,還在手機裡隨時陪你聊天

ERNIE-ViLG 大模型的流程圖,其中文字生成影象模型中的兩階段訓練和端到端方法是關鍵。

與上述高考寫作一樣,得益於 1。45 億高質量中文文字 - 影象對,ERNIE-ViLG 學會了類似於人類的作畫過程。整體可以分為兩步,大模型首先要理解輸入給自己的文字的含義,並結合背景知識擴充套件更豐富的資訊,找到契合的元素和作畫的靈感;然後構思生成初步的草稿圖,再不斷最佳化填充,從而逐步生成符合主題的高質量圖片。

因此,對於使用了 ERNIE-ViLG 的度曉曉,僅僅輸入一段話,便能在幾十秒內做出一幅畫作。她不僅可以根據不同的輸入文字需求畫出對應的場景,還在畫作風格上博採眾長,能夠 hold 住水彩、油畫、中國畫、印象派等多種風格。

當被大模型輸入技術內功,數字人文畫兩開花,還在手機裡隨時陪你聊天

度曉曉生成的六幅畫作。

這些畫作具有充滿想象力的構圖、流暢的筆觸和豐富的色彩,尤其第一幅大雁塔畫作,遠處山峰縹緲,落日金輝,近處大慈恩寺佛塔高聳,大雁略過,意境頗為深遠。如果事先不告訴你,你大概猜不出它們是由度曉曉創作的。這就是 AI 的神奇之處。

全新內容生產方式 ——AIGC

從對話到寫作、作畫,度曉曉儼然成為了數字人中的「多面手」。一方面,在百度文心大模型整合的多模態互動、3D 建模、機器翻譯、語音識別等多項技術的助力下,度曉曉已經在百度 APP 端內實現了生動擬人智慧的互動交流。另一方面,由於文心大模型超強的理解和生成能力,度曉曉的創作能力被充分地挖掘和展現出來。

可以這樣說,

此時的度曉曉已經脫離了傳統意義上的 CG 數字人,有了「內涵」,而這些恰好契合了當下備受關注的新型內容生產方式 ——AIGC

,即透過人工智慧技術自動生產內容。繼 UGC、PGC 之後,大模型賦能下的 AIGC 已經成為了過去一年來百度 AI 技術加速落地的著陸點。

不僅如此,度曉曉近來展現的編曲、互動交流、寫作和作畫,都只是百度大模型技術支撐下在 AIGC 層面的牛刀小試。隨著底層 AI 大模型技術的不斷完善,AIGC 的可用性和適用性勢必會迎來提升和擴充套件,更多內容生產領域會被髮掘出來。

像度曉曉這樣的數字人,落地場景也就不再侷限於單一的端內互動或圖文創作,未來的舞臺可以遍佈影視、金融、文旅等各個領域,「天空才是她的極限」。

讓大模型不再流於引數,終究還是要落地,實現應用價值

在近年來深度學習領域掀起這波「練大模型」潮流之際,百度持續發力文心大模型也是順勢而為,力爭在 AI 巨頭的競爭中始終保持領先優勢。就之前的趨勢而言,追逐引數的多、模型的大似乎在國內外巨頭們之間形成了一種默契。

從 GPT-3 開始,千億、萬億級大模型紛至沓來,如國外谷歌 1。6 萬億引數大模型 Switch Transformer、微軟聯合英偉達的 5300 億引數模型 MT-NLG,國內浪潮 2457 億引數單體模型源 1。0、阿里達摩院 10 萬億引數多模態大模型 M6。

慢慢地,當堆引數及其帶來的鉅額訓練成本不再那麼吸引 AI 巨頭們時,如何使自身大模型更廣泛地落地成為了他們新的目標。作為從 2019 年就開始積累預訓練技術和大模型的 AI 頭雁,

百度在探索大模型過程中修煉了自己的武功秘訣 —— 知識增強

2021 年 12 月,百度釋出全球首個知識增強千億大模型鵬城 - 百度・文心釋出,它的引數量達到了 2600 億,是一個融合了 NLP 和 NLG 的全能模型。當時,百度產業級知識增強大模型文心全景圖首次亮相。

今年 5 月的 Wave Summit 峰會上,百度聚焦「前沿大模型技術如何匹配真實場景中的方方面面要求」這一問題,提出了大模型產業落地的三個關鍵路徑,包括更適配應用場景的模型體系、更有效的工具和方法以及更開放的生態。方方面面無不呼應著落地。

同時,文心大模型除了迎來新成員之外,還可以透過百度飛槳的一系列大模型開發套件、大模型API和整合文心大模型的飛槳企業版EasyDL和BML開發平臺,全面釋放使用效能,進一步降低應用門檻。在生態和社群層面,構建文心・暘谷社群,將大模型能力開放給普通開發者,人人皆可觸碰 AI 的魅力。

文心大模型的個人、企業開發者數量已超過 6 萬人

當被大模型輸入技術內功,數字人文畫兩開花,還在手機裡隨時陪你聊天

文心・暘谷社群地址:https://wenxin。Baidu。com/younger

全新升級的文心大模型在知識增強和產業級這兩方面得到了進一步加強

,10 個大模型新成員中的國網 - 百度・文心和浦發 - 百度・文心就分別將文心大模型的能力輸入到了能源電力行業和金融服務行業,這也預示著文心大模型與行業的聯絡越來越緊密。

目前,以知識增強和產業級為指導的文心大模型已經逐漸在百度內外「兌現」了自己的能力。

在百度內部,搜尋、資訊流、百度地圖等場景中可以看到文心大模型的身影,如上文在百度 APP 端智慧互動的度曉曉以及小度智慧屏等;在百度外部,文心大模型在工業、能源、金融、教育、通訊、媒體、醫療等各行各業都有了實戰場地,如工業領域的零部件質量檢測、金融行業的合同資訊抽取等,在賦能行業中真正實現了自身的應用價值。

度曉曉最近頻頻出圈,讓更多人看到了其背後文心大模型的技術內驅力。然而,未來文心大模型的落地場景不應受限。

一方面,文心大模型可以按照能源行業國網 - 百度・文心和金融行業浦發 - 百度・文心的模式繼續推出更多行業大模型,持續推進大模型在各行各業的深度應用,滿足多樣化場景任務需求。

另一方面,在 AI for Science 領域,文心大模型中已經有了兩個生物計算大模型(HELIX-GEM 和 HELIX-Fold),未來同樣有可能在數學、物理、化學等更多基礎學科領域構建專屬大模型。這樣做可以持續探索大模型在科學領域解決問題的巨大潛力,更全面地推進 AI 與 Science 的融合。

大模型成為行業熱點已經有兩三年時間,在百度看來,2022 年是大模型產業落地的關鍵年。不管是度曉曉這一系列的創意應用,還是深入到更廣泛的行業和前沿技術領域,百度勢必會抓住大模型發展的這一機遇,在產業化落地的融合創新之路上繼續又穩又快地走下去。

參考連結:

https://arxiv。org/pdf/2109。09519。pdf

https://arxiv。org/pdf/2006。16779。pdf

https://aclanthology。org/2020。acl-main。9。pdf

https://www。jiqizhixin。com/articles/2022-05-20-8

https://wenxin。baidu。com/wenxin/modelbasedetail/plato/

https://wenxin。baidu。com/wenxin/modelbasedetail/ernie_vilg/

https://wenxin。baidu。com/wenxin/modelbasedetail/ernie3_zeus/

股民福利來了!十大金股送給你,帶你掘金“黃金坑”!點選檢視>>

開啟App看更多精彩內容

相關文章

頂部