首頁 ? 萬字詳解AIGC:如何成為 Web3 時代的生產力工具?
By Published On: 15 11 月, 2022Categories: 區(qū)塊鏈

原文:《AIGC:Web3時代的生產力工具

作者:宋嘉吉、金郁欣

AIGC(AI-Generated Content 人工智能生成內容)代表新一輪范式轉移的開始。近期,硅谷的眾多一線 VC 們開始將目光瞄準 AI 初創(chuàng)公司,尤其是生成式 AI 藝術這一領域。今年有兩家獨角獸 Stability 和 Jasper 均獲得了超過一億美元的融資,估值突破十億美元。AIGC 賽道火爆不僅得益于技術進步、商業(yè)應用廣泛和需求增長,還歸功于該賽道還處于早期。雖然大型科技公司捕獲了大量價值,初創(chuàng)企業(yè)仍有機會突破。

AIGC 將是 Web3 時代的生產力工具。當我們邁入 Web3.0 時代,人工智能、關聯(lián)數據和語義網絡構建,形成人與網絡的全新鏈接,內容消費需求飛速增長。UGC\PGC 這樣的內容生成方式將難以匹配擴張的需求。AIGC 將是新的元宇宙內容生成解決方案。AIGC 的生成利用人工智能學習知識圖譜、自動生成,在內容的創(chuàng)作為人類提供協(xié)助或是完全由 AI 產生內容。不僅能幫助提高內容生成的效率,還能提高內容的多樣性。隨著 NLP(Natural Language Processing,自然語言處理)技術和擴散模型(Diffusion Model)的發(fā)展,AI 不再僅作為內容創(chuàng)造的輔助工具,創(chuàng)造生成內容成為了可能。由此,將來文字生成、圖片繪制、視頻剪輯、游戲內容生成皆可由 AI 替代。

AIGC 技術主要涉及兩個方面:自然語言處理 NLP 和 AIGC 生成算法。自然語言處理是實現人與計算機之間如何通過自然語言進行交互的手段。AIGC 生成算法主流的有生成對抗網絡 GAN 和擴散模型。擴散模型已經擁有了成為下一代圖像生成模型的代表的潛力。它具有精度更高、可擴展性和并行性,無論是質量還是效率均有所提升,其快速發(fā)展成為 AIGC 增長的拐點性因素。同時,在機器學習的過程中,需要通過大量的訓練來實現更準確的結果,目前以英偉達 A100 為主,對于底層算力需求將有飛速增長。

AIGC 在文字、圖像、音頻、游戲和代碼生成中商業(yè)模型漸顯。近期我們研究了國內外數十家 AIGC 相關企業(yè),尤其在一些具備高重復性的任務、對于精度要求并不那么高的領域應用已逐步成熟,并在探索商業(yè)模式中。目前圖片生產、文字生成較為常見,這類 AIGC 服務大多數時候會以提供 SaaS 服務的形式變現。

AIGC 未來發(fā)展核心:大模型、大數據與大算力。結合自然語言的大模型與數據集已成為 AIGC 發(fā)展的軟件基礎,OpenAI 的 Clip 模型基于 4 億組高質量的英文圖文對應數據訓練而成;算力即權力將在 AIGC 數字時代更加凸顯, Stable Diffusion 目前依賴于 4000 個英偉達 A100 的 GPU 集群,運營成本超 5000 萬美金。為了讓功能更加精確,未來還將更多地基于語種去開發(fā)垂直類的應用,便于更有目的性地為特定功能進行訓練。

AIGC 投資框架:軟硬件與數據集。生成算法、NLP 與算力決定 AIGC 能否運行,而高質量的數據集決定了 AIGC 質量與商業(yè)模式。

  • 軟件層面主要包括自然語言處理技術:谷歌、微軟、科大訊飛、拓爾思;
  • AIGC 生成算法模型及數據集:英偉達、Meta、百度、藍色光標、視覺中國、昆侖萬維;
  • 算力層包括:瀾起科技、中興通訊、新易盛、天孚通信、寶信軟件、中際旭創(chuàng)等。

風險提示:技術創(chuàng)新不及預期:AIGC 的技術發(fā)展不及預期。以及底層硬件技術,如:超級計算機、算力的發(fā)展不及預期。政策監(jiān)管風險:目前 AIGC 還處于相對早期,后續(xù)是否會出臺 AIGC 作品相關知識版權或其他法律監(jiān)管條款尚不明確。

1. 2022:AIGC 的崛起之年

近期,硅谷的眾多一線 VC 們開始將目光瞄準 AI 初創(chuàng)公司,尤其是生成式 AI 藝術這一領域。今年 9 月 23 日,紅杉美國官網發(fā)表了一篇名為《生成式 AI:一個創(chuàng)造性的新世界》的文章,認為 AIGC(AI-Generated Content 人工智能生成內容)會代表新一輪范式轉移的開始。

2022 年 10 月,英國開源人工智能公司 Stability AI 宣布獲得 1.01 億美元融資,估值高達 10 億美元,躋身獨角獸行列,由 Coatue、Lightspeed Venture Partners 和 O’Shaughnessy Ventures LLC 參與投資。Stability AI 今年發(fā)布了 Stable Diffusion 的模型,主要用于根據用戶輸入的文字描述自動生成圖像。Stable Diffusion 的誕生讓 AI 繪畫這個領域愈發(fā)火爆。最近,巴比特正式對外宣布,全面擁抱 AIGC,開始規(guī)模化采用 AI 配圖,其中頭條圖片,全面由 AI 創(chuàng)作。包括但不限于巴比特網站和 APP,微信公眾號、百家號、網易號等自媒體平臺,以及微博等社交媒體賬號。

除了繪畫以外,文字、音頻、視頻均可通過 AI 來生成。

文字:以 Jasper 為例,以 AI 文字生成為主打產品,通過其文字生成功能,用戶可以生成 Instagram 標題,編寫 TikTok 視頻腳本、廣告營銷文本、電子郵件內容等工作。截止 2021 年,Japer 已擁有超過 70000 位客戶,并創(chuàng)造了 4000 萬美元的收入。

音頻:以 Podcast.ai 為例,作為一個由 AI 生成的博客,每周都會探討一個話題。在第一期節(jié)目中,其通過喬布斯的傳記和收集網絡上關于他的所有錄音,Play.ht 的語言模型大量訓練,最終生成了一段假 Joe Rogan 采訪喬布斯的播客內容。

視頻:目前的 AI 技術不僅可以生成圖片,也能夠生成序列幀,如:《幻覺東京》。經過 160 小時,完成 3 萬多張獨立插畫,再進行手動微調。雖然目前還只是在原腳本和視頻的基礎上,通過 AI 逐幀完成圖片生成的,但看到了 AIGC 參與到視頻創(chuàng)作中的可能。而在諸多垂直類應用中,如體育、財經等,已經可以通過文字直接生成相應的短視頻,如果配上虛擬人則可以實現自動播報。相比于單一的虛擬人讀稿,基于 AIGC 生產的內容在鏡頭轉換、表情動作結合方面更加逼真、自然。

隨著 NLP(Natural Language Processing,自然語言處理)技術和擴散模型(Diffusion Model)的發(fā)展,AI 創(chuàng)造生成內容成為了可能。此前,內容生成主要運用 GAN(Generative Adversarial Network,生成對抗網絡)來實現的,GAN 不同于擴散模型依賴于超大規(guī)模語言模型,因此難以實現通過文字的描述,自主理解內容并創(chuàng)造出圖像、視頻等。近年來,隨著擴散模型的成熟,生成方式更接近于人腦的聯(lián)想,AIGC 完成了內容創(chuàng)造輔助工具到內容創(chuàng)作主體的角色轉變。

2. AIGC 是什么?

AIGC 是通過人工智能技術自動生成內容的生產方式。從 Web 1.0 的單向信息傳遞的「只讀」模式到 Web 2.0 的人與人通過網絡雙向溝通交流的「交互」模式,內容的需求在不斷增加。為了滿足這一需求,同時也因為互聯(lián)網的發(fā)展,內容的生成從單一的 PGC 演變到了現在的 UGC 并占據了主要市場。Youtube、Instagram、抖音、快手、B 站上有大量的內容來自于 UGC 創(chuàng)作者。當我們邁入 Web3.0 時代,人工智能、關聯(lián)數據和語義網絡構建,形成人與機器網絡的全面鏈接,內容消費需求飛速增長,UGC\PGC 這樣的內容生成方式將難以匹配擴張的需求。

我們認為,AIGC 將是 Web3 時代全新的內容生成工具,同樣,將對現有的短視頻、游戲及廣告行業(yè)帶來巨大的影響。AIGC 的生成利用人工智能學習知識圖譜、自動生成,在內容的創(chuàng)作為人類提供協(xié)助或是完全由 AI 產生內容。不僅能幫助提高內容生成的效率,還能提高內容的多樣性。

2.1AIGC 發(fā)展簡史

AIGC 的發(fā)展可以大致分為以下三個階段:

  • 早期萌芽階段:20 世紀 50 年代—90 年代中期,受限于科技水平,AIGC 僅限于小范圍實驗
  • 沉積積累階段:20 世紀 90 年代中期—21 世紀 10 年代中期,AIGC 從實驗向實用轉變,受限于算法,無法直接進行內容生成
  • 快速發(fā)展階段:21 世紀 10 年代中期—現在,深度學習算法不斷迭代,AI 生成內容種類多樣豐富且效果逼真

近年來,AIGC 的發(fā)展迅速,從原來作為邊緣側服務于企業(yè)、機構的角色變?yōu)榱爽F在 C 端零基礎用戶都可以使用的創(chuàng)作工具。開發(fā)側重點上,AIGC 也從原先用于翻譯、語音合成以及重復性工作轉變?yōu)榱烁⒅貞脤用?,用戶能夠便捷操作的方向?/p>

2.2技術

隨著 NLP(Natural Language Processing,自然語言處理)技術和擴散模型(Diffusion Model)的發(fā)展,AI 不再僅作為內容創(chuàng)造的輔助工具,創(chuàng)造生成內容成為了可能。

自然語言處理技術 NLP

自然語言處理是實現人與計算機之間如何通過自然語言進行交互的手段。融合了語言學、計算機學、數學,使得計算機可以理解自然語言,提取信息并自動翻譯、分析和處理。在自然語言處理技術發(fā)展之前,人類只能通過一些固定模式的指令來與計算機進行溝通,這對于人工智能的發(fā)展是一個重大的突破。

自然語言處理最早可以追溯到 1950 年,圖靈發(fā)表論文「計算機器與智能」,提出「圖靈測試」的概念作為判斷智能的條件。這一測試包含了自動語意翻譯和自然語言生成。

自然語言處理技術可以分為兩個核心任務:

自然語言理解 NLU:希望計算機能夠和人一樣,具備正常人的語言理解能力。過去,計算機只能處理結構化的數據,NLU 使得計算機能夠識別和提取語言中的意圖來實現對于自然語言的理解。由于自然語言的多樣性、歧義性、知識依賴性和上下文,計算機在理解上有很多難點,所以 NLU 至今還遠不如人類的表現。

自然語言理解跟整個人工智能的發(fā)展歷史類似,一共經歷了 3 次迭代:基于規(guī)則的方法、基于統(tǒng)計的方法和基于深度學習的方法。

自然語言生成 NLG:將非語言格式的數據轉換成人類可以理解的語言格式,如文章、報告等。NLG 的發(fā)展經歷了三個階段,從早期的簡單的數據合并到模板驅動模式再到現在的高級 NLG,使得計算機能夠像人類一樣理解意圖,考慮上下文,并將結果呈現在用戶可以輕松閱讀和理解的敘述中。自然語言生成可以分為以下六個步驟:內容確定、文本結構、句子聚合、語法化、參考表達式生成和語言實現。

NLP 主要被應用在四個方面:

  • 情感分析:互聯(lián)網上存在大量的信息,表達的內容都是多種多樣的,但抒發(fā)的感情大致可以分為正面和負面的,可以被用來快速了解用戶的輿情情況。
  • 聊天機器人:近年來,智能家居的發(fā)展和普及使得聊天機器人的價值擴大。
  • 語音識別:微信中可以通過語音進行輸入或直接將語音轉化為文字,汽車導航可以直接說目的地,大大提升了便利性。
  • 機器翻譯:機器翻譯的準確率在近年大幅提高,youtube 和 netflix 甚至可以做到視頻機器翻譯。

商業(yè)上,NLP 主要被應用在一下領域:

  • 用于處理財務、醫(yī)療保健、零售、政府和其他部門手寫或機器建立檔案
  • 文字處理工作,如:名稱實體辨識(NER)、分類、摘要和關聯(lián)擷取。這能將擷取、識別和分析文檔資訊的流程自動化。
  • 語意搜尋和資訊擷取和知識圖表建立
  • 跨零售、財務、旅游和其他產業(yè)客戶的交互 AI 系統(tǒng)等。

神經網絡,尤其是循環(huán)神經網絡 (RNN) 是當前 NLP 的主要方法的核心。其中,2017 年由 Google 開發(fā)的 Transformer 模型現已逐步取代長短期記憶(LSTM)等 RNN 模型成為了 NLP 問題的首選模型。Transformer 的并行化優(yōu)勢允許其在更大的數據集上進行訓練。這也促成了 BERT、GPT 等預訓練模型的發(fā)展。這些系統(tǒng)使用了維基百科、Common Crawl 等大型語料庫進行訓練,并可以針對特定任務進行微調。

Transformer 模型是一種采用自注意力機制的深度學習模型,這一機制可以按輸入數據各部分重要性的不同而分配不同的權重。除了 NLP 以外,也被用于計算機視覺領域。與循環(huán)神經網絡(RNN)一樣,Transformer 模型旨在處理自然語言等順序輸入數據,可應用于翻譯、文本摘要等任務。而與 RNN 不同的是,Transformer 模型能夠一次性處理所有輸入數據。注意力機制可以為輸入序列中的任意位置提供上下文。如果輸入數據是自然語言,則 Transformer 不必像 RNN 一樣一次只處理一個單詞,這種架構允許更多的并行計算,并以此減少訓練時間。

AIGC 生成模型

近年來,AIGC 的快速發(fā)展歸功于生成算法領域的技術積累,其中包含了:生成對抗網絡(GAN)、變微分自動編碼器(VAE)、標準化流模型(NFs)、自回歸模型(AR)、能量模型和擴散模型(Diffusion Model)??梢钥吹剑竽P?、大數據、大算力是未來的發(fā)展趨勢。我們認為,算法模型的突破是近年來 AIGC 得以快速突破的催化劑,下面將展開介紹一下兩個非常常用的模型,分別是生成對抗網絡和擴散模型。

生成對抗網絡 GAN(Generative Adversarial Networks)

2014 年,Ian J.Goodfellow 提出了 GAN,是一種深度神經網絡架構,由一個生成網絡和一個判別網絡組成。生成網絡產生「假」數據,并試圖欺騙判別網絡;判別網絡對生成數據進行真?zhèn)舞b別,試圖正確識別所有「假」數據。在訓練迭代的過程中,兩個網絡持續(xù)地進化和對抗,直到達到平衡狀態(tài),判別網絡無法再識別「假」數據,訓練結束。

GAN 被廣泛應用于廣告、游戲、娛樂、媒體、制藥等行業(yè),可以用來創(chuàng)造虛構的人物、場景,模擬人臉老化,圖像風格變換,以及產生化學分子式等等。

其優(yōu)點在于:

  • 能更好建模數據分布
  • 無需利用馬爾科夫鏈反復采樣,無需在學習過程中進行推斷,沒有復雜的變分下界,避開近似計算棘手的概率的難題

缺點:

  • 難訓練,不穩(wěn)定。生成器和判別器之間需要很好的同步,但是在實際訓練中很容易判別器收斂,生成器發(fā)散。兩者的訓練需要精心的設計。
  • 模式缺失 (Mode Collapse) 問題。GANs 的學習過程可能出現模式缺失,生成器開始退化,總是生成同樣的樣本點,無法繼續(xù)學習。

擴散模型 Diffusion Model

擴散模型是一種新型的生成模型,可生成各種高分辨率圖像。在 OpenAI,Nvidia 和 Google 設法訓練大模型之后,它們已經引起了很多關注?;跀U散模型的示例架構包括 GLIDE,DALLE-2,Imagen 和完全開源的穩(wěn)定擴散。擴散模型已經擁有了成為下一代圖像生成模型的代表的潛力。以 DALL-E 為例,能夠直接通過文本描述生成圖像,讓計算機也擁有了人的創(chuàng)造力。

擴散模型的生成邏輯相比其他的模型更接近人的思維模式,也是為什么近期 AIGC 擁有了開放性的創(chuàng)造力。本質上,擴散模型的工作原理是通過連續(xù)添加高斯噪聲來破壞訓練數據,然后通過反轉這個噪聲過程來學習恢復數據。訓練后,我們可以通過簡單地將隨機采樣的噪聲傳遞給學習的去噪過程來生成數據。

從下圖可以看到,擴散模型是一個潛在變量 (latentvariable) 模型,通過馬爾科夫鏈映射到潛在空間。馬爾可夫鏈是狀態(tài)空間中經過從一個狀態(tài)到另一個狀態(tài)的轉換的隨機過程,下一狀態(tài)的概率分布只由當前狀態(tài)決定。在這一過程中逐步添加高斯噪聲來獲得近似的后驗概率 q(? ! |?!”#),其中? # ……? ! 均是潛在變量,并且它們的維度與原圖?$ 一致。

從上圖中我們可以看到,圖片?$ 最終會變?yōu)榧兏咚乖肼暤膱D片?!。而訓練擴散模型 的目標則是反向這一過程,也就是訓練圖中所示的轉移概率?%(?!”#|?!)。通過沿著這條線向后遍歷,我們可以生成新的數據。

相比于其他模型,擴散模型的優(yōu)勢在于生成的圖像質量更高,且無需通過對抗性訓練,這使得其訓練的效率有所提升。同時,擴散模型還具有可擴展性和并行性。

擴散模型中添加的高斯噪聲是一種概率密度函數符合正態(tài)分布的函數,當 AIGC 運用擴散模型來生成內容的時候,是通過在一副純白的畫布 ( 隨機白噪聲 ) 上逐步去噪來生成最終的目標畫作。即用戶給出的文本描述形容詞,來從一個模糊的概念逐步具象。我們可以簡化為多個正態(tài)分布函數的疊加,模型選擇其中重疊的區(qū)間輸出,這也是一個逐步縮小范圍的過程。這與人類的思維模式很類似。

簡言之,在 AI 訓練階段,我們將數據集中上億組圖文對進行訓練,提取特征值;生產過程中,通過添加文字描述,引入不同的特征值進行去噪,從而生產一副 AI 理解下的內容作品。例如,在當我們在腦海中想象一個畫面的時候,比如:一只柯基通過一個小號玩火焰。我們的思維模式也是先有一只柯基,再去想象小號和火焰,最后將這些元素疊加在柯基身上。

簡述完原理以后,我們可以通過目前非常先進的 AI 圖像生成應用 DALL-E2 來舉例闡述具體的工作過程:

  • 將文本提示輸入到一個經過訓練能夠將提示映射到表示空間的文本編碼器中;
  • 通過一個被稱為「先驗」(Prior)的模型,將文本編碼映射到圖像編碼 器中。這一圖像編碼器會捕獲文本編碼包含的信息和語義;
  • 圖像編碼器隨機生成一個圖像,這一圖像是該語義信息的視覺表現。

這一個過程和人類的思維模式相似。在生成的過程中,涉及到了文本編碼器這一概念,目前主流的文本編碼器是來自于 OpenAI 的 Clip 模型,其通過 4 億組文字 – 圖片對進行訓練。當然,其中的模型訓練都是基于英文實現,語言的區(qū)別又會給 AIGC 帶來另一重挑戰(zhàn)。

除了上述提到的自然語言處理技術和 AIGC 生成算法模型以外,超級計算機和算力這些硬件作為基礎設施也是不可或缺的。在機器學習的過程中,需要通過大量的訓練來實現更準確的結果,這樣的計算量普通的電腦是無法完成的,目前主要由英偉達 A100 構建的計算集群完成,而國內外的初創(chuàng)企業(yè)也會通過云實現。

2.3當我們開始用 AIGC——商業(yè)模式的探索

AIGC 已被廣泛應用在文字、圖像、音頻、游戲和代碼的生成當中,一些較早創(chuàng)立的企業(yè)已經實現了較好的商業(yè)化。尤其在一些具備高重復性的任務、對于精度要求并不那么高的領域應用較為成熟。隨著 AIGC 技術的發(fā)展,其適用面將會逐漸擴大。這類 AIGC 服務的提供商大多數時候會以提供 SaaS 服務的形式變現。

文字創(chuàng)作

AIGC 生成文字目前主要被應用于新聞的撰寫、給定格式的撰寫以及風格改寫。其中,有一家成立還不滿兩年的獨角獸企業(yè) Jasper 在最新一輪的融資里獲得了 1.25 億美元資金,目前估值為 15 億美元。Jasper 成立于 2021 年,是一個 AI 內容平臺,允許個人和團隊利用 AI 來創(chuàng)作內容,多用于商業(yè)。用戶可以在借助 Jasper 生成具有豐富關鍵詞、搜索引擎優(yōu)化的原創(chuàng)博客,可以通過文字描述讓 Jasper 幫助完成文章的創(chuàng)作、創(chuàng)建廣告話術。通過 Jasper 用戶可以尋找創(chuàng)作思路、高效完成文案、突破語言壁壘,而不會存在抄襲的嫌疑。目前,Jasper 擁有 7 萬多名客戶,包括 Airbnb、Ibm 等企業(yè)。僅 2021 年一年便創(chuàng)造了 4000 萬美元的收入,今年預估收入為 9000 萬美元。

用戶可以通過輸入一段對于目標文章的描述或者要求,系統(tǒng)會自動抓取數據,根據我們描述的指令進行創(chuàng)作。作者本人進行如下實驗,輸入的描述為【寫一篇關于 AIGC 的文章,其中要包含 AIGC 的定義、發(fā)展史、應用、現階段發(fā)展情況和對于未來發(fā)展趨勢的看法,同時,要包含細節(jié)和舉例】。同時,在風格上我選擇了「專業(yè)性」。Jasper 很快就生成了一篇 AIGC 撰寫的 AIGC 文章(如下圖所示),可以看到這篇文章語義通順,按照我們給出的描述逐段闡述,并且包含了一些舉例,這個生成效果無疑會大幅度提升人類的寫作效率。

并且,在 Jasper 的網頁版 APP 上,還給出了數百種模板,可以根據需求更好的完成作品。

圖像創(chuàng)作

MidJourney 降低了藝術繪畫創(chuàng)作的門檻,用戶只需要通過輸入文字描述,計算機將會自動生成一張作品。其背后的邏輯在于計算機通過 NLP 識別語意并翻譯成計算機語言,結合后臺的數據集(這些數據集主要通過自有素材或機器人爬取公開版權的內容獲得),創(chuàng)作出一副全新的作品。這樣產生的作品原則上屬于 AI 創(chuàng)作,因此,在新聞媒體等平臺被廣泛使用,不僅減少了成本,同時避免了潛在的版權糾紛風險。除此以外,在抖音、微信等社交平臺上,已經有一些數據集圖庫博主通過 AIGC 創(chuàng)造素材并結合自己的私域流量進行商業(yè)變現。

近期,OpenAI 已經與全球最大的版權圖片供應商之一的 Shutterstock 達成深度合作,Shutterstock 將開始出售利用 OpenAI 的 DALL-E 生成的圖片,并禁止銷售非 DALL-E 生成的圖片,完成深度獨家綁定。

AIGC 除了大家熟知的生成繪畫以外,還可以利用這一功能完成文字和圖片的互相轉換,這在寫專利時可以被用到。

視頻創(chuàng)作

除了繪畫以外,AIGC 也能夠被運用在視頻創(chuàng)作中。Google 推出了 AI 視頻生成模型 Phenaki 能夠根據文本內容生成可變時長視頻的技術,在公布的 DEMO 中,Phenaki 基于幾百個單詞組成一段前后邏輯連貫的視頻只需兩分鐘。相比原有的 Imagen 基礎上衍生的 Imagen Video 瞄準短視頻,Phenaki 瞄準的是長視頻。AIGC 視頻中的運用,讓我們看到了未來虛擬人也能夠作為演員在影視劇中扮演不同的角色以提高內容產出的效率和多樣性。

音頻剪輯

AIGC 生成音頻早被應用于我們的日常生活當中。我們常用的手機導航,可以切換不同明星甚至于卡通人物的語音提示。這是通過提前請明星或卡通人物的配音朗讀完成一個語音庫,再通過反復的訓練學習使得可以用指定的聲音說出任何話。我們自己也可以通過高德地圖錄制自己的語音導航包。而更深層次的應用將會是虛擬人領域,AIGC 不僅可以生成虛擬人的聲音,并可以創(chuàng)造出說的內容。虛擬人在未來有望和我們一樣表達自己的想法,靈魂逐步顯現。

游戲開發(fā)

AIGC 在游戲當中的應用可以分為兩方面,一方面是用于場景和故事的搭建。開放世界游戲越來越受歡迎,通過 AIGC 來創(chuàng)建場景和 NPC 都將會大幅度提升效率和降低成本。另一方面,玩家可以通過 AIGC 的平臺工具來創(chuàng)建自己的虛擬人,可以用于游戲中的打金等活動。有一家叫做 Delysium 的游戲已經開始引入這一功能?;蛟S在未來的開放世界游戲中,不同的玩家將對應不同的游戲劇情和副本,這無疑將是令人興奮的應用。

代碼生成

GitHub Copilot 是一個 GitHub 和 OpenAI 合作產生的 AI 代碼生成工具,可根據命名或者正在編輯的代碼上下文為開發(fā)者提供代碼建議。官方介紹其已經接受了來自 GitHub 上公開可用存儲庫的數十億行代碼的訓練,支持大多數編程語言。

3. AIGC 的未來發(fā)展趨勢

AIGC 是 PGC、UGC 之后,全新的內容生產方式。不僅能提升內容生產的效率以滿足我們飛速增長的內容需求,也能夠豐富內容的多樣性。在 2022 年百度世界大會上,李彥宏提到了:「AIGC 將走過三個發(fā)展階段:第一個階段是『助手階段』,AIGC 用來輔助人類進行內容生產;第二個階段是『協(xié)作階段』,AIGC 以虛實并存的虛擬人形態(tài)出現,形成人機共生的局面;第三個階段是『原創(chuàng)階段』,AIGC 將獨立完成內容創(chuàng)作。未來十年,AIGC 將顛覆現有內容生產模式,可以實現以十分之一的成本,以百倍千倍的生產速度,去生成 AI 原創(chuàng)內容。」

3.1 AIGC 面臨的挑戰(zhàn)

技術上來看,雖然當前生成的圖片、文字已經可以用以商業(yè)用途,但還存在一些問題使得無法滿足較高的質量要求。我們可以發(fā)現在二次元或抽象的圖片生成中,AIGC 的表現較好。但對于比較具體和細節(jié)的內容,生成的效果不盡如人意。

下圖是筆者通過 AIGC 生成的一副「美女與布偶貓」的圖片,從這一張圖片我們可以發(fā)現有兩個問題:

  • 其中有兩幅圖片的貓咪眼睛很奇怪,在這些細節(jié)描繪上還無法和真人畫師媲美。
  • 輸入的關鍵詞是「美女」與「布偶貓」,但是生成的「美女」均長著一張貓臉,從這里反映出 AIGC 繪畫會出現一些空間位置以及數量上的偏差。產生的原因主要還是來源于語義理解和處理上的問題。

與此同時,參考上文中的圖表 23,我們可以發(fā)現不同的應用平臺,輸入幾乎一致信息點的文本,生成的圖片的質量和內容差距是巨大的。

那么造成以上的這些問題和差距的原因在哪里呢?我們依舊可以從 AIGC 的工作原理上來分析:

  • 自然語義的理解在處理一些空間關系上還存在一定的誤差,這也是為什么在空間位置、數量上存在不精確的問題。
  • 目前文本生成圖像時,需要用到文本編碼器將文字映射到圖像上。當前主流的、訓練完善的是來自與 OpenAI 的 Clip 模型,其函數是開源的,但訓練的數據集是封閉的。AIGC 需要大量的良好畫質的文本 – 圖片對才能訓練到 Clip 這樣的程度。從 Clip 本身公開的信息來看,它使用了超 4 億個文本 – 圖片對來完成訓練,這些都是基于英文的。那么存在以下幾個問題:1、億級別的高質量的文本 – 圖片對在于其他的語言上獲得的難度大幅提高,這也是為什么目前大多除英語外的其他語言的 AIGC 都是需要在整個流程前增加一步翻譯。這一步不但涉及語義理解,還包含了文化、語言習慣等潛在的因素,很難被精確翻譯,對于翻譯模型的挑戰(zhàn)很大。2、Clip 的模式很難復刻,即使運用 Clip 開源的函數,基于不同的數據庫訓練出的結果不同。據我們了解,海外有團隊運用了 20 億的文本 – 圖片對才接近復刻了 Clip;
  • 運用的 AIGC 生成算法不同也會導致產生的內容的差距;
  • 數據集的質量、合規(guī)性、風格偏向都會決定生成的內容質量。

以上,我們可以看到若要使得 AIGC 生成的內容真正高效地被運用在商業(yè)層面,那么自然語言處理、翻譯模型、生成算法和數據集這些細分賽道都還有很大的進步空間。

3.2 未來的發(fā)展方向

在上文中,我們了解到從應用軟件方面,自然語言處理、翻譯模型、生成算法和數據集這些細分賽道都還有很大的進步空間。更深入地來看,以上這些的發(fā)展需要依托于算力、數據的支持。所以未來的發(fā)展重點將更著力于大模型、大數據和大算力的方向去發(fā)展。同時,為了讓功能更加精確,將會更多地去開發(fā)一些垂直類的應用,畢竟垂直類的應用可以更有針對性地為特定功能進行訓練,成本相對較低。

投資策略:AIGC 的軟硬件與數據集

從 PGC 到 UGC 再到 AIGC,AIGC 能讓人類突破內容生產力枷鎖,高效率生成高質量內容,讓人類進入到真正的元宇宙之中。若要 AIGC 能夠滿足元宇宙的需求,獨立完成高質量、高精度的內容,AIGC 技術層面還需要一定的發(fā)展,我們可以分為軟硬件兩個維度看,軟件層面主要包括自然語言處理技術、AIGC 生成算法模型和數據集,硬件層面主要是算力、通信網絡。

從業(yè)務層面看,結合國內外發(fā)展情況,目前在 AIGC 的知識產權歸屬方面尚有法律空缺,且創(chuàng)作倫理問題也未得到有效解決,因此無論是技術還是商業(yè)層面,高質、干凈的數據集對于模型訓練及內容生成均有至關重要的影響。同時,隨著 AIGC 逐步落地,其算力需求將大增,未來相關企業(yè)除用云計算之外,或組建自有算力集群,考慮到英偉達 A100、H100 出口受限,相關國產算力芯片將有機會獲得增量市場。

從主題投資的角度看,區(qū)塊鏈、元宇宙、Web3 均描述了數字經濟時代中宏大的應用場景,而去年被資本市場關注的虛擬人、NFT 等只是其中的具體應用之一。我們認為,AIGC 將是推動數字經濟從 Web2 向 Web3 升級的重要生產力工具:一方面,其對現有的殺手級應用——短視頻、游戲等具有顛覆式影響,或進一步擴大內容量、提高成癮性,同時對社交和廣告提供新的工具;另一方面,Web3 開放、共建的價值觀下,UGC、AIGC 的內容會更具吸引力,二次創(chuàng)作、開放想象的浪潮將來臨。目前 AIGC 已成為硅谷最新熱門方向,國內一級市場、互聯(lián)網大廠等對 AIGC 應用關注度也在快速提升中。

風險提示

技術創(chuàng)新不及預期:AIGC 的技術發(fā)展不及預期。以及底層硬件技術,如:超級計算機、算力的發(fā)展不及預期。

政策監(jiān)管風險:目前 AIGC 還處于相對早期,后續(xù)是否會出臺 AIGC 作品相關知識版權或其他法律監(jiān)管條款尚不明確。

本文節(jié)選自國盛證券研究所已于 2022 年 11 月 13 日發(fā)布的報告《國盛區(qū)塊鏈 |AIGC__Web3 時代的生產力工具》,具體內容請詳見相關報告。