張書 琛

meme是什么?學術解釋為一個文化的最小碎片,簡單通俗一點講就是一個詞組或者“一張梗圖”,其誕生總是基于某一群體的共同記憶,可以視作具有互動性的語言載體。那么meme這種流行文化產(chǎn)物是怎么跟文本圖像模型這一AIGC(人工智能生成內(nèi)容)熱門分支概念扯上關系的?
首先是因為共同的內(nèi)容基因,注定了兩者的相通。
此前沉寂已久的AIGC行業(yè),在去年下半年借著人工智能機器人Chat GPT火爆的關注度再度回到宇宙中心,而AIGC正是用于內(nèi)容自動化生成的技術集合。具體來看,AIGC有文字、圖片、數(shù)字人等類別,文字生成圖片正是其中之一,即用戶輸入一段描述文字,AI就能自動生成相應圖片;AI圖片二創(chuàng)也在短視頻平臺走紅,比如上傳隨意圖片,都可以再生成新的漫畫風格圖片;AI程序員與AI作者則是根據(jù)描述生成相應的編程、文章。
meme作為一種現(xiàn)代社交的必備數(shù)字產(chǎn)品,有著流通廣泛、新鮮度高的特性;而人工生產(chǎn)的產(chǎn)量有限,很難滿足普遍的社交需求,能利用AI這一更簡潔快速的方式合成各式各樣的表情包不失為一種解決之道。
其次,誰也沒想到商業(yè)落地難的AIGC 真的能在表情包上找到機會。今年年初,估值高達11億美元的美國社交獨角獸企業(yè)Live Awake推出了一款名為Memix的App,唯一的功能就是借助AIGC 技術將用戶輸入的文本合成特定主題的表情包或動圖,方便用戶一鍵分享至TikTok 等社交平臺。出乎意料的是,Memix上線不久就登上了美區(qū)iOS免費總榜的第一名,足見社交領域的需求之旺盛。
聽起來高大上的技術之所以能應用于尋常社交場景,離不開技術的進步。
無論是文字生成圖片還是文字生成代碼,背后的邏輯都是相似的——跨模態(tài)大模型。在這一模型中,AIGC 的誕生需要三個步驟:第一步是用戶在輸入端輸入自然語言,AI依靠文字模型理解、處理信息;第二步則是AI 在數(shù)據(jù)庫中找到相應素材;第三步,通過圖像編輯器,將找到的素材有邏輯地拼接在一起,生成指定內(nèi)容產(chǎn)品。
最早出現(xiàn)的AI 深度訓練模型是“對抗生成網(wǎng)絡”GAN,它有明顯的不足,即對輸出結果的控制力較弱、生成圖像分辨率較低以及難以創(chuàng)作出新圖像等。
直到2022年8月,英國公司Stability將當時最先進的AI 訓練模型Stable Diffusion完全開源,才大大降低了文字生成圖片的技術門檻。
技術論壇AI Summer的創(chuàng)始人Karagiannakos曾介紹,Diffusion作為一類新的訓練模型,不僅可以生成多樣化的高分辨率圖像,而且還能大幅降低計算量與計算時間,“由于其對硬件要求較低,非常適合初創(chuàng)公司用來建立自己的圖片生成平臺”。因此,才會有了之后國內(nèi)外圖文生成產(chǎn)品雨后春筍般出現(xiàn)的現(xiàn)象。
如今的文本生成圖片領域可以說是越來越卷,前不久谷歌剛剛發(fā)布了全新的Muse模型,號稱是這一領域最新的SOTA(state-ofthe-art model,目前最先進的模型)。

Muse根據(jù)文字“彩虹色的企鵝”生成的圖片
據(jù)該項目的官方介紹,Muse可以做到在FID(Fréchet inceptiondistance, 評估模型生成圖像質量的指標) 評分優(yōu)于Stable Diffusion、美國Open AI公司的圖文生成產(chǎn)品DALL-E2,甚至是Google自家產(chǎn)品Parti 以及Imagen的同時,在速度和效率上,也遠勝于以上產(chǎn)品。
官方數(shù)據(jù)顯示,在生成一張256×256的圖片時,Parti和Imagen 分別需要6.4秒和9.1 秒,在生成512×512的圖片時,Stable Diffusion需要3.7秒,但Muse卻可以做到0.3秒就生成256×256 的圖片,512×512的圖片也只需要1.3 秒。
盡管AI 文字生成圖像技術剛剛找到商業(yè)落腳點,距離成熟的商業(yè)化應用仍有距離,但監(jiān)管問題已經(jīng)隨之而來。
根本上講,AIGC的生成內(nèi)容仍然是靠事先輸入大量人類創(chuàng)作內(nèi)容,而相關企業(yè)普遍依靠公開資源進行AI 訓練,訓練數(shù)據(jù)庫帶來的版權糾紛和信息安全問題逐漸成為監(jiān)管難點。
Stable Diffusion曾發(fā)布聲明,表示其底層訓練數(shù)據(jù)集來源于公開網(wǎng)絡,目的就是普遍反映互聯(lián)網(wǎng)上的語言- 文字聯(lián)系,被收錄的藝術家根本無法拒絕。
市場需求尚未大規(guī)模爆發(fā),監(jiān)管問題又如同達摩克利斯之劍懸于頭頂,圖片生產(chǎn)領域的玩家想要活下去只靠meme可不夠。