2024生成式AI圖像模型年報

2025-02-20 00:00:00羅霄趙伯祚

藝術學研究 2025年1期

生成式AI在2023年呈現井噴式發展態勢，而在2024年，其發展的最顯著特征則在于實現了跨領域的廣泛應用。商業AI工具的高質量與便捷性，結合開源AI模型在各類復雜工作流程中的深度整合，使AI技術從專業人員的研究對象轉變為各行各業不可或缺的日常工具。另一個顯著特征是國產AI模型的崛起。2023年，行業關注度主要集中在國際巨頭身上，以Midjourney、DALL·E（OpenAI）、Stable Diffusion為代表的圖像生成工具及專注于視頻生成的Runway都表現出色，在大語言模型領域則以ChatGPT和Claude最令人矚目。而2024年，國產AI繪畫工具呈現百花齊放之勢，在視頻領域，可靈、Vidu、海螺、豆包PixelDance等新興產品與老牌Runway形成競爭之勢；更值得關注的是，豆包、元寶、Kimi等大語言模型展現出更為廣闊的發展前景。

本文將聚焦視覺藝術與設計領域，系統梳理2024年生成式AI圖像模型及相關工具的發展歷程。

1月

Midjourney在2023年12月發布V6 Alpha版后，在2024年持續優化，提升了圖像的美觀度、連貫性和放大質量。同期，Midjourney針對動漫類圖像優化的Niji-Journey也發布了V6版本（圖1）。

Google發布的視頻生成模型Lumiere采用創新的空間—時間架構（Space-Time U-Net architecture），能夠一次性生成整個視頻，Lumiere在時間連貫性和物理場景一致性方面表現出色，能支持文生視頻、圖生視頻等多種模式。

InstantX團隊（來自小紅書）開發的InstantID模型實現了一項技術突破：僅需輸入單張面部圖片，即可生成多樣化的風格圖像，同時還能保持較高的身份特征保真度（圖2）。這一成果顯著簡化了傳統工作流程。在此之前，類似功能的實現通常依賴于Textural Inversion、DreamBooth或LoRA等模型訓練方法，需要收集充足的數據集并經過較長時間的訓練過程，才能獲得經微調的模型以生成風格化圖像。InstantID通過創新性地設計IdentityNet架構，采用強語義約束與弱空間約束相結合的方式，將面部特征圖像與地標信息及文本提示有機整合，從而指導圖像生成過程。這種方法省略了繁瑣的模型訓練環節，在性能和效率方面展現出顯著優勢。

在工具生態方面，Stable Diffusion的兩大主要圖形界面WebUI和ComfyUI分別代表傳統軟件風格和節點式風格，持續為創作者提供便捷的創作環境。

在國內，大部分Stable Diffusion WebUI用戶使用的是由秋葉（秋葉aaaki）定制的WebUI整合包，它打包了Stable Diffusion WebUI運行所需的軟件環境，開箱即可使用，降低了手動安裝帶來的復雜度，適合新手使用。2024年1月，秋葉首次發布了ComfyUI整合包。

2月

本月，Stability AI相繼發布了兩款重要模型。首先是Stable Cascade模型，它采用創新的三階段級聯架構，有別于傳統的Stable Diffusion系列。該模型專注于高質量、高分辨率圖像的生成，盡管算力消耗較高，但在高精度、高細節圖像創作方面表現卓越。緊隨其后，公司發布了Stable Diffusion 3的早期預覽版，這是該系列功能最強大的文生圖模型，在多主題提示詞理解、圖像質量和文本拼寫能力方面均實現了顯著提升。在視頻生成領域，Stability AI還開啟了Stable Video Diffusion網站的公測。

2月最引人矚目的事件是OpenAI發布了Sora模型。該模型致力于通過人工智能理解并模擬物理世界的動態特性，由此生成時長達1分鐘的高質量視頻內容，并能準確響應用戶的文本提示（圖3）。盡管本月僅發布了演示視頻系列，但Sora在圖像質量、時序連貫性、動作幅度和穩定性等方面的卓越表現，顯著超越了同期同類模型，有效解決了AI視頻生成領域的諸多技術難題。這一突破性進展與ChatGPT首次發布時的影響力相似，迅速引發全球關注，甚至促使學界探討其作為“世界模擬器”的潛在意義。

在AI圖像工具領域，ControlNet的開發者lllyasviel（張呂敏）基于現有版本開發并發布了新一代Stable Diffusion WebUI，并將其命名為Stable Diffusion WebUI Forge。該版本在資源管理方面實現了顯著優化，不僅大幅提升了運行性能，還簡化了Stable Diffusion生態系統中各類模型算法的實現過程。這些優化為后續的技術發展奠定了基礎，使得2024年新推出的更為先進的Flux模型能夠率先在WebUI Forge平臺上得到支持和實現。

Deforum是早期首個基于Stable Diffusion模型的視頻生成工具，也有在WebUI中的擴展版本。2月Deforum推出了無需安裝便可以在線直接使用的Deforum Studio。2024年上半年國內AI視頻初火，一些具有所謂“AI瞬息全宇宙”效果、尤其在央視頻和各地方融媒體上出現的一系列AI文旅宣傳片，很多鏡頭都是用Deforum制作的。

3月

Midjourney在本月推出角色一致性（Character Reference）功能，實現了同一角色在不同圖像中的固定表現（圖4）。這一功能雖然在Stable Diffusion生態中早已存在（通過模型訓練、IPAdapter或InstantID等方式實現），但Midjourney的實現方式更加便捷，提升了用戶體驗。

Stability AI本月發布了多項重要更新：首先推出了TripoSR，這是一種快速的三維物體重建模型，能由單張圖片生成高質量的三維模型；其次公開了Stable Diffusion 3的研究論文，揭示了其采用MMDiT（多模態擴散Transformer）架構的技術細節，該架構使用獨立權重分別處理圖像和語言，并結合三個文本編碼器，在視覺美學、提示詞遵循和排版方面均有顯著提升；最后發布了Stable Video 3D，這是一種基于Stable Video Diffusion的三維生成模型，相比2023年12月發布的Stable Zero123，在生成效果的一致性和泛化性方面表現更優。

OpenAI繼續深化對Sora的應用探索，與視覺藝術家、設計師、創意總監和電影制作人密切合作，推出了名為“第一印象”（First Impressions）的作品系列，再次展示了其卓越的技術實力。

4月

Adobe在2024美國國際廣播電視展（NAB Show）上展示了Premiere Pro的重要更新，通過集成Runway和OpenAI Sora等第三方視頻生成模型，大幅拓展了媒體創作的可能性。這一集成使得創作者能夠在Premiere Pro中直接使用AI視頻生成功能，為專業視頻制作帶來了革命性的變化。

國產視頻大模型領域迎來重要突破，生數科技聯合清華大學發布了中國首個高性能視頻大模型 Vidu。該模型具備視頻時間長、畫面一致性好、高動態性等特點，能夠模擬真實的物理世界，支持多鏡頭生成，是繼Sora發布后迅速跟進的重要國產成果。

字節跳動在4月提出了Hyper-SD，這是一種創新的軌跡分段一致性模型。該模型最大特點是能夠快速生成高質量圖像，在SDXL和SD1.5兩種架構下，僅需1至8步就能生成頂級質量的圖像（圖5）。由于生成速率極快，該技術甚至可以用于接近實時的繪畫創作，為交互式AI藝術創作提供了新的可能性。

5月

Google在2024 I / O大會上發布了兩款重磅產品：圖像生成模型Imagen 3和視頻生成模型Veo。Imagen 3作為Google最高質量的文本轉圖像模型，能夠生成具有更精細細節、更豐富光線和更少干擾偽影的圖像。Veo則是針對OpenAI Sora的競爭產品，支持生成高質量、1080p分辨率、時長超過一分鐘的視頻，并具有多種電影和視覺風格。

近兩年在“AI繪畫”領域，Stable Diffusion（1.5與XL版）幾乎是開源圖像模型里的唯一選擇。5月，騰訊開源了他們的混元DiT文生圖大模型（圖6），該模型是一種高性能細粒度中文理解多分辨率擴散Transformer模型，基于全新的DiT架構，與Sora、Stable Diffusion 3相同。開源后的混元DiT模型甚至可以在以前由Stable Diffusion模型專屬的WebUI、ComfyUI等工具中使用。這一舉措不僅豐富了開源生態，也為中文環境下的AI創作提供了新的選擇。

6月

Stability AI在本月正式發布了Stable Diffusion 3 Medium版模型（此前僅發布過相關論文）。該模型能生成具有出色細節、色彩和光照效果的圖像，不僅實現了照片級的真實感，還支持多種靈活風格的高質量輸出。模型成功解決了以往版本的常見缺陷，特別是在手部和面部的真實感呈現方面表現出色。在理解力方面，模型能夠準確理解涉及空間推理、構圖元素、動作和風格的長篇復雜提示詞。通過采用DiT架構，模型實現了前所未有的圖文質量，顯著減少了圖像中文字的拼寫、字距調整、字母形成和間距方面的錯誤。此外，模型的整體性能得到提升，更加適合定制化微調訓練。

6月，在AI視頻領域也有重要突破。國產AI視頻大模型繼續發力，快手發布了對標Sora的視頻生成模型“可靈”（Kling）。該模型采用與Sora類似的DiT架構，并結合多項自研創新，在運動幅度、一致性、物理世界模擬以及多種尺寸比例等方面均實現了大幅提升。可靈發布后在國內外均獲得了廣泛關注，繼首次發布文生視頻功能后，本月又推出了圖生視頻功能。

Luma AI發布的視頻模型Dream Machine同樣支持文本提示和圖像提示，能夠生成高分辨率的、符合美學風格和物理運動規律的視頻。

視頻生成領域的領軍企業Runway也在本月發布了Gen-3 Alpha版。作為Runway下一代基礎模型中的首個版本，它在全新構建的大規模、多模態訓練基礎設施上進行訓練。與Gen-2相比，新版本在保真度、一致性和運動表現方面都有了顯著改進（圖7），向構建通用世界模型邁出了重要一步。值得注意的是，Runway Gen-3在訓練過程中特別組建了由工程師、科學家和藝術家組成的跨學科協作團隊，旨在更好地詮釋電影術語及各種藝術風格。

7月

Stability AI的聊天機器人產品Stable Assistant本月推出新功能。基于Stable Diffusion 3的最新圖像生成技術Stable Image Ultra，該產品提供了多樣化的圖像編輯工具，包括圖像分辨率提升和基于圖像的視頻生成功能。該產品的核心功能包括：（1）搜索和替換：允許用戶在上傳的圖像中指定對象并無縫替換（圖8），這對需要在保持整體構圖的同時修改視覺效果的創意專業人士尤為實用。（2）保持構圖：在保持輸入圖像結構的同時支持高級內容創建，如場景重建或模型角色渲染，確保生成圖像嚴格遵循預設結構參數。（3）草圖轉圖像：將手繪草圖轉化為精致圖像，實現對最終效果的精確控制；對非草圖圖像，可通過輪廓線和邊緣進行細節操作。

同時，Stability AI推出了用于動態多角度視頻生成的Stable Video 4D。該技術能將單一對象視頻轉換為8個不同角度的多視圖視頻，僅需一次推理即可在約40秒內生成8個視圖的5幀內容。用戶可自定義攝像機角度以滿足特定創意需求。該模型目前仍處于研究階段，未來有望應用于游戲開發、視頻編輯和虛擬現實領域。

Midjourney在7月底發布6.1版模型。新版本在多個方面實現突破：圖像內容連貫性顯著提升，特別是在手臂、腿、手、身體、植物、動物等細節表現方面；圖像質量大幅提升，減少像素偽影，增強紋理和皮膚效果；小型圖像特征更加精確細致；圖像放大器質量提升；整體性能改進；文字準確性進一步提高。

快手除了備受關注的視頻生成模型“可靈”，本月還開源了圖像生成大模型“可圖”（Kolors）。該模型基于數十億圖文對數據集訓練，在視覺質量、復雜語義理解和圖像文字生成等方面表現優異，并支持中英雙語，對中文語境和中國文化創作更加友好。“可靈”模型本月更新增加了多項控制參數：可調節視頻內容與提示詞的符合程度，增加運鏡控制功能，支持負提示詞設置，并在圖生視頻環節加入首尾幀控制功能，這項功能尤其實用，可用于實現多段視頻內容的連接（圖9）。此外，快手發布了LivePortrait技術，這是一種基于拼接和重定向控制的高效率肖像動畫技術。通過輸入面部表情視頻和肖像照片（含繪畫），可實現視頻驅動肖像動畫，甚至支持人類表情驅動動物肖像的創新應用。

8月

本月最引人注目的是開源圖像大模型生態的重大更新—Flux的發布。由前Stability AI核心成員Robin Rombach創立的黑森林實驗室（Black Forest Labs）開發的Flux，其圖像生成效果已達到可與Midjourney媲美的水平。本月發布的FLUX.1文生圖模型套件在圖像細節、提示詞遵循、風格多樣性和場景復雜性等方面展現了領先水平。為平衡可用性與功能性，FLUX.1推出3個版本，FLUX.1 [pro]：作為最優版本，在提示詞遵循、視覺質量、圖像細節和輸出多樣性方面表現卓越；FLUX.1 [dev]：面向非商業應用的開放權重導向蒸餾模型，直接從pro版本提煉，保持相似質量，可在24G顯存顯卡（3090、4090）上穩定運行；FLUX.1 [schnell]：遵循Apache 2.0許可協議，專為本地開發和個人使用優化的高速版本。Flux在圖像精細度方面表現突出，支持復雜提示詞，能靈活定制圖像細節。雖未能實現完全精確，但相比此前的Stable Diffusion XL等開源模型，提示詞遵循性有顯著提升。

盡管核心人員離職并發布了Flux，Stability AI仍保持創新勢頭，推出了Stable Fast 3D。該技術僅需0.5秒即可從單幅圖像生成高質量3D圖像。基于TripoSR架構改進，該模型特別適用于游戲、虛擬現實開發以及零售、建筑、設計等圖形密集型行業。

Ideogram AI發布的Ideogram 2.0展現了業界領先的文生圖能力，其在生成逼真圖像、圖形設計和排版方面表現優異。新版本支持靈活的圖像樣式控制和任意縱橫比，顯著提升了真實感和文本準確性，尤其適合賀卡、印刷品、海報等設計需求。

智譜開源了CogVideoX系列視頻生成模型，支持文生視頻、圖生視頻和視頻轉繪等功能，豐富了開源視頻模型生態。

阿里云發布新一代視覺語言模型Qwen2-VL，基于千問Qwen2打造而成。該模型在視覺內容理解方面表現突出，可處理不同分辨率和長寬比的圖片，支持20分鐘以上長視頻的理解，并具備多語言圖像理解能力。

8月末，MiniMax公司在其海螺AI平臺推出視頻生成模型abab-video-1，支持文生視頻功能，特點是實現2K高分辨率和25fps高幀率輸出。

9月

Runway Gen-3 Alpha推出視頻生成視頻（又稱視頻風格化、視頻轉繪、Video to Video）功能。雖然該功能在2023年Runway Gen-1就已推出，但當時效果欠佳，市場上的視頻轉繪方案主要依賴開源的ComfyUI結合AnimateDiff模型實現。此次Runway Gen-3 Alpha作為領先的商業視頻模型，顯著提升了視頻轉繪質量。用戶只需上傳源視頻，提供美學方向的提示詞或從預設樣式中選擇，即可獲得優質的轉繪效果。

Adobe發布了Firefly Video模型預覽，展示的樣例視頻效果出眾，該模型將于近期正式發布。

阿里云推出通義萬相視頻生成模型，具備文生視頻、圖生視頻功能。該模型在概念理解與組合生成方面表現突出，特別優化了中式元素的表現，并支持多語言輸入和可變分辨率輸出。

字節跳動發布兩款豆包視頻生成模型：PixelDance和Seaweed（圖10）。其中，PixelDance以精準的提示詞響應見長，支持在單個視頻中生成多個鏡頭，適合復雜劇情敘事創作；Seaweed則在動效合理性和運鏡自然度方面表現優異，更注重視覺表現力。

快手“可靈”發布1.5版模型，實現1080P高清視頻直接輸出，在畫面美感、運動合理度和文本響應度等方面均有提升。

10月

Pika在沉寂多時后發布PIKA 1.5版本。作為2023年曾與Runway并駕齊驅的視頻模型廠商，其此次更新的特點是實現了更逼真的動作表現、大屏幕鏡頭效果，以及一系列突破物理定律的特效，其中“充氣”特效一度引發熱議（圖11）。

Meta發布Meta Movie Gen系列模型，集成了文生圖、文生視頻、圖生視頻、個性化視頻、視頻編輯等功能。該模型視頻編輯功能支持通過提示詞直接修改視頻中的具體元素，如外觀或背景；個性化視頻功能則允許用戶通過提示詞和單張照片生成個性化視頻內容。

Adobe在全球創意大會Adobe MAX 2024上正式發布Firefly Video Model，并將其集成至旗下視頻剪輯工具Premiere Pro中。

Runway推出表情驅動功能Act-One。雖然類似功能在業界并不罕見，但Runway憑借頂級的效果質量和獨特視角脫穎而出。該功能允許用戶自主表演來驅動目標角色，結合Runway Gen-3 Alpha強大的視頻轉換能力，特別適合制作需要復雜分鏡、豐富表情和多角色互動的敘事型短劇。用戶甚至可以實現一人分飾多角，通過單個演員和攝像機設置生成多機位對話場景（圖12）。

愛詩科技發布PixVerse V3版本視頻生成大模型，在底層模型能力、提示詞遵循度和視頻質量方面均有顯著提升，并提供創意模板支持多模態視頻生成。

靜態圖像領域，Midjourney推出在線圖像編輯器和紋理重構（retexturing）功能。編輯器支持圖像上傳、擴展、裁剪、重繪及場景內容修改，實現設計與藝術創作的深度融合。紋理重構功能可估計場景形狀并重新渲染紋理，效果類似Stable Diffusion的ControlNet。

Black Forest Labs發布FLUX 1.1[pro]版，生成速度較前代提升六倍，同時改進了圖像質量、及時性和多樣性。

Stability AI在經歷公司高管變動、核心成員出走并推出強力競爭對手模型Flux后，本月強勢歸來，發布了Stable Diffusion 3.5。該開放版本包含3個可定制模型變體，Stable Diffusion 3.5Large：81億參數的頂級基礎模型，適合百萬像素級專業應用；Stable Diffusion 3.5 Large Turbo：Large 版本的精簡版，4步即可生成高質量圖像；Stable Diffusion 3.5 Medium：25億參數的平衡版本，采用 MMDiT-X 架構，適合消費級顯卡使用。這些模型的大小可進行高度定制，可在消費級顯卡上運行，并且在寬松的 Stability AI 社區許可下可免費用于商業和非商業用途。可從Hugging Face下載所有 Stable Diffusion 3.5模型，并在GitHub上下載推理代碼。

ControlNet作者lllyasviel（張呂敏）推出基于Flux的IC-Light V2光照模型，支持保留輸入圖像細節的同時進行光照、陰影修改，并實現原生高分辨率輸出。

開源圖像模型生態的創作軟件ComfyUI本月推出了有史以來最重磅的版本更新V1版。該版本發布了完整桌面安裝包，跨平臺支持Windows/macOS/Linux，具備自動更新功能，以及更多細節功能，直接解決新手最大的痛點：環境安裝與部署。用戶界面也做了全新的設計，還提供Comfy節點注冊表（CNR），類似Web開發生態中的軟件包管理器NPM，目標是創建更安全、更穩定的ComfyUI自定義節點用戶體驗。

11月

Runway持續為影像創作者提供更多創作想象力，在視頻生成功能的基礎上推出了更高級的鏡頭控制功能。同時，Runway新增視頻擴展功能，支持將小幅畫面擴展為更高分辨率和不同尺寸比例的畫面。此外，11月下旬，Runway推出了Frames圖像生成模型。這是一種提供前所未有風格控制的模型，在風格控制和視覺保真度方面取得了顯著進步，幫助創作者構建更具審美特征和細膩細節的靜態圖像內容。

2024年早些時候刷屏的Sora又在11月引發關注，但引發關注的問題并非來自OpenAI官方，而是起因于民間“泄露”事件。一封公開信顯示，參與Sora早期測試活動的一批受邀藝術家和創意合作伙伴認為，OpenAI通過該測試活動將特邀藝術家視為“無償免費漏洞測試員、公關傀儡和訓練數據來源”。數百名藝術家參與了測試計劃，免費貢獻作品和實驗測試，但僅有少數人的作品通過競賽形式得以公開展示。對此，一些藝術家將Sora的測試API（接口）公開至huggingface網站，向所有人開放使用。然而，公開信發表后，API很快失效，無法繼續使用，但仍有部分通過API制作的視頻Demo流出。無論事件本身的真實性如何，這一案例確實反映了當前AI模型廠商的主流運營方式。包括國內廠商在內，幾乎每家在發布新版本時，都會召集創作者社群，開展模型試用和創作獎勵活動，以快速收集一手使用反饋并積累種子用戶。各廠商的獎勵機制和實際運營策略有所不同，而從創作者的角度來看，更期待這種合作能成為雙贏的良性循環。

可靈1.5版本新增了運動筆刷、運鏡控制和圖生視頻首尾幀功能。同時推出的人臉模型功能可確保視頻中人臉ID的一致性。根據創作者社群的測試反饋，可靈在國產視頻模型中的綜合能力處于領先地位。在靜態圖像生成領域，可靈推出了AI試衣功能，并能結合視頻模型生成試衣效果的動態展示。

3D圖形生成方面，騰訊混元開源了Hun-yuan3D-1.0模型。作為首個同時支持文生和圖生的3D開源模型，進一步豐富了國內開源生態。

字節跳動發布的新模型SeedEdit支持通過提示詞直接編輯圖像，用戶只需一句話即可實現內容替換、風格變換等操作。值得注意的是，類似功能此前已在Stable Diffusion開源生態的ControlNet 1.1 Instruct Pix2Pix中出現。

作為圖像模型第一梯隊的Flux，在11月推出了FLUX.1 Tools工具集。在已具備頂級圖像生成質量的基礎上，這套工具集的功能類似于Stable Diffusion的ControlNet擴展，使Flux能夠在復雜設計場景中實現更廣泛的應用。FLUX.1 Tools包含以下組件，FLUX.1 Fill：基于Inpaint技術，提供局部重繪和擴圖功能；FLUX.1 Depth：Flux官方版本的ControlNet深度模型；FLUX.1 Canny：邊緣檢測模型；FLUX.1 Redux：支持通過提示詞改變圖像風格。

面對Flux的強勁攻勢，Stability AI迅速做出回應，為Stable Diffusion 3.5 Large推出了ControlNet模型，同樣致力于圖像深度定制場景的應用。

12月

12月初，斯坦福大學教授李飛飛公布了她的空間智能項目，通過單張圖片和一句提示詞就能生成可交互的3D空間（圖13）。

騰訊混元系列繼續開源，這次是視頻生成模型HunyuanVideo，其能夠基于文本描述自動生成高質量的視頻內容。該模型采用了深度學習與大規模數據訓練，支持多種風格和場景的創作，使得視頻制作更加便捷與智能化。

字節跳動的“即夢”AI全新繪圖模型V2.1更新了中文海報生成工具，旨在通過AI技術簡化視覺創作過程。該模型基于深度學習，能夠根據用戶提供的文本描述，自動生成精美的中文海報設計。V2.1版本在細節處理和視覺效果上進行了優化，提升了圖像的藝術性與表現力，特別適合廣告、活動推廣和品牌宣傳等場景。即夢AI繼而更新了視頻生成中的對口型功能，只要準備一張照片和一段語音，就能用語音去驅動視頻說話。也可以打字選擇不同的音色來生成語音控制圖片嘴形。

OpenAI的Sora正式上線，核心功能包括文生視頻、圖生視頻、視頻生視頻等，支持多種視頻風格設定，可滿足不同需求。高級功能包括故事板功能、混音與編輯、視頻混合等。Sora的費用包含在現有OpenAI Plus或Pro訂閱中，無需額外付費。

Google發布AI視頻模型Veo 2和AI繪圖模型Imagen 3改進版本，標志著其在多模態生成技術上的進一步突破。Veo 2是一款先進的視頻生成模型，能夠根據文本描述自動生成高質量的視頻內容。與前一版本相比，Veo 2在生成速度和視頻細節上都有顯著提升，支持更復雜的場景轉換與動態內容生成，能夠處理更長時間的視頻輸出，并在視覺效果上做到了更加真實與流暢。Imagen 3則是Google推出的AI繪圖模型的改進版本，專注于提升圖像生成的精度與藝術表現力。該版本在生成質量、細節處理和風格適應性方面進行了多項優化，支持更加復雜的創作需求，尤其是在細致圖像生成和人物表情描繪方面表現突出。Imagen 3可以更好地理解自然語言，根據用戶指令創作出更具個性化與創意的圖像。

Midjourney新推出的情緒板功能（Mood-boards）為用戶提供了一個創新的工具，幫助他們通過聚合多個圖像、顏色、風格和元素，快速構建一個情緒板，從而更直觀地表達創作的情感基調和視覺風格。該功能簡化了創意過程，使設計師和藝術家能夠高效地整理靈感并確保創作方向的一致性，突破了單純依賴文字描述的局限。用戶可以上傳自己的圖片或選擇 Midjourney 生成的圖像，整合成統一的視覺概念，這也更便于團隊成員之間的協作與反饋。Moodboards 還提供多元化的模板選擇，適用于不同的創作需求，為設計和靈感的整合提供更多便利，相當于用戶也可以通過簡單的操作完成模型的訓練。

快手“可靈”上線的1.6版本模型對生成視頻和動畫的質量進行了提升，特別是在物理規律和人物動作的表現上。此次更新增強了模型對自然物理法則的理解，使得生成的視頻更加符合現實世界的重力、慣性等物理規律，提升了畫面真實感。此外，人物動作的流暢度和細膩度也得到了改善，能夠更加準確地模擬復雜的人體動作和表情變化，使得生成的內容更加生動和自然。在語意理解方面也有所增強，這種語義增強使得用戶在進行創作時，可以更加精確地表達意圖，生成的動畫和視頻場景能夠更好地捕捉語言中的細節和情感變化，提升了創作的自由度和內容的個性化程度。這些改進使得可靈模型在短視頻創作、動畫制作以及虛擬角色互動等領域的應用更加廣泛。可靈還上線了AI模特功能，為用戶提供了一個創新的虛擬模特創作工具，能夠根據用戶的需求自動生成和定制虛擬人物模型。這個功能可以通過簡單的文本描述或模板選擇，快速生成符合要求的虛擬模特，并且模特的姿勢、動作、服裝等都可以根據創作需要進行調整（圖14）。

12月底，PixVerse更新了3.5版本，引入一系列重要功能，增強了其在圖像生成、編輯和創作領域的能力。關鍵功能亮點包括極速視頻生成、動漫生成效果提升、首尾幀功能等。PixVerse V3.5為全球用戶帶來了更加豐富的創作體驗。

2024年被視為大語言模型和生成式AI圖像模型真正開始大范圍落地的關鍵節點。隨著算力、算法和數據規模的持續增長，這些前沿技術的應用領域已從實驗室和藝術家創作逐步擴大到更廣泛的產業和日常工作場景。它們不再僅僅停留于專業技術人員的實驗或藝術愛好者的探索，而是已經切實地融入營銷設計、內容創作、客戶服務、智能辦公等多種商業環節，顯著提升了生產效率。展望2025年，AI圖像模型將在各個垂直行業中被進一步深化應用。伴隨行業知識與AI算法的結合加深，從零售、制造業到醫療、教育等領域，都會出現更加豐富多樣且能解決實際問題的工作流方案。最終，這些深度融合的技術與場景會讓AI發揮出更穩定、更高效的價值，為產業數字化轉型注入新動力，也為人們帶來更便利、更具創造力的工作和生活方式。

責任編輯：楊夢嬌