AIGC背景下AI繪畫賦能圖書館發展淺析

2024-12-31 00:00:00王沁

參花(下) 2024年11期

AIGC技術的興起對圖書館發展帶來了影響，其中，以AI繪畫為代表的生成式技術賦予了圖書館業務發展更多的可能性。然而目前，圖書館行業雖積極關注AIGC技術的發展機遇，但對AI繪畫的應用卻很少涉及。基于此，本文將以AIGC與圖書館的關系作為背景，闡述AI繪畫技術的發展概況，并對當前三大主流AI繪畫模型工具進行分析，探討AI繪畫在圖書館管理與服務中的實踐應用及作用，以期為相關工作提供一定的理論指導。

一、Al繪畫與圖書館

人工智能（AI）是新一輪科技革命和產業變革的重要驅動力量，當前，我國已出臺《中國制造2025》《機器人產業發展規劃（2016～2020年）》《“互聯網+”人工智能三年行動實施方案》等規劃，旨在加速我國AI技術的研發和應用，促進AI與各個領域的深度融合，推動社會經濟高質量發展。在圖書館領域，學者吳建中連續三年提到AI，圖書館應緊跟技術潮流并通過新技術提升圖書館管理與服務的能級。上海圖書館館長陳超也提出，傳統圖書館應該逐步引入AI技術，并借助AI技術賦能效應，逐漸轉型成為智慧復合型圖書館。智慧圖書館和圖書館3.0代表了圖書館領域在數字化和人工智能發展方面的演進，智慧化的圖書館需要AI輔助館員解決眾多業務需求，但我們也要認識到，智慧圖書館需要結合一定的應用場景，進行精心的服務設計，才能應用這類技術為圖書館管理提供更好的智慧服務。

2022年是人工智能生成內容（AIGC）的元年。AIGC是指利用人工智能技術，通過分析和挖掘海量數據的規律和模式，生成豐富多樣的內容，如文字、圖像和音頻等，從而使機器實現從理解到創作的躍遷。其中，AI繪圖是AIGC技術的一個重要應用領域，它能根據文本描述生成圖像。隨著AI繪圖的發展與成熟，以往通常由人們完成的設計繪圖工作被人工智能所取代，因此，將AI繪圖引入圖書館業務，將給圖書館服務帶來創新性發展，館員的工作方式也將被重塑。

二、AI繪畫模型

（一）概況

目前實際應用最多的文本生成圖像模型工具主要有SD（Stable Diffusion）、MJ（Midjourney）和DALL·E3。SD模型基于潛在擴散模型將建模過程引向隱向量空間，可進行本地私有化部署，操作空間極高，可以根據輸入的參數生成高質量的圖像，可微調模型，生成特定形象部署后可API調用，該模型目前論文和代碼都已開源；MJ模型與SD的區別是MJ付費服務且不開源，因此在可控制性和延展性上會稍低一些。此外，雖然MJ生成的圖像藝術性最高，但對提示詞的寫法有一定的要求，而且提示詞對于出圖的質量影響較大，并且MJ操作空間較小，而且無法微調模型，也無法API調用。DALL·E3是OpenAI在2023年9月份發布的一個文生圖模型，其可以與ChatGPT結合，因此DALL.E3有著更低的使用門檻，通過簡單的自然語言描述，就能生成效果不錯的圖像，對于不擅長編寫提示的普通用戶來說，這一改進大大提高了使用效率，減少了提示詞的編寫。

（二）對比

三大模型各有優缺點，SD的優勢是開源，開源意味著免費，本地化使用不受賬號限制，但是自行部署不僅對網絡有極高的要求，對算力也需很強的顯卡才能支撐。另外SD參數設置較為復雜，生成圖像質量依賴模型，雖可以利用豐富的插件訓練模型、定制形象，如與LoRA等微調結合，經過不斷調試，能夠生成特定風格的圖片，但操作起來需要一定的技術背景和編程能力，上手難度極高。在簡單提示詞下，MJ生成的圖像藝術效果最好，可以用于設計等專業領域，適用于對審美要求較高的場景，但使用MJ需要有一定的創意頭腦。此外，MJ目前只有付費用戶才能使用，也存在提示詞的編寫門檻，只是難度比SD稍微低一些。DALL.E3雖然在生成復雜場景以及個性化定制場景上，生成效果稍遜于SD和MJ，但其與ChatGPT搭配使用，拉低了AI繪畫的使用門檻，擁有了廣泛的受眾群體。此外，DALL·E3具有語言理解上的優勢，對文本描述的細節表現也最為準確。

三、Al繪畫在圖書館發展中的具體應用實踐

隨著AI繪畫技術的不斷成熟，AI文生圖的應用空間得以擴展，AI繪畫可以代替設計出圖中的重復環節并提高出圖效率，它使得沒有美術基礎的普通用戶也可以享受到便捷有效的繪畫體驗。將AI繪畫賦能圖書館業務，可以極大增強館員的內容創造能力，提高工作效率，創新業務發展。在具體實踐中，館員可以根據活動需求利用AI繪畫生成活動宣傳圖，在做閱讀推廣的時候生成插圖，提高讀者的閱讀體驗，還可以生成各種活動的道具圖等。館員需根據不同的業務需求以及自身的知識背景來選擇不同的AI繪圖模型。由于考慮到經費和技術門檻，筆者選擇從DALL·E3入手。首先因為DALL·E3嵌入了ChatGPT.可以直接輸入自然語言，而且還支持中文，并不像其他模型使用起來那樣復雜。其次是圖書館大部分業務活動圖對藝術效果要求并不是很高，適用于一般場景，因此可以說，DALL.E3生成的圖片質量已經可以滿足圖書館的大部分業務場景。

下面筆者將以業務實踐案例做展示，測試AI繪畫如何賦能圖書館業務活動，提高活動策劃效率。以“中圖民樂夜·中秋閱”主題活動為例，使用AI繪畫繪制活動推送插圖、設計文創產品印章、海報等。

（一）推送插圖

首先是活動策劃環節，要為活動推送文章配一個簡單的氛圍插圖，因為主題是中秋，可以考慮設計一個嫦娥奔月的卡通形象，筆者直接輸入“畫一個嫦娥奔月，卡通可愛風格”進行創作，AI生成結果如圖1所示。

可以看出，當使用AI畫一些簡單的活動插圖時，用戶可以直接使用簡單的自然語言便可得到符合活動需求的繪畫作品，而且出圖速度非常快。

（二）Logo設計

為配合活動宣傳，筆者需要設計一個印章來為活動引流，筆者輸入“設計一個印章圖，以兔子、中國民族樂器為基本元素，能表現中秋氛圍的印章造型”進行創作，經過三次嘗試，生成的設計圖都過于復雜，與筆者想要的印章風格不符，于是筆者改用英文簡單的詞匯進行描述，輸入“logo，round seal shape。rabbit”進行創作，生成結果如圖2所示。

生成圖與筆者的預期風格相符，于是筆者嘗試加入“中國民族樂器”元素，輸入“logo，round seal shape， rabbit， Chinese national musicalinstruments”進行創作，生成結果如圖3所示。

（三）海報設計

以宣傳海報設計為例，筆者首先直接輸入“我想組織一場以中秋為主題的音樂會，名字叫‘樂爾中秋’，音樂會內容為‘奏中國民族樂器，唱中國古典詩詞’，請為這場音樂會設計一個主題海報。”AI生成的圖像雖具有一定的美學價值，但元素過于雜糅，且繪畫風格與筆者實際需求存在出入，于是筆者采用關鍵詞寫法來撰寫提示詞，經過幾輪嘗試發現，即使使用中文作為關鍵詞，但AI生成海報中的文字也并不是中文。另外，筆者根據活動需求繼續增加細節描述，如增加時間、主辦方、地點等，AI均無法達到筆者的預期要求。

四、AI繪畫在圖書館應用中的困境

AI繪畫的出現無疑為圖書館應用AIGC提供了有力的現實途徑。然而在實際操作中，結合筆者實踐，在圖書館業務中應用AI繪畫還面臨以下困境。

（一）智能程度依賴于人的介入

由于技術的限制，AI繪畫并未實現完全的人工智能，這就意味著AI繪畫在賦能圖書館業務發展的過程中，仍需館員的介入，館員對活動的認知、對自我的需求以及對文本的理解程度都會影響圖像的生成效果。由于各種因素影響，AI繪畫存在隨機性，在生成的過程中往往需要人機多次溝通與互動才能達到理想的效果，甚至會存在不成功的情況。因此，館員自身對提示詞的掌握是圖像生成是否符合活動要求的重要因素之一。另外，在海報設計中可以看出，現階段AI無法一次性完成對復雜海報的設計，還需要館員借助其他工具進行進一步加工，如在AI設計的圖片上增加字體、調整圖像結構，增減圖像元素等。

（二）特定元素生成效果不佳

三大模型中，即使是對中文理解能力較強的DALL·E3，在面對中文的專有名詞、成語的情況下，也難以施展技術魅力。在輔助推廣經典名著閱讀的實踐中，當筆者輸入“桃園結義”（Oath of the Peach Garden）作為文字提示時，創作出來的圖像是失敗的。大模型對具備中國元素的圖片需求生成效果不佳，由于大模型的生成能力是基于對數據的歸納和分析，中國元素數據庫在這些模型訓練中是缺失的，大模型無法對文本背后的內涵作出深度學習，只能對文字作淺層化理解。這意味著，當國外這些大模型面對具有特定文化背景的主題時，生成能力仍極其有限。

（三）技術和資金門檻制約

AI繪畫雖然在很多方面展現了它的優越性，但對于圖書館領域來說，使用AI繪畫工具需要考慮館員的技術能力和技術應用成本。雖然隨著技術推廣，如Stable Diffusion已經開源，但其對館員的技術要求較高，除了需要熟悉AIGC等相關人工智能方面的專業知識，以及不同模型的指令和參數的用法，還需熟練掌握英語表達。此外，在AI繪畫工具的獲取上，除了有收費門檻，文中提到的三個模型都需要海外服務，登錄有所限制，而且對技術和硬件仍然有很高要求。

五、結語

AI繪畫賦能圖書館業務符合圖書館發展趨勢，新一代館員應積極尋求將AI繪畫技術融入圖書館日常業務場景中的可能性，利用AI繪畫優化圖書館業務流程，實現業務升級。與此同時，新技術的應用要從需求、成本以及能力等各方面考慮。本文只是結合筆者日常的讀者活動推廣業務進行的AI繪圖應用嘗試，希望這次創作實踐能為館員利用AIGC賦能圖書館業務提供一定的參考，促進更多館員能夠發揮所長參與到AIGC賦能探索中來，從而推動智慧圖書館的發展與融合。

（作者簡介：王沁，女，碩士研究生，廣東省立中山圖書館，館員，研究方向：閱讀推廣、新媒體、AI）

（責任編輯蘇靜靜）