在人工智能飛速發展的時代背景下,圖書館作為知識傳播與信息服務的重要載體,正面臨著智能化轉型與服務升級的迫切需求。近年來,我國相繼出臺《新一代人工智能發展規劃》《關于加快場景創新以人工智能高水平應用促進經濟高質量發展的指導意見》等政策文件,表明了我國對發展和應用人工智能的高度重視。受科技進步和政策引導的影響,人工智能正深刻影響著圖書館的變遷,在圖書情報領域顯現出巨大的應用潛力,特別是大語言模型(LargeLanguageModel,LLM)的出現,將促使圖書館的知識和情報服務與人工智能展開深度融合,產生全新的信息處理和服務方式。大語言模型是一種基于深度學習技術構建的人工智能模型,通過在海量文本數據的基礎上進行訓練,學習語言的語法、語義和語用等知識,進而生成自然流暢、符合邏輯的文本內容。其在信息檢索、用戶交互、知識提取、文本生成和用戶意圖識別等方面有著獨特優勢,將賦能圖書館的服務創新,推動圖書館在智能時代的可持續和高質量發展。
一、大語言模型的發展概述
大語言模型的雛形可追溯至20世紀90年代的語言建模研究。語言建模主要是基于規則和統計學的方法嘗試分析文本,但在理解復雜的語言規則上存在局限性。隨著深度學習技術的興起,神經網絡架構的引入為大語言模型的發展帶來了突破。2017年,Google研究團隊提出了Transformer架構,隨后,基于Transformer架構的大規模預訓練技術開始廣泛應用。Transformer架構的自注意力機制解決了長序列處理難題,使模型能夠更好地捕捉文本的全局依賴關系。2018年,Google的BERT-1和OpenAI的GPT-1開啟了預訓練語言模型時代,模型先在海量文本上進行無監督預訓練,再針對特定任務微調。22019—2020年,OpenAI先后發布GPT-2和GPT-3模型,GPT-3擁有1750億參數,并引入了零樣本學習和遷移學習等技術,能夠完成自然語言處理的大多數任務。2022年底,OpenAI發布了ChatGPT,ChatGPT基于GPT-3的架構做了進一步訓練,應用基于人類反饋的強化學習等新技術,在文本內容創作、復雜自然語言問題處理等方面取得了重大突破。此后,國內的百度、字節跳動、科大訊飛等企業也相繼推出了文心一言、豆包、訊飛星火等大語言模型,不斷推動大語言模型技術在中文語境及特定領域的應用和發展。未來,大語言模型有望在提高性能、拓展應用領域、與其他技術融合等方面取得更大成果。
二、大語言模型在圖書館服務方面的創新應用
(一)自動圖書分類和摘要生成
大語言模型憑借其強大的自然語言理解能力,可以從圖書文本中提取到關鍵詞、關鍵短語、文本結構特征等重要信息。當面對一本待分類的圖書時,大語言模型會將抓取到的重要信息輸入已訓練好的模型。模型根據之前學習到的知識和模式,對圖書的特征進行分析和判斷,再通過計算輸入圖書與各個預定義類別之間的相似度或匹配程度,最終確定圖書所屬的類別。自動圖書分類通過對館藏資源的高效整理,提升了讀者獲取目標圖書資源的效率。同時,大語言模型還可以自動生成摘要,館員可以依據這些摘要更清晰地了解館藏書籍的內容特點,進而更科學地進行分類編目、排架布局,以及制定精準的推薦策略。讀者可以迅速把握圖書主旨,在短時間內篩選出符合自身需求的書籍,使閱讀決策更加精準高效。
(二)智能參考咨詢
傳統圖書館的參考咨詢服務往往依賴館員人工解答讀者問題,存在響應時間長、解答質量參差不齊等問題。而大語言模型能夠依據上下文語境,深刻理解問題的內涵與背景,再通過讀者與智能館員助手的多輪對話深入挖掘讀者的真實需求,運用龐大的數據庫和強大的邏輯能力在短時間內提供富有針對性的解答。同時,大語言模型還可以協助館員和讀者對文獻內容進行深度挖掘和分析。它能夠提取文獻中的關鍵信息,如研究方法、核心觀點、創新點等,并對多篇文獻進行綜合比較分析,梳理出研究脈絡和發展趨勢。此外,它還可以根據讀者的研究方向和興趣,推薦可資探索的新領域和新課題,3為科研人員拓寬研究視野、開展創新性研究提供有力支持。
(三)個性化知識推薦
圖書館擁有豐富的館藏資源,但讀者在尋找符合自身興趣和需求的知識時可能面臨困難。對此,大語言模型可通過分析讀者的借閱歷史、瀏覽行為、學科專業背景等多維度數據,深入理解讀者的興趣與需求,構建出讀者畫像,進而實現精準的個性化知識推薦。基于對文本語義的卓越理解,大語言模型不僅能夠依據表面行為進行推薦,還能夠挖掘讀者的潛在需求。此外,大語言模型還能自動發現不同學科領域中概念之間的潛在聯系,將分散在眾多文獻中的知識點進行整合,構建相應的知識圖譜,為用戶推薦可能感興趣的圖書,滿足其個性化的學習和研究需求。
(四)多語言服務拓展
隨著全球化的發展,圖書館的讀者群體日益多元化,對多語言服務的需求也不斷增加。大語言模型具備強大的多語言處理能力,可以實現不同語言之間的文本翻譯、內容解讀等功能。在文獻資源翻譯方面,它能夠快速精準地將不同語言的文獻資料進行互譯。在多語言檢索服務上,大語言模型支持讀者使用多種語言進行檢索。即使館藏文獻使用多種語言記錄,讀者用母語輸入需求,模型也能快速理解并檢索出相關資源。同時,在多語言咨詢服務中,無論讀者使用何種語言提問,大語言模型都能實時解答,提供跨語言的咨詢幫助。此外,在國際化交流日益頻繁的當下,大語言模型還能夠助力圖書館舉辦多語言文化活動,如使用多種語言介紹活動內容、進行文化知識講解等,吸引更多國際讀者,推動圖書館走向國際化。
(五)虛擬助手與互動體驗
針對自然語言提出的問題,經過圖書館相應知識語料庫預訓練的智能問答機器人可以給出相應的反饋。智能問答機器人可以幫助讀者進行館藏資源的查詢與定位。當讀者只記得部分書名、作者名或關鍵詞時,機器人也能夠憑借模糊查詢功能,理解讀者意圖,找到相關資源。此外,智能問答機器人還可以 24×7 小時實時解答用戶關于開放時間、借閱規則、圖書館活動與培訓信息、圖書館自助設備使用等的疑問。大語言模型甚至可以與多媒體技術相結合,傳遞多模態的綜合信息。例如,結合地方史志、古籍文獻等資料,生成描述特定歷史時期場景的文本,配合多媒體技術,再現古代書院的講學場景,為讀者營造沉浸式文化體驗。多樣化的互動方式,在滿足不同用戶的需求和習慣的同時,也為讀者提供了優質的情感體驗。[5]
三、大語言模型賦能圖書館服務面臨的挑戰
(一)數據質量和安全問題
大語言模型生成結果的質量與訓練數據的質量高度相關。如果是不準確或有偏差的數據,則會影響模型對資源的準確理解與利用,或導致模型生成具有誤導性的內容,如不同數據庫對同一實體的描述可能存在差異,干擾模型訓練與應用;過時數據可能導致提供的知識或服務陳舊;受到訓練數據中可能存在的偏見的影響,模型生成的文本在性別、種族、地域等方面可能帶有不合理的傾向性甚至歧視性內容,引發社會爭議。此外,大語言模型訓練的大量數據中可能包含用戶隱私、企業敏感數據或科研機密等。一旦數據被不法分子獲取,可能會導致用戶正常生活受到干擾、企業經濟損失、國家安全隱患等嚴重后果。同時,模型自身也可能存在安全漏洞,或被黑客攻擊,影響圖書館正常的服務秩序和數據安全。
(二)版權爭議問題
大語言模型訓練依賴海量數據,圖書館豐富的館藏資源成為數據獲取源。大語言模型在對圖書館數據進行采集和訓練的過程中,可能會使用到受版權保護的大量資料,如果數據使用未取得產權所有者的明確、充分授權,就會侵犯所有者的知識產權。同時,生成的內容版權歸屬模糊,難以清晰界定版權應歸屬于圖書館、模型開發方還是原版權所有者。當圖書館使用這些生成內容作為知識服務的一部分時,就可能陷入版權糾紛。若生成的內容突破讀者借閱、研究等需求,被廣泛傳播,尤其是涉及商業使用時,會進一步加劇版權爭議,圖書館可能面臨嚴重的法律后果。
(三)資金成本問題
目前,大多數圖書館并不具備自行訓練模型的能力。就算僅僅是應用模型,同樣需要高性能服務器和大規模存儲設備等硬件基礎來確保響應速度和服務質量,后續硬件維護和升級也將持續產生費用。若硬件基礎無法保障、算力不足,那么當圖書館面臨高并發的用戶請求時,就會出現響應延遲、系統卡頓等問題,嚴重影響用戶體驗。此外,數據處理和優化方面也面臨著高昂成本。圖書館需要對海量數據進行清洗、標注等預處理,使其符合模型訓練要求,這不僅需要專業的數據處理軟件,更需要投入大量人力成本。圖書館員必須接受專業培訓,掌握數據管理、模型操作、服務應用等技能。相關的培訓課程、師資聘請等都需要資金支持。因此,資金成本問題若得不到妥善解決,將嚴重制約大語言模型在圖書館服務中的廣泛應用與深入發展。
(四)館員素養問題
館員是圖書館服務有效開展和持續推進的核心智力資源。大語言模型的訓練應用對館員的技術素養和能力提出了更高的要求。首先,它要求館員具備技術理解與應用能力,能夠理解大語言模型的基本概念和運行機制,熟練操作基于大語言模型的圖書館管理系統、信息檢索系統等工具。目前,多數館員傳統業務能力強,但技術知識儲備不足;其次,大語言模型需要處理海量數據,對館員的數據歸集和流通能力、數據應用和策展能力以及隱私保護與數據安全能力等數據要素能力提出了更高的要求;最后,大語言模型還要求館員革新服務思維,從被動解答轉向主動利用模型挖掘讀者需求,而部分館員仍然習慣傳統模式,缺乏主動服務和創新意識,難以適應新變化。如果館員不能及時進行能力提升,將無法適應圖書館智能化發展的新趨勢。
四、大語言模型賦能圖書館服務的發展路徑
(一) 加強數據治理,保護用戶隱私
圖書館行業應聯合相關部門和技術專家,建立嚴格的數據篩選與預處理機制,在訓練前對數據進行嚴格篩選、清洗和標注,去除錯誤、冗余以及涉及隱私敏感的部分。規范數據標準,統一各類數據格式,如整合不同來源文獻的元數據格式。共同制定大語言模型在圖書館應用中的技術規范和數據使用準則,明確數據的采集、存儲、傳輸和使用等環節的安全要求,確保數據安全。定期對模型訓練數據及生成數據進行數據審計,及時發現問題并反饋。嚴格遵循隱私政策,注重對個人身份標識信息進行匿名化和脫敏處理、限制未授權用戶的訪問權限、采用數據加密協議、應用差分隱私技術和聯邦學習法優化模型等。清晰、全面地告知讀者數據收集的自的、范圍、使用方式及可能風險等信息,保障讀者的知情權。通過持續的用戶教育,提升用戶對數據隱私保護的認知。
(二)完善監管機制,維護知識產權
圖書館需建立嚴格的內部監管體系,明確模型使用規范與數據處理流程。在收集訓練數據時,嚴格遵循版權法規,只選用已獲得明確授權的數據來源。依據《版權法》中的合理使用相關規定開展訓練工作,確保模型對數據的學習和利用方式符合法律要求。在模型生成輸出內容后,利用專業的文本查重工具,將其與已知的受版權保護的作品進行比對,及時過濾掉可能存在抄襲、剽竊等侵權嫌疑的內容。與外部機構、企業等開展合作時,通過嚴謹的合作協議明確雙方在知識產權方面的權利和義務。加強對館員和讀者的知識產權教育,提升其版權意識,使館員在利用模型服務時嚴守版權規定,讀者在享受服務時尊重知識產權,共同營造健康的知識服務環境。此外,制定針對圖書館應用大語言模型的監管政策與標準,規范行業行為。定期對圖書館進行檢查,評估其在知識產權保護方面的執行情況,對違規行為進行嚴肅處理。
(三)優化資金管理,緩解成本壓力
圖書館首先應進行全面的成本評估,依據圖書館的實際業務需求和發展目標,確定大語言模型應用的重點功能與服務場景,按照優先級合理分配資源。關注上級部門發布的各類專項資助項目和科研基金,申請專項資助。了解并利用國家或地方出臺的關于鼓勵科技創新、文化產業發展等相關政策,享受稅收減免、設備購置補貼等優惠措施。除傳統財政撥款外,積極尋求社會捐贈、企業合作或基金會資助。同時,企業也可獲得相關數據反饋用于技術優化,實現互利共贏。加強館際合作,共享硬件資源,聯合采購大語言模型服務,提高資源利用率,減少重復建設開支。館際間還可合作開展人員培訓,集合各館優勢,邀請專家開展線上或線下的集中培訓,分攤培訓成本。
(四)健全培養體系,提升館員素養
圖書館應構建系統培訓課程,涵蓋大語言模型基礎原理、模型操作技能、數據處理技能等,全面提升館員的技術能力。根據館員現有的知識和技能水平以及不同的崗位需求,制訂分層分類的培訓計劃。通過舉辦專題培訓、進修學習、在線課程、參加學術研討會等方式提升館員素養。建立常態化的培訓機制,定期組織館員開展集中培訓、在線學習等活動。搭建內部知識分享平臺,營造良好的學習氛圍。制定相應的激勵機制,如設立專項獎勵基金、在職稱評定和崗位晉升等方面給予傾斜、將與大語言模型相關的技能掌握情況和工作成果納入考核指標等,讓館員切實感受到自身努力與職業發展的緊密聯系,提高他們參與轉型的積極性。
五、結束語
大語言模型為圖書館的服務創新帶來了諸多機遇,具備廣闊的應用場景和發展潛力,顯著提升了圖書館的服務質量和效率,滿足了讀者日益多樣化的需求。然而,在發展和應用的過程中,其不可避免地面臨著風險和挑戰。通過不斷完善發展路徑,大語言模型將在圖書情報領域實現更廣泛的應用,推動圖書館更好地應對時代浪潮下不斷變化的信息服務要求。
參考文獻:
[1]王靜靜,洪,葉鷹.GPT型技術應用重塑數字人文探討[J].情報理論與實踐,2023,46(06):43-46.
[2] 趙瑞雪,黃永文,馬瑋璐,等.ChatGPT對圖書館智能知識服務的啟示與思考[J].農業圖書情報學報,2023,35(01):29-38.
[3]洪,葉鷹,佟彤.國內外大語言模型的圖書情報應用探討[J].圖書館理論與實踐,2024(02):72-80.
[4]王毅,董怡婷.類ChatGPT人工智能在圖書館智慧服務中的應用與思考[J].圖書館理論與實踐,2023(06):129-136.
[5]劉柏嵩,楊春艷,殷文婷,等.智能技術驅動下的圖書館服務現代化:轉型與創新[J].大學圖書館學報,2024,42(04):13-19.
[6]張芳.數智時代“三全”知識服務館員勝任力提升策略研究[J].圖書情報導刊,2024,9(02):27-33.