[中圖分類號]G254.36 [文獻標志碼]B
[文章編號]1005-6041(2025)02-0088-07
1引言
文獻是讀者獲取知識信息的重要來源,圖書館作為信息資源庫,儲藏著海量的文獻。如何對這些文獻進行精準分類和高效管理,是圖書館學研究的重點課題之一。分類編目是實現海量文獻資源高效管理的基礎環節,直接影響著讀者檢索與利用文獻資源的效率。傳統的人工分類編目工作存在著分類結果不準確、編目效率低下的問題,而人工智能技術的發展給圖書館自動分類編目帶來新機遇,應用人工智能中的深度學習、機器學習等技術可以實現對文獻更精準、高效的分類編目,提升文獻檢索速度,降低圖書館運營管理成本。
2人工智能和自動分類編目系統概述
2.1人工智能
人工智能(ArtificialIntelligence,AI)是模擬人類智能、思考能力并形成應用系統的科學技術[1]人工智能需要多種技術支撐,包括機器學習、深度學習,通過各類技術的集中應用,建立模擬人類計算、分析、邏輯、認知、理解、思考、創作等關鍵能力的智能系統,輔助人類完成工作[2]
2.2自動分類編目系統
圖書館自動分類編目系統是應用人工智能技術對館藏資源、科研數據等文獻資源,依據不同分類規則實現自動分類和編目的系統。系統主要通過對文獻資源標題、簡介、內容、關鍵詞等關鍵信息進行分析,運用機器學習算法,將文獻準確歸入對應的類別當中,并生成規范的編目信息[3]。自動分類編目系統主要具備以下功能:自動分類功能,包括文本提取、智能化分類和動態調整[4];自動編目功能,包括信息提取、標準化處理和關聯建立[5];智能檢索功能,包括多維度檢索、模糊檢索、檢索結果排序和相關推薦[6];數據管理功能,主要包括圖書入庫管理、數據更新、數據備份與恢復、統計分析等[7]
3基于人工智能的圖書館自動分類編目系統設計需求分析
基于人工智能的圖書館自動分類編目系統需求包括功能需求、性能需求、安全需求、用戶體驗需求(見表1)。
3.1功能需求
分類和編目功能是系統設計的核心,它基于機器學習算法、深度學習算法,能適應圖書館復雜語言環境下海量文獻的自動分類需要[4]。文獻分類須嚴格遵循通用的分類標準即《中國圖書館分類法》,同時要考慮到不同類型圖書館的分類需要,自動調整分類標準[5]。系統的自動編目功能也有著重要作用。從各類館藏資源的源數據中提取關鍵信息,深人分析文獻的前言、介紹、內容、目錄、書名,從這些信息中挖掘文獻主題、關鍵詞和摘要等內容,豐富編目信息。編目格式要規范統一,能夠為讀者后續精準檢索和管理提供支持。系統的智能檢索功能為用戶精準快速查詢圖書文獻提供了便利。智能檢索功能要具備多種檢索方式,包括關鍵詞檢索、主題檢索、來源檢索、書名檢索、作者檢索、分類檢索等,要滿足不同類型用戶的檢索需求。自然語言處理技術的應用使系統更容易理解用戶檢索意圖,為用戶提供適合的檢索方式,提高檢索的便利性、有效性。智能檢索提示功能則在用戶輸入信息不完整或模糊檢索時發揮作用,根據用戶提供的提示信息,幫助用戶快速查詢文獻。系統的個性化推薦功能可根據用戶的閱讀興趣、瀏覽習慣、行為偏好信息,為用戶量身定制檢索方案。個性化推薦算法經過迭代優化,能通過電子郵件、短信、微信等方式為用戶精準推薦資源,讓用戶快速了解到感興趣的文獻。系統的數據管理功能可以集成化管理各類文獻資源,以及用戶在使用圖書館的過程中產生的基本信息。系統的數據備份和恢復功能確保了文獻資源與用戶數據的安全。即使出現數據泄露和存儲設備損壞的問題,也能快速恢復數據,保障用戶對系統的正常使用。

3.2性能需求
由于文獻分類編目結果直接影響著文獻存儲管理和用戶的檢索體驗,因此自動分類編目系統可通過優化計算機視覺算法和加大對精準識別工具數據訓練等方法確保文獻分類編目結果具備較高的準確性。同時,自動分類編目系統還要保證高效性。系統要具備較快的反應速度,能快速完成識別、分類、編目、入庫、精準檢索等操作。對于海量的文獻資源,自動分類編目系統可以利用分布式計算技術,優化數據庫結構,提高系統的反應效率,對各類文獻實現高效處理和綜合管理。自動分類編目系統需要在圖書館長期運行,代替圖書館員開展分類和編目工作,因此,系統運行過程中要保持良好的穩定性,在長期運行過程中不出現重大故障甚至系統崩潰等問題。當故障出現時能夠通過備份快速恢復,保障系統持續提供可靠的服務。為確保自動分類編目系統的穩定運行,將系統運行風險維持在可控范圍內,圖書館要建立系統運行故障監測和恢復機制,及時發現系統運行過程問題并予以解決。
3.3安全需求
數據安全是系統安全的重要內容。對于圖書館而言,可通過數據加密技術對文獻資源加密存儲,根據用戶需求建立嚴格的系統使用權限管理機制,定期掃描系統安全漏洞并予以及時修復。在系統運行安全防護方面,可安裝網絡防火墻、數據隔絕服務器、多功能網閘防范網絡攻擊,同時建立完善的備份和恢復機制,保障系統在遭受黑客攻擊或病毒感染后能夠快速恢復[8]。每天實時對系統操作進行日志記錄和風險評估,便于事后的審計與追蹤,最大限度防控系統的網絡安全風險。
3.4用戶體驗需求
友好型界面是提升用戶體驗的關鍵因素,自動分類編目系統的操作界面需要考慮用戶習慣,做到簡潔明了、方便用戶操作。可以考慮將直觀的圖形界面和簡潔的操作流程融入交互界面設計[9]。系統操作界面要注重用戶體驗,設置用戶建議反饋端口,讓用戶在了解操作結果的同時,能針對系統的操作提出建議反饋。同時,系統要支持移動終端使用,能讓用戶隨時隨地查詢文獻信息并進行借閱操作。系統的移動端操作界面要根據移動設備性能和操作系統及時更新,優化操作界面布局,提供便捷的操作方式。考慮到系統需要在圖書館不同設備終端進行部署,并能為用戶提供良好的服務體驗,圖書館要為館員開展系統操作培訓和技術支持,方便為用戶提供在線解答和技術咨詢服務。可考慮定期開展培訓活動、設計培訓課程、開設系統操作講座、編制用戶手冊、錄制系統使用教程等方式提高圖書館員的操作能力。
4基于人工智能的圖書館自動分類編目系統設計
基于人工智能的圖書館自動分類編目系統由數據采集層、數據預處理層、特征提取層、分類編目層、用戶交互層等5個層面構成(見圖1)。

4.1數據采集層
數據采集層主要實現對用戶數據、文獻信息的采集。該層主要包括API數據接口、傳感器、Python爬蟲程序、3D掃描終端等部件。一方面,數據采集層需要通過穩定安全的API數據接口與圖書館管理系統連接,依靠Python爬蟲程序獲取題名、責任者、出版商、ISBN、圖書購買歷史、版本等信息,還要通過數據采集器獲取用戶基本信息、借閱歷史、操作行為等對分類編目有輔助作用的數據。另一方面,要通過傳感器、高精度掃描儀、高清攝像頭獲取文獻封面圖像和文本信息。對于拍攝或掃描過程出現的圖像扭曲文字模糊等問題,進行圖像矯正和文字識別優化。對于電子文獻,要解析內容簡介、獲取目錄結構、識別書簽信息、識別元數據,為分類編目提供有效的數據信息支持。
4.2數據預處理層
數據處理層包括文本清洗模塊、數據標準化處理模塊。文本清洗模塊主要對獲取的文獻文本數據進行精細化清洗,去除噪聲信息、特殊字符和無關的格式內容,對文本中重復內容、停用詞進行處理,按照分類編目標準制訂停用詞表,對文本中的簡寫、縮寫內容進行規范化處理。數據標準化處理模塊主要根據數據類型將不同格式數據轉換為統一的數據格式,對于文本中的編碼進行標準化處理,具備自動檢測和編碼轉換能力,如實現UTF-8與GBK編碼之間的轉化,并對文本中出現的編碼錯誤進行標記和修復。
4.3特征提取層
特征提取層包括文本特征提取模塊和圖像特征提取模塊。文本特征提取模塊是應用自然語言處理技術中的BERT訓練語言模型和傳統的詞向量模型(如Word2Vec、Glove等)將文本轉化為向量,并通過語義角色標注、依存句法分析技術挖掘文本的語義信息。使用TF-IDF算法確定詞語重要性權重,根據用戶檢索習慣自適應調整。圖像特征提取模塊可以應用ResNet、Inception等卷積神經網絡(CNN)模型,從文獻封面提取顏色、紋理、圖案等有代表性的圖像視覺特征,也可以提取圖像中的物體形狀、圖形布局等信息,并且將圖像全局特征和局部特征相結合,提高文獻分類的準確性。
4.4分類編目層
分類編目層主要包括分類模型和編目規則處理模塊。分類模型應用決策樹的深度學習模型,采用集成學習法對文獻識別分類。在使用大規模已做好分類編目的文獻數據進行模型訓練時,可通過分層抽樣的數據集劃分方法和早停法、學習率調度等訓練策略進行調整,避免過擬合和欠擬合。編目規則處理模塊是根據文獻分類結果和圖書館特定的編目規則生成索書號、館藏地等編目信息。在生成索書號時,要考慮到圖書館內部的書架布局、分類標準、館藏結構和借閱頻率,使索書號具有擴展性和邏輯性。館藏地分配要結合文獻流轉率、借閱頻率、館藏空間布局、文獻結構、書目呈現方式及時調整,保障館藏圖書高效管理。
4.5用戶交互層
用戶交互層包括管理員界面和用戶檢索界面。管理員界面功能豐富,用于管理分類編目的全過程。該界面能查看文獻分類結果、手動調整錯誤分類、添加新的分類規則,并具備分類模型參數調整功能,還可以實時為管理員提供數據統計和分析服務,呈現各類文獻分類占比、分類錯誤率、文獻增長趨勢,為館藏結構調整和管理決策提供支持。用戶檢索界面設計簡潔、操作簡單,為用戶提供書名、作者、關鍵詞、分類號等多種檢索方式。在檢索結果展示方面,既能夠展示文獻的基本編目信息和館藏資源狀態,也能夠展示文獻的封面圖像、內容簡介、用戶評價分數等,可以讓用戶便捷直觀地了解圖書文獻。界面還具備個性化推薦功能,根據用戶借閱歷史、檢索記錄為其推薦可能感興趣的圖書,方便用戶選擇和閱讀。
5基于人工智能的圖書館自動分類編目系統功能實現
5.1文獻信息采集功能實現
系統文獻信息采集功能的實現需要從實體文獻的視覺圖像信息精準識別、圖書館管理系統電子圖書識別獲取兩方面著手。文獻信息采集模塊結構如下(見圖2)。實體文獻視覺圖像信息識別可以采用搭配視覺圖像仿生芯片的3D掃描終端,這類終端搭載每秒超過30幀數據采集頻率的視覺采集器件,具有超過0.045毫米的掃描精度,基于標志點的拼接定位具備超過0.3毫米的立體掃描精度,搭載的USB3.0數據接口能夠輸出可供直接3D打印的圖像數據,可滿足大多數對實體文獻精準識別的需求。

在數字文獻獲取方面,系統可選擇搭載IntelLoihi2仿生類腦芯片并支持HalaPoint系統運行的服務終端,來運行可編程和自適應拓展的Python爬蟲程序。將爬蟲嵌入館藏數據庫和文獻管理系統,根據數字文獻的元數據和結構特征識別獲取文獻資源。HalaPoint是英特爾推出的全球最大神經擬態系統,搭載1152個基于7納米制程的Loihi2處理器,支持11.5億個神經元和1280億個突觸,具有運行仿生脈沖神經網絡的能力和超大規模數據集群運算能力,支持多類型文獻數據的大規模并行運算處理,可滿足圖書館EB級文獻圖像視覺信息和數字文獻數據并行處理存儲的需求。系統完成對以上數據信息的采集后,通過API接口共享到云服務器的SQL數據庫,完成文獻分類編目的數據支持工作。
5.2文獻分類功能實現
自動分類編目系統文獻分類功能可使用決策樹的深度學習分類模型實現文獻的精準分類。例如,決策樹中的信息增益函數通過選擇文獻視覺圖像數據最佳屬性劃分數據集,計算每個屬性帶來的信息增益實現分類。決策樹函數計算公式為:

其中 D 是文獻數據集(文獻視覺圖像數據集、數字文獻數據集), ∝ 是文獻數據集屬性,V是屬性α 的取值個數, Dv 是屬性 α 取值為 ΔV 的樣本子集。通過不斷計算文獻信息增益建立決策樹節點,實現對不同類型文獻的精準識別和分類。
多層感知機(MLP)包含多類神經元,常用
Sigmoid激活函數實現。Sigmoid激活函數公式:

該函數將數據輸入值映射在(0,1)區間,根據(2)獲得Sigmoid激活函數結果代人ReLU函數:
f(x)=max(0,x)
計算輸入數據映射區間的最大值。通過(3)獲得的計算結果代人層層遞進的神經元網絡,通過循環計算,確定映射數據最優值,實現對文獻數據的精準分類。
5.3文獻編目功能實現
系統文獻編自功能主要基于文獻分類結果將各類圖書文獻按照分類標準劃分為不同的館藏目錄。文獻編目流程如下(見圖3)。在編目過程中,系統會根據文獻分類結果形成文獻編目界面,編制文獻的分類目錄和分類號,審查文獻信息內容,判定是否重復。若在已編目錄中發現存在該文獻,系統會根據分類結果在該文獻類別目錄中編制該文獻的單類目錄及自錄號,生成該文獻新館藏信息后,更新數據庫中存儲該文獻的信息并用數字標簽標記,不斷重復上述過程,直到將所有文獻編目完成。
6系統性能測試與分析
為分析基于人工智能的圖書館自動分類編目系統性能,以某專科學院圖書館作為實驗場所,將本文構建的分類編目系統應用到該圖書館的文獻分類編目工作中,以此來驗證本系統的性能。

6.1系統性能分析
本文構建的基于人工智能的圖書館自動分類編自系統在文獻信息采集過程中對文獻位置識別的均方根誤差收斂情況如下(見圖4)。
基于人工智能技術識別文獻位置,在采集文獻數據過程中,經過對系統的多次迭代測試后均方根誤差收斂到最小值,由此可以證明本文構建的基于人工智能的自動分類編目系統可以快速識別文獻位置,快速識別和采集文獻數據,幫助圖書館提升文獻信息采集效率。
6.2系統應用性分析
為了測試本文基于人工智能的圖書館自動分類編目系統在實際應用中的效果,將該專科學院圖書館2023年1月—4月和2024年1月—4月同周期相同種類圖書借閱量作為評價指標,對比采用本系統前后同期內同種類文獻借閱量的變化趨勢,結果
如下(見圖5)。
由圖5可知,該專科學院使用本系統后,在相同周期內相同類型文獻的借閱量呈現顯著上升趨勢,上升幅度較大。由此看來,本文構建的基于人工智能的自動分類編目系統能幫助圖書館提升文獻借閱量,提高文獻資源利用率,促使用戶更高效精準地查詢文獻,更高效地學習知識。

7結語
本文設計的基于人工智能的圖書館自動分類編目系統,可利用人工智能技術采集文獻信息,依據文獻視覺圖像數據與數字文獻數據實現文獻自動分類與編目。系統應用性分析結果也能有效證明其應用價值。該系統在圖書館中的應用能較好地解決傳統分類編目方式存在的問題,提高圖書館分類編目工作的質量和效率。但是,在實際應用過程中,需要根據圖書館業務發展和用戶反饋不斷優化和升級迭代,使系統功能進一步完善,形成智能化分類編目模式,減輕圖書館員的工作壓力。未來,可以繼續探索將元宇宙、大數據算法、大語言模型融入圖書館文獻分類編目工作,幫助圖書館建立精準高效的文獻資源建設體系,適應快速變化的數智環境。
[參考文獻]
[1]李默,楊彬.從生成式人工智能到通用人工智能:賦能圖書館知識服務模式創新[J].農業圖書情報學報,2024,36(6) :50-61.
[2]孫昊琛.新一代人工智能技術支撐的智慧教室模型建構研究[D].海口:海南師范大學,2022.
[3]熊易.人工智能機器人技術在圖書館的應用研究[J].河南圖書館學刊,2022,42(4):68-69,72.
[4]孫德鵬.關于圖書采分編智能作業系統的若干思考:以廣東省立中山圖書館為例[J」.大學圖書情報學刊,2022,40(1):119-122,139.
[5]王維秋,劉春麗.人工智能環境下圖書館智能編目模式構建研究[J].晉圖學刊,2021(3):10-18.
[6]王惠君,吳昊,潘詠怡,等.圖書采分編智能作業系統的研究與應用[J].圖書館論壇,2021,41(1):58-63.
[7]郭利敏.基于卷積神經網絡的文獻自動分類研究[J].圖書與情報,2017(6):96-103.
[8]韋莉軍.公共圖書館中文圖書分類標引不一致問題及解決對策[J].情報探索,2020(10):115-121.
[9]劉洋.圖書分類編目常見的問題及處理[J].河南圖書館學刊,2019,39(12):115-116.
[收稿日期]2024-11-06
[作者簡介]梅月(1989—),女,碩士,館員,揚州市圖書館。