文獻(xiàn)是人類(lèi)文明傳承和知識(shí)傳播的重要工具。隨著全球每年新增的出版物數(shù)量不斷增長(zhǎng),圖書(shū)分類(lèi)與檢索工作的壓力也越來(lái)越大。傳統(tǒng)的圖書(shū)管理模式不僅耗時(shí)耗力、成本高昂,而且面對(duì)跨學(xué)科等新興領(lǐng)域的資源時(shí),分類(lèi)標(biāo)準(zhǔn)的更新往往不夠及時(shí),難以做到統(tǒng)一和精確。在這一背景下,人工智能(AI)技術(shù)為圖書(shū)分類(lèi)與檢索開(kāi)辟了新的發(fā)展路徑。因此,深入分析人工智能技術(shù)在圖書(shū)分類(lèi)與檢索中的應(yīng)用對(duì)推動(dòng)智慧圖書(shū)館建設(shè)、提升閱讀服務(wù)水平具有重要的理論價(jià)值和現(xiàn)實(shí)意義。
一、人工智能技術(shù)概述
人工智能技術(shù)是指通過(guò)計(jì)算機(jī)模擬人類(lèi)智能的技術(shù),旨在讓機(jī)器具備感知、學(xué)習(xí)、推理、決策等能力。[1]近年來(lái),自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等人工智能技術(shù)在圖書(shū)分類(lèi)與檢索領(lǐng)域的應(yīng)用日益廣泛。
(一)自然語(yǔ)言處理
自然語(yǔ)言處理是人工智能領(lǐng)域中一個(gè)至關(guān)重要的分支,其致力于構(gòu)建能夠理解、解釋、生成和響應(yīng)人類(lèi)自然語(yǔ)言的計(jì)算機(jī)系統(tǒng),從而架起人與機(jī)器之間溝通的橋梁。這項(xiàng)技術(shù)的發(fā)展歷程,從早期基于詞典等規(guī)則的方法,演進(jìn)到基于統(tǒng)計(jì)方法的機(jī)器學(xué)習(xí)模型,再到如今由深度學(xué)習(xí)主導(dǎo)的神經(jīng)網(wǎng)絡(luò)時(shí)代,其能力實(shí)現(xiàn)了質(zhì)的飛躍。在技術(shù)層面上,自然語(yǔ)言處理涵蓋了多個(gè)精密復(fù)雜的任務(wù)層次。
首先是詞法分析,通過(guò)中文分詞、詞性標(biāo)注和命名實(shí)體識(shí)別等理解文本的基礎(chǔ)功能,能將連續(xù)的字符串切分成具有獨(dú)立意義的詞匯單元,并識(shí)別出其中的人名、地名、機(jī)構(gòu)名等關(guān)鍵實(shí)體。其次是句法分析,通過(guò)構(gòu)建句法樹(shù)來(lái)解析句子的語(yǔ)法結(jié)構(gòu),明確詞語(yǔ)之間的修飾與被修飾關(guān)系,為深層理解語(yǔ)義奠定基礎(chǔ)。最后是語(yǔ)義分析,它致力于挖掘文本的真實(shí)意圖,主要通過(guò)詞義消歧(判斷多義詞在特定語(yǔ)境下的確切含義)、語(yǔ)義角色標(biāo)注(識(shí)別句子中的謂語(yǔ),分析句子中各成分與謂語(yǔ)的關(guān)系)以及情感分析(判斷文本所表達(dá)的情緒色彩)等技術(shù)實(shí)現(xiàn)。
近年來(lái),以BERT、GPT等為代表的預(yù)訓(xùn)練語(yǔ)言模型,通過(guò)在海量文本數(shù)據(jù)上進(jìn)行“預(yù)訓(xùn)練”,學(xué)習(xí)到了豐富的語(yǔ)言知識(shí),再通過(guò)“微調(diào)”便快速適應(yīng)了各種應(yīng)用場(chǎng)景。這些模型利用Transformer架構(gòu)中的自注意力機(jī)制,能夠捕捉長(zhǎng)距離依賴關(guān)系,深刻理解上下文,使機(jī)器在文本摘要、機(jī)器翻譯、問(wèn)答系統(tǒng)以及圖書(shū)內(nèi)容理解與分類(lèi)等任務(wù)上,表現(xiàn)出了前所未有的準(zhǔn)確性和智能性。[2]
(二)機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是人工智能技術(shù)發(fā)展的重要驅(qū)動(dòng)力,其不依賴人工編寫(xiě)的程序,而是研究如何讓計(jì)算機(jī)系統(tǒng)利用數(shù)據(jù)來(lái)自我學(xué)習(xí)和改進(jìn)。其基本范式是,通過(guò)向算法提供大量的“經(jīng)驗(yàn)”數(shù)據(jù),讓算法自動(dòng)從中發(fā)現(xiàn)潛在的規(guī)律或模式,并構(gòu)建一個(gè)能夠?qū)π聰?shù)據(jù)進(jìn)行預(yù)測(cè)或決策的模型。根據(jù)學(xué)習(xí)方式的不同,機(jī)器學(xué)習(xí)主要分為三大類(lèi):監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。其中,監(jiān)督學(xué)習(xí)是最為常見(jiàn)的一種,它使用帶有明確“標(biāo)簽”或“答案”的數(shù)據(jù)進(jìn)行訓(xùn)練,例如,在圖書(shū)分類(lèi)任務(wù)中,提供大量已知類(lèi)別的圖書(shū)內(nèi)容作為訓(xùn)練集,模型的目標(biāo)就是學(xué)習(xí)從圖書(shū)內(nèi)容到其對(duì)應(yīng)分類(lèi)標(biāo)簽的映射關(guān)系,典型的算法包括支持向量機(jī)、樸素貝葉斯和決策樹(shù)等。[3]
二、傳統(tǒng)圖書(shū)分類(lèi)與檢索方法的局限
傳統(tǒng)圖書(shū)分類(lèi)與檢索方法主要建立在人工編目和標(biāo)準(zhǔn)化分類(lèi)體系(如杜威十進(jìn)制圖書(shū)分類(lèi)法、《中國(guó)圖書(shū)館分類(lèi)法》)的基礎(chǔ)上,在數(shù)字化時(shí)代呈現(xiàn)出諸多弊端。[4]
(一)傳統(tǒng)圖書(shū)編目分類(lèi)方法的局限
1.圖書(shū)編目效率低
圖書(shū)編目是圖書(shū)館對(duì)文獻(xiàn)資源進(jìn)行分類(lèi)整理、編制目錄的重要工作流程,人工編目存在花費(fèi)時(shí)間較多、效率較低的問(wèn)題。編目人員需要逐本閱讀圖書(shū)的題名頁(yè)、版權(quán)頁(yè)、前言、目錄等內(nèi)容,有時(shí)甚至需要瀏覽全書(shū)才能確定準(zhǔn)確的分類(lèi)號(hào),這一過(guò)程通常需要30分鐘至數(shù)小時(shí)不等,而面對(duì)日益龐大的新書(shū)出版量,這種處理方式遠(yuǎn)遠(yuǎn)不能滿足實(shí)際需求,導(dǎo)致大量新書(shū)積壓,無(wú)法及時(shí)上架。
2.圖書(shū)分類(lèi)質(zhì)量有待提升
人工分類(lèi)的工作質(zhì)量同樣面臨挑戰(zhàn)。不同編目人員因?qū)I(yè)背景、工作經(jīng)驗(yàn)和個(gè)人理解的差異,對(duì)同一本書(shū)可能給出不同的分類(lèi)結(jié)果,這種主觀性在跨學(xué)科內(nèi)容的分類(lèi)上表現(xiàn)得尤為突出。例如,一本涉及“人工智能在醫(yī)療診斷中的應(yīng)用”的著作,可能被不同人員歸入“計(jì)算機(jī)科學(xué)”“醫(yī)學(xué)技術(shù)”或“應(yīng)用數(shù)學(xué)”等不同大類(lèi),嚴(yán)重影響后續(xù)檢索的準(zhǔn)確性。另外,傳統(tǒng)分類(lèi)體系存在更新滯后的問(wèn)題,現(xiàn)有分類(lèi)方法的修訂通常需要數(shù)年時(shí)間,難以及時(shí)反映新興學(xué)科領(lǐng)域(如區(qū)塊鏈、元宇宙等)的發(fā)展變化,導(dǎo)致大量前沿著作被歸入不恰當(dāng)?shù)念?lèi)別或新建臨時(shí)類(lèi)目,為后續(xù)工作的開(kāi)展帶來(lái)阻礙。
(二)傳統(tǒng)圖書(shū)檢索方法的局限
在圖書(shū)檢索方面,首先,傳統(tǒng)的檢索系統(tǒng)主要依賴基于關(guān)鍵詞的布爾邏輯檢索,這種機(jī)械式的匹配方式無(wú)法做到在理解查詢語(yǔ)句語(yǔ)義的基礎(chǔ)上進(jìn)行檢索,導(dǎo)致檢索結(jié)果容易出現(xiàn)包含大量無(wú)關(guān)內(nèi)容而遺漏真正所需資源的問(wèn)題。其次,傳統(tǒng)檢索系統(tǒng)對(duì)查詢語(yǔ)句的容錯(cuò)能力較差,拼寫(xiě)錯(cuò)誤、詞序變化或語(yǔ)法不規(guī)范都會(huì)導(dǎo)致檢索失敗,且無(wú)法支持自然語(yǔ)言形式的復(fù)雜查詢。最后,在數(shù)字資源管理方面,傳統(tǒng)的檢索方法大多無(wú)法實(shí)現(xiàn)對(duì)非文本資源(如圖片、視頻、音頻等多媒體資料)的檢索。上述問(wèn)題在圖書(shū)館館藏規(guī)模不斷擴(kuò)大、資源類(lèi)型日益多樣化的背景下愈發(fā)突出,嚴(yán)重制約了知識(shí)資源的高效組織和利用,亟須采取有效的方式進(jìn)行解決。
三、在圖書(shū)分類(lèi)與檢索中應(yīng)用人工智能技術(shù)的路徑
基于人工智能技術(shù)的自動(dòng)圖書(shū)分類(lèi)與檢索為解決傳統(tǒng)圖書(shū)分類(lèi)與檢索方法中存在的問(wèn)題提供了解決途徑,能夠極大地提升圖書(shū)管理的效率和用戶的檢索體驗(yàn)。
(一)提升圖書(shū)分類(lèi)與檢索的智能化水平
1.提升圖書(shū)分類(lèi)效率和準(zhǔn)確性
在自動(dòng)圖書(shū)分類(lèi)方面,首先,應(yīng)通過(guò)運(yùn)用自然語(yǔ)言處理技術(shù)對(duì)圖書(shū)的標(biāo)題、摘要、正文等文本信息進(jìn)行深度分析,通過(guò)詞法分析、句法分析和語(yǔ)義理解,提取圖書(shū)的主題和核心內(nèi)容,在此過(guò)程中無(wú)須館員逐本閱讀,大大提升館員的工作效率。例如,可以利用命名實(shí)體識(shí)別技術(shù)識(shí)別圖書(shū)中的人物、地點(diǎn)、機(jī)構(gòu)名稱等重要實(shí)體,為圖書(shū)分類(lèi)提供關(guān)鍵線索。其次,應(yīng)運(yùn)用機(jī)器學(xué)習(xí)算法基于提取出的信息對(duì)圖書(shū)進(jìn)行分類(lèi)。例如,樸素貝葉斯算法可以依據(jù)概率統(tǒng)計(jì)原理,根據(jù)圖書(shū)文本中各類(lèi)特征出現(xiàn)的頻率來(lái)判斷圖書(shū)所屬類(lèi)別;而支持向量機(jī)算法則通過(guò)尋找最優(yōu)的分類(lèi)超平面,將不同類(lèi)別的圖書(shū)區(qū)分開(kāi)來(lái)。再次,可利用深度學(xué)習(xí)模型提升圖書(shū)分類(lèi)的準(zhǔn)確性,如可以通過(guò)卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取文本的局部特征,通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體,如長(zhǎng)短期記憶網(wǎng)絡(luò)處理文本的序列信息,梳理文本中的上下文關(guān)系,從而實(shí)現(xiàn)對(duì)圖書(shū)更精準(zhǔn)的分類(lèi)。對(duì)于跨學(xué)科的圖書(shū),也可以智能分析其學(xué)科特征,將其準(zhǔn)確地歸類(lèi)到相關(guān)類(lèi)別中,打破傳統(tǒng)分類(lèi)方法的局限。最后,還可以利用基于人工智能的自動(dòng)圖書(shū)分類(lèi)系統(tǒng)實(shí)現(xiàn)圖書(shū)信息和分類(lèi)標(biāo)準(zhǔn)的實(shí)時(shí)更新以及圖書(shū)分類(lèi)的動(dòng)態(tài)調(diào)整。隨著新圖書(shū)的不斷入庫(kù)和分類(lèi)標(biāo)準(zhǔn)的變化,系統(tǒng)可以自動(dòng)對(duì)圖書(shū)分類(lèi)結(jié)果進(jìn)行更新,確保分類(lèi)的準(zhǔn)確性。
2.提升圖書(shū)檢索便捷性
在圖書(shū)檢索方面,人工智能技術(shù)能夠帶來(lái)更加智能化和個(gè)性化的體驗(yàn)。
首先,可以利用自然語(yǔ)言處理技術(shù)對(duì)用戶輸入的查詢語(yǔ)句進(jìn)行語(yǔ)義分析,識(shí)別出用戶的意圖。[5]當(dāng)用戶輸入一句模糊的查詢語(yǔ)“關(guān)于未來(lái)科技發(fā)展趨勢(shì)的書(shū)”時(shí),系統(tǒng)能夠理解“未來(lái)科技發(fā)展趨勢(shì)”這一語(yǔ)義,并通過(guò)語(yǔ)義匹配找到相關(guān)的圖書(shū)。系統(tǒng)還能處理同義詞、近義詞等語(yǔ)義相關(guān)的查詢,擴(kuò)大檢索范圍,提高檢索結(jié)果的全面性。例如,清華大學(xué)圖書(shū)館引入了AI導(dǎo)航助手,依托數(shù)據(jù)庫(kù)導(dǎo)航實(shí)現(xiàn)AI增強(qiáng)問(wèn)答。在PC端或手機(jī)端進(jìn)入圖書(shū)館檢索頁(yè)面后,點(diǎn)擊“AI導(dǎo)航”圖標(biāo)即可在彈出的窗口中與AI進(jìn)行與數(shù)據(jù)庫(kù)相關(guān)的問(wèn)答。AI導(dǎo)航助手基于數(shù)據(jù)庫(kù)說(shuō)明頁(yè)的內(nèi)容進(jìn)行訓(xùn)練和回答,訓(xùn)練的素材包括數(shù)據(jù)庫(kù)說(shuō)明頁(yè)中的“資源簡(jiǎn)介”“資源詳情”等信息,問(wèn)答有上下文關(guān)聯(lián)邏輯,并在每次回答之后推薦3個(gè)相關(guān)數(shù)據(jù)庫(kù)鏈接,供讀者直接訪問(wèn)。
其次,可以通過(guò)機(jī)器學(xué)習(xí)算法根據(jù)用戶的歷史檢索記錄、閱讀行為等數(shù)據(jù),為用戶建立個(gè)性化的搜索模型。通過(guò)分析用戶的興趣偏好和閱讀習(xí)慣,為用戶推薦個(gè)性化的檢索結(jié)果。
最后,還能利用人工智能技術(shù)進(jìn)行多模態(tài)檢索,除了文本檢索外,還可以實(shí)現(xiàn)圖像檢索和語(yǔ)音檢索。用戶可以上傳圖書(shū)的封面圖片或用語(yǔ)音描述圖書(shū)的特征來(lái)進(jìn)行檢索,大大拓寬了檢索的渠道,提高了檢索的便捷性。[6]
(二)保障人工智能技術(shù)的持續(xù)應(yīng)用
1.保護(hù)用戶隱私,應(yīng)對(duì)算法偏見(jiàn)
在應(yīng)用人工智能的過(guò)程中,數(shù)據(jù)隱私問(wèn)題日益突出,用戶檢索行為和閱讀記錄的收集分析可能引發(fā)隱私泄露風(fēng)險(xiǎn)。另外,算法偏見(jiàn)問(wèn)題也不容忽視,訓(xùn)練數(shù)據(jù)中的文化偏差可能導(dǎo)致分類(lèi)和檢索結(jié)果出現(xiàn)系統(tǒng)性偏差。為此,必須建立健全的倫理規(guī)范與治理框架,積極主動(dòng)地應(yīng)對(duì)數(shù)據(jù)隱私與算法偏見(jiàn)的雙重風(fēng)險(xiǎn),明確數(shù)據(jù)采集、使用和銷(xiāo)毀的邊界與規(guī)范。推廣“隱私設(shè)計(jì)”理念,在系統(tǒng)開(kāi)發(fā)之初就嵌入用戶隱私保護(hù)機(jī)制,例如,采用聯(lián)邦學(xué)習(xí)、差分隱私等技術(shù),在不暴露原始用戶數(shù)據(jù)的前提下完成模型訓(xùn)練。針對(duì)算法偏見(jiàn),必須建立常態(tài)化的“算法審計(jì)”機(jī)制,定期對(duì)模型的訓(xùn)練數(shù)據(jù)、決策邏輯和輸出結(jié)果進(jìn)行公平性評(píng)估,并引入“人在回路”的審核機(jī)制,確保人工智能的分類(lèi)與推薦結(jié)果能夠由專業(yè)館員進(jìn)行復(fù)核與修正。[7]
2.研發(fā)深度學(xué)習(xí)模型,處理小語(yǔ)種文獻(xiàn)
現(xiàn)有人工智能模型對(duì)小語(yǔ)種文獻(xiàn)的處理能力仍有待提升。圖書(shū)館應(yīng)與科研機(jī)構(gòu)或企業(yè)合作,投入更多資源研究針對(duì)小語(yǔ)種的深度學(xué)習(xí)模型,通過(guò)遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)等先進(jìn)技術(shù),提升模型在小樣本、低資源場(chǎng)景下的泛化能力,加強(qiáng)對(duì)小語(yǔ)種文獻(xiàn)的分類(lèi)檢索能力。
3.加強(qiáng)圖書(shū)館員培訓(xùn),幫助讀者適應(yīng)智能系統(tǒng)
現(xiàn)如今,圖書(shū)館員面臨技能轉(zhuǎn)型的困境,而讀者也需要時(shí)間適應(yīng)新的檢索方式。圖書(shū)館應(yīng)開(kāi)展大規(guī)模、持續(xù)性的館員培訓(xùn),培訓(xùn)內(nèi)容不僅要涵蓋系統(tǒng)操作方法,還要包括數(shù)據(jù)素養(yǎng)、人工智能基本原理、算法倫理等,將傳統(tǒng)館員培養(yǎng)成能夠駕馭、評(píng)估和優(yōu)化人工智能系統(tǒng)的“智慧導(dǎo)航員”和“數(shù)據(jù)策展人”。在對(duì)館員進(jìn)行培訓(xùn)的同時(shí),也應(yīng)加強(qiáng)面向讀者的科普,通過(guò)舉辦講座、制作線上教程、提供互動(dòng)體驗(yàn)區(qū)等多種形式,幫助讀者理解智能檢索系統(tǒng)的優(yōu)勢(shì),掌握新的信息獲取技巧,使讀者建立起對(duì)人工智能技術(shù)的合理預(yù)期。人工智能應(yīng)用于圖書(shū)分類(lèi)與檢索的過(guò)程應(yīng)是一個(gè)人機(jī)協(xié)同、共同進(jìn)化的過(guò)程,技術(shù)的發(fā)展應(yīng)始終圍繞提升公眾的信息獲取效率與閱讀體驗(yàn)這一目標(biāo)。
總之,通過(guò)構(gòu)建一個(gè)集倫理治理、開(kāi)放協(xié)作、技術(shù)透明與人才賦能于一體的綜合支撐體系,人工智能技術(shù)能夠真正突破應(yīng)用瓶頸,深度融入圖書(shū)館的分類(lèi)與檢索工作,為圖書(shū)館工作優(yōu)化以及讀者的信息獲取提供有力支撐。
四、結(jié)語(yǔ)
將人工智能技術(shù)應(yīng)用于圖書(shū)館的分類(lèi)與檢索體系,能夠使其從過(guò)去高度依賴人工、效率較低和主觀性較強(qiáng)的模式向高效、精準(zhǔn)、智能和個(gè)性化的模式轉(zhuǎn)型。展望未來(lái),圖書(shū)館應(yīng)深化數(shù)據(jù)治理、夯實(shí)資源基礎(chǔ)、提升館員綜合素質(zhì)、加強(qiáng)用戶教育,持續(xù)提升自身智能化水平與服務(wù)能力,讓人工智能技術(shù)不僅成為圖書(shū)分類(lèi)與檢索的重要工具,還成為助力知識(shí)發(fā)現(xiàn)、閱讀服務(wù)創(chuàng)新的重要保障。
參考文獻(xiàn):
[1]楊敬.基于人工智能技術(shù)的數(shù)字圖書(shū)館資
源自動(dòng)分類(lèi)研究[J].江蘇科技信息,2025,42(01):
107-110+119.
[2]歐陽(yáng)濤.基于預(yù)訓(xùn)練模型的中文圖書(shū)自動(dòng)分類(lèi)研究[D].云南師范大學(xué),2023.
[3]黃娟.人工智能技術(shù)在高校智慧圖書(shū)館中的應(yīng)用研究[J].信息記錄材料,2024,25(04):67-69.
[4]張?zhí)?圖書(shū)館信息檢索中人工智能技術(shù)的應(yīng)用分析[J].信息記錄材料,2024,25(11):243-245.
[5]孫靜.人工智能技術(shù)在高校圖書(shū)館建設(shè)中
的應(yīng)用[J].吉林廣播電視大學(xué)學(xué)報(bào),2023(03):
143-145.
[6]楊延峰.人工智能技術(shù)在高校圖書(shū)館信息
服務(wù)中的創(chuàng)新應(yīng)用[J].信息與電腦,2025,37(09):
64-66.
[7]任佳.人工智能技術(shù)在高校圖書(shū)館信息檢
索中的應(yīng)用研究[J].信息記錄材料,2024,25(11):
154-156.
(作者簡(jiǎn)介:宋蓉,女,本科,宜昌市圖書(shū)館,中級(jí),研究方向:圖書(shū)信息)
(責(zé)任編輯 王瑞鋒)