高校智慧圖書館信息組織及挖掘研究

2023-09-22 11:45:32佘欣媛林娜哈爾濱工業大學威海圖書館

中國信息技術教育 2023年18期

佘欣媛林娜哈爾濱工業大學（威海）圖書館

●引言

當前，圖書館面臨的主要現狀如下：一是館藏資源類型越來越多，資料不再局限于紙質圖書、電子圖書，視頻、音頻、圖片資料庫也越來越龐大；二是讀者閱讀習慣改變，移動設備的便捷性讓人們更傾向于無紙化閱讀；三是圖書館角色改變，圖書館已經不是讀者唯一的知識提供者，網絡世界豐富多樣的信息有時更能吸引讀者的目光；四是人工智能程序迅速發展，有成為下一代信息中心的趨勢。然而，雖然網絡資源數量龐大，但讀者進行信息篩選的代價也不小；雖然人工智能程序能夠與人類無障礙交流，但其資料庫并不專業，無法給用戶提供高質量的信息。面對這些問題，圖書館應肩負起知識傳遞者的責任，做好業務轉型，明確建設智慧圖書館的發展方向。

智慧圖書館建設研究主要有以下幾個方面：元宇宙背景下虛實結合、數字孿生技術在圖書館中的應用，建立多元學習空間模型，將用戶部分學習行為放到網絡上提高用戶互動性[1-4]；用5G、區塊鏈等技術改變圖書館底層數據存儲邏輯和網絡拓撲結構，增加數據安全性[5]；人工智能生成程序（Artificial Intelligence Generative Content，AIGC）與圖書館信息咨詢業務結合[6]；智慧圖書館開放性和共享性研究，將公司、政府、技術小組等多類對象納入圖書館服務平臺中來，減少交流障礙，提高服務效率[7]；使用物聯網射頻技術打造智慧圖書館硬件體系，如智慧書架等設施。[8-9]

信息時代的圖書館尤其是讀者信息質量需求更高的高校圖書館，應該重視加強信息管理及分析。所以，本文嘗試從智慧信息平臺架構、元數據組織格式、檢索算法等方面闡述高校智慧圖書館框架下信息組織與分析挖掘方法。

●智能信息平臺框架

高校智慧圖書館背景下的信息平臺應為用戶提供24小時全天候的實時信息服務，并滿足用戶個性化的需求。同時，不同于網絡資源多而雜，圖書館應為讀者提供更深層次的精細化的知識，減少檢索代價，提高信息質量。因此，高校智慧圖書館的信息平臺架構自底向上設計主要包括三個層次：數據層、算法層、用戶接口層（如下頁圖1）。

圖1 智能信息平臺框架

數據層按存儲對象不同分為兩大庫：用戶信息庫和知識庫。其中，用戶信息庫用于存儲每位用戶個人特征數據，便于后續程序進行特性化服務處理；知識庫按照數據類型不同又包括紙質圖書庫、電子圖書庫、電子期刊庫、視頻庫、音頻庫、圖片庫等。所有這些館藏數據庫合并在一起組成綜合信息平臺。

算法層是在數據層的基礎上對館藏數據進行文本分詞、特征提取等操作，將信息細化并挖掘其中關聯關系。數據類型不同處理方式也有所區別，圖像信息需要進行圖像識別工作，音頻信息需要進行語音文字提取工作。

當用戶接入信息平臺咨詢或檢索信息時，接口層的人工智能生成程序—如ChatGPT，通過交流獲取用戶輸入信息并傳遞給算法層，算法層提取信息中的關鍵詞并在綜合信息平臺中檢索，檢索結果根據用戶個人特征排名后通過人工智能程序使用自然語言反饋給用戶。

●以用戶為中心的信息維護

高校智慧圖書館框架下的信息資源平臺區別于傳統平臺的其中一個特征就是建立以用戶為中心的信息管理、組織、檢索模式。一改以往無差別的信息反饋形式，以用戶為中心的信息平臺搜集、存儲用戶日常行為數據，為每位用戶建立特征庫。當用戶使用平臺咨詢、檢索信息時，平臺根據用戶特征數據對檢索結果篩選、排序后再將最終結果傳遞給用戶。平臺搜集的用戶特征類別如圖2所示。

圖2 用戶特征分類

數據庫記錄用戶的身份信息、日常瀏覽習慣、年級年限、學科專業、重要的瀏覽記錄等。其中，身份信息包括在讀學生、教師、科研員、機關管理員等；年級年限指用戶所處年級或在校時長，通常認為在校時間越長信息需求深度越深、知識領域越窄；專業涵蓋學校所涉及的學科領域如海洋、汽車等；瀏覽習慣包括用戶日常慣用的數據庫平臺、瀏覽及下載的信息類型、高重復的檢索關鍵詞等。不同身份及年齡的用戶信息需求深度及寬度有所差別，大一、大二等低年級學生可能較為關注本專業基礎學科知識的學習和積累，研究型教師的學科領域更細化且對信息質量要求更高。同樣，不同專業之間權威數據庫不盡相同，平臺在用戶個性化服務中要參考用戶研究的細分領域有針對地進行檢索。

●多資源融合的元數據格式

圖書館的信息資源來源于多個平臺，包含多種類型，主要有館藏的紙質圖書、電子圖書、各期刊數據庫、專利數據庫、視頻資料庫、音頻資料庫、圖片資料庫等。雖然大部分圖書館均提供一站式檢索，但基本是以商用平臺為主，很少自己開發，這導致了商家之間購買協議及接口不兼容的問題，統一檢索不能針對本館館藏的所有資源，并且館內用戶均使用同一個賬戶或IP地址段訪問，無法做到用戶區分及個性化服務。高校智慧圖書館的信息服務應該具備全面、智能、高質量、個性化等特點，建立圖書館自己的綜合信息平臺是圖書館服務深化的必然需求。不同類型的資源信息內容不同、格式不同，要實現統一管理及檢索，首先需要設計資源間可關聯的統一的元數據格式。全方位的檢索應該能夠根據用戶需求檢全、檢準，并為用戶提供關聯知識及交叉領域的信息推薦。為了體現信息資源之間的關系，筆者使用實體-關系模型（Entity-relationship model，ER）對元數據進行概念模型設計（如圖3）。

圖3 元數據ER圖

在圖3中，數據被分為實體、屬性、關系三種，每個實體包含若干個屬性，實體與實體間存在不同類型關系。例如，新中國成立前及新中國成立初期文學家林徽因與徐志摩的相關內容就可以作為兩個實體存儲在數據庫中，他們各自包含若干屬性，如代表作、所處時間、地點、關系等。林徽因的代表作《你是人間的四月天》、徐志摩的代表作《徐志摩詩集》等都是館藏書籍，且林徽因與徐志摩之間經常有學術上的往來，是朋友關系。當用戶搜索林徽因時，信息平臺應能夠自動聯想出與林徽因關聯的以上信息供用戶選擇（如圖4）。

圖4 元數據ER圖示例

根據館藏資源類別及ER圖，還可以設計多資源融合信息平臺元數據組織格式，如下頁表所示。

每條元數據都包括表中的各個字段。其中，名稱字段指元數據的標題或信息標識，如果是圖書可以是書名，如果是人物、事件等信息可以是人物名稱、事件名稱；資源類型字段指該條元數據描述信息的類型，是紙質圖書、期刊文章，還是某個文學作家、歷史事件等；標簽字段存儲了元數據的描述性關鍵詞，如某個教學視頻主要講解了Python面向對象的代碼解釋方式，那么標簽屬性就可以概括成“Python”“編譯”“解釋性語言”等；內容字段包括元數據的重點內容、名言名句等代表性信息，提高用戶內容檢索效率；時間、地點字段表明了作者、關聯地點、重要時間節點等信息，便于用戶根據時間段檢索資源；學科字段存儲了數據所屬學科領域，該字段可以存儲多個學科字段，是交叉學科發現以及用戶定制檢索的基礎字段；互動數據字段用于表明元數據質量或者受歡迎程度，可以是文章下載量、瀏覽量，圖書借閱量以及其他類型資源轉發、點贊、評論量，一般認為該項數值越高，用戶感興趣可能性越大；其他關聯關系字段可以存儲多個值，用于指明該元數據與其他元數據之間的關系，如人物關系、包含關系、類別關系等。

●綜合檢索算法

不同類型信息檢索算法有所區別，按照處理對象類型不同可將其分為文本檢索、圖像檢索、音頻檢索等。其中，文本檢索最基礎、應用最廣泛。文本檢索過程包括清洗、分詞、特征提取等方面，如下頁圖5所示。

圖5 綜合檢索算法流程圖

首先，去掉文本中的重復項、空值、邏輯錯誤等影響分析的臟數據，即數據清洗；其次，對文本進行分詞，也就是將一整句話劃分為若干個有實際意義的詞，分詞處理時需要根據文本語種分別采用不同程序處理，Python語言框架下的NLTK（Natural Language Toolkit）庫實現了多種英文分詞算法，但是在中文分詞方面表現不佳。相對而言，Jieba庫的分詞算法則比較適合中文分詞場景。

元數據信息組織格式

在得到詞庫后，需要根據停用詞表去掉已經不用的詞匯，NLTK和Jieba庫中都有相應的停用詞表。在去停后，通過主題分析算法找出文本主題詞，主流主題詞提取算法有文檔主題生成模型（Latent Dirichlet Allocation，LDA）以及詞頻逆文本頻率指數算法（term frequency–inverse document frequency，TF-IDF）。前者根據實體詞在文檔中出現概率高低找出文檔主題；后者認為在本文檔中出現概率高而在其他文檔中出現率低的詞具有很強的代表性，使用哪種算法需視情況而定。

在主題分析后，通過聚類算法在主題詞中選出最具有代表性的幾個詞作為文檔的特征標簽項，并存儲在數據庫文檔元數據標簽字段中。同時，根據主題詞分析結果使用神經網絡算法，如膨脹卷積模型（Dilated convolution Model）提取文本特征并找出實體之間的關聯關系，將實體作為元數據存儲到數據庫中并記錄該關系。

檢索算法有很多種，如哈希搜索、分支界限搜索（Branch and Bound Search Algorithm）等，無論使用哪種檢索算法，針對高校智慧圖書館的智能信息平臺這種用戶信息需求專業性較強的場景，垂直搜索要比普通的頁面搜索更能為用戶提供有深度的服務。原因是，頁面搜索注重信息廣度和普遍性，垂直搜索追求信息挖掘深度和精度，所以垂直搜索更適用于高校智慧圖書館這種專業性高的場景。同時，高校智慧圖書館框架下的信息檢索結果需要根據用戶特征對結果進行排序后再反饋給用戶。

同樣檢索關鍵詞“神經網絡”，對于借閱書籍較多的低年級學生平臺將圖書檢索結果排在前面，而對于科研型教師則更多地將期刊、專利等方面的信息反饋給用戶。

與文本檢索不同，圖像檢索和音頻檢索均需要提取視頻、圖片、音頻中主要信息，需要將其轉成文字后再進入文本檢索過程。在圖像特征提取方面，常用算法有卷積神經網絡（Convolutional Neural Networks，CNN），它模擬生物視覺神經信息處理過程，輸入圖像經過模型卷積層、池化層、全連接層等多層處理輸出特征信息，CNN主要用于物體識別、行為認知等領域。音頻內容提取已有很多較為成熟的音頻文字提取工具，如百度AI、訊飛聽見等。

●知識圖譜展現

用戶接口層的人工智能生成程序接收到檢索結果后，使用自然語言將結果反饋給用戶。為了更直觀地展現檢索結果之間的關系以及衍生信息，平臺同時使用知識圖譜形式呈現檢索結果內容。知識圖譜工具有citespace、Gephi、vosviewer、SATI等。

仍以檢索關鍵詞“林徽因”為例，通過檢索算法識別關鍵詞“林徽因”，將數據庫中與“林徽因”相關的元數據及彼此關系以圖的形式反饋給用戶，如果用戶屬于低年級學生，平臺主要反饋館藏圖書相關信息。平臺不但將“林徽因”的個人情況及文學作品《你是人間的四月天》反饋給用戶，而且與“林徽因”相關的其他作家如“徐志摩”及其代表作也被顯示了出來，同時也給出各個作品的鏈接平臺，用戶可以通過點擊直接跳轉到書籍頁面。

●結論

高校智慧圖書館要重視信息的分析與處理，保證用戶信息服務質量。智能信息平臺使用融合的信息平臺和綜合檢索算法為AIGC提供了與前臺用戶交流的資源庫，但是圖書館的很多數據都有版權限制，能否將其直接傳遞給AIGC進行學習還需要進一步討論。為了盡可能多地利用多個館的館藏資源，設計館與館之間通用的元數據組織格式也是智能信息平臺未來改進需要考慮的問題。