基于LDA模型的圖書館文獻分類系統設計與開發

2018-08-25 08:14:44劉芳

電子設計工程 2018年16期

劉芳

（陜西學前師范學院陜西西安710100）

人類在獲得知識過程中的方式主要包括兩種，第一種為實踐，第二種為閱讀。雖然實踐非常重要，但是能夠通過閱讀有效掌握先輩們的實踐成果及經驗，圖書館屬于學校及整個社會尤為重要的部分，其使我們站在巨人肩膀中學習[1]。在現代信息大爆炸時代不斷來臨及專業分類不斷細化的過程中，對于圖書文獻分類具有大量的要求。為了能夠有效滿足現代圖書館設備管理需求，避免因為人為管理出現的錯誤，就要實現圖書館文獻分類系統的設計和開發[2]。目前，國內外圖書館文獻分類系統的主要趨勢為網絡化、資源化、個性化及小型化，其不僅能夠實現分布式資源相互操作的特點，還能夠實現并行處理高速查詢。大部分的圖書館已經實現編目、采訪、閱覽、流通及信息咨詢等工作自動化統計及管理，提高了圖書館服務質量及工作效率。但是部分圖書館并沒有得到完善，其分類系統更新比較緩慢，學科分類比較單一，無法滿足現代全新文獻分類需求[3]。基于此，文中實現了基于LDA模型的圖書館文獻分類系統的設計。

1 系統需求分析

因為傳統圖書館文獻在手工操作模式中，圖書編目及借閱的工作量比較大，并且精準性較低，所以就要創建圖書館多種功能，詳見圖1，根據需求對主要功能需求進行歸納[4]。

圖1 圖書館文獻分類系統的功能模塊

通過圖1可以看出來，用戶不需要登錄就能夠對圖書館圖書信息及文獻信息進行檢索及瀏覽，如果用戶使用借書證號及密碼實現系統的登錄，可以使用讀者論壇、圖書館及資源共享等模塊功能[5]。圖2為管理員的需求功能結構。

圖2 系統管理員的需求功能結構

圖書管理人員主要是圖書館文獻分類系統的使用人員，參與到圖書館中的所有業務，其比普通用戶具有更多的需求。其能夠實現圖書信息、借閱人員信息、總體借閱情況信息管理及統計，并且還能夠對圖書基本信息進行瀏覽、添加及查詢等操作[6]。

2 圖書館文獻分類系統總體設計

目前，學科分類越來越細化，單一學科逐漸朝著跨學科及學科交叉方向發展，同一個文獻能夠同時屬于多個學科及多個主題。傳統圖書館分類系統是利用詞和詞之間對比對文獻相似性進行判斷。但是，基于現實語言環境，兩個共同語句較少文獻有可能表達相同主題，只是使用不同闡述方式。所以，在對比文獻的時候，可以通過其對相同主題的描述對其相似度進行描述。本文所研究的基于LDA模型的圖書館文獻分類系統全面考慮了標簽及頻率相關性，提高了系統的性能[7]。圖3為基于LDA模型的圖書館文獻分類系統的用例圖。

圖3 基于LDA模型的圖書館文獻分類系統的用例圖

文中設計的系統主要包括特征抽取、預處理、文獻分類及分類訓練器模塊。其中預處理模塊的功能就是實現圖書館現有格式文獻資源的格式轉換，統一使其轉換成為文本文檔格式，并且實現格式文檔分詞處理等；其中分類器訓練模塊的主要目的為將包括語義信息特征到判別式分類模型中放入實現分類器參數訓練，使用訓練參數實現分類器的定義；特征抽取模塊使用LDA模型實現文本特征的表示，并且實現特征提取，對其進行權值賦予；文獻分類模型的功能為用戶通過對需要分類的文檔進行有效的選擇，實現分類結果目錄的指定，實現所有文檔分類，之后到結果文件中輸入[8]。圖4為圖書館文獻分類系統的主要結構。

3 基于LDA模型的圖書館文獻分類系統的設計

3.1 系統硬件設計

文中所設計的基于LDA模型的文獻分類系統主要目的為實現移動數字圖書館內容的數字化，也就是實現相關文獻資料的數字化。其能夠以圖書分類系統為基礎，根據讀者需求實現不同形式的制作，所以制作之后的形式并不同[9]。圖5為圖書館文獻分類系統的硬件結構。

圖4 圖書館文獻分類系統的主要結構

圖5 圖書館文獻分類系統的硬件結構

3.2 系統的詳細設計

文中研究系統的開發使用的軟件及硬件環境主要為：應用層使用功能VStuido集成化開發環境，在實現文本規范化處理的過程中，主要包括去停用詞及中文分詞等，利用分詞實現文本的為基本詞集合。其中特征抽取模塊指的是從文本中選擇能夠有效將文本類別反應出來的詞作為特征，之后實現特征提取；文獻分類模塊使用戶利用需要分類的文檔選擇實現分類結果目錄的制定，之后實現所有文檔分類；分類器訓練模塊將包括語義信息特征到分類模型中存放，之后實現分類器參數的訓練，使用訓練之后的參數進行分類器的定義[10]。圖6為圖書館文獻分類系統的詳細設計結構。

圖6 圖書館文獻分類系統的詳細設計結構

3.2.1 預處理模塊

圖書館文獻資源格式各不相同，首先要實現多種格式數據的轉化，使其能夠成為計算機便于處理的格式，在此過程中要刪除文本標點符號及空格。出國文檔處理之后，要使用正向最大匹配及CRF方法相互結合實現分詞處理，之后對文本中的詞進行逐一的掃描，將詞實現相互匹配，實現停用詞的過濾處理，最后得出文檔分解的詞列表，在本次磁盤中存儲[11]。圖7為圖書館文獻資源轉換格式的流程。

圖7 圖書館文獻資源轉換格式的流程

3.2.2 特征抽取模塊

在文本分類中，要想能夠提高計算機對真實文本的處理效果，就要尋找理想形式化表示方法，此種表示方法要能夠將文檔內容充分的反映出來。傳統圖書館文獻分類系統是利用詞之前對比實現文獻相似性判斷，但是現實語境中的共同詞語較少文獻在表達相同主題的時候使用參數方式不同，所以還要全面了解其對主題的判斷。LDA屬于實現文本數據主題信息建模的方式，其能夠簡單描述文檔，保存本質統計信息，從而有效提高文檔集大規模處理的高效性。所以本系統使用LDA主題模型表示文本特征，從而實現文本特征抽取模塊的創建[12-13]。圖8為特征抽取模塊處理的過程。

圖8 特征抽取模塊處理的過程

3.2.3 分類器訓練模塊

圖9為分類器訓練模塊的算法流程，首先實現模型的加載，之后得到加載的類別，最后將模型進行銷毀。

圖9 分類器訓練模塊的算法流程

3.2.4 文獻分類模塊

以文本主題條件為基礎，使系統對此矩陣矩陣模塊進行讀取，對于需要分類的文本使用此矩陣實現文本分類，將分類的結果到本地硬盤中實現序列化[14-16]。圖10為文獻分類模塊的流程。

圖10 文獻分類模塊的流程

3.3 數據庫的設計

表1為圖書館文獻分類系統中相應的信息表。

表1 用戶基本信息表

表2 圖書文獻信息表

4 結束語

現在多標簽的文本分類還并沒有滿足理想分類性能需求，并且也無法滿足圖書館學術文獻分類實際使用需求，其具有一定的提高空間。對本文所研究系統進行全面的分析，表示其能夠有效滿足用戶需求，確定主題模型的數量，實現大規模主體模型的訓練，實現大量數據的處理。