劉芳
(陜西學(xué)前師范學(xué)院陜西西安710100)
人類在獲得知識過程中的方式主要包括兩種,第一種為實踐,第二種為閱讀。雖然實踐非常重要,但是能夠通過閱讀有效掌握先輩們的實踐成果及經(jīng)驗,圖書館屬于學(xué)校及整個社會尤為重要的部分,其使我們站在巨人肩膀中學(xué)習(xí)[1]。在現(xiàn)代信息大爆炸時代不斷來臨及專業(yè)分類不斷細(xì)化的過程中,對于圖書文獻(xiàn)分類具有大量的要求。為了能夠有效滿足現(xiàn)代圖書館設(shè)備管理需求,避免因為人為管理出現(xiàn)的錯誤,就要實現(xiàn)圖書館文獻(xiàn)分類系統(tǒng)的設(shè)計和開發(fā)[2]。目前,國內(nèi)外圖書館文獻(xiàn)分類系統(tǒng)的主要趨勢為網(wǎng)絡(luò)化、資源化、個性化及小型化,其不僅能夠?qū)崿F(xiàn)分布式資源相互操作的特點,還能夠?qū)崿F(xiàn)并行處理高速查詢。大部分的圖書館已經(jīng)實現(xiàn)編目、采訪、閱覽、流通及信息咨詢等工作自動化統(tǒng)計及管理,提高了圖書館服務(wù)質(zhì)量及工作效率。但是部分圖書館并沒有得到完善,其分類系統(tǒng)更新比較緩慢,學(xué)科分類比較單一,無法滿足現(xiàn)代全新文獻(xiàn)分類需求[3]。基于此,文中實現(xiàn)了基于LDA模型的圖書館文獻(xiàn)分類系統(tǒng)的設(shè)計。
因為傳統(tǒng)圖書館文獻(xiàn)在手工操作模式中,圖書編目及借閱的工作量比較大,并且精準(zhǔn)性較低,所以就要創(chuàng)建圖書館多種功能,詳見圖1,根據(jù)需求對主要功能需求進(jìn)行歸納[4]。

圖1 圖書館文獻(xiàn)分類系統(tǒng)的功能模塊
通過圖1可以看出來,用戶不需要登錄就能夠?qū)D書館圖書信息及文獻(xiàn)信息進(jìn)行檢索及瀏覽,如果用戶使用借書證號及密碼實現(xiàn)系統(tǒng)的登錄,可以使用讀者論壇、圖書館及資源共享等模塊功能[5]。圖2為管理員的需求功能結(jié)構(gòu)。

圖2 系統(tǒng)管理員的需求功能結(jié)構(gòu)
圖書管理人員主要是圖書館文獻(xiàn)分類系統(tǒng)的使用人員,參與到圖書館中的所有業(yè)務(wù),其比普通用戶具有更多的需求。其能夠?qū)崿F(xiàn)圖書信息、借閱人員信息、總體借閱情況信息管理及統(tǒng)計,并且還能夠?qū)D書基本信息進(jìn)行瀏覽、添加及查詢等操作[6]。
目前,學(xué)科分類越來越細(xì)化,單一學(xué)科逐漸朝著跨學(xué)科及學(xué)科交叉方向發(fā)展,同一個文獻(xiàn)能夠同時屬于多個學(xué)科及多個主題。傳統(tǒng)圖書館分類系統(tǒng)是利用詞和詞之間對比對文獻(xiàn)相似性進(jìn)行判斷。但是,基于現(xiàn)實語言環(huán)境,兩個共同語句較少文獻(xiàn)有可能表達(dá)相同主題,只是使用不同闡述方式。所以,在對比文獻(xiàn)的時候,可以通過其對相同主題的描述對其相似度進(jìn)行描述。本文所研究的基于LDA模型的圖書館文獻(xiàn)分類系統(tǒng)全面考慮了標(biāo)簽及頻率相關(guān)性,提高了系統(tǒng)的性能[7]。圖3為基于LDA模型的圖書館文獻(xiàn)分類系統(tǒng)的用例圖。

圖3 基于LDA模型的圖書館文獻(xiàn)分類系統(tǒng)的用例圖
文中設(shè)計的系統(tǒng)主要包括特征抽取、預(yù)處理、文獻(xiàn)分類及分類訓(xùn)練器模塊。其中預(yù)處理模塊的功能就是實現(xiàn)圖書館現(xiàn)有格式文獻(xiàn)資源的格式轉(zhuǎn)換,統(tǒng)一使其轉(zhuǎn)換成為文本文檔格式,并且實現(xiàn)格式文檔分詞處理等;其中分類器訓(xùn)練模塊的主要目的為將包括語義信息特征到判別式分類模型中放入實現(xiàn)分類器參數(shù)訓(xùn)練,使用訓(xùn)練參數(shù)實現(xiàn)分類器的定義;特征抽取模塊使用LDA模型實現(xiàn)文本特征的表示,并且實現(xiàn)特征提取,對其進(jìn)行權(quán)值賦予;文獻(xiàn)分類模型的功能為用戶通過對需要分類的文檔進(jìn)行有效的選擇,實現(xiàn)分類結(jié)果目錄的指定,實現(xiàn)所有文檔分類,之后到結(jié)果文件中輸入[8]。圖4為圖書館文獻(xiàn)分類系統(tǒng)的主要結(jié)構(gòu)。
文中所設(shè)計的基于LDA模型的文獻(xiàn)分類系統(tǒng)主要目的為實現(xiàn)移動數(shù)字圖書館內(nèi)容的數(shù)字化,也就是實現(xiàn)相關(guān)文獻(xiàn)資料的數(shù)字化。其能夠以圖書分類系統(tǒng)為基礎(chǔ),根據(jù)讀者需求實現(xiàn)不同形式的制作,所以制作之后的形式并不同[9]。圖5為圖書館文獻(xiàn)分類系統(tǒng)的硬件結(jié)構(gòu)。

圖4 圖書館文獻(xiàn)分類系統(tǒng)的主要結(jié)構(gòu)

圖5 圖書館文獻(xiàn)分類系統(tǒng)的硬件結(jié)構(gòu)
文中研究系統(tǒng)的開發(fā)使用的軟件及硬件環(huán)境主要為:應(yīng)用層使用功能VStuido集成化開發(fā)環(huán)境,在實現(xiàn)文本規(guī)范化處理的過程中,主要包括去停用詞及中文分詞等,利用分詞實現(xiàn)文本的為基本詞集合。其中特征抽取模塊指的是從文本中選擇能夠有效將文本類別反應(yīng)出來的詞作為特征,之后實現(xiàn)特征提取;文獻(xiàn)分類模塊使用戶利用需要分類的文檔選擇實現(xiàn)分類結(jié)果目錄的制定,之后實現(xiàn)所有文檔分類;分類器訓(xùn)練模塊將包括語義信息特征到分類模型中存放,之后實現(xiàn)分類器參數(shù)的訓(xùn)練,使用訓(xùn)練之后的參數(shù)進(jìn)行分類器的定義[10]。圖6為圖書館文獻(xiàn)分類系統(tǒng)的詳細(xì)設(shè)計結(jié)構(gòu)。

圖6 圖書館文獻(xiàn)分類系統(tǒng)的詳細(xì)設(shè)計結(jié)構(gòu)
3.2.1 預(yù)處理模塊
圖書館文獻(xiàn)資源格式各不相同,首先要實現(xiàn)多種格式數(shù)據(jù)的轉(zhuǎn)化,使其能夠成為計算機便于處理的格式,在此過程中要刪除文本標(biāo)點符號及空格。出國文檔處理之后,要使用正向最大匹配及CRF方法相互結(jié)合實現(xiàn)分詞處理,之后對文本中的詞進(jìn)行逐一的掃描,將詞實現(xiàn)相互匹配,實現(xiàn)停用詞的過濾處理,最后得出文檔分解的詞列表,在本次磁盤中存儲[11]。圖7為圖書館文獻(xiàn)資源轉(zhuǎn)換格式的流程。

圖7 圖書館文獻(xiàn)資源轉(zhuǎn)換格式的流程
3.2.2 特征抽取模塊
在文本分類中,要想能夠提高計算機對真實文本的處理效果,就要尋找理想形式化表示方法,此種表示方法要能夠?qū)⑽臋n內(nèi)容充分的反映出來。傳統(tǒng)圖書館文獻(xiàn)分類系統(tǒng)是利用詞之前對比實現(xiàn)文獻(xiàn)相似性判斷,但是現(xiàn)實語境中的共同詞語較少文獻(xiàn)在表達(dá)相同主題的時候使用參數(shù)方式不同,所以還要全面了解其對主題的判斷。LDA屬于實現(xiàn)文本數(shù)據(jù)主題信息建模的方式,其能夠簡單描述文檔,保存本質(zhì)統(tǒng)計信息,從而有效提高文檔集大規(guī)模處理的高效性。所以本系統(tǒng)使用LDA主題模型表示文本特征,從而實現(xiàn)文本特征抽取模塊的創(chuàng)建[12-13]。圖8為特征抽取模塊處理的過程。

圖8 特征抽取模塊處理的過程
3.2.3 分類器訓(xùn)練模塊
圖9為分類器訓(xùn)練模塊的算法流程,首先實現(xiàn)模型的加載,之后得到加載的類別,最后將模型進(jìn)行銷毀。

圖9 分類器訓(xùn)練模塊的算法流程
3.2.4 文獻(xiàn)分類模塊
以文本主題條件為基礎(chǔ),使系統(tǒng)對此矩陣矩陣模塊進(jìn)行讀取,對于需要分類的文本使用此矩陣實現(xiàn)文本分類,將分類的結(jié)果到本地硬盤中實現(xiàn)序列化[14-16]。圖10為文獻(xiàn)分類模塊的流程。

圖10 文獻(xiàn)分類模塊的流程
表1為圖書館文獻(xiàn)分類系統(tǒng)中相應(yīng)的信息表。

表1 用戶基本信息表

表2 圖書文獻(xiàn)信息表
現(xiàn)在多標(biāo)簽的文本分類還并沒有滿足理想分類性能需求,并且也無法滿足圖書館學(xué)術(shù)文獻(xiàn)分類實際使用需求,其具有一定的提高空間。對本文所研究系統(tǒng)進(jìn)行全面的分析,表示其能夠有效滿足用戶需求,確定主題模型的數(shù)量,實現(xiàn)大規(guī)模主體模型的訓(xùn)練,實現(xiàn)大量數(shù)據(jù)的處理。