999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型的圖書館文獻(xiàn)分類系統(tǒng)設(shè)計與開發(fā)

2018-08-25 08:14:44劉芳
電子設(shè)計工程 2018年16期
關(guān)鍵詞:分類圖書館文本

劉芳

(陜西學(xué)前師范學(xué)院陜西西安710100)

人類在獲得知識過程中的方式主要包括兩種,第一種為實踐,第二種為閱讀。雖然實踐非常重要,但是能夠通過閱讀有效掌握先輩們的實踐成果及經(jīng)驗,圖書館屬于學(xué)校及整個社會尤為重要的部分,其使我們站在巨人肩膀中學(xué)習(xí)[1]。在現(xiàn)代信息大爆炸時代不斷來臨及專業(yè)分類不斷細(xì)化的過程中,對于圖書文獻(xiàn)分類具有大量的要求。為了能夠有效滿足現(xiàn)代圖書館設(shè)備管理需求,避免因為人為管理出現(xiàn)的錯誤,就要實現(xiàn)圖書館文獻(xiàn)分類系統(tǒng)的設(shè)計和開發(fā)[2]。目前,國內(nèi)外圖書館文獻(xiàn)分類系統(tǒng)的主要趨勢為網(wǎng)絡(luò)化、資源化、個性化及小型化,其不僅能夠?qū)崿F(xiàn)分布式資源相互操作的特點,還能夠?qū)崿F(xiàn)并行處理高速查詢。大部分的圖書館已經(jīng)實現(xiàn)編目、采訪、閱覽、流通及信息咨詢等工作自動化統(tǒng)計及管理,提高了圖書館服務(wù)質(zhì)量及工作效率。但是部分圖書館并沒有得到完善,其分類系統(tǒng)更新比較緩慢,學(xué)科分類比較單一,無法滿足現(xiàn)代全新文獻(xiàn)分類需求[3]。基于此,文中實現(xiàn)了基于LDA模型的圖書館文獻(xiàn)分類系統(tǒng)的設(shè)計。

1 系統(tǒng)需求分析

因為傳統(tǒng)圖書館文獻(xiàn)在手工操作模式中,圖書編目及借閱的工作量比較大,并且精準(zhǔn)性較低,所以就要創(chuàng)建圖書館多種功能,詳見圖1,根據(jù)需求對主要功能需求進(jìn)行歸納[4]。

圖1 圖書館文獻(xiàn)分類系統(tǒng)的功能模塊

通過圖1可以看出來,用戶不需要登錄就能夠?qū)D書館圖書信息及文獻(xiàn)信息進(jìn)行檢索及瀏覽,如果用戶使用借書證號及密碼實現(xiàn)系統(tǒng)的登錄,可以使用讀者論壇、圖書館及資源共享等模塊功能[5]。圖2為管理員的需求功能結(jié)構(gòu)。

圖2 系統(tǒng)管理員的需求功能結(jié)構(gòu)

圖書管理人員主要是圖書館文獻(xiàn)分類系統(tǒng)的使用人員,參與到圖書館中的所有業(yè)務(wù),其比普通用戶具有更多的需求。其能夠?qū)崿F(xiàn)圖書信息、借閱人員信息、總體借閱情況信息管理及統(tǒng)計,并且還能夠?qū)D書基本信息進(jìn)行瀏覽、添加及查詢等操作[6]。

2 圖書館文獻(xiàn)分類系統(tǒng)總體設(shè)計

目前,學(xué)科分類越來越細(xì)化,單一學(xué)科逐漸朝著跨學(xué)科及學(xué)科交叉方向發(fā)展,同一個文獻(xiàn)能夠同時屬于多個學(xué)科及多個主題。傳統(tǒng)圖書館分類系統(tǒng)是利用詞和詞之間對比對文獻(xiàn)相似性進(jìn)行判斷。但是,基于現(xiàn)實語言環(huán)境,兩個共同語句較少文獻(xiàn)有可能表達(dá)相同主題,只是使用不同闡述方式。所以,在對比文獻(xiàn)的時候,可以通過其對相同主題的描述對其相似度進(jìn)行描述。本文所研究的基于LDA模型的圖書館文獻(xiàn)分類系統(tǒng)全面考慮了標(biāo)簽及頻率相關(guān)性,提高了系統(tǒng)的性能[7]。圖3為基于LDA模型的圖書館文獻(xiàn)分類系統(tǒng)的用例圖。

圖3 基于LDA模型的圖書館文獻(xiàn)分類系統(tǒng)的用例圖

文中設(shè)計的系統(tǒng)主要包括特征抽取、預(yù)處理、文獻(xiàn)分類及分類訓(xùn)練器模塊。其中預(yù)處理模塊的功能就是實現(xiàn)圖書館現(xiàn)有格式文獻(xiàn)資源的格式轉(zhuǎn)換,統(tǒng)一使其轉(zhuǎn)換成為文本文檔格式,并且實現(xiàn)格式文檔分詞處理等;其中分類器訓(xùn)練模塊的主要目的為將包括語義信息特征到判別式分類模型中放入實現(xiàn)分類器參數(shù)訓(xùn)練,使用訓(xùn)練參數(shù)實現(xiàn)分類器的定義;特征抽取模塊使用LDA模型實現(xiàn)文本特征的表示,并且實現(xiàn)特征提取,對其進(jìn)行權(quán)值賦予;文獻(xiàn)分類模型的功能為用戶通過對需要分類的文檔進(jìn)行有效的選擇,實現(xiàn)分類結(jié)果目錄的指定,實現(xiàn)所有文檔分類,之后到結(jié)果文件中輸入[8]。圖4為圖書館文獻(xiàn)分類系統(tǒng)的主要結(jié)構(gòu)。

3 基于LDA模型的圖書館文獻(xiàn)分類系統(tǒng)的設(shè)計

3.1 系統(tǒng)硬件設(shè)計

文中所設(shè)計的基于LDA模型的文獻(xiàn)分類系統(tǒng)主要目的為實現(xiàn)移動數(shù)字圖書館內(nèi)容的數(shù)字化,也就是實現(xiàn)相關(guān)文獻(xiàn)資料的數(shù)字化。其能夠以圖書分類系統(tǒng)為基礎(chǔ),根據(jù)讀者需求實現(xiàn)不同形式的制作,所以制作之后的形式并不同[9]。圖5為圖書館文獻(xiàn)分類系統(tǒng)的硬件結(jié)構(gòu)。

圖4 圖書館文獻(xiàn)分類系統(tǒng)的主要結(jié)構(gòu)

圖5 圖書館文獻(xiàn)分類系統(tǒng)的硬件結(jié)構(gòu)

3.2 系統(tǒng)的詳細(xì)設(shè)計

文中研究系統(tǒng)的開發(fā)使用的軟件及硬件環(huán)境主要為:應(yīng)用層使用功能VStuido集成化開發(fā)環(huán)境,在實現(xiàn)文本規(guī)范化處理的過程中,主要包括去停用詞及中文分詞等,利用分詞實現(xiàn)文本的為基本詞集合。其中特征抽取模塊指的是從文本中選擇能夠有效將文本類別反應(yīng)出來的詞作為特征,之后實現(xiàn)特征提取;文獻(xiàn)分類模塊使用戶利用需要分類的文檔選擇實現(xiàn)分類結(jié)果目錄的制定,之后實現(xiàn)所有文檔分類;分類器訓(xùn)練模塊將包括語義信息特征到分類模型中存放,之后實現(xiàn)分類器參數(shù)的訓(xùn)練,使用訓(xùn)練之后的參數(shù)進(jìn)行分類器的定義[10]。圖6為圖書館文獻(xiàn)分類系統(tǒng)的詳細(xì)設(shè)計結(jié)構(gòu)。

圖6 圖書館文獻(xiàn)分類系統(tǒng)的詳細(xì)設(shè)計結(jié)構(gòu)

3.2.1 預(yù)處理模塊

圖書館文獻(xiàn)資源格式各不相同,首先要實現(xiàn)多種格式數(shù)據(jù)的轉(zhuǎn)化,使其能夠成為計算機便于處理的格式,在此過程中要刪除文本標(biāo)點符號及空格。出國文檔處理之后,要使用正向最大匹配及CRF方法相互結(jié)合實現(xiàn)分詞處理,之后對文本中的詞進(jìn)行逐一的掃描,將詞實現(xiàn)相互匹配,實現(xiàn)停用詞的過濾處理,最后得出文檔分解的詞列表,在本次磁盤中存儲[11]。圖7為圖書館文獻(xiàn)資源轉(zhuǎn)換格式的流程。

圖7 圖書館文獻(xiàn)資源轉(zhuǎn)換格式的流程

3.2.2 特征抽取模塊

在文本分類中,要想能夠提高計算機對真實文本的處理效果,就要尋找理想形式化表示方法,此種表示方法要能夠?qū)⑽臋n內(nèi)容充分的反映出來。傳統(tǒng)圖書館文獻(xiàn)分類系統(tǒng)是利用詞之前對比實現(xiàn)文獻(xiàn)相似性判斷,但是現(xiàn)實語境中的共同詞語較少文獻(xiàn)在表達(dá)相同主題的時候使用參數(shù)方式不同,所以還要全面了解其對主題的判斷。LDA屬于實現(xiàn)文本數(shù)據(jù)主題信息建模的方式,其能夠簡單描述文檔,保存本質(zhì)統(tǒng)計信息,從而有效提高文檔集大規(guī)模處理的高效性。所以本系統(tǒng)使用LDA主題模型表示文本特征,從而實現(xiàn)文本特征抽取模塊的創(chuàng)建[12-13]。圖8為特征抽取模塊處理的過程。

圖8 特征抽取模塊處理的過程

3.2.3 分類器訓(xùn)練模塊

圖9為分類器訓(xùn)練模塊的算法流程,首先實現(xiàn)模型的加載,之后得到加載的類別,最后將模型進(jìn)行銷毀。

圖9 分類器訓(xùn)練模塊的算法流程

3.2.4 文獻(xiàn)分類模塊

以文本主題條件為基礎(chǔ),使系統(tǒng)對此矩陣矩陣模塊進(jìn)行讀取,對于需要分類的文本使用此矩陣實現(xiàn)文本分類,將分類的結(jié)果到本地硬盤中實現(xiàn)序列化[14-16]。圖10為文獻(xiàn)分類模塊的流程。

圖10 文獻(xiàn)分類模塊的流程

3.3 數(shù)據(jù)庫的設(shè)計

表1為圖書館文獻(xiàn)分類系統(tǒng)中相應(yīng)的信息表。

表1 用戶基本信息表

表2 圖書文獻(xiàn)信息表

4 結(jié)束語

現(xiàn)在多標(biāo)簽的文本分類還并沒有滿足理想分類性能需求,并且也無法滿足圖書館學(xué)術(shù)文獻(xiàn)分類實際使用需求,其具有一定的提高空間。對本文所研究系統(tǒng)進(jìn)行全面的分析,表示其能夠有效滿足用戶需求,確定主題模型的數(shù)量,實現(xiàn)大規(guī)模主體模型的訓(xùn)練,實現(xiàn)大量數(shù)據(jù)的處理。

猜你喜歡
分類圖書館文本
分類算一算
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
教你一招:數(shù)的分類
飛躍圖書館
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
圖書館里的是是非非
主站蜘蛛池模板: 亚洲国产亚综合在线区| 精品成人一区二区| 日本免费一级视频| 亚洲午夜18| 国产欧美又粗又猛又爽老| 欧美一区二区啪啪| 国产精品久久久精品三级| 亚洲最猛黑人xxxx黑人猛交| 一级毛片高清| 麻豆国产原创视频在线播放| 四虎影视无码永久免费观看| 国产交换配偶在线视频| 亚洲嫩模喷白浆| 欧洲欧美人成免费全部视频| 国产手机在线小视频免费观看| 亚洲日韩精品无码专区97| 一本二本三本不卡无码| 四虎永久在线精品影院| 欧美成人区| 91在线国内在线播放老师 | 久久精品国产免费观看频道| 欧美国产日产一区二区| 毛片网站观看| 制服丝袜在线视频香蕉| 2021天堂在线亚洲精品专区| 青青草原偷拍视频| 四虎影视8848永久精品| 国产中文在线亚洲精品官网| 九九这里只有精品视频| 成人小视频网| www精品久久| 免费一级全黄少妇性色生活片| 狠狠亚洲婷婷综合色香| 日韩免费视频播播| 久久国产精品无码hdav| 波多野吉衣一区二区三区av| 亚洲乱伦视频| 理论片一区| 国产精品任我爽爆在线播放6080 | 999福利激情视频| 美女一区二区在线观看| 国产成熟女人性满足视频| 成人久久精品一区二区三区| 欧美精品亚洲精品日韩专| www.亚洲一区| 日本精品视频一区二区| 精品一区国产精品| 成人午夜网址| 国产国模一区二区三区四区| 蝴蝶伊人久久中文娱乐网| 国产成人av一区二区三区| 18禁不卡免费网站| 日韩不卡免费视频| a毛片基地免费大全| 欧美综合中文字幕久久| 黄色网站在线观看无码| 国产精品免费露脸视频| 91无码人妻精品一区| 国产精品手机视频| 暴力调教一区二区三区| 亚洲一区二区约美女探花| 一本一本大道香蕉久在线播放| 日韩精品视频久久| 国产成人精品一区二区三区| 国产麻豆福利av在线播放 | 国产亚洲日韩av在线| 中文字幕日韩欧美| 天堂岛国av无码免费无禁网站 | 亚洲欧美精品在线| 精品国产一区二区三区在线观看 | 欧美第九页| 亚洲色精品国产一区二区三区| 91黄视频在线观看| 狠狠v日韩v欧美v| 不卡视频国产| 欧美日韩国产在线人| 日韩精品无码一级毛片免费| 亚洲成人动漫在线| 欧美一区精品| 国产97视频在线观看| 国产微拍一区二区三区四区| 国产成人综合亚洲欧美在|