999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop技術的高校數字圖書館文獻檢索方法研究與設計

2020-07-29 08:55:36張小娟張永恒楊斐
微型電腦應用 2020年7期
關鍵詞:圖書館文本方法

張小娟 張永恒 楊斐

摘 要: 傳統方法評價結果高于MAP@all標準值,為了解決這一問題,提出了基于Hadoop技術的高校數字圖書館文獻檢索方法。運用Hadoop算法提取語義關鍵詞,再根據文獻檢索關鍵詞計算流程計算語義相似度。完成上述工作后,運用快速匹配法,獲得每個主題關鍵字比重權值??紤]不同主題生成文檔權值不同,構建文獻檢索模型,實現高效數字圖書館文獻檢索。由此,完成基于Hadoop技術的高校數字圖書館文獻檢索方法的設計。實驗中,在ACM數字圖書館中選取數據 40 000篇文獻,用于評價兩種方法的MAP@all值。實驗結果表明,所提方法MAP@all值小于0.004 0,傳統方法MAP@all值高于0.004 0。由此可知,所提方法的漏查率較低,符合設計需求。

關鍵詞: Hadoop技術; 高校數字圖書館; 文獻檢索; 語義相似度; 文本向量; 先驗概率; 相似度矩陣

中圖分類號: TP 391文獻標志碼: A

Research and Design of Document Retrieval Method of University

Digital Library Based on Hadoop Technology

ZHANG Xiaojuan, ZHANG Yongheng, YANG Fei

(School of Information Engineering, Yulin University, Yulin, Shanxi 719000, China)

Abstract: The evaluation results of traditional methods are higher than the MAP@ all standard value. In order to solve this problem, this paper proposes the document retrieval of university digital library based on Hadoop technology. The method uses Hadoop algorithm to extract semantic keywords, and then calculate semantic similarity according to the process of keyword calculation. After completing the above work, we use the fast matching method to obtain the proportion weight of each subject key. Considering the different weight of documents generated by different topics, a document retrieval model is constructed to realize efficient document retrieval in digital library. Therefore, the design of document retrieval method of university digital library based on Hadoop technology is completed. In the experiment, 40 000 documents were selected from ACM digital library to evaluate the MAP @ all value of the two methods. The experimental results show that the MAP @ all value of the proposed method is less than 0.004 0, and the MAP@ all value of the traditional method is higher than 0.004 0. It can be seen that the miss rate of the proposed method is low, and it meets the design requirements.

Key words: Hadoop technology; university digital library; document retrieval; semantic similarity; text vector; prior probability; similarity matrix

0 引言

在1995年美國數字圖書館就已經走在世界各國的前列。當前,國內的圖書館資料大多是以紙質為主,要實現數字圖書館就需要將紙質材料信息化。并在現有的電子文檔和視頻資源基礎上,構建數字圖書館的資料庫[1]。據報道大部分學校都建立了中國期刊網站點,維普中文科技期刊數據庫和萬方數據庫都已被廣泛采用。

傳統文獻檢索方法運用分層次檢索模型判斷信息,這對用戶所輸入的檢索字段準確性要求很高,導致返回結果出現很多無關數據。為了解決這一問題,提出基于Hadoop技術的高校數字圖書館文獻檢索方法。Hadoop技術是基于Map 編程思想的分布式計算環境。運行原理:將一個任務分解成多個子任務。這些子任務會被分配到不同服務器計算。Hadoop能夠保證每一次運算結果的可靠性,當Hadoop在同一時間維護了多個工作數據副本,就會重新分配計算任務,保證文獻檢索的準確性?;贖adoop技術的高效數字圖書館文獻檢索方法的具體實現過程如下。

1 文獻檢索語義關鍵詞提取

先處理輸入文本,刪除文本中的數字和標點符號,再根據Hadoop算法對文本進行分詞。分詞后,刪除不符合的關鍵詞[2]。在語義分析的過程中,字詞不是處理目標,詞義才是處理對象。當一個文本中出現單個詞或者組合詞時,要在WORDNET中尋找,詞義分析表達式為式(1)。

其中,s表示詞義,t表示處理對象,k表示組合詞。

運用公式(1)即可在WORDNET中尋找對應的含義。為了更精準的獲取候選詞的詞義,要消除歧義,分析語句消歧詞的語句,運用Hadoop技術得到候選詞詞義[3]。計算式為式(2)。

其中,k表示語句,用SenseScore函數計算s詞義相關度,c表示所有詞集合。

分析上下文集合c的語句時,要先消歧s,若s可以直接在語義表內找到對應候選詞,即可運用(2)進行消歧處理[3]。在計算的過程中,要迭代計算詞s和c中所有詞的相關度大小。通過比較每個詞義相關度,提取關鍵詞。排序結果最大的候選詞就是正確的詞義。

2 文獻檢索語義相似度計算

在提取文獻檢索語義關鍵詞后,考慮到文獻所包含的語義與關鍵字的語義會出現模糊問題,在方法的計算思路上,選擇Hadoop算法計算文獻檢索語義相似度[4]。計算過程展示如下。

文獻檢索關鍵詞計算流程,如圖1所示。

圖1中的wn為計算的關鍵字樣本1和樣本2的潛在的n個關鍵詞分向量[5]。

基于Hadoop的文本向量為d=(w1,w2,w3,…,wn),n為潛在主題數目。兩個文本的相似度計算公式為式(3):

其中,d1,d2表示待計算的兩個文本向量,θ表示這兩個文本向量的夾角,d1wi表示d1文本的第

wi個分向量。運用公式(3)即可避免模糊問題[6]。

在計算的過程中,要使用關鍵字作為文本分量,根據表1填充文本相似度矩陣的行和列,如表1所示。

運用表1時,要注意以下幾點;

(1) 矩陣不是對稱,在兩個矩陣單元的文本關鍵字相似度計算時,不同主題下的關鍵字計算結果不同,但這不是一個對稱矩陣[7]。

(2) 計算過程復雜,當文本中包含很多關鍵字時,不同關鍵字可能處于不同主題下,計算過程較為復雜,需要在后續數據挖掘的過程中不斷改進[8]。

3 文獻檢索設計

先提取文獻檢索關鍵詞,再計算語義相似度[9]。為了更好的滿足高校學生的需求,運用快速匹配法,獲得每個主題關鍵字的比重權值,計算式為式(4)。

其中,T表示關鍵詞總數,freq(keyi)表示關鍵詞key次數,p表示輸入文字[10]。

運用公式(4)計算每個關鍵詞出現的次數,即為關鍵字在輸入文字p中的權重。

考慮不同主題生成的文檔權值不同,需要構建文獻檢索模型[11]。基于Hadoop技術的高校數字圖書館文獻檢索模型,如圖2所示。

當文本在處理階段時,需要預先處理文本數據源,利用Hadoop算法逐一計算,得到關鍵詞下文獻的權重。利用文獻間的引用關系構建應用網絡[12]。網絡中的每個頂點代表一篇文獻,每條邊代表一個引文上下文。運用Hadoop技術得到一個有向網絡圖,用于改變不同主題下的先驗概率分布情況。其次,當用戶生成查詢時,用戶檢索詞可以是一段上下文信息的文本。當文本處于匹配查找階段,系統會預先處理輸入長文本,將涉及到的主體關鍵字進行基于Hadoop技術的匹配查詢工作[13]??紤]到不同關鍵字下文獻相對權重不同,需要根據用戶需求計算每一篇文獻的先驗概率。

在完成文獻檢索模型構建后,需要對提出的基于Hadoop技術的高校數字圖書館文獻檢索模型進行評價[14]。研究中,采用常用的評價指標,選取準則為,要選取一定量已知摘要,輸入這部分文字,將文獻已知的引用信息作為評價標準,用于比對文獻推薦結果和標準結果。在NDCG評價指標過程中,要先劃分每個數據的權重,劃分原則為,測試數據中的文獻若被引用 ,權值應大于0.若測試數據中的文獻未被引用,權值應為0。對于已經引用的測試數據應根據被引次數確定權值,權值應為1-4。若被測數據引用過1次,權值應為1。若被測數據引用次數大于4次,權值應為4[15]。

基于Hadoop技術的高校數字圖書館文獻檢索方法實現,具體檢索流程如下;

Step1,輸入任意長度文本,系統會根據給定的信息找出有關輸入對象的相關文獻,并以相似度大小的排序結果給出。

Step2,在輸入文本信息后,會直接給出相關文獻檢索結果。

Step3 ,點擊每條文獻給定的連接,從高校官方網站中瀏覽文獻的詳細信息。

Step4,系統提供高級檢索,可以調整相關參數,得到不同檢索結果。

Step5,參數值會影響檢索結果,若用戶在意文本相似度,參數1應該取值更大。若用戶更關注特定主題下的結果,參數2應該取值更大。若用戶更關注近幾年發表的文獻,參數3應該取值更大。

由此,完成基于Hadoop技術的高校數字圖書館文獻檢索方法的設計。

4 仿真測試析

4.1 實驗數據及實驗環境

實驗針對基于Hadoop技術的高校數字圖書館文獻檢索方法設計的關鍵要素設置實驗環境。首先,采用MATLAB仿真軟件作為實驗平臺,在ACM數字圖書館中選取數據 40 000篇文獻,計算這些文獻在3 500個主題下的權值。主題個數是由Hadoop技術訓練得到的。涵蓋了ACM數據集中使用頻率最高的關鍵詞。全部文獻的權重之和為1。運用這些數據,構成文獻檢索的訓練數據。為了評價傳統方法和基于Hadoop技術的高校數字圖書館文獻檢索方法的效率,選取200篇文獻,分別采用傳統方法和基于Hadoop技術的高校數字圖書館文獻檢索方法對200篇文獻進行檢索。實驗數據具有以下特點;

(1) 第一,這200篇文獻都可以獲取全文信息。其中,摘要的字數長度為200字左右,全文信息長度為1 000字左右。

(2) 可以保證檢驗數據的準確性。

(3) 這200篇文獻都包含20條文獻。這些文獻是指定的。

(4) 文獻貢獻值較高。

以MAP@all值作為實驗評價標準,MAP@all值表示文獻檢索中所有類別漏查率的平均值。MAP@all的標準值為0.004 0。

4.2 結果與分析

傳統方法和本文方法評價結果如表2和表3所示。

由表2和表3可知,使用傳統方法的評價結果較差。出現這樣的原因是因為在文獻檢索時,沒有考慮到被檢索的文本信息?;贖adoop技術的高校數字圖書館文獻檢索方法的評價結果在0.003 0左右,低于標準值,漏查率較低,符合設計需求。由此,證明所建的基于Hadoop技術的高校數字圖書館文獻檢索方法符合設計需求。

5 總結

針對傳統方法存在的問題,提出基于Hadoop技術的高校數字圖書館文獻檢索方法。先提取文獻檢索關鍵詞,再計算文獻語義相似度,完成上述工作后,構建高效數字圖書館文獻檢索模型的構建,實現文獻檢索。由此,完成本次設計。

上接第13頁)

參考文獻

[1] 谷參. 基于分布式結構的圖書館信息檢索服務系統研究[J]. 現代電子技術, 2017, 40(1):83-85.

[2] 徐彤陽, 任浩然. 數字圖書館圖像資源檢索框架的構建與實現——基于非下采樣的Contourlet變換[J]. 現代情報, 2017, 37(6):55-60.

[3] 魏曉萍, 李紅培. 基于RFID的低利用率文獻高密度存儲——上海大學圖書館RFID密集庫建設實踐[J]. 圖書館理論與實踐, 2017.22(10):88-91.

[4] 劉飛. 基于4I營銷原則的高校圖書館閱讀推廣研究[J]. 圖書館工作與研究, 2017, 1(9):36-39.

[5] 王翠英. 基于經典扎根理論的我國高校圖書館FOLKSONOMY實施機制實證研究[J]. 情報科學, 2017, 35(1):90-102.

[6] 顧海兵, 朱凱. 國家經濟安全指標確定和修正的文獻檢索法:方法論與案例[J]. 南京社會科學, 2017.32(3):26-33.

[7] 張聰, 趙怡晴. 基于Hadoop技術的突水治理平臺的云服務及實現[J]. 工業安全與環保, 2017, 43(12):16-20.

[8] 韓平平, 張祥民. Hadoop數據存儲分析技術在風電并網系統中的應用[J]. 電力系統及其自動化學報, 2018, 30(1):43-50.

[9] 蒙杰, 楊生舉. 基于Hadoop的海量科技信息資源管理系統設計與實現[J]. 科技管理研究, 2017, 37(13):181-186.

[10] 于萬鈞, 沈斌. 基于角色與信任的訪問控制及其在Hadoop上的實現[J]. 現代電子技術, 2017, 40(24):9-11.

[11] 高玉平. 海量圖書檢索信息的快速查詢系統優化設計研究[J]. 現代電子技術, 2017, 40(6):13-17.

[12] 韓正彪, 羅瑞. 學術用戶情感控制與心智模型對信息檢索績效影響的實驗研究[J]. 情報理論與實踐, 2017, 40(1):59-64.

[13] 周棟, 趙文玉. 個性化跨語言信息檢索中結果重排序研究[J]. 計算機工程與科學, 2017, 39(10):1922-1929.

[14] 江小燕, 王明輝. 基于本體的PPP項目風險信息建模與檢索[J]. 土木工程與管理學報, 2018, 35(1):66-72.

[15] 袁敏, 段景輝. 基于云計算環境下的信息檢索及智能融合的研究[J]. 現代電子技術, 2018, 41(6):162-164.

(收稿日期: 2019.12.12)

基金項目:陜西省教育科學規劃課題(編號:SGH18H418);陜西省教育廳科學研究項目(編號:18JK0909);陜西省教育科學規劃課題(編號: SGH17H282)

作者簡介:

張小娟(1981-),女,碩士,講師,研究方向:信息組織與檢索、云計算、知識圖譜與大數據分析。

張永恒(1968-),男,碩士,教授,研究方向:計算機應用與技術、云計算、農業大數據等。

楊斐(1982-),男,碩士,副教授,研究方向:大數據、電子商務等。

猜你喜歡
圖書館文本方法
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
飛躍圖書館
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
圖書館里的是是非非
捕魚
去圖書館
主站蜘蛛池模板: 99re视频在线| 大香网伊人久久综合网2020| 又粗又硬又大又爽免费视频播放| 九九香蕉视频| 一本大道视频精品人妻 | 久久婷婷五月综合色一区二区| 四虎综合网| 欧美午夜精品| 日韩中文字幕亚洲无线码| 亚洲视频色图| 亚洲男人的天堂网| 欧美一级在线看| 中文字幕有乳无码| 无码AV高清毛片中国一级毛片| 国产交换配偶在线视频| 欧洲一区二区三区无码| 国产综合色在线视频播放线视| 白丝美女办公室高潮喷水视频| 国产精品自在在线午夜| 精品无码一区二区在线观看| 国产第一页免费浮力影院| 国产在线啪| 亚洲日韩精品综合在线一区二区| 日韩精品一区二区三区免费在线观看| 国产一区三区二区中文在线| 亚洲国产综合第一精品小说| 欧美自拍另类欧美综合图区| a级毛片一区二区免费视频| 国产精品网址你懂的| 亚洲人人视频| 久久国产V一级毛多内射| 毛片卡一卡二| 97亚洲色综久久精品| 成年av福利永久免费观看| 精品福利视频导航| 视频二区欧美| 免费不卡视频| 欧美一级色视频| 成年午夜精品久久精品| 亚洲欧美日韩综合二区三区| 丰满人妻久久中文字幕| WWW丫丫国产成人精品| 新SSS无码手机在线观看| 国产一线在线| 日韩亚洲综合在线| 99久久国产综合精品女同| 999福利激情视频| 国产成人av大片在线播放| 国产97视频在线观看| 国产毛片片精品天天看视频| 在线观看网站国产| 亚洲国产欧美国产综合久久| 日韩美一区二区| 日韩精品免费一线在线观看| 欧美不卡二区| 国产亚洲美日韩AV中文字幕无码成人| 色婷婷天天综合在线| 国产在线视频导航| 欧美亚洲另类在线观看| 午夜福利无码一区二区| 日本一本正道综合久久dvd| 国产网友愉拍精品| 亚洲va欧美ⅴa国产va影院| 欧美影院久久| 91无码视频在线观看| 国产特级毛片aaaaaaa高清| 国产精品国产主播在线观看| 72种姿势欧美久久久久大黄蕉| 91在线播放国产| 色悠久久久久久久综合网伊人| 幺女国产一级毛片| 乱人伦中文视频在线观看免费| 国产凹凸视频在线观看| 中文字幕在线不卡视频| 无码精品国产VA在线观看DVD| 一区二区三区国产精品视频| 这里只有精品国产| 成年人国产网站| 91po国产在线精品免费观看| 亚洲国产天堂久久综合| 亚洲国产系列| 欧美啪啪网|