張小娟 張永恒 楊斐



摘 要: 傳統方法評價結果高于MAP@all標準值,為了解決這一問題,提出了基于Hadoop技術的高校數字圖書館文獻檢索方法。運用Hadoop算法提取語義關鍵詞,再根據文獻檢索關鍵詞計算流程計算語義相似度。完成上述工作后,運用快速匹配法,獲得每個主題關鍵字比重權值??紤]不同主題生成文檔權值不同,構建文獻檢索模型,實現高效數字圖書館文獻檢索。由此,完成基于Hadoop技術的高校數字圖書館文獻檢索方法的設計。實驗中,在ACM數字圖書館中選取數據 40 000篇文獻,用于評價兩種方法的MAP@all值。實驗結果表明,所提方法MAP@all值小于0.004 0,傳統方法MAP@all值高于0.004 0。由此可知,所提方法的漏查率較低,符合設計需求。
關鍵詞: Hadoop技術; 高校數字圖書館; 文獻檢索; 語義相似度; 文本向量; 先驗概率; 相似度矩陣
中圖分類號: TP 391文獻標志碼: A
Research and Design of Document Retrieval Method of University
Digital Library Based on Hadoop Technology
ZHANG Xiaojuan, ZHANG Yongheng, YANG Fei
(School of Information Engineering, Yulin University, Yulin, Shanxi 719000, China)
Abstract: The evaluation results of traditional methods are higher than the MAP@ all standard value. In order to solve this problem, this paper proposes the document retrieval of university digital library based on Hadoop technology. The method uses Hadoop algorithm to extract semantic keywords, and then calculate semantic similarity according to the process of keyword calculation. After completing the above work, we use the fast matching method to obtain the proportion weight of each subject key. Considering the different weight of documents generated by different topics, a document retrieval model is constructed to realize efficient document retrieval in digital library. Therefore, the design of document retrieval method of university digital library based on Hadoop technology is completed. In the experiment, 40 000 documents were selected from ACM digital library to evaluate the MAP @ all value of the two methods. The experimental results show that the MAP @ all value of the proposed method is less than 0.004 0, and the MAP@ all value of the traditional method is higher than 0.004 0. It can be seen that the miss rate of the proposed method is low, and it meets the design requirements.
Key words: Hadoop technology; university digital library; document retrieval; semantic similarity; text vector; prior probability; similarity matrix
0 引言
在1995年美國數字圖書館就已經走在世界各國的前列。當前,國內的圖書館資料大多是以紙質為主,要實現數字圖書館就需要將紙質材料信息化。并在現有的電子文檔和視頻資源基礎上,構建數字圖書館的資料庫[1]。據報道大部分學校都建立了中國期刊網站點,維普中文科技期刊數據庫和萬方數據庫都已被廣泛采用。
傳統文獻檢索方法運用分層次檢索模型判斷信息,這對用戶所輸入的檢索字段準確性要求很高,導致返回結果出現很多無關數據。為了解決這一問題,提出基于Hadoop技術的高校數字圖書館文獻檢索方法。Hadoop技術是基于Map 編程思想的分布式計算環境。運行原理:將一個任務分解成多個子任務。這些子任務會被分配到不同服務器計算。Hadoop能夠保證每一次運算結果的可靠性,當Hadoop在同一時間維護了多個工作數據副本,就會重新分配計算任務,保證文獻檢索的準確性?;贖adoop技術的高效數字圖書館文獻檢索方法的具體實現過程如下。
1 文獻檢索語義關鍵詞提取
先處理輸入文本,刪除文本中的數字和標點符號,再根據Hadoop算法對文本進行分詞。分詞后,刪除不符合的關鍵詞[2]。在語義分析的過程中,字詞不是處理目標,詞義才是處理對象。當一個文本中出現單個詞或者組合詞時,要在WORDNET中尋找,詞義分析表達式為式(1)。
其中,s表示詞義,t表示處理對象,k表示組合詞。
運用公式(1)即可在WORDNET中尋找對應的含義。為了更精準的獲取候選詞的詞義,要消除歧義,分析語句消歧詞的語句,運用Hadoop技術得到候選詞詞義[3]。計算式為式(2)。
其中,k表示語句,用SenseScore函數計算s詞義相關度,c表示所有詞集合。
分析上下文集合c的語句時,要先消歧s,若s可以直接在語義表內找到對應候選詞,即可運用(2)進行消歧處理[3]。在計算的過程中,要迭代計算詞s和c中所有詞的相關度大小。通過比較每個詞義相關度,提取關鍵詞。排序結果最大的候選詞就是正確的詞義。
2 文獻檢索語義相似度計算
在提取文獻檢索語義關鍵詞后,考慮到文獻所包含的語義與關鍵字的語義會出現模糊問題,在方法的計算思路上,選擇Hadoop算法計算文獻檢索語義相似度[4]。計算過程展示如下。
文獻檢索關鍵詞計算流程,如圖1所示。
圖1中的wn為計算的關鍵字樣本1和樣本2的潛在的n個關鍵詞分向量[5]。
基于Hadoop的文本向量為d=(w1,w2,w3,…,wn),n為潛在主題數目。兩個文本的相似度計算公式為式(3):
其中,d1,d2表示待計算的兩個文本向量,θ表示這兩個文本向量的夾角,d1wi表示d1文本的第
wi個分向量。運用公式(3)即可避免模糊問題[6]。
在計算的過程中,要使用關鍵字作為文本分量,根據表1填充文本相似度矩陣的行和列,如表1所示。
運用表1時,要注意以下幾點;
(1) 矩陣不是對稱,在兩個矩陣單元的文本關鍵字相似度計算時,不同主題下的關鍵字計算結果不同,但這不是一個對稱矩陣[7]。
(2) 計算過程復雜,當文本中包含很多關鍵字時,不同關鍵字可能處于不同主題下,計算過程較為復雜,需要在后續數據挖掘的過程中不斷改進[8]。
3 文獻檢索設計
先提取文獻檢索關鍵詞,再計算語義相似度[9]。為了更好的滿足高校學生的需求,運用快速匹配法,獲得每個主題關鍵字的比重權值,計算式為式(4)。
其中,T表示關鍵詞總數,freq(keyi)表示關鍵詞key次數,p表示輸入文字[10]。
運用公式(4)計算每個關鍵詞出現的次數,即為關鍵字在輸入文字p中的權重。
考慮不同主題生成的文檔權值不同,需要構建文獻檢索模型[11]。基于Hadoop技術的高校數字圖書館文獻檢索模型,如圖2所示。
當文本在處理階段時,需要預先處理文本數據源,利用Hadoop算法逐一計算,得到關鍵詞下文獻的權重。利用文獻間的引用關系構建應用網絡[12]。網絡中的每個頂點代表一篇文獻,每條邊代表一個引文上下文。運用Hadoop技術得到一個有向網絡圖,用于改變不同主題下的先驗概率分布情況。其次,當用戶生成查詢時,用戶檢索詞可以是一段上下文信息的文本。當文本處于匹配查找階段,系統會預先處理輸入長文本,將涉及到的主體關鍵字進行基于Hadoop技術的匹配查詢工作[13]??紤]到不同關鍵字下文獻相對權重不同,需要根據用戶需求計算每一篇文獻的先驗概率。
在完成文獻檢索模型構建后,需要對提出的基于Hadoop技術的高校數字圖書館文獻檢索模型進行評價[14]。研究中,采用常用的評價指標,選取準則為,要選取一定量已知摘要,輸入這部分文字,將文獻已知的引用信息作為評價標準,用于比對文獻推薦結果和標準結果。在NDCG評價指標過程中,要先劃分每個數據的權重,劃分原則為,測試數據中的文獻若被引用 ,權值應大于0.若測試數據中的文獻未被引用,權值應為0。對于已經引用的測試數據應根據被引次數確定權值,權值應為1-4。若被測數據引用過1次,權值應為1。若被測數據引用次數大于4次,權值應為4[15]。
基于Hadoop技術的高校數字圖書館文獻檢索方法實現,具體檢索流程如下;
Step1,輸入任意長度文本,系統會根據給定的信息找出有關輸入對象的相關文獻,并以相似度大小的排序結果給出。
Step2,在輸入文本信息后,會直接給出相關文獻檢索結果。
Step3 ,點擊每條文獻給定的連接,從高校官方網站中瀏覽文獻的詳細信息。
Step4,系統提供高級檢索,可以調整相關參數,得到不同檢索結果。
Step5,參數值會影響檢索結果,若用戶在意文本相似度,參數1應該取值更大。若用戶更關注特定主題下的結果,參數2應該取值更大。若用戶更關注近幾年發表的文獻,參數3應該取值更大。
由此,完成基于Hadoop技術的高校數字圖書館文獻檢索方法的設計。
4 仿真測試析
4.1 實驗數據及實驗環境
實驗針對基于Hadoop技術的高校數字圖書館文獻檢索方法設計的關鍵要素設置實驗環境。首先,采用MATLAB仿真軟件作為實驗平臺,在ACM數字圖書館中選取數據 40 000篇文獻,計算這些文獻在3 500個主題下的權值。主題個數是由Hadoop技術訓練得到的。涵蓋了ACM數據集中使用頻率最高的關鍵詞。全部文獻的權重之和為1。運用這些數據,構成文獻檢索的訓練數據。為了評價傳統方法和基于Hadoop技術的高校數字圖書館文獻檢索方法的效率,選取200篇文獻,分別采用傳統方法和基于Hadoop技術的高校數字圖書館文獻檢索方法對200篇文獻進行檢索。實驗數據具有以下特點;
(1) 第一,這200篇文獻都可以獲取全文信息。其中,摘要的字數長度為200字左右,全文信息長度為1 000字左右。
(2) 可以保證檢驗數據的準確性。
(3) 這200篇文獻都包含20條文獻。這些文獻是指定的。
(4) 文獻貢獻值較高。
以MAP@all值作為實驗評價標準,MAP@all值表示文獻檢索中所有類別漏查率的平均值。MAP@all的標準值為0.004 0。
4.2 結果與分析
傳統方法和本文方法評價結果如表2和表3所示。
由表2和表3可知,使用傳統方法的評價結果較差。出現這樣的原因是因為在文獻檢索時,沒有考慮到被檢索的文本信息?;贖adoop技術的高校數字圖書館文獻檢索方法的評價結果在0.003 0左右,低于標準值,漏查率較低,符合設計需求。由此,證明所建的基于Hadoop技術的高校數字圖書館文獻檢索方法符合設計需求。
5 總結
針對傳統方法存在的問題,提出基于Hadoop技術的高校數字圖書館文獻檢索方法。先提取文獻檢索關鍵詞,再計算文獻語義相似度,完成上述工作后,構建高效數字圖書館文獻檢索模型的構建,實現文獻檢索。由此,完成本次設計。
上接第13頁)
參考文獻
[1] 谷參. 基于分布式結構的圖書館信息檢索服務系統研究[J]. 現代電子技術, 2017, 40(1):83-85.
[2] 徐彤陽, 任浩然. 數字圖書館圖像資源檢索框架的構建與實現——基于非下采樣的Contourlet變換[J]. 現代情報, 2017, 37(6):55-60.
[3] 魏曉萍, 李紅培. 基于RFID的低利用率文獻高密度存儲——上海大學圖書館RFID密集庫建設實踐[J]. 圖書館理論與實踐, 2017.22(10):88-91.
[4] 劉飛. 基于4I營銷原則的高校圖書館閱讀推廣研究[J]. 圖書館工作與研究, 2017, 1(9):36-39.
[5] 王翠英. 基于經典扎根理論的我國高校圖書館FOLKSONOMY實施機制實證研究[J]. 情報科學, 2017, 35(1):90-102.
[6] 顧海兵, 朱凱. 國家經濟安全指標確定和修正的文獻檢索法:方法論與案例[J]. 南京社會科學, 2017.32(3):26-33.
[7] 張聰, 趙怡晴. 基于Hadoop技術的突水治理平臺的云服務及實現[J]. 工業安全與環保, 2017, 43(12):16-20.
[8] 韓平平, 張祥民. Hadoop數據存儲分析技術在風電并網系統中的應用[J]. 電力系統及其自動化學報, 2018, 30(1):43-50.
[9] 蒙杰, 楊生舉. 基于Hadoop的海量科技信息資源管理系統設計與實現[J]. 科技管理研究, 2017, 37(13):181-186.
[10] 于萬鈞, 沈斌. 基于角色與信任的訪問控制及其在Hadoop上的實現[J]. 現代電子技術, 2017, 40(24):9-11.
[11] 高玉平. 海量圖書檢索信息的快速查詢系統優化設計研究[J]. 現代電子技術, 2017, 40(6):13-17.
[12] 韓正彪, 羅瑞. 學術用戶情感控制與心智模型對信息檢索績效影響的實驗研究[J]. 情報理論與實踐, 2017, 40(1):59-64.
[13] 周棟, 趙文玉. 個性化跨語言信息檢索中結果重排序研究[J]. 計算機工程與科學, 2017, 39(10):1922-1929.
[14] 江小燕, 王明輝. 基于本體的PPP項目風險信息建模與檢索[J]. 土木工程與管理學報, 2018, 35(1):66-72.
[15] 袁敏, 段景輝. 基于云計算環境下的信息檢索及智能融合的研究[J]. 現代電子技術, 2018, 41(6):162-164.
(收稿日期: 2019.12.12)
基金項目:陜西省教育科學規劃課題(編號:SGH18H418);陜西省教育廳科學研究項目(編號:18JK0909);陜西省教育科學規劃課題(編號: SGH17H282)
作者簡介:
張小娟(1981-),女,碩士,講師,研究方向:信息組織與檢索、云計算、知識圖譜與大數據分析。
張永恒(1968-),男,碩士,教授,研究方向:計算機應用與技術、云計算、農業大數據等。
楊斐(1982-),男,碩士,副教授,研究方向:大數據、電子商務等。