999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據分析挖掘的地質文獻推薦方法研究

2017-09-18 02:44:54張戈一胡博然常力恒朱月琴2呂鵬飛
中國礦業 2017年9期
關鍵詞:圖書館

張戈一,胡博然,常力恒,朱月琴2,,呂鵬飛

(1.中國礦業大學(北京),北京 100083;2.國土資源部地質信息技術重點實驗室,北京 100037;3.中國地質調查局發展研究中心,北京 100037;4.中國地質大學(北京),北京 100083;5.中國地質圖書館,北京 100083;6.中國科學院大學,北京 100049)

基于大數據分析挖掘的地質文獻推薦方法研究

張戈一1,2,胡博然3,4,常力恒3,朱月琴2,3,呂鵬飛5,6

(1.中國礦業大學(北京),北京 100083;2.國土資源部地質信息技術重點實驗室,北京 100037;3.中國地質調查局發展研究中心,北京 100037;4.中國地質大學(北京),北京 100083;5.中國地質圖書館,北京 100083;6.中國科學院大學,北京 100049)

地質圖書館書籍多,數據資料龐大,然而卻存在數據資料增長過快和難以發現讀者興趣點的問題。實現高效的圖書館借閱數據挖掘分析與推薦,是提高效率的重要手段。為此本文提出了基于大數據地質文獻分析挖掘平臺,包括聚類分析,中文分詞,推薦系統,關聯分析功能,再通過Hadoop集群多節點進行推薦,從而提高了工作的效率。

大數據技術;分詞技術;推薦系統;并行計算

隨著圖書館館藏文獻資源的不斷豐富,讀者往往遇到兩類問題。第一類問題就是讀者學習能力無法匹配信息量的爆炸增長,數據資料增長過快,全球新產生的數據平均每隔三年就會增長一倍。截至2010年底,清華圖書館機房有110臺服務器,集中存儲170 TB的數據資料,而國家圖書館資源總量更是470 TB。這些分布在不同系統中的形態不同、結構方式各異的資源,既包括傳統文獻,也包括各種類型的數字化資源,還包括其它虛擬館藏等各種多媒體資源,各種資源的積累,給圖書館提供了海量數據[1]。第二類問題是讀者如何從極度豐富的信息中發現自己的興趣點。讀者對地質圖書文獻有一定的需求,在線瀏覽的過程中,如何精準的找到自己想要的資料。大數據時代下,如何以“大數據”為基礎,從大量的數據中方便快捷的發現用戶的行為特征、定制自己的需求[2]。

1 大數據分析挖掘地質圖書服務帶來的機遇和挑戰

1.1大數據分析挖掘帶來的挑戰

地質文獻資料可以利用大數據分析挖掘技術,提供定制化。基于大數據分析挖掘的方式,通過數據的提取、清洗、轉化,實現知識多維度、多層次的關聯分析,建立讀者文獻關系網絡,利用該網絡了解用戶的行為、業務需求,向用戶做準確信息推送。大數據具有挖掘、發現、預測的能力,大數據背景下通過深層次的數據分析,包括關聯分析,聚類分析,決策分析等方法,圖書館不僅可以了解當前讀者需要什么服務,還能夠準確分析和預測讀者未來的服務需求,為未來需求提前做準備。在大數據時代,圖書館服務將很大程度上依靠數據分析、數據挖掘而形成的新規律、新知識,從而提升服務質量[3]。

1.2大數據分析挖掘的研究應用現狀

大數據時代,人們在不斷探求大數據與數字圖書館的融合點,國外學者在理念、技術和應用方面做了許多研究。Renaud借助大數據技術,探索學生與數字圖書館的交互過程,分析不同的交互維度、子維度及其相關指標對于數字圖書館交互功能的關聯性[4]。在技術方面,美國加州大學洛杉磯分校的Brewster Kahle等正在著手構建一個巨大的數字化圖書館,那里收錄了幾乎所有曾經出版的書籍、電影以及各個方面的歷史網頁,使數字圖書館更好地融于互聯網,更好地利用大數據。在國內研究方面也有許多相關成果和理念,曾建勛等[5]提出利用現有的大數據平臺技術,在全國范圍內推動圖書館大數據數字化平臺建設。陳傳夫等[6]闡明了大數據環境下應對非結構化數據管理的問題,應形成一種新型的、分布式的和整合式的資源集成平臺。劉煒等[7]強調在大數據時代數字圖書館闡述了對于圖書館在Web上發布書目數據和規范數據的重要意義,認為關聯數據與網絡時代的圖書情報工作關系密切。陳臣[8]提出大數據時代下的“小數據”具有更高的決策價值。陳茫等[9]闡述大數據技術已經對移動技術產生沖擊,二者的結合更加深入人心。樊偉紅等[10]重點探討了圖書館大數據建立各種風險評估模型以及用戶流失和價值分析等問題;王天泥[11]提出在圖書館領域應用“3A5步法”的新模式。Chen Ming等[12]探討了圖書館大數據的存儲、數據挖掘以及個性化服務等具體技術,提出以Hadoop+MapReduce并行架構的大數據應用方案。綜上所述,通過大數據的方式進行地質文獻的分析挖掘,推薦預測是切實可行的。

2 現有文獻推薦推薦模型對比

現有的智能文獻推薦方法,比較主流的有三種:基于內容推薦法、協同過濾推薦系統法和關聯規則推薦法。三種推薦方式,對于源數據的種類不同,應用的方式也就不同。基于內容推薦法,其核心是內容過濾,掃描出推薦內容與讀者需求內容的相似,從而對讀者進行推薦。但由于這種系統不能發現用戶的新要求,只能推薦用戶以前閱讀過程中出現的主題,因此該方法應用有所限制[13-17]。協同過濾推薦系統法:其核心是針對特定讀者群體或者書籍群體,基于讀者的協同過濾推薦,通過讀者對于資源的評價,匹配不同讀者的之間的相似度,尋找偏好相似的讀者,對偏好相似的讀者匹配的一種推薦方式;基于書籍的協同過濾推薦法是尋找書籍之間的相似度,對書籍相似度較大從而進行推薦的一種方式。但隨著資源與讀者數量的增加,對于計算機處理能力要求也隨之增長,而且此類方法的性能發揮依靠讀者的評價,應用難度比較大。基于關聯分析的推薦系統法,其核心是數據匹配、聚類等數據挖掘方法[18-20]。綜上所述,單獨的推薦系統在高校圖書館的實際應用過程中暴露出了一系列的問題,例如:校內信息資源利用率不高、推薦輸出不穩定、精準度較低等[15-17]。

3 基于大數據平臺的地質文獻推薦

大數據環境下推薦系統的主要可以從以下幾個方面闡述:①數據處理需要更高的能力,數據量增多,數據維度廣,數據稀疏性大,數據冗余多等問題,均需特殊關注;②地質圖書館的數據宜采用隱式反饋數據。讀者看不到利益的情況下,需要額外的付出,很難獲得主觀評分,從而導致質量不高;③由于數據更新速度較快,需要以數據的增量為主,以便及時進行動態更新;④豐富的信息對準確性的提高提供了便利,在大數據環境下,同時面臨這信息過載的問題,需要通過手段篩選出有用的信息[21](表1)。

3.1地質大數據分析挖掘平臺

地質資料是地質工作人員長期積累形成的重要知識成果,由于地質資料的管理分散,使得資料用于共享,服務,使用等用途相對薄弱,制約了地質資料發揮其潛在的科研價值。針對此問題,我國地質領域開展了地質信息化研究,目的是對地質資料的集成集群和深度開發,使得地質資料從分散的各處得意集中到幾臺服務器上,從而實現信息共享,消除信息孤島。Hadoop是大數據應用最廣泛的開源分布式文件存儲及處理框架[22]。Hadoop核心模塊包括HDFS與MapReduce。Hadoop是一個較為穩定的管理平臺,以HDFS、MapReduce為基礎,用HDFS提供的分布式計算存儲作為底層支持,能夠運行數量龐大的PC server組成的集群。部署于平臺上的軟件,可以采取多種語言編輯,其中最基本的語言包括Java、Python、R語言等。在此基礎上通過Java、R等語言建立了書籍借閱分析挖掘軟件,其主要功能包括:聚類分析、關聯挖掘、中文分詞、推薦決策功能。聚類分析功能主要針對不同種類的書籍借閱數量往往不同的問題,根據聚類分析得出借閱該種類書籍的數量,數量用箱型線表示,說明借閱數量上下有波動,方便讀者一次性借閱準確的數量。關聯分析功能可以輸出大部分讀者借閱該種圖書后,后續借閱圖書的種類,對于讀者借閱有指導性意義。功能界面如圖1和圖2所示。

表1 大數據環境下推薦系統與傳統推薦系統的差異

圖1 聚類分析結果圖

3.2地質數據來源

為了有效地通過數據挖掘來真實反映出讀者的借閱需求,必須要求分析的數據樣本量足夠大。本文采用中國地質圖書館2014~2015年借閱記錄共18 438條記錄。中國地質圖書館圖書管理自動化系統是以SYBASE進行開發的數據庫系統,該系統包含大量的數據表,根據數據挖掘的需要設置限制條件,通SQL語句從眾多的數據表中提取相關數據。其中2014年的借閱數據作為訓練數據,2015年的借閱數據作為評價結果的測試數據。數據格式見表2。

3.3基于自然語言處理的文獻信息預處理

中文自動分詞語技術是重要的地質資料與地質文獻智能分析挖掘的預處理技術。分詞技術包括三種,基于統計的分詞方法、基于理解的分詞方法和基于匹配的分詞方法。北京航空航天大學的CDWS是我國第一個實用的自動分詞系統,此后分別由山西大學、北京航天航空大學、清華大學、復旦大學、哈爾濱工業大學、杭州大學、微軟、北京大學、中國科學院等不同機構開發了一些比較著名的、有代表性的分詞系統[23]。本文采取基于統計與匹配的混合分詞方法。基于字典匹配的分詞方法可以精確切分出現在詞典中的詞語,但是無法處理歧義字段;基于統計的分詞方法可以處理未登錄的專有名詞和歧義字段,但是需要大量的詞頻計算耗費時間,并且準確率相比匹配法相對較低,將二者結合可以從一定程度上提高分詞的效率。經處理后的分詞詞頻部分結果統計如圖3所示。

在提升分詞效果方面,已有很多人致力于未登陸詞識別的研究,并取得了較好的效果,具體處理方式分兩類,即通過句法和語義分析處理和利用統計的方法來解決。例如杜麗萍等[24]提出的利用大規模語料庫進行新詞發現,用新詞發現結果編纂用戶詞典,加載到分詞系統中。新詞發現的原理是確定2元待擴展種子,將2元待擴展種子擴展至2~n元,過濾候選新詞,人工判定。其算法的關鍵點是通過計算PMI值將結果量化,方便進行篩選和比較。彭琦等[25]提出了基于詞頻歧義消解的中文分詞方法,其核心思想是在歧義字段出現后,利用正則表達式,將歧義字段通過不同形式表達出來,比較二者的比值,若超過設定的閾值,則消除歧義。中國科學院計算技術研究所研制的中文詞法分析系統實際使用的分詞系統都是把使用詞表的機械分詞為一種初分手段,再利用其他的詞類信息來進一步提高切分的準確率,包括未登錄詞的識別。而歧義切分和未登錄詞識別,則是分詞技術的難點,也是現階段所有自動分詞算法熱點問題。從中文分詞的研究來看,至今還沒有哪一種方法可以完全解決中文分詞過程中遇到的所有問題,并且各種解決方法也各有優劣。

圖2 關聯分析結果圖

圖3 詞頻統計結果圖

表2 原數據格式表

3.4地學文獻推薦模型以及并行計算

耦合協同過濾和關聯分析的算法[26]在論文中已經提及,為了進一步提高工作效率,在原有的推薦模型上,采取并行計算的方式。

由于原始數據并沒有涉及到評分問題,或者有少許部分評分導致了推薦稀疏性的問題,為了解決此問題,統一采取人為規定還書時間與借書時間的差值作為評分的依據。書籍節約有效期一般為三個月,以三個月為期限,將對書籍的評分分為1~5,當借閱時間少于一個星期,定義為無興趣書籍類型,借閱時間超過一星期,少于一個月定義為低閱讀興趣,依次類推,當書籍超過有效期,并由借閱者提出續借請求時,定義為最有興趣圖書。在耦合算法計算過程中,先通過分詞結果中的關鍵詞,匹配圖書種類,如關鍵詞“白堊紀”會匹配到具體類別“古生物學/微體古生物學”,關鍵詞“海平面升降”會匹配到“沉積學、沉積巖巖石學”等(圖5)。

圖4 算法流程框架模型

3.4.1 硬件環境

測試用到的硬件環境,其中window環境下采用單節點,基于Hadoop集群在電腦上部署的集群,其中,3臺PC作為DataNode,1臺PC作為NameNode。

圖5 薦結果圖

表3 硬件環境表

3.4.2 對比實驗

為了對比推薦模型在單節點數和多節點數下的工作效率,將圖書館借閱元數據推薦系統最大節點數設置為4,在試驗中用來實驗的數據量分別為180條、1 800條、18 000條、36 000條、72 000條,每組數據實驗三次,取平均值作為實驗結果如圖6所示。

圖6 對比實驗結果圖

從圖6中可以看出來,在借閱數據分別為180條和1 800條的時候,單節點的運行速度是少于多節點的運行速度,是因為在做并行計算的過程中,單節點不涉及到數據分配到各個節點直接進行推薦算法的運行,時間相比多節點先分配再計算要短;當借閱數據超過18 000條時,單節點的算法的運行時間明顯比多節點運行時間要長,而且隨著數據量的不斷增加,單節點的算法運行時間增加明顯,也就是說,在大數據的環境下,并行計算具有明顯的優勢,提高了推薦系統的效率。

4 結論與展望

當數字圖書館朝著智能化方向發展,能給讀者提供更靈活且針對性強的圖書推薦服務。隨著大數據技術的發展和應用,如果在大量樣本或是全樣本的學習下,這部分的研究應該能得到更大程度的提供。利用目前流行的Hadoop技術和自然語言處理技術,再進一步采集用戶信息,構建用戶智能信息模型的基礎上,直接針對書籍全文信息構建基于用戶的知識智能提取,達到服務的多粒度,如在更準確的提供書籍推薦的同時,也可以直接特定用戶提供知識片段服務等等。

[1] 朱靜薇,李紅艷.大數據時代下圖書館的挑戰及其應對策略[J].現代情報,2013,33(5):9-13.

[2] 周斌.大數據帶給圖書館的機遇和挑戰[J].內蒙古科技與經濟,2017(4):152-154.

[3] 劉海鷗.面向云計算的大數據知識服務情景化推薦[J].圖書館建設,2014(7):31-35.

[4] Renaud Kiesgende RICHTER.Book review.:solar chimney power generating technology[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2017,6:496.

[5] 曾建勛,鄧勝利.國家科技圖書文獻中心資源建設與服務發展分析[J].中國圖書館學報,2011,37(2):30-35.

[6] 陳傳夫,錢鷗,代鈺珠.大數據時代的數字圖書館建設研究[J].圖書情報工作,2014,58(7):40-45.

[7] 劉煒.關聯數據:概念、技術及應用展望[J].大學圖書館學報,2011,29(2):5-12.

[8] 陳臣.基于小數據決策支持的圖書館個性化服務[J].圖書與情報,2015(1):82-86.

[9] 陳茫,周力青,呂艷娥.大數據時代下的圖書館移動服務創新研究[J].圖書與情報,2014(1):117-121.

[10] 樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數據”[J].圖書館雜志,2012(11):63-68, 77.

[11] 王天泥.大數據技術在圖書館閱讀推廣中的應用——以“3A5步”法為例[J].情報資料工作,2014,35(4):96-99.

[12] ChenMing, WangKai, Zhang Qingfei.Speed and Trend of China's Urbanization:a Comparative Study Based on Cross-Country Panel Data Model[J].China City Planning Review, 2015, 2:6-13.

[13] 徐敏,楊應全.高校圖書館資源聯合共享的學科發展熱點推薦平臺研究[J].圖書館工作與研究,2012(2):37-40.

[14] 余肖生,程怡凡.基于關鍵詞集合的信息搜索推薦研究[J].圖書館學研究,2012(7):65-68.

[15] 唐秋鴻,曹紅兵,唐小新,等.高校圖書館個性化專題推薦研究[J].圖書館學研究,2012(13):53-58, 24.

[16] 董娟,鄭春厚,李秀霞.基于復雜網絡的圖書館個性化推薦服務[J].高校圖書館工作,2012(3):82-84.

[17] 王秀秀,武和平.基于“云計算”的數字學術資源整合策略與服務模式研究[J].電化教育研究,2012(6):72-74, 93.

[18] 黃曉斌.基于協同過濾的數字圖書館推薦系統研究[J].大學圖書館學報,2006,24(1):53-57.

[19] 李克潮,黎曉.個性化圖書推薦研究[J].圖書館學研究,2011(20:65-69.

[20] 孔功勝.個性化推薦在圖書館信息服務系統中的應用[J].圖書館學刊,2011(10):120-122.

[21] 孟祥武,紀威宇,張玉潔.大數據環境下的推薦系統[J].北京郵電大學學報,2015,38(2):1-15.

[22] 伍錦程,韓媛,張濤.淺談Hadoop和PostgreSQL在地質資料集群化中的適用性[J].圖書情報導刊,2016,1(4):131-134.

[23] 朱月琴,譚永杰,張建通,等.基于Hadoop的地質大數據融合與挖掘技術框架[J].測繪學報,2015,44(S1):152-159.

[24] 杜麗萍,李曉戈,于根,等.基于互信息改進算法的新詞發現對中文分詞系統改進[J].北京大學學報:自然科學版,2016,52(1):35-40.

[25] 彭琦, 朱新華, 陳意山.一種基于詞頻歧義消解的通用中文分詞法[J].廣西師范大學學報:自然科學版, 2016, 34(1):59-65.

[26] 張戈一,朱月琴,呂鵬飛,等.耦合協同過濾推薦與關聯分析的圖書推薦方法研究[J].中國礦業,2017,26(S1):425-430.

Basicsbigdateanalysisanalyticexcavationgeologyreferencerecommendationmethodresearch

ZHANG Geyi1,2,HU Boran3,4,CHANG Liheng3,ZHU Yueqin2,3,LYU Pengfei5,6

(1.China University of Mining and Technology(Beijing),Beijing100083,China;2.Key Laboratory of Geological Information Technology of Ministry of Land and Resources,Beijing100037,China;3.Development and Research Center,China Geological Survey,Beijing100037,China;4.China University of Geosciences(Beijing),Beijing100083,China;5.China Geological Library,Beijing100083,China;6.University of Chinese Academy of Sciences,Beijing100049,China)

Geological library has a large number of books and data are huge.It is difficult to solve that data grows too fast and it is difficult to find the reader’s point.To achieve efficient library borrowing data mining analysis and recommendation,is an important means to improve efficiency.For this reason,this paper puts forward a large-scale data mining platform,including clustering analysis,Chinese word segmentation,recommendation system,correlation analysis function,and then through hadoop cluster multi-node recommendation,thus improving the efficiency of the work.

big date technology;word segmentation technology;recommended system;parallel computing

2017-07-09責任編輯:趙奎濤

國土資源部公益性行業科研專項項目資助(編號:201511079)

張戈一(1992-),男,漢族,碩士研究生,主要從事地質大數據分析挖掘、自然資源綜合評價、數值模擬研究方面工作,E-mail:529324252@qq.com。

朱月琴(1975-),女,博士,高級工程師,主要從事地質大數據、地圖綜合與可視化研究工作,E-mail:yueqinzhu@163.com。

P208

:A

:1004-4051(2017)09-0092-06

猜你喜歡
圖書館
去圖書館坐坐
發明與創新(2021年6期)2021-03-10 07:13:54
圖書館
圖書館里送流年
圖書館
文苑(2019年20期)2019-11-16 08:52:12
夜間的圖書館
幽默大師(2019年5期)2019-05-14 05:39:38
圖書館里的小驚喜
圖書館 Library
幼兒畫刊(2018年11期)2018-12-03 05:11:44
時間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
飛躍圖書館
主站蜘蛛池模板: 国禁国产you女视频网站| 欧美精品v日韩精品v国产精品| 亚洲精品欧美重口| 毛片网站观看| 国产成人精品高清在线| 尤物成AV人片在线观看| 国内熟女少妇一线天| 国产在线观看第二页| 欧美日韩精品在线播放| 午夜福利在线观看入口| 一区二区在线视频免费观看| 国产人碰人摸人爱免费视频| 男女精品视频| 欧美日韩福利| 激情国产精品一区| 亚洲 欧美 中文 AⅤ在线视频| 久久99国产综合精品女同| 免费xxxxx在线观看网站| 91麻豆精品国产高清在线| 经典三级久久| 9久久伊人精品综合| 播五月综合| 免费国产一级 片内射老| 午夜视频免费一区二区在线看| 国产在线视频自拍| 韩日免费小视频| 日韩专区第一页| 日韩无码一二三区| 波多野结衣国产精品| 女人av社区男人的天堂| 国产日韩精品欧美一区喷| 就去色综合| 91亚洲精品第一| 欧美在线黄| 欧美97欧美综合色伦图| 国产视频a| 色欲色欲久久综合网| 精品少妇人妻无码久久| 国产黑丝一区| 久久综合色88| 国产无遮挡猛进猛出免费软件| 全午夜免费一级毛片| 国产欧美日韩另类| 成人免费一区二区三区| 青青国产在线| 久久成人免费| 毛片a级毛片免费观看免下载| 综合网天天| 女同国产精品一区二区| 久久国产成人精品国产成人亚洲 | 国产精品视频系列专区| 欧美在线中文字幕| 欧美在线网| 免费激情网址| 国产精品页| 免费无码在线观看| 超碰91免费人妻| 欧美在线视频a| 日韩高清在线观看不卡一区二区| 精品自拍视频在线观看| 亚洲美女AV免费一区| 国产综合网站| 中国毛片网| 宅男噜噜噜66国产在线观看| 午夜国产精品视频| 91视频日本| 久久青草精品一区二区三区 | 久久精品国产在热久久2019| 欧美日韩亚洲国产| 亚洲欧美极品| 免费一级成人毛片| 免费人成网站在线观看欧美| 国产精品高清国产三级囯产AV| 国产99视频精品免费观看9e| 欧美成人h精品网站| 亚洲国产高清精品线久久| 国产成人一区在线播放| 成年人免费国产视频| 精品人妻系列无码专区久久| 国产主播福利在线观看| 91在线高清视频| 日本人又色又爽的视频|