999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)的圖書館文獻合作關(guān)系挖掘方法研究

2017-12-29 00:00:00劉宇劉濱
河北科技圖苑 2017年2期

摘要:海量文獻形成圖書館重要的數(shù)據(jù)資源,充分利用大數(shù)據(jù)分析工具,挖掘其中的潛在價值是當前的研究熱點。采用大數(shù)據(jù)分析的方法,通過對海量文獻數(shù)據(jù)的清洗、挖掘和可視化,研發(fā)出直觀、易用的軟件平臺,并提供精準的文獻檢索工具,可以幫助讀者快速發(fā)現(xiàn)重要作者和文獻,有效提升圖書館數(shù)據(jù)資源的使用效率。

關(guān)鍵詞:大數(shù)據(jù);文獻合作關(guān)系;數(shù)據(jù)可視化

中圖分類號:G255.9 文獻標識碼:A

DOI:10.13897/j.cnki.hbkjty.2017.0040

1引言

隨著科研條件不斷改善,科技工作的不斷進步,各領(lǐng)域的文獻資料數(shù)據(jù)加速形成,匯集成海量的數(shù)據(jù)資源,成為圖書館寶貴的數(shù)據(jù)資產(chǎn)。作為專業(yè)從事信息服務(wù)和信息管理的機構(gòu),圖書館與大數(shù)據(jù)技術(shù)具有天然的契合關(guān)系。如何合理利用大數(shù)據(jù)技術(shù)對海量文獻資源進行有效利用,開發(fā)蘊藏其中的潛在價值,具有重要的現(xiàn)實意義,也是近年來的研究熱點。目前各界學者有的將重點放在了關(guān)鍵詞引用關(guān)系網(wǎng)絡(luò)上,有的側(cè)重于文獻引用網(wǎng)絡(luò)研究,也有的進行了文獻合作關(guān)系網(wǎng)絡(luò)方面的研究。這些研究都為幫助讀者提高文獻查找效率、發(fā)現(xiàn)領(lǐng)域熱點,改善圖書館服務(wù)起到了重要的推動作用。

本文以文獻合作關(guān)系為關(guān)注重點,從關(guān)系的發(fā)現(xiàn)、提煉和展現(xiàn)的角度切入,提出一個基于大數(shù)據(jù)分析技術(shù)的文獻合作關(guān)系挖掘方法,并研發(fā)了相應(yīng)的平臺軟件,使之能夠?qū)ψ髡吲c其發(fā)表的諸多文獻間的關(guān)系進行提取和展現(xiàn),也能對文獻合作者之間的關(guān)系進行提取和展現(xiàn),同時提供優(yōu)質(zhì)的檢索工具,為提高文獻利用效率提供有力的支持。

2面向文獻合作關(guān)系的大數(shù)據(jù)方法

2008年,國際頂尖的學術(shù)期刊Nature出版??癇ig Data”,從互聯(lián)網(wǎng)技術(shù)、網(wǎng)絡(luò)經(jīng)濟學、超級計算、環(huán)境科學、生物醫(yī)藥等多個方面介紹了海量數(shù)據(jù)帶來的挑戰(zhàn)。2011年Science推出關(guān)于數(shù)據(jù)處理的??癉ealing with data”D3,討論了數(shù)據(jù)洪流(Da-ta Deluge)所帶來的挑戰(zhàn),特別指出,倘若能夠更有效地組織和使用這些數(shù)據(jù),人們將得到更多的機會發(fā)揮科學技術(shù)對社會發(fā)展的巨大推動作用。2012年3月22日,奧巴馬宣布美國政府投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃(Big Data Research and Development Initiative)”。迄今為止,國內(nèi)外“產(chǎn)、學、研、用”等各界都結(jié)合各自領(lǐng)域的實際情況,或者提出對大數(shù)據(jù)的概念或理論理解,或者提出大數(shù)據(jù)處理的技術(shù)或業(yè)務(wù)框架,或者構(gòu)建出各類大數(shù)據(jù)的軟硬件共享或處理平臺。

本節(jié)給出基于大數(shù)據(jù)分析技術(shù)的文獻合作關(guān)系挖掘方法。如圖1所示,自下而上,完成如下步驟:

首先,需要進行文獻基礎(chǔ)數(shù)據(jù)(作者、機構(gòu)、郵箱、日期、來源等)采集工作,即將線下的文獻資源(圖書、文章、報告等等)進行數(shù)字化,可通過人工錄入或OCR(Optical Character Recognition,光學字符識別)設(shè)備等進行掃描、文字識別等完成;同時,將線上文獻資源在合法合規(guī)的前提下進行采集。

繼而,對采集來的數(shù)據(jù)進行清洗,該步驟是整個數(shù)據(jù)分析過程中不可缺少的一個環(huán)節(jié),其結(jié)果直接關(guān)系到模型效果和最終結(jié)論。在實際操作中,數(shù)據(jù)清洗通常會占據(jù)分析過程的50%—80%的時間。實現(xiàn)格式或內(nèi)容方面的錯誤識別(不該存在的字符、內(nèi)容與字段不符等)和糾正,完成除冗(清除不需要的或無效數(shù)據(jù))、規(guī)范化(格式、單位等)、補全(對缺失值進行處理等)。同時,本步驟還可以進一步結(jié)合用戶的業(yè)務(wù)需求,實現(xiàn)特殊內(nèi)容或要素的清洗。

采集來的文獻數(shù)據(jù)經(jīng)過以上步驟處理后,進行人庫操作,為了達到數(shù)據(jù)處理的及時性要求,同時兼顧客觀的存儲成本和既有存儲形式,文獻大數(shù)據(jù)的存儲可以采用“內(nèi)存數(shù)據(jù)庫+磁盤數(shù)據(jù)庫”的存儲形式,這也是當今主流的大數(shù)據(jù)存儲方式。磁盤數(shù)據(jù)庫的優(yōu)勢是成本較低,然而,在訪問過程中由于頻繁調(diào)取磁盤數(shù)據(jù),會導致程序的處理速度急劇降低;內(nèi)存數(shù)據(jù)庫,將全部數(shù)據(jù)都放在內(nèi)存中,具有新型的體系結(jié)構(gòu),并且在數(shù)據(jù)緩存、快速算法、并行操作方面也進行了相應(yīng)的改進,所以數(shù)據(jù)處理速度比磁盤數(shù)據(jù)庫的數(shù)據(jù)處理速度要快很多,一般都在10倍以上,其劣勢在于成本較高。

針對文獻合作關(guān)系發(fā)現(xiàn)的需求,我們需要對文獻數(shù)據(jù)進行要素提取和匹配,例如,姓名相同的作者是否是同一個人,名稱相近的文獻是否是同一篇文獻;同一篇文獻的作者之間,是否聯(lián)合發(fā)表過其他的文獻;在同一次會議或同一期刊物發(fā)表文章的作者;某位作者關(guān)聯(lián)的文獻集,等等。

當把文獻合作關(guān)系提煉出來后,需要解決的下一個問題就是如何構(gòu)建科學、高效的大數(shù)據(jù)可視化分析系統(tǒng),這也是圖書館挖掘大數(shù)據(jù)價值、發(fā)現(xiàn)數(shù)據(jù)關(guān)系和實現(xiàn)知識清晰表現(xiàn)的前提。由于與圖書館相關(guān)的人員角色,包括讀者、館員、管理層、文獻提供商、信息系統(tǒng)分析和維護人員等等,所以,數(shù)據(jù)可視化系統(tǒng)做的效果如何,直接影響人機交互的最終結(jié)果,系統(tǒng)是否簡單易用,是否能夠讓用戶從種類繁多(文獻名、單位、作者、會議、期刊等)的海量數(shù)據(jù)中迅速發(fā)現(xiàn)自己的關(guān)切點,決定了大數(shù)據(jù)技術(shù)在文獻挖掘方面的最終效果。

3文獻合作關(guān)系挖掘系統(tǒng)

本節(jié)給出基于圖1方案的技術(shù)實現(xiàn),以實際研發(fā)的系統(tǒng)為例,解讀文獻合作關(guān)系挖掘的功用與效能。

3.1系統(tǒng)設(shè)計目標

針對快速、有效的從大量文獻中發(fā)現(xiàn)合作關(guān)系的實際需求,建立標準化的數(shù)據(jù)規(guī)范機制,研發(fā)多源異構(gòu)數(shù)據(jù)的整合(統(tǒng)一格式、糾誤降噪、語義對齊等)子系統(tǒng)。以之為基礎(chǔ),綜合數(shù)據(jù)可視化、人機交互、Web開發(fā)等技術(shù)研發(fā)B/S(Browser/Server)架構(gòu)的Web平臺,既便于用戶通過互聯(lián)網(wǎng)訪問本軟件,也便于根據(jù)實際需要,不斷擴充前后臺功能模塊、數(shù)據(jù)資源等。數(shù)據(jù)可視化階段,需要利用顏色、尺寸、線形、長度、寬度、點距等多種手段,刻畫影響合作關(guān)系的相關(guān)因素,并結(jié)合圖形、列表、搜索引擎、檢索框等工具,對各種要素進行多維度全景式呈現(xiàn)。

3.2系統(tǒng)功能

針對文獻合作關(guān)系發(fā)現(xiàn)的需求,綜合網(wǎng)絡(luò)信息獲取、Web平臺開發(fā)、數(shù)據(jù)庫、搜索引擎等技術(shù)進行開發(fā)。支持按姓名字母查詢作者、按作者查詢文獻、按文獻來源查詢文獻、合作關(guān)系展現(xiàn)、合作關(guān)系群落展現(xiàn)、高密度合作關(guān)系的作者突出展現(xiàn)等功能,對各種要素進行多維度全景式呈現(xiàn)。

3.3技術(shù)架構(gòu)

前端采用HTML+JSP+CSS技術(shù),配合jQuery+Bootstrap框架,進行數(shù)據(jù)可視化展示,實現(xiàn)人機交互;后臺數(shù)據(jù)庫采用開源關(guān)系型數(shù)據(jù)庫MySQL+內(nèi)存型數(shù)據(jù)庫Redis,前后臺采用SSH框架進行數(shù)據(jù)交互;數(shù)據(jù)采集、清洗、入庫和關(guān)系發(fā)現(xiàn)等步驟,利用Java語言按照業(yè)務(wù)規(guī)則進行程序?qū)崿F(xiàn)。

3.4功能示例

本節(jié)中,結(jié)合具體示例,對系統(tǒng)主要功能進行展示。在IE地址欄中輸入網(wǎng)址:http:∥202.206.64.199/literature_min.html,展開如圖2所示頁面,節(jié)點代表作者(旁邊是姓名),點的大小代表合作關(guān)系的多少,邊線代表作者間的合作關(guān)系,點和點之間的距離代表合作關(guān)系的緊密程度等。該系統(tǒng)對3 437位作者,3 535個合作關(guān)系進行了分析和展現(xiàn)。

對某個群落進行重點分析,鼠標點擊某個尺寸較大的點,或者滾動鼠標軸,某個群落會放大展示。圖3中以Bing Liu節(jié)點為例,點擊該節(jié)點后,檢索框中會出現(xiàn)該名字。放大顯示后,可以看到,以其為中心的合作關(guān)系群落會完整清晰的展示出細節(jié),每個節(jié)點所代表的作者,其姓名會展示出來,其他作者和Bing Liu之間的合作關(guān)系,以邊線的形式予以刻畫。

點擊任意一個作者節(jié)點,會彈出窗口,里面展現(xiàn)出所有該作者發(fā)表過的文章,如圖4所示,點擊Bing Liu節(jié)點后,該作者發(fā)表的182篇文章逐一在彈出的窗口中予以展現(xiàn),可以通過右側(cè)的拖拽條,看到全部文章。

點擊左上角的下拉列表,如圖5所示,給出系統(tǒng)中的文獻總數(shù)3 942篇、文獻源(會議、期刊等)以及相應(yīng)的數(shù)量,例如GECCO(222),表示來自國際會議GECCO(The Genetic and Evolutionary Compu-tation Conference)的文章一共有222篇。在列表中,點擊選擇GECCO(222)后,數(shù)據(jù)可視化界面中只留下在該會議上發(fā)表過文章的作者節(jié)點群落一共有3個。

4結(jié)語

對文獻大數(shù)據(jù)的挖掘分析,是現(xiàn)代圖書館建設(shè)的重要環(huán)節(jié),是將數(shù)據(jù)累積和沉淀過程演化為數(shù)據(jù)資產(chǎn)形成過程的重要手段。本文給出的文獻關(guān)系合作挖掘系統(tǒng),以計算機信息科學中的3 942篇文獻為應(yīng)用樣例,通過大數(shù)據(jù)技術(shù),可以幫助讀者、館員、管理者、企業(yè)單位等,快速發(fā)現(xiàn)高頻合作關(guān)系的文獻和作者,實現(xiàn)按文本和分類的準確檢索。該系統(tǒng)可發(fā)現(xiàn)海量文獻中的合作關(guān)系,構(gòu)建現(xiàn)實世界的合作關(guān)系,通過本系統(tǒng)可以發(fā)現(xiàn)某領(lǐng)域的合作網(wǎng)絡(luò),邀請相關(guān)人員構(gòu)建該領(lǐng)域的科研團隊;并且,也可用于建設(shè)高價值文獻庫,例如,不斷導人所需文獻,自動拓展文獻合作網(wǎng),形成知識庫等;同時,還可用于發(fā)現(xiàn)特定領(lǐng)域的團隊力量,例如,邀請具有高合作關(guān)系的人員,構(gòu)建人才庫等。最后,希望本文能夠為關(guān)注以上命題的讀者和研究人員提供一定的幫助和參考。

主站蜘蛛池模板: 亚洲国产91人成在线| 米奇精品一区二区三区| 国内老司机精品视频在线播出| 欧美成人a∨视频免费观看| 欧美不卡视频在线观看| 精品午夜国产福利观看| 91啪在线| 国产一区自拍视频| 亚洲系列中文字幕一区二区| 国产乱人伦偷精品视频AAA| 亚洲欧美成aⅴ人在线观看| 在线国产91| 国产三级a| 九九免费观看全部免费视频| 亚洲精品视频在线观看视频| 自拍偷拍欧美日韩| 狠狠色噜噜狠狠狠狠色综合久 | 国产亚洲欧美在线中文bt天堂| 中文国产成人久久精品小说| 色偷偷一区| 国产swag在线观看| 91精品国产丝袜| 毛片一级在线| 在线国产综合一区二区三区 | 精品一区二区三区视频免费观看| 8090成人午夜精品| 67194在线午夜亚洲| 亚洲婷婷六月| 色悠久久久| 亚洲成人黄色在线| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 亚洲综合婷婷激情| 在线观看精品国产入口| 制服丝袜 91视频| 久久这里只有精品66| 国产女人在线观看| 国产欧美日韩专区发布| 久久黄色毛片| 国模视频一区二区| 国产成人综合网在线观看| 国产99免费视频| 91精选国产大片| 日韩欧美国产另类| 伊人久久婷婷| 婷五月综合| 国产综合另类小说色区色噜噜 | 久久一级电影| 国产在线拍偷自揄拍精品| 综合网天天| 国产XXXX做受性欧美88| 欧美A级V片在线观看| 中国丰满人妻无码束缚啪啪| 中文字幕 91| 精品国产香蕉在线播出| 99人体免费视频| 国产成在线观看免费视频| 波多野结衣第一页| 国产精品视频999| 在线观看视频99| 人妻精品全国免费视频| 久久国产亚洲欧美日韩精品| 久精品色妇丰满人妻| 美女被躁出白浆视频播放| 亚洲美女一区二区三区| 欧美成人午夜视频免看| 国产高清不卡| 久综合日韩| 97超碰精品成人国产| 美女高潮全身流白浆福利区| 特级欧美视频aaaaaa| 欧美激情视频一区二区三区免费| 日韩欧美视频第一区在线观看| 久久人妻系列无码一区| 真人免费一级毛片一区二区| 国产91高清视频| 女人18毛片一级毛片在线 | 九月婷婷亚洲综合在线| 极品国产一区二区三区| 国产打屁股免费区网站| 欧美人在线一区二区三区| 亚洲有无码中文网| 日韩无码黄色网站|