999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)環(huán)境下數(shù)字圖書館建設初探★

2015-04-25 09:38:54
河北科技圖苑 2015年3期
關鍵詞:數(shù)據(jù)挖掘圖書館資源

王 浩

(黑龍江八一農(nóng)墾大學圖書館 黑龍江 大慶 163319)

大數(shù)據(jù)時代,數(shù)字圖書館發(fā)展與大數(shù)據(jù)密切相關。因為,一方面數(shù)字圖書館的建設為大數(shù)據(jù)技術的發(fā)展提供了一個很好的探索和實踐平臺,另一方面,大數(shù)據(jù)技術的不斷推進勢必對數(shù)字圖書館的建設過程、發(fā)展形態(tài)等造成深遠影響。本文在分析大數(shù)據(jù)內(nèi)涵與圖書館大數(shù)據(jù)的基礎上,闡述了大數(shù)據(jù)背景下數(shù)字圖書館建設所面臨的挑戰(zhàn),并提出了數(shù)字圖書館的建設新思路。

1 大數(shù)據(jù)的內(nèi)涵及圖書館的大數(shù)據(jù)

1.1 大數(shù)據(jù)的內(nèi)涵

“大數(shù)據(jù)”通常被認為是一個用來描述海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的短語,關于大數(shù)據(jù)的定義目前還沒有明確的界定,但大數(shù)據(jù)的四個重要特征得到公認。第一個特征是數(shù)據(jù)量大。大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。第二個特征是數(shù)據(jù)類型繁多。包括網(wǎng)絡日志、音頻、視頻、圖片等,數(shù)據(jù)多樣性對數(shù)據(jù)的處理能力提出了更高要求。第三個特征是數(shù)據(jù)價值密度相對較低。如何迅速地完成數(shù)據(jù)的價值“提純”,是大數(shù)據(jù)時代亟待解決的難題。第四個特征是信息處理速度要快,時效性要求高。這是大數(shù)據(jù)有別于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。應該說,大數(shù)據(jù)時代的到來對人類數(shù)據(jù)的駕馭能力提出了新的挑戰(zhàn)。

1.2 圖書館的大數(shù)據(jù)

圖書館在長期的工作中積累了大量數(shù)據(jù),雖然在規(guī)模和數(shù)據(jù)處理速度上尚未達到大數(shù)據(jù)的標準,但它們具有大數(shù)據(jù)的特征,筆者認為它們就是“圖書館的大數(shù)據(jù)”。我們要從大數(shù)據(jù)的角度去思考和分析,開展新的服務。

1.2.1 館藏數(shù)據(jù)

圖書館的紙質(zhì)資源、電子資源、音頻、視頻等各種館藏資源,其實質(zhì)都是知識數(shù)據(jù)的集合。圖書館的信息服務要從簡單的文獻服務,升級為復雜的知識服務的關鍵環(huán)節(jié)是從館藏數(shù)據(jù)集中尋找關聯(lián),加強知識挖掘與整合的力度,揭示規(guī)律或發(fā)現(xiàn)新知識。

1.2.2 書目數(shù)據(jù)

書目數(shù)據(jù)是圖書館界科學的、規(guī)范的結(jié)構(gòu)化數(shù)據(jù)。隨著越來越多的圖書館開放書目數(shù)據(jù)和發(fā)布關聯(lián)數(shù)據(jù),使得書目數(shù)據(jù)不僅可以用于檢索,還可以發(fā)揮出更多的價值,如用于出版行業(yè)的動態(tài)研究、書目數(shù)據(jù)的關聯(lián)化研究等。

1.2.3 讀者數(shù)據(jù)

讀者數(shù)據(jù)是讀者在使用圖書館過程中所產(chǎn)生的自然數(shù)據(jù),包括讀者信息、訪問數(shù)據(jù)、咨詢信息等,它能客觀地反映出讀者需求的變化趨勢,關注和分析這些數(shù)據(jù),可以了解和揣摩讀者的心理和興趣愛好,圖書館應該根據(jù)讀者的需求變化及時調(diào)整服務策略。

1.2.4 工作數(shù)據(jù)

圖書館工作的自動化,產(chǎn)生了大量的相關業(yè)務數(shù)據(jù),具體說來主要有:(1)采訪數(shù)據(jù),包括書商提供的書目數(shù)據(jù)、訂購數(shù)據(jù)、到館周期、到館率、入藏登記等;(2)編目數(shù)據(jù),包括已完成的書目數(shù)據(jù)、編目員個人信息、編目數(shù)據(jù)源、審核記錄等;(3)流通數(shù)據(jù),包括讀者到館率、文獻借閱率、流通率、借閱記錄等;(4)咨詢數(shù)據(jù),包括通過網(wǎng)絡軟件、通訊技術等途徑,在咨詢過程中產(chǎn)生的大量咨詢記錄。

2 大數(shù)據(jù)時代數(shù)字圖書館建設所面臨的機遇與挑戰(zhàn)

2.1 大數(shù)據(jù)給數(shù)字圖書館建設帶來的機遇

2.1.1 分析讀者與資源以完善服務

大數(shù)據(jù)技術不僅可以幫助圖書館了解讀者行為、意愿和閱讀習慣,對其知識信息的需求進行預測,開展交互式知識服務。還可以通過對網(wǎng)絡資源、信息資源及軟硬件的運行狀況進行分析,來預測可能出現(xiàn)的問題,便于圖書館對資源運行情況的突然波動做出相應的應對策略,及時采取應對的措施。

2.1.2 建立智能化網(wǎng)絡信息資源組合方式

大數(shù)據(jù)將成為圖書館的核心資產(chǎn),從用戶體驗出發(fā),利用大數(shù)據(jù)技術,靈活、方便地從已有的數(shù)據(jù)資源中抓取有用的知識、模式和關系等,以打造個性化的網(wǎng)絡化信息資源的智能組合,獲得更加準確的讀者及服務人員的服務洞察,設計網(wǎng)絡化信息資源的智能組合,提供新型的知識服務方式。

2.1.3 建立模型輔助決策

可以利用大數(shù)據(jù)分析、預測及智能輔助決策技術建立具有特色的、實用的、科學的業(yè)務評估模型輔助機構(gòu)或者讀者進行決策判斷。例如圖書出版與收益模型、信息資源的采購與利用模型等。

2.2 大數(shù)據(jù)給數(shù)字圖書館建設帶來的挑戰(zhàn)

2.2.1 基礎設施的挑戰(zhàn)

數(shù)據(jù)量的快速增長及非結(jié)構(gòu)化數(shù)據(jù)的增加,對支持非結(jié)構(gòu)化數(shù)據(jù)存儲與分析的基礎設施提出了更高的要求。首先,傳統(tǒng)網(wǎng)絡的架構(gòu)設計主要是垂直結(jié)構(gòu),大數(shù)所時代,強調(diào)的是水平結(jié)構(gòu)的橫向服務,要設計分層合理、分級存儲架構(gòu)。其次,要升級軟硬件設施,利用高性能計算機,新的數(shù)據(jù)表示方法、數(shù)據(jù)分析技術,建立具有經(jīng)濟高效的存儲與計算分析計算能力平臺,來保存PB級別的數(shù)據(jù)。最后,需要擁有保護分布式基礎設施和數(shù)據(jù)的安全可信的軟硬件應用系統(tǒng)平臺。

2.2.2 大數(shù)據(jù)深入分析的挑戰(zhàn)

大數(shù)據(jù)時代,信息海量增加,數(shù)字圖書館要為讀者提供高效信息就要進行數(shù)據(jù)分析。大數(shù)據(jù)分析是圖書館創(chuàng)新知識服務體系與完善讀者服務工作的基礎,對數(shù)據(jù)的分析,包括常規(guī)分析、時間順序分析、關聯(lián)數(shù)據(jù)分析、社會網(wǎng)絡分析、移動平均線等廣度及深度分析。通過對圖書館數(shù)據(jù)的分析,可以了解圖書館業(yè)務工作的開展情況,客觀反饋讀者對圖書館的需求與服務評價,快速地做出決策,了解最新知識服務趨勢,快速調(diào)整信息服務方向,利用大數(shù)據(jù)技術提升知識服務能力,降低知識服務成本。

3 大數(shù)據(jù)時代數(shù)字圖書館建設思路

3.1 技術方面

3.1.1 數(shù)據(jù)存儲

支撐大數(shù)據(jù)的核心硬件是存儲系統(tǒng),當前網(wǎng)絡化存儲根據(jù)傳輸協(xié)議,分為網(wǎng)絡接入存儲(NAS)和存儲區(qū)域網(wǎng)絡(SAN)。大數(shù)據(jù)時代,隨著海量的非結(jié)構(gòu)化數(shù)據(jù)的不斷產(chǎn)生,“NAS+SAN”(也就是統(tǒng)一存儲),將是數(shù)字圖書館建設過程中主要的存儲解決方案。統(tǒng)一存儲的磁盤陣列配置多端口的存儲控制器和一個管理接口,允許存儲管理員按需創(chuàng)建存儲池或空間,并將其提供給不同訪問類型的主機系統(tǒng),可適應業(yè)務和應用變化的動態(tài)需求。

3.1.2 基于云計算的數(shù)據(jù)挖掘平臺

云計算的出現(xiàn)給數(shù)據(jù)挖掘帶來了新的機遇,通常認為云計算包括3個層次的服務,基礎設施即服務(IaaS)、平 臺 即 服 務 (PaaS)、軟 件 即 服 務(SaaS)[1]。基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)(如圖1所示),采用分層的思想,自下而上依次為:云計算支撐平臺層、數(shù)據(jù)挖掘能力層、數(shù)據(jù)挖掘云服務層。

圖1 基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)

云計算支撐平臺層主要是提供分布式文件存儲、數(shù)據(jù)庫存儲以及計算能力;數(shù)據(jù)挖掘能力層主要是提供挖掘的基礎能力,包含算法服務管理、調(diào)度引擎、數(shù)據(jù)并行處理框架,提供對數(shù)據(jù)挖掘云服務層的能力支撐;數(shù)據(jù)挖掘云服務層主要是對外提供數(shù)據(jù)挖掘云服務。

虛擬化技術是數(shù)據(jù)挖掘云服務技術的支撐,數(shù)字圖書館建設數(shù)據(jù)挖掘云服務平臺,要依賴于虛擬化技術,需要計算資源,需要自主分配和調(diào)度。在滿足讀者需求方面,要爭取大眾參與,有了大眾的參與,個性化和多樣化的需求就能夠得到更好的滿足。為增加服務的可信性,算法要通用、可查、可調(diào)、可視,并且要注重對隱私數(shù)據(jù)進行加密保護。

3.1.3 數(shù)據(jù)分析

大數(shù)據(jù)分析是指在研究大量的數(shù)據(jù)過程中,尋找模式、相關性和其他有用的信息,可以幫助圖書館更好地適應變化,并做出更明智的決策。在大數(shù)據(jù)處理分析過程中可用的工具有很多,如Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架。具有高可靠性、高擴展性、高效性、高容錯性、成本低等優(yōu)點;Storm是自由的開源軟件,易于設置和操作,能可靠地處理龐大的數(shù)據(jù)流,并且可以應用到實時分析、在線機器學習、不停頓的計算、數(shù)據(jù)抽取、轉(zhuǎn)換和加載等許多領域。其他分析工具還有 Apache Drill、HPCC、RapidMiner等[2],各館可以根據(jù)實際需要進行選擇使用。

3.2 資源建設

3.2.1 資源體系建設

大數(shù)據(jù)時代,文獻信息獲取方式與文獻資源發(fā)行方式都發(fā)生了巨大的改變。讀者對資源獲取的便捷性、可視化要求逐漸提高,而信息資源生產(chǎn)、組織與服務正在向著載體多樣化、開放獲取、泛出版方向轉(zhuǎn)變[3]。這就要求,圖書館必須重新定義資源建設,在整個數(shù)字空間發(fā)現(xiàn)、評估、登記、采集、描述和組織各類信息資源,植根于讀者環(huán)境,構(gòu)建開放化(多樣的信息對象與信息種類)、數(shù)據(jù)化(可計算的信息資源)、語義化(支持用戶驅(qū)動的信息資源環(huán)境)的信息資源體系。在信息資源體系建設的過程中要堅持三個原則:一是優(yōu)化夯實數(shù)字文獻資源保障體系,二是積極推進長期保存與本地倉儲,三是持續(xù)推進開放信息資源共建共享建設。

3.2.2 資源建設要注意的幾個問題

第一,原生特色資源開發(fā)問題。大數(shù)據(jù)環(huán)境下,圖書館沒有必要也不可能將全部館藏數(shù)字化,但應該對具有特色,形成了一定規(guī)模的、結(jié)構(gòu)比較完整的原生信息,進行開發(fā)整理。例如美國加州圣何塞大學的貝多芬圖書館,現(xiàn)在已經(jīng)發(fā)展成為歐洲之外最大的貝多芬文獻資源收藏地,出版有《貝多芬期刊》,提供在線目錄——貝多芬門戶,不僅為參觀者和研究者提供服務,還為喜歡貝多芬卻不能實地到訪的人提供服務[4]。第二,知識產(chǎn)權(quán)問題。要遵守知識產(chǎn)權(quán)法律法規(guī),慎重對待版權(quán)、著作權(quán)和網(wǎng)絡傳播權(quán)。第三,標準化問題。要推動數(shù)字資源建設的國際化進程,優(yōu)先采用國際已有的成熟標準,實現(xiàn)信息資源的無縫鏈接。第四,信息安全問題。在數(shù)據(jù)共享、數(shù)據(jù)公開的大趨勢下,需要從技術、管理和法律等多方面建立完整的安全體系。

3.3 服務方向

3.3.1 個性化知識服務

數(shù)字圖書館應該在基于云計算等技術模式的支持下,進行數(shù)字資源的深層次開發(fā),使系統(tǒng)具備更強大的互操作性,并能夠在此基礎上進行系統(tǒng)定制。如可以從讀者滿意度調(diào)查、讀者興趣、資源利用、分布及發(fā)展趨勢等方面的海量數(shù)據(jù)中,篩選出有用信息,并通過可視化技術展示出來,進行多種角度解析,以便跟蹤并推送讀者所關注的信息,滿足讀者的個性化需求,拓展新型知識服務功能。

3.3.2 協(xié)作共享服務

數(shù)字圖書館應積極調(diào)動相關行業(yè)的優(yōu)勢力量,提升服務能力和運作效率,不斷充實自身的業(yè)務流程,實現(xiàn)不同用戶群體之間的信息共享與利用。如2009年,歐洲一些領先研究型圖書館和科技信息研究機構(gòu)建立了伙伴關系,致力于改善互聯(lián)網(wǎng)上獲取科學數(shù)據(jù)的簡易性,2012年5月,美國行政管理和預算局則發(fā)布了《數(shù)字政府:建立一個面向21世紀的平臺來更好地服務美國人民》的行政指令。

3.3.3 智能化服務

智能信息服務已成功應用在知識管理、智能軟件幫助、用戶服務、網(wǎng)上營銷等多個領域。現(xiàn)階段,智能短信服務、智能聊天機器人和智能搜索引擎等,已經(jīng)成為新的應用亮點,智能信息服務正在不斷走向?qū)嵱没痛蟊娀G迦A大學圖書館在這方面進行了有益地嘗試和探索,其應用的具有自動學習功能的機器人“小圖”就是在線咨詢服務的一種全新體驗。

[1]Peter M,Timothy G.The NIST Definition of Cloud Computing[S].Recommendation of the National Institute of Standards and Technology,2011.

[2]吳昱.大數(shù)據(jù)精準挖掘[M].北京:化學工業(yè)出版社,2014:3

[3]Youngsuk Chi(Y.S.Chi).數(shù)字時代的學術出版:最新進展、當前趨勢與未來展望[EB/OL].[2014-10-08].http://ir.las.ac.cn/handle/12502/6452.

[4]Fang.馬丁路德金圖書館內(nèi)有貝多芬博物館[EB/OL].[2014-11-02].http://blog.sina.com.cn/s/blog_4e276 d2c0102e453.html.

猜你喜歡
數(shù)據(jù)挖掘圖書館資源
基礎教育資源展示
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
一樣的資源,不一樣的收獲
資源回收
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
飛躍圖書館
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
圖書館里的是是非非
主站蜘蛛池模板: 国产区网址| 国产一区亚洲一区| 国产精品第5页| 国产网站黄| 亚洲国产精品成人久久综合影院| 久久精品人人做人人爽电影蜜月| 亚洲精品视频网| 久久久久亚洲精品成人网| 成人中文字幕在线| 国产va在线观看免费| 亚洲无线一二三四区男男| 国产精品极品美女自在线网站| 手机看片1024久久精品你懂的| 亚洲第一区在线| 一本大道香蕉中文日本不卡高清二区| 婷婷六月在线| 四虎影视库国产精品一区| 精品人妻一区无码视频| 青青操国产| 手机成人午夜在线视频| 亚洲午夜天堂| 成人在线亚洲| 国产精品美女网站| 国产精品污视频| 国产成人综合亚洲欧美在| 中国美女**毛片录像在线| 日韩免费中文字幕| 国产在线精品人成导航| 天天爽免费视频| 无码日韩视频| 午夜精品区| 久久9966精品国产免费| 精品久久国产综合精麻豆| 亚洲精品中文字幕午夜| 91午夜福利在线观看精品| 成人午夜在线播放| 黄色在线网| 久996视频精品免费观看| 99热这里都是国产精品| 日韩少妇激情一区二区| 成人午夜免费视频| 亚洲人成色77777在线观看| 亚洲无码精彩视频在线观看| a级免费视频| 日韩色图区| 高清视频一区| 亚洲毛片网站| 久久久精品国产SM调教网站| 国产91蝌蚪窝| 国产成人h在线观看网站站| 久久精品丝袜高跟鞋| 国产精品一区在线麻豆| 国产一级一级毛片永久| 国产一级视频在线观看网站| 欧美一区精品| 午夜老司机永久免费看片 | 国产激情在线视频| 国产91久久久久久| 亚洲人成网址| 国产在线一区视频| 日韩第一页在线| 久久青草视频| 国产一区二区丝袜高跟鞋| 色爽网免费视频| 一区二区三区国产| 久久久久久久97| lhav亚洲精品| 波多野结衣一级毛片| 亚洲婷婷在线视频| 亚洲 欧美 偷自乱 图片 | 正在播放久久| 国产青榴视频| 91伊人国产| 午夜激情福利视频| 亚洲一区无码在线| 亚洲综合色吧| 国产免费怡红院视频| 久久国产精品77777| 亚洲va欧美ⅴa国产va影院| 又爽又黄又无遮挡网站| 国产成人区在线观看视频| 天天摸夜夜操|