999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代圖書館面臨的挑戰與對策

2014-11-05 20:13:50夏燕
河南圖書館學刊 2014年9期
關鍵詞:云計算數據挖掘大數據

關鍵詞:大數據;圖書館;云計算;數據挖掘;知識服務

摘要:文章闡述了大數據內涵和特征,分析了大數據對圖書館事業及其構成要素的影響,探討了圖書館如何通過資源、技術及人才建設,重構大數據時代圖書館知識咨詢服務模式。

中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2014)09-0122-03

作者簡介:夏燕(1971-),江蘇城市職業學院圖書館館員。1大數據及其特征

據國際數據資訊公司(Global Pulse)估測,全球數據數量以每年50%的速度增長,這既包括數據流的增長,也包括數據種類的增多。據統計,全球企業和消費者2010年在硬盤、PC和筆記本等設備上存儲了超過13EB的新數據,而1EB數據就相當于美國國會圖書館中存儲數據的4,000多倍。2012年,全球的數據總量為2.7ZB(1ZB相當于10萬億億字節)。預計到2020年,全球產生的數據將超過35ZB。數據容量增長的速度已大大超過原有軟硬件技術的承受能力,傳統關系型數據庫已難以有效處理這些數據,人類確已邁入大數據時代。

大數據的應用十分廣泛,不僅能創造新型產業業態,也能產生巨大的經濟和社會價值。麥肯錫研究報告認為,大數據每年可為美國醫療健康業和歐洲發達經濟體政府分別節省3,000億美元和2,500億歐元的開支。利用個人位置信息有可能創造出1,000億美元的消費者剩余。通過大數據分析,企業可以發現新客戶群體,確定最優供應商,不斷推出創新產品。如淘寶網利用其掌握的第一手用戶數據推出“淘寶魔方”服務,通過后臺數據,挖掘用戶評論、瀏覽量、收藏量,進而預測商家或商品的銷售趨勢。利用大數據分析,科研人員可開展醫療健康、石油勘探和環境治理等方面的研究。如生物醫學研究領域就是大數據的先行者。以人類基因組計劃為例,2008年人類基因組計劃生產數據1萬億堿基對,2009年該數據量又翻了一番。美國國家醫學圖書館基于科學數據建立了超級計算和數據處理Entrez平臺,支持基礎科學和應用科學的知識發現和數據關聯以及分析基礎上的模擬仿真研究。

何謂“大數據(Big Data)”?麥肯錫全球研究院(McKinsey Global Institute)在其報告《大數據:創新、競爭和生產力的下一個前沿》中是這樣定義的:所謂大數據,是指大小超過了傳統數據庫軟件工具的抓取、存儲、管理和分析能力的數據群。大數據之“大”,不僅指數據的規模巨大,還包括數據的來源和類型復雜多樣,大數據因而又被定義為“大數據=海量數據+復雜類型的數據”。

大數據的特征被概括為“4V”,即大量化(Volume)、多樣化(Variety)、快速化(Velocity)和價值化(Value):①大量化。是指數據量從TB級躍升至PB級甚至更高,原有的集中處理和集中計算技術已難以適應。②多樣化。是指大數據不僅包含結構化的數據,還包括網絡日志、微博、郵件、圖片、音頻和視頻等半結構化、非結構化數據。③快速化。是指數據實時生成,更新快,數據存儲、傳輸和處理的速度也非常快,要求對數據實行交互式、實時或準實時的預判性分析。④價值化。盡管大數據價值密度低,但基于龐大數據的分析和計算,可以產生巨大的財富和價值,正因為如此,大數據被視為一種能形成競爭力的新型資產。

2大數據帶給圖書館的影響和挑戰

2.1對圖書館內部實體要素的沖擊

2.1.1資源建設方面。大數據時代,通過電子商務、社交網絡產生的,記錄人們生產、生活行為的數據,大都是半結構化和非結構化數據,這些數據已占數據總量的80%以上。對這些非結構化數據的全面收集就有可能深入分析和了解用戶偏好,真正實現精準和個性化服務。近年來,圖書館因數據收集意識不強、對于數據在決策當中的重要性認識不夠等原因,目前圖書館對非結構化數據資源的采集和建庫還幾乎處于空白。圖書館連本系統用戶信息行為產生的大數據資源采集尚未提上議事日程,更不用說對社交網絡、企業大數據的收集了,圖書館因而很難融入用戶群體的細節服務。此外,由于大數據時代科研范式和學術信息交流方式發生了變化,E-science環境下的科學研究越來越表現出數據驅動的特征,科學數據資源將成為圖書館數字資源的重要組成部分。目前,世界各國都在積極建設數字化、網絡化的科學數據平臺,如美國國家醫學圖書館生物醫學領域的NCBI、生物多樣性領域的BHL等。存儲在各類數據庫和文檔系統中的科學數據以及以業界標準化關系數據庫所產生的元數據體系,將構成一種新型的、分布式的和整合式的數字圖書館。因此,在西方國家特別是在美國,研究型圖書館普遍設置了“數據監護(Data Curation)”相關崗位,一些圖書館還成立專門的“研究數據管理服務工作組(RIDMSG)”,為科研提供特色化、前沿化的數據服務。而國內圖書館尚未發現針對科學數據的采集和平臺建設,更談不上特色服務了。

夏燕:大數據時代圖書館面臨的挑戰與對策夏燕:大數據時代圖書館面臨的挑戰與對策2.1.2技術及基礎設施層面。基于大數據的數據抽取和集成、數據分析及數據解釋,需要全新的大數據處理框架和關鍵技術,傳統SQL數據庫理論和技術已無能為力。近年來,盡管一些專業數據公司開發了Hadoop云計算開源工具及MapReduce等分布式并行計算模型,但一方面這些技術工具本身在可擴展性、性能、容錯性、支持異構環境及兼容性等方面需要進一步完善;另一方面,從數據集成、數據分析到數據可視化,大數據管理和利用的復雜程度遠超出傳統的關系型數據庫。而圖書館行業絕大部分從業者都不是數據分析專家,大數據管理系統的易用性問題將會在相當長一段時間內困擾圖書館界,復雜的大數據技術及分析工具制約了圖書館從大數據獲取知識的能力。大數據環境下,計算機存儲及計算規模迅速增加,出于降低成本的考慮,越來越多的知識服務機構將應用由高端服務器轉向中低端硬件構成的大規模計算機集群,因而要求計算機及服務器集群擁有海量、超大規模的數據存取與計算能力,網絡設備能快速將分塊的大數據集復制到集群服務器節點進行處理,軟硬件條件能支撐保護高度分布式和數據的可信應用體系。這些都對圖書館支持非結構化數據存儲及分析的軟硬件條件提出了新的要求。endprint

2.1.3人力資源建設方面。大數據的應用是技術難度極高的集成應用,如需要集成技術(軟件和系統等),數學(統計、建模和算法等)、商業分析(具體業務領域的相關知識)和可視化(語言和圖表等)等多個學科領域的技術成果。美國國家科學理事會NSB在其發表的《長期保存的數字數據集合:支持21世紀的研究與教育》報告中,將圖書館學家與信息學家、計算機科學家、數據庫和軟件工程師或程序員、數據管理者等對科學數據資源的成功管理起著關鍵作用的人們并列稱為數據科學家。美國研究圖書館協會也已提出,研究數據管理將成為下一代圖書館員的能力之一。有專家粗略估計,我國大數據分析專業人才缺口達100萬人。圖書館數據管理人才就更為稀缺。目前,圖書館現有分析人員只能對數據進行簡單的報表和描述性分析,可承擔數據分析和數據挖掘的“數據館員”可謂鳳毛麟角。培養大數據分析和管理人才,是圖書館面對的最為緊迫的難題。

2.2對圖書館知識服務模式的影響

圖書館與科學研究、科技創新及知識服務關系非常密切。作為嵌入式協作化知識創新環境,圖書館具備科技創新所需要的知識服務能力、科研數據管理和基于知識協作的交互協調創新能力。伴隨著信息手段及知識組織方式的不斷進步,圖書館核心業務由參考咨詢向信息咨詢再向知識咨詢演進的趨勢十分明顯。大數據則為圖書館知識咨詢服務帶來了豐富的數據資源、專業的數據分析技術及與專業知識服務機構合作的機會。通過大數據分析可了解用戶、行為、意愿、業務需求、知識應用能力及知識服務需求等需要什么,更可以利用數據對用戶的科研創新合作過程及合作交互型知識服務過程將要發生什么進行分析和預測。可以肯定的是,基于數據的處理、組織、分析與挖掘的用戶信息行為分析與內容分析,與知識服務完美融合的知識咨詢服務,必將成為圖書館在大數據時代的咨詢服務模式。

2.3對圖書館整體生存地位的挑戰

大數據不光影響圖書館事業內部各構成要素,從圖書館整個生存環境來看,由于大數據來勢洶涌,其商業價值和戰略資源前景受到政府、企業及知識服務機構的高度關注。在大數據時代,誰能有效地壟斷數據,誰就有可能成為世界的霸主。近年來,IT巨頭紛紛投入巨資涉足大數據開發和應用領域。2006年,Microsoft以1.1億美元購買了大數據公司Farecast。2008年,Google以7億美元購買了為Farecast提供數據的ITA Software公司。而圖書館在資金、技術和人才等方面顯然無法與大數據商業公司相比,這些專業公司對圖書館的部分業務甚至核心業務顯然構成了巨大挑戰。

以“語義網”(Semantic Web)為例,它實際上就是“數據網”,是一個全球的數據庫網,在這個數據庫網中,計算機能自動為用戶搜尋、檢索和集成網上的信息,而不再需要搜索引擎。大數據時代正在催生的這個最大的技術變革,就是要重新構造互聯網,打造下一代互聯網。眾所周知,現有互聯網搜索引擎已引起對圖書館的價值質疑、貢獻邊緣化、技術落后、人員不適應未來等多重危機,甚至導致了圖書館是否消亡的爭論,將來以語義網為代表的基于大數據的知識發現平臺一旦開發成功,將給圖書館帶來更為嚴峻的影響和挑戰。

3大數據時代圖書館的應對之策

3.1重視用戶信息行為數據及科學數據資源的建設

大數據時代的圖書館服務所需的數據既包括當前圖書館正在建設的文獻資源、數字資源、網絡資源,也包括圖書館內外海量的非結構化數據,其主要來源有RFID射頻數據、傳感器數據、社交網絡交互數據及移動互聯網數據,具體如網絡日志、視頻、圖片、地理位置信息、交易信息等數據資源。圖書館當務之急應對本領域用戶信息行為產生的大量數據,如讀者查詢書目產生的OPAC日志、讀者借還書產生的流通日志、讀者對于數據庫的瀏覽和檢索歷史,及基于手機、平板電腦等移動設備而產生的讀者個人信息、地理位置、瀏覽信息等加以收集并納入館藏。

此外,圖書館特別是研究型圖書館應收集從宏觀到微觀,從自然到社會的觀察、感知、計算、仿真、模擬、傳播等設施和活動中產生的科學數據,加快建立融數據和文獻于一體的新型數字圖書館,形成數據與信息融合的互操作架構,以形成圖書館獨具特色的科學數據基礎設施平臺。

3.2引進大數據處理平臺及分析工具

云計算已是較為成熟的大數據基礎平臺和關鍵技術,目前最為流行的開源云計算處理框架Hadoop 及基于Hadoop的HDFS和MapReduce等關鍵服務,可提供關聯規則學習、預測建模分析,被廣泛應用于推薦系統、商業智能、決策支持等領域。這些大數據處理框架平臺可與原有關系型數據庫部署在一起,有效組裝和整合新舊數據集合,能夠實現對結構化和復雜數據、非結構化數據的獲取、存儲、組織、分析及決策。

Hadoop在圖書館已得到初步的應用,如Nutch搜索引擎中的分布式搜索、索引等。圖書館應針對資源構建方式、大數據處理需求及技術條件,充分運用云計算環境中存儲、計算及網絡等資源的分布式網絡化服務的資源組合能力,重新定義和開發圖書館用戶信息行為數據的獲取、存儲、組織和分析系統和工具,將數據挖掘工具嵌入圖書館需要數據分析的業務環境,解決圖書館的大數據應用難題。

3.3開展基于大數據的知識增值服務

圖書館開展的大數據知識增值服務,主要包括以下幾種: 首先是圖書館自身建設所需的大數據分析。這類分析一般以圖書館本系統信息服務過程中所產生的大量非結構化、半結構化數據為對象進行分析,了解讀者信息行為正在發生什么,預測和分析將會發生什么,為圖書館個性化、人性化服務提供先覺價值和智慧服務。其次是嵌入式知識服務。圖書館應利用大數據特別是科學數據基礎平臺,提供以智力、知識、工具的應用為特征的深度知識服務,將知識咨詢服務嵌入管理、學科、科研及知識創新過程之中,促進學習、科研和知識轉化與圖書館服務的深度融合。此外,圖書館還可利用常規及深度數據分析,為客戶提供科技創新能力智能評價、知識服務競爭力分析、知識創新預測性分析、服務態勢綜述等高附加值服務。

3.4強化數據館員的培養和使用

大數據人才包括數據科學家、數據工程師和首席數據執行官(CDO)等,他們需要具備信息技術、自然語言理解、機器學習、數學算法、統計學等多方面的專業技能。這些數據管理和分析人才可通過合作或委托培訓的方式進行培養。2013年,北京航空航天大學計算機學院、軟件學院和淘寶、百度、騰訊等企業合作,聯合開辦了國內第一個大數據專業的工程碩士班。這種聯合式的大數據人才教育模式,為圖書館的大數據人才培養途徑提供了捷徑與借鑒。

4結語

正如Google的首席經濟學家Hal Varian所說,數據是廣泛可用的,所缺乏的是從中提取出知識的能力。數據收集的根本目的是根據需求從數據中提取有用的知識,并將其應用到具體的領域之中。在大數據時代,從大量的數據中分析其潛在的價值將成為圖書館的一大主要業務,而提供這些業務的水平將決定著圖書館的發展水平和方向。

參考文獻:

[1]韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報,2012(5):37-40.

[2]郭曉科.大數據[M].北京:清華大學出版社,2013.

[3]劉明,李娜.大數據趨勢與專業圖書館[J].中華醫學圖書情報雜志,2013(2):1-6.

[4]但彬.大數據=海量數據+復雜類型的數據[EB/OL].[2013-10-07]. http://www.d1net.com/cc/factary/88831.html.

[5]張興旺.圖書館大數據體系構建的學術環境和戰略思考[J].情報資料工作,2013(2):12-17.

[6]樊偉紅等.圖書館需要怎樣的“大數據”[J].圖書館雜志,2012(11):63-77.

[7]朱靜薇,李紅艷.大數據時代下圖書館的挑戰及其應對策略[J].現代情報,2013(5):9-13.

(編校:崔萌)endprint

猜你喜歡
云計算數據挖掘大數據
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
基于云計算的移動學習平臺的設計
實驗云:理論教學與實驗教學深度融合的助推器
大學教育(2016年9期)2016-10-09 08:54:03
云計算中的存儲虛擬化技術應用
科技視界(2016年20期)2016-09-29 13:34:06
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 国产99精品久久| 日韩免费毛片视频| 国产美女久久久久不卡| 国产综合网站| 狠狠色丁香婷婷| 国产av无码日韩av无码网站| 99久久国产精品无码| 婷婷五月在线| 狂欢视频在线观看不卡| 久久99精品久久久久久不卡| 成·人免费午夜无码视频在线观看| 日韩在线成年视频人网站观看| 午夜人性色福利无码视频在线观看 | 又大又硬又爽免费视频| 免费国产一级 片内射老| 欧美视频在线观看第一页| 2020极品精品国产| 99青青青精品视频在线| 国产美女精品一区二区| 一级全黄毛片| 日韩人妻无码制服丝袜视频| 亚洲精品色AV无码看| 小说区 亚洲 自拍 另类| 国产在线自乱拍播放| 午夜福利视频一区| 国产亚洲精品自在久久不卡| 亚洲va在线∨a天堂va欧美va| aⅴ免费在线观看| 欧美国产视频| 国产主播喷水| a级毛片一区二区免费视频| 亚洲天堂网在线观看视频| 综合人妻久久一区二区精品| 色网在线视频| 在线国产91| 九九热视频在线免费观看| aa级毛片毛片免费观看久| 国产成人欧美| 好吊日免费视频| 国产精品熟女亚洲AV麻豆| 久久婷婷五月综合97色| 看av免费毛片手机播放| 日韩麻豆小视频| 中文成人无码国产亚洲| 亚洲中文在线视频| 九九视频在线免费观看| 亚洲视频四区| 在线网站18禁| 九九九久久国产精品| 国产jizzjizz视频| 狠狠综合久久| 久久中文字幕av不卡一区二区| 91精品日韩人妻无码久久| 国产免费黄| 99久久精品国产综合婷婷| 免费又黄又爽又猛大片午夜| 毛片在线看网站| 日本三级欧美三级| 波多野结衣久久精品| 99久久精品美女高潮喷水| 成人va亚洲va欧美天堂| 国产成人h在线观看网站站| 真实国产精品vr专区| 久久亚洲精少妇毛片午夜无码 | 9啪在线视频| 国产幂在线无码精品| 亚洲Av综合日韩精品久久久| 中文纯内无码H| 高清色本在线www| 欧美日韩高清在线| 亚洲黄网在线| 日本亚洲成高清一区二区三区| 国内精自线i品一区202| 欧美人在线一区二区三区| 天堂在线www网亚洲| 色综合久久无码网| 欧美高清三区| 亚洲婷婷在线视频| 99er这里只有精品| 国产无码制服丝袜| 午夜国产在线观看| 99这里只有精品免费视频|