劉曉英 文庭孝
(1.中南大學圖書館醫學分館 湖南長沙 410013;2.中南大學醫藥信息系 湖南長沙 410013)
“大數據”(Big Data)是繼“云計算”之后IT行業最熱的詞匯。美國麥肯錫咨詢公司最早提出“大數據”的概念,在IT行業和商業領域掀起了大數據狂潮。[1]2012年2月,奧巴馬政府宣布推出“大數據的研究和發展計劃”,并于3月29日在美國白宮網站發布《大數據研究和發展倡議》,在政府管理和社會應用領域掀起了大數據巨浪。[2-5]正如Steve Lohr在給美國紐約時報撰寫的《大數據時代(The Age of Big Data)》[6]一文中宣布的那樣:大數據時代已經來臨!
大數據的核心是數據集成和數據管理,在“大數據”時代,數據即資源、數據即財富、數據即資產已并非虛言,數據、信息已經成為組織重要的資產。如何充分利用歷史的和每天產生的海量數據、信息,如何處理和存儲這些寶貴的資源,如何從海量數據中提取有價值的信息,如何將數據、信息轉化為有用的知識和規則,對于組織的生存與發展至關重要,對于提升組織的核心能力和競爭優勢至關重要。而要從大數據和海量數據中提取有價值的信息,并加以利用,就必須實行數據開放、信息公開,將分散分布、零碎存在的數據和信息融合成完整的“大數據”。
隨著互聯網的高速發展,信息呈爆炸式增長,需用“大數據或者海量數據”來描述現有信息和數據量。Gartner(高德納)公司研究認為,新產生的數據量每年以至少50%的速度遞增,使得每年新增的數據量不到兩年就翻一番。Cisco(思科)公司在一份報告中推測2015年僅移動數據量將會突破每月6EB,等于60億GB。而IDC最新的數據預計,到2020年,世界上的數據存儲總量將達到35ZB,等于35萬億GB。[7]
“大數據”是一場數據革命,也是一場思維變革,已經在政府管理、商業經營、醫療衛生、交通運輸等領域得到廣泛應用,它將對我們的工作、生活和思維產生巨大的影響,“大數據”正在改變政府、商業以及我們的生活方式。
1.1.1 從實踐進展來看。大數據最早源于IT領域的數據存儲和處理,如云計算和云平臺、數據挖掘和知識發現等。繼而用于商業領域數據關聯、產品關聯和用戶行為等分析,如零售巨人沃爾瑪從數據中發現啤酒與尿布、蛋撻與颶風用品的神奇關聯;谷歌的信息關聯搜索和數據圖書館;亞馬遜的圖書關聯推薦;IBM開發出基于大數據的汽車預測模型;蘋果從“潛在”數據中挖掘信息價值;銀行、電信和保險業通過用戶信息和交易記錄分析來提高利潤、降低風險等等。之后受到政府管理、醫療衛生、交通管理、科學研究等領域的重視,如美國政府面對大數據挑戰提出的“數據開放”政策和“數據民主”政府;醫療衛生領域通過大數據進行流感預測、疾病診斷、手術成功率預測、用藥效果監測以及健康信息共享;交通領域基于GPS大數據的路面生命周期預測、交通線路選擇和交通事故處理;科學研究領域利用大數據進行知識發現和尋找前沿領域[8-10]等等。基于大數據的關聯分析、數據挖掘、知識發現在實踐中顯示出巨大的價值和作用。
1.1.2 從研究領域來看。國外大數據研究主要集中在IT領域、商業領域、公共領域和科研領域等,正在向各行各業和各學科領域拓展。IT領域主要從技術、算法、模型和實現等角度研究大數據,其中有關云計算、數據處理、數據挖掘、知識發現等的研究最引人注目。2011年,IBM指出了“大數據”的四大特征,即“4V”特征(Volume,大量化;Variety,多樣化;Velocity,快速化;Value,價值)。Gartner公司在其2012年的研究報告中指出,大數據挖掘將是未來10年內IT領域最重要的技術之一。[11]商業領域的研究主要通過數據關聯分析來發現信息的價值。英國著名學者維克托·邁爾-舍恩伯格與肯尼斯·庫克耶最早對大數據進行系統研究,并于2013年1月出版了《大數據時代》一書,系統總結了大數據在商業領域的應用,指出了大數據引發的思維變革和商業變革。[12]公共管理領域的研究主要是通過數據挖掘和數據關聯分析來提升公共服務質量和加強社會管理能力。旅美學者涂子沛出版了《大數據》一書,從技術、政治、商業三個角度描述了大數據在美國政府管理應用中的經驗和實踐,反映了美國政府的數據開放創新過程。[13]歐洲新聞學中心(European Journalism Centre)和開放知識基金會(Open Knowledge Foundation)于2012年共同開發了一本《數據新聞學手冊》,旨在推動全球數據新聞學的研究和發展。2012年,陶氏基金會和奈特基金會宣布提供20億美元用于資助哥倫比亞大學新聞學院的數據新聞學研究。2011年,麥肯錫公司在其全球研究報告《大數據:創新、競爭和生產力的下一個前沿》中詳細介紹了醫療健康領域中信息化和大數據應用的發展趨勢。公共健康領域的研究者越來越多地采用地理信息系統(GIS)來分析人們所處的環境及其影響。國外目前主要從技術和應用角度研究大數據,理論研究、系統研究和綜合研究不多。
1.1.3 從數字資源融合研究現狀來看。最早是集成,而后是整合,繼而是融合。基于數字資源整合、集成和共享的數字資源融合的相關研究已經十分豐富和成熟,如數字資源集成,以數字圖書館、跨庫檢索系統、數據庫集成系統、搜索引擎等為代表;數字資源整合、共享與服務,以文獻資源保障體系、圖書館聯盟、數字資源共享等為代表。[14-15]無論是數字資源集成,還是數字資源整合、共享,目前都沒有有效地解決數據資源的分散分布、重復建設、利益沖突及低效利用等問題,數據開放、信息公開、資源融合、無縫聯結是未來發展的必然趨勢,數字資源有效利用才是目的。為解決這些問題,第十五屆國際信息融合會議將于2013年12月在奧地利維也納舉行。“大數據”開啟了數字資源融合的新方向。
我國從2011年開始引入“大數據”,很快成為繼“云計算”之后的另一個關注熱點。我國的大數據研究以翻譯和介紹國外研究成果為主,處于研究的初級階段,并且常常和云計算研究結合在一起。翻譯的著作以《大數據時代》(維克托·邁爾-舍恩伯格和肯尼斯·庫克耶,2013)、《駕馭大數據》(弗蘭克斯,2013)和《大數據》(涂子沛,2012)等為代表,在國內影響較大。隨后,國內也相繼出版了一些關于大數據研究的著作,如《大數據》(郭曉科,2013)、《大數據挖掘》(譚磊,2013)、《大數據的力量》(郭昕、孟曄,2013)、《大數據戰略·技術·實踐》(周寶曜、劉偉、范承工,2013)、《大數據時代的歷史機遇:產業變革與數據科學》(趙國棟等,2013)等,這些著作主要是從技術和應用角度對“大數據”進行了系統介紹。相關研究論文主要從大數據的意義、作用、影響、技術、應用等方面進行介紹,真正意義上的學術研究和應用研究很少。
有關數字資源融合的研究也主要體現在數據融合及信息資源整合、集成和共享與服務等方面。我國數據資源融合與服務始于20世紀末,相關研究論文逐年增長。信息融合與服務研究興于2000年左右,相關研究論文勻速增長,而信息資源融合并未引起關注。信息集成與服務研究始于2000年左右,2005年后逐漸冷卻。信息共享、信息資源共享與服務研究興起稍晚于信息集成與服務,迅速成為研究熱點,2010年之后關注開始下降。信息整合、信息資源整合與服務研究也同時興起。從整體來看,目前國內將“大數據”與“數據和信息資源融合、整合、集成、共享與服務”兩者結合起來的研究還極少,研究者們幾乎沒有將融合與整合、集成、共享明確區分,而是混合使用。
數字資源融合是指從時間上融合過去、現在及未來數據資源,從空間上融合不同區域和不同行業領域數據資源,將信息和數據資源組成一個完整的有機整體進行開發利用,獲得更多更大的價值。數字資源融合是數字資源的全面開放、無縫聯結、高度集成、即時共享,跨越時空和主體界線,將數據資源組合成一個有機整體。
在大數據時代,分散分布與零碎存在的數據和小數據意義不大,而“大數據”才有價值。封閉的“數據孤島”、“信息孤島”難以發揮作用,數據開放、數據集成、數據共享、數據融合是大趨勢。在大數據時代,只有“活”的數字資源才是資產,圖書館等信息機構要么主動融合數字資源并組織開發利用大數據的價值,要么被融合,沒有其他選擇。
從大數據的基本要求來看,目前圖書館等信息機構的數字資源融合迫切需要研究和解決的問題如下:(1)大數據時代圖書館等信息機構所擁有的數字資源及其特征。重點需要確定圖書館等信息機構有哪些“大數據”,這些大數據有何特征,如用戶大數據、館藏資源大數據等[16]。(2)大數據時代圖書館等信息機構的數字資源服務。如何通過數字資源融合形成大數據來開發利用數字資源,并提供服務,是大數據時代數字資源融合研究的目的。(3)大數據時代圖書館等信息機構的數字資源融合及服務模式。大數據背景下圖書館等信息機構的數字資源融合及服務模式可分為三個層次,即數據融合模式或資源融合模式、平臺融合模式、服務融合模式,以及基于大數據和云計算的數字資源融合與服務模式,這些模式如何運作還需要進一步研究。(4)大數據時代圖書館等信息機構的數字資源融合及服務平臺構建。需要以數字資源融合與服務模式為基礎構建模型和平臺,設計平臺實現方案,為數字資源融合與服務在信息機構的實現提供指導。國外圖書館、檔案館、博物館的數字資源整合實踐與研究為我們提供了經驗和依據[17]。(5)大數據時代圖書館等信息機構數字資源融合及服務對策。需要解決大數據背景下實現數字資源融合可持續發展的資源保障、制度保障、組織保障和運行機制等。
根據全球大數據實踐的基本現狀來看,大數據管理需要解決三個核心問題,即大數據采集與處理(數據問題)、大數據基礎設施(技術問題)、大數據分析與應用(利用問題),[18]因此數字資源融合實現的基本模式可以分為三個層次,即數據融合層、平臺融合層和服務融合層。如圖1所示。

圖1 大數據環境下數字資源融合的基本模式
數據融合層需要通過統一的數據標準解決異質異構異地數據的開放存取問題。數據開放和數據標準是數據資源融合的基礎和關鍵,公共管理部門和企事業單位是數據的最大擁有者,如何平衡數據資源的利益相關者,開放數字資源形成大數據,并解決大數據利用帶來的價值分配問題,需要法律、政策和制度依據。數據融合的最終實現還需要構建一個多中心多層級的中央數據平臺,分別存放各個數據主體和各行業領域的數據。
基礎設施是大數據管理和數字資源融合的平臺和技術基礎,大數據的利用和數字資源融合的實現歸根到底還是一個信息技術問題。數字資源融合平臺需要解決數據采集、數據處理、數據存儲、數據集成、數據共享、數據傳輸、數據安全、數據利用等實現的相關標準和技術手段。如何將最新的網絡技術、數據存儲技術、數據庫技術、云計算技術、數據挖掘技術、知識發現技術等用于數字資源平臺構建是實現數字資源融合的核心。
大數據和數字資源的開發利用,為管理和決策提供一站式綜合服務是數字資源融合的根本目的。以數據資源為基礎,以基礎設施為平臺,可以進行數據挖掘、知識發現、關聯分析等,為用戶提供數據定制服務、個性化數據服務等,完成數字資源融合的最終目標。
在大數據和云計算背景下,研究信息機構的數字資源融合及服務問題突破了傳統信息資源整合、集成與共享等研究局限與缺陷,是重要的突破和創新,需要理論依據、實踐證明和價值現實。首先需要從理論上尋找大數據背景下數據開放、信息公開、資源融合、無縫聯結等的科學依據,并有效地解決傳統環境下存在的數據資源和信息資源分散分布、重復建設、利益沖突及低效利用等問題。其次需要從實踐上探索大數據時代信息機構數字資源融合與服務的框架和模式,并構建相應的資源融合平臺框架模型,為信息機構的數字資源開發利用與服務提供新思路,證明其實踐中實現和實施的可能性和可行性。最后需要通過理論、實踐和應用研究為信息機構在大數據背景下實現數字資源融合與服務提供指導,同時研究其可持續發展的資源保障、制度保障、組織保障和運行機制,發揮信息機構的優勢和特色,提升信息機構在大數據時代的社會地位和影響,尋求其現實作用和價值實現。
大數據背景下的數字資源融合實現面臨著諸多問題,包括:
4.2.1 觀念問題。數字資源融合涉及的觀念問題包括數字資源保護問題和數字資源利用問題等。一方面,數據即資產、核心數據資源即核心競爭優勢已成為共識;另一方面,數據閑置即浪費、分散與零碎數據和小數據無意義、“大數據”才有價值、數據開放是大趨勢已深入人心。如何解決數據資源保護和利用的平衡點和有效邊界是數字資源融合需要突破的觀念問題。
4.2.2 技術問題。數字資源融合涉及的技術問題主要包括數據存儲容量問題、數據標準問題、數據安全問題、數據保存問題等。數據存儲容量問題是指大數據中的“大容量”通常可達到PB級的數據規模,海量數據存儲系統一定要有相應等級的擴展能力;數據標準問題是指異質異構異地數字資源的兼容與共享;數據安全問題是指某些特殊行業的數據資源應用技術設備等都有特殊的安全要求,比如金融數據、醫療信息以及政府情報等都有自己的安全標準和保密性需求;數據保存問題是指數字資源保存和積累的時間要求與量的要求,不同類型的數字資源保存期限要求不同,不同領域的大數據分析需要積累量的要求不同等等。
4.2.3 經濟問題。大數據管理和數字資源融合的經濟問題包括成本控制問題、成本分攤問題、利益分配問題等。成本控制問題不僅涉及數據采集、處理、存儲和利用等,還涉及人力、設備和利用效率;成本分攤問題涉及數字資源融合實現過程中各方參與主體的投入問題,包括數據、人、財、設備等的投入成本;利益分配問題指數字資源融合帶來的收益分配問題。
4.2.4 法律問題。數字資源融合的實現還需要從、法律層面解決出現的各種問題,包括參與各方的權利和義務、數字資源的版權保護、數字資源安全、數據和平臺管理、成本分攤和利益平衡等。
(來稿時間:2014年6月)
1.陸靜.我國圖書館界大數據研究評述與展望.圖書館雜志,2014(1):20-25
2.Executive Office of the President. Big Data Across the Federal Government.[2014-04-20].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final.pdf
3.Executive Office of the President. Obama Administration Unveils “Big Data” Initiative: Announces$200 Milion in New R&D Investments.[2014-04-20].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf
4.Steve Lohr. The Age of Big Data.[2014-04-20].http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-inthe-world.html
6,8.郭曉科.大數據.北京:清華大學出版社,2013
5,7,10,11.譚磊.大數據挖掘.北京:電子工業出版社,2013
9,12.(英)維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代.盛楊燕,周濤,譯.杭州:浙江人民出版社,2013
13.涂子沛.大數據.桂林:廣西師范大學出版社,2012
14.肖希明,唐義.國外數字資源整合在多領域的研究進展.中國圖書館學報,2013(1):1-11
15.程煥文.信息資源共享.北京:高等教育出版社,2004
16.陳超.圖書館如何迎接大數據時代?.圖書館雜志,2014(1):4-7
17.肖希明,鄭燃.國外圖書館、檔案館、博物館數字資源整合研究進展.中國圖書館學報,2012(5):26-39
18.周寶曜,劉偉,范承工.大數據戰略·技術·實踐.北京:電子工業出版社,2013