999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

檔案大數據定義與內涵解析

2017-01-17 19:06:21康蠡金慧
檔案管理 2017年1期
關鍵詞:定義內涵

康蠡+金慧

摘 要:結合大數據和檔案工作實際,定義檔案大數據是與檔案活動密切相關的各種有價值的、難以在可接受時間內分析處理的數據集。檔案大數據來源于三個方面,具有4V+1C及時滯性、獲取困難等特征,其實質代表了檔案領域一種新的數據生成、存在和處理樣態。

關鍵詞:檔案大數據;定義;內涵

隨著大數據的影響日益廣泛,近幾年檔案界掀起了研究大數據的熱潮?!皺n案大數據”一詞頻頻出現在人們的視野,但迄今為止卻很少有人對其定義和含意展開深入探討,以至于在對檔案大數據的理解中“存在著不同程度的概念泛化、夸大與誤讀?!盵1]當前,大數據在檔案領域正由概念論說向嘗試應用階段演進,迫切需要對檔案大數據給出一個較為明確、科學的定義。鑒于此,本文在梳理已有論點的基礎上,結合大數據的涵義,對檔案大數據的定義和內涵進行闡釋,希望有助于業界更科學地認識該問題。

1 檔案大數據定義的界定

受大數據浪潮的沖擊,自2012年起,國內就有檔案學者開始了對檔案大數據的研究。但他們大多是從大數據的角度出發,探討大數據對檔案和檔案工作的外圍影響及其對策等。對于什么是檔案大數據,很多人采取了模糊化處理的做法,只有高茂科和魯德武兩位學者專門厘析了其定義。高茂科采取直接套用大數據定義的做法,著重強調數據的規模。他指出,檔案大數據就是檔案方面涉及的資料量規模巨大到無法通過目前主流軟件工具在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策更積極目的的信息。[2]魯德武則以檔案大數據所屬范疇為基點,將檔案大數據定義為檔案中的大數據,即一定空間與時間范圍內所有檔案數據的集合。[3]

以上兩位學者采用“屬+種差”的方法,分別從不同的側面揭示了檔案大數據的特征,但這兩個定義都存在一定的問題。高茂科的定義把信息作為檔案大數據的屬概念,將檔案大數據的外延等同于信息的外延,并且將檔案大數據的應用范疇局限于企業經營決策方面,不僅違背了普通邏輯學中“定義項和被定義項的外延必須相同”的規則,而且窄化了檔案大數據的內涵。魯德武的定義以數據在時間和空間上的全面性來界定檔案大數據,突出了檔案大數據的整體性特征,但他將檔案數據的集合等同于檔案大數據,顯然沒有準確地把握檔案大數據的本質屬性。同時,“全面性”固然是檔案大數據的一個重要特征,但其也不能完整地反映檔案大數據的全部意涵。因此,還需要對檔案大數據進行更周密的分析。

從詞源上來看,檔案大數據是由檔案和大數據交叉而來的一個概念,它由檔案和大數據兩方面構成,所以要正確定義檔案大數據,關鍵是要厘清“檔案”和“大數據”這兩個詞在其中的涵義。而從字面上理解,此處的“檔案”顯然是一個限定詞,其基本作用是將后面的“大數據”限定在“與檔案直接有關的”這個范疇。

至于何謂大數據,由于其目前尚處于被認識和應用的初級階段,人們對大數據的理解還存在較大分歧,并沒有就其定義達成一致意見,但通過文獻梳理發現,大多數研究者傾向于從數據屬性和技術層面來界定大數據。麥肯錫公司認為,數據規模超出傳統數據庫管理軟件的獲取、存儲、管理以及分析能力的數據集就是大數據。維基百科指出,大數據是指利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間限制的數據集。研究機構 Gartner 對大數據的定義是:需要新處理模式才能增強決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。徐宗本院士則將大數據定義為不能夠集中存儲、并且難以在可接受時間內分析處理,其中個體或部分數據呈現低價值性而數據整體呈現高價值的海量復雜數據集。[4]縱觀這些定義,雖然各自對大數據的認知角度和側重點不大相同,但它們卻蘊含著一個共同點,即都認為大數據的核心是一種數據集,與傳統的數據及處理技術相比,其具有數據體量大(Volume)、數據類型多(Variety)、價值密度低(Value)、處理速度快(Velocity)和復雜性(Complexity)特征。

作為數據管理理論和實踐的新發展,大數據開啟了一次重大的時代轉型,對包括政府、教育、經濟、科技、醫療等在內的各個領域產生了深遠影響。隨著大數據技術與檔案工作的交匯融合不斷加深,來自檔案層面及其業務活動的數據在數量、速率與種類上急劇且持續擴大,遠遠超出了傳統數據處理軟件和技術的能力范疇,由此導致檔案大數據迅速興起。因此可以認為,檔案大數據指的就是將大數據技術和理念應用于檔案業務領域產生的大數據。綜合前文有關大數據的定義,我們對檔案大數據作如下界定:檔案大數據乃是在檔案業務活動(包括檔案產生、管理及利用活動)中形成,跟檔案及檔案業務活動密切相關的各種有價值的、難以在可接受時間內分析處理的數據集。

2 檔案大數據內涵的闡釋

基于上述定義,可以從以下幾方面來認識檔案大數據。

2.1 檔案大數據的來源。由于檔案大數據是伴隨著檔案業務活動與大數據技術及理念的融合而產生的,這就意味著其在來源上應該包括:①來自檔案本身的數據。該部分數據主要指檔案館(室)收集的電子檔案、音視頻檔案以及傳統載體檔案數字化成品所記錄的內容數據(原始記錄)及反映檔案形式的電子數據,如檔案載體材質、規格的數據、檔案管理系統的數據等,以及由檔案內容數據加工生成的檔案目錄、文摘、指南等數據。它們是檔案大數據中最具檔案特色的部分,也是檔案大數據的主干。②檔案部門開展業務活動產生的數據。此類數據一部分由檔案業務部門自己生成,一部分則由檔案業務部門通過各種途徑收集而來。主要涵蓋檔案部門的概況數據、檔案政策數據、法律數據、館藏結構數據、行業動態數據等。③有關檔案用戶的數據,具體包括用戶的個人情況、位置數據、查詢瀏覽數據、需求偏好數據等。上述數據構成了檔案大數據的主要來源,但需注意,這并不是說檔案大數據就囊括了以上方面的一切數據。檔案業務活動過程也會產生大量無意義的噪聲數據,只有那些能服務檔案工作發展、具備利用價值的數據才能納入檔案大數據范疇。這就需要根據應用目的進行數據過濾與整理,為后期深度挖掘與分析做好準備。[5]

2.2 檔案大數據的特征。與傳統的檔案數據(主要指海量檔案數據、大規模檔案數據)相比,得益于信息技術的進步和信息需求的變化,檔案大數據在諸多方面都表現出了新的特點。具體來說,在數據規模上,傳統的檔案數據通常以MB、GB或TB計算,檔案大數據的規模則往往達到了PB、EB乃至ZB級。在數據類型上,傳統的檔案數據絕大部分為事先定義好的結構化數據(檔案數據庫),檔案大數據則既包括了大量的結構化數據,又包括了大量的半結構化數據(如數字化的員工管理數據)和非結構化數據(如視頻、音頻、照片、電子郵件、網頁信息等),并且后兩種類型的數據越來越成為主流。在時效方面,傳統檔案數據收集的來源、對象相對固定,帶有明顯的階段性和周期性,檔案大數據中的各種數據則是以數據流的形式動態地生成、快速地甄別、實時地存儲,數據的采集、處理將具有很強的時效性。[6]同時,受以上因素的疊加催化,檔案大數據處理的復雜程度遠遠超過了傳統檔案數據的處理要求,需要借助超常規的技術和工具才能完成。

與教育、金融、互聯網等領域的大數據相比,檔案大數據的特征則體現為:①時滯性。盡管檔案大數據中產自管理部門業務活動的數據及用戶數據具有強烈的及時性、動態性,但作為核心數據的檔案數據如電子檔案、檔案數字化文件等數據信息卻帶有明顯的滯后性、靜態性,因而決定了檔案大數據具有很強的時滯性,并不能像互聯網數據那樣即時產生效用。②價值密度高。檔案數據是對社會實踐活動的原始記錄,并且檔案往往以孤本形式存在,這也就表征相較于其他領域的大數據,檔案大數據的真實性更強,其單位數據的價值密度更高。③獲取困難。由于檔案數據具有保密要求,其只有過了一定的保密期限才能對外開放,從而給檔案數據的公開獲取帶來了很大困難。

2.3 檔案大數據的定位。從起源和歸屬上看,檔案大數據孕育于大數據生態環境,產生于檔案生產者、檔案管理者和檔案消費者構成的生態網絡之中。因此檔案大數據僅僅是大數據生態整體中的一小部分,它受到大數據生態的影響和制約,又反作用于大數據生態,其與大數據之間的關系也只是反映了部分與整體的關系。而檔案大數據之“大”,除了指數據體量、類型、變化之大外,更重要的是指這些數據蘊含的價值之大。因為構成成分的復雜性、特殊性,檔案大數據的功能、價值更加豐富、多元:一方面,由于其中的檔案內容數據是對社會實踐活動的歷史記錄,該部分數據無論怎樣都須起到“提供證據、給予公眾解惑”[7]的作用;另一方面,在大數據環境下,隨著檔案信息化的推進,可利用的檔案數據、業務數據和用戶數據大量增加,加之檔案業務中各種數據“實時采集、實時歸檔、實時計算”[8](當然這也是檔案大數據的必要條件)的逐步實現,人們可以在整合這些數據的基礎上,通過對檔案與社會活動以及檔案與檔案、檔案與用戶、用戶與用戶之間多維關系的挖掘分析,發現組織、社會及個人歷史活動與檔案利用活動的客觀規律并對其進行預測,從而察覺新的問題,做出新的決策,創造新的知識,讓各相關數據在服務社會生產生活、保存歷史記憶、提升檔案管理利用水平等方面發揮出決策與預測功能,產生更大的價值。就此我們亦可判知,檔案大數據的核心并非只是容量非常大的數據的集合,而是要在數據關聯的基礎上實現對所有數據的動態挖掘和應用。

2.4 檔案大數據的本質。檔案大數據更深層的內涵,在于其表征了檔案領域一種新的數據生成、存在和處理樣態,預示著檔案信息化發展的新階段。檔案大數據的根源在于因信息記錄和處理技術的飛速進步而引起的檔案數據化,其實質是對檔案業務活動中多樣化數據進行高速采集、實時處理和分析,以從中提取多種價值。[9]檔案大數據以整體論為基礎,將檔案數據、業務數據、用戶數據及產生這些數據的人、事、物視為一個有機整體,在彼此的相互關系和相互作用中理解、看待與運用數據;主張通過數字化手段,突破時間、空間和體制障礙,打破檔案與檔案、檔案與用戶、用戶與檔案機構彼此分割的數據分布狀態,實現數據的相互開放、相互流通與相互關聯,尋求對多元數據整體價值的深度發現,以實現各種數據價值的最大化。

在理念層面,檔案大數據之“大”的根本則是檔案業務活動中思維方式的轉變。這種轉變體現在:首先,要求檔案活動的重心應由技術(T)轉向信息(I),在檔案管理和利用中要以數據為大,讓數據說話,使數據成為考究問題、進行決策的依據和價值創造的源泉,而不單單依靠經驗和直覺開展工作。其次,在數據的采集分析上,要求我們樹立大檔案觀,不再滿足于少量樣本或抽樣數據,而是要注重數據的全面性,盡可能地收集和利用全部(檔案、業務和用戶)數據,讓每一條有意義的數據及數據關系都能進入檔案管理和利用的視野,使其獲得生命、煥發光彩。其三,檔案管理和利用主體應在堅持數據精確性的同時,容忍和接受大量數據帶來的混雜性和不確定性,并從中發現創造發生的無限可能。其四,在檔案開發和利用過程中,既不放棄對檔案記錄及檔案業務活動中因果關系的追問,明確其中的原因,又將對檔案數據、業務數據和用戶數據蘊藏的相關關系的關注放在突出位置,用以把握檔案記錄及檔案業務活動的有關現象是什么,以及檔案管理和服務即將發生什么。這就要求檔案工作必須由被動走向主動,對檔案的利用亦須由以提供檔案原始信息為主轉向提供檔案原始信息與對檔案數據的整合、分析、挖掘、呈現并重。

*本文系海南省哲學社會科學規劃課題“生態文明發展中海南生態檔案資源體系構建與應用研究”(項目編號:HNSK(QN)15-45)成果之一。

猜你喜歡
定義內涵
活出精致內涵
永遠不要用“起點”定義自己
海峽姐妹(2020年9期)2021-01-04 01:35:44
理解本質,豐富內涵
定義“風格”
略述《歲月生香》的壺中內涵
內涵漫畫
愛你(2017年13期)2017-06-10 08:38:02
要準確理解“終身追責”的豐富內涵
學習月刊(2016年2期)2016-07-11 01:52:32
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
自選動作拓展改革內涵
中國衛生(2015年11期)2015-11-10 03:17:28
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
主站蜘蛛池模板: 亚洲Av综合日韩精品久久久| 在线视频一区二区三区不卡| 婷婷伊人久久| 久青草网站| 伊人久久精品无码麻豆精品| 99精品欧美一区| 国产午夜福利片在线观看| 免费网站成人亚洲| 色噜噜综合网| 欧美国产日本高清不卡| 国产特级毛片aaaaaa| 精品国产一区91在线| 国产成人免费观看在线视频| 国产性生大片免费观看性欧美| 亚洲综合色婷婷| 国内精品自在欧美一区| 精品久久777| 欧美精品v| 国产熟女一级毛片| 免费一级全黄少妇性色生活片| 一级黄色网站在线免费看| 在线观看亚洲精品福利片| 四虎国产永久在线观看| 成人精品在线观看| 日本免费新一区视频| 国产9191精品免费观看| 伊人久久大香线蕉综合影视| 免费在线成人网| 九色综合视频网| 久久综合丝袜日本网| 午夜天堂视频| 亚洲午夜片| 国产一级二级在线观看| 亚洲精品黄| 亚洲欧美另类中文字幕| 激情無極限的亚洲一区免费| 在线观看视频一区二区| 国产精品.com| 九色最新网址| 天堂在线www网亚洲| 国产精品专区第1页| 免费观看成人久久网免费观看| 男人天堂亚洲天堂| 国产精品男人的天堂| www.av男人.com| 蜜桃视频一区二区三区| 国产av一码二码三码无码| 99爱视频精品免视看| 美女潮喷出白浆在线观看视频| 99热6这里只有精品| 欧美一区二区三区不卡免费| 国产亚洲高清视频| 久久亚洲日本不卡一区二区| 91福利国产成人精品导航| 精品欧美视频| 成人国产小视频| 天堂va亚洲va欧美va国产| 国产高清在线观看| 久久女人网| 国产精品自拍露脸视频| 精品成人一区二区三区电影| 久久精品国产一区二区小说| 孕妇高潮太爽了在线观看免费| 青草视频久久| 国产91av在线| 久久人搡人人玩人妻精品 | 国产白丝av| 婷婷丁香色| 第一区免费在线观看| 午夜精品区| 久久这里只精品热免费99| 色老头综合网| 人妻一本久道久久综合久久鬼色| 亚洲色图欧美一区| 中字无码av在线电影| 国产精品嫩草影院视频| 亚洲欧美国产视频| 国产成人综合在线观看| 国产成人区在线观看视频| 一级黄色网站在线免费看| 男女精品视频| 欧美综合一区二区三区|