張丹
隨著全球信息化進程加快,大數據是繼云計算、物聯網之后到來的社會信息化的又一產物,是社會信息化的必經階段,與同是信息領域的檔案工作有著必然聯系,我們應該利用大數據完善發展檔案工作。但同時卻有一些檔案界學者認為大數據與檔案毫無關系可言,兩個是屬于不同性質的事物。本文認為,大數據與檔案,同屬于信息領域的兩個名詞,必然有著不可切斷的聯系。本文將從三個方面來論證檔案與大數據有著緊密關系。
1??檔案與大數據同屬信息領域
中國人民大學馮慧玲教授給予檔案的定義是:檔案是社會組織或個人在以往的社會實踐活動中直接形成的具有清晰、確定的原始記錄作用的固化信息。?這也就意味著檔案是信息的一部分,與大數據有著密不可分的關系。反過來講,對于大數據的定義,企業和學術界目前尚未形成公認的準確認識,維基百科將其定義為“無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合”。從概念上講,大數據與檔案一樣產生主體皆為人,也都是在具體實踐活動行為中產生,而且兩者類型多樣,同樣包含著文字、圖像、視頻、音頻等多種形式。兩者也同樣具有極高的價值,傳統檔案的價值在于它的憑證性和參考性,而大數據存在的最終價值是能夠預測。如:?google流感趨勢利用搜索關鍵詞預測禽流感的散布等。檔案遇上大數據后,檔案價值將延伸到能夠社會化利用,不僅僅是作為憑證與參考存在。
2??檔案與大數據同是社會記憶
有些學者認為檔案是清晰明確的,具有原始記錄性的,它從產生之初就被各種標準框架相約束,是一個規范的、完整的信息集合,而大數據的產生是零散的、碎片化的信息,毫無規范可言。從這個角度講,確實毫無關系。但本文認為檔案之所以規范,是因為有標準規范的檔案工作對其進行收、管、用等管理,有管理的意識存在。而大數據之所以雜亂,是因為它自從產生就無人管理。再加上大數據中大部分信息屬于原生數字信息資源,其存在的載體為數字平臺,此載體上的信息容易形成、復制、傳播與銷毀,易于受到外來攻擊等導致大數據的雜亂、不規范、不標準,無管理的意識存在,這才造成了兩者存在狀態完全對立的狀態。就如上文所說,大數據產生的主體是人,這些數據是對人類生活和客觀世界的測量和記錄,涵蓋了人們生活的各個方面,它不僅是人們發表的隨身小記錄,更是整個大社會的記憶庫。然而近些年來,檔案工作也將社會記憶、集體記憶觀念納入理論框架和實踐范疇,越來越自覺地參與集體記憶的構建、維護與傳承,認為檔案也是社會記憶的一部分。毋庸置疑,社會記憶是零散的,它是每個個體產生的零碎信息,但其又體現社會記憶的具有重要價值,是珍貴檔案的一部分。
3??檔案與大數據互相包含
有些學者認為大數據屬于在線數據,而不包含離線數據,因為在線數據是開放的,能夠分析利用且創造更多財富價值的數據。而離線數據是不公開的,其價值也具有出入性和針對性的,且基本無財富可挖掘的數據,比如銀行內的客戶數據。因此,他們認為,大數據是有價值可以創造財富的在線數據。但本文認為這是相關IT企業對大數據的片面認知,此認知只是有利于相關企業能夠更好地利用大數據創造更多價值,而并沒有參透大數據真正的意義。大數據之所以稱“大”,是因為它容量之大,種類之多;之所以稱為“數據”,是因為每天所產生的一條數據相對于該天產生的總量來說就如同傳統意義上的數據一樣渺小,它應該同時包括在線數據和離線數據。另一方面,檔案中有公開可利用的檔案,也有絕密不可公開的檔案,若依照上文所說,檔案的利用人群確實有針對性和出入性,看起來并無關聯。但檔案無論公開與否,它們都具有極高的價值存在,況且有些機密性檔案的價值并不是可公開檔案的價值所能比擬的,如國家機密檔案,從斯諾登的“棱鏡事件”就可看出國家機密的重要性。如此說來,前后具有矛盾。因此,本文認為,大數據應包括在線數據和離線數據,當然檔案也包含于大數據之中。檔案中也應保存有大數據中有長久保存價值的數據,二者相互包含,有密切的聯系。
檔案工作從古至今就一直存在著,它不斷地發展、不斷地更新,如今大數據的出現又可以為檔案工作注入新鮮的血液,使它煥發生機,更好地為檔案事業服務。
(作者單位:上海師范大學人文與傳播學院信息管理系??來稿日期:2015-04-18)