陳明潔
自20世紀(jì)50年代以來(lái),隨著計(jì)算機(jī)、網(wǎng)絡(luò)和通信技術(shù)的迅速發(fā)展,人類社會(huì)開始由工業(yè)社會(huì)進(jìn)入信息社會(huì)。特別是20世紀(jì)90年代互聯(lián)網(wǎng)的出現(xiàn),信息量呈幾何級(jí)數(shù)增長(zhǎng)。國(guó)際數(shù)據(jù)公司(IDC)在2011年發(fā)布了新的數(shù)字宇宙研究報(bào)告(Digital Universe Study)——《從混沌中提取價(jià)值》(Extracting Value from Chaos),該報(bào)告顯示全球信息總量每過兩年就會(huì)增長(zhǎng)1倍。僅2011年,全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量就有1.82ZB,相較2010年同期上漲超過1ZB,預(yù)計(jì)到2020年這一數(shù)值將增長(zhǎng)到35ZB。面對(duì)信息爆炸,人們采取了種種應(yīng)對(duì)策略。近些年來(lái),大數(shù)據(jù)的方法和思想得到了越來(lái)越多的重視和應(yīng)用。在IT界,大數(shù)據(jù)一詞雖然沒有統(tǒng)一定義,但是對(duì)于它的特征達(dá)到了一定的共識(shí)。一般認(rèn)為大數(shù)據(jù)具有四個(gè)方面的特征:一是數(shù)據(jù)全,即數(shù)據(jù)包含所有的樣本,數(shù)據(jù)可能體量巨大,也有可能不大;二是數(shù)據(jù)類型繁多,包括網(wǎng)絡(luò)日志、文本、圖片、音視頻、地理位置信息等;三是價(jià)值密度低,單位數(shù)據(jù)信息含量有限;四是處理速度快。人類社會(huì)即將或已經(jīng)步入了大數(shù)據(jù)時(shí)代,它將深刻地影響社會(huì)的方方面面。
檔案界在檔案信息化過程中必須保持對(duì)信息技術(shù)發(fā)展的高度敏感,及時(shí)追蹤新技術(shù)趨勢(shì),深入研究各種信息技術(shù)引入檔案工作的可能性、必要性及其可能帶來(lái)的積極意義和消極意義。大數(shù)據(jù)技術(shù)和思想對(duì)檔案信息化工作的影響和要求主要體現(xiàn)在以下幾點(diǎn)。
1 促成檔案概念的泛化
檔案的概念與本質(zhì)問題是檔案學(xué)的基本問題,在檔案學(xué)界已經(jīng)討論了多年。馮惠玲、張輯哲主編的《檔案學(xué)概論》(第2版)中對(duì)檔案的定義是“檔案是社會(huì)組織和個(gè)人在社會(huì)實(shí)踐活動(dòng)中直接形成的具有清晰、確定的原始記錄作用的固化信息”,認(rèn)為“原始記錄性”是檔案的本質(zhì)屬性。雖然在信息時(shí)代,早已出現(xiàn)“電子檔案”的概念,但是,在電子文件收集、整理、歸檔和保管過程中依然沿用紙質(zhì)檔案的分類和鑒定方法。在信息稀缺和保存信息代價(jià)巨大的紙質(zhì)時(shí)代,甄選和保存對(duì)社會(huì)和個(gè)人具有明顯價(jià)值的檔案是合理的和必要的。許多信息雖然具有“原始記錄性”,但因其單位信息價(jià)值有限而不能作為“檔案”保存的,比如網(wǎng)絡(luò)訪問日志、鼠標(biāo)在網(wǎng)頁(yè)上的軌跡、顧客在購(gòu)物商場(chǎng)里的行進(jìn)記錄等。
但是,在大數(shù)據(jù)時(shí)代,大規(guī)模數(shù)字存儲(chǔ)系統(tǒng)的應(yīng)用使數(shù)據(jù)存儲(chǔ)的成本越來(lái)越低,許多以前不能存儲(chǔ)的信息都可以保存下來(lái)。當(dāng)這些價(jià)值密度低的數(shù)據(jù)匯合成PB級(jí)別時(shí),人們便可以從中挖掘出價(jià)值。商場(chǎng)可以根據(jù)大量顧客在商場(chǎng)的行進(jìn)路線、滯留時(shí)間、關(guān)注方向等數(shù)據(jù)來(lái)設(shè)計(jì)商品的布局;日本先進(jìn)工業(yè)技術(shù)研究所的專家可以根據(jù)人體對(duì)汽車座椅施加壓力的數(shù)據(jù)建立模型進(jìn)行乘坐者身份識(shí)別,從而實(shí)現(xiàn)汽車防盜功能;當(dāng)收集了大量的機(jī)械運(yùn)行時(shí)產(chǎn)生的震動(dòng)、溫度、轉(zhuǎn)速等數(shù)據(jù)后,就可以建立預(yù)測(cè)模型,在機(jī)械故障發(fā)生之前消除存在的隱患。這些價(jià)值密度低的原始記錄在大數(shù)據(jù)時(shí)代整體上便產(chǎn)生了巨大的價(jià)值,具有了檔案的完全屬性。這促使學(xué)者重新審視“電子檔案”的范圍。
學(xué)者們一般把“檔案”定義為事件結(jié)束后經(jīng)過整理歸檔的文件,且將檔案分割為小的相對(duì)獨(dú)立的信息單元。在信息化時(shí)代,記錄即是檔案,數(shù)字化的記錄一旦生成便變成了不可刪改的檔案。廣泛應(yīng)用于社會(huì)實(shí)踐的稅務(wù)管理系統(tǒng)、戶籍管理系統(tǒng)、車輛交通管理系統(tǒng)等實(shí)時(shí)地將“記錄”轉(zhuǎn)化為“檔案”,而每一條記錄都將變成具有長(zhǎng)期保存價(jià)值的檔案,這些單位價(jià)值密度低的記錄信息將作為不可分割的整體來(lái)發(fā)揮檔案的價(jià)值。在大數(shù)據(jù)時(shí)代,檔案概念存在著嚴(yán)重的泛化問題,不能不引起關(guān)注。
2 有利于破除檔案信息化難題
檔案工作不管對(duì)于國(guó)家還是社會(huì)組織、企業(yè)來(lái)說都是一項(xiàng)基礎(chǔ)服務(wù)性質(zhì)的工作。檔案工作長(zhǎng)時(shí)間以來(lái)都存在著效益滯后的問題,使檔案信息化工作陷進(jìn)投入資金不足、領(lǐng)導(dǎo)重視不夠的困境。財(cái)政對(duì)檔案信息化建設(shè)的投入,是以獲得良好的效益為前提的。傳統(tǒng)紙質(zhì)信息時(shí)代對(duì)大量的檔案信息資源進(jìn)行分析整合開發(fā)需要耗費(fèi)巨大的人力物力。大數(shù)據(jù)時(shí)代的到來(lái)使這一問題迎刃而解。只要擁有良好的數(shù)字資源基礎(chǔ),計(jì)算機(jī)快速處理海量的不同類型信息的能力就能夠快速地廉價(jià)地挖掘檔案信息資源潛在價(jià)值,為經(jīng)營(yíng)和管理決策服務(wù),從而產(chǎn)生看得見的效益。
長(zhǎng)期以來(lái),檔案信息化沒有明晰的總體規(guī)劃方案。人們普遍認(rèn)為,“檔案數(shù)字化的目的不外乎兩個(gè):為保護(hù)檔案尤其是瀕危檔案而制作數(shù)字化副本;為實(shí)現(xiàn)網(wǎng)絡(luò)環(huán)境下的檔案信息共享利用而數(shù)字化”,這種認(rèn)識(shí)將檔案信息化局限于傳統(tǒng)檔案工作手段的計(jì)算機(jī)化而對(duì)檔案信息資源整體價(jià)值重視不夠,從而難以挖掘檔案深層次的價(jià)值。幫助人們認(rèn)識(shí)客觀世界、輔助決策、產(chǎn)生效益才是檔案利用的生命力所在。大數(shù)據(jù)分析并不是檔案人員的專長(zhǎng),但是,為大數(shù)據(jù)分析提供基礎(chǔ)數(shù)據(jù)則是檔案工作在信息時(shí)代的價(jià)值所在。抓住大數(shù)據(jù)的機(jī)遇,才能避免被邊緣化,從而使檔案工作擺脫困境。大數(shù)據(jù)時(shí)代要求數(shù)據(jù)資源的開放,這對(duì)我國(guó)檔案信息化建設(shè)也具有導(dǎo)向作用。2008年美國(guó)建成了data.gov網(wǎng)站,這是美國(guó)聯(lián)邦政府的公開信息資料庫(kù)。網(wǎng)站從2009年的47個(gè)數(shù)據(jù)集迅速發(fā)展起來(lái),到2012年7月3周年時(shí),數(shù)據(jù)集已達(dá)45萬(wàn)個(gè),涵蓋了172個(gè)機(jī)構(gòu),產(chǎn)生了廣泛的社會(huì)和經(jīng)濟(jì)影響,有力地推動(dòng)了美國(guó)社會(huì)和經(jīng)濟(jì)的發(fā)展。檔案信息化必須在大數(shù)據(jù)時(shí)代構(gòu)建社會(huì)公開信息資源庫(kù)中占據(jù)一席之地,這也應(yīng)當(dāng)成為我國(guó)檔案信息化的目的之一。
3 對(duì)電子文件工作產(chǎn)生深刻影響
《電子文件歸檔與管理規(guī)范》(GB/T18894-2002)已經(jīng)頒布,但是,在檔案工作實(shí)踐中檔案工作者大多依然沿用紙質(zhì)時(shí)代的鑒定方法對(duì)單份的電子文件進(jìn)行歸檔處理。更有甚者,有些檔案部門對(duì)電子文件界定不清而不愿接收電子化記錄從而造成檔案信息缺失。維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中指出,在大數(shù)據(jù)的價(jià)值鏈上有三種類型的公司,即,基于數(shù)據(jù)本身的公司、基于技能的公司和基于思維的公司。基于數(shù)據(jù)本身的公司是一些擁有大量數(shù)據(jù)或者至少可以收集到大量數(shù)據(jù)的公司,但不一定有從數(shù)據(jù)中提取價(jià)值或者用數(shù)據(jù)催生創(chuàng)新思想的技能,他們通過將數(shù)據(jù)授權(quán)給其他公司而創(chuàng)造價(jià)值。很顯然,檔案部門應(yīng)該做大數(shù)據(jù)的擁有者。檔案人員應(yīng)該重新審視對(duì)電子文件的態(tài)度。長(zhǎng)期以來(lái)存在著兩種電子文件的保管模式,一種是分散式保管,一種是集中式保管。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)是最核心的財(cái)富,最先考慮對(duì)數(shù)據(jù)的擁有才是明智的。不管是采用集中式還是分散式的管理模式,檔案部門應(yīng)該占據(jù)數(shù)據(jù)鏈的中心,處于收集數(shù)據(jù)和挖掘數(shù)據(jù)價(jià)值的黃金位置。
在大數(shù)據(jù)時(shí)代,要求對(duì)信息進(jìn)行“數(shù)據(jù)化”而不僅僅是“數(shù)字化”。數(shù)據(jù)化是指將現(xiàn)象變成指標(biāo)分析的量化形式的過程,而不僅是轉(zhuǎn)化成“0”和“1”的數(shù)字格式的過程。對(duì)電子文件管理來(lái)說,即是要求擁有完善的元數(shù)據(jù)和實(shí)現(xiàn)全文檢索。目前,電子文件元數(shù)據(jù)的研究集中在保證電子文件現(xiàn)實(shí)的真實(shí)性、完整性、可讀性、安全性方面,對(duì)電子文件未來(lái)的可能出現(xiàn)的開發(fā)利用重視不夠。完善的元數(shù)據(jù)標(biāo)準(zhǔn)是為大數(shù)據(jù)分析與應(yīng)用提供優(yōu)質(zhì)數(shù)據(jù)的基礎(chǔ)?;谠~頻和語(yǔ)義的分析將是大數(shù)據(jù)分析的重要手段,因此,實(shí)現(xiàn)信息的全文錄入就有了更重要的意義。當(dāng)前,很多檔案部門重“數(shù)字化”而輕“數(shù)據(jù)化”,對(duì)紙質(zhì)檔案進(jìn)行圖片化處理,造成文件格式混亂、元數(shù)據(jù)收集不全,這都將成為未來(lái)大數(shù)據(jù)開發(fā)利用的障礙。有些學(xué)者片面強(qiáng)調(diào)電子文件的技術(shù)安全性而人為地為電子文件設(shè)置重重技術(shù)保障措施,也將為利用增加障礙。對(duì)于電子文件安全性的保障應(yīng)該更側(cè)重管理制度方面的完善,而不是增加技術(shù)復(fù)雜度。
信息技術(shù)的快速發(fā)展,使人類由信息稀缺的時(shí)代進(jìn)入了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)時(shí)代的到來(lái)深刻地改變著我們的思維、工作和生活方式。檔案信息資源是社會(huì)信息資源體系中的重要組成部分,其未來(lái)的發(fā)展必然要面對(duì)大數(shù)據(jù)的挑戰(zhàn),也必然會(huì)改變檔案事業(yè)的方方面面。正如國(guó)家信息化專家委員會(huì)副主任丁家俊所言:“如果你不能夠順應(yīng)大數(shù)據(jù)的潮流,企業(yè)也好,個(gè)人也好,都可能變成一個(gè)落伍者!”只有積極地認(rèn)識(shí)和準(zhǔn)備這次挑戰(zhàn),檔案事業(yè)才能得到健康的發(fā)展。
(作者單位:河南省南陽(yáng)市林業(yè)技術(shù)推廣站 來(lái)稿日期:2013-08-14)