汪前珍
(廣西民族大學 圖書館,廣西 南寧 530006)
檔案對人類活動進行了客觀的記錄,具有原始的證據價值。然而,當前檔案的存儲模式及管理限制,檔案的價值沒有得到充分的開發和利用。大數據概念的提出以及大數據處理非規范的、海量的數據的方法,為檔案價值的開發提供了新的思路和新的方法。
關于大數據定義,不同研究主體的研究背景和研究目的不同,對于大數據概念的描述存在差異,目前學術界尚未形成比較一致的定義,但對大數據有比較認同的幾種特征[1]。
體量巨大(Volume):以前用海量數據即大海的博深浩大來描述數據的體量巨大,大數據則是在數據的體量方面比海量數據更為巨大,如果用空間來描述其體量,可以形容為宇宙級的數據,浩瀚無邊的數據。在大數據的集合里,任何我們想象到的信息都有可能找到。
類型繁多(Variety):包含所有的數據類型,結構化和非結構化數據,文字、圖像、視頻、音頻。
產生速度快(Velocity):數據的產生速度快,數據量呈指數級的速度增長。
價值密度低(Value):單位數據里包含的有價值信息非常稀少,就像砂金礦,品位很低。
通常,人們認為數據處理就是數據的統計、分析。21世紀互聯網及計算機技術的飛速發展,引發了數據規模的爆發式增長,各行各業都引入數據分析和數據統計,重視和應用大數據必將給我們的生活帶來深刻的變革,大數據及大數據處理將扮演越發舉足輕重的作用。所謂大數據處理,應該包含兩個方面,即大數據的處理方法和處理能力。
然而,學術界常常將大數據和大數據的數據處理方法等同或混合起來。從嚴格意義上講,大數據指的是客觀對象,就是具有上述特征的數據;而大數據的處理則更強調的是對浩大的數據體量和復雜的數據類型的高效的處理方法和高速的處理能力,而從中提取有價值信息的能力。
已有研究表明,從大數據的特征和大數據挖掘來看,檔案數據與之不符[2]。石刻檔案、甲骨檔案、紙質檔案、縮微檔案以及特殊檔案如郵票、商標、書稿、字畫、碑帖、照片、實物等[3]不同形式的檔案,只要轉化為計算機能夠處理的電子形式,就是計算機科學里的數據。只要是電子數據,都是大數據的數據來源,就像小河是江海的水源來源,檔案數據自然是大數據的來源了。
從體量來看,檔案數據的體量遠遠小于大數據所要求的體量,充其量只是滄海一粟;從產生速度來看,檔案數據主要來源于上述各種形式檔案的轉變以及新生成的電子檔案,相比于互聯網上數據的產生速度,檔案數據的產生速度完全不是一個數量級的;從價值密度來看,檔案數據都是對事實的描述、記載,真實可靠,可以說是數據領域的原生金礦,含金量極高,而大數據可以說是沙金礦里的貧礦,含金量極低,只有通過特殊的手段,才能提取到有價值的信息。
因此,從大數據的4個特征看,檔案數據從體量、產生速度、價值密度幾方面都不符合,從這個意義上看檔案數據與大數據是2個內涵不同的概念。
目前,檔案主體仍是紙質檔案,電子檔案所占比例不高[2]。而大數據處理方法要求檔案資料必須轉化為電子數據,且能夠流通,才可通過互聯網上不同地理位置的大型計算機分工協作,其采用獨有數據采集處理方法,如爬蟲程序實現數據采集、清洗,應用分布式文件系統存儲數據,構建大數據分析模型及模型檢驗方法和優化方法[4],否則無法發揮其強大的數據采集、存儲、分析能力,其優勢也無法體現。
因此,紙質為主的檔案資料存儲現狀,決定了只能用傳統的人工、手工的方式來挖掘檔案的價值,而無法利用計算機互聯網工具以及大數據處理分析方法更深層次、更快捷、更大范圍的挖掘檔案的價值。
“確保‘檔案安全’一直是檔案工作的主旋律”[5]。《檔案館通則》第二十一條規定“利用者查閱、摘錄或復制檔案,必須持本單位的正式介紹信,注明利用者的身份和利用檔案的目的與范圍。大量利用檔案進行專題研究,必須事先將上級批準的研究計劃抄送有關檔案館”,顯然,當前的檔案管理理念、檔案管理規定都是趨向于“保護、保密、保守”[5]。對檔案利用者施加了過多的限制、約束條款,大大減少了檔案利用者的范圍及人數,降低了檔案的使用頻率、使用效率。這些規定也限制了計算機互聯網工具、大數據處理方法的使用,現在幾乎是不可能使用大數據處理方法來處理,檔案資料的價值自然難以得到應有的挖掘和利用。
許多研究成果也表明,法律體系不完善、國家保密范圍設定與解密制度的嚴格規定、鑒定機構設置不合理、檔案資料開放的意識不夠普及等,嚴重影響了檔案資料的開放、開發和利用[6,7]。實際是,即便是利用者親自到檔案館也未必能夠獲準查閱、復印。可以說,檔案管理現狀與現代信息開發利用技術的高效快捷形成了鮮明的對比,與人們對檔案開發利用的強烈愿望形成了巨大的壓力差,一旦把其間的籓拆除,必將會產生巨大的社會效益和經濟效益,造福社會。
綜上分析,我們認為應從創造大數據挖掘的基本條件、研究針對檔案數據的大數據處理方法兩個層面來解決檔案數據的價值挖掘問題。
實現大數據處理數據的方法,①獲得訪問數據的相應權限;②要求處理對象電子化。
目前,對于檔案及檔案數據的訪問權限,不論是制度層面還是管理層面仍處于保護、保密、保守的狀態。對于檔案資料的電子化,目前比例仍然很低,絕大多數檔案還處于實物、紙本等狀態,計算機無法處理。在采用復印、掃描、錄入、攝像等電子轉化過程中,面臨轉化成本高,轉化效率低,轉化經濟效益、社會效益實現周期長、轉化信息失真等問題,這些都大大制約、限制了電子轉化的范圍。
因此,要真正做到對于相應權力的利用者完全開放其應擁有的權限,我們建議從制度方面和管理方面一定要保證開放到位;同時,針對不同密級的檔案,引入相適應的市場競爭機制,加快檔案的電子轉化和開放開發,激發檔案的市場活力。探索由政府及檔案管理部門主導下的市場主體實現檔案的經濟效益和社會效益的具體途徑和方法,從根本上解決檔案轉化資金匱乏、轉化技術原始落后、轉化效益難以實現等問題。可以分階段、分區域先行試驗、試點,由點到面,逐步推廣。
開展針對檔案數據的大數據處理方法的專項研究。檔案數據是大數據的重用組成部分,具有許多自身獨有的特點,如轉化為電子數據后可能成為識別難度大的圖片、圖像、音頻、視頻等形式、單位價值含量高、有一定的失真等。因此,針對這些數據,開展大數據處理方法的專項研究,從信息保真、信息識別的精準度,信息處理的算法、價值挖掘的方法等方面,探索這類具有特殊性的數據的大數據分析處理方法。
由于檔案數據的真實可靠性、價值密度高、體量小等特點,將其與其他來源數據進行對比,研究其間的相關關系,可能會產生更大的價值;換言之,就是檔案數據的價值鏈會大大延長,檔案數據將產生極大的外延價值。例如,西方普遍采用的個人信用檔案,當其與個人的工作、生活等方面公開的數據(如上班地點、上下班時間、購物記錄、旅行情況等)相聯系,就可能推測出其家庭財政收支情況、未來職業發展方向、家庭未來計劃等重要信息,為銀行信貸、公司招聘、政府規劃等提供決策信息,其適用性很強。