文·邢濤
“大數據發展日新月異,我們應該審時度勢、精心謀劃、超前布局、力爭主動”。習近平總書記在主持中共中央政治局就實施國家大數據戰略集體學習時,深刻分析大數據發展現狀和趨勢,結合我國實際對實施國家大數據戰略、加快建設數字中國作出部署要求,為用好大數據、贏得新時代發展的戰略主動指明了方向。檔案部門如何抓住大數據發展的時代機遇,在大數據檔案收集存儲、管理利用、數據共享、安全保護等方面進行前瞻性布局,開創大數據檔案工作發展新局面,成為檔案部門必須解答好的時代課題。
什么是大數據?大數據是大量、高速、多變的信息資產,是以容量大、類型多、存取速度快、應用價值高為主要特征的數據集合,是新一代信息技術與電子商務、社交網絡、智慧城市等新型商業應用深度融合的產物,已經成為推動經濟發展、完善社會治理、提升政府服務和監管能力的重要手段。
大數據是不是檔案?我們知道,檔案是過去和現在的國家機構、社會組織以及個人從事政治、軍事、經濟、科學、技術、文化、宗教等活動直接形成的對國家和社會有保存價值的各種文字、圖表、聲像等不同形式的歷史記錄。除了實體檔案,檔案還應包括電子文件、數碼照片、音視頻等以電子數據為表現形式的電子檔案。顯而易見,海量的大數據就是電子檔案的一種,只不過是大小超出常規的、類型更加多樣的由數據庫工具獲取、存儲、管理和分析能力的電子檔案數據的集合。
大數據檔案畢竟是一種特殊的檔案,它具有從產生、存儲、處理到應用這一全生命周期內區別于傳統檔案數據的特征。
一是“大”。大數據檔案的數據量巨大,在各領域產生的檔案數據均需要以PB(1PB=1024TB)或EB(1EB=1024PB)計算,并以每年至少40%的速度增長。
二是“雜”。大數據檔案的數據類型多種多樣,包括網絡日志、音頻、視頻、圖片、地理位置信息等等,這些多類型的檔案數據對數據的處理能力提出了更高要求。
三是“全”。大數據檔案應用為決策者提供一個業務的全局視圖,這里主要是強調檔案數據的業務完備性。
四是“多”。大數據檔案的數據來源多、維度多,不僅包含內部業務檔案數據,而且包含許多相關的外部檔案數據,如政策檔案數據、經濟檔案數據、氣象檔案數據、環境檔案數據等。這里主要強調引入外部檔案數據源構建數據的多維性。
五是“快”。大數據檔案的數據是實時分析處理的在線數據,這是大數據檔案區別于傳統檔案數據分析的最顯著特征。由于外部環境變化速度的加快,大數據檔案的價值也會快速貶值,所以就必須及時、快速挖掘大數據檔案背后的價值。
六是“久”。大數據檔案應用十分重視數據的長期積累,檔案數據積累時間越長,越有利于大數據檔案的開發利用。
七是“活”。大數據檔案的數據都是在線的,可以隨時調用和計算,這是大數據檔案區別于傳統檔案數據的最大特征。放在磁盤或磁帶中的離線“死”檔案數據,其開發利用價值遠遠不如在線的“活”檔案數據。
八是“少”。對比大數據檔案的海量,大數據檔案應用中真正有價值的數據占比極少。因此,如何通過有效的計算更迅速地完成檔案數據的價值“提純”已成為大數據發展亟待解決的問題。
由于大數據產業還處于初步發展階段,目前大數據生成、采集和管理部門對大數據檔案工作的發展概念不清,認識不足,對大數據檔案的收集、存儲、管理、開發和應用思路還不清晰。同樣,對于大數據這個高科技時代的產物,檔案部門的認識也嚴重不足,對大數據檔案工作的發展帶來不利的影響。
政府掌握大量最具應用價值的大數據檔案核心數據,但是由于受到條塊分割等因素的制約,目前政府信息公開還比較少,跨部門之間的檔案數據交換不足,缺乏互通,行業檔案數據共享也沒有實現,同時還存在檔案數據標準不統一等問題,制約了大數據檔案工作的開展。
目前,大數據檔案的開發利用除了在定位、導航及部分監測領域較為成熟外,在多數領域內仍處于探索發展階段。尤其對于一些定制化的大數據檔案開發利用,幾乎仍處于起步階段。此外,很多優良的大數據檔案基礎設施沒有得到有效利用。
我國全行業范圍內檔案數字化的資源總量遠低于歐美,每年新增檔案數據量僅為美國的7%,歐洲的12%,其中政府和制造業的檔案數據資源積累遠遠落后于國外。同時已有的檔案數據資源還存在準確性低、完整性差、標準不一等不利因素,降低了檔案數據的利用價值。檔案數據資源本身的問題為大數據檔案工作的發展前景帶來了巨大的挑戰。
我國目前關于大數據檔案開放、共享以及檔案數據所有權、檔案信息安全等相關法律政策不完善,大數據檔案的開發利用缺乏相應的立法支持和規范。檔案數據保護和隱私保護方面的制度不完善,不僅抑制了檔案數據開放的積極性,更是產生了因檔案數據泄露而造成的公民財產損失、公共資源破壞、國家機密泄露等不可預估風險。
要明確大數據管理部門和檔案管理部門職責,加強與發改、工信和科技等各相關部門的協調配合,建立跨部門、跨行業的大數據檔案工作發展協調推進機制,擬定大數據檔案工作的相關規劃、實施意見和政策,推動大數據檔案研究和應用,制定大數據檔案工作相關標準,推動政府檔案數據開放,推動各行業企業等大數據檔案數據庫建設,建設公共信息檔案平臺和大數據檔案平臺,完善和加強大數據檔案信息安全保障體系建設。
要推動政府、行業、企業等檔案數據共享開放,提升政府效率,實現大數據的融合應用。整合現有政務網絡平臺,建立“智慧城市”大數據檔案平臺,推動政府信息系統和公共數據互聯共享。加快行業、企業之間檔案數據共享,推動公共數據開放平臺建設,建立政府檔案數據資源開放目錄,優先推動交通、醫療、就業、社保等民生領域政府檔案數據開放,促進大數據檔案利用成果惠及群眾,提升居民生活品質。
要加快組織制定大數據檔案相關標準,在國家出臺統一的大數據檔案管理標準之前,組織大數據管理部門、檔案管理部門等有關部門、以及高校和科研機構、大數據企業等,開展大數據檔案工作相關標準研究,推動建立地方、行業大數據檔案工作標準體系,重點推動大數據檔案采集、管理、開放、共享、交易、安全等領域標準的制定。
大數據管理部門要統籌大數據檔案信息安全保障體系建設,明確大數據采集、傳輸、存儲、使用、開放等環節涉及信息安全的范圍、要求和責任,建立相關制度,確保國家利益、商業機密、社會安全、科研生產、個人隱私不被侵犯。大數據管理部門對共享、開放檔案數據建立共享和開放的規則,加強記錄和監管。強化企業、個人等對檔案數據的保護意識,增強檔案信息安全技術的保障能力,共同構建大數據檔案信息安全格局。