李 清
(中國船級社廣州分社,廣東 廣州 510000)
(1)數據總量大。在進入大數據時代之前,數據量達到的最大級別通常為TB,而今日大數據的數據總量可以達到ZB級別,即10億TB,1萬億GB。規模龐大的不僅僅是數據總量,還有每年新增的數據量,預計到今年年底,全球數據總量預計可以達到50.5ZB。
(2)數據種類多。進入大數據時代,數據的類型也已經變得多樣,而不再是單一的,但是綜合分析后可以將所有數據類型分為三大類:即結構化數據,非結構化數據和半結構化數據。結構化數據是指存儲在數據庫里,可以用二維表結構來邏輯表達實現的行數據,反之不方便用數據庫二維邏輯表來表達實現的數據就是非結構化數據,事實上非機構化數據是現在我們日常生產生活當中最常見到的數據類型,它包括了所有格式的辦公文檔、文本、XML、各類報表、圖像、音視頻信息等。半結構化數據,就是介于結構化數據和非結構化數據之間的數據,例如HTML文檔就是一種典型的半結構化數據。數據類型的多樣化向數據處理技術人員提出了同時高效處理多種不同類型的大數據的要求。
(3)價值密度低。數據的價值密度可以解釋為單位數據所產生的有價值的信息量。而大數據的價值密度低的特征,通俗來說就是在一組數量規模極大的數據當中,對于用戶而言真正有價值的數據或者用戶真正感興趣的數據只占其中極小的一部分。這個特征尤其在非結構化數據上體現得最為明顯。
(4)處理速度快。大數據時代雖然數據總量規模大幅提速,數據類型多樣復雜,然而對于數據處理時間的要求卻反而更高了,這是因為在大數據處理的數據采集過程當中,大量原始數據都是有時效性的,這樣一來就要求數據處理后得到的有效信息和分析結果也同樣具有時效性。大數據時代數據處理工作的運行時間往往是以秒計算的,這也使得數據處理技術人員必須開拓全新的技術架構和路線,才能在指定時間內,有效地對采集的大量信息進行處理并反饋有效信息。
(5)復雜性。基于前面的四個特征,大數據的處理與分析方法和工具也必定是一個高度復雜的系統。
大數據時代的到來,大數據和大數據技術在社會全行業的廣泛應用,自然也引起了檔案管理業界的高度關注和思考。事實上從前文所述的數據類型看,檔案顯然是屬于非結構性數據的一種。因此按照前文所述大數據的定義,當檔案所涉及的資料量規模巨大且結構復雜多樣,以至于無法通過目前主流軟件工作,在合理時間內達到擷取、管理、處理、并整理成為幫助本單位決策更積極目的的資訊時,檔案這一非結構性數據集合就理所應當地成為了大數據,這也就是檔案大數據這一概念的由來。
在檔案大數據概念之上,我們還可以提出“大檔案”觀念。關于“大檔案”觀的內涵,有以下幾種種觀點,一種觀點認為“大檔案”觀要求我們將社會產生的一切具有保存和利用價值的信息數據記錄列入檔案中,概括來說就是“一切社會信息皆可歸檔”;另一種觀點認為所謂“大檔案”其實是檔案這一概念的擴大化,認為所有信息記錄都能成為檔案,因為所有信息記錄都可以產生巨大的價值,一些曾經因其單位信息價值過低而無法作為“檔案”保存的信息,在大數據時代中其價值將得以充分發揮,因為此時全部信息將被看作一個不可分割的整體。如此這些信息就完全具有了檔案的屬性。無論持哪一種觀點,在大數據時代來臨之前,普通民眾對于檔案的印象基本就是政府的人事和文書信息記錄,這種“大檔案”觀念是根本沒有人能想象出來的。進入了大數據時代之后,一方面大數據采集、處理、分析、應用技術給予了這一觀念可行性的土壤;另一方面,新時期檔案建立和管理工作要求更貼近廣大民眾日常生活需求,這就要求檔案管理機構需要收集社會上所有有價值的各種類型的數據,真正做到包羅萬象,然后將這些數據統一入檔,并實施高度智能化,人性化的系統管理。
隨著大數據時代的到來,傳統檔案信息數據發展成為檔案大數據已經是大勢所趨,這為這一時期檔案信息化建設工作提出了全新的要求和挑戰。另一方面,大數據技術應用又為檔案信息化建設工作提供了強勁的技術創新動力。
3.1.1 大數據時代檔案信息采集來源的變化
一方面,中國目前是全球網民數量最多的國家,網民人數達8.54億,網站數量達518萬。如此龐大的網絡人口基數使得在互聯網產生的所有類型的數據總量長期持續暴漲,從而使得互聯網上數據成為我國檔案信息的主要來源之一。另一方面,檔案信息的來源開始更多的關注廣大民眾日常生活的民生領域,這使得包括社交通信,消費信息,出行紀錄等以往不會歸入檔案的瑣細信息開始為檔案管理人員所注意,并體現了檔案服務正轉變為真正面向社會民眾的服務的趨勢。
3.1.2 大數據時代檔案信息采集內容的變化
大數據及大數據技術對檔案信息采集工作的影響不僅限于采集來源,還包括采集得到的信息內容。具體而言大數據及其技術首先改變的是檔案信息采集內容的容量,2018年,全國各級國家檔案館館藏數達7.5億卷。加之全國各級各類檔案館的擴改建工程項目目前正在逐步完工,檔案館館藏容量勢必大大增加,檔案館必然要全面完成存量數字化、增量電子化任務,以滿足儲存高達PB規模級別的海量信息。其次大數據及其技術還改變的是檔案信息采集內容的結構類型。傳統的檔案信息采集工作,采集到的信息主要形式有文檔,圖片,音視頻信息等,進入大數據時代,由于檔案信息管理服務開始進入多個民生服務領域,社交應用軟件即時通信等在內的新興信息類型都成為了可以歸入檔案的有價值信息類型。
3.1.3 大數據時代檔案信息來源采集方式的變化
此外互聯網產生的數據除了總量大,還有更新快,傳播廣,時效性強等一系列特點,這些特點促使檔案業務人員在互聯網收集信息數據時采取高時效性的獲取方式,也就是運用網站API,網絡爬蟲等技術的網絡數據實時捕捉方法。
3.2.1 大數據存儲技術在檔案信息管理工作上的應用
進入大數據時代,和其他大數據一樣,檔案大數據整逐年呈冪級數增長,傳統的檔案數據儲存設備已經完全無法適應大數據時代的需求,檔案管理界與社會其他行業一樣,亟需一種安全穩定高效的大總量數據的長期保存和實時遷移途徑。目前數據存儲環境虛擬化已經成為現實。所謂數據存儲虛擬化,就是將原有的存儲服務器進行軟件虛擬化,然后將其劃分為若干個獨立存儲服務空間,這樣在同一臺服務器上的不同的存儲服務空間可以同時為不同對象提供不同類型數據存儲服務,它對非結構化數據和半結構化數據是最佳存儲方式。檔案管理機構在為檔案數據存儲在選擇存儲方式時,要根據服務器類型數量和要處理的數據對象兩個重要因素,選擇適合的開放系統存儲方式。
3.2.2 大數據分析技術在檔案信息管理工作中的應用
在大數據時代,面對龐大的數據,尤其是其中絕大部分的非結構化和半結構化數據,如果沒有從中提取高價值信息的手段,無法對數據進行有效的開發利用,那么數據的價值往往得不到實現。在這種情況下,大數據分析就是這么一種通過對數據信息進行高效精準的定量分析從分提取信息蘊含的價值的手段。對于檔案管理服務機構而言,如果能夠運用好大數據分析這個手段,檔案管理機構還可以利用分析結果,為政府機關和社會企業提供決策意見咨詢,幫助提高政府的行政效率和企業的經濟效益,從而提高社會整體效益。
由于大數據的各種特征,檔案管理者在維護檔案數據時,數據會時常出現不一致、不精確、不完整、過時等數據質量問題。因此基于數據生命周期對檔案數據資源進行數據質量管理是極具必要性的。數據質量管理通常分為數據預處理、數據存儲、數據使用三個階段。在數據預處理階段,通過對數據實行萃取(Extract)、轉換(Transform)、加載(Load)至目的端這三個預處理過程(簡稱ETL),就可以達到數據清洗和格式化的目的。而在數據存儲和使用階段,為滿足數據存儲與管理的要求,推薦使用擁有吞吐量高、可拓展性、高并發讀寫、實時性等特點的非關系數據庫。
檔案能夠反映某一時期一個國家的社會全貌,是無價的民族和社會財富。大數據時代的到來,一方面為檔案服務全面走向大眾提供了一個絕佳的契機,另一方面無疑給檔案管理工作提出了更高的技術與體系革新的要求。大數據時代檔案管理工作將會越來越復雜,檔案管理機構在日常數據管理維護工作中必然還會遇到許多層出不窮的新問題。這既需要國家和政府加強對檔案建設的重視和支持,又需要各檔案管理機構和檔案事業工作者砥礪奮進,積極進取,有所創新。