摘 要:本文針對檔案館非結構化數據存在數據來源及特點,研究如何將其與結構化數據融合,為非結構化數據分類管理尋找理論依據和技術手段,探討高校檔案館非結構化大數據管理的解決方法。
關鍵詞:大數據;檔案;非結構化;檔案管理系統
一、引言
美國信息與技術相關的公司,包括麥肯錫,國際數據公司(IDC)與IBM,在2011年提出大數據相關概念后已經有越來越多的學術機構、企業包括政府機構開始關注大數據。經過不到7年的發展,目前以“大數據”作為關鍵詞檢索國內外前沿數據庫,可得到數不清的相關報告、論文和新聞。根據2015年國務院印發的《促進大數據發展行動綱要》,系統部署大數據發展的相關工作,特別提出要加強檔案館等公益設施建設,構建文化傳播大數據服務平臺。上述文件對大數據的定義是“以容量大、類型多、存取速度快、應用價值高為主要特征的數據集合,正快速發展為對數量巨大、來源分散、格式多樣的數據進行采集、存儲和關聯分析,從中發現新知識、創造新價值、提升新能力的新一代信息技術和服務業態”。檔案數據正符合以上大數據定義,因此是大數據的重要組成部分。
與此同時,國家電子文件管理“十三五”規劃對電子文件的管理提升到國家治理層面。在移動互聯、云計算、大數據等新技術的迅猛發展時代,各種海量電子文件的歸檔與電子檔案的管理已成為各級檔案館(室)所必須面對的難題,其中最難把握的是對非結構化數據的管理。
二、高校檔案館非結構化數據的含義及特點
1.高校檔案館非結構化數據的來源與定義
高校是一個多學科相融合的集聚地,學校里的教學活動和科研活動均圍繞著各種層次的學科和專業開展。而高校檔案館作為收集、存儲、傳播和利用學校各種數據的機構,需要處理的數據種類和數量都在飛速增長。尤其伴隨著高校信息化校園的建設,校園內無線網絡等技術的普及,檔案館接收的檔案除了原有的紙質檔案和聲像實體檔案,越來越多的WORD文件、EXCEL表格、電子郵件、HTML文檔、音視頻文件等結構化和非結構化的數據也在呈指數增長。高校檔案館因此進入到了“大數據”時代。
檔案館結構化數據,是指存儲在數據庫里,可以用二維結構表來邏輯表達的數據,由若干個層次結構明確的關聯組成部分,按照一定的操作規范使用和維護數據庫,主要是檔案目錄及原文數據,檔案館業務流程、服務、系統日志、用戶信息、庫房管理等方面的記錄。非結構化數據是指不方便使用二維邏輯表來表現的數據,每個字段的記錄又可以由可重復或不可重復的子字段構成數據庫。其中,非結構化數據占檔案館大數據總量的85%以上,是圖書館大數據的主要形式。
本文針對高校各業務系統產生的非結構化多來源數據,進行融合管理研究。針對非結構化的數據,需要在充分收集多種來源信息的基礎上,綜合運用多種方法進行分析與判斷,找出具有存檔價值的信息,予以整理和保管,以備將來為教職工和其他社會人士提供利用。
2.檔案館非結構化大數據的特點
高校檔案館面臨的非結構化數據存在著數據來源眾多,數據格式不同,數據信息內容不重復等多種特點。這些特點可以成為非結構化數據分類管理的依據。
(1)數據來源多樣性
非結構化的數據來源于校內和校外的多種活動,其中大部分都是校內產生。高校的教學、科研和管理活動產生了核心的檔案信息,如教學課件、教學視頻、圖像、論文、專利、產品、電子郵件、網頁、及時通訊信息等數據。校外產生的非結構化數據有重大活動報道網頁、音頻視頻文件、照片、往來電子郵件、電子發票、申報信息等數據。信息來源不同的非結構化數據在檔案的四性(即真實性、完整性、可用性和安全性)方面存在著巨大的差異,檔案工作針對不同來源的數據應改進行分類收集、整理、存儲、管理和提供利用。
(2)多數據格式的并存
由于目前多數高校已經開展數字化校園建設,各項工作的開展都離不開業務系統的輔助,而每種業務系統可能是針對不同的工作內容開發,因此這些業務系統往往生成對應格式的非結構化數據,包括版式文件、圖片、二維矢量文件、三維矢量文件、XML、HTML、音頻、視頻、報表等。每種格式的數據類型、數據大小、通用性等均不盡相同,而且還會出現因業務系統的更替,數據格式前后不一致的可能。在當前的環境下,仍沒有出現一種技術可以處理所有格式的數據。因此,高校檔案館必須根據學校的發展、用戶的需求及提供服務利用的多重角度考慮,制定各種檔案數據格式的存檔標準,對應地進行設計標準化存儲或者兼容式存儲的分層級存儲系統,以實現不同數據格式的自由轉換,最終才能充分利用這些非結構化數據檔案。
(3)數據主體特指性強
在高校檔案館中,產生非結構化數據的主體主要是檔案館專兼職檔案員,在校師生及校友。還有極少量的學校外部參與者,校外參與者利用檔案資源的頻率遠遠低于前者。因而,從用戶的角度有效分析檔案館專兼職檔案員,在校師生及校友的數據需求,將已經產生的非結構化數據的大數據進行分類,就能夠把握非結構化數據發展的規模和質量,再經過分析便可得出當前用戶的需求。
(4) 數據內容不重復
與傳統的檔案的收集有一點不同的是,非結構化的數據內容不應重復,傳統紙質檔案和實物檔案允許保存多份實體作為副本,但非結構化數據因為其計算機復制技術十分便捷,占用的存儲空間又十分龐大,因此為了給檔案系統的運行減輕冗余,原則上不應該重復。對整個檔案館的電子數據在保管過程中可以做雙份異地備份。
三、高校檔案館非結構化大數據的融合機制
由于非結構化數據的以上特性,需要對數據進行融合管理。可融合的數據必須具有以下共性,一般是同一個主題的數據。數據往往會具有互補性,不同信息源的數據從著錄字段上或者記錄上具有互補性,以保證數據的完整性與覆蓋面。將收集的非結構化數據分為3個方面:數據濾重、數據拆分、數據統計,每個方面都涉及到具體的技術細節與不同的處理方法。
1.部分非結構化數據可轉化為結構化的數據
在搜集的非結構化數據中,許多都可以轉化為結構化數據進行管理。如圖片、XML、HTML、報表、電子郵件等靜態數據,可通過截圖的形式轉換為JPG或PDF格式,用原文的形式存儲于檔案管理系統內,這樣就可以實現此部分的非結構化數據與已有的結構化數據融合。
2.無法轉換的非結構化數據采用特殊數據庫單獨管理
非結構化中的大量組成部分是音頻、視頻等數據,它們盡管無法保存在已有的檔案系統統一管理,但與結構化的數據是息息相關的,因此需要采用特殊的數據庫單獨管理,并與結構化的檔案信息系統對應的字段建立聯系。在提取的非結構化數據時,有可能出現一個文件包括多個主題的情況,這時需要對其進行著錄字段的拆分,將主題進行歸類。數據查重過濾,指數據融合過程中的許多字段表達含義相同,但卻說法不一,可以選用其中一個字段來代替,或者為字段另外選一個名字,例如“70年校慶”與“七十年校慶”,我們可以都確定為“七十周年校慶”,也都定位到“校慶”。經過數據的拆分、查重過濾后,我們可以利用統計軟件,分析出某一時間段內高校檔案利用的熱點,提高服務水平。
3.需針對動態的非結構化數據開發相應的管理程序
除以上非結構化數據,還有一部分通過視頻、微博、微信公眾號、QQ咨詢等各網絡媒體產生的信息日益增加,數據的類型更加復雜,數據的融合更加重要。因為這些數據具有及時性、動態性和不確定性,目前流行的可視化軟件和工具很難套用管理。針對這類非結構化數據,需要研究開發出相應的程序來管理,能夠自動調整以滿足動態的、不確定的特點。
參考文獻:
[1]What is Big Data [EB/OL] [20141007] .Http://www.amchamchina.org/article/102
[2]郭春霞.大數據環境下高校圖書館非結構化數據融合分析[J].圖書館學研究,2015(05)
[3]沈紅雨.高校非結構化檔案數據的數據庫管理技術應用與比較研究[J].浙江檔案,2016(01)
[4]陳 臣.基于Hadoop的圖書館非結構化大數據分析與決策系統研究[J].情報科學,2017(01)
[5]李翠萍,常 娥.大數據時代數字圖書館發展淺析[J].江蘇技術師范學院學報,2013年05期
[6]李小剛,謝詩藝,程 舒.大數據時代檔案館服務創新研究[J];北京檔案,2013年11期
[7]黃少芳,劉曉鴻,張俊芳.論高校檔案信息化與數字檔案館建設[J];中國地質教育,2013年02期
[8]郭振橋,王新玲.淺論大數據在未來圖書館服務中的應用[J];內蒙古科技與經濟,2013年16期
作者簡介:彭柳,館員,中南民族大學檔案館(校史館)信息與技術室負責人,主要從事檔案數字化建設技術研究。
基金項目:本文由中南民族大學中央高校科研業務費社科專項資金項目資助(CSQ19039)