陳 鋒,孫淼洋
(1.遼寧醫學院現代教育技術中心,遼寧 錦州121001;2.遼寧鐵道職業技術學院 電氣工程系,遼寧 錦州121001)
大數據在高校檔案信息管理中的應用研究*
陳鋒1,孫淼洋2
(1.遼寧醫學院現代教育技術中心,遼寧 錦州121001;2.遼寧鐵道職業技術學院 電氣工程系,遼寧 錦州121001)
本文首先介紹了高校檔案信息管理現狀,并針對高校檔案資源的信息特征進行了總結與歸納;其次,就大數據技術特點與大數據技術的應用條件進行了分析與闡述;最后,針對大數據技術在高校檔案資源信息管理中的應用進行了詳細介紹,并對未來高校檔案信息管理的發展趨勢進行了技術展望。
大數據;檔案管理;數字化校園;智慧校園
隨著我國高校教育事業的快速發展,我國高校的教育信息化已經日益完善,高校內各個管理信息平臺所產生沉積下來的大量電子文件,給高校的檔案管理與信息應用帶來巨大挑戰。大數據以海量信息、多數據類型、價值密度低等技術特征為高校檔案信息資源的數據挖掘與數據分析提供了技術保障,也為高校利用檔案信息資源進行新的知識發現與趨勢預測提供了強有力的技術支撐。
當前高校的檔案管理主要面臨如下問題:(1)高校已有的檔案信息管理平臺已不能滿足日趨龐大的檔案信息資源的管理與存儲,高校現有檔案管理信息平臺多為B/S或C/S單一服務器的系統架構方案,在不引入服務器集群或虛擬云存儲技術的前提下,隨著檔案資源數據存儲的增大,極有可能會引發磁盤物理存儲容量不足,進而導致平臺數據庫“脹庫”危險。(2)高校內部的檔案資源數據來源廣泛,種類繁雜,有資料顯示2012年以來,非結構化電子文件,如文檔、表格、網頁、音視頻等數據信息占整個校園網數據信息總量85%以上。這些內容各異、格式不同的信息都將成為未來高校檔案的重要數據源。(3)當前我國高校檔案管理尚存在“重館藏輕利用”的現象,檔案管理人員往往把高校檔案館藏量作為硬性指標來衡量,而對于檔案信息的應用服務普遍重視不夠。
(1)種類樣式多、內容廣泛。高校檔案來源豐富,其中包括師生個人信息如職工人事檔案、職工醫療保健檔案、學生學籍檔案,也有反映教務教學情況的,如教務檔案、試題庫,還有反映學校政務類別的如校務檔案、財務檔案、基建檔案及各類資產類檔案等。
(2)高校檔案存儲形式多樣。高校檔案的存儲介質既有傳統紙質檔案如人事檔案卷宗、財務原始報銷憑證及公文文書,也有教務、科研、OA辦公等管理信息系統生成的數據庫文件;此外,除了傳統的字處理文檔和結構化數據庫文件外,還包括大量電子表格、電子郵件、影音等半結構、非結構化電子文件。
(3)高校檔案資源體量大,數據冗余度較高。隨著高校網絡及辦公自動化水平的提升,高校的校園網內產生并沉淀大量電子文檔,這些文檔、報表來自學校不同部處的業務信息系統,雖然電子文件內容相對完整、獨立,但不同類別電子文件之間存在大量數據冗余,占用并浪費了檔案資源共享平臺的存儲空間。
(4)高校檔案調閱頻繁,檔案綜合利用率高。高校人員技術職稱晉升、學生評優評先、財務審計分析、設備儀器招標等工作都需要提供大量數據佐證。而調閱檔案則是最直接、最有效的一種信息獲取手段。因此,高校檔案調閱頻繁,檔案綜合利用率較高。
(5)高校檔案價值密度較大,高校檔案資源大多是經由高校教學、科研、財務、人事等各個管理信息系統采集得到,這些由業務信息系統提交匯總的檔案信息無論從格式上還是內容上都是相對完整規范的,其檔案信息價值密度較高。
所謂大數據技術就是將海量信息資源在合理時間內進行采集與處理,并將其結果反饋給用戶,幫助用戶實現輔助決策。大數據具備Volume信息海量;Variety數據類型多,日志、音視頻、地理位置等半結構、非結構化數據并存;Value價值、數據價值密度稀疏;Velocity高速、時效性強、信息采集處理速度快的基本特征。檔案資源共享平臺上不但能夠管理傳統意義上的檔案信息資源,更能記錄數萬師生在高校校園生活中衣食住行的點點滴滴,借助于大數據應用,可以在高校檔案資源管理平臺上真實客觀地展現師生的教學、生活全貌。
大數據的應用環境主要由業務、技術、數據三個維度要素構成。高校檔案資源管理平臺為適應大數據應用也應按檔案業務、檔案信息技術以及檔案資源進行如下調整和部署:
(1)檔案大數據應用業務維的構建。檔案業務主題的定義與描述,在進行大數據分析前,要對其業務分析的主題進行科學細致的定義和描述,只有對其待分析業務準確地定義和描述,才能對檔案信息模型進行準確建模。
(2)檔案大數據應用數據維的構建。檔案數據模型的轉換,以往高校檔案資源共享平臺下的信息大多借助于數據庫系統進行存儲與管理,檔案數據庫系統主要是為檔案業務信息管理而創建,并不適用于數據分析。因此在檔案大數據應用時,首先要將檔案資源共享平臺下的檔案信息進行數據模型的轉換,即將二維關系特征的業務型檔案信息轉換為具有多維度、多度量的檔案數據模型。
(3)檔案大數據應用技術維的構建。首先在大數據軟件上要考慮檔案數據挖掘算法的加載,在處理完檔案數據模型轉換工作后,則可篩選適用于檔案系統特征和業務需求的數據挖掘算法;此外,在大數據應用的硬件上,要考慮其運行環境應具備足夠的計算與存儲性能,高校部署并開展大數據應用,必須具備強大的計算機運算處理能力,院校通過夜間開啟大數據應用,可有效緩解校園網晝間服務器的計算負荷;此外,檔案信息的大數據存儲可通過部署云存儲或配置大容量磁盤陣列等方式予以解決。
(1)大數據技術可用于高校檔案信息的資源發掘。在校園大數據時代,信息應用服務及師生用戶的客觀需求引領著高校檔案由常規分析向廣度、深度分析轉變。人工智能、機器學習、知識圖譜等一系列大數據技術能夠從海量檔案信息資源當中分析潛在價值并找出學校特有辦學規律。未來,利用海量檔案信息資源進行數據挖掘與數據分析將成為高校檔案信息服務的主營業務。
(2)大數據技術有利于高校檔案用戶信息的數據挖掘。當高校全面進入智慧校園時代,校園師生用戶將會對高校檔案資源的信息服務、應用服務、智慧服務的要求變得更為迫切。高校檔案資源共享平臺借助大數據技術可對來訪用戶身份、來訪記錄等結構化信息及其存儲行為、搜索方式、位置信息等半結構化信息進行分析與處理,從中挖掘并找到用戶的隱形訴求從而提升檔案信息的應用服務水平。
(3)大數據技術可用于高校檔案知識發現與趨勢預測。高校檔案資源共享平臺中的檔案資源與用戶信息相對孤立,如學校一卡通系統用戶行為信息、教務考試成績信息、學生系統的學管信息等即便能夠被高校檔案資源共享平臺收錄、采集,但都是獨立存儲,學校無法從利用這些檔案資源中進行知識發現和趨勢判斷,借助大數據技術則可找出這些檔案信息間、用戶間以及檔案與用戶間的潛在邏輯關聯規則,從而能夠為學校教學、學生綜合素質評價、財務分析等各領域提供趨勢判斷和輔助決策。
隨著高校數字校園、智慧校園建設的逐漸深入,未來將會有更多的信息技術融合到高校檔案信息管理中。如云計算與云存儲服務,將會解決高校海量檔案信息資源存儲不足問題,同時借助于云架構模式,能夠實現校際檔案信息平臺互聯互通及檔案資源共享;4G移動通信與智能終端的普及,將拓展豐富校園用戶訪問檔案資源的媒介渠道;而大數據技術更會引領高校檔案界從“狹義檔案資源觀”向“大檔案觀”里程碑式地發生轉變。
[1]周楓.資源·技術·思維——大數據時代檔案館的三維詮釋[J].檔案學研究,2013(6).
[2]魯德武.試述檔案大數據的定義、特征及核心內容[J].檔案,2014(4).
[3]周楓.國內檔案學領域“大數據”研究述評[J].檔案,2014(6).
[4]鄧小軍.大檔案、大數據、大整合——訪廣東省中山市檔案工作[J].中國檔案,2014(8).
[5]陶水龍.大數據時代下數字檔案館面臨的機遇與挑戰[J].中國檔案,2013(10).
[6]高茂科.對檔案大數據關鍵環節的認識[J].中國檔案,2013(10).
[7]丁國勇.大數據時代對檔案工作影響及應對策略研究[J].蘭臺世界,2014(S3).
[8]梁啟敏,劉暉,劉怡君.檔案管理遭遇云計算和大數據[C].廣西計算機學會2013年學術年會論文集,2013.5.
(編輯:王曉明)
TP393
B
1673-8454(2015)07-0054-02
2013年遼寧省教育廳科學研究一般項目(編號L2013535)。