鄭楊
[摘 要] 隨著信息時代的到來,人們處理信息的方式越來越多種多樣,傳統的檔案數據檢索和處理技術已經不能滿足人們的日常工作需求,為此,人們開始將關注重點放在大型數據庫的檔案數據挖掘技術上面,成功提高了工作人員的信息處理效率,在一定程度上推動了大數據時代的發展。本文基于大型數據庫的檔案數據挖掘技術進行研究,分析了其當前的應用情況以及未來的應用前景。
[關鍵詞] 大數據;檔案數據;數據挖掘
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 01. 053
[中圖分類號] G270.7;TP311.13 [文獻標識碼] A [文章編號] 1673 - 0194(2018)01- 0132- 03
1 大數據技術
近年來,“大數據技術”一詞經常為人們所提及,從字面意思來看,它所指代的是人們已經進入到信息爆炸的時代,在日常生活當中,各式各樣的網絡信息、個人信息、資源信息等充斥在我們身邊,它對人們的生活帶來了較為深遠的影響。可以說,大數據技術把人們帶到了一個新的紀元當中,同時,它的出現也為企業或工廠的生產銷售帶來了巨大的便利條件。當前社會,每一個領域的正常運作都離不開數據的收集和整合,而數據的處理恰恰又要依附“大數據”。
1.1 “大數據”的背景介紹
近年來,互聯網技術發展突飛猛進,人們的生活越來越依靠網絡信息,這在很大程度上改善了人們的生活質量。無論是日常的工作學習,還是度假游玩,人們已經開始越來越依賴網絡,在某種程度上來說,離開了互聯網數據,人們的生活就難以繼續。人們將工作和生活的信息存儲在互聯網當中,利用互聯網技術對信息進行整合,處理,使其更加方便快捷。
1.2 “大數據”的定義
至今為止,中外的學者都沒有給出“大數據”的統一定義。當前,越來越多的人開始關注“大數據時代”,將其研究對象鎖定在對大數據的研究和分析上面,但不同學者的觀點有所不同,因而,對于“大數據”的定義仁者見仁智者見智。
總的來說,“大數據”給人們的生活帶來了翻天覆地的變化,推動了國內外的產業革命。大數據不僅包括數據整合,數學模型,還包括對原始數據的分析和處理,它是一種新興的技術,利用互聯網對數據信息進行收集和處理,從而提高人們的工作效率,減輕人們的工作負擔。
1.3 “大數據技術”的基本特征
對于“大數據技術”來說,它有其獨特的個性和特征。第一,大數據的信息是十分龐大的,在數據庫當中,技術人員會將成千上萬的數據信息進行收集和整理,并將它們統一地存放在對應的數據系統當中。第二,大數據的信息是多樣化的。在數據庫當中存在著各式各樣的信息,無論是日常生活信息,還是國防安全、生態系統信息,都會分門別類地保存在數據庫當中。第三,大數據具有較高的價值性。各行各業的人們的工作信息、生活信息都可以很好地反映在數據庫系統當中,這對于數據的采集和處理提供了很大的便利。第四,大數據的高效性。在數據庫系統中進行檢索的時候,可以方便快捷地獲取所需的有用信息,這種時效性有效提高了工作人員的工作效率。
2 檔案數據挖掘技術
2.1 檔案數據挖掘技術基本概念
在日常的信息檢索和整合處理的時候,管理檔案的技術工作人員會采用一些較為特殊的技術手段進行處理,這種特殊的數據處理方式就是我們所說的檔案數據挖掘技術。在傳統的信息檢索處理中,檔案管理工作人員往往需要花費很多的時間和精力才能在眾多的數據庫當中挑選出合適的數據信息[1]。數據時代的到來給人們的生活帶來了無限的便利條件,當前,檔案管理技術工人可以利用數據挖掘技術處理日常的工作,大大提高了工作效率,拓寬了檔案數據挖掘技術的應用空間。
2.2 檔案數據挖掘技術的特點
一般來說,在大數據時代下的檔案數據挖掘技術相對十分復雜,它雖然在一定程度上改善了傳統檔案數據檢索中常常遇到的問題和困難,但還需要建立合適的數學模型。沒有合適的數據數學模型,檔案技術人員很難進行下一步的工作,也就無法對數據進行相應的處理。另外,對于檔案數據挖掘技術來說,它所使用的數據庫十分龐大,這在無形中增加了出現微小錯誤的可能性,這種錯誤雖然不影響最終的處理結果,但還是不能保證十全十美。最后,相比于原有的檔案數據處理技術,檔案數據挖掘技術更加人性化,它可以從用戶的角度出發,最大限度地滿足用戶的根本需求。
2.3 檔案數據挖掘技術的應用
隨著時間的推移,人們的生活已經離不開大數據,我們已經正式進入大數據時代。第一,它可以依照不同用戶的不同需求在檔案數據庫中進行信息的收集和處理,保證了檔案數據處理的個性化。第二,不同用戶之間的信息是相互關聯的,因此,可以根據全網用戶的檢索情況分析他們之間的聯系或工作內容等項目。第三,檔案系統會自動將相似的信息進行匯總,并統一于一個檔案數據庫當中,這樣一來,在日后的處理過程中,檔案管理技術人員的工作效率就可以得到提升。
3 大型數據庫的檔案數據挖掘系統與挖掘技術
3.1 大型數據庫的檔案數據挖掘系統
3.1.1 關聯規則挖掘
對于檔案數據挖掘中的關聯規則來說,它的主要內容就是將不同用戶的信息進行整合處理,利用這些信息對用戶的個人生活或工作情況進行分析和預測。在檔案的管理和運行上面起到了較好的輔助作用。關聯規則挖掘可以有效地幫助企業了解潛在客戶人群,并更準確地掌握客戶的喜好情況,了解客戶的真實需求,這樣一來,檔案管理的工作人員就能為客戶提供更加優質的服務。當前,檔案管理廣泛使用的程序算法是Apriori算法,這種算法很大程度上避免了傳統算法的各種缺陷,提高了時間的利用率。
3.1.2 分類
對于檔案數據挖掘來說,它還可以對用戶人群進行分類,根據不同人群的信息處理方式和檢索條件的差別,對這些用戶進行更為細致的分類。依照這些分類結果,企業或檔案管理技術人員可以更好地了解不同數據信息,不同用戶之間的聯系,并將這種聯系進行整合處理,方便日后使用。這種新的檔案數據挖掘技術的推廣和使用對人們的生活起到了很好的輔助作用。endprint
3.1.3 聚類
除了上述的兩種檔案數據挖掘處理技術之外,應用較為廣泛的一類檔案數據挖掘技術就是我們所說的聚類數據挖掘技術,這類技術的前景較好,準確度更高,在企業和檔案管理技術人員的管理工作中被大量使用。一般來說,分割聚類算法可以將不同檔案數據處理程序進行比較,并將比較之后的信息進行綜合處理,形成一個高效、科學的分類表。而分層聚類算法處理更加簡便,應用更加優化,它有效改善了分割聚類算法中存在的缺點和不足,開創了自身的應用領域,為人們的生活帶來了更多的便利條件。
3.2 大型數據庫的檔案數據挖掘技術
3.2.1 庫存管理檔案數據挖掘
庫存管理檔案數據挖掘是基于大型數據庫的一種檔案數據處理方式,它被廣泛應用在檔案管理當中。在檔案的管理當中,很多的管理人員選擇使用庫存管理檔案數據挖掘技術,這主要是由該檔案數據挖掘系統的自身特點所決定的。相比于傳統的檔案管理數據系統來說,這種大數據的檔案管理挖掘技術更加簡便,更為細致,可以更加準確地對庫存檔案進行清點和信息統計。系統會自動將檔案的數據信息記錄在數據庫當中,方便檔案管理人員的調用和更改。
3.2.2 空間檔案數據挖掘
空間檔案數據挖掘技術是一類新興的檔案數據挖掘處理技術,它的理論體系還不完全成熟,因此,它的應用范圍并沒有庫存檔案數據挖掘技術廣泛。這種技術的出現是為了更好地解決和處理用戶的空間信息,它除了需要依托大型數據庫之外,還需要依托空間可視地圖,因此,它的技術要求相對較高。然而,無論是在日常的檔案管理工作當中,還是在軍事,農業等其他領域,空間檔案數據挖掘都有著良好的應用前景,我們可以預測,在未來的生活和工作當中,空間檔案數據挖掘技術可以隨處可見。
4 大數據下的檔案數據挖掘
4.1 實現了檔案數據采集層的優化管理
將大數據技術應用在檔案數據的管理和挖掘當中,進一步提高了數據處理的效率。一般來說,在進行檔案數據管理的時候,第一步就是要對相關的檔案數據進行采集,只有實現對檔案數據的有效采集,才能避免在后續的管理過程中出現錯誤[2]。可以說,只有利用大數據技術才能實現高質量的檔案數據采集,這樣,隱藏在檔案文件后的全部信息都可以被采集出來,另外,在檔案數據的采集過程中,還可以依照實際的采集需要,對檔案數據進行更為細致的篩選,這樣的檔案數據采集方式既保留了檔案數據來源的準確性,同時,在日后的調用過程中也不會出現不必要的失誤。
4.2 實現了檔案數據整理層的優化管理
在檔案數據采集之后,相關的工作人員就要實現對檔案數據的整理,一般來說,這些檔案數據信息都是十分復雜的,因此,工作人員的整理工作也相當麻煩。因此,將大數據技術應用在檔案數據的整理過程中,可以有效地提高工作人員的工作效率,既能保證檔案數據的有效存儲,同時,還可以避免在整理的過程中出現失誤,導致數據的缺失。隨著互聯網技術的不斷發展,當前,可應用在檔案數據整理中的大數據技術已經相對成熟,大數據技術已經成了檔案數據整理人員必不可少的技術工具,可以說,一旦離開了大數據技術,檔案數據的整理工作將會變得異常艱難。
4.3 實現了檔案數據分析層的優化管理
每一份檔案數據都有其自身的特點和應用,因此,對于檔案數據管理的工作人員來說,還需要在后臺對這些檔案數據進行分析管理。另外,不同的檔案數據之間并不是完全孤立的,它們之間可能存在某些聯系,這種數據的相關性分析需要依靠大數據技術才能實現。就檔案數據的表面分析來說,工作人員很難在第一時間了解到不同檔案數據之間的關聯,只有通過大數據技術,才能挖掘到隱藏在檔案數據背后的相關信息[3]。在了解檔案數據之間的相關性之后,工作人員才能更好地利用檔案數據信息,挖掘它們的最大價值,進行檔案數據的分析整合,更好地實現信息和資源的共享。
4.4 實現了檔案數據展示層的優化管理
對于檔案數據來說,無論是對其進行采集整理,還是對其進行分析整理,其最終的目的都是為了將檔案數據展示出來,供人們參考使用。因此,檔案數據的展示工作是極其重要的,在進行檔案數據的展示時,工作人員需要利用大數據技術更好地實現對數據的可視化管理,建立并完善良好的檔案數據管理系統,這樣一來,在用戶進行檔案數據的調用和查閱的時候,可以更加方便快捷,避免浪費用戶的時間,同時,也避免產生不必要的麻煩[4]。大數據技術的出現在很大程度上實現了工作人員對于檔案數據信息的展示管理,為人們提供了更多的便利條件。
5 結 語
大數據時代的到來給人們的生活增添了很多新的便利條件,無論是傳統的檔案數據挖掘處理技術,還是當前的檔案管理數據,空間管理檔案數據挖掘技術,都成了人們檔案管理中必不可少的條件。可以說,一旦人們離開了大型數據庫,生活就會舉步維艱,難以繼續。另外,對于當前的檔案數據挖掘技術來說,它自身還存在很多的缺點和不足,還需要進一步地完善和改進,這樣,才能更好地為人們服務。
主要參考文獻
[1]于英香.檔案大數據研究熱的冷思考[J].檔案學通訊,2015(2):4-8.
[2]王雅潔,楊冰,羅艷,等.大數據挖掘在食品安全風險預警領域的應用[J].安徽農業科學,2015(8):332-334.
[3]周楓.資源技術思維——大數據時代檔案館的三維詮釋[J].檔案學研究,2013(6):61-64.
[4]張芳霖,唐霜.大數據影響下檔案學發展趨勢的思考[J].北京檔案,2014(9):9-13.endprint