文/中國國際工程咨詢有限公司 梁晨
數據挖掘技術是信息化社會發展的產物,將數據挖掘技術運用于檔案管理也是信息技術發展的必然。2003年,國家頒布了《工程咨詢業知識產權保護與管理導則》,明確工程咨詢過程中具有知識產權。并明確規定了工程咨詢過程中原始數據、試驗數據、勘察設計圖、合同書、工程總結報告等必須要歸檔保存。因此,在信息技術時代,運用數據挖掘技術,提升檔案管理水平,可以極大提升工程咨詢數據收集的速度與質量。
信息技術的革新促進了大數據時代的到來,物聯網、云計算等技術的成熟運用,使得數據增長不斷躍升,也對數據挖掘提出了更高的要求。數據挖掘正是適應信息社會海量數據提取有用信息的需要而產生的學科。它綜合統計學、機器學習、數據庫、人工智能等學科的交叉學科。具體來講,數據挖掘指的是運用一定的手段對已知大量數據進行分析與整合,從而得出其中具有巨大價值的信息。其特征主要有未知性、有效性及實用性。決策者通過數據挖掘技術在已知大量數據中尋找有價值的信息,從而預測未來可能出現的行為。數據挖掘技術在檔案管理中主要采用的方法有決策樹算法、聚類算法、關聯法等。
數據挖掘主要由兩種形式構成:一是描述性數據挖掘技術。即利用描述行為對數據中存在的規則進行描述,并根據數據的微觀特點找出其深層次、宏觀知識,并將同類事物的相同屬性進行概括、總結和抽象描述。二是預測性數據挖掘技術。它是將已存在的數據進行分析與處理,并總結出同類事物的共同屬性,預測未來一定時期內這類事物的規律。
工程咨詢企業檔案管理是運用系統化觀點對工程咨詢行業的檔案文件以及資料作為服務對象進行的管理工作。工程咨詢企業檔案管理主要包括兩方面:一是企業發展的歷史檔案,二是記錄企業技術成果的檔案,而后者是工程咨詢檔案管理中的主要部分,它主要指工程咨詢企業為客戶提供服務完成的咨詢成果檔案,它包括投資項目可行性報告、項目建議書、項目申請報告、規劃咨詢等。企業技術成果檔案是工程咨詢企業從接受委托到進行調研、編審、直到審批和出具報告書的過程中形成的具有查考及保存價值的文字及材料。
工程咨詢企業在接受委托進行服務的過程中,會產生大量應歸檔的文件材料,也迫切要運用利用檔案資源處理和解決問題。而多角度、多層次地將工程咨詢企業檔案的靜態信息轉化為企業運用檔案資源所需的動態信息,從而更好地實現企業內外部信息共享,實現大數據環境下企業咨詢檔案管理的現代化,這都需要深入運用數據挖掘技術來實現。
大數據時代,檔案管理也逐漸向“智慧檔案”“大服務”等方向發展,我國工程咨詢行業發展十分迅速,但行業內,檔案管理混亂,依舊沿用傳統檔案管理體系,工程咨詢檔案管理水平不高,在一定程度上局限了檔案工作的開展。
(一)檔案信息資源分散,共享程度低。工程咨詢企業的檔案管理系統在進行信息化建設時,并沒有在企業內外進行統籌規劃或者統一標準,而是自成體系,造成數據庫異構現象,檔案信息孤立,難以共享,“信息孤島”的出現,使得網絡資源整體利用率不高,也給檔案管理的數據挖掘工作帶來一定的困難,影響了工程咨詢企業對于檔案數據利用的需求。要解決此類問題,工程咨詢企業在檔案開發過程中,要重新審視在新形勢下檔案管理資源管理面臨的新情況、新理論,確立大數據時代檔案信息資源的開發、管理和服務的基本框架與方法,充分實現檔案管理的服務功能。
(二)數據的深度挖掘不夠。目前,工程咨詢檔案系統仍處在資源收藏階段,將館藏資源轉化為有價值的信息和內容的能力不高。在大數據時代,傳統檔案管理方式的地位日益下降,這不僅反映了人們生活方式的轉變,同時也側面表現出檔案管理日常工作的局限性,也就是說相關主體過度關注資源的接收和保存工作,忽視了對資源本身挖掘,大量富有深層次價值的信息資源被無意識地擱淺,造成資源浪費。在信息爆炸的時代浪潮中,對數字資源的處理應將建設與服務并重,重視對獲取信息的深度整合處理。“大數據”對信息的深度和廣度提出了全新的要求,工程咨詢檔案管理要提高對數據的處理能力,在接收、保存數據的同時,對數據信息進行全面整合。在這個過程中,計算機技術發揮的作用不容忽視,它能夠輔助相關工作者快速準確地進行信息的分類、整合,挖掘出信息承載的深層次價值,進而推動技術和知識的發展變革。
(三)檔案信息化轉化不足。就目前的情況來看,工程咨詢企業對信息數字化處理的程度不高,其主要表現在兩個方面:一是傳統檔案占比過高。經過長期的搜集整理,實體檔案資源的質量和數量有先天優勢,人們已經習慣翻查紙質文檔,導致數字檔案資源的發展緩慢。二是信息結構不合理。受傳統因素影響,工程咨詢檔案多為結構化信息,對半結構化和非結構化信息的接受、處理能力較低。在兩種因素的相互作用下,檔案信息化轉化的進程緩慢。信息轉化要求相關工作者將實體信息轉化為數字信息,進而實現二次保存處理。在單一的信息結構影響下,很多富有價值的半結構化、非結構化信息并未進入到處理流程,限制了檔案信息自身的寬度。工程咨詢檔案管理應著力解決上述問題,加快信息化轉化步伐,協調傳統檔案與電子檔案的占比,使之符合大數據時代的基本要求。與此同時,通過科學有效的處理方式,將半結構化和非結構化信息結構化,完成檔案資源的全覆蓋。
(一)檔案管理全過程中數據挖掘技術的運用。隨著時代的進步,信息技術已然滲透到各行業的實際工作中。在檔案管理方面,數據挖掘技術起到的作用越來越大。一方面,數據挖掘技術能夠對已有信息進行深層次分析解讀,實現信息價值的最大化。另一方面,數據挖掘技術節省了大量的人力物力成本,提高了信息處理的效率和質量。在工程咨詢檔案信息管理系統中,數據挖掘技術能夠實現的功能頗多,在以下三個方面有較為出色的表現:1.檔案分類中的運用。在工程咨詢檔案管理中,已獲取的檔案信息可根據實際情況劃分為兩大基本形態,即已分類信息和未分類信息。由于信息本身的形態特征,其分類也具有一定的特殊性,通常來說,我們根據信息的屬性對其進行類別劃分。在對特征各異的信息進行篩選、排查的過程中,工作人員所需承擔的工作量十分龐大,且由于信息數量較多,極易發生分類錯誤。此時借助數字挖掘技術能夠節省大量的工作成本,提高工作效率。數字挖掘在檔案分類過程中的流程相對簡單:首先提取已分類信息的訓練集,為分類工作提供參考。而后分析訓練集呈現出的分類特點,并依此建立分類模型,展開實際的分類工作。在數字挖掘技術的幫助下,已分類信息的特點被快速抓取出來,獲取原始數據信息的效率更高。而經過科學的計算分析,未分類信息能夠依據模型快速完成分類,信息服務質量得以提升。2.檔案收集中的運用。與檔案分類相似,在檔案收集過程中,數據挖掘技術的應用同樣涉及模型建立。在對數據庫信息進行分析后,得出實際的數據模型,將之與測試模型進行比對。如果兩模型相匹配,則證明測試模型準確,可以按模型進行分類;如果兩模型不匹配,則說明測試模型的建立存在問題,需對其進行調整處理。3.工程咨詢檔案反饋信息處理。在工程咨詢檔案系統內部,信息的交流傳遞具備一定的特性,各子項對系統都具備反饋能力和義務。子項反饋的調研、分析等信息通過數據挖掘技術,實現了更高速的傳播和分享,提升了系統的運作效率。與此同時,檔案資源實現了信息化轉化,對信息系統的發展完善又起到了良好的促進作用。
(二)管理者思想與理念的更新。對于一個組織結構較為完整的體系而言,管理者的觀念和行為對系統發展有著重要影響。工程咨詢企業的管理者必須明確信息化是檔案管理發展的必然方向,積極引入新技術、新方式,提高信息處理的效率。同時,將全新的管理和運營理念傳播到整個系統內,促進檔案管理部門的職能轉變。從實用的角度來看,工程咨詢檔案管理的最終目的是利用歷史數據信息,對后續的工作、行為提供參考和指導。一旦信息本身缺乏利用價值,它也便失去了作為檔案的基本價值。因此,工程咨詢檔案管理部門應開放視野,在完成基本的信息整合、保存工作基礎上,對信息價值進行深度挖掘和利用。與其他系統間存在內部合作關系相同,其工作也應得到其他部門的協助和支持,充分調動企業的各項資源,實現信息的交流共享。
(三)數據挖掘的客觀性。受實際方法影響,在工程咨詢檔案管理利用數據挖掘技術對信息進行處理時,工作者得到的數據解讀具有一定的差異性。這種差異性與處理錯誤不同,它反映的是不同方法對信息的解讀結果,準確性極高,但主觀性略大。有鑒于此,在利用數據挖掘技術進行檔案管理時,應以分析目的為出發點,選擇恰當的方法,對數據信息進行處理。同時也應明確,數據挖掘僅僅是輔助完成數據分析解讀的助力,它因數據而生,服務于數據,技術本身需尊重檔案管理原則。隨著社會的不斷發展,信息數量激增,工程咨詢檔案管理工作面臨著越來越多的挑戰,雖然數據挖掘具備諸多優點,但其仍舊無法完全滿足檔案管理發展的需要。所以,在充分利用數據挖掘技術的同時,歸根到底是工程咨詢檔案管理充分向信息化轉變,才能確保工程咨詢檔案管理更好地為企業服務。
在應用層面,數據挖掘技術在學術界、工業界等諸多領域都已初露頭角,取得了一定的成績。在工程咨詢檔案管理工作中,數據挖掘技術能夠提高信息處理的速度和效率,壓縮信息處理消耗的人力物力成本,具備很大的現實價值。為此,我們更應該注重數據挖掘技術在工程咨詢檔案工作中的應用,將數據挖掘技術的價值最大化,利用更加先進的技術手段,提升檔案管理工作質量。