楊 杰
(朝陽縣住房和城鄉規劃建設局,遼寧 朝陽 122000)
?
【文化遺產】
數據挖掘技術在工業遺產檔案資源整合中的應用
楊 杰
(朝陽縣住房和城鄉規劃建設局,遼寧 朝陽 122000)
工業遺產檔案資源分布較為分散,在用戶進行查詢與利用時,找到全部相關聯的檔案資料首先需要奔波于多個存檔部門,這一過程持續時間長,耗費精力,得到一份有價值的資料也是需要經過幾分周折的,所以,構建一個系統統一的工業遺產檔案數據庫,為利用者在短時間內迅速地查詢到有價值的結果尤為必要。
數據挖掘技術;工業遺產檔案;資源整合
隨著計算機及網絡技術的迅猛發展,各個領域已被深深地標注上了信息化的符號,不斷膨脹的信息量讓人們應接不暇。那么如何采用科技的技術手段,將檔案資源中龐大的數據進行處理并提取出可供利用的規則和知識呢,數據挖掘技術不失為最佳選擇。
數據挖掘即是從海量的數據中提取需要的知識和數據。學術界給出的定義為:“從大量的、有噪聲、不完全的、模糊的、隨機的數據庫中,提取隱含在其中的、人們預先不知道的、但又是潛在有用的信息和知識的過程”[1]。
此項技術手段已被應用于多個領域,且成果的實際的應用價值很高,對社會生產生活產生的影響很大。例如,零售業中沃爾瑪的購物籃分析;公安部門的“金盾工程”;醫案處方分析的大承氣湯經方等等,另外,在銀行業也經常運用這項技術,分析銀行客戶、研究需求,用以提高銀行業的服務水平。
數據挖掘技術在數字檔案建設方面也有相關應用。有學者“利用數據挖掘技術將檔案與利用者之間、檔案與各種實踐活動之間以及檔案之間的關系揭示出來,從而在更深層次上發揮這些檔案數據的信息作用,從數據清洗方法、數據挖掘算法、數據倉庫的建立等方面論述了如何將數據挖掘技術與檔案工作相結合的具體思路,并提出了一個數據挖掘系統的設計思想”[2]。廣州市城建檔案館通過數據挖掘技術實現了規劃管理業務檔案按項目分專業的關聯,利用者檢索到的規劃管理檔案可以是成套的、整合的、統一的,而對于決策者來說也是掌握了更全面更有價值的檔案信息[3]。
工業遺產檔案即是為每件工業遺產建立的檔案。工業遺產,是指1840年中國近代工業產生以來,具有歷史、科技、藝術、社會價值的近現代工業文化遺存,包括物質遺產和非物質遺產[4]。工業遺產檔案涵蓋:(1)申報單位收錄的關于該工業遺產的所有檔案及資料。即不可移動舊址,建筑遺存物;涉及企業歷史記錄的實體紙質檔案,有工業企業正常運轉時產生的文書檔案、科技檔案以及專門檔案;包括生產工藝流程、手工技能、原料配方、商號、經營管理、企業文化等的非物質的東西。(2)申報過程中形成的檔案。相關企業的申報材料,包括文字資料、聲像資料等。如填制的《工業遺產資源調查表》《工業遺產價值評價指標體系》等表格,包括對物質、非物質遺產的描述、繪圖等。(3)可確定公布為工業遺產后相關的利用與保護資料。對工業遺產按照“誰使用、誰負責、誰保護、誰受益”的管理原則,采取措施將其管理和保護的東西建檔。專項規劃存檔,可移動實物可由檔案館等文物收藏單位予以征集收藏、陳列展示。
工業遺產檔案兼具憑證價值、文化價值以及現實價值,所記錄的信息對于人類了解工業文明的發展、工業文化等具有無法替代的作用。這類資源主要分布在綜合檔案館、城建檔案館以及企業內部檔案館室,另外,史志辦、文化遺產中心以及經濟與信息化委員會等也會保存有相關資料。
構建工業遺產檔案資源整合模型的目的就是要及時地解決用戶的查詢困難,避免獲取資源的拖沓繁復問題,及時解決利用者的利用需求,需要對數據挖掘流程進行科學化處理。對于海量的數據資源來說,有一個靈活、高效的網絡環境是十分重要的,科學地分析數據可以有效地解決用戶與資源間的矛盾。科學合理的處理流程可以提高利用效率。效率一直是檔案工作所追求的,注重征求群眾意見建議,不斷改進工作方法,完善窗口運行機制。數據挖掘的處理需要進行認真梳理,在研究分析的基礎上和在法律法規框架內,對相關程序和流程做進一步地精簡和優化,提高工作效率。科學合理的處理流程,還可以有效地節約時間,避免用戶的周折,做到迅速查詢,減少不必要的麻煩。
用數據挖掘技術構建檔案資源的整合模式,需要注意以下幾點:
1.開發環境。利用SQL Server數據庫進行開發。SQL Server可以對數據進行查詢,實現搜索功能,并且同步于各類工作,作出報告并完善分析數據。多用于中小型企業數據庫的構建。同理可應于工業遺產檔案資源數據庫的構建。
2.模型構建。模型構建具體的方案圖如下所示:
綜合檔案館+城建檔案館+企業檔案室+史志辦+文化遺產中心+經濟與信息化委員會→數據倉庫→模式評估→可視化用戶界面
3.數據預處理。對于原始數據的處理是進行科學挖掘的前提,處理的過程會花費大量的時間成本,而且經過很多過程。數據預處理的方法有數據清理、數據集成、數據變換、數據歸約等,它們是將不完整、不一致的數據進行技術處理,以提高數據挖掘的質量和效率。
工業遺產檔案是記錄老工業區發展變遷的歷史資料,它們具有著潛在無限的再生價值,通過科學技術手段整合工業遺產檔案資源,讓工業遺產檔案煥發出前所未有的容光,這對于當地工業遺產的文化重建,對于檔案資源的綜合開發,甚至對于本地區軟實力的增強是極具幫助性的。
[1]JiaweiHan, MiehelineKamber.數據挖掘概念與技術[M].范明. 孟小峰等譯. 機械工業出版社, 2001.
[2]宇然.數據挖掘技術研究以及在檔案計算機管理系統中的應用[D].沈陽工業大學碩士論文,2002.11
[3]鄭向陽.數據挖掘技術及其在城建檔案信息服務中的應用[J].檔案學通訊,2005,(03).
[4]國家文物局.工業遺產保護和利用導則(征求意見稿)[R].辦保函(2014)758號.
【責任編輯:周 丹】
G272
A
1673-7725(2016)10-0127-02
2016-09-20
楊杰(1985-),女,遼寧朝陽人,檔案館員,主要從事建設工程檔案管理研究。