戈妍妍 牟虹 竇雪
【摘 要】數據挖掘是數據庫中知識發現的一個過程,數據挖掘技術是從大型數據庫中提取以前未知的有意義的數據,然后做出決策的過程。本文在分析數據挖掘概念及其主要技術方法的基礎上,結合徐州醫科大學檔案館的實際工作,探討了數據挖掘技術在檔案信息服務中的具體應用。
【關鍵字】數據挖掘;高校檔案;信息服務
中圖分類號: G273.5;G647.24 文獻標識碼: A 文章編號: 2095-2457(2018)32-0226-002
DOI:10.19694/j.cnki.issn2095-2457.2018.32.104
【Abstract】Data mining is a process of knowledge discovery in a database. Data mining is a process of extracting meaningful data from a large database and then making decisions. Based on the analysis of the concept of data mining and its main technical methods, this paper discusses the application of data mining technology in archives management based on the practice of archives of Xuzhou Medical University.
【Key words】Data Mining; University Archives; Service
隨著電子政務和社會信息化的加快推進,檔案的工作理念、技術、方法及模式受到深刻影響。過去傳統的檔案管理方式,已經不能夠滿足當前信息化建設的需求,在高校檔案信息化管理過程中積累了海量的數據,挖掘出這些數據背后隱藏的大量有價值的信息。對加強高校檔案服務功能起到重要作用。
1 數據挖掘及其在高校檔案信息服務中的基本應用
1.1 數據挖掘的概念及主要方法
數據挖掘,是從大量的、不完全、模糊的數據中挖掘或抽取未知的、有價值的知識的過程[1]。整個知識的挖掘過程由六個挖掘步驟組成,分別是數據清洗、數據集成、數據轉換、數據挖掘、知識表示,數據挖掘只是其中主要的一個步驟。作為一種有效利用數據資源的方法和途徑,數據挖掘技術在檔案信息服務領域具有廣闊的應用范圍和開發前景,數據挖掘在檔案信息服務中適用的三種技術方法是:(1)關聯規則:它是數據挖掘技術中重要的研究方法之一,它可以從海量的數據和關聯的數據中,挖掘出有價值的知識和模式[2]。(2)分類與預測:分類是數據挖掘的一種重要的方法,主要是在現有的數據基礎上,選出分類好的訓練集,構造一個分類函數或者一個分類模型,把對象總體區分成各個類別的過程。預測是從歷史數據中自動計算出給定數的推廣描述,挖掘出隱藏的規律信息,從而對未來相關的數據進行預測。(3)聚類規則:它是一種比較常見的描述工作,它將數據分成不同群組,屬于同一類的群組的數據盡可能的相似,而不同群組的數據的差別盡可能的大,通常采用數值分析中圖論的相關知識來進行聚類,一般來說聚類要經過多次才能得到一個理想的結果。
1.2 數據挖掘技術在高校檔案信息服務中的基本應用
數據挖掘技術目前的發展已相對成熟,在圖書情報、教育研究等領域也有了一定的價值體現,而在檔案信息管理中,該技術還沒有得到推廣,仍處于實驗階段[3]。從2004年開始我校檔案館就開始了檔案的數字化建設,我們使用檔案管理系統,把各個門類的檔案錄入到系統中,至今為止徐州醫科大學檔案館存儲了大量的案卷級、文件級目錄庫、全文數據庫、圖像數掘庫、數字化掃描數據庫,并建立了干部任免、科研成果,職稱等專題數據庫。隨著檔案數字化建設的資源積累,館內存儲了海量數據,但數據本身存在重復、冗余的現象。如何更加有效的利用檔案信息中現有的數據,提高檔案利用的效率,提供更便利的檔案服務已成為當前迫切需要解決的問題。經研究發現,數據挖掘技術正是解決這個問題的最佳技術方法,為檔案信息服務的應用奠定了物質基礎。
數據挖掘技術無論是在理論上還是實際上都能夠應用于檔案信息服務中。在這個知識經濟時代,數據挖掘技術是很重要的知識獲取工具,它是在網絡技術和數字知識的基礎上,發掘和尋找出檔案信息管理中的有價值的知識資源,使檔案信息管理中的數據得到更合理的利用。而且隨著信息化時代的來臨,社會各界對檔案服務的需求更趨多樣和迫切,對檔案工作領域拓展和服務能力提升提出了更高的要求,越來越多的數字化檔案被利用,領導對檔案工作也是越來越重視,給予了大量人力、財力、技術上的支持,這些都為數據挖掘技術在檔案信息服務中應用提供了強有力的保障,確保數據挖掘技術在檔案信息服務中應用的可行性。
2 數據挖掘技術在檔案信息服務中的具體功能體現
2.1 為用戶提供個性化服務
傳統的檔案信息服務是被動的,被咨詢的,隨著社會信息化的加快推進,檔案工作要主動提供服務,關聯規則通過對用戶數據庫進行關聯分析,從海量數據中挖掘出對檔案管理員有參考價值的數據,從而主動提供個性化服務。例如,在檔案館的網站上建立一個留言板窗口:如圖1所示,用戶可以進行查檔咨詢,提供個人相關信息和查詢內容。如有用戶輸入留言板這個數據庫,系統則針對用戶的需求來提供服務。運用關聯分析的技術方法根據用戶提供的信息和查詢內容的情況進行綜合分類;根據用戶提問的問題,發現用戶的關注點;根據這些數據挖掘出不同用戶的需求和使用特點,主動向用戶推薦;通過對用戶興趣的統計,我們可以把握當下與用戶個人利益相關的信息。比如申報衛生職業醫師、職稱申報、出國留學等時間節點,發現某類檔案的在某月份利用率會比其它時候的高,可以提前做好準備,挖掘用戶數據庫中有參考價值的信息,把“死”檔案變成“活”檔案,為用戶提供有效、準確、快捷的個性化服務。
2.2 提高檔案信息檢索效率
我們現在所使用的檢索工具是輸入關鍵字的模糊檢索,檢索出一堆無關的信息,需要逐條逐頁的進行篩選,工作量很大,給查找有用信息帶來不便,利用數據挖掘技術可以將查詢結果進行歸類和預測,將檢索信息進一步進行定位,這樣可以極大的提高檢索的速度。例如學生在校期間的一些信息記錄,把學生的姓名與其學號、性別、學籍、成績、畢業證書號、學位證號進行關聯,還可以將其獲得獎勵、處分等進行關聯,并且實現任意相關檢索詞都可以查到相關檔案的功能,即一次檢索就可以查到某個學生的在校獎懲情況、成績、畢業信息等與該學生相關的所有信息,這樣可以快速的獲取學生的較為完整的信息集合,提高查找速度。再比如,我們還可以把學校教師的相關信息進行整合,將教師的個人信息與職稱、課題名稱、基金名稱、獎項、年齡進行關聯,并且將其申請課題基金的時間、級別以及基金號、等進行關聯,通過一次檢索,就可以查到某個教師的職稱、課題以及獲得哪些獎項,還可以利用數據挖掘技術將職稱和獲得人數相關聯,這樣我們可以很清楚的了解到我們學校教授人數、副教授人數、講師人數等,還可以統計出某個年齡段教授的人數、副教授人數等,以及各類職稱所占的比例和發展趨勢,另外還可以把課題級別和申請課題人數相關聯,結果可以發現教師申請國自然課題的教師比例逐年上升,申請市級以下的課題的反而有下降趨勢。由此可見,利用數據挖掘技術的分類和預測技術將信息資源進行整合和關聯后,不用手工檢索累計相加,就可以更加快速的獲得我們需要的結果,分類和預測技術的應用極大的提高了工作效率。
2.3 為優化館藏檔案信息資源提供便利
隨著檔案信息化建設的推進,海量傳統紙質檔案轉化為數字檔案,數據挖掘技術可以分析館藏的數字化信息、用戶數據庫、檢索數據庫、專題數據庫以及歸檔部門信息,從而了解學校的發展走向和用戶需求,確定數字化重點,優化館藏結構,運用聚類規則在歸檔單位信息和用戶信息中進行歸類,如教學獲獎類、專業設置類、人事任免類文件在歸檔部門中使用比較頻繁,研究生成績單在考研復試階段,查找使用的比較多等等,通過關聯分析檢索用戶數據庫,我們可以深入挖掘各個時間段的用戶需求,找準用戶在哪個時間節點哪些檔案使用較為頻繁,我們可以優先重點掃描使用相對頻繁的檔案,從而確定數字化掃描的方向和重點,使檔案館的數字化資源更加科學合理。
3 結束和體會
隨著信息化帶來的信息量的不斷增加,及對檔案信息提取的更高要求,數據挖掘技術在檔案信息服務中的應用有著巨大的潛力,本在分析數據挖掘概念及技術的基礎上,針對徐州醫科大學檔案館的特點,對數據挖掘技術在檔案信息管理中的具體應用進行了一定的探索,實踐證明,數據挖掘技術將給檔案信息服務帶來前所未有的機遇和挑戰。
【參考文獻】
[1]韓吉義.基于數據挖掘技術的高校圖書館檔案信息管理平臺的構筑[J].山西檔案,2015,06:61-63.
[2]王平,安亞翔.大數據時代的檔案信息平臺建設[J].檔案與建設,2015,10:8-13.
[3]王鐵牛.大數據檔案學國內研究現狀及研究方向分析[J].山西檔案,2015,03:107-110.