呼日樂
摘 要:隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展和進(jìn)步,人們的生活水平質(zhì)量也逐漸提高。檔案管理方面也開始應(yīng)用計(jì)算機(jī)行業(yè)的數(shù)據(jù)挖掘技術(shù),來(lái)提高檔案管理效率,進(jìn)而推動(dòng)檔案管理行業(yè)的發(fā)展。本文將從數(shù)據(jù)挖掘概念及形式入手,分析并探討數(shù)據(jù)挖掘技術(shù)在檔案管理方面的應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);檔案管理;應(yīng)用
引言
數(shù)據(jù)信息在人們的日常生活中扮演著重要的角色。數(shù)據(jù)可以組成若干事件、物體,甚至能夠組成整個(gè)社會(huì)。其中,這些事件和物體之間也存在著錯(cuò)綜復(fù)雜的關(guān)系,而數(shù)據(jù)挖掘技術(shù)便是要從所有數(shù)據(jù)中找到關(guān)系所在,并根據(jù)這些關(guān)系直接推斷出來(lái)一些有價(jià)值且能夠直接使用的信息,而非僅僅通過一些片面的數(shù)據(jù)信息進(jìn)行定論。目前,檔案管理行業(yè)應(yīng)適應(yīng)社會(huì)發(fā)展,運(yùn)用數(shù)據(jù)挖掘技術(shù),使人們實(shí)時(shí)獲取所需信息,提高辦公效率。本文主要對(duì)檔案管理方面的數(shù)據(jù)挖掘技術(shù)的應(yīng)用進(jìn)行探討。
一、數(shù)據(jù)挖掘技術(shù)的形式
數(shù)據(jù)挖掘技術(shù)的形式分為描述型和預(yù)測(cè)型。描述型是從現(xiàn)有的數(shù)據(jù)使用描述行為描述出存在的規(guī)則,進(jìn)而發(fā)掘現(xiàn)有數(shù)據(jù)中更深層次的規(guī)律。預(yù)測(cè)型是從現(xiàn)有的數(shù)據(jù)中總結(jié)出共同點(diǎn),同時(shí)對(duì)未來(lái)即將發(fā)生的事件進(jìn)行預(yù)測(cè)。在數(shù)據(jù)挖掘技術(shù)的應(yīng)用場(chǎng)景中,通常使用分類法、關(guān)聯(lián)法和粗糙集法。
(一)分類法
分類法是數(shù)據(jù)挖掘技術(shù)的核心。分類的優(yōu)劣不僅關(guān)系著數(shù)據(jù)不同屬性的分析,而且會(huì)對(duì)數(shù)據(jù)質(zhì)量產(chǎn)生較大的影響。分類法的主要操作流程如下:首先,對(duì)數(shù)據(jù)庫(kù)中現(xiàn)有的數(shù)據(jù)根據(jù)不同屬性進(jìn)行分類。其次,對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行訓(xùn)練集和測(cè)試集的劃分,保證訓(xùn)練量足夠多,而測(cè)試量足夠的少。最后,對(duì)數(shù)據(jù)進(jìn)行測(cè)試,再根據(jù)不同屬性進(jìn)行二次分類。
(二)關(guān)聯(lián)法
關(guān)聯(lián)法在數(shù)據(jù)挖掘技術(shù)中不僅能夠?qū)ΜF(xiàn)有數(shù)據(jù)的相關(guān)性進(jìn)行詳細(xì)的分析,而且能夠精確描述出相關(guān)數(shù)據(jù)。該方法主要流程如下:首先,對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行詳細(xì)描述。然后把屬于同一屬性的數(shù)據(jù)結(jié)合,并分析其相同點(diǎn)。這種方法不僅提高了數(shù)據(jù)的準(zhǔn)確性,而且提升了整體工作效率。
(三)粗糙集法
粗糙集常用于研究不確定、不精確的知識(shí)。該方法在使用過程中需要注意以下幾點(diǎn):首先,使用前無(wú)需關(guān)注數(shù)據(jù)準(zhǔn)確性。其次,在使用中,即使出現(xiàn)異常數(shù)據(jù),也能夠及時(shí)發(fā)現(xiàn),并把處理過程中出現(xiàn)的數(shù)據(jù)干擾降到最低,同時(shí)能夠以最快速度總結(jié)數(shù)據(jù)規(guī)律,供查詢者使用。最后,在使用數(shù)據(jù)過程中會(huì)存在更大的不確定性,此時(shí)用粗糙集方法能夠改善不確定性,提高效率。
二、數(shù)據(jù)挖掘技術(shù)在檔案管理方面的應(yīng)用
目前,在信息高速發(fā)展的社會(huì),所有行業(yè)都追求更加高效、快速的辦公節(jié)奏,檔案信息管理行業(yè)也不例外。通過將數(shù)據(jù)挖掘技術(shù)應(yīng)用到檔案信息管理上,不僅能夠提高效率,改善檔案管理模式,而且能夠充分發(fā)揮檔案管理的價(jià)值。接下來(lái)將從以下幾個(gè)方面來(lái)詳細(xì)分析數(shù)據(jù)挖掘技術(shù)在檔案管理方面的應(yīng)用。
(一)檔案分類
檔案分類是指將所有檔案按照不同的屬性、功能進(jìn)行歸類,屬于同一屬性的檔案放在一欄,不屬于該屬性的檔案則放在另外一欄。如果使用人工分類的方法,不僅浪費(fèi)大量人力物力,還會(huì)造成一定的誤差,影響檔案分類的準(zhǔn)確性。因此,在檔案分類時(shí)可以采用數(shù)據(jù)挖掘技術(shù)中的決策樹。該方法能夠?qū)?shù)據(jù)庫(kù)的信息進(jìn)行詳細(xì)的分析,總結(jié)出一定的規(guī)則,并按照該規(guī)則對(duì)所有檔案進(jìn)行分類。決策樹的實(shí)現(xiàn)步驟如下:首先,構(gòu)建模型。在現(xiàn)有的數(shù)據(jù)庫(kù)中把已經(jīng)完成分類的數(shù)據(jù)篩選出來(lái),對(duì)這些數(shù)據(jù)使用數(shù)據(jù)挖掘技術(shù),構(gòu)建相應(yīng)的樹模型。其次,運(yùn)用模型。對(duì)上一步中未完成分類的數(shù)據(jù),使用構(gòu)建的模型進(jìn)行分類。通過使用決策樹方法,不僅方便查詢者以最快速度找到自身需要的數(shù)據(jù),而且能夠?qū)罄m(xù)添加的數(shù)據(jù)快速歸類。例如,查詢者可以通過注冊(cè)個(gè)人信息訪問檔案館,同時(shí)數(shù)據(jù)挖掘技術(shù)將對(duì)訪問者所有的瀏覽記錄進(jìn)行保存與分析,分析訪問者的個(gè)人信息、喜好等等,進(jìn)而推送出訪問者接下來(lái)要查詢的檔案。這種方法能夠在保證信息準(zhǔn)確性的前提下,提高訪問者的查詢速度和檔案館的服務(wù)質(zhì)量。
(二)檔案收集
基于數(shù)據(jù)挖掘技術(shù)的檔案收集是指對(duì)新的數(shù)據(jù)按照一定的規(guī)則進(jìn)行對(duì)比,如果符合則進(jìn)行歸入數(shù)據(jù)庫(kù)中的已有類別。具體過程如下:首先,建立模型。通過分析數(shù)據(jù)庫(kù)中的已有數(shù)據(jù),按照一定的規(guī)則建立模型。其次,使用該模型與新的數(shù)據(jù)進(jìn)行差異對(duì)比,如果測(cè)試模型符合上一步建立的數(shù)據(jù)模型,那么將該數(shù)據(jù)放在測(cè)試模型中按照一定的規(guī)則進(jìn)行歸類。例如,檔案管理者在網(wǎng)上發(fā)布課題讓使用者進(jìn)行調(diào)研,然后把使用者的個(gè)人信息以及調(diào)研結(jié)果依次輸入數(shù)據(jù)庫(kù)中進(jìn)行保存。如果后續(xù)有新的調(diào)研小組將調(diào)研情況存入數(shù)據(jù)庫(kù)中,數(shù)據(jù)挖掘技術(shù)將對(duì)該情況進(jìn)行詳細(xì)分析,以提高檔案管理的服務(wù)質(zhì)量和準(zhǔn)確性。
(三)檔案保留
檔案保留是指,重點(diǎn)關(guān)注老員工的檔案,將檔案流失的可能性降到最低。對(duì)于企業(yè)來(lái)講,培訓(xùn)新員工通常比聘請(qǐng)老員工付出的代價(jià)要高很多。因此,應(yīng)當(dāng)采用數(shù)據(jù)挖掘技術(shù),首先把已經(jīng)發(fā)生的檔案流失情況進(jìn)行收集,其次對(duì)所有檔案流失的原因進(jìn)行匯總并分析,然后針對(duì)這種現(xiàn)象采取相應(yīng)措施,降低檔案流失頻率。總之,數(shù)據(jù)挖掘技術(shù)的應(yīng)用,能夠讓檔案管理工作更高效、更準(zhǔn)確地執(zhí)行,促進(jìn)檔案管理行業(yè)的快速發(fā)展。
三、結(jié)束語(yǔ)
綜上所述,正是因?yàn)橛辛擞?jì)算機(jī)行業(yè)的快速發(fā)展,檔案管理行業(yè)才能夠應(yīng)用數(shù)據(jù)挖掘技術(shù),通過使用分類法、關(guān)聯(lián)法和粗糙集對(duì)檔案實(shí)行快速且準(zhǔn)確的管理。同時(shí),將數(shù)據(jù)挖掘技術(shù)運(yùn)用在檔案的分類、收集和保留中,能夠提高檔案管理的高效性,而且能推動(dòng)檔案管理行業(yè)的進(jìn)一步發(fā)展。
參考文獻(xiàn)
[1]蔣紅健.大數(shù)據(jù)挖掘管理與技術(shù)策略在高校檔案館中的應(yīng)用研究[J].山西檔案,2019(01):61-66.
[2]陳雪燕,于英香.從檔案管理走向檔案數(shù)據(jù)管理:大數(shù)據(jù)時(shí)代下的檔案管理范式轉(zhuǎn)型[J].山西檔案,2019(05):24-32.