摘要:本文旨在提出使用工作流為中型商業(yè)實(shí)體開發(fā)出適合其規(guī)模的數(shù)據(jù)挖掘軟件的思想,使用者能夠跳過冗長的建模及算法,使數(shù)據(jù)挖掘應(yīng)用能夠應(yīng)用到更加廣泛的商業(yè)領(lǐng)域中。
關(guān)鍵詞:數(shù)據(jù)挖掘工作流
中圖分類號:TP2文獻(xiàn)標(biāo)識碼:A文章編號:1672-3791(2011)02(b)-0070-01
數(shù)據(jù)挖掘技術(shù)逐漸在越來越多的商業(yè)決策中扮演重要的角色。
從應(yīng)用軟件的開發(fā)對象層面考慮,許多中小型企業(yè)并未有專業(yè)團(tuán)隊(duì)來管理并建立該公司的數(shù)據(jù)倉儲或從技術(shù)層面分析算法或調(diào)整參數(shù)。本文旨在為軟件開發(fā)商針對該用戶群提出使用工作流來開發(fā)面向應(yīng)用的軟件的思想。
1數(shù)據(jù)挖掘
1.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。
數(shù)據(jù)挖掘(Data Mining)從技術(shù)上講,就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。
簡而言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。現(xiàn)在,由于各行業(yè)業(yè)務(wù)自動(dòng)化的實(shí)現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于商業(yè)運(yùn)作而產(chǎn)生。分析這些數(shù)據(jù)主要是為商業(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤。因此,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。
1.2 數(shù)據(jù)挖掘一般流程
(1)定義主題。
確定用戶想要得到什么樣的信息。
(2)數(shù)據(jù)選擇。
從數(shù)據(jù)庫中抽取需要的數(shù)據(jù),建立數(shù)據(jù)cube等。確立數(shù)據(jù)倉儲的維度和粒度。常用方法有分區(qū)收集、減少數(shù)據(jù)噪音、剔除部分冗余數(shù)據(jù)等。
(3)分析數(shù)據(jù)。
對建立的數(shù)據(jù)倉儲進(jìn)行初步的分析和清洗,使其能夠勝任隨后的數(shù)據(jù)挖掘分析。常用方法有數(shù)據(jù)抽樣、數(shù)據(jù)轉(zhuǎn)換、缺損數(shù)據(jù)處理等。
(4)樣本生成。
建模樣本:為下個(gè)階段準(zhǔn)備測試樣本:對模型進(jìn)行修正和檢驗(yàn)。
(5)模型建立。
對數(shù)據(jù)進(jìn)行分析并利用各種數(shù)據(jù)挖掘技術(shù)和方法在多個(gè)可供選擇的模型中找出最佳模型,這個(gè)過程是一個(gè)循環(huán)迭代的過程,常用的分析模型主要有:決策樹、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等。
(6)模型的評估與檢驗(yàn)。
測試通過該模型所得到的結(jié)果是否為使用者所需要的結(jié)果。
(7)應(yīng)用模型。
2工作流
工作流(Workflow)就是“業(yè)務(wù)過程的部分或整體在計(jì)算機(jī)應(yīng)用環(huán)境下的自動(dòng)化”,它主要解決的是“使在多個(gè)參與者之間按照某種預(yù)定義的規(guī)則傳遞文檔、信息或任務(wù)的過程自動(dòng)進(jìn)行,從而實(shí)現(xiàn)某個(gè)預(yù)期的業(yè)務(wù)目標(biāo),或者促使此目標(biāo)的實(shí)現(xiàn)”。簡單地說,工作流就是一系列相互銜接、自動(dòng)進(jìn)行的業(yè)務(wù)活動(dòng)或任務(wù)。一個(gè)工作流包括一組任務(wù)(或活動(dòng))及它們的相互順序關(guān)系,還包括流程及任務(wù)(或活動(dòng))的啟動(dòng)和終止條件,以及對每個(gè)任務(wù)(或活動(dòng))的描述。
工作流在大多數(shù)的實(shí)際應(yīng)用中的情況可以這樣來簡單地描述:在網(wǎng)絡(luò)、服務(wù)器和多臺計(jì)算機(jī)客戶端的硬件平臺上,業(yè)務(wù)過程按照預(yù)先設(shè)定的規(guī)則并借助應(yīng)用程序和人對相關(guān)數(shù)據(jù)的處理而完成。
3自動(dòng)數(shù)據(jù)挖掘工作流
3.1 自動(dòng)工作流流程文字描述如下
(1)數(shù)據(jù)準(zhǔn)備。
針對原始數(shù)據(jù)庫,包含初步的數(shù)據(jù)抽取和清洗工作,為數(shù)據(jù)挖掘做好準(zhǔn)備。
(2)多模型建立。
選擇模型、對準(zhǔn)備后的數(shù)據(jù)進(jìn)行多個(gè)模型的建立。
(3)多模型測試。
對已建立的模型分別進(jìn)行測試。
(4)多模型結(jié)果比較。
(5)數(shù)據(jù)分析需求是否滿足。
得到滿足:應(yīng)用該結(jié)果到商業(yè)處理中。
未得到滿足:提交管理員處理,如擴(kuò)大數(shù)據(jù)源、擴(kuò)大模型選擇數(shù)量等。
3.2 工作流流程圖實(shí)現(xiàn)圖例
工作流流程圖實(shí)現(xiàn)圖例見圖1示。
4結(jié)語
在商業(yè)數(shù)據(jù)挖掘過程中,使用工作流來加強(qiáng)數(shù)據(jù)挖掘的自動(dòng)性和增強(qiáng)數(shù)據(jù)挖掘的智能化,從應(yīng)用軟件的開發(fā)對象層面考慮,對于眾多中小型企業(yè)來說,其并未有專業(yè)團(tuán)隊(duì)來管理并建立該公司的數(shù)據(jù)倉儲、從技術(shù)層面分析算法或調(diào)整參數(shù)。使用工作流來開發(fā)面向應(yīng)用的軟件,只需掌握少量數(shù)據(jù)挖掘知識的軟件管理人員,就能從其公司的數(shù)據(jù)庫中找出利于其發(fā)展的商業(yè)信息。
參考文獻(xiàn)
[1]韓家煒.數(shù)據(jù)挖掘?qū)д?
[2]Java Data Mining API 1.0, JSR 73.
[3]韓光臣,王軍強(qiáng),孫書棟.企業(yè)CRM與ERP系統(tǒng)信息集成[J].航空制造技術(shù).