王 杰 黨勤華 朱曉東 吳振杰
(鄭州大學電氣工程學院,河南 鄭州 450001)
隨著數據庫技術的發展以及企業中生產設備自動化程度的提高,許多企業對生產過程中的重要設備都進行了監控。監控的各種狀態和數據形成大型數據庫,包括設備運行狀態的各種特征。但是由于數據本身的雜亂無章,致使數據庫包含的特征并不明顯[1]。數據挖掘(data mining)就是發現海量的數據中潛在的、有效的知識的過程。關聯規則(association rules)的挖掘作為數據挖掘技術中的重要組成部分,其目的就是尋找數據庫中事物和屬性之間的關系。
水泥工業在國民經濟中占據著不可動搖的地位,近些年已經取得了突飛猛進的進展。在水泥生產過程中,參數基本是通過各種儀表進行采集與顯示的,但具體的操作實現還需依靠操作人員積累的經驗來執行。操作經驗因人而異。本文正是通過模糊關聯規則挖掘技術,采用聚類方法對生產數據進行聚類劃分,并選取合適的支持度與置信度,獲取較為完備的生產操作信息,從而解決了專家經驗獲取的瓶頸,這也為水泥行業各個生產環節的溫度和壓力等的控制提供了理論指導。
關聯規則最早是由Agrawal等人提出的,它是數據挖掘研究的主要內容之一。并聯規則自提出之后,眾多學者對此進行了研究并提出了很多算法,比較典型的有 Apriori、FP-Tree、TreeProjiection以及各種方法的改進算法[2-3]。
關聯規則挖掘的兩個重要概念分別為支持度(support)和置信度(confidence),支持度表示規則在所有數據中的重要程度,置信度意味著規則可以信賴的程度。進行關聯規則的挖掘時,首先要確定最小支持度(minsup)和最小置信度(minconf),隨后挖掘出滿足最小支持度和最小置信度的規則。
由于客觀世界的多樣性和復雜性,使得對許多事物的描述需要使用模糊的概念。基于模糊概念表示的關聯規則就稱為模糊關聯規則。相對于傳統的布爾型關聯規則挖掘,模糊關聯規則的獲取得出的規則更貼近實際、更加準確,符合人們的思維習慣[4]。
設 T={t1,t2,…,tn}為一數據庫,I={i1,i2,…,im}為T中全部屬性的集合,vij為T中的i個記錄的第j個屬性的值,對于I中的每一個數值屬性ik,都有一個與之相聯系的模糊集。模糊關聯規則的形式表達為 <X,A>? <Y,B>,其中,X?I,Y?I,并且X∩Y=?,A和B分別為X和Y對應的模糊集,<X,A>表示X中屬性取A中相應的值。
對于任意模糊屬性集 X={y1,y2,…,yp},X 的模糊支持率為:

模糊關聯規則“X?Y”的模糊支持率定義為:

模糊信任度定義為:

聚類就是將一組對象分成若干個簇的過程。聚類后的結果使得每個簇之內的差異性最小,而簇與簇之間的差異性最大。聚類算法中比較經典的有K-means算法和FCM算法。K-means是一種硬聚類算法,FCM是一種模糊聚類算法。這兩種算法均存在需要事先給定聚類個數以及對初始聚類中心相當敏感的問題[5-6]。因此,針對此問題,采用將 K-means和 FCM 算法相結合形成KFCM算法,即利用K-means獲取聚類中心,以此聚類中心作為FCM算法的初始聚類中心,避免了在FCM算法的迭代過程中初始聚類中心的選取不當而造成分類錯誤的問題[7-8]。
對于 X={x1,x2,…,xn}?Rs的樣本點集合,KFCM算法的具體步驟如下。
① 確定聚類參數:聚類個數k、閾值ε。
②隨機選取k個對象作為初始聚類中心,根據相似度準則將數據分配到最接近的聚類中心,初始化隸屬度矩陣。
④上述步驟得出的k個聚類中心作為FCM的初始聚類中心 c(i)(i=1,2,…,k)。
相對于K-means和FCM,KFCM聚類方法分類的正確率較高。在實際應用中,面對大量的生產數據,采用該方法聚類將得出更為準確的結果。同時,利用KFCM作為模糊關聯規則挖掘的第一步,過程正確率較高,為獲取更加準確的規則提供了良好的基礎。
本文所采用的模糊關聯規則挖掘算法(mining fuzzy association rules,MFAR),具體描述如下[9-10]。
① 應用KFCM算法將數據庫數據T={t1,t2,…,tn}離散化,并將數據劃分為若干個模糊集等級;
②對于聚類后的數據,其隸屬度值構成一個新的數據庫;
③在新數據庫中計算所有的1-模糊屬性集的模糊支持率,得到1-模糊頻繁屬性集、組合1-模糊頻繁屬性集,得到2-模糊候選屬性集;
④計算所有的2-模糊候選屬性集的模糊支持度,刪除小于最小支持度的屬性集,得到所有的2-模糊頻繁屬性集并對其組合,得到3-模糊候選屬性集;
⑤查看3-模糊候選屬性集的子集,刪除含有不是2-模糊頻繁屬性集的3-模糊候選屬性集,計算剩余3-模糊候選屬性集的模糊支持度,刪除小于最小支持度的屬性集,得到3-模糊頻繁屬性集;
⑥采用同樣的方法得到k-模糊頻繁屬性集,從所有的模糊頻繁屬性集中生成不小于最小支持度和最小信任度的模糊關聯規則。
通過應用模糊聚類算法得到了數據歸屬于某一類的隸屬度值,之后選取合適的閾值,從而將變量的數量型屬性轉化為布爾型,進行關聯規則的挖掘。
本文的試驗數據來自于河南某水泥公司DCS系統采集的數據,數據量豐富,為數據挖掘提供了良好的數據資源。針對本文的研究目的,首先對采集的數據進行了篩選,挑選出與分解爐控制相關的因素,整理后形成新的數據庫。同時,調整參數形成有效的模糊關聯規則挖掘模型。
在本文的研究過程中,選用分解爐出口溫度作為關聯規則的后項輸出,根據現場工作人員對分解爐的控制經驗,選取與溫度控制相關的變量。選取的相關參數如表1所示。

表1 選取的相關參數Tab.1 Selection of related parameters
本文一共利用了五個主要相關變量作為關聯規則的前項條件,分別為三次風溫度、五級筒出口溫度、窯尾煙室溫度、預燃室溫度和分解爐喂料速度,并選取300個采樣點的數據進行研究。
在確定判斷參數之后,使用本文的聚類算法進行聚類劃分。數據被分為三類,分別取語言值為小、中、大,得出數據在各個類上的隸屬度值,并根據隸屬度值將初始的數量型屬性轉化為布爾型,從而可以使用關聯規則挖掘算法進行發掘。
選取的參數模糊集合如表2所示,表中S代表語言值“小”(small)、M 代表語言值“中”(middle)、B代表語言值“大”(big)。

表2 選取的參數模糊集合表Tab.2 Fuzzy set of the selected parameters
在規則挖掘過程中設置適當的閾值,大于該閾值的置1,反之置0,從而將規則轉化為布爾型。本文閾值設置為0.5,同時對于規則的獲取,若設置最小支持度為20%,最小置信度為40%,則可得出60條規則;若設置最小支持度為30%,最小置信度為50%,則可得出21條規則。挖掘的部分規則如表3所示。

表3 挖掘的部分規則Tab.3 Partial mining rules
從挖掘出的部分規則可以看出,規則的置信度都是比較好的,即得出的規則的正確性與可靠性較高。當規則為五級筒溫度大、預燃室溫度小時,推導出分解爐內溫度小,通過和現場專家經驗進行比較,表明得出的規則是正確的。
在規則的獲取過程中,由于閾值設置、算法支持度和置信度的不同,得出的規則會有不同,對于算法挖掘出的大量規則,需要進行進一步的篩選與調整。
本文采用基于模糊聚類的模糊關聯規則對水泥生產中分解爐溫度控制的大量歷史數據進行分析[11],通過使用模糊聚類KFCM算法,將分解爐溫度控制相關因素聚成若干個模糊類別,求出數據在類上的隸屬度值;然后運用MFAR算法對模糊化的現場分解爐溫度控制的相關參數進行分析,得到了符合實際專家經驗的模糊規則。
試驗表明,此模糊規則解決了實際工業中專家經驗獲取的瓶頸問題,也為實際溫度控制提供了理論依據,起到了生產優化的作用。
[1]胡鍇,徐巍華,渠瑜.改進模糊關聯規則及其在故障診斷中的應用[J].組合機床與自動化加工技術,2008(10):8 -12.
[2]譚華,謝赤,儲慧斌.基于模糊關聯規則的股票市場交易規則抽取[J].系統工程,2007,25(4):92 -97.
[3]Molina C,Sanchez D,Serrano J M,et al.Finding fuzzy association rules via restriction levels[C]∥IEEE International Conference on Fuzzy Systems,2009,Korea:1157 -1162.
[4]閆偉,張浩,陸劍峰.基于模糊聚類的模糊關聯規則在流程企業中的應用[J].計算機應用,2005(11):2676 -2678.
[5]陳鐵梅.模糊聚類在數據預處理中的應用研究[J].自動化儀表,2008,29(5):36 -39.
[6]陳壽文,李明東.一種混合均值聚類算法的實現[J].計算機工程與應用,2010,46(18):132 -134.
[7]汪軍,王傳玉,周鳴爭.半監督的改進K-均值聚類算法[J].計算機工程與應用,2009,45(28):137 -139.
[8]尹海麗,王穎潔,白鳳波.軟硬結合的快速模糊C-均值聚類算法的研究[J].計算機工程與應用,2008,44(22):172 -174.
[9]陸建江,張亞非,宋自林.模糊關聯規則的研究與應用[M].北京:科學出版社,2008:28 -39.
[10]鄒曉峰,陸建江,宋自林.基于模糊分類關聯規則的分類系統[J].計算機研究與發展,2003,40(5):651 -656.
[11]程志江,李劍波.基于遺傳算法的智能小車模糊控制系統的研發[J].自動化儀表,2009,30(8):4 -7.