收稿日期:2007-12-05;修回日期:2008-03-06
基金項目:國家自然科學基金重點資助項目(69835001)
作者簡介:楊炳儒(1943-),男,天津人,教授,主要研究方向為知識工程與知識發現(bryang_kd@yahoo.com.cn);宋澤鋒(1979-),男,博士研究生,主要研究方向為知識工程;侯偉(1981-),男,博士研究生,主要研究方向為知識工程;王映龍(1974-),男,博士研究生,主要研究方向為知識工程.*
(北京科技大學 信息工程學院, 北京 100083)
摘 要:在關聯規則的評價中,對評價參數的度量是參數在數據庫上的平均分布,無法刻畫參數在數據庫的局部分布;另一方面,評價參數也是有限的。為解決上述問題,首先給出評價關聯規則的五個參數及參數選取的原因分析;然后給出分庫方案及其分庫上的挖掘算法,通過分庫挖掘算法獲取各參數在分庫上的參數值。對獲取的參數值,利用擴散原理計算參數在數據庫上的分布,通過分布實現對規則的評價和取舍,從而實現關聯規則的自動評價和取舍,以及最大程度的自動知識獲取,并具有實時查詢特性。
關鍵詞:關聯規則;信息擴散原理;參數演化;知識發現
中圖分類號:TP311
文獻標志碼:A
文章編號:1001-3695(2008)10-2965-05
Research onauto-evaluation of association rules
based on information spreading theorem
YANG Bing-ru,SONG Ze-feng,HOU Wei,WANG Ying-long
(School of Information Engineering, University of Science Technology Beijing, Beijing 100083, China)
Abstract:Regarding evaluation of association rules, existing measurements are based on even distribution of parameters in database, which can not describe the local situation of parameters. Furthermore, few parameters are used in traditional me-thods. This paper proposed five parameters for evaluating association rules as well as analysis of them at first. Then proposed partition schemes of database as well as corresponding mining algorithm. Values of parameters in different sub-database can be got by using the mining algorithm based on partitioned database. Finally, got distribution of different parameters in sub-database by using information spreading theorem.These kinds of distribution can be helpful to evaluation and selection of rules. Thus auto-evaluation,selection and real-time query are realized to certain extent.
Key words:association rule; information spreading theorem; parameter evolution; knowledge discovery
0 引言
近年來,隨著數據獲取和數據存儲技術的快速發展,各種數據庫、數據集市和數據倉庫中存儲的數據量飛速增長。如何從這些海量數據中提取出有用的知識呢?數據庫中的知識發現(knowledge discovery in database, KDD)的出現,為人們提供了一條解決這種數據豐富而知識貧乏困境的有效途徑[1]。KDD誕生于20世紀80年代末,是數據庫、機器學習、統計學、人工智能、并行與分布式計算等多學科交叉的產物。目前,KDD成為學術研究的熱點[2],已應用到許多科學與工程領域[3]。
知識發現的目的是從數據中發現不為人所知、新穎的知識[1]。但在關聯規則挖掘過程中[4],得到頻繁項集 (frequent itemset)后形成規則時,由于評價規則的標準是規則的支持度和可信度,導致大量的規則出現。這樣一來就存在以下問題:規則(知識)太多對于人們來說無法理解,實際上等于沒有規則(知識);在這些大量的規則中,很多規則實際上是大家不需要通過挖掘就已經知道的,也就是這些知識不是新穎的,不是人們所期望的知識,是無用的知識,難以滿足實時性要求。為了過濾掉一些無用的知識,有一些學者提出了一些評價有用知識的標準[5~7],通過這些標準過濾掉大部分無用的知識,從而達到能夠從數據庫中挖掘出真正有用的知識。但是這些方法是在挖掘出頻繁項集后,由頻繁集生成規則的過程中進行評價的,在生成過程中實現對規則的取舍。在這種實現方法中,由于規則的評價標準(支持度和可信度等)是整個數據庫上的一種平均評價標準,這種平均評價標準不能很好地反映規則的局部特性,即評價規則的標準在整個數據庫上的真實分布,所刻畫的只是評價規則的標準在整個數據庫上的一種平均分布;另一方面,無論數據庫多大,從數據庫中提煉出的知識都是對真實知識的一種近似刻畫,即對真實知識的逼近。
信息擴散原理[8]是一種在樣本不足的情況下對樣本應遵循的規律進行認識的模糊數學處理方法。目前關于規則評價方法的專門研究極少,大多是由專家參與評價和進行可視化分析,這樣就受到專家經驗和可視化工具的限制,屬于感性的評價和定性的分析,帶有很多人為的因素,在很大程度上帶有主觀性、片面性和局限性。在這樣的研究背景下,本文提出一種基于信息擴散原理的關聯規則自動評價方法,提出的自動評價方法利用知識(規則)的可計算參數進行評價,并由信息擴散原理彌補了參數相對不足的缺陷,得到規則參數的概率分布信息,據此客觀地展現規則特征,從而實現規則評價和取舍。
1 評價關聯規則所選用的參數
11 相關性檢驗
支持度——可信度框架可能會產生誤導,因為強關聯規則并不一定是感興趣的。在客觀感興趣度量中,還需要考慮項集之間的相關性。如果關聯規則前件和后件是不相關的,即使規則支持度和可信度很高也不能被用戶接收為感興趣的關聯規則。真正有意義的關聯規則是前件和后件具有正相關的那些規則。
規則前件A和規則后件B的出現之間的相關性通過計算corrA,B=P(A∪B)/[P(A)P(B)](1)來度量。如果式(1)的值小于1,則A的出現與B的出現是負相關的;如果結果值大于1,則A和B是正相關的,意味著每一個的出現都蘊涵另一個的出現;如果值等于1,則A和B是獨立的,它們之間沒有相關性。從式(1)可以看出,基于AB規則計算得到的A與B的相關性和基于規則BA計算得到的B與A的相關性相等,所以相關性的值不能區分規則AB和BA間的重要性。
12 充分性因子
在研究中發現,主觀Bayes方法中的伴隨規則存在的參數——充分性因子LS,可以移植到數據挖掘的研究中,作為規則的一個參數表達其他參數無法表達的規則的特征[9]。在主觀Bayes方法中,每條規則的表示形式是
if Athen(LS,LN)B(P(B))
定義 1 LS∈[0,+∞) 稱為充分性因子,它反映了證據A為真對結論B的影響程度。LS表示如下:LS=P(B|A)×(1-P(B))/[P(B)×(1-P(B/A))](2)其中:P(B)是B的先驗概率,在關聯規則中就是后件B的支持度;P(B|A)是規則的可信度,也可以表示為P(A∪B)/P(A),P(A∪B)是規則的支持度。P(A)是規則前件A的支持度,P(A)、P(B)、P(A∪B)、P(B|A)都可以從數據庫中計算得到,避免了在主觀Bayes方法中先驗概率需由領域專家給出的難點問題的產生。從式(2)中可以看出LS的意義:
當LS=1時,P(B|A)=P(B),這表明A與B無關;
當LS>1時,P(B|A)>P(B),這表明由于A所對應的證據存在,增大了B為真的可能性;
當LS<1時,P(B|A)<P(B),這表明由于證據A的存在,將導致B為真的可能性下降;
當LS=0,P(B|A)=0,這表明由于證據A的存在,將使B為假。
本文首先給出評價關聯規則的五個參數及參數選取的原因分析;然后給出分庫方案及其分庫上的挖掘算法,通過分庫挖掘算法獲取各參數在分庫上的參數值。對獲取的參數值,利用信息擴散原理計算參數在數據庫上的分布,通過分布實現對規則的評價和取舍,從而實現了關聯規則的自動評價和取舍,以及最大程度的自動知識獲取,并具有實時查詢特性。
由上述討論可以看出:只有在LS>1的情況下,即P(B|A)>P(B)時,由于A所對應的證據存在,增大了B為真的可能性;有用的關聯規則的LS都應該大于1,此時從式(1)可以看出corrA,B也大于1。也即只有關聯規則的可信度P(B|A)大于先驗概率P(B),才說明A的出現對B的出現有促進作用,也說明了它們之間有某種程度的相關性。反之,如果充分性因子LS不大于1,也即corrAB也不大于1,則此關聯規則也就沒有意義了,可以刪除。
充分性因子不僅具有判斷A、B相關性的功能,也能描述規則的條件對結論影響力的大小。充分性因子越大說明結論受條件的影響越大,這是相關性corr不具有的性質,所以在后面的分析中采用功能更全面的參數LS代替corr。采用新參數LS的目的在于區分規則AB和BA,從而在兩者中選擇更合理的規則,刪除另一條規則。此舉的優勢在于:自動精減知識庫,減少領域專家的工作負擔;在形成規則、進行可信度計算前,減少將要形成的規則量,進而降低后續計算可信度、與最小可信度對比和評價的工作量。
13 評價關聯規則所選用的參數
在上文的討論中可以看出,規則支持度、可信度和相關性是伴隨規則存在的常用參數,本文將用充分性因子代替相關性。除這三個參數外,規則前件支持度和后件支持度能夠體現前、后件支持度的發展趨勢,并且后件支持度是前三個參數不能涵蓋的一個參數,所以在對關聯規則的分析中本文最終選擇五個參數:規則支持度(記為Sr)、規則可信度(記為Cr)、規則充分性因子(記為LS)、規則前件支持度(記為SA)、規則后件支持度(記為SB)。至此,五個參數全面地涵蓋了規則的前件、后件、規則自身及前件與后件關系等方面的信息,并能完成規則取舍的操作。
2 分庫方案及其在分庫上的算法
21 基本概念及分庫方案
本文中僅稱通過數據挖掘算法得到的規則為規則,記做AB。
在知識發現過程中伴隨每一次挖掘總會有一些參數存在,這些參數是依特定的、公認的定義從數據庫中與規則有關的數據上實時計算得到的。它們具有特定的含義,能夠從不同的角度刻畫規則的特征,稱此類參數為規則參數。
定義 2 在數據量不斷增加的歷史進程中,可以計算得到規則同一參數的若干個值,以時間為序排列它們,得到一個參數值序列,這個序列具有上升、下降、平行和波動四種演化趨勢,稱此為參數演化。
為得到規則支持度、規則可信度、規則充分性因子、規則前件支持度、規則后件支持度等參數值序列,給出如下的分庫方案。
方案1 trac_timei 表示事件發生時間(i=1,2,…,n), 時間T=[trac_time1, trac_timen] ,Ti =[trac_time1, trac_timei], 并且對任意i≠j(i,j=1,2, …,n),如果i 在這里并不強調一定采用方案1給出的分庫方案,針對沒有時間屬性的某些非商業數據庫(往往是多值型的),提出如下方案2。 方案2 將DB邏輯地分成n個DBi ,滿足條件,當i 采用上述分庫方案是為了在子庫中可以沿用原支持度、可信度及充分性因子的定義。 22 分庫上的挖掘算法 為了提高規則的挖掘效率,本節給出分庫上的挖掘算法。 無論方案1還是方案2的分庫方法滿足當i 記DBi=DBi-DBi-1(2≤i≤n), DB1=DB1。已知DBi上的大頻繁集,輸出DBi+1上的大頻繁集。 a)求出DBi+1上1項頻繁集為FI1i+1(0≤i≤n-1)及其支持度。 b)從FI1i+1出發挖掘DBi+1上的所有頻繁集記為FDBi+1(0≤i≤n-1)及其相應支持度,記DBi上的所有頻繁集為FDBi(1≤i≤n),記NFDBi=FDBi+1-FDBi,記NFDBi+1=FDBi-FDBi+1。掃描DBi庫求出NFDBi中所有項集的支持度, 掃描DBi+1庫求出NFDBi+1中所有項集的支持度。 FDBi+1={FDBi∩FDBi+1}。 c)對x∈NFDBi,計算:supDBi+1(x)={supDBi+1(x)×|DBi+1|+supDBi(x)× |DBi|}/{|DBi+1|+|DBi|} 若supDBi+1(x)(x在DBi+1庫中的支持度)大于最小支持度,則FDBi+1=FDBi+1∪{x},NFDBi+1=NFDBi-{x}。 d)對x∈NFDBi+1,計算:supDBi+1(x)={supDBi+1(x)×|DBi+1|+supDBi(x)× |DBi|}/{|DBi+1|+|DBi|} 若supDBi+1(x)≥min sup,則FDBi+1=FDBi+1∪{x},NFDBi+1=NFDBi+1-{x}。 e)記NFDBNi+1=NFDBi∪NFDBi+1表示DBi+1庫中非頻繁集。 集合NFDBNi+1中的元素在DBi庫中或DBi+1庫中是頻繁項目集。 其支持度已由式(3)計算出,低于給定的最小支持度。在這里產生的意外規則才最有可能是真正的意外規則。因為若一項集在每一分段DBi庫上都是非頻繁的,其結果在整個數據庫上自然是非頻繁的。但由這樣的非頻繁集產生的意外規則就沒有什么意義了,而這一類非頻繁集在上述算法中是不可能產生的。 算法說明:上述算法避免了在重復的數據部分挖掘,提高了算法的執行效率。假設A和B是兩個同質數據庫,要得到A和B庫上的大頻繁集,可轉換為先挖掘A和B上的大頻繁集(基于同一最小支持度), 這時在A中頻繁集可能是B中的大頻繁集,也可能不是;B中的頻繁集也具有同樣的性質,但是若一項集分別在A和B中都是非頻繁,則在A并上B這個大數據庫中一定是非頻繁的。現在只需計算分別在A和B中有且僅有一個數據庫中是頻繁的項集在A并B這個大數據庫中是否是頻繁集,計算公式由式(3)給出。這一算法具有如下優點:將大數據庫分段進行挖掘,既得到了整個數據庫上的頻繁集,效率又很好,避免了海量數據庫挖掘時內外存的大量時間開銷(數據量太大,內存一次讀不完,要分幾次讀,這樣對計算機造成大量的內外存時間開銷,從而使算法效率不高);這一算法可并行實現,為滿足實時性要求提供了可能性; 分段挖掘后,最有意義的意外規則在NFDBNi+1產生。因為NFDBNi+1中的項集是非頻繁的,但它在某個分段庫上又是頻繁的,這就刻畫了這些意外規則的動態變化,同時在FDBi(1≤i≤n)中的時刻I(只需同時調用規則生成算法)可為用戶提供有用的規則,滿足了實時性要求。 假設DBi上規則形成后,可由相應的支持度算出各參數的參數值序列。這樣就可以利用信息擴散原理對關聯規則進行評價和取舍。 3 基于信息擴散原理的關聯規則自動評價方法 信息擴散原理是一種在樣本不足的情況下對樣本應遵循的規律進行認識的模糊數學處理方法。由于計算量和計算資源的限制,不論怎樣加大計算量,增大計算的開銷,通過分庫的手段計算得到的關聯規則的各項參數(規則支持度、規則可信度、規則充分性因子、規則強度等)的參數值總是離散的數值。雖然每一個數值是確定的,但由這些離散的數值仍不足以對參數整體的分布得出確切的認識,這就是信息不充分。此時,每一個信息的出現都隱含著一種過渡趨勢,這是由于已得到的信息并非必然要出現所造成的,而且這種過渡性由于不存在大量的信息而相互抵消。筆者不應把每一個信息看做一個孤立的點,而應看做具有一定影響區域但程度有所變化的模糊信息。每一個樣點都只充當“是周圍未出現樣點的代表”的角色,而“周圍”的邊界是不清楚的、模糊的、富有彈性的,所以每一個樣點所提供的包括周圍影響在內的信息總體是一個模糊信息。 本節提出的自動評價方法可在領域專家不介入的情況下,利用知識(規則)的可計算參數進行評價;并由信息擴散原理彌補參數相對不足的缺陷,得到規則參數的概率分布信息,據此客觀地展現規則特征,從而實現規則評價。 31 信息擴散原理 信息擴散原理:設W={w1,w2,…,wm}是知識樣本,V是基礎論域,設wj的觀測值為vj,設x=φ(v-vj),存在函數μ(x),使vj獲得的量值為1的信息可按μ(x)的量值擴散到v去,且擴散所得的原始信息分布:Q(v)=∑mj=1μ(x)=∑mj=1μ(φ(v-vj))能更好地反映W所在的總體規律[8]。 32 求解控制點概率 設基礎論域為U={u1,u2, …, un},u1, u2 ,…, un為控制點。令q(ui)=fm(ui)=1/(2πmh)∑mj=1exp[-(ui-vj)2/(2h2)](3) 式(3)的物理意義是:m個觀測樣本v1,v2, …, vm將其所攜帶的信息擴散給U中的一個控制點ui(i =1,2,…,n)的信息量總和。 式(3)中h為擴散系數,可根據樣本集合中樣本的最大值b、最小值a和樣本個數m來確定: h=1423 0(b-a)/(m-1) m<10 1420 8(b-a)/(m-1) m≥10(4)再令Q=∑mi=1q(ui)(5) 式(5)的物理意義是:由觀測樣本集合{y1,y2, …,ym},經信息擴散,將信息擴散給控制點的信息總量。 易知p(ui)=q(ui)/Q就是樣本落在ui處的頻率值,可以作為概率的估計值。 p(u≥ui)=∑nk=ip(uk)是超越ui的概率值。那么通過p(u≥ui)就可以得到大于用戶給定最小參數值(如min_sup, min_conf)的規則參數的概率。 假設在基礎論域內取n個控制點,通常由用戶給定規則的最低指標值,用于規則挖掘,相應參數大于等于這一指標的規則在挖掘過程中被保留,如min_sup、 min_conf等,記為minva-lue,它應該被取為控制點之一。假設minvalue是第i個控制點,那么Pminvalue=(n-i+1)/n的物理意義是超載minvalue時至少應達到的概率值,稱Pminvalue為ui的對比概率值。當p(u≥ui)≥Pminvalue時,規則保留;否則規則舍棄。 33 規則的自動評價與取舍算法 輸入:用戶感興趣的n個控制點和某一規則; 輸出:在n個控制點上的概率估計值。 a) 將挖掘數據庫邏輯地分成m個子庫,分庫方法依據第3章中所述方法進行; b)for j:=1 to m v[j]:=調用函數countfromDB(子庫j); // v[j]表示某一規則在子庫j上某一參數值 c)for j:=2 to m if v[j]≥v[j-1] then b:=v[j] else b:=v[j-1]; d)for j:=2 to m if v[j]≤v[j-1] then a:=v[j] else a:=v[j-1]; e)代入m,a,b,根據式(4)求h; f)讀入用戶感興趣的n個控制點值,置入u[i]; g)for i:=1 to n 根據式(3)求qu[i]; h)Q:=0 i)for i:=1 to n Q=Q+qu[i]; j)for i:=1 to n Pu[i]:=qu[i]/Q; k)求p(u≥ui)和Pminvalue l)if p(u≥ui)≥Pminvalue 保留規則 else 刪除規則; m)結束。 上述算法命名為基于信息擴散原理的關聯規則參數判別算法,簡稱PEA。 函數countfromDB(子庫i)的作用是從子庫中計算得到規則的參數樣本值。 34 例子 設支持度的基礎論域U={0,01,02,03,04,05,06,07,08,09,1}。其中,0~1的11個數取為控制點,也就是說,筆者關心在U所涵蓋的11個點上支持度的分布情況。那么,如果用戶對其他點上支持度的概率值感興趣,同樣可以選擇感興趣的控制點。但在參數的估計中,某一點上的概率值并不具有多大的意義,用戶最終關心的是在以往的歷史中,規則支持度大于等于某值的概率分布情況,尤其是大于等于用戶給定的最小支持度的概率有多少。 假設經分庫計算得到某一規則在分庫上的支持度觀測樣本值依次為0.3,0.5,0.1,0.6,0.8,0.4,0.3,0.8,0.9,0.7,0.36,0.4,0.6,0.8,0.9的15個值。依規則的自動評價和取舍算法求出某規則的支持度在各控制點的概率如表1所示。 假設規則的最小支持度為07,支持度大于等于07的概率為0.412=0.114+0.148+0.114+0.036;小于0.7的概率為0.588=1-0.412。 Pminvalue=(11-8+1)/11=0.363 6。0.412大于0.363 6的意義在于,相對平衡狀態來說,支持度在大于等于0.7的值域上的分布小于0.7的值域上的分布,此時規則被保留。這一規則的其他參數的評估可類似進行。 表1 支持度的概率估計值支持度概率支持度概率支持度概率00.0150.40.1430.80.1480.10.0370.50.1060.90.1140.20.0540.60.10410.0360.30.1240.70.1144 實例驗證 本文提出的規則評價方法在基于蘑菇數據庫挖掘得到的規則集上進行了驗證。該數據庫共有記錄8 124條,記錄了蘑菇的帽子形狀、帽子的顏色、頸的形狀、頸的顏色、氣味、生存環境、是否有毒等23種屬性,每種屬性有2~12個枚舉值。本文利用KDD*SS通用數據挖掘軟件系統挖掘規則[10]。該系統的特點是挖掘得到的規則已經過相關度計算。 下面對挖掘得到的規則5630進行分析,規則表達式如下: if bruises? Is bruises then gill-spacing close(supp=0.402,conf=0.968,corr=1.155) 分庫數為40,圖1是規則5630經過分庫挖掘算法挖掘后展示給用戶的界面,它展示了子庫1~10的數據;圖2展示了子庫31~40的數據。 隨著算法的挖掘進程,各個子庫累加進行計算,各模式的支持度逐漸趨于真實值,值得注意的是,在這一過程中,用戶可根據需要在任意時刻提出查詢,以獲得已挖掘子庫中的知識規則,從而達到實時查詢的目的。圖3所示為算法各階段挖掘情況。可以看出隨著分庫體積的增加,挖掘結果趨于穩定。 從圖中可以看出規則5630的可信度很高,規則的充分性因子大于1,規則前件支持度始終小于規則的后件支持度。從這些方面看,這是一條表現良好的規則,但美中不足的是規則的支持度在挖掘規則的那一刻較低,從變化趨勢看,它也是波動的。用信息擴散的評價方式繼續分析規則的支持度,為了能更精細地觀察,控制點的個數選為41個, 如圖4~9所示。 從圖4~9可以看出,小于0.625的控制點根據信息擴散評價方法計算得到的概率值p(u≥ui)均大于對比概率值Pminvalue;大于0.625的控制點的概率值p(u≥ui)< Pminvalue,即如果min_sup≤0.625, 規則將被保留;反之,規則將被刪除。 為了能使讀者更好地看到信息擴散評價方法的效果,實驗程序做成了以上展示概率值的形式。本程序還可以做成自動取舍規則的形式,從而達到本項研究中力求達到的自動評價的功能。實際做法是:a)控制點的選取可以采用兩種方式。一種是用戶給出控制點個數,程序均分基礎論域,計算得到控制點,并將min_value值作為一個控制點插入控制點集的合適位置;另一種選擇方式是由用戶指定控制點。b)程序在后臺自動對比p(u≥ui)和Pminvalue,前者大于等于后者,規則保留;否則舍棄。 為進一步驗證本方法的有效性,首先將關聯規則方法應用到電解鋁生產領域,得到742條規則,領域專家依靠自身經驗對該規則集進行了分析,并從中選取了64條最具實用價值的規則;在此基礎上,應用信息擴散評價方法對原始規則集進行分析選取,在其選出的92條規則中包含了領域專家選擇的59條,命中率達92%。這進一步表明本方法能夠有效縮小待驗證規則集合,并準確選擇出有價值的規則。 5 結束語 在關聯規則的評價中,對評價參數的度量是參數在數據庫上的平均分布,無法刻畫參數在數據庫的局部分布;另一方面,評價參數也是有限的,而信息擴散原理則是解決參數相對不足的一種有效工具。為解決上述問題,本文首先給出評價關聯規則的五個參數及參數選取的原因分析;為能刻畫規則各參數在數據庫上的局部分布特性和得到各參數的樣本觀測值,給出分庫方案,同時為提高數據挖掘算法的效率,給出了分庫上的挖掘算法,該算法具有實時查詢特性。通過分庫挖掘算法獲取各參數在分庫上的參數值。對獲取的參數值,利用擴散原理計算參數在數據庫上的分布,通過分布實現對規則的評價和取舍并給出規則的自動評價和取舍算法,從而實現了關聯規則的自動評價和取舍,最大程度上實現知識獲取的自動化。最后給出實例說明本文的算法。本文提出的基于擴散原理的規則自動評價和取舍方法為關聯規則的后處理研究提供了一個新的處理方法。該方法是從數據本身來討論規則的評價與取舍問題,減少了領域專家的參與,從而最大程度地實現了自動知識獲取。 參考文獻: [1]FAYYAD U, PIATETSKY-SHAPIRO G, SMYTH P. From data mi-ning to knowledge discovery in databases[J]. AI Magazine, 1996, 17(3): 37-54. [2]PIATESKY-SHAPIRO G. Knowledge discovery in database: 10 years after[J]. SIGKDD Explorations, 2000,1(2) : 59-61. [3]HAN Jia-wei, ALTMAN R B, KUMAR V, et al. Emerging scientific applications in data mining[J]. Communications of the ACM, 2002,45(8): 54-58. [4]AGRAWAL R, LMIELINSKI T, SWAMI A. Mining associations between sets of items in massive databases[C]// Proc of the ACM-SIGMOD 1993 International Conference on Management of Data. Wa-shington DC:[s.n.], 1993:207-216. [5]TAN Pang-ning, KUMAR V. Interestingness measures for association patterns: a perspective[C]//Proc of the Special Workshop on Post-processing, the 6th ACM SIGKDD International Conference on Know-ledge Discovery and Data Mining (KDD’2000). Boston, MA:[s.n.], 2000. [6]LIU Bing, MA Yi-ming, LEE R. Analyzing the interestingness of association rules from the temporal dimension[C]//Proc of IEEE International Conference on Data Mining (ICDM-2001). Silicon Valley, CA:[s.n.],2001. [7]YANG Bing-ru, QI Yan-xia. The evaluation method for causal rules in KDD*[C]//Proc of ICAI’2001. Las Vegas:[s.n.] 2001:1232-1238. [8]黃崇福. 模糊信息優化處理技術及其應用[M]. 北京:北京航空航天大學出版社,1994. [9]楊炳儒,孫海洪,熊范綸利用標準SQL查詢挖掘多值型關聯規則及其評價[J]. 計算機研究與發展,2002,39(3):307-312. [10]YANG Bing-ru. A driving force of knowledge discovery in database main stream-double bases cooperating mechanism[C]//Proc of ICAI ’02. Las Vegas:[s.n.], 2002.