劉 禹
(北京航空航天大學 計算機學院,北京 100191)
李德毅
(中國電子系統工程研究所,北京 100039)
正態云模型霧化性質統計分析
劉 禹
(北京航空航天大學 計算機學院,北京 100191)
李德毅
(中國電子系統工程研究所,北京 100039)
對于超熵較大情況下的正態云模型,說明了云模型霧化過程.通過統計分析云滴離散的整體趨勢,說明超熵增大過程中,云滴整體趨于離散.通過分析各論域區間內云滴離散趨勢,說明靠近概念核心的云滴的離散速度相對緩慢.歸納云模型霧化性質:在超熵取值持續增大的過程中(He>En/3),正態云表示的概念的論域范圍持續增大,呈霧化狀態,但靠近概念核心的論域區間內的云滴不失數量優勢.霧化性質適用于建模偏離正態分布、缺乏共識的定量數據,期望表示概念語義值核心,熵描述概念語義的離散程度,超熵表示各種語義的共識程度,擴展了云模型知識表示的應用范圍.
知識表示;不確定性;統計分析;云模型
知識表示一直是人工智能研究中的一個瓶頸,其難點在于知識中隱含有不確定性,即模糊性和隨機性.李德毅教授提出云模型[1],用一個統一的模型實現定性概念與定量描述之間的不確定轉換,已成功應用于數據挖掘[2]、系統評估[3]等領域.傳統應用中,超熵取值較熵小.在超熵變大的過程中,云滴分布會呈現明顯的離散趨勢,本文使用統計分析的方法,對云模型超熵變大過程中云滴分布規律進行分析,并將其定義為正態云模型的第 4個數學性質.
云模型使用 3個數字特征:期望 Ex、熵 En和超熵 He來表征定性概念,它們反映了定性概念 C的整體特性[4].
期望 Ex:云滴在論域空間分布的期望,是最能夠代表定性概念的點,反映這個概念的云滴群的重心.
熵 En:定性概念的不確定性度量,由概念的隨機性和模糊性共同決定,反映了概念外延的離散程度和模糊程度.
超熵 He:超熵是熵的不確定性的度量,即熵的熵,反映了二階不確定性,是對熵反映的不確定性的再描述.
可以計算求出任意一個云滴屬于這個概念的隸屬度,但是該隸屬度不是一個確定的值,而是一個具有穩定傾向的隨機數[4],正態云模型中,使用隸屬度 μ刻畫云滴對概念的貢獻.
云模型的示意圖如圖 1所示.

圖1 云模型示意圖
由云模型的定義及正態云發生器算法可知,從統計學角度,正態云模型具有 3點數學性質[4],3個數學特征說明:正態云模型 X的分布可以退化為正態分布,由于正態分布的普適性[4],應用云表示不確定概念時,往往采用較小的超熵,此時云接近于正態分布;正態云模型確定度 Y的分布與云的數字特征無關;正態云的幾何形狀特點明顯,存在云心曲線.然而,性質 1和性質 3均是在超熵He取值較小的情況下研究正態云模型特征.
超熵的存在使正態云模型區別于正態分布,He取值為 0時,離散的云滴勾勒出正態分布的形態;He取值較小時,云滴呈泛正態分布狀態;He取值較大時,云滴所呈現的形狀明顯區別于正態分布:外圍云滴更加分散,核心云滴出現明顯的集中趨勢,云的期望曲線不再明顯,將超熵取值較大時的云稱之為“霧”.隨著 He的變化,正態云由一個極端(正態分布)到另一個極端(充分離散)的變化過程稱之為霧化.

He>En/3時,部分云滴均逃離了兩曲線所夾范圍,見圖 2b.正態云的形態在 He=En/3時出現分界,可以將 En/3稱作正態云模型的霧化點,當He<En/3,云滴呈現泛正態狀態,He>En/3時,呈現霧化狀態.

圖2 霧化的形成過程
研究霧化狀態下正態云模型的云滴分布規律,可以考察正態云模型 X的分布.正態云模型中,所有云滴 x構成隨機變量 X.En'服從以 En為期望值,He2為方差的正態分布,X的概率密度函數沒有明確的解析形式[4],可采用統計分析方法研究正態云模型霧化狀態下云滴的分布規律.
定義 2.1 云論域區間 Cd.云論域區間分割了正態云所表示概念的論域范圍,若記云 C(X)中所有云滴的集合為 Drops={x|x∈ C(X)},則論域區間 Cd為云滴在 X軸上的投影(投影點與Ex的距離不大于 d)所構成的區域.對于二維正態云模型,如圖 3所示,論域區間可以看作以概念核心為中心,以變量 d為半徑的圓形.

圖3 二維正態云的論域區間
云圖中擁有無窮多個論域區間,論域區間的中心是云的期望,由于云滴的離散特性,不存在精確的最大論域區間(CT).在實驗過程中為了計算的可行性,對于一維正態云模型,可以近似地將最大論域區間定義為云滴最小值 min(Drops)到最大值 max(Drops)之間的直線距離.
定義 2.2 云密度.云密度用來表示投影在論域區間單位寬度或單位面積上的云滴數,一維正態云記為 ρ=Δc/Δd,二維正態云記為 ρ=Δc/Δs.ρ代表云密度,反映某個論域區間上云滴的密集程度;Δd(Δs)表示單位寬度(面積);Δc代表在Δd(Δs)之上的云滴個數.
由于云滴本身是離散的點,對一維正態云模型,統計 X的某一區間 A(A∈Cd)上的密度更有意義,可以近似地用投影在區間 A上的云滴個數與區間長度的比值來表示區間云密度,記為 ρA,而將云滴整體的平均密度記為 ρV.
實驗1
1)取數字特征 Ex=0,En=1,He=h,通過正態云發生器生成云滴(n=1000,h初值為 0);
2)計算云近似最大論域區間 CTi與云平均密度 ρVi,i初值為 0;
3)重復步驟 1)~2),i=i+1,5000次,得到正態云模型在 He為 h時的平均密度 ρVh;
4)變化參數 h,h=h+0.01En,重復步驟1)~3),分別計算出 He在區間[0,10En]上的近似最大論域區間和云密度.
實驗 1結果表明,隨著超熵的變大,云最大論域區間寬度呈線性增長趨勢,而云團的整體密度呈下降趨勢,下降過程中,隨 He變大,云密度下降趨勢趨于緩和.
本部分研究各個典型論域區間內的云密度變化情況,論域區間的選取仍舊沿用已有區間范圍和命名方式[4]:骨干區間 A[Ex-0.67En,Ex+0.67En],基本區間 B[Ex-En,Ex+En],外圍區間 C[Ex-2En,Ex+2En],弱外圍區間 D[Ex-3En,Ex+3En].
實驗2
1)取數字特征 Ex=0,En=1,He=h,通過正態云發生器生成云滴(n=1000,h初值為 0);
2)計算云滴 X投影于骨干區間、基本區間、外圍區間、弱外圍區間內的云滴數,從而得到各區間內的云密度 ρAi,ρBi,ρCi和 ρDi,i初始 0;
3)重復步驟 1)~2),5 000次,得到正態云模型在 He為 h時各區間密度的均值 ρA,ρB,ρC,ρD;
4)變化參數 h,h=h+0.01En,重復步驟1)~3),分別計算出 He在區間[0,10En]上各區間的區間密度.
表 1給出了實驗 2的具有典型代表性的部分結果.

表 1 論域區間密度變化表
從表 1實驗結果中可以看出:當 He<En時,隨著 He的增大,骨干區間密度 ρA沒有減小反而增大.當 He>En時,ρA呈現出減小的趨勢,此時才與云滴整體密度的趨勢相符合.基本區間與骨干區間有類似表現.外圍區間和弱外圍區間上的密度變化,在 He很小時達到峰值,在表 1中無法得到密度變大的過程,總體呈現出減小的趨勢,與云整體密度的變化趨勢相符合.結論如下:
1)考慮超熵變大整體過程,各區間內的云滴都呈現離散趨勢,但是不同區間內的云滴的離散速率不同;
2)越靠近概念核心(Ex),云滴密度越大,且在 He增大過程中,一直保持較外圍區間的密度優勢;
3)隨著 He增大,骨干區間和基本區間內的云滴會出現一個密度增大的過程,到達極大值后,呈下降狀態.
在霧化過程中,云滴呈現抱團特性,靠近概念核心區域內的云滴密度明顯高于外圍區間的云滴密度.
設云 Cloud(Ex,En,He),包括 N個云滴,在 X軸的投影落在區間[Ex-δ,Ex+δ]范圍的云滴個數為 m.有

據 3δ規則[4],得

據正態云發生器算法,得

顯然,m與投影區間范圍 δ相關,在使用云模型表示定性概念時,希望核心云滴數目最多,亦即取 δ=En,設 He=kEn,此時

通過數據擬合可以得到,k=0.98時,m取最大值.所以,在霧化過程中,當 He=0.98En時[Ex-En,Ex+En]區間內的核心云滴數量達到最大值.此時云模型適用于表示“難于形成共識的概念”:所謂“共識”,指的是觀察值存在明顯的多數核心;而“難于形成共識”是指在概念核心 Ex附近的區間之內,定量數據已經不再呈明顯的階梯型分布,彼此的數量十分接近,難分伯仲.雖然數據的核心不能由一個確定的取值來表示,但可以使用一系列接近的數值來表示,故仍舊稱之為“概念”.極端情況下,當樣本取值充分離散后,有限的定量數據已經不能夠形成定性概念.
已有的云模型應用,大多采用較小的 He,霧化特征的提出,豐富了云模型在知識表示領域的應用范圍.
在基于云模型的進化算法中,使用云模型的霧化性質,通過超熵可以控制期望附近云滴的比例和遠離期望的云滴的比例,從而達到定性控制進化方向的目的,而這種控制方法可以有效地保持基因(概念)的遺傳特性并體現變異特性,而不是片面地強調一方,使得進化算法可以達到大范圍、高精度的執行效果.實驗結果表明,應用云模型的霧化性質指導進化過程,可得高精度進化算法[5-6].
對于給定的定量數據集合,如果數據本身符合泛正態分布,使用逆向云發生器[4],可得到這些數據所代表的定性概念云描述.如果定量數據來源于隨機實驗結果,且數據量不夠大,即使客觀上符合正態分布,傳統的逆向云發生器算法不能有效地得到數據所表示概念的定性描述.基于云模型的分類算法[7]中,將云模型霧化性質與逆向云發生器相結合,對缺乏共識的定量數據可以采用擴大超熵的辦法進行表示.霧化性質的提出擴展了云模型知識表示的范圍.
例如:采用 Iris數據集[8],圖 4中給出了花瓣長度數據的云表示.圖 4a表示 setosa類型的鸞尾花的花瓣長數據,圖 4b表示 versicolor類型的鸞尾花的花瓣長數據.由柱狀圖可看出,setosa的花瓣長度統計接近正態,表示其分布接近于正態分布,可以使用云 Cloud(1.464,0.164,0.056)表示其花瓣長:花瓣長度分布在 1.464周圍,熵為0.164,且熵較為穩定(He=0.056);針對 versicolor鸞尾花,其花瓣長度比較接近,[3.8,5]區間內的花瓣長取值統計數量沒有明顯差異,樣本統計結果表示缺乏概念共識.此時可以使用Cloud(4.26,0.47,0.465)表示 versicolor的花瓣長,He取值較大且 He=0.98En,落在[4.26-0.47,4.26+0.47]區間內云滴數最多,最大限度地保證了靠近概念核心的樣本數量,使用霧化性質實現了對不同統計樣本的統一建模.

圖4 Iris數據集花瓣長度的云表示
本文使用統計學方法論述了正態云模型在超熵增大過程中的云滴分布特征,拓展了正態云模型的數學性質,可定義正態云模型的數學性質 4:在超熵取值持續增大的過程中(He>En/3),正態云表示的概念的論域范圍持續增大,呈霧化狀態,但靠近概念核心的論域區間內的云滴不失數量優勢.霧化狀態下的超熵反映了定量數據對定性概念的共識程度.正態云模型霧化性質的提出,為云模型在知識表示與定性-定量轉換方面的應用提供了新的思路和依據.下一步研究工作可將霧化性質應用于其他領域,充分驗證其在知識表示領域的有效性.
References)
[1]李德毅,劉常昱,杜鹢,等.不確定性人工智能[J].軟件學報,2004,15(11):1-13 Li Deyi,Liu Changyu,Du Yi,et al.Artificial intelligence with uncertainty[J].Journal of Software,2004,15(11):1-13(in Chinese)
[2]Wang Shuliang,Li Deren,Shi Wenzhong,et al.Cloud modelbased spatial data mining[J].Geographical Information Science,2003,9(2):67-78
[3]呂輝軍,王曄,李德毅.逆向云在定性評價中的應用[J].計算機學報,2003,26(8):1009-1014 LǜHuijun,Wang Ye,Li Deyi.The application of backward cloud in qualitative evaluation[J].Chinese Journal of Computers,2003,26(8):1009-1014(in Chinese)
[4]李德毅,杜鹢.不確定性人工智能[M].北京:國防工業出版社,2004 Li Deyi,Du Yi.A rtificial intelligencewith uncertainty[M].Beijing:National Defence Industry Press,2004(in Chinese)
[5]張光衛,李德毅,劉禹.基于正態云模型的進化算法[J].計算機學報,2008,7(7):1082-1091 Zhang Guangwei,Li Deyi,Liu Yu.An evolutionary algorithm based on cloudmodel[J].Chinese Journal ofComputers,2008,7(7):1082-1091(in Chinese)
[6]張光衛,康建初,李鶴松,等.基于云模型的全局最優化算法[J].北京航空航天大學學報,2007,33(4):486-490 Zhang Guangwei,Kang Jianchu,Li Hesong,et al.Cloud model based algorithm for global optimization of functions[J].Journal of Beijing University of Aeronautics and Astronautics,2007,33(4):486-490(in Chinese)
[7]Liu Yu,Chen Guisheng.Cloud model based classifier[C]//Luo Qi,Tan Honghua.2009 Internal Conference on Test and Measurement.Hong Kong:IEEE,2009:427-430
[8]Blake C L,Merz C J.UCI repository of machine learning databases[DB/OL].Irvine,CA:University of California,1998.http://www.ics.uci.edu/~mlearn/MLRepository.html
(編 輯:文麗芳)
Statistics on atomized feature of normal cloud model
Liu Yu
(School of Computer Science and Technology,Beijing University of Aeronautics and Astronautics,Beijing 100191,China)
LiDeyi
(China Institute of Electronics Engineering,Beijing 100039,China)
The cloud model atomization process was related to a larger hyper enctropy.Through statistical analysis of the overall trend of the cloud drops,the cloud drops dispersed over the course of hyper entropy increase.By analyzing the dispersion trend of cloud drops in each semantic ranges,it is indicated that the drops represent the core concept dispersed in a low speed.The atomization feature of the cloud model was summarized.The semantic range of the concept represented by the cloud model extended while the hyper entropy increased step by step.The cloud drops spread but the drops nearby the core semantic keep a high density.The atomization feature of the cloud model was used to model the data deviates from the normal distribution.A cloud with a large hyper entropy value represented the concept lack of consensus.Foreach parameter,the expectation stands for the core semantic value,the entropy represents the semantic range and the hyper entropy shows the degree of consensus of the different semantics ranges.The cloud model knowledge representation application range was extended.
knowledge representation;uncertainty;statistics;cloud model
TP 18
A
1001-5965(2010)11-1320-05
2009-10-21
國家基礎研究重點計劃資助項目(2007CB310803)
劉 禹(1980-),男,河北辛集人,博士生,liuyu8014@163.com.