分布輪廓與局部特征融合的云模型不確定性相似度量

2022-04-21 02:05:32王國胤

電子與信息學報 2022年4期

關鍵詞：概念特征方法

代勁胡彪王國胤*③ 張磊

①(重慶郵電大學計算智能重慶市重點實驗室重慶 400065)

②(重慶郵電大學軟件工程學院重慶 400065)

③(重慶郵電大學旅游多源數據感知與決策技術文化和旅游部重點實驗室重慶 400065)

1 引言

不確定性是客觀世界的真實存在，直接導致作為信息加工與知識獲取的人類認知過程具有顯著的不確定性特點。此外，從視知覺拓撲結構和功能層次來看，人類認知還存在“整體優先”(全局認知優于局部特征)特點[1]，通過大范圍優先策略形成對目標的快速判斷，并不需要大腦進行精確的、深層次的定量分析，一定程度上加劇了認知的不確定性。因此，隨著海量數據分析與挖掘任務的急劇增長，研究不確定性知識的表達、處理，尋找并且形式化地表示不確定性知識中的規律性，讓機器模擬人類的認知過程，使其具有智能，成為當前人工智能領域的研究熱點[2,3]。

概念是知識表達的基本組成，認知的不確定性也不可避免導致概念存在較大的不確定性。其中隨機性和模糊性是不確定性的最基本內涵，而對應的概率論[4]、模糊集[5]、粗糙集[6]等理論模型在實踐應用中都存在一些不足。例如，在模糊集合中，隸屬度通常是依據專家的先驗知識給定的，具有較強的主觀性；在概率論中，最基本的假設是排中律，但自然語言中的概念則未必滿足該假設；在粗糙集中，還存在著過擬合難題，導致數據挖掘效率不高。究其原因，以上理論對于認知的不確定性理解還存在一定的片面性[7]。在概率論和模糊數學基礎上，云模型[8]從概念的隨機性和模糊性角度綜合進行不確定性分析，建立了定性模糊概念與定量精確數據的雙向轉換模型，較好地解決了概念的不確定性表示及轉換，廣泛應用于決策分析、智能控制等領域[9–12]。作為云模型的重要研究內容，基于云模型的不確定性相似度量(簡稱相似度量，以下同)也越來越受到學者重視。例如在決策系統評估中，運用云相似性度量給出的結果更符合人的認知[13]；在協同過濾推薦系統中，基于用戶喜好的相似度量可有效提高推薦的精度[14]。

現有的云模型相似度量方法主要集中在基于精確數值的量化計算或基于云模型本身的形狀特征方面，度量結果具有較大的片面性，不能充分體現云模型的隨機性與模糊性特點，需要將兩者進行綜合考慮?；诖怂悸?，借鑒“大范圍優先”理論基礎[15]，本文提出了一種結合云模型整體幾何特征與微觀云滴分布貢獻的不確定性相似度量方法。該方法首先利用較大范圍(即粗粒度)上云模型整體幾何特征(包絡帶)來確定云模型間的相似性計算范圍；其次，在此計算范圍內，結合云模型的微觀云滴分布貢獻，最終得到綜合考慮粗粒度和細粒度兩方面的度量結果。

基于以上策略，本文提出了一種基于包絡帶及其云滴貢獻度的云模型不確定性相似度量方法(Envelope Area of the Contribution based on Cloud Model, EACCM)，該方法利用兩個云模型的含貢獻度包絡帶重疊面積來衡量其相似性，綜合考慮了云模型模糊性與隨機性兩方面的特點，其相似度量結果更加合理可信。本文的工作及創新主要如下：

(1)分析了當前云模型相似度量方法存在的問題，提出了從整體定性形狀結合微觀定量貢獻度綜合進行度量的策略，并在此基礎上進一步提出了基于包絡帶及其云滴貢獻度的云模型相似度量方法；

(2)借助云模型數字特征對本文方法進行深入分析，揭示相似度變化趨勢及特點；

(3)通過仿真實驗對比其他幾種方法，證明本文方法其度量結果更為科學合理，更貼合實際情況。

2 相關研究

云模型相似性度量的首要問題在于選取合適的相似性計算模型?，F有的云模型相似性度量方法主要包括以下幾類方法：

(1)基于隨機云滴的距離度量方法。例如，SCM(Similar Cloud Measurement)[16]方法基于云滴之間的距離計算云之間的相似度，但由于云滴的選取具有一定的隨機性，因此會造成度量結果不穩定，而且對大量云滴進行距離的計算會帶來較高的時間復雜度；文獻[17]提出了一種基于α截集的云相似度計算方法，該方法通過計分函數計算相似度，但是計算結果依賴云滴的數量，穩定性差。

(2)基于云模型數字特征的度量方法。例如，LICM(LIkeness comparing method based on Cloud Model)[14]方法將云模型的3個數字特征組合在一起作為一個向量，利用兩個向量夾角的余弦值來衡量云之間的相似性，然而該方法只考慮了云模型數字特征而并沒有考慮云模型的整體分布特征，而且當某個數字特征占優時，會忽略其他數字特征的影響，產生較大的誤差；PSCM[18]方法(Position and Shape based Cloud Model)將云相似度分為形狀相似度和位置相似度，利用云模型數字特征分別計算這兩方面的相似度，然后將兩者相乘得到最終的云相似度，該方法較好地解決了計算復雜度高的問題，但主觀地將形狀相似度與位置相似度進行簡單運算缺乏合理性。

(3)基于云模型幾何形狀特征的方法。如ECM(Expectation based Cloud Model)方法[19]、MCM(Maximum boundary based Cloud Model)方法[19]、CCM(Concept skipping indirect approach of Cloud Model)方法[20]等。這類方法以云的特征曲線與橫軸圍成的重疊面積作為衡量依據來度量云模型的相似性，計算復雜度較低且結果穩定，但是并沒有準確地描述云的整體分布特征，從而導致以該重疊區域作為相似性標度缺乏合理性解釋。

以上方法各有優勢，但也存在不足之處：將云模型整體幾何形狀特征與微觀云滴分布分離，度量結果具有較大的片面性。因此，迫切需要一種融合以上方法特點，綜合考慮云模型幾何形狀特征與不同位置云滴分布貢獻度差異的相似性度量模型。

3 理論基礎

圖1 正態云模型(0,3,0.3)

根據外包絡曲線和內包絡曲線的 3σ原則，包絡帶有以下性質：(1)橫軸在[Ex?3(En+3He),Ex+3(En+3He)]之外的區域因貢獻度非常低，不將其納入包絡帶的計算范圍內。(2)將橫軸在[Ex?3(En+3He),Ex?3(En?3He)]之間的區域定義為曲邊梯形(以橫軸為直角邊，橫軸坐標為Ex?3(En+3He) 和Ex?3(En?3He)的兩條線段為上下底，外包絡曲線μw(x)為曲邊)。同理，橫軸在[Ex+3(En?3He),Ex+3(En+3He)]之間的區域也定義為一個曲邊梯形(如圖2所示，虛線矩形框中的陰影區域為曲邊梯形，圖中整個陰影區域就是本文所指的包絡帶)。

定義3 云滴貢獻度[21]

1維論域U中，任一小區間上的云滴群Δx對定性概念C的貢獻度為ΔA為，具體為

4 云模型相似度量方法

正態云是目前研究最多也是最重要的一種云模型，而且正態分布的普適性與鐘形隸屬函數的普遍性共同奠定了正態云模型普遍性的基礎?；诖?，本文所研究的相似性度量方法也是針對正態云模型。

4.1 相似度量策略

定性概念是認知的核心內容，其主要通過概念內涵與概念外延進行不確定性表達。因此，基于云模型的相似度量也應從概念內涵與外延展開。其中，概念內涵往往是根據大量的概念外延對象進行抽象而成的，其本身就具有一定的抽象性，不適合直接用于精確的相似性度量。因此，本文選擇了基于云模型云滴的分布—即概念的外延來進行相似度量。

此外，云模型本質是一個邊界模糊的泛正態分布，如何合理地描述正態云圖(正態云模型的幾何特征)，即云滴的分布特點具有重要意義。理論上，表征某個定性概念的云是由無數個云滴組成的，而通常只用正向云發生器生成的有限云滴來描述整體云的大致幾何形狀，并進行概念定性表征。這些有限的云滴實際上不足以來描述云模型的整體特征，在此基礎上度量云之間的相似性是不可取的。雖然云滴的確定度具有一定的隨機性，但是根據第3節定義2可知，云滴絕大部分都是分布在包絡帶中。因此從概率上分析，用包絡帶來表示云滴分布區域更為合理。

基于以上分析，可進一步探究云模型相似性的度量方法。在云模型對定性概念的外延描述中，一個云滴代表的是定性概念在數量上的一次實現，云滴數量越多，越能反映這個定性概念的整體特征。在極限情況下，若云滴的數量趨于無窮大，則所有云滴必然會形成一個平面區域，在概率上可以近似等同于包絡帶。此時該平面區域可以最大限度地反映這個定性概念的整體特征，即云滴的分布特征(云模型的整體幾何特征)。因此，通過云間的包絡帶進行相似度量，相當于是用兩個定性概念的整體特征來進行相似性度量，顯然更具有合理性。

4.2 包絡帶與局部云滴貢獻相結合的相似度量模型

圖3 云C1(0,2,0.2)和 C2(4,2,0.2)包絡帶重疊區域

圖4 云C1(0,2,0.2)和 C2(1,2,0.1)包絡帶重疊區域

5 相似度的影響因素及性質分析

5.1 位置對相似度的影響

根據兩個云模型形狀特征，可以將期望對相似度影響規律分析劃分為下面兩種情形：(1)一個云完全包含在另一個云的內包絡曲線內(內含式)；(2)兩個云不存在一個云包含在另一個云的內包絡曲線內(非內含式)。

(1)內含式3He1+3He2≤En1?En2。當兩個云的形狀特征滿足：一個云完全包含在另一個云的內包絡曲線內時(即滿足3He1+3He2≤En1?En2)，不失一般性，任取兩個云模型C1(0,2,0.2),C2(0,0.5,0.1)，假設Ex2變化，則可給定期望Ex2的變化過程Ex2∈[0,10.2](當超過10.2時，這兩個云沒有任何重疊區域)。如圖6(a)，其中顯示了期望變化過程中兩個云模型的3個典型的重疊情況，其中紅色為云C2。在這個位置變化過程中，應用本文方法計算出相似度隨期望變化所呈現的變化趨勢，如圖6(a)所示。

圖5 云模型C 1和C 2相對位置隨Ex2, Ex′2的變化

圖6 相似度隨Ex2, Ex′2, En2和He2變化趨勢

由圖6(a)可知，相似度隨著期望的增大呈現先增大后減小的趨勢，且開始點和結束點的相似度都為0。原因在于起始位置和結束位置兩個云的重疊面積都為0，因此根據本文相似度的計算公式，此時相似度為0，而在中間位置，兩個云重疊面積不為0，因此相似度隨著期望的增大呈現先增大后減小的趨勢且相似度存在最大值。圖6(a)并不是個例所呈現出的趨勢，而是所有滿足內含式的云模型組其位置對相似度的影響趨勢。也符合人類的認知特點：兩個不同的定性概念之間的相似度不可能一直增大直到1，除非這兩個概念是一樣的，否則一定存在一個最大相似度。

由圖6(b)可知，非內含式云模型組在開始位置時相似度為1，在結束位置時相似度為0，而且中間相似度變化并不是單調遞減，而是存在波動，不具有完全一致的規律。這里出現的波動性是由云模型的形狀特征(重尾分布[22])所決定的，同時這種復雜性也是由定性概念的不確定性(隨機性和模糊性)所決定的：定性概念存在較大的不確定性，其變化過程中其與另一個概念間的相似度常常會呈現出波動性。

5.2 形狀對相似度的影響

(1)熵 En對相似度的影響。假設初始兩個云模型完全相同，不失一般性，令C1(0,2,0.2)，C2(0,2,0.2)。若En2變化，可給定En2的變化過程En2∈[2,3.2](當En2≥3.2時，由5.1節的情形1可知相似度為0)。圖7(a)和圖7(b)顯示了熵En2變化過程中開始和結束時兩個云模型的重疊情況，其中紅色為云C2。在這個形狀變化過程中，應用本文方法計算出相似度隨熵變化所呈現的變化趨勢，如圖6(c)所示。

由圖6(c)可知，在開始位置時，云C1與云C2完全重疊，相似度為1，隨著En2的增大，兩者的相似度逐漸減小，直到云C1完全被包含在云C2的內包絡曲線內，即5.1節中情形1的情況，此時相似度為0。圖6(c)說明當兩個云的期望和超熵相等時，其形狀相差越大(熵相差越大)則相似度越低。當兩個云的期望和超熵不相等時，不具有完全一致的規律。

(2)超熵 He對相似度的影響。假設初始是兩個云模型完全相同，不失一般性，令C1(0,2,0.2),C2(0,2,0.2)。若He2變化，可給定He2的變化過程He2∈[0.2,0.66](當3He2≥En2時，云C2霧化)。圖7(a)和圖7(c)顯示了超熵He2變化過程中開始和結束時兩個云模型的重疊情況，其中紅色為云C2。在這個形狀變化過程中，應用本文方法計算出相似度隨超熵變化所呈現的變化趨勢，如圖6(d)所示。

圖7 云模型C 1和C 2相對位置隨En2和He2的變化

由圖6(d)可知，在開始位置云C1與云C2完全重疊，相似度為1，隨著超熵的增大，云C2的包絡逐漸包裹著云C1，兩者的相似度逐漸減小，直到云C2霧化，此時不在本文方法度量范圍內。圖6(d)說明當兩個云的期望和熵相等時，其形狀相差越大(超熵相差越大)則相似度越低。當兩個云的期望和熵不相等時，不具有完全一致的規律。

兩個云的相似度在直觀上會受其位置和形狀的影響，其影響并不相互獨立，不能將兩者割裂開來，也不能將兩者簡單地進行運算，這也是單獨討論位置和形狀對相似度影響的復雜之處。以上例子分析了某些情況下具有的一般規律，但是多數情況下還需要根據具體的云模型組來分析其位置和形狀對相似度的影響。

5.3 相似度性質分析

(1)連續性。由式(4)可知，相似度SimEACCM(C1,C2)由S1,S2,Sg1和Sg2共同決定，而這4個面積是通過兩個云的數字特征計算而來的。由式(5)—式(10)可知，S2,S1,Sg1和Sg2作為數字特征的函數，顯然具有連續性。因此，相似度作為數字特征的函數也具有連續性。

(2)單調性。(a)由5.1節可知，固定 En和H e不變， Ex變化，此時相似度為 Ex的函數。在內含式和非內含式中，相似度隨 Ex的變化并沒有呈現明顯的單調性。(b)由5.2節可知，固定 Ex和H e不變且兩個云的期望和超熵相等時， En變化，此時相似度為 En的單調遞減函數；當兩個云模型的期望和超熵不相等時，需要根據具體的云模型組來分析。(c)固定 Ex和 En不變且兩個云的期望和熵相等時，He變化，此時相似度為H e的單調遞減函數；當兩個云模型的期望和熵不相等時，需要根據具體的云模型組來分析。

本節分別從云模型位置特征和形狀特征兩方面研究了其對云模型間相似度的影響，對應于云模型的數字特征，也就是其3個數字特征對相似度的影響?？梢钥闯?，每個數字特征對相似度都具有一定的影響，這也客觀說明了忽略任意一個數字特征都是不合理的。同時根據相似度的計算公式和云數字特征對相似度的影響，分析了相似度的連續性和單調性。

6 實驗及分析

6.1 裝備保障系統能力評估實驗

為了進一步驗證本文方法的應用價值，將本文方法應用于軍隊某裝備保障系統能力評估[20,23,24]，并與CCM方法[20]、MMDCM方法[23]、文獻[17]和文獻[24]中的方法進行對比。實驗中，采用黃金分割法將裝備保障系統的能力論域([0,100])進行劃分，共包括優、良、中、差和極差這5個能力等級(語言原子)，對應子區間以及建立的評估標尺云如表1所示。

表1 能力等級劃分對應的子區間及評估標尺

根據某裝備保障系統能力評估的結果，建立的對應目標云為T(84.77,4.0,0.4)，目標云T與各標尺云的相交情況，如圖8所示(藍色為標尺云，從左到右分別為極差、差、中、良和優，紅色為目標云)。分別采用CCM方法、MMDCM方法、文獻[17]和文獻[24]中的方法以及本文的方法計算目標云對各評估標尺云的相似度，結果如表2所示。

表2 目標云與各標尺云的相似度

從圖8可以看出，目標云T僅與標尺云C4和C5部分重疊，而與其他標尺云沒有任何重疊，即目標云云滴與這些標尺云云滴分布在不同的區域中，在數量上的實現完全不同，此時認為目標云T與標尺云C1,C2和C3的相似度為0。而文獻[17]方法計算的結果遠大于0，這與以上分析相悖。此外，該方法計算出目標云T與標尺云C1,C2和C3的相似度差別較大(分別為0.01, 0.53和0.74)，這意味著當兩個云存在重疊時，該方法的區分度不高(未重疊時相似度已經高達0.74了，因此在重疊時只有小于0.26的尺度來描述相似度)，容易忽略兩個云之間的細節差異。因此，從上面兩方面分析可知，文獻[17]的方法存在一定的片面性。此外，本文方法和對比方法計算出的相似度結果顯示，目標云與等級為“優”的評估標尺云最為相似，評估結果為“優”(根據最大相似度原則)，與實際相符。

表2的方法其計算結果的差別主要體現在目標云T與標尺云C4和C5的相似度。因此，下面將詳細分析利用除文獻[17]外的方法計算目標云T與標尺云C4和C5相似度存在的差異。如表2所示，本文方法與對比方法在計算目標云T與標尺云C4和C5的相似度時，存在比較大的差異：對比方法計算出的目標云T與標尺云C5的相似度是目標云T與標尺云C4的相似度的3到4倍；本文方法計算的這兩組云的相似度差異并不大。在圖8可以直觀地看到，目標云T位于標尺云C4和C5之間，在橫軸上略偏向標尺云C5，而在形態上這三者的差異并不是很明顯，反而從形態上目標云T與標尺云C4更為接近。因此，從直觀上來看，這兩組云的相似度相差不大。這與對比方法的計算結果相矛盾，與本文方法的計算結果相一致，這也進一步證明了本文方法更為科學合理，更加貼合實際情況。

圖8 目標云T與各標尺云相交情況

6.2 時間序列分類實驗

面向時間序列數據的分類方法是數據挖掘的重要內容，且分類過程中使用的相似度度量方法直接決定著分類結果的準確性。因此，本小節利用時間序列數據來進一步驗證本文相似度量方法的有效性。本實驗采用UCI中的常用時間序列數據集(synthetic control chart dataset)，該數據集有6類數據，每類數據包含100個長度為60的時間序列數據。實驗中，對每類數據采用10折交叉驗證，即將每類的100個數據劃分為相等的10份，每次測試取其中的一份為測試集，剩下的數據為訓練集。

本實驗從分析算法分類正確率入手，對比不同云模型相似度量方法在時間序列分類中的計算結果。在研究各方法分類正確率時，采用最近鄰分類(K-Nearest Neighbors, KNN)算法進行分類實驗(K=10)。每個時間序列可以通過MBCT-SR逆向云變換算法[25]生成的云模型來表示，然后利用不同的云模型相似度量方法分別計算每類測試集與其他數據(包括本類訓練數據和其他類所有數據)的相似度矩陣，根據該相似度矩陣，利用KNN算法來計算分類結果，進而得到每類測試集的分類正確率(通過10折交叉驗證得到)，最后計算6類數據分類正確率的均值，得到各方法的分類正確率如圖9所示。其中，對比方法為PSCM方法[18]、MCM[19]方法、文獻[17]的方法和LICM[14]方法。

由圖9可清楚看到，本文相似度量方法的平均分類正確率最高，其次為PSCM方法和MCM方法，然后是文獻[17]的方法和LICM方法。因此，該實驗驗證了本文方法在時序序列數據分類中良好的性能，進一步說明了本文方法的有效性。

圖9 不同度量方法分類的正確率

7 結束語

云模型作為不確定性知識獲取的重要研究工具，通過隨機性與模糊性的統一，較好地解決了概念的不確定性轉換難題。當前云模型間的相似性度量主要集中在基于精確數據的量化計算上，缺乏對云模型整體特征綜合考慮，度量結果缺乏科學性與有效性。綜合考慮云模型整體幾何特征與微觀云滴分布貢獻，本文提出了一種基于分布輪廓與局部特征融合的云模型不確定性相似度量方法。該方法既可合理地刻畫出云模型微觀云滴分布特征，又綜合考慮其宏觀數字特征，較好地實現了不確定性相似度量中基于定性概念內涵與外延的有效結合。為了分析該方法的合理性與有效性，本文還深入探究了云模型數字特征對云模型間相似度計算的影響，并通過仿真實驗進行了驗證。本文提出的相似度量方法是對云模型理論的有效補充完善，在實際應用中，可結合云模型的各種分析挖掘任務進行使用，進一步提升不確定性知識獲取能力。