王偉, 武君勝, 朱志祥, 楊文超
1.西北工業大學 軟件與微電子學院, 陜西 西安 710072; 2.西安郵電大學 物聯網與兩化融合研究院, 陜西 西安 710061; 3.西北工業大學 計算機學院, 陜西 西安 710072
Gau和Buehrer在1993年提出的Vague集理論[1]是對Fuzzy集的補充和擴展。在處理不確定性信息時,Vague集比傳統的模糊集有更強的表達能力和靈活性,是一種新型的處理模糊性問題的數學分析模型。軟集理論[2]是Moldtsov在1999年提出的一種新的處理不確定性和不精確性信息的數學工具,該理論引入了參數化思想,克服了Vague集只能處理部分不確定性信息的不足,在模式識別、數據挖掘、模糊決策、圖像檢索等實際問題中,有很大的應用潛力。上述2種理論都從不同角度聚焦信息系統中知識的不確定、不完備和不精準等問題,在實際應用時既相互聯系又相互補充,因此可以進行融合,以發揮各自的優勢,彌補各自的不足。針對Vague集和軟集的融合問題,文獻[3-6]將Vague集與軟集理論進行結合,提出了新的Vague軟集模型,并研究了相關性質及系列問題,目前已成為一個新興的研究方向。在基于Vague軟集的不確定信息處理中,判定2個Vague軟集模式的相似度,是研究基于Vague軟集的知識劃分、模糊決策及綜合評判等問題[7-9]的前提,吸引了眾多研究者的關注。
分析發現,Vague軟集的本質是具有Vague集區間特征的軟集。一個區間的特征,一般有4個重要的參數,即其左(右)端點、區間長度以及中點等。因此,在研究Vague軟集的相似度量方法時應充分考慮Vague集的所有數值區間特征,包括真隸屬度、假隸屬度、猶豫度、核以及Vague值的區間中心等主要特征。現有文獻給出的Vague軟集相似度量公式,大多是從部分因素來衡量Vague軟集的相似度量。如文獻[10-11]提出的Vague軟集相似度量衡量方法只考慮了Vague集的真隸屬度、假隸屬度以及核的差異性,卻忽略了猶豫度和Vague值的區間中心等特征因素;文獻[12]提出的Vague軟集相似度量公式,重點考慮了真隸屬度、假隸屬度以及猶豫度的差異性,沒有充分考慮Vague集核以及Vague值區間中心2個特征因素;文獻[13]基于歐式距離提出了一種考慮真隸屬度、假隸屬度以及猶豫度差異性的Vague軟集相似度量方法,忽略了Vague集核及區間中心2個特征因素;文獻[14]引入參數權重提出一種Vague軟集相似度量方法,但只考慮了Vague集真隸屬度、假隸屬度以及猶豫度的差異性;文獻[15]提出的Vague軟集相似度量公式只簡單考慮了Vague集真假隸屬度的差異性。本文在上述研究的基礎上,將Vague值的區間中心這一重要特征引入Vague軟集相似度理論進行研究,并給出了新的Vague軟集相似度量的定義及公理化證明,同時將結果應用到網絡輿情綜合決策分析問題,對與此相關的一些關鍵問題進行了探索性研究,本文的相關研究結果,可為網絡輿情評判等其他綜合決策問題提供了理論基礎。
下面對有關基礎理論進行描述。
Vague軟集模型描述如下:
定義1(Vague軟集) 設U是一個論域,E是一個參數集,A?E,且F:A→P(U)是一個映射,即對?e∈A,F(e)為U上的一個Vague集,稱(F,A)為U上的一個Vague軟集。
定義2(Vague軟相等) 設(F,A)、(G,B)為U上的2個Vague軟集,若A?B,且對于?e∈A,x∈U,有tF(e)(x)≤tG(e)(x),fF(e)(x)≥fG(e)(x),則稱(F,A)軟包含于(G,B)(或稱(G,B)軟包含(F,A)),記作(F,A)?~(G,B)(或(G,B)?~(F,A));若有(F,A)?~(G,B)且(G,B)?~(F,A),則稱(F,A)與(G,B)Vague軟相等。
定義3(Vague軟集的補集) 設(F,A)為U上的一個Vague軟集,稱(F,A)c=(Fc,A)為(F,A)的補,其中Fc:A→V(U),即對于?e∈A,x∈U,有:
tFc(e)(x)=fF(e)(x),1-fFc(e)(x)=1-tF(e)(x)
定義4(相對空的Vague軟集) 設U是一個論域,E是一個參數集,A?E,(F,A)為U上的一個Vague軟集,若對?e∈A,有x∈U,tF(e)(x)=0,1-fF(e)(x)=0,則稱(F,A)為U上的一個相對空的(相對于參數集A)Vague軟集,記為φA。
定義5(相對全的Vague軟集) 設U是一個論域,E是一個參數集,A?E,(F,A)為U上的一個Vague軟集,若對?e∈A,x∈U,有tF(e)(x)=1,1-fF(e)(x)=1,則稱(F,A)為U上的一個相對全的(相對于參數集A)Vague軟集,記為μA。
文獻[10]提出了Vague軟集間的相似度量應滿足的公理化定義:
定義6設VSS(U)表示論域U上的Vague軟集,E是一個參數集,(F,E),(G,E)∈VSS(U),函數M:VSS(U)×VSS(U)→[0,1]稱為Vague軟集間的相似度量。如果其滿足以下條件:
準則1 有界性:M((F,E),(G,E))∈[0,1];
準則2 對稱性:M((F,E),(G,E))=M((G,E),(F,E));
準則3 歸一性:M((F,E),(G,E))=1?(F,E)=(G,E);
準則4 單調性:(F,E)?(G,E)?(H,E),則:
M((F,E),(H,E))≤min(M((F,E),(H,E)),M((G,E),(H,E)))。
通過Vague軟集間相似度量的理化定義,可知2個Vague軟集間的相似度量越大,則這2個Vague軟集越相似。
針對已有文獻提出的Vague軟集間相似度量的局限性,下面提出一種新的Vague軟集間相似度量公式,充分考慮了Vague集的真隸屬度、假隸屬度、猶豫度、核以及Vague值的區間中心等區間特征因素。
定理1設U={x1,x2,…,xn}是一個論域,E={e1,e2,…,em}是一個參數集,VSS(U)表示論域U上的Vague軟集,已知(F,E),(G,E)∈VSS(U),則稱下式為Vague軟集的相似度量:
M((F,E),(G,E))=
∑mi=1λi1-17n∑nj=1[|tF(ei)(xj)-tG(ei)(xj)|+
|fF(ei)(xj)-fG(ei)(xj)|+
|πF(ei)(xj)-πG(ei)(xj)|+
|SF(ei)(xj)-SG(ei)(xj)|+
|φF(ei)(xj)-φG(ei)(xj)|]
式中,πF(ei)(xj)=1-tF(ei)(xj)-fF(ei)(xj)和πG(ei)(xj)=1-tG(ei)(xj)-fG(ei)(xj)分別為2個Vague軟集F(ei)和G(ei)中元素xj的猶豫度,它表征對于參數ei來說,現有證據對元素xj的棄權信息。SF(ei)(xj)=tF(ei)(xj)-fF(ei)(xj)和SG(ei)(xj)=tG(ei)(xj)-fG(ei)(xj)分別為2個Vague軟集F(ei)和G(ei)中元素xj的核,它表征對于參數ei來說,現有證據對元素xj支持和反對2種力量的對比。φF(ei)(xj)=1-tF(ei)(xj)+fF(ei)(xj)2和φG(ei)(xj)=1-tG(ei)(xj)+fG(ei)(xj)2分別為2個Vague軟集F(ei)和G(ei)中元素xj的區間中心。λi為參數ei的權重。
下面證明新的Vague軟集間相似度量是否滿足公理化定義。
證明:
(1) 易知:πF(ei)(xj)∈[-1,1],πG(ei)(xj)∈[-1,1],SF(ei)(xj)∈[-1,1],SG(ei)(xj)∈[-1,1],φF(ei)(xj)∈[0,1],φG(ei)(xj)∈[0,1],|tF(ei)(xj)-tG(ei)(xj)|≤1,|fF(ei)(xj)-fG(ei)(xj)|≤1,又:
|πF(ei)(xj)-πG(ei)(xj)|≤2,|SF(ei)(xj)-SG(ei)(xj)|≤2,|φF(ei)(xj)-φG(ei)(xj)|≤1。因此,
0≤[|tF(ei)(xj)-tG(ei)(xj)|+|fF(ei)(xj)-fG(ei)(xj)|+|πF(ei)(xj)-πG(ei)(xj)|+|SF(ei)(xj)-
SG(ei)(xj)|+|φF(ei)(xj)-φG(ei)(xj)|]≤7;所以,
0≤1-17n∑nj=1|tF(ei)(xj)-tG(ei)(xj)|+
|fF(ei)(xj)-fG(ei)(xj)|+
|πF(ei)(xj)-πG(ei)(xj)|+
|SF(ei)(xj)-SG(ei)(xj)|+
|φF(ei)(xj)-φG(ei)(xj)|≤1,
則
0≤∑mi=1λi1-17n∑nj=1[|tF(ei)(xj)-tG(ei)(xj)|+
|fF(ei)(xj)-fG(ei)(xj)|+
|πF(ei)(xj)-πG(ei)(xj)|+
|SF(ei)(xj)-SG(ei)(xj)|+
|φF(ei)(xj)-φG(ei)(xj)|]=∑mi=1λi·1=1,0≤M((F,E),(G,E))≤1,有界性成立,即能滿足準則(1)。
(2) 由于
|tF(ei)(xj)-tG(ei)(xj)|+|fF(ei)(xj)-fG(ei)(xj)|+|πF(ei)(xj)-πG(ei)(xj)|+|SF(ei)(xj)-SG(ei)(xj)|
+|φF(ei)(xj)-φG(ei)(xj)|=|tG(ei)(xj)-tF(ei)(xj)|+|fG(ei)(xj)-fF(ei)(xj)|+|πG(ei)(xj)-πF(ei)(xj)|
+|SG(ei)(xj)-SF(ei)(xj)|+|φG(ei)(xj)-φF(ei)(xj)|,故M((F,E),(G,E))=M((G,E),(F,E)),對稱性成立,即能滿足準則(2)。
(3) 由于M((F,E),(G,E))=1,故
|tF(ei)(xj)-tG(ei)(xj)|+
|fF(ei)(xj)-fG(ei)(xj)|+
|πF(ei)(xj)-πG(ei)(xj)|+
|SF(ei)(xj)-SG(ei)(xj)|+
|φF(ei)(xj)-φG(ei)(xj)|=0,所以,
|tF(ei)(xj)-tG(ei)(xj)|=|fF(ei)(xj)-fG(ei)(xj)|=
|πF(ei)(xj)-πG(ei)(xj)|=|SF(ei)(xj)-SG(ei)(xj)|
=|φF(ei)(xj)-φG(ei)(xj)|=0
故tF(ei)(xj)=tG(ei)(xj),fF(ei)(xj)=fG(ei)(xj),πF(ei)(xj)=πG(ei)(xj),即,歸一性成立,即能滿足準則(3)。
(4) 因為(F,E)?(G,E)?(H,E),所以,
tF(ei)(xj)≤tG(ei)(xj)≤tH(ei)(xj),fF(ei)(xj)≥fG(ei)(xj)≥fH(ei)(xj),則:
|tF(ei)(xj)-tH(ei)(xj)|≥|tF(ei)(xj)-tG(ei)(xj)|,|fF(ei)(xj)-fH(ei)(xj)|≥|fF(ei)(xj)-fG(ei)(xj)|又:SF(ei)(xj)-SH(ei)(xj)=tF(ei)(xj)-tH(ei)(xj)+fH(ei)(xj)-fF(ei)(xj),
SF(ei)(xj)-SG(ei)(xj)=tF(ei)(xj)-tG(ei)(xj)+fG(ei)(xj)-fF(ei)(xj),于是,
|SF(ei)(xj)-SH(ei)(xj)|≥|SF(ei)(xj)-SG(ei)(xj)|;
又:πF(ei)(xj)-πH(ei)(xj)=tH(ei)(xj)-tF(ei)(xj)+fH(ei)(xj)-fF(ei)(xj),
πF(ei)(xj)-πG(ei)(xj)=tG(ei)(xj)-tF(ei)(xj)+fG(ei)(xj)-fF(ei)(xj),于是,
|πF(ei)(xj)-πH(ei)(xj)|≥|πF(ei)(xj)-πG(ei)(xj)|;
又,φF(ei)(xj)-φH(ei)(xj)=12[tH(ei)(xj)-tF(ei)(xj)+fF(ei)(xj)-fH(ei)(xj)],φF(ei)(xj)-φG(ei)(xj)=12[tG(ei)(xj)-tF(ei)(xj)+fF(ei)(xj)-fG(ei)(xj)],于是,
|φF(ei)(xj)-φH(ei)(xj)|≥|φF(ei)(xj)-φG(ei)(xj)|。
綜上:
1-17n∑nj=1|tF(ei)(xj)-tG(ei)(xj)|+
|fF(ei)(xj)-fG(ei)(xj)|+
|πF(ei)(xj)-πG(ei)(xj)|+
|SF(ei)(xj)-SG(ei)(xj)|+
|φF(ei)(xj)-φG(ei)(xj)|≥
1-17n∑nj=1|tF(ei)(xj)-tH(ei)(xj)|+
|fF(ei)(xj)-fH(ei)(xj)|+
|πF(ei)(xj)-πH(ei)(xj)|+
|SF(ei)(xj)-SH(ei)(xj)|+
|φF(ei)(xj)-φH(ei)(xj)|
即M((F,E),(G,E))≥M((F,E),(H,E))。同理可得,M((H,E),(G,E))≥M((F,E),(H,E)),所以,
M((F,E),(H,E))≤min(M((F,E),(H,E)),M((G,E),(H,E)))。單調性成立,即能滿足準則(4)。
證畢。
如何基于數據挖掘關鍵技術,實現高效暢通網上輿情的發現、分析、評估、預警、處置和反饋機制,是眾多輿情監管部門亟待解決的重要問題。對如何在傳播擴散、民眾關注、內容敏感性、信息透明度、響應速度等多維度下,對網絡輿情事件的安全性進行評估,從而甄別出苗頭性、敏感性、危害性較大的網絡輿情信息,是其中的關鍵環節。
設某輿情監管部門擬對一組網絡輿情事件的安全性進行評估,從中篩選出最安全的輿情事件,有5個輿情事件可供研判,分別記為X1,X2,X3,X4,X5,這5個事件所具有的特征均以參數集表示:
E={e1,e2,e3,e4,e5}={傳播擴散快,政府響應快,民眾關注度高,信息透明度高,內容敏感度高}。各參數的權重分別為{0.21,0.32,0.15,0.13,0.19,}。設定論域U僅包含支持和反對2個元素,記為U={支持,反對}。依據實際情況,輿情專家對最安全的輿情事件給出Vague軟集(X,E)的評價值如表1所示,專家給出5個輿情事件的Vague軟集評價值如表2~6所示。

表1 最安全事件X的VSS(U)

表2 事件X1的VSS(U)

表3 事件X2的VSS(U)

表4 事件X3的VSS(U)

表5 事件X4的VSS(U)

表6 事件X5的VSS(U)
依據新的Vague軟集相似度量公式分別計算事件X1,X2,X3,X4,X5與最安全事件X評價值的相似度,結果如表7所示:

表7 相似度計算結果
結果顯示,事件X1,X2,X3,X4,X5與最安全事件X評價值的相似度可按降序排列為:M((X2,E),(X,E))>M((X4,E),(X,E))>M((X5,E),(X,E))>M((X1,E),(X,E))>M((X3,E),(X,E)),可以看出:
事件X2與最安全事件X評價值的相似度最高,為0.648,說明事件X2的評價值最接近最安全事件X的評價值,因此事件X2可劃分為安全事件范疇。實驗表明,基于Vague軟集相識度量的輿情綜合評判分析方法在實際問題中是有效和實用的。
為驗證新的Vague軟集相似度量方法在大規模網絡輿情數據集下的綜合評判效果,本節基于MapReduce框架模型對基于Vague軟集相似度量的聚類算法并行化以改進傳統的Vague軟集聚類算法,使其適應MapReduce并行編程模型,從而能夠有效地解決海量數據下的Vague軟集聚類問題,以達到綜合評判的效果。對大規模網絡輿情數據集的實驗結果證明,基于改進Vague軟集相似度量的聚類算法在正確率和加速比性能方面,均優于傳統的Vague軟集聚類算法。
本實驗在由7臺計算機組成的集群上運行,實驗采用了Apache基金會下的Hadoop分布式框架。將其中1臺機器作為主節點即NameNode (或JobTracker)節點,其余6臺機器作為從節點即Data-Node(或TaskTracker) 節點。每臺機器的硬件配置如下:CPU型號為Intel Xeon7420四核64位處理器,支持虛擬化,頻率為2.13GHz,內存大小為64G,硬盤大小為6T,操作系統為Ubuntu 13.10,銳捷RG-S2928G-E千兆交換機,開發工具和平臺為Eclipse 8. 5、JDK 1. 7、Hadoop 2.7.1。
實驗數據采用某社情民意大數據平臺采集的真實微博輿情數據。該平臺通過約200臺服務器群不間斷對涉及40 000個全國、全球重點網站、論壇的150 000個站點,4家國內外微博等數據實時采集。目前該數據集搜集了已覆蓋超過350 000個采集點,超過1億的微博博主信息,微博入庫量1 000萬條。實驗擬對微博熱點話題進行聚類研究以綜合評判,分別從聚類的準確率PRE和查全率REC來分析聚類的質量和評判效果,從算法的加速比Sp來衡量基于MapReduce的分塊模糊聚類并行化的性能和效果。
為了測試算法的性能,實驗中分別隨機選取5組數據集進行測試,分別包含3 000、10 000、100 000條、500 000條、1 000 000條微博數據,分別從規模性、多樣性、高速性、價值性4個參數特征考慮微博的輿情特性,其權值為{0.29,0.31,0.18,0.22}。對每一組數據分別使用基于MapReduce的Vague軟集相似度量的聚類算法運行8次,實驗中算法的加速比分析如表8所示:

表8 算法的加速比分析
從實驗結果可以看出,當數據集較小時,算法在Hadoop分布式框架下的運行時間比單機環境下長,主要是因為MapReduce過程中數據集的劃分和聚類結果合并花費了較多的時間;而隨著數據量不斷增大時,通過MapReduce并行化改造后的聚類算法在Hadoop分布式框架下的運行時間明顯低于單機環境下的運行時間,數據量越大則并行計算的優勢越明顯,Hadoop系統對大規模數據集的處理能力也越強。實驗表明基于MapReduce的Vague軟集聚類算法在對大規模數據處理時能夠得到較好的加速比。
由于Vague軟集聚類評判結果受Vague軟集之間相似度閾值選取的影響,因此實驗采用新的相似度量的多個不同閾值進行實驗,對每個閾值分別求出聚類的平均準確率和平均查全率,結果表明基于MapReduce的Vague軟集聚類算法在5組數據集上的平均準確率和查全率均高于傳統Vague軟集聚類算法。實驗結果如表9所示。

表9 算法的準確率及查全率比較
分析發現,當聚類數據集規模較小時,2種算法的準確率和查全率基本都在0.85以上,但當數據樣本逐漸增大時,傳統Vague軟集聚類算法所得到的準確率和查全率與基于MapReduce的并行化聚類算法有明顯差異,這是由于當數據量增大時,數據集中會出現很多非球形的不規則的類簇,而傳統Vague軟集聚類算法對于非球形簇并沒有很好的聚類效果。基于MapReduce的Vague軟集并行化聚類算法所得到的準確率和查全率明顯優于傳統Vague軟集聚類算法。
本文在研究已有Vague軟集相似度量問題的基礎上,分析了現有Vague軟集相似度量方法的不足,將Vague集的區間中心這一Vague集的重要參數特征引入Vague軟集相似度量方法中開展研究,從而提出了一種新的Vague軟集相似度量算法,并給出了公理化證明。通過對大規模輿情數據集的綜合評判實驗結果表明,該方法是一種有效的基于Vague軟集相似度量的網絡輿情綜合評判分析方法。Vague軟集數學模型為解決網絡輿情分析等決策問題提供了良好的理論工具和數學模型,有較好的應用前景。
參考文獻:
[1] Gau W L, Buehrer D J. Vague Sets[J]. IEEE Trans on Systems, Man, and Cybmetics, 1993, 23(2): 610-614
[2] Molodtsov D. Soft Set Theory-First Results[J]. Computers & Mathematics with Applications, 1999, 37: 19-31
[3] Wei X, Jian M, Shou W, et al. Vague Soft Sets and Their Properties[J]. Computers & Mathematics with Applications, 2010,59(2): 787-794
[4] Ganeshsree S. Vague Soft Rings and Vague Soft Ideals[J]. International Journal of Pure and Applied Mathematics, 2012, 6(12): 557-572
[5] Yun Y, Young J, Jianming Z. Vague Soft Hemirings[J]. International Journal of Pure and Applied Mathematics, 2011, 62(1): 199-213
[6] Nasruddin H, Khaleed A. Vague Soft Expert Set Theory[J]. AIP Advances, 2013(1522): 953-958
[7] Alhazaymeh K. Generalized Vague Soft Set and Its Applications[J]. International Journal of Pure and Applied Mathematics, 2012, 77(3): 391-401
[8] Alhazaymeh K, Nasruddin H. Interval-Valued Vague Soft Sets and Its Application[J]. Advances in Fuzzy Systems, 2012, 2012(15): 1077-1083
[9] Teng Y, Wang C. Multicriteria Fuzzy Decision-Making Method Based on Vague Soft Sets[J]. Computer Engineering and Applications, 2012, 48(10): 6-8
[10] 王昌. Vague軟集的相似度量及其應用[J]. 統計與決策, 2012, 350(2):115-117
Wang Chang. Similarity Measurement and Application of Vague Soft Sets[J]. Statistics and Decision Making, 2012,350(2):115-117 (in Chinese)
[11] Chang W, An Q. Entropy, Similarity Measure and Distance Measure of Vague Soft Sets and Their Relations[J]. Information Sciences, 2013, 244(20):92-106
[12] 陳文, 余本功. 基于Vague軟集的模糊群決策方法研究[J]. 計算機工程與應用, 2014, 50(7):104-107
Chen Wen, YU Bengong. Research on Fuzzy Group Decision Making Method Based on Vague Soft Set[J]. Computer Engineering and Applications, 2014, 50(7):104-107 (in Chinese)
[13] 劉慶,王昌. 基于Vague軟集的投資決策方案優選方法研究[J]. 科技通報, 2015, 31(1):4-8
Liu Qing, Wang Chang. Research on Optimized Method of Investment Decision Program Based on Vague Soft Sets[J]. Bulletin of Science and Technology, 2015, 31(1):4-8 (in Chinese)
[14] 劉慶,王昌. 基于Vague軟集相似度量的快速估算模型[J]. 河北大學學報:自然科學版, 2014, 34(5):460-474
Liu Qing, Wang Chang. Fast Estimation Model Based on Similarity Measures Between Vague Soft Sets[J]. Journal of Hebei University: Natural Science Edition, 2014, 34(5):460-474 (in Chinese)
[15] 彭新東,楊勇. 區間值模糊軟集的信息測度及其聚類算法[J]. 計算機應用, 2015,35(8):2350-2354
Peng Xindong, Yang Yong. Information Measures for Interval-Valued Fuzzy Soft Sets and Their Clustering Algorithm[J]. Journal of Computer Applications, 2015, 35(8):2350-2354 (in Chinese)