張曉燕,劉崢,侯江龍
西南大學 人工智能學院, 重慶 400715
粗糙集理論[1-2]最早由波蘭科學院院士Pawlak于1982年提出, 該理論是研究不確定性問題的重要工具, 且已經被廣泛應用于數據挖掘、 信息處理、 模式識別等領域. 該理論的主要思想是用確定的信息和可能的信息來近似不確定的信息. 在現實生活中, 研究人員從樣本的二元關系出發結合粗糙集理論, 將研究樣本區分開, 從而完成不同任務的分類問題. 而屬性約簡是粗糙集理論的重要研究內容, 其目的就是在不削弱知識庫分類能力的前提下, 刪減掉冗余的屬性. 屬性約簡正是利用了二元關系下形成的樣本類在特定的任務下形成特有的不可區分關系, 并建立不可區分矩陣或屬性重要度, 以對必要和重要屬性進行提取. 在當今大數據時代, 通過屬性約簡[3-10]可以精簡知識, 從而減少運算量, 特別是在聚類分析、 分類學習, 以及不確定性分析等領域展現出了良好的效果. 在屬性約簡的研究中, 選用不同的關系模型會對約簡結果產生不同程度的影響, 因此模型的優劣也對屬性約簡的效果具有舉足輕重的作用.
另一方面, 模糊集理論[11-13]是由美國學者Zadehl于1965年提出的, 該理論將經典集合進行了擴充、 推廣, 引入了元素的隸屬度這一概念, 從而能夠對生活中的不確定性問題進行量化、 建模和研究. 模糊集是研究不確定性問題的一個重要工具, 該理論的主要思想重點考慮樣本并不是非黑即白的情況, 生活的很多環境中, 元素對于集合的關系并不是單純的屬于或不屬于的關系, 而是一種模糊概念或狀態, 如高個子、 紅蘋果、 下大雨等. 模糊集理論便可以利用一個介于0到1之間的隸屬度來表示和刻畫這些模糊語言或情況. 后來, 保加利亞學者Atanassov于1986年提出了直覺模糊集[14-16], 是對模糊集的進一步延伸, 該理論在經典模糊集隸屬度的基礎上進一步考慮了元素的非隸屬度和猶豫度, 從而能夠更好地貼合實際, 模擬現實中更加復雜的問題.
另外, 在現實生活中, 很多的不確定性問題是基于序關系[17-22]的, 即對象之間存在優劣之分, 并且其對象的屬性值往往是直覺模糊數. 為了更好地研究此類問題, 本文引入了直覺模糊偏好度量序決策表, 在序決策表的基礎上引入了隸屬度、 非隸屬度和猶豫度, 并對其加權得到得分函數, 進一步根據得分函數研究了在直覺模糊偏好度量序決策表的基礎上如何進行近似約簡, 從而進一步拓展知識約簡的應用范圍.
決策表作為一種特殊的信息系統, 同時具有條件屬性和決策屬性, 下面給出決策表的相關概念.
令DT=(U,C∪D,F,G)為一個五元組, 稱I為決策表. 其中U為非空有限對象集,U={x1,x2, …,xn};C為有限條件屬性集;D為有限決策屬性集,D={d1,d2, …,dq};F是U與C的關系集,F={fi:U→Vi,i≤n},Vi為ai的有限值域;G是U與D的關系集,G={gi:U→V′j,j≤q},V′j為dj的有限值域.
在決策表的基礎上, 進一步有直覺模糊決策表.
給定I=(U,C∪g0gggggg,F,G)為決策表, 對任意f∈F,g∈G,a∈C和x∈U有:f(x,a)=(μa(x),νa(x)),g(x,d)∈R(R為實數集), 其中μa(x)和νa(x)分別為x(x∈U)在條件屬性a下的隸屬度和非隸屬度,μa:U→[0, 1],νa:U→[0, 1]且滿足0≤μa(x)+νa(x)≤1. 若記f(a)={f(x,a)|a∈AT}, 稱f(a)為U上的直覺模糊集, 并稱(U,C∪g0gggggg,F,G)為直覺模糊決策表, 記作DT*.
下面給出“偏好度量”的概念, 由此便可擴充為直覺模糊偏好度量序決策表.
若DT*=(U,C∪g0gggggg,F,G)為直覺模糊決策表,x∈U,a∈C, 定義對象x對屬性a的得分函數為Sa(x)=αμa(x)-βνa(x)-γπa(x), 其中μa(x)、 和νa(x)分別為對象x在條件屬性a下的隸屬度和非隸屬度, 而πa(x)表示對象x在條件屬性a下的猶豫度, 且πa(x)=1-μa(x)-νa(x), 權重α,β,γ的值域為[0, 1], 且滿足α+β+γ=1. 這里α,β,γ取值都是根據具體的任務需求給定,α為隸屬度的權重, 越看重隸屬度, 則α的值越大;β為隸屬度的權重, 越看重非隸屬度, 則β的值越大;γ為隸屬度的權重,γ的值則可根據α,β的值來確定.
設DT*=(U,C∪g0gggggg,F,G)為直覺模糊決策表, 對任意的a∈C,f∈F,g∈G,xi,xj∈U有:
f(xi,a)≥f(xj,a)?Sa(xi)≥Sa(xj)
f(xi,a)≤f(xj,a)?Sa(xi)≤Sa(xj)
g(xi,d)≥g(xj,d)
則根據得分函數的大小確立了條件屬性上的偏序關系, 根據決策屬性值的大小確立了決策屬性上的偏序關系.
設DT*=(U,C∪g0gggggg,F,G)為直覺模糊決策表, 若存在屬性a的值域具有偏序關系, 則稱該屬性a為此系統中的一個準則, 由若干個準則組成的集合稱為準則集.




于是, 優勢關系的上、 下近似定義為
至此, 給出了直覺模糊偏好度量序決策表的相關定義, 得到了該決策表基于得分函數優勢關系的上、 下近似.
不同于經典的Pawlak粗糙集理論, 本文討論的直覺模糊偏好度量序決策表所研究的背景關系為偏序關系, 而基于偏序關系的優勢類構成了論域的覆蓋而非劃分, 因此基于帶偏好度量的直覺模糊序決策信息系統的近似約簡與經典信息系統下的近似約簡也有所不同.
下面給出直覺模糊偏好度量序決策表的上、 下近似約簡函數及約簡.



顯然, 由上面定義可知下述性質成立.




該定理說明在協調集中不僅僅只保留了各個決策類中對象的信息, 而且還保留了包含不同決策類的對象之間的交互信息, 以此來保證約簡之后與原決策表信息相對完整.
證1) 必要性: 使用反證法.


充分性: 使用反證法.


2)與1)同理可證.
由于直接利用定義5求解上、 下近似的過程比較復雜, 效率低下, 所以本節給出求上、 下近似約簡的具體判別方法, 即利用辨識矩陣求上、 下近似約簡.

定義:







2)與1)同理可證.






2)與1)同理可證.
通過上文得到了求解直覺模糊偏好度量序決策表近似約簡的具體方法, 下面通過一個實例來說明具體近似約簡的求解過程.
設某藝術公司收到了員工交納的一批畫作, 為了考察其價值將作品分成上、 中、 下3個等級, 公司委派10位專家從4個方面(色調、 意蘊、 畫功、 風格)對這批畫作進行評判, 評判結果如表1所示.
表1列出的直覺模糊偏好度量序決策表中的直覺模糊數是通過專家的判斷確定的. 例如對于畫作x3, 要確定其畫工a3的隸屬度和非隸屬度, 讓10位專家對其投票, 有2位專家覺得畫作x3的畫功好, 而有7位專家覺得x3的畫工不好, 還有1位專家持保留意見, 不做評價, 這時就可以取畫作x3對畫功a3的隸屬度為0.2, 非隸屬度為0.7, 猶豫度為0.1. 而隸屬度權重α和非隸屬度權重β則是根據不同的問題, 不同的需求來設定, 這里設定隸屬度權重α=0.5, 非隸屬度權重β=0.3, 猶豫度權重γ=1-α-β=0.2.
下面分別用定義和辨識矩陣兩種不同方法來求解該系統的近似約簡.
方法1
計算屬性AT下的各優勢類:

再求出上、 下近似:

如果取A={a1}, 則:

此時
且
所以{a1}既不是上近似協調集也不是下近似協調集.
如果取A={a3}, 則:

此時
且
所以{a3}既是上近似協調集, 也是下近似協調集.
同理可以驗證{a1,a2,a3}, {a2,a3,a4}, {a1,a3,a4}, {a1,a3}, {a2,a3}, {a3,a4}, {a3}都是上、 下近似協調集, 而{a1,a2,a4}, {a1,a2}, {a1,a4}, {a2,a4}, {a1}, {a2}, {a4}都不是上、 下近似協調集. 由此, 根據定義5可以求得該直覺模糊偏好度量序決策表的上近似約簡和下近似約簡都為{a3}.
方法2
首先, 計算該信息系統的上、 下近似辨識矩陣如表2、 表3所示.

表2 決策表的上近似辨識矩陣

表3 決策表的下近似辨識矩陣
于是, 由辨識矩陣可得:
Fσ=AT∧(a1,a3,a4)∧(a3,a4)∧(a3)=a3
Fρ=AT∧(a1,a2,a3)∧(a2,a3,a4)∧(a1,a3,a4)=a3
故得出該直覺模糊偏好度量序決策表的上、 下近似約簡為{a3}. 與方法1求得的結果一致, 這說明了10位專家判斷畫作好壞的最主要的標準是畫功, 這也完全符合人們的認知.
通過以上求解過程可以看出, 方法2的復雜度明顯要小于方法1, 方法1相對來看非常繁雜, 方法2比較簡潔, 容易理解.
利用上節給出的直覺模糊偏好度量序決策表近似約簡的辨識矩陣方法, 進行算法設計(以下近似的約簡為例, 上近似類似, 本文不再贅述)并給出詳細數值實驗.
算法1直覺模糊偏好度量序決策表的下近似約簡算法

輸出: 下近似約簡Red
1.選擇屬性子集Red←?,red←?;
2.計算得分函數Sa(x)=αμa(x)-βνa(x)-γπa(x);
3.fori=1 to |U| do
4.dec←?
5.forj=1 to |U| do
6.ifg(xi,d)≥g(xj,d) then
7.dec←xj
8.end if
9.end for
10.Dec←Dec∪dec
11.end for
12.end for//3至12步為求解決策類的過程//
13.fori=1 to |U| do
14.forj=1 to |U| do
15.Mij←?

18.Mij←A//(A={ak∈C|Sak(xi)>Sak(xj)})//
19.break
20.end if
21.end for
22.end for
23.end for//13至23步為求辨識矩陣的過程//
24.fori=1 to |U| do
25.forj=1 to |U| do
26.ifMij≠? then
27.red←red∪Mij
28.end if
29.ifi=1 then
30.Red←red
31.end if
32.Red←Red∩red
33.end for
34.end for//24至34步為根據辨識矩陣求約簡的過程//
35.end

接下來, 我們通過系列實驗來驗證算法的有效性. 實驗使用的計算機的配置如下: CPU為Intel(R) Cor e(TM) i5-6200U @ 2.30GHz, 內存為4GB, 操作系統為64位Windows 10. 環境采用Python平臺. 數據集為UCI machine learning repository的8個數據集, 如表4所示.

表4 數據集總覽
根據算法1, 求出以上數據集的約簡, 并使用該約簡分別通過KNN和SVM兩個分類器進行分類, 求出其分類的精度, 得到的精度如表5所示.

表5 在KNN與SVM下所得約簡的分類精度 %
通過表5中的實驗結果可以看到, 對算法1得到的約簡進行分類, 不論采用是KNN算法分類還是采用SVM算法分類, 分類精度都保持在一個較高的水平, 其平均精度分別為78.24和86.61, 結果較可觀.
本文在序決策表的基礎上引入了直覺模糊集以及偏好度量, 從而序決策表拓展為直覺模糊偏好度量序決策表. 本文進一步研究了基于直覺模糊偏好度量序決策表的近似約簡, 并得出了近似約簡的判定定理、 性質及其辨識矩陣, 給出了求解直覺模糊偏好度量序決策表的近似約簡的具體方法步驟, 最后通過案例對比分析了兩種求近似約簡的方法, 并且通過實際數值實驗驗證了其有效性, 為對這類復雜的決策表進行數據分析提供了新的理論基礎.