駱公志,梅 燾
南京郵電大學(xué) 管理學(xué)院,南京 210003
粗糙集理論作為一種有效處理不精確和不確定性信息的有效工具[1],當(dāng)前已廣泛應(yīng)用于數(shù)據(jù)挖掘、聚類分析、預(yù)警系統(tǒng)和圖像處理等領(lǐng)域[2-5]。經(jīng)典Pawlak 粗糙集將論域分為正域和邊界域的集合,而未恰當(dāng)解釋決策類的負(fù)域,導(dǎo)致經(jīng)典粗糙集中負(fù)域恒為空。
鑒于經(jīng)典Pawlak 粗糙集存在無法描述決策類負(fù)域的問題,Yao 在長(zhǎng)期研究概率粗糙集過程中,用概率粗糙集將論域分為三個(gè)區(qū)域[6],即正域、負(fù)域和邊界域,提出符合人類實(shí)際認(rèn)知能力的三支決策模式,并依據(jù)貝葉斯最小風(fēng)險(xiǎn)決策規(guī)則,定義概率粗糙集中兩個(gè)參數(shù)在現(xiàn)實(shí)里的語義解釋,建立決策粗糙集模型[7-8]。之后有學(xué)者針對(duì)Yao 的三支決策模型并未考慮決策時(shí)所遇到的多樣性以及適應(yīng)性的現(xiàn)實(shí)問題,將其引入到鄰域[9]、動(dòng)態(tài)粒度[10-11]、群決策[12]等方面。
技術(shù)上的進(jìn)步促進(jìn)了信息科技的飛速發(fā)展,隨之導(dǎo)致了信息處理量的劇增,梁吉業(yè)等學(xué)者針對(duì)單一粒度空間下粗糙集的缺點(diǎn),考慮粒計(jì)算[13]下多粒度的特點(diǎn),提出了多粒度粗糙集[14],同時(shí)定義了悲觀多粒度粗糙集和樂觀多粒度粗糙集[15-16]。由于多粒度粗糙集模型不但可以處理分布式數(shù)據(jù)[17-18],且在處理時(shí)間上呈現(xiàn)出更加高效的特性,因此在應(yīng)用上有更加寬廣的前景。Dai 等針對(duì)多粒度粗糙集的屬性約簡(jiǎn)問題,將粒子群算法引入其中,提出一種新的多知識(shí)快速約簡(jiǎn)方法[19]。Jing 將知識(shí)粒度與視圖相結(jié)合,提出新的增量式屬性約簡(jiǎn)方法[20]。
錢宇華等學(xué)者進(jìn)一步將多粒度數(shù)據(jù)分析的理念引入決策粗糙集中,建立了多粒度決策粗糙集模型[21-23]。史進(jìn)玲從決策信息表視角出發(fā),著眼于粒度劃分?jǐn)?shù)量和粒化決策權(quán)重,提出了基于風(fēng)險(xiǎn)最小化的多粒度三支決策模型[24]。Wu針對(duì)多粒度標(biāo)記信息系統(tǒng)考慮了不同標(biāo)記尺度,提出了多粒度劃分粗糙集分析方法[25]。顧沈明在多粒度標(biāo)記信息系統(tǒng)的前提下,尋求單個(gè)粒度的最優(yōu)點(diǎn),提出了多粒度決策系統(tǒng)下的局部最優(yōu)粒度選擇[26]。Li 從集合近似的角度出發(fā),將多粒度與三支決策相結(jié)合,給定了一種新的學(xué)習(xí)認(rèn)知概念[27]。
傳統(tǒng)多粒度決策粗糙集使用單一閾值,大大限制了對(duì)論域粒化以及降低信息不確定性的能力。本文借助監(jiān)督學(xué)習(xí)中對(duì)象現(xiàn)有或預(yù)測(cè)的標(biāo)記信息[28],引入類內(nèi)閾值和類間閾值的概念,結(jié)合多粒度數(shù)據(jù)分析的優(yōu)勢(shì),構(gòu)建新的多粒度決策粗糙模型,提出了基于監(jiān)督機(jī)制的多粒度決策粗糙集,驗(yàn)證了模型的相關(guān)性質(zhì),并討論了模型之間的關(guān)系。該模型是傳統(tǒng)多粒度決策粗糙集的推廣形式,通過理論分析和實(shí)例證明,該模型可以通過變更類內(nèi)閾值和類間閾值來提升多粒度決策粗糙集刻畫不確定性知識(shí)的能力,幫助優(yōu)化決策,具有更好的實(shí)用性。
設(shè)信息系統(tǒng)S=<U,A=C?D,V,f >,A=C?D,其中U={x1,x2,…,xn}為有限對(duì)象集,稱為論域;A表示全體屬性集,C為條件屬性集,D為決策屬性集,Va為屬性a∈A的值域,f(x,a)表示對(duì)象x在屬性a上的取值。
定義1[1]設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中屬性子集Ai?A,可構(gòu)成二元不可分辨關(guān)系:

IND(A)稱為自反的、對(duì)稱的和傳遞的。
定義2[6]設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中屬性子集Ai?A,對(duì)于任意X?U,決策粗糙集的下近似、上近似和邊界區(qū)為:

其中:0 ≤β < α≤ 1 。
定義3[15]設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集,對(duì)于任意X?U,樂觀多粒度粗糙集的下近似、上近似和邊界區(qū)分別為:

定義4[16]設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集,對(duì)于任意X?U,悲觀多粒度粗糙集的下近似、上近似和邊界區(qū)分別為:

為區(qū)分類內(nèi)關(guān)系和類外關(guān)系,本文在已有研究基礎(chǔ)的前提下,給出參數(shù)λ的定義:即X與Y的交集超過一半及以上可判定為類內(nèi),否則判定為類外。
本文規(guī)定當(dāng)P(Dk|[x]Ai)>λ時(shí),采用類內(nèi)閾值α0、β0,否則采用類間閾值α1、β1。
定義5設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集。決策屬性D將U劃分為K個(gè)決策類,表示為D={Dk},k=1,2,…,n。給定類內(nèi)閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0<α0≤ 1 ,0 ≤β1≤β0≤α1≤1 。Dk的關(guān)于屬性子集A1,A2,…,Am的樂觀多粒度監(jiān)督?jīng)Q策粗糙集的下近似、上近似以及邊界區(qū)為:

當(dāng)α0=1,α1=β1=β0=0 時(shí),基于監(jiān)督機(jī)制的樂觀多粒度決策粗糙集退化為傳統(tǒng)的樂觀多粒度粗糙集。為降低信息的不確定性,采用如下方法:使類內(nèi)閾值α0等于傳統(tǒng)下近似閾值α,減小類間閾值α1,即0 ≤α1<α0≤1。
定理1設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集。決策屬性D將U劃分為K個(gè)決策類,表示為D={Dk},k=1,2,…,n。給定類內(nèi)閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。可知:

證明


同理可證(2)。
由定理1可知,基于監(jiān)督機(jī)制的樂觀多粒度決策粗糙集的下、上近似是各粒度分類規(guī)則下的下、上近似集合的并。
定義6設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集。決策屬性D將U劃分為K個(gè)決策類,表示為D={Dk},k=1,2,…,n。給定類內(nèi)閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0<α0≤ 1 ,0 ≤β1≤β0≤α1≤1。Dk的關(guān)于屬性子集A1,A2,…,Am的悲觀多粒度監(jiān)督?jīng)Q策粗糙集的下近似、上近似以及邊界區(qū)作如下定義:

當(dāng)α0=1,α1=β1=β0=0 時(shí),基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集退化為傳統(tǒng)的悲觀多粒度粗糙集。為降低信息的不確定性,采用如下方法使類內(nèi)閾值α0等于傳統(tǒng)下近似閾值α,減小類間閾值α1,即0 ≤α1<α0≤1。
定理2設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集。決策屬性D將U劃分為K個(gè)決策類,表示為D={Dk},k=1,2,…,n。給定類內(nèi)閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。可知:

證明

同理可證(2)。
定理3設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集。決策屬性D將U劃分為K個(gè)決策類,表示為D={Dk},k=1,2,…,n。給定類內(nèi)閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。可知:

證明

同理可證(2)。
由定理3可知,基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集的下、上近似是各粒度分類規(guī)則下的下、上近似集合的交。
定理4設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集。決策屬性D將U劃分為K個(gè)決策類,表示為D={Dk},k=1,2,…,n。給定類內(nèi)閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。則基于監(jiān)督機(jī)制的多粒度決策粗糙集有如下性質(zhì):

證明由定義5和定義6可得。
定義7設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集。決策屬性D將U劃分為K個(gè)決策類,表示為D={Dk},k=1,2,…,n。且類內(nèi)閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。則集合X在樂觀與悲觀條件下的分類精度作如下定義:

分類質(zhì)量分別定義為:

為說明該算法的可行性和有用性,本章將基于監(jiān)督機(jī)制的多粒度決策粗糙集應(yīng)用于工地項(xiàng)目建設(shè)后的評(píng)價(jià)問題。考慮15個(gè)已經(jīng)完成的工地項(xiàng)目,表1從三個(gè)一級(jí)指標(biāo):項(xiàng)目建設(shè)質(zhì)量評(píng)價(jià)、技術(shù)評(píng)價(jià)、環(huán)境保護(hù)評(píng)價(jià),以及相對(duì)應(yīng)的8個(gè)二級(jí)指標(biāo)(以分號(hào)劃分):樁基工程質(zhì)量、基礎(chǔ)工程質(zhì)量、主體工程質(zhì)量;工藝流程、工藝路線、工藝創(chuàng)新;“三廢”排放情況、環(huán)保設(shè)施運(yùn)行狀況進(jìn)行判別,從而得到的關(guān)于工地項(xiàng)目建設(shè)后的評(píng)估數(shù)據(jù)表。
將整個(gè)評(píng)估表看做一個(gè)完備決策信息系統(tǒng),論域U={x1,x2,…,x15}表示15個(gè)已經(jīng)完成的工地項(xiàng)目,條件屬性集合C={a1,a2,a3,a4,a5,a6,a7,a8} ,決策屬性集合D={D1,D2}分別表示驗(yàn)收通過和不通過,并分別用1和2表示,決策信息系統(tǒng)的條件屬性子集族為R={R1,R2,R3}={{a1,a2,a3},{a4,a5,a6},{a7,a8}}。其中評(píng)價(jià)指標(biāo)被分成4類e={1,2,3,4},分別表示e={優(yōu),良,中,差}。

表1 工地項(xiàng)目建設(shè)評(píng)價(jià)
基于專家經(jīng)驗(yàn),在這里以β0=0.45,β1=0.4,λ=0.5為例,調(diào)整類內(nèi)閾值α0和類間閾值α1,獲取不同情況下基于監(jiān)督機(jī)制的多粒度決策粗糙集的下、上近似集。
步驟1根據(jù)決策屬性D劃分決策類如下:

步驟2在條件屬性集子集族下,根據(jù)表1劃分等價(jià)類如下:

根據(jù)定義5~7,計(jì)算基于監(jiān)督機(jī)制的多粒度決策粗糙集的下近似和上近似分別如下。
(1)當(dāng)α0=0.8,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時(shí) ,基于監(jiān)督機(jī)制的樂觀多粒度決策粗糙集的下、上近似求得為:


基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集的下、上近似求得為:

(2)當(dāng)α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5時(shí),基于監(jiān)督機(jī)制的樂觀多粒度決策粗糙集的下、上近似求得為:

基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集的下、上近似求得為:

(3)當(dāng)α0=0.55,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時(shí),基于監(jiān)督機(jī)制的樂觀多粒度決策粗糙集的下、上近似求得為:


基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集的下、上近似求得為:

(4)當(dāng)α0=0.7,α1=0.4,λ=0.5 時(shí),此時(shí)α1< β0=0.45,因此只考慮下近似,基于監(jiān)督機(jī)制的樂觀多粒度決策粗糙集的下近似求得為:

基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集的下近似求得為:

(5)當(dāng)α0=0.7,α1=0.25,λ=0.5 時(shí),此時(shí)α1< β0=0.45,因此只考慮下近似,基于監(jiān)督機(jī)制的樂觀多粒度決策粗糙集的下近似求得為:

基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集的下近似求得為:

步驟3以基于監(jiān)督機(jī)制的樂觀和悲觀多粒度決策粗糙集為例,求得三種情況下決策類的分類質(zhì)量。
(1)當(dāng)α0=0.8,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時(shí):

(2)當(dāng)α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時(shí):

(3)當(dāng)α0=0.55,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時(shí):

以β0=0.45,β1=0.4,λ=0.5 為例,求得三種不同類內(nèi)閾值情況下,基于監(jiān)督機(jī)制的樂觀多粒度決策粗糙集的分類質(zhì)量均為100%,基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集的分類質(zhì)量分別為40%、60%、80%。對(duì)比發(fā)現(xiàn)固定β0、β1,隨著給定類內(nèi)閾值α0的不斷減少,決策信息系統(tǒng)中的對(duì)象越能被正確分類,這表明調(diào)整閾值α0,在一定程度上可降低噪聲的影響。通過實(shí)例也能看出,隨著類間閾值α1的減少也會(huì)使得樂觀與悲觀多粒度決策粗糙集的下近似集變多,即正域變大。因此根據(jù)監(jiān)督信息合理控制和調(diào)整類內(nèi)、類間閾值,能夠提高決策屬性D關(guān)于條件屬性C的分類精度,使模型具有一定的容錯(cuò)能力和很強(qiáng)的分類能力。而且觀察表1可以發(fā)現(xiàn),第五個(gè)工地屬性均為良及以上,卻被認(rèn)為驗(yàn)收不通過,基于監(jiān)督機(jī)制的樂觀多粒度決策粗糙集在三種情況下均能將該工地正確分類,可見由于人工處理的時(shí)候,會(huì)出現(xiàn)一定的誤差,而基于監(jiān)督機(jī)制的多粒度決策粗糙集能夠及時(shí)發(fā)現(xiàn),幫助人們進(jìn)行正確決策。
為進(jìn)一步驗(yàn)證模型在決策信息系統(tǒng)能夠有效分類,與經(jīng)典樂觀、悲觀多粒度決策粗糙集進(jìn)行對(duì)比,并以本文表1 案例的數(shù)據(jù)為例。當(dāng)α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5,α=0.7,β=0.4 時(shí),基于監(jiān)督機(jī)制的樂觀多粒度決策粗糙集分類質(zhì)量為100%,基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集分類質(zhì)量為60%,經(jīng)典樂觀多粒度決策粗糙集分類質(zhì)量為100%,經(jīng)典悲觀多粒度決策粗糙集分類質(zhì)量為53%。結(jié)果表明基于監(jiān)督機(jī)制的多粒度決策粗糙集對(duì)決策信息系統(tǒng)分類后,相比經(jīng)典多粒度決策粗糙集,在分類質(zhì)量上有所提高。這是由于本文構(gòu)建的新模型不僅借鑒了多粒度決策粗糙集能夠從多層次、多角度綜合考慮不同屬性子集的優(yōu)點(diǎn),更能通過調(diào)整類內(nèi)和類間閾值,使模型具有一定的容錯(cuò)能力,同時(shí)兼顧考慮屬性子集的特征,使得對(duì)象分類更為準(zhǔn)確。
為降低信息不確定性,本文引入類內(nèi)閾值和類間閾值,使決策系統(tǒng)中類對(duì)象內(nèi)的數(shù)量增加而減少類間對(duì)象的數(shù)量,將其應(yīng)用在多粒度決策粗糙集,提出一種基于監(jiān)督機(jī)制的多粒度決策粗糙集,給出了樂觀多粒度決策粗糙集和悲觀多粒度決策粗糙集兩種模型的完整定義,并著重討論了基本性質(zhì)和度量參數(shù)。通過類內(nèi)和類間閾值的不同取值可以得到不同程度的對(duì)象分類,使得本文提出的模型具有一定的穩(wěn)定性和靈活性,并有效提升多粒度決策粗糙集刻畫不確定性知識(shí)的能力。接下來,將進(jìn)一步研究類內(nèi)和類間上近似閾值間的關(guān)系、決策規(guī)則獲取和屬性約簡(jiǎn)等問題。