999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

可變精度鄰域區間值決策表的屬性約簡

2022-11-13 12:35:26徐偉華李思琪
西北大學學報(自然科學版) 2022年5期
關鍵詞:定義

徐偉華,李思琪

(西南大學 人工智能學院,重慶 400715)

1965年,Zadeh首次提出了模糊集的概念[1],標志著模糊數學的誕生。 該學科在1995年被ACM列為新興的計算機科學研究領域,如今正在繼續發展。 因其建立在分類基礎上,可以有效處理不完整不確定問題,所以在實踐中廣泛應用[2]。同時,區間值決策表[3-4]作為一個分支,能很好描繪不精確對象的特征,在醫學、金融、機械制造等領域意義重大。Lin和Hu在Zadeh的知識?;幕A上將鄰域引入粗糙集,以粗糙集理論為基礎,衍生出了鄰域粗糙集理論。 該理論重新定義上下近似,實現了一種全新的近似逼近。 鄰域粗糙集理論已經廣泛應用在決策分析、過程控制以及模式識別等[5-9]領域。

在使用過程中需要對屬性值進行屬性約簡。 屬性約簡是粗糙集理論研究的核心問題之一,決策表中有一些條件屬性,由于其屬性值難以測量或測量這些屬性值花費極高,需要將之刪去。 在保持分類水平不變的情況下,盡力刪除這些冗余屬性,使剩余屬性達到最簡,以降低統計難度。 這就是屬性約簡。 事實上,尋找約簡集合[10-13]是 NP-hard 問題,解決這類問題一般是采用啟發式搜索以獲得近似解。

然而,屬性約簡后的屬性值不可避免會丟失部分原始數據,導致一定程度的信息缺失,限制了粗糙集的應用范圍,為了解決這個問題,前人用鄰域關系代替等價關系,重新定義上下近似與正域,建立了可變精度鄰域決策表[14-15]及相應的屬性約簡算法。 但是現實生活中,區間值決策表應用范圍更加廣泛。 如果能將這種方法推廣到區間值決策表,會得到更廣泛的應用。

為此,本文將經典可變精度鄰域信息決策表推廣到區間值信息決策表上,定義區間距離以用于計算鄰域,用可變精度閾值計算出條件的正域,對信息表進行屬性約簡。并以屬性質量度為判斷依據,設計相應啟發式屬性約簡算法。最后,通過實驗驗證了算法的正確性。

1 基本概念

本節將介紹可變精度鄰域決策表以及區間值信息決策表的相關概念。

1.1 可變精度鄰域決策表

一個決策表[2]可表示為二元組DT=〈U,AT∪d〉,其中非空有限集合U={x1,x2,…,xn}為對象集,稱為全域或樣本空間,AT表示一個非空的有限條件屬性集合,用于描述U的實數型特征,d是決策屬性。

?x∈U,?a∈AT,a(x)表示樣本x在屬性a上的取值,而d(x)為樣本x在決策屬性d上的值,U/d={X1,X2,…,Xm}代表U被決策屬性d劃分出的決策類。

給定一個決策表DT=〈U,AT∪d〉,且鄰域半徑δ∈(0,1),則對于?x∈U,鄰域δ(x)定義為

δ(x)={xj|xj∈U,Δ(x,xj)≤δ,δ>0},

其中,Δ(x,xj)代表對象x和xj之間的距離。

給定一個決策表DT= 〈U,AT∪d〉,設集合X?U,集合Y?U,則X關于Y的錯誤分類率可表示為

定義1給定一個鄰域信息決策表NDT=〈U,AT∪d〉,該決策表中有m個等價類U/d={X1,X2,…,Xm}。對于?B?AT,引入可變精度的正確率閾值α(0.5≤α≤1)。則該精度下鄰域信息決策表相對于決策屬性d的上近似為

下近似為

正域為

其中:

傳統意義的鄰域決策表在定義上下近似時并未考慮容錯率,因此對錯誤的分類非常敏感。為了更好地處理不確定關系以及減少噪聲干擾,更常使用具有一定容錯性的可變精度鄰域決策表。

如上文所示,可變精度鄰域粗糙集的上下近似是基于α的容錯劃分,通過增大α的值,使之具有更好的覆蓋率。α越小,正域將擴大,容錯率也變大;相反的,α越大,正域越小,容錯率越小,上下近似越精確。 我們需要選擇一個合適的α,使決策表具有良好辨識性的同時,保證一定容錯率。

1.2 區間值信息決策表

一個區間值決策表可以表示為IVDT=〈U, AT∪d,VAT,f〉, 其中, 決策屬性d的取值同經典情況(即單值, 而非區間值)。Va為任意條件屬性a∈vAT的值域,那么其條件屬性值域VAT=∪a∈ATVa。信息函數f:U×AT→VAT滿足?xi∈U,?a∈AT,且f(xi,a)為一個區間值。

定義2設有兩個不同的區間A與B,區間A=[a-,a+],B=[b-,b+]。則A區間相對于B區間的優勢度定義為

由該定義易知,

1)PA≥B≠PB≥A;

2) 0≤PA≥B≤1;

3)PA≥B+PB≥A=1;

4)PA≥A=0.5。

即2個對象在條件集AT下的歐氏距離,通過這個關系,可以將區間值決策表與鄰域可變精度決策表結合到一起。顯然,它滿足如下關系,

1) Δ(x,x)=0;

2) Δ(x,y)=Δ(y,x);

3) Δ(x,z)≤Δ(x,y)+Δ(y,z)。

2 變精度鄰域區間決策表屬性約簡

本節將可變精度鄰域粗糙集引入區間值信息決策表,并提出該決策表的約簡方式。

2.1 屬性質量度

給定一個區間值鄰域決策表INDT=〈U,

AT∪d〉,其中,?B?AT,?a∈AT-B,且X是由決策屬性d劃分而出的等價類?,F有xi∈PosB∪{a}(d),xj∈PosB(d),則屬性a相對于屬性子集B的平均正確分類率的增量函數定義為

即正域改變前后其內所有樣本正確分類率求和取均值后的增量,顯然有

區間值鄰域決策表INDT=〈U,AT∪d〉,B?AT,若a∈AT-B,則a相對于屬性子集B關于決策屬性d的正域增量函數,可用正域與全域基數之比的增量表示,即文獻[13]中定義的屬性重要性,其定義為

即增加屬性a前后正域的相對改變量,顯然有

定義4區間值鄰域決策表INDT=〈U,

AT∪d〉,若?B?AT,?a∈AT-B,則a相對于屬性子集B關于決策屬性d的屬性質量度可以定義如下,

2.2 屬性約簡

給定區間值鄰域決策表INDT=〈U,AT∪d〉,若red是AT的一個約簡集合,對于?a∈red,red需滿足

1) Posred-{a}(d)

2) Posred(d)=PosAT(d)。

屬性質量度函數是正域增量與正確分類率增量的乘積,因此可以用屬性質量度表示這種正域的變化。 即,若?b∈AT-red,以上關系也可表示為

即red中任意一個屬性都是必不可少的,而red以外任意一個屬性對red都是冗余的。 這與經典集的定義是幾乎一致的,只是增加了數值?;选?這樣可以保證約簡red與全部條件屬性具有相同的分辨能力的同時達到最精簡。

給定區間值鄰域決表INDT=〈U,AT∪d〉,若B1,B2,…,Bn是該表的全部約簡集合,則稱∩i≤nBi為此信息決策表的核。

3 案例分析

為了說明上一節屬性約簡的具體機理,本節給出一個具體案例以進行詳細分析。

現從一個信息表中中抽取8個數據組成一個小型區間值信息決策表INDT=〈U,AT∪d〉,U={x1,x2,x3,x4,x5,x6,x7,x8},決策屬性d={Rainfall}(Y代表降雨,N代表未降雨)。條件集AT={Vegetation,Humidity,Airflow Rainfall}。 為方便后續計算,以首字母簡寫代替。 并對其進行歸一化,將區間值映射到[0,1],處理后的信息決策表見表1。

表1 關于降雨的影響因素的信息決策表

若選取鄰域為δ=0.3,正確率閾值α=0.8,以此表為實例進行計算。依次計算所有屬性子集的鄰域,如表2所示。

表2 所有屬性子集的鄰域

根據表1,決策屬性Rainfall將論域劃分為2個等價類:X1={x1,x4,x5,x6,x8},X2={x2,x3,x7},初始化約簡集合red=?。

根據前文的定義,首先分別求得3個條件及條件全集的正域,

Pos{V}(R)={x1,x3,x4,x5,x6,x7,x8},

Pos{H}(R)={x1,x3,x4,x5,x7,x8},

Pos{A}(R)={x1,x3,x4,x5,x6,x7,x8},

Pos{AT}(R)={x1,x2,x3,x4,x5,x6,x7,x8}。

進一步可求出3個條件的屬性質量度,

根據計算結果,選取屬性質量度最高的條件V或A,即red1={V},red2={A}。

如果選取red1為約簡集合,再分別計算{V,H}、{V,A}的正域,

Pos{V,H}(R)={x1,x2,x3,x4,x5,x6,x7,x8};

Pos{V,A}(R)={x1,x3,x4,x5,x6,x7,x8}。

再分別計算條件H與條件A相對與red1的屬性質量度,

說明條件A對于red1是冗余的,選取屬性質量度最大的條件H將其加入到約簡集合red1。

又因Pos{V,H}(R)=PosAT(R),即正域不再發生變化,所以red1={Vegetation,Humidity}即為約簡集合。

同理,可求出red2={Humidity,Airflow}也是一個約簡集合,2個約簡集合的交集{Humidity}為該信息表的核。結果如表3所示。

表3 約簡集合及核

4 算法設計與數值實驗

4.1 算法設計及時間復雜度分析

具體算法如算法1所示。

算法1關于可變精度鄰域區間值決策表屬性約簡的啟發式算法

輸入 區間鄰域決策表 IVDT= 〈U,AT∪d〉,可變精度閾值α,鄰域取值δ。

輸出 屬性約簡集合 red。

1) begin

2) computeU/d={X1,X2,…,Xm};

3) red←?;Qmax←0; /*初始化約簡集合和屬性質量度*/

4) fora∈AT - red do

5) forx∈Udo

6) computeδ(x);/*計算全體對象在{a}∪red下的鄰域*/

7) end

12) end

13) end

14) ifQmax>0 then

15) red←red ∪{amax}; /*屬性質量度最大的屬性被加入約簡集合*/

16) goto 4;

17) else

18) return red;

19) end

20) end

接下來分析該算法的時間復雜度。在該算法中,循環體主要應用于求解鄰域與計算條件的屬性質量度中。 假設一共有n個條件,最后得到的約簡集合中條件m個,在此時刻約簡了k個條件。

計算屬性質量度時,求出每個條件的正域需要循環(n-k)×|U|次,求出各條件的屬性質量度需要循環(n-k)次,這兩個循環是線性關系,所以時間復雜度為O(n×|U|)。

將新屬性添加至約簡集合的循環需要經歷(m+1)次,時間復雜度為O(n)。

綜上,時間復雜度為O(n2×|U|2)。

4.2 實驗數據與實驗環境

為了驗證算法的正確性,本次實驗選用UCI庫上的4個分類數據集。

首先將非數值型的特征值替換為數值型,對數據使用Min-Max歸一化將值映射到[0,1]區間,以消除量綱影響,隨后將其按照下列方法轉換為區間值信息決策表,使用算法對其進行屬性約簡。

此外,為驗證算法有效性,我們對其約簡前后的分類能力做了對比,按照8∶2的比例劃分訓練集和測試集,并且選用支持向量機(SVM)與梯度提升模型(GBDT)對其進行驗證。選用的數據集信息如表4所示。

表4 數據集描述

4.3 實驗結果分析

實驗研究了算法在不同鄰域閾值δ(0.4~0.6)和不同可變精度閾值α(0.6~0.9)下得出的約簡集合以及約簡前后分類預測準確率的變化。比較分類精度變化需要對樣本進行機器學習,此時選取的鄰域和變精度為

σ=0.5,α=0.7

以此判斷約簡集合是否可以近似代表整個系統的信息。

圖1反應了約簡前后的數據集在支持向量機(SVM)和梯度提升決策樹(GBDT)下的分類準確率的變化。表5為在上述參數下約簡前后的準確率。實驗結果表明,約簡后的分類準確率均不小于約簡前的準確率。 說明算法選擇的屬性可以有效地近似數據集的分類能力。

表5 一定條件下約簡前后的分類精度

圖1 4種數據集約簡前后的準確率

表6為4個數據集使用本文的方法得出的約簡集,其中的元素是決策屬性的序號,可見在某些條件下約簡集合不止一個。

表6 數據集的約簡集結果

同時,本文選2兩種約簡算法作為對比算法,分別是來自參考文獻[3]中的RDAR算法和誤分代價算法,比較了3種約簡算法的準確率,結果如圖2所示??梢姳疚乃惴ㄔ?個數據集上的準確率基本大于另外2種算法。

圖2 3種約簡算法準確率

5 結語

本文在基于可變精度鄰域關系的區間值決策信息表的模型下,提出區間距離計算公式,并基于此提出該信息表中上下近似、核和正域的概念。 同時,為了刪除在數據采集過程中存在的一些不必要的條件屬性,本文使用正域以及分類正確率的變化定義了屬性質量度,設計了一種啟發式屬性約簡算法,并通過實驗驗證了該算法的有效性。實驗結果表明,該算法選擇的屬性可以近似原數據集的分類能力。

猜你喜歡
定義
以愛之名,定義成長
活用定義巧解統計概率解答題
例談橢圓的定義及其應用
題在書外 根在書中——圓錐曲線第三定義在教材和高考中的滲透
永遠不要用“起點”定義自己
海峽姐妹(2020年9期)2021-01-04 01:35:44
嚴昊:不定義終點 一直在路上
華人時刊(2020年13期)2020-09-25 08:21:32
定義“風格”
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
有壹手——重新定義快修連鎖
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
主站蜘蛛池模板: 日本在线欧美在线| 国产成人精品高清不卡在线| 久久天天躁夜夜躁狠狠| 国产成人精品一区二区不卡| 亚洲伦理一区二区| 久久综合结合久久狠狠狠97色 | 亚洲男人的天堂久久香蕉| 啪啪啪亚洲无码| 国产麻豆91网在线看| 亚洲国产成人久久77| 久久精品这里只有精99品| 亚洲69视频| 婷婷亚洲最大| 四虎影视8848永久精品| 国产96在线 | 亚洲无码91视频| 亚洲天堂啪啪| 国产精品永久免费嫩草研究院| 欧洲欧美人成免费全部视频| 91久久偷偷做嫩草影院电| 久久精品这里只有国产中文精品 | 蝴蝶伊人久久中文娱乐网| 欧美精品亚洲二区| av手机版在线播放| 国产欧美视频综合二区 | 在线五月婷婷| 91视频青青草| 亚洲无码37.| 国产在线自乱拍播放| 在线欧美日韩| 国产一区二区三区夜色| 永久成人无码激情视频免费| 综合色88| 欧美亚洲国产精品久久蜜芽| 国产拍揄自揄精品视频网站| 亚洲成AV人手机在线观看网站| 无码丝袜人妻| 欧美高清国产| 亚洲欧美人成电影在线观看| 中美日韩在线网免费毛片视频| 亚洲精品成人片在线观看| 亚洲欧洲天堂色AV| 97综合久久| 噜噜噜久久| 狠狠色狠狠色综合久久第一次| 91成人免费观看| 久久男人视频| 国产91精品最新在线播放| 找国产毛片看| 欧美啪啪网| 久久精品亚洲热综合一区二区| 亚洲无码日韩一区| 国产成人欧美| 99久久精彩视频| 伊人久久大香线蕉影院| 久久综合九九亚洲一区| 美女亚洲一区| 99无码熟妇丰满人妻啪啪| 色老头综合网| 久久精品人人做人人| 婷婷亚洲视频| 国产拍在线| 丁香六月激情综合| 欧洲熟妇精品视频| 久久国产精品77777| 一本色道久久88综合日韩精品| 日韩毛片免费观看| 成年人久久黄色网站| 亚洲成A人V欧美综合| 无码精品福利一区二区三区| 2022国产无码在线| 久久天天躁狠狠躁夜夜躁| 香蕉eeww99国产在线观看| 免费毛片全部不收费的| 日韩一区二区三免费高清| 无码精品福利一区二区三区| 91精品啪在线观看国产| 一本大道视频精品人妻 | 亚洲欧美日韩中文字幕一区二区三区| 91免费国产高清观看| 一级毛片无毒不卡直接观看| 制服丝袜 91视频|