999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于FDR的證據理論改進算法

2020-06-16 01:04:58侯慶山邢進生
計算機技術與發展 2020年6期
關鍵詞:特征融合

侯慶山,邢進生

(山西師范大學 數學與計算機科學學院,山西 臨汾 041000)

0 引 言

證據理論[1]是模糊決策的有效工具,在目標識別、決策、優化[2-3]等問題中得到了廣泛的應用。為了簡化樣本在特征融合過程中的復雜性,往往在特征融合前對原始樣本的特征進行簡單的篩選、降維[4]等一系列處理。此外,樣本特征權重分配對實驗結果的影響較大,對此可以采用這樣的方法:在特征融合時,對于相互矛盾的樣本特征,可以分配較低權重或分配權重為零。但是,當數據樣本特征過多時,這樣的處理方式往往是過于復雜的。

為了減小證據沖突的影響,文獻[5]提出了一種基于將證據交集部分轉化為聯合部分的組合規則。但是,隨著沖突的增加,該方法的性能變得越來越差。文獻[6]提出了一種基于計算所有證據平均值的證據組合方法,但并沒有考慮證據權重對于融合結果的影響,將所有的權重設定為同一值。因此,為了更好地確定每個證據的權重,引入證據相似性來計算每個證據的沖突程度,模糊度較大的證據由于包含的信息少而賦予較小的權重值,這樣的證據權重分配更為合理,因此樣本分類更準確。文獻[7]提出了一種基于文獻[8]模糊度測量方法的證據組合規則,文獻[8]提出了一種改進的基于證據距離測量的平均組合方法,每個證據主體(body of evidence,BOE)的權重都被考慮在內。但文獻[8]的組合規則不能有效地處理高度沖突的證據組合。針對這一問題,文獻[7]提出了一種新的加權平均證據組合方法,一方面利用證據的距離,另一方面利用不確定性度量來確定證據主體的權重,可以得到合理的組合結果。但隨著樣本特征增多,利用不確定性度量來確定證據主體的權重變得困難。文獻[9]提出了另一種基于信息熵的證據組合規則,該方法能有效地處理高沖突證據,具有較好的收斂性能,但信息熵的確定需要經過復雜的計算,隨著樣本的特征數量及分類增多,這種方式的可行性越來越低。文獻[10]提出了一種基于證據相似性和懲罰函數的組合規則,該方法將證據分為可信證據和不可信證據兩部分。然后,用一種新的信息熵來度量證據的信息量。最后,得到每個證據的權值,并在使用Dempster組合規則之前對證據進行修改,該方法能有效地處理沖突證據,具有較好的收斂性,但對證據進行劃分時,由于劃分方法存在不足,容易對證據劃分錯誤。文獻[11]基于不一致測量值的沖突證據組合方法,提出了一種測量兩種證據沖突的新方法,通過選擇折現系數對矛盾證據進行修正,但改進后組合規則的融合效果提升不夠明顯。文獻[12-13]提出了兩種證據理論的組合方法,前者基于證據距離和模糊偏好,后者基于證據相似性和信念函數熵,然而,這兩種方案仍然存在相似性沖突,樣本特征的融合過程仍然復雜。

由于相似性碰撞現象[14]以及原始樣本特征之間存在關聯性,導致現有的證據融合規則過于復雜。此外,現有的融合規則存在無法有效降低沖突證據權重[6]的缺陷。在分析已有算法的基礎上,文中提出一種改進的證據融合算法。在樣本融合之前進行特征篩選,刪除對分類影響較小的特征,簡化初始樣本特征數量,從而降低融合過程的復雜性。相較于其他融合算法在復雜數據集上的融合過程及融合效果,該算法的過程較為簡單,融合效果更好。

1 基礎理論

1.1 D-S證據理論

Dempster和Shafer提出的證據理論是一種從不確定信息中進行決策的有效工具。它在許多領域有著廣泛應用。有關D-S證據理論的相關定義如下:

定義1:證據理論的基礎。在實際應用中,通常2Ω是在空間Ω上的所有子集的集合,2Ω={?,{θ1},{θ2},…,{θn},{θ1,θ2},…,{θ1,θ2,…,θn}}。在D-S理論中,數學基本概率分配[15-16]函數,也稱為質量函數,滿足在2Ω→[0,1]上的映射,滿足式(1)。

(1)

定義2:似然函數。似然函數滿足式(2):

(2)

m:m(A),m(B),m(C),…,m(AB),…,m(θ)

定義3:基于定義2,m(A)或m(B)是代表A或B的質量函數,根據Dempster提出的組合規則可以組合一組證據,滿足式(3)和式(4):

(3)

(4)

m是m1和m2的組合結果。當證據數量大于2時,擴展組合規則如式(5)和式(6):

m(A)=

(5)

(6)

運用上述公式可以實現證據融合,但是當某一證據的支持度較小或者不被支持時,組合結果往往是不理想的。為此,一方面可以通過引入證據權值減少此類證據的影響,另一方面可以在樣本融合前進行特征篩選,刪除支持度小的特征。

1.2 特征選擇

在樣本特征中往往存在較高的相關度,導致在計算上產生了較大消耗;此外,部分特征對預測結果往往存在不好的影響,甚至是負影響。因此針對樣本特征進行選擇,即從樣本的所有特征中選擇部分特征作為新的樣本特征,特征值在選擇前后可以改變或者不改變,但是選擇后的特征維數必然會降低。常用的特征選擇方法主要包括以下兩種:

(1)均方差分析法。

該方法一般設置某一特定的方差閾值,刪除低于閾值的特征;若方差閾值未指定,則保留所有非零方差特征,刪除樣本中具有相同值的特征。均方差分析法往往適用于樣本特征較少的數據集,利用方差對樣本數據集進行分析時,與極差和標準差相比較,方差的計算結果能夠將樣本特征的波動性放大,可以準確地觀察出某一樣本特征對于樣本分類結果的影響程度。不足之處在于,利用方差對樣本數據集進行分析要處理數據集上的全部數據,隨著數據量和樣本數的增多,計算過程將變得復雜。因此方差分析常常運用在數據量或樣本特征量較少的數據集上。

(2)主成分分析法。

主成分分析法[17]是一種分析及簡化數據集的方法,其目的是降低數據維數,盡可能地降低原始數據的復雜度并使數據損失盡可能的小。利用主成分分析法可以消減回歸分析或者聚類分析中特征的數量。在高維數據集中,許多特征之間通常是線性相關的,利用主成分分析可以減小相關特征的個數,降低樣本特征間的相關性。但是,對高維數據集進行主成分分析時,首先要確保提取的前幾個主成分的貢獻率之和應當達到較高水平;其次,對于降維后的樣本特征,特征含義一般具有模糊性。在樣本特征數量較少時,一般不采用此類方法,因此只有在高維數據集中才使用主成分分析法。

2 基于特征降維的證據理論的改進算法

原始樣本數據集進行特征降維之后,減少了相關特征的個數,對降維數據生成新的BPA。對于簡單數據集,采用方差分析法,選擇方差大于閾值的特征。對于復雜數據集,采用主成分分析法,對樣本特征進行選擇和降維處理。算法過程描述如下:

輸入:原始數據集矩陣

輸出:降維數據集矩陣

算法步驟描述如下:

(a)將初始數據按行列排成n行m列的矩陣X;

(b)將矩陣X的每一行進行零均值化處理;

(d)將特征向量按對應特征值的大小按行排列成矩陣,取前K行組成矩陣P;

(e)Y=PX即為降維到K維之后的數據,對所得數據集樣本抽樣;

(f)對抽樣樣本進行聚類,標注樣本特征以及樣本所屬類型;

(g)生成區間數模型,針對數據集的某一特征,取所有樣本中的最大值以及最小值分別作為所求區間的上界以及下界;

(h)求解某一測試樣本特征值與區間數的距離。設A=[a1,a2]和B=[b1,b2]是兩個區間數,則區間距離[18]可用式(7)計算:

本工作主要是研究冪零群、內冪零群以及內交換群所對應冪圖的一系列圖論性質.由于這類群結構比較清晰,可以對其相應冪圖或真冪圖的性質作進一步研究,主要從能否為線圖、獨立數性質、可平面性以及連通性等角度討論.特別地,由于一般群G的任意元素都與單位元相連,故在考察連通性時僅對真冪圖P?(G)進行討論.

(7)

(i)求解測試樣本特征值與區間數模型之間的相似度。設A=[a1,a2]和B=[b1,b2]是兩個區間數,相似度計算可采用式(8):

(8)

其中,α(α>0)為支持度系數。

(j)對求解的相似度進行歸一化處理,將歸一化之后的結果作為最終BPA。

算法流程如圖1所示。

圖1 算法流程

特征選擇和降維是改進算法中的關鍵環節,為了便于理解改進算法中包含的降維算法部分,舉例如下:

原始數據集矩陣X:

去均值:

特征值:

特征向量:

標準化:

選擇大特征值對應的特征向量:

利用公式Y=PX計算經過PCA降維后的數據集矩陣:

3 實 驗

3.1 數據集描述

實驗所采用數據集取自超過200 000名Instacart用戶的300多萬份雜貨訂單的樣本,該數據集是匿名的,描述客戶訂單隨時間變化的關系。主要是為了預測哪些產品更有可能出現在用戶的下一個訂單中。對于每個用戶,提供4到100個訂單,每個訂單中的產品按順序購買。還提供訂單下達的時間,包括星期和小時,以及訂單之間的相對時間度量。

3.2 數據庫介紹

每個實體(客戶、產品和訂單等)都具有關聯的唯一ID。數據表和變量名稱應該是客觀真實的。數據表order_products_prior.csv包含所有客戶的先前訂單內容,數據表orders.csv表明訂單的組別,數據表說明如表1所示。

表1 數據說明

3.3 原始數據降維處理

(1)讀取四張數據表,利用表中的關聯ID將表進行合并處理,然后選取500組合并數據進行實驗,部分合并數據如圖2所示。

圖2 數據表合并處理后部分數據

(2)利用交叉表對每一個用戶所購買的物品進行分組,分組后的部分數據如圖3所示,表中每一行代表一個用戶,每一列代表各用戶購買某物品的個數。

圖3 用戶購買情況部分數據

(3)利用主成分分析算法對數據集進行特征降維,降維后的數據集保存了原數據集90%的信息,特征數量則下降到27個,簡化了原始數據集的復雜度,部分降維后的數據如圖4所示。

圖4 降維后部分數據

(4)對降維后的數據集利用K-means[19-20]算法進行聚類分析,取出數據集中的前500個樣本,劃分為5類用戶,分別由數字0到4表示,聚類結果如圖5和圖6所示。

圖5 樣本聚類結果

圖6 聚類分布

(5)對以上聚類結果進行分析,計算聚類數據集的輪廓系數為0.612 7,因而可以判定聚類效果良好,輪廓系數可以采用式(9)進行計算:

(9)

其中,i為已聚類數據中的樣本,bi為i到其它簇的所有樣本的平均距離,ai為i到本身簇的距離平均值,最終通過計算所有樣本點的輪廓系數平均值對聚類效果進行分析評定。如果sci小于0,說明ai的平均距離大于最近的其它簇;相反的sci的值越大,說明ai的平均距離小于最近的其他簇,輪廓系數的值是介于[-1,1],越趨近于1代表數據集的內聚度以及分離度都相對良好。

3.4 對降維后的數據集生成BPA進行分類識別

(1)用降維后的樣本數據作為驗證數據庫,選擇5種用戶類型的400個樣本,每種類型各占80個,取樣本中的最大值以及最小值來構造區間數模型,如表2所示。

(2)選取100個測試樣本,5類用戶各占20個,將它們作為類別未知的測試樣本。

(3)通過計算測試樣本與區間數模型之間的相似度,求解出各特征值最終的BPA。進一步通過D-S組合規則進行特征融和,產生最終的融合結果。

(4)對融合結果進行分析,測試樣本的類型由融合結果決定,哪種類型的BPA的值最大,那么這個BPA對應的類別就是待測樣本的類別。

表2 區間數模型

續表2

3.5 實驗結果分析

為了檢驗改進算法在Instacart數據集上的分類效果,選取支持度系數α的值為5,在表2所示的區間數模型的條件下,對500個待測樣本的數據集進行測試,包括400個已知分類的訓練樣本以及100個未知類型的測試樣本。實驗得出最終的平均類型識別率為94%,對0類型以及3類型用戶的識別率達到96%,1類型以及4類型的用戶識別率達到92%,2類型用戶識別率到達94%。

4 結束語

由于傳統證據融合算法在特征融合時過于復雜,樣本間存在相似性碰撞,在復雜數據上融合效果不夠理想,證據之間存在沖突等問題。文中提出了一種基于特征降維的證據理論改進算法,并采用Instacart數據集對改進算法進行檢驗。與其他相關算法相比,改進算法簡化了證據融合過程中的復雜性,降低了原始樣本中特征關聯對于融合結果的影響。由實驗結果可知,改進算法對于分類問題的平均準確率為94%。由于主成分分析存在降維后特征含義不夠明確,證據融合過程中如何將權重合理分配給相關特征等問題,所以下一步工作可以針對特征降維方法以及權重的合理分配做出改進,進一步提高證據融合的效果。

猜你喜歡
特征融合
抓住特征巧觀察
一次函數“四融合”
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
寬窄融合便攜箱IPFS500
新型冠狀病毒及其流行病學特征認識
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
主站蜘蛛池模板: 午夜视频www| 欧美高清国产| 国产精品主播| 欧美一级专区免费大片| 91青青草视频在线观看的| 国产成人精品第一区二区| 日韩欧美色综合| 亚洲人成网18禁| 最新日韩AV网址在线观看| 久久免费看片| 日韩精品免费在线视频| 国产欧美日韩免费| 91精品国产综合久久不国产大片| 久热精品免费| 亚洲床戏一区| 一本久道久久综合多人| 视频在线观看一区二区| 一级毛片基地| 久久婷婷色综合老司机| 国产第一色| 色网在线视频| 欧美一区精品| 国产毛片不卡| 亚洲天堂啪啪| 久久久久九九精品影院| 亚洲综合狠狠| 亚洲黄色网站视频| 欧美日韩精品一区二区视频| 国产乱人伦精品一区二区| 国产一区亚洲一区| 国产激情无码一区二区APP| 色综合热无码热国产| 韩日免费小视频| 国产一级毛片网站| hezyo加勒比一区二区三区| 国产欧美日韩视频一区二区三区| 亚洲综合色区在线播放2019| 亚洲精品欧美日本中文字幕| 亚洲区欧美区| 国产精品三区四区| 亚洲欧洲日韩综合色天使| 亚洲婷婷六月| 中文字幕无码制服中字| 亚洲成人一区在线| 婷婷久久综合九色综合88| 中文字幕亚洲综久久2021| 色婷婷在线播放| 97青青青国产在线播放| 日本免费新一区视频| 欧美成在线视频| 日韩二区三区| 日韩不卡高清视频| 最新国产你懂的在线网址| 国产91精品最新在线播放| 国产福利免费视频| 一级成人a毛片免费播放| 曰AV在线无码| 成人福利在线免费观看| 一级毛片不卡片免费观看| 精品一区二区三区无码视频无码| 日韩最新中文字幕| 亚洲免费福利视频| 91麻豆国产视频| 亚洲精品777| 亚洲精品日产AⅤ| 成年人免费国产视频| 免费视频在线2021入口| av在线手机播放| 欧美a在线视频| 深爱婷婷激情网| 无码高潮喷水在线观看| 亚洲一区黄色| 色悠久久综合| 精品视频免费在线| 免费亚洲成人| 老司机久久精品视频| 色婷婷久久| 欧美精品另类| 午夜啪啪福利| 精品无码一区二区三区电影| 在线免费不卡视频| 99久久精品免费视频|