999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于流形學習的自適應反饋聚類中心確定方法

2017-09-23 21:49:25李天龍吳晟吳興蛟周海河曹敏王昕
軟件 2017年6期

李天龍+吳晟+吳興蛟+周海河+曹敏+王昕

引言

現如今,數據存在于我們生活的每一個角落,在大數據快速發展的今天,數據挖掘成了進行數據分析的有效途徑,同時也是獲取數據信息的關鍵。

在海量數據下進行研究要求對于數據規律的探索,數據的聚類就顯得尤為重要,目前對于聚類算法的研究大致歸納為五大類,分別基于分割、層次、密度、網格和模型。上述的許多聚類算法都在實際中得到了較好地運用,同時也取得了一些效果,但是這些方法都存在一個共同的不足就是需要人工調參。這種方式將給自動化生產編程帶來一定限制。

正是由于存在上述問題,尋找一種能反饋調節聚類參數的算法就有其必要。

本文在對譜聚類算法進行探究以后,提出一種基于目標條件的反饋聚類。這種聚類方式對于大多數線性流形聚類參數選擇具有一定適應性。

1相關理論

流形學習聚類隨著高維大數據問題被提出,經過幾年的研究與探索,人們提出了大量的流形學習的理論與算法。比較典型的算法有ISOMAP、LLE、拉普拉斯算子特征映射(Laplacian eigenmaps)、最大方差展開(MVU)、局部切空間分析(LTSA)等。聚類,顧名思義就是根據樣本間相似度,將數據分成不同組。其中譜聚類是流形聚類中具有代表性的一種聚類方式。

譜聚類主要由以下四個步驟步組成:

Step1,構建相似度矩陣,即計算每個數據點與其余數據點的相關系數。

Step2,計算拉普拉斯矩陣,并將其進行歸一化;

Step3,生成最大的k個特征值和對應的特征向量;

Step4,采用k-means方法對特征向量進行聚類。

2模型建立

提出的反饋聚類算法主要基于譜聚類實現,聚類數目首先隨意指定,在一次聚類結束后將聚類結果代入目標中驗證,如果未達到目標閾值則調整聚類數,進行新的聚類,直到所得聚類結果滿足聚類目標。得到結果后經過多次迭代后計算聚類數的加權平均以后得到的聚類數。反饋聚類流程圖如圖1。

2.1數據集設置

譜聚類的前提是構造相似矩陣,這就要求將不同構型或者不同維數的數據進行處理。一般根據特征值或者矩陣實際運用得到新的n階方陣。

2.2構造相似度矩陣

基于譜聚類的方法是建立在譜圖理論基礎上,其基本思想是將樣本看作頂點,樣本間的相似度看作帶權的邊,從而將聚類問題轉為圖分割問題,即找到一種圖分割的方法使得連接不同組的邊的權重盡可能低,組內的邊的權重盡可能高。與傳統的聚類算法相比,其具有能在任意形狀的樣本空間上聚類且收斂于全局最優解的優點。可根據公式1構造聚類相似矩陣。

2.3反饋譜聚類

建立如下譜聚類模型:

Step1:輸入一個MN的矩陣w,即w中一共包含N個數據點;

Step5:計算矩陣L的歸一化矩陣E的k個最大特征值及對應的特征向量,形成一個N K的特征矩陣,記為Q;

Step6:對特征矩陣Q做k-means聚類,得到一個N維向量c,c中分別對應相似度矩陣w中每一行所代表的對象的所屬類別,即最終的聚類結果。

Step7:驗證聚類結果包含目標最大子集數是否大于閾值,大于閾值則得到結果,否則調整聚類數執行Step6。

Step8:多次迭代算法得到聚類列表ListC。

2.4計算加權平均

得到列表ListC以后,針對列表中的數求加權平均數成為新的聚類數。如公式5。

3實例驗證

3.1數據集設置

實驗數據取自2016年研究生數學建模B題數據。

先從數據清洗,缺失值處理以及數據變換方面進行預處理。

數據清洗,主要通過數據統計查看有無存在ATCG四種堿基以外的其他構成。尋找到除了ATCG以外,數據還存在I和D,后來根據官方文件修正為T和C。

缺失值處理,使用函數查看數據有無空值,最后發現無缺失現象。不必進行插值以及增補。

數據變換,由于數據直接使用ATCG字符難以計算距離,所以對其進行編碼形成編碼文件。

首先將文件gene info導入后根據每一條基因對應的位點構建合適的堿基對矩陣,構建相似矩陣。

附件gene info文件夾中有300個dat文件。每個dat文件數據表示每個基因的位點信息,每個dat文件表示一個基因。和附件文件genotype.dat中的位點信息相結合進行數據挖掘和分析。附件所給出的數據格式不能滿足數據挖掘的要求,所以進行數據預處理。

將附件給出的300個文件合并導入EXCEL文件中,并對基因從上到下依次編號。局部結果如表1所示。

數據的初級預處理得到如表2所示的數據格式,表的第一列為300個基因編號,其余列為基因的位點信息。由于基因含的位點數目不同,所以在基因信息和位點信息合并時需要對缺省基因進行補缺省值得處理,采用補0。把基因位點對應表和genotype.dat導入MATLAB進行數據的第二步數據預處理,把兩個數據相互融合。以編號為l的基因為例,融合后得到如表所示的數據形式。

300個基因的數據格式如基因1位點信息格式。經過兩步數據的預處理,數據的各項要求滿足數據挖掘的信息。

3.2模型求解

硬件環境:2.6 GHz CPU,8G內存。

軟件環境:Windows7,matlabR201 3a。

根據反饋聚類操作流程,如圖2,在1000"9446高維矩陣下,設定參數最大子集閾值為4,迭代次數為100。使用MATLAB實現流行聚類算法,本文采用譜聚類方法對數據進行100次聚類分析,每次聚類會產生一種聚類分組,從基因組中選取滿足致病基因覆蓋點大于等于4的基因組作為候選組。執行完成算法后會產生100組候選數據。使用統計學方法統計100個候選組基因出現次數最多的基因。并計算中位數以及加權平均數描繪其實時曲線,進行對照。

4實驗結果與分析

迭代一百次以后,統計聚類次數,得到各次聚類曲線圖,分別計算聚類集合中位數以及聚類集合加權平均數,如圖3所示。

觀察曲線可以初步得知加權平均數更能體現統計規律。

分別將得到的中位數以及加權平均數進行聚類。得到聚類后數據與統計數據對比,對比圖4,圖5中包含統計值的數量。

最后對比得出,使用加權平均分類數得到的聚類集合更能體現統計數據。

5結論

通過反饋譜聚類方法迭代后的中位數以及加權平均數來確定聚類數,改善了流形聚類中聚類數難以確定的難題,通過不斷的適應目標從而調整聚類數,然后再通過不斷迭代后的加權平均數來得到最后的聚類值。再和得到的中位數進行聚類效果的比較,這種方式下得到的結果是:使用加權平均數獲得的聚類數更加鍥合要求。endprint

主站蜘蛛池模板: 免费国产高清精品一区在线| 国产精品第三页在线看| 亚洲AV无码久久天堂| 久热中文字幕在线| a毛片免费观看| 伊人激情久久综合中文字幕| 一级毛片中文字幕| 美女被狂躁www在线观看| 亚洲精品波多野结衣| 国产毛片片精品天天看视频| 特级毛片8级毛片免费观看| 欧美精品亚洲精品日韩专区| 91综合色区亚洲熟妇p| 欧美成人精品在线| 日本三级欧美三级| 国产精品白浆无码流出在线看| 亚洲欧洲一区二区三区| 无码电影在线观看| 国内精自视频品线一二区| 日日碰狠狠添天天爽| 日韩色图区| 色综合成人| 亚洲成人网在线播放| 无码免费试看| 理论片一区| 久久精品娱乐亚洲领先| 久操线在视频在线观看| 久久中文无码精品| 欧美第九页| 狠狠色噜噜狠狠狠狠色综合久| 欧美激情首页| 亚洲妓女综合网995久久| 67194亚洲无码| 蝌蚪国产精品视频第一页| 久久国产热| 亚洲欧美日韩视频一区| 久久综合婷婷| 色综合a怡红院怡红院首页| 萌白酱国产一区二区| 91久久偷偷做嫩草影院免费看| 久久久久免费精品国产| 色偷偷一区二区三区| 青青草综合网| 99九九成人免费视频精品| 国产精品hd在线播放| 欧美在线中文字幕| 免费看a毛片| 午夜福利无码一区二区| 日韩欧美一区在线观看| 九九热视频精品在线| 一本久道热中字伊人| 试看120秒男女啪啪免费| 日韩av在线直播| 大学生久久香蕉国产线观看| 91亚洲精品国产自在现线| 午夜老司机永久免费看片| 国内精品久久久久鸭| 亚洲91精品视频| 国产欧美日韩免费| 日韩第一页在线| 成人一级免费视频| 亚洲第一黄色网| 草逼视频国产| 精品人妻AV区| 国产精品爆乳99久久| 国产一区二区人大臿蕉香蕉| 国产男女免费完整版视频| 亚洲视频免费在线看| 538国产视频| 99这里只有精品免费视频| 日韩福利在线观看| 国内精品一区二区在线观看| 亚洲日本中文字幕天堂网| 无码aaa视频| 欧美一级在线| 色婷婷国产精品视频| 91 九色视频丝袜| 日本a级免费| 日韩国产综合精选| 亚洲国产中文欧美在线人成大黄瓜 | 五月综合色婷婷| 亚洲九九视频|