999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于密度的半監(jiān)督聚類算法研究

2018-10-13 07:58:08姜美羨
現代計算機 2018年23期
關鍵詞:監(jiān)督信息

姜美羨

(四川大學軟件學院,成都 610065)

0 引言

在很多數據挖掘的實際問題中,數據集包括大量無標記的數據,輔以少量先驗知識作為監(jiān)督信息。半監(jiān)督學習介于無監(jiān)督學習和監(jiān)督學習之間,使用少量的有標記數據樣本來輔助學習[1]。理論研究表明,即使是少量的有標記樣本數據也能大幅度提升對應的無監(jiān)督學習模型的效果[2]。

根據監(jiān)督信息的使用方式,現有的半監(jiān)督聚類算法可分為三類[3]:①基于約束的方法,使用監(jiān)督信息約束聚類的搜索過程。②基于距離的方法,利用標記數據訓練一種相似性度量,然后用基于距離量度的聚類算法進行聚類。③將這兩類方法結合在一起使用。

本文通過改進傳統(tǒng)的密度聚類算法DBSCAN[4]得到半監(jiān)督聚類算法SDBSCAN,是一種基于約束的半監(jiān)督聚類算法。此算法相對于Lelis等人[5]和Ruiz等人[6]提出的基于密度的半監(jiān)督聚類算法來說,具有監(jiān)督信息無需覆蓋所有聚類簇和無需事先指定聚類的目標簇數的優(yōu)點。SDBSCAN不僅能有效利用監(jiān)督信息形成已知聚類簇,還能根據數據的分布密度特性,自動地形成新的未知聚類簇。

1 算法原理

本文通過三個步驟來擴展DBSCAN以得到半監(jiān)督的密度聚類算法SDBSCAN。首先使用KD-Tree(K維空間分割樹)[7]將數據空間劃分為更密集的子空間,并對子空間內的數據點根據監(jiān)督信息和密度構建初始的局部集群。第二步,根據監(jiān)督信息合并屬于同一類別的數據點所在集群。第三步,在不合并不同標簽數據的前提下,合并密度可達的集群得到最終的聚類結果。接下來,本節(jié)對SDBSCAN算法進行詳細的介紹。

算法:半監(jiān)督密度聚類算法SDBSCAN

輸入:數據集D={x1,x2,x3…xn},已知標簽的樣本S=Ukj-1Sj,Minpts,eps

輸出:數據集D上的聚類結果

function SDBSCAN(D,S,Minpts,eps)

kdtree=BuildKDTree(D)

for每個葉子節(jié)點v∈kdtree

if?xi,xj∈v,xi∈Sa,xj∈Sa,a≠b then

葉節(jié)點中的每個點各形成一個集群

else

for每個未處理的數據樣例點xi∈v

if|Neps(xi)|>=Minpts then

xi標記為CORE_POINT,并將?x∈Neps(xi)標記為同一集群

else xi標記為NOISE_POINT

for i=1,2,…,k

for x∈Si

合并與x屬于同一集群的點

for xi∈CORE_POINT

min=eps

for xj∈CORE_POINT

if dist(xi,xj)≤min

min=dist(xi,xj)

將xi屬于的集群與xj屬于的集群標記為同一集群

for xi∈NOISE_POINT

min=eps

for xj∈CORE_POINT

if dist(xi,xj)≤min

min=dist(xi,xj)

將xi標記為與xj同一集群

return所有的類別

2 實驗

對本文提出的基于密度的半監(jiān)督聚類算法SDB?CAN進行了相關的實驗研究并通過比較此算法在多個數據集上的蘭德指數,得到了較好聚類效果。

2.1 評價指標

為了對檢測效果進行更好地評價,利用調整蘭德指數(ARI)[8]對聚類結果進行客觀評價。

用X表示實際類別信息,Y表示聚類結果,a表示在X與Y中都是同類別的元素對數,b表示在X與Y中都是不同類別的元素對數。是數據集中可以組成的總元素對數。ARI取值范圍為[-1,1],值越大表明聚類結果與真實情況越吻合。

2.2 數據集和實驗結果

實驗使用的數據集是來自UCI機器學習標準數據集[9]中的三組現實數據集iris、ionosphere和banknote。表1列出了數據集的名稱、樣本數、數據維度和類別信息。

表1 實驗數據集

以10%的增長從0到1選取11個不同百分比值,然后給出對應百分比值的樣本的標簽作為約束信息。在約束集隨機選取的情況下,在三個數據集上進行100次獨立的實驗,計算得到一系列調整蘭德指數的平均值。

表2 SDBSCAN在不同大小約束集上的聚類效果圖

用橫坐標表示約束集占樣本集的比例,縱坐標表示根據聚類結果得到的蘭德指數值,繪制并連接實驗結果數據點得到圖1所示的曲線圖。

圖1 SDBSCAN在不同大小約束集上的聚類效果圖

3 結果和分析

由圖1的實驗結果可見,在未加入約束條件時,SDBSCAN的聚類效果等同于DBSCAN。在加入少量約束后,SDBSCAN與DBSCAN相比,性能有明顯提高。圖1所示的曲線表明,SDBCAN明顯克服了DB?SCAN的缺點,實現了對數據集較準確的聚類。數據集iris和banknote分別在加入了10%和20%的約束信息的情況下蘭德指數超過了0.8,聚類準確度實現了明顯的提升。此外,由于約束集中的樣本是隨機選擇的,所以實驗結果表明少量的隨機選取的約束集足以使得SDBCAN得到很好地聚類結果,沒有必要為了更好的聚類效果增加約束集的大小。

基于密度的聚類是一種很實用的簡單算法,而將其半監(jiān)督化可以極大地提高其準確性和穩(wěn)定性。本文的下一步工作是從不同的視角對算法進改進,并選取一種半監(jiān)督聚類算法在更大規(guī)模的真實數據集上與之比較。

猜你喜歡
監(jiān)督信息
突出“四個注重” 預算監(jiān)督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
監(jiān)督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
夯實監(jiān)督之基
人大建設(2017年9期)2017-02-03 02:53:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
績效監(jiān)督:從“管住”到“管好”
浙江人大(2014年5期)2014-03-20 16:20:28
監(jiān)督宜“補”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
人大監(jiān)督不能總是“心太軟”
浙江人大(2014年1期)2014-03-20 16:20:01
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 精品国产一区二区三区在线观看| 国产成人h在线观看网站站| 有专无码视频| 国产亚洲精品91| 高清色本在线www| 成年午夜精品久久精品| 欧美日本在线一区二区三区| 国产日韩欧美视频| 欧美一区二区啪啪| 华人在线亚洲欧美精品| 中文字幕 91| 国产精品私拍在线爆乳| 亚洲男人的天堂久久香蕉| 国产精品一区不卡| 18禁不卡免费网站| 青青青视频91在线 | 国产精品第5页| 国产精品偷伦视频免费观看国产| 无码日韩人妻精品久久蜜桃| 熟妇丰满人妻av无码区| 亚洲Aⅴ无码专区在线观看q| 国产三级精品三级在线观看| 免费看美女自慰的网站| 伊人大杳蕉中文无码| 精品91在线| 国产乱子伦精品视频| 亚洲婷婷丁香| 成人另类稀缺在线观看| 亚洲日韩AV无码一区二区三区人| 午夜高清国产拍精品| 无码中文AⅤ在线观看| 国产91导航| 无码中文AⅤ在线观看| 亚洲侵犯无码网址在线观看| 国产后式a一视频| 欧美精品一区在线看| 国产日韩av在线播放| 精品国产免费人成在线观看| 2021天堂在线亚洲精品专区| 免费a级毛片18以上观看精品| 久久国产亚洲欧美日韩精品| 青青草原国产一区二区| 亚洲成人黄色在线| 国产成人喷潮在线观看| 亚洲无码高清免费视频亚洲| 18禁色诱爆乳网站| 99视频国产精品| 国产一区二区精品福利 | 日韩精品久久无码中文字幕色欲| 欧美激情首页| 欧美一区日韩一区中文字幕页| 欧美精品啪啪| 国产精品不卡永久免费| 日本亚洲成高清一区二区三区| a色毛片免费视频| 日韩色图在线观看| 无码国产伊人| 香蕉久久永久视频| 亚洲午夜福利在线| 99re精彩视频| 国产真实乱子伦精品视手机观看 | 91九色国产在线| 色婷婷色丁香| 毛片在线看网站| 成人中文字幕在线| 亚洲二三区| AV熟女乱| 亚洲av无码牛牛影视在线二区| 亚洲国产成人在线| 五月激激激综合网色播免费| 99视频在线免费| 啦啦啦网站在线观看a毛片| 国产精品真实对白精彩久久 | 在线免费无码视频| 国产毛片不卡| 高清不卡毛片| 亚洲欧美极品| 国产福利免费视频| 久久久久久久97| 国产高清无码麻豆精品| 午夜爽爽视频| 亚洲人成电影在线播放|