999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進的距離度量的聚類算法

2012-09-26 00:16:20李健森白萬民
電子設計工程 2012年22期
關鍵詞:數據挖掘分類

李健森,白萬民

(西安工業大學 陜西 西安 710000)

K均值聚類算法作為快速聚類法[1](又稱動態聚類法)中最常用的一種,由于在計算速度上具有無可比擬的優勢,常被作為大樣本聚類分析的首選方案。其基本原理為:人為地或按照某種標準選擇初始凝聚點;依據樣品點到各初始凝聚點的歐氏距離,將樣品劃分到與其距離最近的類中,形成初始分類;再對初始分類進行修正,直到分類比較合理,不必再修正為止。而實際應用中度量分類對象的接近和相似程度并不一樣,文中定義了一種新的聚類算法的距離度量用作分類的數量指標,從而可以定量地進行分類,應用新的距離度量之后,數據點的權重不再只為1或0,而是由系數來確定,這就將硬劃分轉化為軟劃分,提高了算法的執行效率。

1 問題提出

為了度量分類對象之間的接近與相似程度,需要定義一些分類統計量,用作分類的數量指標,從而可以定量地進行分類。常用的分類統計量有距離和相似系數,它們的定義與聚類分析的類型有關。

距離是聚類分析中常用的分類統計量。要對數據對象進行聚類,一般要計算各個數據對象之間的距離(相異度)。聚類分析中距離測度的選擇一般有歐氏距離、馬氏距離、絕對距離等等。但最常用的距離度量方法是歐幾里得距離,其定義如下:

設兩個P維向量x分別表示兩個對象,它們的歐氏距離[2]為:

傳統的K均值聚類分析,不考慮對象中每個變量在聚類過程中體現作用的不同,而是統一看待,用這樣計算的距離來表示兩個對象的相似度并不確切。對象間的距離[3]表示的是對象的相近程度,而相似不僅依賴于對象間的相近程度,還依賴于對象內在的性質,即對象中每個變量的重要性是不同的。

2 解決方法

新的度量空間

其中β是一個正的常數,從這個距離函數[4]可以發現,d(x,y)是一個關于‖x-y‖的單調遞增函數,即 d(x,y)會隨著的增大而增大。下面證明d(x,y)是一個度量,即證明該度量是否滿足度量的3個條件[5]:

1)d(x,y)>0,?x≠y,d(x,x)=0

2)d(x,y)=d(y,x)

3)d(x,y)≤d(x,z)+d(z,y)

證明:

1)因為β是一個正的常數,而‖x-y‖為一個正數,從而1-exp(-β‖x-y‖2)>0,故 d(x,y)>0

2) 因為 1-exp(-β‖x-y‖2)=1-exp(-β‖y-x‖2),故d(x,y)=d(y,x)

故 d(x,y)≤d(x,z)+d(z,y),因此 d(x,y)為一個度量

眾所周知,若要使得一個點的權重更具魯棒性[6],則需滿足異常點或噪聲點的權重較小,而數據集中的緊實點的權重則應較大。這個新度量恰恰可以滿足這個要求。

應用新的距離度量得到改進的K-means算法的目標函數。

應用新的距離度量得到改進的K-means算法的中心更新公式

新的中心更新公式與經典的聚類分析算法中心更新公式的區別在于權重[7],對于傳統的K-means均值算法,每個數據點的權重或為0或為1,故傳統的K-means均值算法也稱為硬K-means算法(Hard K-Means)。應用新的距離度量之后,數據點的權重不再只為1或0,而是由系數 exp(-β‖xj-wj‖2)來確定,這就將硬劃分轉化為軟劃分。軟劃分[8]是改進聚類算法的一種強有效的方法。

3 算法實現

輸入:初始簇k和推薦池T

輸出:推薦池的中心集合CenterSet

1)k=「k/2];//起始時取「k/2]值作為 K-means 算法的初始k值

2)將評分項為0的各項以某一均值(或者設定的值)θ代替;//避免出現大規模稀疏矩陣[9]而影響推薦質量

CenterSet=k-means(T,k,CenterSet);//進行聚類操作得到k個中心,找到一個新中心

4 算法流程圖

圖1 算法流程圖Fig.1 Schematic diagram of the algorithm

5 實驗測試

我們實現了K均值算法和改進的算法,并通過實驗對兩個算法進行了對比,實驗環境采用c/s結構,服務器計算機cpu為酷睿i5,內存為4 G,數據庫為SQL Server2008,實現的編程語言為Java,選用Myeclipse作為集成開發環境。

實驗選取了一個真實的超市交易數據庫的一部分數據,對不同數目的數據分別執行2種算法,得到執行時間結果如圖2所示。

其中橫坐標為實驗數據條目數,縱坐標為執行時間。

從圖2中可以看出,改進的算法大大加快了算法的收斂速度,因此明顯縮短了算法的執行時間。

6 結 論

圖2 測試結果圖Fig.2 Results chart of the test system

文中在傳統的K均值算法的基礎上改進了距離算法,提出了一種新的距離度量代替歐式距離,避免了傳統K均值算法各個數據點的權重只能為0或為1的缺陷,應用新的距離度量之后,數據點的權重不再只為1或0,而是由系數來確定,這就將硬劃分轉化為軟劃分,提高了算法執行效率,從而能更好地在實際應用中進行聚類分析,最后通過實驗驗證了應用新的距離度量比傳統K均值算法在算法上效率確實有了一定的提高。

[1]趙立平.電了商務概論[M].上海:復旦大學出版社,2000.

[2]朱明.數據挖掘[M].北京:中國科學技術大學出版社,2002.

[3]夏惠芬,董衛民.基于關聯規則的Web挖掘技術研究[J].現代電子技術,2011(16):101-102.

XIA Hui-fen,DONG Wei-min.Based on association rules Web mining technology[J].Modern Electronic Technology,2011(16):101-102.

[4]喬智勇,劉志鏡.Web數據挖掘系統的設計及實現研究[J].計算機工程與設計,2002(7):86-88.

QIAO Zhi-yong,LIU Zhi-jing.Web data mining system design and implementation of research[J].Computer Engineering and Design,2002(7):86-88.

[5]高陽.中國數據挖掘研究進展[J].南京大學學報:自然科學版,2011(4):155-158.

GAO Yang.Chinese data mining research progress[J].Journal of Nanjing University:Natural Science,2011(4):155-158.

[6]丁金龍.基于Web數據挖掘技術下的個性化信息服務[J].現代情報,2010(3):122-123.

DING Jin-long.Based on Web data mining technology,personalized information services[J].Modern Information,2010(3):122-123.

[7]Martin Gaedke,Klaus Turowski.Integrating Web-based ecommerce applications with business application systems[J].Netnomics,2000:98-100.

[8]Schafer J B,Konstan J A,Riedl J.E-Commerce recommendation applications[J].Data Mining and Knowledge Discovery,2001:32-35.

[9]Ordonez C,Ezquerra N,Santana C A.Constraining and summarizing association rules in medical data[J].Knowledge and Information Systems,2005:76-78.

猜你喜歡
數據挖掘分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
探討人工智能與數據挖掘發展趨勢
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
給塑料分分類吧
主站蜘蛛池模板: 一级香蕉视频在线观看| 日韩第一页在线| 99久久婷婷国产综合精| 亚洲AV无码乱码在线观看裸奔| 日韩毛片基地| 国产视频自拍一区| 国产乱子伦一区二区=| 亚洲V日韩V无码一区二区| 欧美日韩一区二区三区在线视频| 午夜电影在线观看国产1区| 一本二本三本不卡无码| 欧美亚洲欧美| 欧美成人精品在线| 免费不卡在线观看av| 亚洲成人手机在线| 丝袜无码一区二区三区| 亚洲精品日产精品乱码不卡| 国产AV毛片| 在线欧美日韩国产| 91精品久久久久久无码人妻| 国产精品中文免费福利| 成人精品在线观看| 啪啪免费视频一区二区| 91网站国产| 欧美一道本| 高潮毛片免费观看| 婷婷开心中文字幕| 国产欧美日韩专区发布| 波多野结衣无码AV在线| 欧美在线视频不卡第一页| 国产乱论视频| 中文国产成人精品久久| 自拍偷拍欧美日韩| 精品视频福利| 亚洲天堂网2014| 超清无码熟妇人妻AV在线绿巨人 | 四虎精品国产AV二区| 国产尤物视频网址导航| 韩国自拍偷自拍亚洲精品| 亚洲成人免费在线| 91成人在线免费观看| 亚洲人成网站在线播放2019| 亚洲美女一区二区三区| 青草视频在线观看国产| 波多野结衣久久精品| 免费在线一区| 国产成人精品免费av| 亚洲中文精品人人永久免费| 永久成人无码激情视频免费| 国产又色又刺激高潮免费看| 热伊人99re久久精品最新地| 97在线国产视频| 国产精品黄色片| 国产91蝌蚪窝| 日韩精品中文字幕一区三区| 欧美va亚洲va香蕉在线| 超碰91免费人妻| 成人日韩精品| 国产亚洲精品资源在线26u| 国产福利一区视频| 天堂va亚洲va欧美va国产| 精品国产Av电影无码久久久| 99资源在线| 91人妻在线视频| 狠狠色噜噜狠狠狠狠色综合久| 国产不卡在线看| 在线看片国产| 久久国产高清视频| 97视频免费在线观看| 国产白丝av| 久久免费看片| 精品亚洲麻豆1区2区3区| 97在线公开视频| 欧美亚洲香蕉| 日本精品中文字幕在线不卡| 亚洲二区视频| av午夜福利一片免费看| 国产亚洲欧美日韩在线一区| 婷婷亚洲最大| 成人av专区精品无码国产| 亚洲国产精品VA在线看黑人| 九九这里只有精品视频|