馬宏艷,楊保銀,彭仁杰



摘要:聚類算法是一種典型的無監督學習算法。本文分析了樣本度量算法及類間的度量方法,機器學習中的聚類數據劃分算法有k-平均算法、k-中心點算法,分析了兩種算法的優缺點,最后說明算法在scikit-learn中的應用。
關鍵詞:機器學習;聚類;劃分方法
中圖分類號:TP301? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)20-0009-02
Research on Clustering Data Partition Algorithm Based on Machine Learning
MA Hong-yan
(Information Engineering College, Longdong University, Qingyang 745000, China)
Abstract: Clustering Algorithm is a typical unsupervised learning algorithm. This paper analyzes the sample measurement algorithm and the measurement method between classes, The clustering data partition algorithm in machine learning includes k-something average algorithm and k-something central point algorithm. The advantages and disadvantages of the two algorithms are analyzed.
Key words: machine learning; clustering; partition method
機器學習分為四大塊,分別是classification (分類),clustering (聚類), regression (回歸), dimensionality reduction (降維)。對于一個樣本特征x,預測其對應的屬性值y,如果y是離散的,那就是分類,如果y是連續的實數,就是回歸。對于一組樣本特征S={x∈RD},沒有對應的y, 要發掘這組樣本在D維空間的分布,就是聚類問題。如果想用維數更低的子空間來表示原來高維的特征空間, 那么就是降維問題。
聚類分析在市場銷售研究、模式識別、大數據分析以及圖形圖像處理等方面被廣泛應用。在醫療中,聚類能夠幫助醫生分析已有患者病例從中發現不同的患者群;在精準扶貧的大數據中,根據已脫貧人員的實例獲得對有相同致貧原因的貧困人員定制準確的脫貧措施。
聚類是一種重要的人類活動,也是數據挖掘中用來發現數據分布和模式的一項重要技術。將物理或抽象的集合分成相似的對象類的過程稱為聚類[1](Clustering),同一類數據也稱其為簇(Cluster),這些數據對象在簇內相似,簇間相異。
定義:給定一數據集合D={P1,P2,...,Pn},其中Pi(i=1,2,...,n)稱為數據點(或對象),根據數據點間的相似程度將數據集合分成k組Ci(i=1,2,...,k)(也稱為簇)的過程稱為聚類。
1 聚類中樣本度量方法
相異性度量標準的選擇是一個聚類分析質量的關鍵,聚類算法是通過計算樣本特征空間中的距離來衡量兩個樣本間的相異度[2],當兩個樣本相異較?。ㄏ嗨戚^大)時,距離值小,反之則大。
假設a和b是相應的特征向量,m是特征的維數,則計算距離度量常用的函數有幾種:
(1) 明可夫斯基距離
a和b的明可夫斯基距離度量:
[d(a,b)=i=1m|ai-bj|r1r]? ? ? ? ? ? ? ? ? ? ? ? ?(1)
當r=1時,轉化為明可夫斯基距離的絕對值距離:
[d(a,b)=i=1m|ai-bj|]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
當r=2時,轉化為明可夫斯基距離的歐氏距離:
[d(a,b)=i=1m|ai-bj|212]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)
當r趨向于無窮大時,轉化為切比雪夫距離:
[d(a,b)=max|ai-bi|(1≤i≤n)]? ? ? ? ? ? ? ? ?(4)
在以上三種距離中,經常用的距離是歐氏距離,是因為對坐標系進行平移和旋轉變換之后,其值不變,對象的結構和原來相似。
(2) 二次距離
二次型距離測度的形式:
[d(a,b)=(a-b)TA(a-b)12]? ? ? ? ? ? ? ? ? ? ? ?(5)