基于曲線距離分析的嵌入式增強聚類算法

2021-10-18 01:51:02吳艷萍王紅軍李天瑞西南交通大學信息科學與技術學院四川成都611756

計算機應用與軟件 2021年10期

吳艷萍王紅軍李天瑞鄧萍(西南交通大學信息科學與技術學院四川成都 611756)

0 引言

隨著互聯網技術高速發展，降維技術和聚類技術已經在數據分析領域中被廣泛使用。聚類是在沒有任何先驗知識的情況下，根據某種規則將數據分為不同的簇，同一簇內的樣本相似度高，不同簇的樣本相似度低[1]。聚類技術廣泛應用于市場分析、醫療衛生、數據挖掘及金融投資等領域。降維是指利用某種映射規則將高維空間的數據映射到低維空間中[2]。高維數據對提取數據中隱藏的信息造成了很大不便，高維數據樣本的某些特征對數據分析沒有幫助，甚至干擾整個模型的性能。降維技術是處理高維數據、提升模型性能的有效手段，廣泛應用于解決維度災難問題[3-4]，實現數據可視化[5-6]、特征選擇[7-9]、消除數據冗余和降低模型噪聲[10]，可分為線性降維和非線性降維。其中線性降維技術更適用于維數相對較低的數據集，數據維度很高時則需要非線性降維技術。常見的線性降維技術有主成分分析(Principal Component Analysis，PCA)[11-12]，旨在使降維后的數據在低維空間中數據的方差最大化，從而保留更多的數據信息。與傳統的線性降維技術不同，等距特征映射(Isometric Feature Mapping，Isomap)是一種可以準確檢測數據的潛在非線性結構并找到局部有意義的拓撲結構的經典非線性降維方法[13-14]。Isomap對有平坦的低維流形結構數據有很好的性能，而當數據以復雜不規則的形式組織時，其性能將會變差[15]。與Isomap相似，一種名為曲線距離分析(Curvilinear Distance Analysis，CDA)的基于曲線距離的降維方法被提出，CDA算法可以有效地檢測到高維數據空間數據潛在的內在結構[16]。一般而言，對數據進行降維是為了提高后續數據處理的效率，如聚類或者分類。然而，傳統數據分析的方法是先對數據進行降維，再對數據在投影空間進行后續的分析，其操作過程是順序進行。而本文將聚類嵌入到降維算法中，使得聚類和降維操作同步完成。

本文提出一種基于CDA的嵌入式增強聚類算法(ECE-CDA)，可以有效地將聚類算法嵌入到降維算法中，同步實現降維和聚類。本文算法是將聚類的目標與CDA的目標統一到一個整體框架之中，并且定義該框架的目標函數；應用凸優化方法求解目標函數最小值，目標函數取最小值時的降維和聚類結果即為最優的降維和聚類結果。在降維的過程中，CDA的思想使得數據點在高維空間中的相對曲線距離保持不變，而聚類的目標使得有可能劃分為不同簇的數據點之間的界限清晰。最后在12個數據集上進行實驗用以驗證ECE-CDA性能。本文主要貢獻如下：

(1) 簡化數據分析過程，不需要任何額外的標簽信息，將聚類嵌入到CDA算法中，使得聚類和降維以高準確率和低操作復雜度同步完成；

(2) ECE-CDA在保持高維數據的固有拓撲結構上性能優異，后續的數據分析方法可以高效地在投影空間執行；

微電網本質上是一種社區終端綜合能源系統,是集成各種分布式能源和負載的能實現自我控制、保護和管理的小型發配電自治系統。社區能源系統如圖1所示。

面對新時代基層統戰工作發生的新變化，針對制約基層統戰工作發展的主要因素，要始終堅持以習近平新時代中國特色社會主義思想、黨的十九大精神，特別是習近平總書記關于加強和改進統一戰線工作的重要思想為指導，以《條例》為根本遵循，進一步健全基層統戰工作的機制體制，明晰基層統戰工作職責，完善相應的剛性措施，夯實統戰工作的基礎保障。

(3) ECE-CDA可以作為同時實現聚類和降維的通用高精度框架。

1 相關工作

1.1 降維

目前，已有許多高效的降維算法被廣大學者所提出。如Wold等[17]早在1987年提出的主成分分析(PCA)選用數據的重要成分代替所有數據的特征，使得降維后的數據樣本之間的方差最大化，從而保留數據信息。在此基礎上,Sch?lkopf等[18]通過核函數將只能對數據進行線性降維的PCA算法改進為可以進行非線性降維的算法。Zhao等[19]提出了適用于大量二維圖像的PCA算法，通過使用非均勻快速傅里葉變換，有效計算圖像的膨脹系數，再將其與PCA相結合。Shashoa等[20]將線性判別分析(LDA)用于分類，提出了基于期望輸出對線性分類器進行推導，并將推導結果應用到分類中的方法。

此外，非線性降維算法也深受廣大研究者的青睞。如Roweis等[21]提出的流形學習算法局部線性嵌入(LLE)，將其輸入映射到較低維的單個全局坐標系中，并且其優化不涉及局部極小值。通過利用線性重構的局部對稱性，LLE能夠學習非線性流形的整體結構。此外，還有著名的多維標度法(MDS)，其核心思想是在低維空間保留數據點在高維空間之間的相對距離。Rohde[22]解決了MDS在低維空間中數據點投影不連續的問題。Demartines等[15]在MDS的基礎之上提出了曲線成分分析(CCA)，該算法能展開強非線性甚至封閉的圖形，其效率也大幅度提高。CCA使用歐氏距離衡量高維空間中數據點之間的成對距離，然而當樣本的維度較高時，歐氏距離不能很好地衡量兩個點之間的真實距離，因此Lee等[16]提出使用曲線距離計算數據點在高維空間中的成對距離，這種幾何度量能更準確地檢測嵌入在高維數據空間的低維流形結構。

本文中的ECE-CDA模型降維依賴于CDA的降維思想。首先，先對曲線距離分析算法進行介紹。CCA是一種非線性降維方式。假設有N個輸入向量，每個向量為P維，即{xi|i=1,2,…,N}，相應的輸出向量為d維，即{yi|i=1,2,…,N}。CCA旨在將高維空間數據樣本之間的距離關系映射到低維空間，其二次誤差函數定義為：

(1)

式中：δij和yij分別是高維輸入空間和低維輸出空間的數據點i和j之間歐氏距離；F(yij)是關于yij的單調遞減函數，其作用是在降維的過程中模型更加注重保持距離較近的數據點之間的距離。CDA是CCA的改進版本，用高維空間中任意兩點的曲線距離代替任意兩點之間的歐氏距離，因此當樣本的特征個數較多時，曲線距離能更好地檢測數據的流形結構。其目標函數為：

(2)

式中：xij是表示數據點i和數據點j在高維輸入空間之間的曲線距離；yij是數據點i和數據點j在投影空間的歐氏距離；F(yij)為單調遞減有界函數，用以保持樣本點映射到低維空間的局部拓撲結構的不變性。

1.2 聚類

聚類技術廣泛應用于數據分析和數據挖掘領域，其目標是將相似的數據點盡可能分為同一簇。經典且廣泛使用的聚類算法有很多種。如Bhargava等[23]在K均值的基礎上提出了一種基于模糊C均值的混合聚類算法，用于數值和圖像數據性能優化。Frey等[24]提出了一種全新的近鄰傳播聚類算法(Affinity Propagation，AP)，該方法將原始數據點之間的相似性作為輸入，在數據點之間傳遞實值信息，克服了傳統方法選擇隨機選擇出初始點而使聚類結果不佳的缺點。Rodriguez等[25]依據聚類中心點的密度比其他點的密度高，并且相鄰的聚類中心點之間的距離較遠的原理提出了密度峰值算法(Density Peaks，DP)，該方法可以廣泛應用于各個聚類場景。聚類算法的目標是最小化目標函數：

(3)

式中：k是類簇的個數；ys是屬于第k個類簇的數據點；Ck是第k個類；ck是第k個類的聚類中心點；m是總的類簇數。

2 ECE-CDA模型設計

2.1 ECE-CDA模型目標函數

ECE-CDA模型將聚類嵌入到降維過程中，其目標是最小化損失函數，并得到聚類結果和數據點降維之后的坐標。其目標函數定義如下：

(4)

s.t. 0<α<1,0<β<1,yij≥0,xij≥0,?i≠j

令：

(5)

(6)

式(5)中N是數據集的樣本個數。式(6)中k是每一個類的索引，Ck表示第k個類，ck表示第k個類的聚類中心點，ys是屬于第k個類的數據點，m是總的類簇數。α和β是兩個權重因子，分別平衡E1(yij)和E2(ys)對目標函數的影響程度?？紤]一個P維的輸入數據X=(x1,x2,…,xN),X∈RN×p,再令Y=(y1,y2,…,yN),Y∈RN×d表示降維后的數據集。式(5)中的xij表示數據點i和數據點j在高維輸入空間之間的曲線距離。文中使用Dijkstra[26]算法計算xij。令yij=d(yi,yj)表示數據點i和數據點j在低維投影空間之間的歐氏距離:

(7)

7.用式(16)或者式(20)更新聚類中心C；

(8)

式中：λy為常數。

2.2 ECE-CDA模型推理

針對式(4)，本文的求解目標為降維之后的聚類結果和任意兩點之間的距離，再根據全部樣本的距離矩陣求解每個樣本的坐標。式(4)是關于yij的凸函數，因此可采用批量梯度下降求解，可得其對應梯度為：

(9)

根據式(9)，每更新數據點i和數據點j之間的成對距離，必須計算其他所有點的梯度和，即每更新迭代求解一個向量yi就必須考慮其他所有和向量yj(i≠j)相關向量影響的和，且更新后的值是距離，不是坐標。因此，根據隨機梯度下降的思想，每次更新只與當前實例相關，即每次更新只更新某個具體實例。yj的更新方向沿著負梯度的方向進行，更新yj時yj對應的改變量為△yj≈-▽iE(yij,ys)，其中▽iE(yij,ys)表示yj更新時E(yij,ys)對yj的梯度。E1(yij)可以表示為：

(10)

(11)

在數據集中依次選擇向量yi,暫時固定yi，逐一遍歷數據集中向量yj，?j∈{{1,2,…,N}-{i}}，然后每次使用隨機梯度更新yj。選擇yi之后，其他點yj在投影空間中的變化量即為梯度表示為：

△yj(i)=-αθ(t)▽jEij

(12)

式中：yj(i)表示當固定yi時yj的變化量。▽jEij是Eij對yj的導數；θ(t)是隨迭代次數t變化的自適應學習率函數。本文定義θ(t)為：

(13)

計算▽jEij為：

(14)

(15)

根據式(12)、式(14)和式(15)可得：

(16)

式中：Nk是第k個類的樣本個數；ys是屬于第k個類的樣本點。

13.returnY，L，C

(17)

E2(ys)可以表示為另一種形式：

在施工過程中，通常會使用多種不同類型的臨時施工構件，并需要通過Revit軟件模擬施工，根據鋼梁的實際分段情況將其分為不同的組別，支架使用長度和寬度均為1.0m的鉆孔樁為基礎，承重的立柱選擇直徑為600mm的鋼管，2個橫向鋼管之間的分配梁均使用I56工字鋼。安裝拱柱時，應提前在鋼箱拱的上端布置相應的支架，并在橋梁地面處設置長寬高分別為5m、6.5m、0.7m的支架。

(18)

聚類中心點ck可以由屬于該簇的所有數據點決定，其計算式表示為：

(19)

為了達到降維過程中使用聚類引導降維，則需要求解每一次降維迭代中有可能屬于同一類簇的點。則E(yij,ys)對ys的導數為：

在三門江林場中,為了使激勵發揮其本質作用,真正的實現獎懲分明、獎勤罰懶,就必須制定合理的績效考核制度,這也是所有企業對員工工作成果評價的重要一環。對員工的工作進行績效考評,主要體現在兩個方面,一個是對工作"量"的考評,一個是對工作"質"的考評。在績效考核中,往往是綜合這兩方面來進行,若人力資源管理只關注某一方面,工作就會過于片面?？冃Э己?需要對員工工作的優缺點進行客觀系統的評價,通過科學合理的考核制度和考核辦法,將每個員工的工作考評進行量化,得到一個最終成績,依據此成績,對員工的工作進行獎勵和懲罰決定。

(20)

9.使用式(15)更新yj；

(21)

除了使用式(19)求解聚類中心點，也可以使用梯度下降求解聚類中心點，即：

但采爾在中研院的這段時間，蔡元培在上海醫院療養。但采爾多次致信問候蔡元培，也講到他不適應南京氣候，經?；寄c疾，自己的病剛好，夫人又患類似的病，提出要提前回國。但采爾產生這個想法，除水土不服導致身體不適的原因外，更為重要的是當時上海戰事不斷，他怕近在咫尺的南京受到牽連，同時也為能否拿到月俸和返國費用而擔心。

(3)在今后的研究中可以繼續聯合實地監測數據，除植被因素外，將景觀要素和土壤要素以及周邊居民滿意度等要素，在生態重建效果評價中的重要性考慮進去。另外下一步工作中可以進一步結合多種評價方法，例如和層次分析法、灰色關聯度法、聚類分析法、模糊綜合評價法等做對比，對研究區的生態重建效果進行全面評價比較和分析。

(22)

根據式(22)，聚類中心ck的迭代形式表示為：

(23)

2.3 算法描述

ECE-CDA模型算法流程如算法1所示。

算法1ECE-CDA算法

輸入：X為一個N×p的數據集；d為低維投影空間的維度；m為類簇數；T為迭代次數。

目前國內外對于CKD-MBD療效尚無統一判定標準，本次臨床研究參照第三版《腎臟病學》［11］（王海燕主編）、2013年中華醫學會腎臟病學分會頒布的《慢性腎臟病礦物質和骨異常診治指導》［8］及《中藥新藥臨床研究指導原則》中“中藥新藥治療慢性腎功能衰竭臨床研究指導原則”［9］而制定。CKD-MBD療效判定標準：顯效：臨床癥狀積分減少在60%及以上，且血清Ca、P、iPTH至少有兩項在目標范圍［12］之內。有效：臨床癥狀積分減少在30%～60%，且血清Ca、P、iPTH只有一項在目標范圍［12］之內。無效：臨床癥狀積分減少在30%及以下，且血清Ca、P、iPTH均不在目標范圍［12］之內。

輸出：Y為一個N×d的數據集；聚類標簽L;聚類中心C。

1.使用Dijkstra算法計算xij；

2.使用X矩陣的均值和方差初始化矩陣Y，在Y中隨機選擇m個向量作為初始化聚類中心C。

3.For 1:Tdo

4.計算投影空間數據點之間的相對歐氏距離；

5.計算C中的每個點到Y中其他點的距離，結果存入discp矩陣；

6.根據discp將Y中的數據點分為m個類簇；

F(yij,λy)取為單調遞減的有界函數，其目的是在成對距離不能完全全部保持時，傾向于保持鄰近的數據點之間的距離。

袁安皺著眉道：“以谷里師父學長們的本領，是可以將蚊子除掉的，宇晴師父種一片驅蚊的花花草草，比如艾蒿什么的，司徒先生做一批可以捉蚊子的木人，不是鼓搗他那個‘刑天’，藥王他老人家配幾缸藥汁讓聾啞村的仆役們灑掃，東方谷主再讓大家練一練‘去勢’劍法，三五天必有奇效。

8.使用式(14)計算yj；

根據隨機梯度下降(SGD)的相關研究[27-28],使用SGD對損失函數求解最小值，則ys的迭代形式可以表示為：

10.使用式(19)更新ys；

11.將更新后的ys按原始順序存入Y；

12.end for

在雞的日糧中添加中藥多糖，能顯著提高雞免疫法氏囊疫苗后的抗體水平和淋巴細胞增殖，在增強免疫功能方面表現出了很好的作用，其效果明顯好于黃芪多糖，在臨床應用上中藥復方多糖效果也要好于單味多糖的效果.因此，中藥復方多糖可作為免疫增強劑廣泛應用于家禽的生產上，具有很好的研究價值與應用前景.

在為期4天的游學之旅中，游學隊伍先后轉輾河南省上蔡金豐公社、邵店分社、韓寨分社、小岳寺分社，河南省驛城金豐公社、和崗分社、程樓分社，河北省行唐金豐公社、伏流分社、上碑分社，3個金豐公社10個觀摩點，輾轉1000多公里，進行現場觀摩學習，各分社社長現場講解如何建組織配機械、如何發動農戶、如何實現服務本村農戶的過程和關鍵環節，各事業合伙人現場提問，邊聽邊記，學之所長。

3 實驗

3.1 實驗數據集

本文的實驗在12個真實有效的來自于微軟亞洲研究院多媒體[29](MSRA-MM)和UCI機器學習資料庫[30]數據集上進行。公開訪問的MSRA-MM由視頻和圖像數據集組成。其中圖像數據集包含65 433幅圖像，共有68個類別，每個類別大約包含1 000幅圖像。本文選用其中8個數據集。UCI機器學習數據庫目前大約包含488個數據集，本文選用其中4個數據集。數據集總結如表1所示。

表1 實驗數據集描述

3.2 評價指標

本節將詳細闡述評價聚類和降維性能的度量標準。本文評價聚類和降維的性能均使用三種度量標準，即準確率[31]、純度[32]、Friedman統計量[33]。準確率是根據實際的標簽信息與模型預測的標簽信息相對比而得到的比值。準確率指標計算式如下：

(24)

式中：k表示第k個類簇；m表示總的類簇數；ak表示第k個類簇中分類正確的樣本數；N表示總的樣本數。Acc的取值范圍為[0，1]，其中：Acc為0表示所有的樣本分到錯誤的簇中去；Acc為1表示所有的樣本都分到正確的類簇。

“機械工程材料基礎B”是由上海理工大學機械工程學院開設的一門學科基礎課程,授課對象是非材料類的學生,主要包括能源與動力學院和機械工程學院。這些學院的學生在今后學習專業課和進行科研工作的時候,不需要應用高深的材料學方面的知識,但卻要掌握應用需要選擇材料的方法和改進材料性能的手段,以及運用理論知識解釋工程實際中的現象等。根據機械設計制造及其自動化專業工程認證的要求,按照“評價—反饋—改進”的質量監控和持續改進機制,以“機械工程材料基礎B”的課程目標及其對畢業要求的支撐為依據,隨機抽取該專業學生的考試結果進行分析和達成度計算,探討改進教學質量的途徑,培養符合工程認證要求的畢業生。

純度計算式定義為：

(25)

通過把結構化與非結構化的信息數據統一格式、統一基準并空間化，導入到分布式文件系統HDFS中，導入完成后分布式文件系統自動觸發檔案內容提取流程，將辦公文檔、pdf、圖片、視頻等非結構化數據中的內容提取出來，按照特定的約束方式存到HBase構建的內容庫中，同時將結構化數據發布到GIS服務集群中，供數據管理層提取和訪問[3]。

本文使用Friedman統計量[33]全面評估ECE-CDA算法與其他對比算法之間的性能差異。Friedman統計是一種非參數測試的統計方法，使用該方法可以對比一組算法的性能差異。Friedman統計先將原始計算結果排序，即對不同算法在每個數據集上的準確率大小進行排序，性能最佳的為1，次優的排序為2，以此類推?；谂判虻臄抵?rank值)、數據集個數和算法個數計算Friedman統計量，其定義如下：

(26)

通過計算FF對應的F分布，查表可計算其ρ值，通過該值可評估算法性能。

(27)

3.3 實驗設置

本節詳細介紹實驗設置。首先，ECE-CDA模型的性能與多個影響因素有關，如參數的選擇、迭代次數的選擇及投影空間的維度等。投影空間維度的選擇對ECE-CDA模型性能的影響尤為顯著，一般來說投影空間維度越大，原始樣本的信息保留程度就越好。為了公平進行實驗對比，本文中投影空間的維度選擇為原始樣本維度的十分之一左右。經過參數調優選擇，t0設置為0.5，α和β分別設置為0.7和0.3。

在推理上，兩版教材的推理步驟以一步或兩步為主.與美GMH版相比，浙教版的推理主要有兩處：一是讓學生通過平方運算求平方根，體會開平方與平方運算的互逆關系(見圖9)；二是無理數的引入，強化學生對有理數、無理數以及實數概念的辨別.總的來說，浙教版的推理水平對學生要求不高，只要求學生能掌握運算關系、概念等知識即可.

在實際應用場景中，ECE-CDA可以同時高效完成聚類和降維任務，因此在評價ECE-CDA的性能時，需要從降維和聚類兩個方面分別進行評估。每個算法在每個數據集上執行10次，最終結果表示為精度為0.000 1的平均值。每個算法均使用準確率和純度兩種評價指標進行評估，最終使用Friedman統計量評估算法的綜合性能。

本文將實驗分為兩組。第一組是綜合評估ECE-CDA模型的聚類性能。本文選用的聚類對比算法為分別為用于聚類集成的基于暗知識的非負矩陣分解[34](NMFCE)、最小二乘均衡的平衡聚類[35](BCLS)、AP和DP。第二組是綜合評估ECE-CDA模型的降維性能。由于無法直接知道降維后的數據保留了多少原始數據的信息，因此本文對降維算法降維后的低維數據均使用K-means進行聚類，結合聚類評價降維性能，用降維后的低維數據的聚類結果評估降維后的數據對原始數據集的信息保留程度，本文選用的降維對比算法為CDA、Isomap、CCA和PCA。

3.4 實驗結果

1) 表2和表3是將ECE-CDA、NMFCE、BCLS、AP和DP分別應用于12個原始實驗數據集的聚類結果，其中表2準確率后括號中的數值是將原始聚類準確率轉換為rank值的結果，rank值代表不同算法在每個數據集上對準確率進行排序的序號。對于相同數據集的不同算法準確率和純度的最大值被加粗顯示。圖1將各個聚類對比算法在各個數據集上的準確率與ECE-CDA算法進行對比。

表3 ECE-CDA和聚類算法在原始數據集上的純度對比

續表3

(1) 從聚類角度而言，ECE-CDA在大多數數據集上有更高的準確率和純度值。如表2所示，ECE-CDA準確率分別在D1、D3、D4、D5、D7、D8、D9、D10、D11上取得了最大值，在超過四分之三的數據上ECE-CDA算法的準確度超過對比算法，而這四種對比算法僅在三個數據集上取得最優結果。如表3所示，ECE-CDA純度在D5、D7、D9、D11、D12數據集上取得了最好的結果。ECE-CDA在12個實驗數據集上取得了最高的平均準確率和最高平均純度。由圖1可以看出，ECE-CDA的準確率曲線在12個數據集上總體高于其他算法，這表明了ECE-CDA基于準確率這個評價指標其性能優異。由表2和表3可見，ECE-CDA在12個實驗數據集上有最高的平均準確率0.502 5和平均純度0.901 5。ECE-CDA的準確度分別比NMFCE、BCLS、AP和DP高4.93、9.60、12.35和5.86百分點?？傮w上，ECE-CDA在對數據進行聚類時，其性能明顯優于本文所選擇的對比算法。

(2) 基于Friedman統計測試對ECE-CDA聚類性能進行綜合評價，ECE-CDA聚類性能相比于其他對比算法更優異。在表2中，ECE-CDA、NMFCE、BCLS、AP和DP在各個數據集上準確率的平均rank值分別為1.250 0、2.833 3、4.333 3、3.833 3和2.750 0。其中最優是ECE-CDA為1.250 0，第二為DP，第三為NMFCE，最后兩位為AP和BCLS。Friedman統計量為：

4.8·[1.562 5+8.027 6+18.777 5+14.694 2+7.562 5-45]≈

26.996 6

則Iman-Davenport為：

2) 本次實驗5個算法，12個數據集，FF服從于自由度為5-1=4和(12-1)(5-1)=44的F分布。由F(4,44)分布計算的ρ值為1.70×10-7，所以在高顯著性水平下拒絕原假設，即綜合評價ECE-CDA算法聚類性能優于其他對比算法。

表4和表5是將CDA、Isomap、CCA和PCA分別應用于12個原始實驗數據集的降維結果，其中表4準確率后括號中的數值是將原始降維準確率轉換為rank值的結果，rank值代表不同算法在每個數據集上對準確率進行排序的序號。對于相同數據集的不同算法準確率和純度的最大值被加粗顯示。圖2詳細地將各個降維對比算法在各個數據集上的準確率與ECE-CDA算法進行對比。

表4 ECE-CDA和降維算法在降維后數據集上的準確率對比

表5 ECE-CDA和降維算法在降維后數據集上的純度對比

圖2 ECE-CDA和對比算法在降維后數據集上聚類準確率對比

(1) ECE-CDA與其他對比算法相比具有更高的準確率和純度值。在表4中，ECE-CDA在12個數據集上取得了最大準確率，ECE-CDA在六分之五的數據集上，其降維性能優于CDA、Isomap、CCA和PCA。在表5中，ECE-CDA在8個數據集上相比于其他算法取得了最大純度值?？傊?，ECE-CDA在12個數據集上準確率和準度均取得了最大值。由圖2可以看出，ECE-CDA在12個數據集上有最高平均準確率0.493 2，分別比CDA、Isomap、CCA和PCA高6.61、4.10、3.58和4.30百分點。更多ECE-CDA降維性能的細節見表4、表5和圖2。

(2) 基于Friedman統計測試對ECE-CDA降維性能進行綜合評價，ECE-CDA降維性能相比于其他對比算法更優異。在表4中，ECE-CDA和CDA、Isomap、CCA和PCA在各個降維后數據集上的K-means準確率的平均rank值分別為1.250 0、4.416 7、3.250 0、2.750 0和3.333 3。其中最優是ECE-CDA，其他依次為CCA、Isomap、PCA和CDA。Friedman統計量為：

4.8·[1.562 5+19.507 2+10.562 5+7.562 5+11.110 9-45]≈

25.466 9

則Iman-Davenport為：

本次實驗5個算法，12個數據集，FF服從于自由度為5-1=4和(12-1)(5-1)=44的F分布。由F(4,44)分布計算的ρ值為7.54×10-7，所以在高顯著性水平下拒絕原假設，即綜合評價ECE-CDA算法降維性能優于其他對比算法。

總之，ECE-CDA算法的性能達到了一個較高的水平，ECE-CDA在同時實現準確聚類和降維方面性能優異。

4 結語

本文提出了一種基于曲線距離分析的嵌入式聚類算法ECE-CDA用于同時準確實現聚類和降維。與傳統的方法不同，ECE-CDA將聚類過程嵌入在降維中，由聚類引導降維。ECE-CDA先使用Dijkstra算法計算數據點對在高維非線性空間的曲線距離，再構造權重函數保持局部拓撲結構不變性，最后在聚類的引導下將數據點之間的曲線距離投影至低維空間。ECE-CDA模型可看作一個通用的高精度框架，即用于實現同時聚類和降維。實驗結果表明所提出的ECE-CDA算法在降維和聚類上性能優異，其正確性和可行性都較高，有廣泛的應用場景。

受算法設計影響，本文每一次更新迭代都需要計算成對距離矩陣。未來將致力于研究迭代求解算法的大矩陣計算的相關問題，并引入更多的數據信息，進一步提高算法的計算速度和結果的準確度。

計算機應用與軟件2021年10期

計算機應用與軟件的其它文章: 圖計算加速器中稀疏向量比較單元的設計與實現; 面向數據可視化GUI設計的WISDOM任務模型構建; 基于RFID的航空維修工具管理系統設計; 高級計量基礎設施網絡中隱私數據聚合的改進方案; 基于雙方ECDSA的強匿名性比特幣密鑰管理方案; 灰狼算法優化分數階模糊控制器參數