999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合化學反應優化與K均值的文本數據聚類

2021-08-23 04:00:20董永權
計算機工程與設計 2021年8期
關鍵詞:分子結構文本

王 琛,董永權

(1.江蘇建筑職業技術學院 信電工程學院,江蘇 徐州 221116; 2.江蘇師范大學 計算機科學與技術學院,江蘇 徐州 221116)

0 引 言

作為一種非監督學習技術,文本聚類[1]的目的是根據距離或相似性將文本文檔集合劃分為若干聚類,使得相同聚類內的文檔具有最相近的文本特征,而不同聚類內的文檔體現不同特征,它可以簡化文本處理過程,將具有固有特征的文檔聚類成集[2]。在沒有文檔分類標簽的先驗知識前提下,文本聚類需要管理非標簽的文本文檔集合。

K均值算法是一種最為簡單快速的文本聚類算法[3],算法試圖為每個文檔尋找距離最短或相似性最高的質心,并通過質心的不斷更新得到穩定聚類。但是,該算法過多依賴于初始質心選取,是一種局部最優搜索算法。為了進一步得到準確度更高的文本聚類結果,提出了一種融合化學反應算法與K均值算法的文本聚類算法,結合K均值算法的局部快速開發尋優能力和化學反應算法的全局勘探能力,以K均值得到的聚類解集合作為化學反應算法的初始分子結構群,通過4種化學反應操作,增加種群分子結構的多樣性,在擴展搜索空間的基礎上得到最優文本聚類。

1 相關研究

相關研究中,文獻[4]針對傳統K均值聚類在初始質心選取上的隨機性,為樣本點引入局部密度指標,并根據局部密度分布,選擇密度峰值點作為初始質心,得到了更高聚類準確度。文獻[5]針對特征詞稀疏性,提出結合語義的K均值聚類算法。算法以詞集表示短文本,解決了短文本特征詞的稀疏問題,還克服了對初始質心的敏感性。文獻[6]提出增強蜂群優化與K均值的文本聚類算法。首先引入克隆操作提高全局搜索能力,提高樣本多樣性并增強蜂群搜索能力;再通過克隆操作增強世代間的信息交流,提高聚類質量。元啟發式算法也常用于數據聚類分析。文獻[7]利用遺傳算法和差分進化對K均值聚類做了改進。文獻[8]利用智能蜂群算法選擇聚類中心并創建文檔聚類,建立了梯度搜索和混沌搜索兩種局部搜索增強蜂群開發能力,在收斂速度和聚類質量上具備優勢。文獻[9]結合粒子群和布谷鳥算法進行聚類分析,將粒子群生成的聚類解作為布谷鳥算法的輸入,融合兩者優勢,在F度量指標上有著優異表現。文獻[10]提出基于粒子群算法的文本聚類算法,文獻[11]提出基于遺傳算法的文本聚類算法。元啟發式算法在解決聚類問題時可能面臨早熟或收斂過快問題,這會降低種群全局搜索能力。早熟收斂問題一般與初始解的質量相關,若初始解質量較優,元啟發式算法的全局尋優也較易實現。因此,純粹的元啟發式求解方式并不一定能夠在有限時間內得到全局最優解。若可以改進初始解集的隨機選擇特征,在此基礎上利用更高效的全局搜索能力,定會在聚類解的求解速度、準確性、精確性等指標上取得均衡的優化效果?;诖丝紤],結合K均值算法的局部快速開發尋優能力和化學反應算法的全局勘探能力,以K均值得到的聚類解集合作為化學反應算法的初始分子結構群,通過4種簡單的化學反應操作,增加種群分子結構的多樣性,更快速得到不同特征的文本文檔聚類結果。

2 模 型

2.1 文本聚類模型

文本聚類即是將一個文本文檔集合D劃分為K個聚類,D表示文本文檔集合D=d1,d2,…,di,…,dn,di表示集合D中的文檔i,n表示集合D中所有文本文檔數量。每個文檔i可表示為矢量di=wi,1,wi,2,…,wi,j,…,wi,t,di即為集合D中的第i個文檔,文檔長度為t(詞條數量),wi,j表示文檔i中詞條j的權重值,利用詞頻逆文本頻率指數TF-IDF計算為

(1)

其中,TF(i,j) 為文檔i中詞條j的頻率,n為集合D內的文檔數量,DF(j) 為包括詞條j的文檔數量,IDF(i,j) 則為文檔頻率倒數。

利用矢量空間模型VSM[12],文檔集合D可表示為

(2)

文本聚類算法的目標是將文本文檔劃分為K個聚類,每個聚類擁有一個質心,表示為C=C1,C2,…,CK, 質心Ck可表示為詞條權重矢量,即Ck=c1,c2,…,ct,c1為質心Ck的位置1上的取值,t為聚類質心長度。文本聚類算法應當先計算各個文檔與各個聚類質心的距離,并將文檔劃分至距離最小的聚類質心。

2.2 聚類質量度量方式

文本文檔聚類的目的是將相似文檔劃分至同一聚類中,不相似文檔則劃分在不同聚類中。余弦相似度是度量一個文檔與聚類質心相似度的一種標準度量方式,可計算為

(3)

上式表示文檔di與聚類質心Ck的余弦相似度。wi,j表示文檔i中詞條j的權重值,wk,j表示聚類質心Ck所代表的文檔k中詞條j的權重值。可以看出,若文檔di與聚類質心Ck具有相似性,則余弦值接近于1;若文檔di與聚類質心Ck不具有相似性,則余弦值接近于0。

歐氏距離是計算歐氏空間內文檔與聚類質心的距離(相似性)的另一種計算方法。文檔di與聚類質心Ck的歐氏距離計算為

(4)

可以看到,歐氏距離取值空間在0至1之間。若文檔與聚類質心間的歐氏距離接近于0,則表明該文檔與該聚類質心具有較大相似性,可劃分至相應聚類中;若文檔與聚類質心間的歐氏距離接近于1,則表明該文檔與該聚類質心相距較遠。

聚類質心Ck的計算方式為

(5)

其中,di表示文檔i,nk表示聚類k中文檔的數量,Ck為聚類k的質心,di∈Ck表明屬于聚類k的所有文檔。該式表明聚類內所有文檔的矢量權重之和除以聚類內的文檔數量即為該聚類的質心。

2.3 聚類目標函數

由于余弦相似度可以度量文檔與質心間的相似性,歐氏距離可以度量文檔與質心間的距離,本文將相似性和距離均考慮在聚類標準的目標函數中。在為文檔選擇相應聚類質心時,應該盡可能選擇相似度高且距離最近的聚類質心,因此,聚類目標函數可設置為同步優化的雙目標形式

obj(di,Ck)=Cos(di,Ck)+(1-Dis(di,Ck))

(6)

其中,Cos(di,Ck) 表示式(3)計算的余弦相似度,Dis(di,Ck) 表示式(4)計算的歐氏距離。由公式可知,聚類時目標函數應該最大化,即余弦相似度越大,歐氏距離越小,目標函數值越大。

2.4 K均值文本聚類

K均值聚類是數據聚類領域最簡單有效的聚類算法,該算法可以通過聚類數K、初始聚類質心以及余弦相似度將文檔劃分至相似質心內,并通過若干次的質心迭代更新,直到滿足終止條件,得到最終的聚類解。算法僅利用式(3)計算文檔與質心間的相似度,并以一個矩陣A[K][n] 代表最終的文檔聚類解,其中,K表示聚類數量,n表示文檔集合中的文檔數量,矩陣元素A[k][i] 定義為

(7)

上式表明,若文檔di劃分至質心Ck,則元素A[k][i]=1; 否則,A[k][i]=0。K均值文本聚類的目標即是尋找最優的矩陣A[K][n]。 算法執行過程如下:

算法1:K均值文本聚類過程

(1)輸入: 文本文檔集合D和聚類數量K

(2)輸出: 以矩陣A[K][n]定義的聚類解

(3)randomly selectKdocuments as clusters centroidC=(C1,C2,…,CK)//隨機選擇K個文檔作為初始聚類質心

(4)initialize all elements as zeros in matrixA[K][n]//初始化聚類解矩陣

(5)foreach documentdiinDdo

(6)k=argmaxk∈{1 to K}based onCos(di,Ck)//尋找余弦相似度最大的目標聚類質心

(7) allocatedito the clusterCkandA[k][i]=1//分配文檔至聚類并更新矩陣元素

(8)endfor

(9)update the clusters centroid using Eq.(5)//更新聚類質心

(10)iftermination condition is not satisfied, return step 4; otherwise, return clustering solution and end

由于K均值算法在聚類過程中受初始質心選取的影響較大,所以較易于收斂在局部最優解上,尤其在文檔特征相差較大時,無法找到接近最優的聚類解。因此,為了避免早熟,在已有K均值聚類較強的局部開發能力基礎上,還需要進一步加強全局勘探過程。

3 融合化學反應優化和K均值的文本聚類

在若干次迭代的K均值文本聚類的結果上,本文進一步引入化學反應優化算法對文本聚類結果進行優化,尋找文本聚類結果的全局最優解?;瘜W反應優化算法CRO模擬實現了封閉容器中分子所發生的一系列化學反應及相互作用的過程,通過不斷迭代尋找分子結構的穩定狀態[13]。每一次化學反應均會使環境中生成新的分子結構,且每一個分子擁有唯一的結構。

3.1 化學分子結構的聚類解編碼及解碼

將一個分子結構編碼為一種可能的文本聚類解,每個分子由兩個原子集構成,一個原子集代表分子的元素位置,表示文檔序列,另一個原子集代表元素取值,表示對應文檔所屬的聚類質心。兩個原子集均可表示為長度為n的矢量,n為文檔總數。若文檔劃分為K個聚類,則元素取值代表的聚類質心原子的變量范圍為 [1,2,…,K]。 圖1所示為一種可能的分子結構,該分子結構表明總共有8個文檔劃分為3個文本聚類,即n=8,K=3。具體的分子結構解碼信息為:聚類C2擁有3個文檔,文檔d1、d3和d6劃分至聚類C2中;聚類C1擁有3個文檔,文檔d2、d5和d8劃分至聚類C1中;聚類C3擁有兩個文檔,文檔d3和d7劃分至聚類C3中。

圖1 化學分子結構編碼

3.2 新聚類解的生成

化學反應優化算法CRO中,分子一共會經歷4種化學反應操作:單分子碰撞、單分子分解、分子間碰撞和分子間合成。單分子碰撞與分子間碰撞對原分子結構的影響較小,主要用于在鄰域空間內搜索局部更優解,屬于局部開發過程;單分子分解和分子間合成對原分子結構的影響較大,可以較大改變原分子結構,主要用于開辟更大的搜索空間,屬于全局勘探過程。

(1)單分子碰撞

單分子碰撞是單個分子的化學反應行為,即:一個原分子Φ與封閉容器內壁會發生碰撞,生成一個新的分子結構Φ’,兩個分子在原子結構上擁有不同的特征。具體碰撞實施過程如下:首先,從表示元素位置的原子中隨機選擇一個位置,即隨機選擇一個文檔;然后,將其對應的元素取值在[1,K]間做隨機改變,生成一個新的分子結構,即:單分子碰撞會隨機改變一個文檔所屬聚類。如圖2所示的單分子碰撞示例中,隨機選擇的文檔為x=d3,原本屬于文本聚類C2,經過碰撞后,d3劃分至聚類C1中,其它分子結構保持不變,即其它文檔所屬聚類不變。得到新分子結構后,算法解碼出分子結構對應的文本聚類解,并計算聚類解的適應度。若適應度優于原分子,則保留新分子在候選聚類解中;否則,丟棄新分子。

圖2 單分子碰撞

(2)單分子分解

與單分子碰撞相似,單分子分解也是分子自身的化學反應過程,但會生成兩個新的分子結構Φ1’和Φ2’。具體分解過程如下:將原分子結構Φ劃分為奇數號文檔和偶數號文檔,奇數號文檔及其所屬聚類結構保留至新分子Φ1’中,Φ1’中偶數號文檔所屬聚類則在[1,K]內隨機生成;偶數號文檔及其所屬聚類結構保留至新分子Φ2’中,Φ2’中奇數號文檔所屬聚類則在[1,K]內隨機生成。如圖3所示的單分子分解示例中,新分子結構Φ1’中文檔d1、d3、d5和d7所屬聚類與原分子Φ保持一致,文檔d2、d4、d6和d8所屬聚類隨機生成;新分子結構Φ2’中文檔d2、d4、d6和d8所屬聚類與原分子Φ保持一致,文檔d1、d3、d5和d7所屬聚類則隨機生成。得到新分子結構后,算法解碼出分子結構對應的文本聚類解,并計算聚類解的適應度。若適應度優于原分子,則保留新分子在候選聚類解中;否則,丟棄新分子。

圖3 單分子分解

(3)分子間碰撞

分子間碰撞可以通過兩個原分子結構Φ1和Φ2生成兩個新的分子結構Φ1’和Φ2’,屬于多分子間的化學反應行為。具體碰撞過程如下:在兩個原分子結構Φ1和Φ2上隨機選擇兩個位置x和y,將Φ1中位置x和y間的文檔所屬聚類保留至新分子結構Φ1’中,其余位置上文檔的所屬聚類與Φ2保持一致,得到新分子結構Φ1’;將Φ2中位置x和y間的文檔所屬聚類保留至新分子結構Φ2’中,其余位置上文檔的所屬聚類與Φ1保持一致,得到新分子結構Φ2’。如圖4所示的分子間碰撞示例中,新分子結構Φ1’中文檔d3、d4、d5和d6所屬聚類原分子Φ1一致,文檔d1、d2、d7和d8所屬聚類原分子Φ2一致;新分子結構Φ2’中文檔d3、d4、d5和d6所屬聚類原分子Φ2一致,文檔d1、d2、d7和d8所屬聚類原分子Φ1一致。得到新的分子結構后,算法解碼出分子結構對應的文本聚類解,并計算聚類解的適應度。若適應度優于原分子,則保留新分子在候選聚類解中;否則,丟棄新分子。

圖4 分子間碰撞

(4)分子間合成

分子間合成可以通過兩個原分子結構Φ1和Φ2生成一個新的分子結構Φ’,屬于多分子間的化學反應行為。具體合成過程如下:在兩個原分子結構Φ1和Φ2上隨機選擇一個位置x,保留Φ1中位置x左側文檔所屬聚類信息至新分子結構Φ’的左側位置,保留Φ2中位置x右側文檔所屬聚類信息至新分子結構Φ’的右側位置,得到一個新分子結構Φ’。如圖5所示的分子間合成示例中,隨機位置x=4,則新分子Φ’中文檔d1、d2、d3和d4所屬聚類原分子Φ1一致,新分子Φ’中文檔d5、d6、d7和d8所屬聚類原分子Φ2一致。得到新分子結構后,算法解碼出分子結構對應的文本聚類解,并計算聚類解的適應度。若適應度優于原分子,則保留新分子在候選聚類解中;否則,丟棄新分子。

圖5 分子間合成

3.3 分子質量評估適應度

適應度函數用于評估分子結構代表的聚類解質量。本文利用平均文檔相似質心計算聚類解適應度,基于式(6)的目標函數,適應度函數綜合利用了目標函數取值在K個聚類上的均值結果,具體為

(8)

其中,nk表示聚類k中的文檔數量。

3.4 算法過程

結合K均值和化學反應優化算法CRO,本文設計了一種文本聚類算法,算法命名為KMCRO。KMCRO算法將K均值聚類生成的結果作為化學反應算法CRO的初始輸入,將K均值聚類優秀的局部開發能力和化學反應算法強大的全局勘探能力有效結合,有效避免陷入局部最優,防止聚類早熟收斂。算法2是KMCRO算法的執行過程。該算法分為兩個階段,第一階段執行K均值聚類算法,即步驟(3)~步驟(16)。該階段在若干次迭代基礎上尋找局部的最優聚類,由于僅是局部最優解,迭代次數可以設置較小,以較快的時間獲得最優解。第二階段執行化學反應算法,即步驟(17)~步驟(30),K均值聚類生成的解集合將作為化學反應算法的初始輸入。該階段在已有K均值聚類的局部最優解的基礎上進一步做全局勘探,因此其迭代次數要長于K均值階段,以便最終獲得全局最優解。融合K均值和化學反應算法的文本聚類算法KMCRO可以在局部開發能力和全局勘探能力間做出有效均衡,并最終獲得更準確的文本聚類解。

算法2: KMCRO算法

(1)輸入: 文本文檔集合D、 文檔數量n、 聚類數量K、K均值聚類迭代次數KImax、 化學反應過程迭代次數CImax

(2)輸出: 最優聚類解

(3)initialize randomly a solution setCRMwithSclustering solution

(4)fors=1 toSdo

(5) randomly selectKdocuments as clusters centroidC=(C1,C2,…,CK)

(6)forI=1 toKImaxdo

(7) initialize all elements as zeros in matrixA[K][n]

(8)foreach documentdiinDdo

(9)k=argmaxk∈{1 to K}based onCos(di,Ck)

(10) allocatedito the clusterCkand setA[k][i]=1

(11) update the clusters centroid using Eq.(5)

(12)endfor

(13)endfor

(14) transfer matrixA[K][n] into encoded solutions of CRO

(15) generate newCRMwith solutions produced byK-means clustering

(16)endfor

(17)forI=1 toCImaxdo

(18) select randomly solutionΦfromCRM

(19)call單分子碰撞

(20) compute fitness of new molecule and reserve the better molecule toCRM

(21) select randomly solutionΦfromCRM

(22)call單分子分解

(23) compute fitness of new molecule and reserve the better molecule toCRM

(24) select randomly solutionΦ1andΦ2fromCRM

(25)call分子間碰撞

(26) compute fitness of new molecule and reserve the better molecule toCRM

(27) select randomly solutionΦ1andΦ2fromCRM

(28)call分子間合成

(29) compute fitness of new molecule and reserve the better molecule toCRM

(30)endfor

(31)returnthe molecule with best fitness inCRMand encode clustering solution

算法詳細說明:步驟(1)和步驟(2)為算法的輸入輸出,步驟(3)隨機初始化一個規模為S的聚類解集CRM,針對每一個CRM中的解,執行K均值聚類算法對其更新,具體地,步驟(5)隨機選擇K個質心,步驟(7)對K均值的聚類解矩陣初始為0,步驟(8)~步驟(10)為每個文檔尋找至質心相似度最大的質心進行聚類,步驟(11)更新質心,步驟(14)將K均值矩陣聚類解轉換為化學反應算法中使用的分子結構編碼,并在步驟(15)中以所有生成的聚類解得到新的解集合CRM,化學反應算法在現有CRM基礎上做進一步聚類搜索。步驟(18)~步驟(20)執行化學反應中的單分子碰撞,步驟(21)~步驟(23)執行化學反應中的單分子分解,步驟(24)~步驟(26)執行化學反應中的分子間碰撞,步驟(27)~步驟(29)執行化學反應中的分子間合成,最終,步驟(31)輸出當前CRM中適應度最高的分子結構并解碼出文本聚類解作為KMCRO算法的最終解。

圖6所示是文本文檔完整聚類分析流程圖。流程分為3個階段,第一階段是對文本信息進行預處理,包括對詞語進行分割、移除文檔中的終止詞、提取文檔詞干并計算詞條權重值;利用詞頻逆文本頻率指數TF-IDF計算得到全部詞條權重后,即可將文檔信息表征為矢量空間模型VSM,基于VSM對文檔進行聚類分析。第二階段是利用K均值算法實現文本聚類,經過KImax次迭代后,將K均值算法生成的聚類解集轉換為化學反應優化算法的分子結構。第三階段將K均值聚類結果作為化學反應優化的初始分子結構群,經歷CImax次迭代過程的單分子碰撞、單分子分解、分子間碰撞和分子間合成4種化學反應操作后,最后輸出適應度最優的分子結構并解碼為最終的文本文檔聚類解。

圖6 文本文檔完整聚類分析流程

4 實驗分析

4.1 測試文本

利用Matlab實現融合化學反應算法與K均值的文本聚類算法KMCRO,觀察在給定測試文本數據集合中融入化學反應機制后聚類效果的變化。利用表1所示的6種基準文本數據集測試算法性能,該數據集是美國加州大學計算智能實驗室 LABIC提供的文本聚類標準數據集(http://sites.labic.icmc.usp.br/text_collections/),是經過詞條提煉后得到的數值抽象形式。數據集DS1為技術報告文摘,包含理論、人工智能、機器人和系統4類話題;數據集DS2來自Web頁面,包含山羊、生物醫學、綿羊和樂隊4類話題;數據集DS3、DS4、DS5和DS6均來自TREC,涉及的話題數分別為6、8、9、10。同時,測試數據集還給出了其包含的文檔數量和詞條數量。選擇常規K均值文本聚類算法、基于粒子群算法的文本聚類算法PSOTC[10]和基于遺傳算法的文本聚類算法GATC[11]進行對比分析。

表1 測試文檔數據集

4.2 評估指標

引入4種常用文本聚類評估指標對算法的聚類效果進行評估,包括:準確率(Accuracy,A)、精確率(Precision,P)、召回率(Recall,R)和F度量(F-meansure,F)。除此之外,通過計算迭代過程中聚類解的適度度值描述算法的收斂情況,來評估文本聚類算法的計算速度。

(1)精確率P

精確率P表示所有相關文檔與所有聚類中文檔總量的比例,計算方式為

P(i,j)=ni,j/nj

(9)

其中,P(i,j) 表示聚類j中分類i的精確值,ni,j表示聚類j中分類i的實際成員數量,nj為聚類j中的所有成員數量。

(2)召回率R

召回率R表示相關文檔的實際數量與所有聚類文檔間的比例,該指標需要根據給定的分類標簽對每個聚類進行計算,計算方式為

R(i,j)=ni,j/ni

(10)

其中,R(i,j) 表示聚類j中分類i的召回值,ni表示分類i中的實際成員數量。

(3)F度量F

F度量根據聚類精確率P和召回率R進行計算。最佳的文本聚類效果是F度量值盡量接近于1。聚類j中分類i的F度量計算為

(11)

所有聚類的F度量計算為

(12)

其中,n表示文檔集合D中的文檔總量。

(4)準確率A

準確率用于計算分配至每個聚類的真實文本文檔所占的比例,計算為

(13)

其中,K表示總聚類數量,P(i,j) 表示聚類j中分類i的精確值。

(5)適應度

即式(7)定義的聚類解的適應度值,可用于描述算法的收斂速度。

4.3 實驗分析

表2所示是4種算法在6種測試數據集合中得到的聚類精確率、準確率、召回率和F度量指標上的性能表現,加粗數值為該指標上的最優值。從整體上可以看到,本文算法在絕大多數測試文本數據中均可以得到最佳的性能指標值,在數據集DS1、DS5和DS6上算法的4個指標均是最優的。DS2和DS3中的精確率和DS4中的準確率稍有差異,但不足以影響算法的整體性能,這可能是源于第一階段中初始質心選擇的影響。在6個文本測試數據集中穩定的表現表明,本文算法結合K均值算法的局部快速開發尋優能力和化學反應算法的全局勘探能力進行文檔聚類是有效可行的。

表2 聚類指標表現

圖7是6種基準文本數據集測試得到的4種算法的適應度變遷情況。最終的穩定聚類適應度值是經過迭代進化得到的最優聚類解的適應度值。從不同類型的文本數據集的測試結果看,K均值聚類算法在多數情況下收斂較快,但其得到的適應度值最小,這是由于該算法基本是一種局部尋優算法,其最終的聚類解對于初始聚類質心的選擇較為依賴,而隨機式的初始質心選擇也加大了算法的不穩定性。兩種元啟發式對比算法通過種群進化機制對聚類解空間做了進一步擴展,加大了得到全局最優解的概率,但其隨機化的粒子初始位置以及遺傳個體的隨機性依然沒有根本解決進化個體可能出現的早熟問題。本文算法結合K均值算法的局部快速開發尋優能力和化學反應算法的全局勘探能力,以K均值得到的聚類解集合作為化學反應算法的初始分子結構群,通過4種化學反應操作,增加種群分子的多樣性,在擴展搜索空間的基礎上得到最優文本聚類結果,因此,其得到的適度值是最高的。同時,綜合6種測試數據集合的結果來看,本文算法具有很好的適應性,面對不同類型不同話題分布的文本集,基本上都可以得到最佳的聚類適應度,說明聚類效果上相似性和距離度量均做到了最優。

圖7 適應度值

圖8觀察本文算法在利用不同的聚類質量標準時的性能,即單獨利用余弦相似度度量、單獨利用歐氏距離度量以及混合雙目標度量時的表現,選擇聚類準確率A和F度量值進行評估。左側縱坐標為聚類準確率指標,右側縱坐標表示聚類F度量指標,橫坐標上的柱狀圖對應左側縱坐標,橫坐標上的折線圖對應右側縱坐標。可以看到,同步融合余弦相似度和歐氏距離在適應度函數中得到的聚類效果在所有測試文本數據集中均產生了比單目標度量更好的效果。此外,單獨以余弦相似度或歐氏距離作為聚類標準時的效果相差并大,從準確率和F度量看,余弦相似度得到的聚類效果略好一些。

圖8 聚類目標度量方式

5 結束語

提出一種融合化學反應算法和K均值算法的文本文檔聚類算法。算法首先利用K均值算法快速獲得文本聚類局部最優解集合,再以該解集合作為化學反應機制的初始輸入,在此侯選聚類解集合上進行4種分子化學反應,結合K均值的局部快速開發尋優能力和化學反應算法的全局勘探能力,得到文本聚類最優解。經過6種數據集的聚類測試,結果表明,該算法可以比基準算法獲得性能更好的聚類結果,且適應度更優,聚類準確度更高。

猜你喜歡
分子結構文本
把握分子結構理解物質的性質
中學化學(2024年5期)2024-07-08 09:24:57
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
三步法確定有機物的分子結構
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
壓裂返排液中瓜膠濃度檢測及分子結構解析
解讀分子結構考點
中學化學(2016年10期)2017-01-07 08:37:06
外電場中BiH分子結構的研究
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 亚洲第一页在线观看| 国产精品尹人在线观看| 一区二区在线视频免费观看| 91精品啪在线观看国产| 亚洲熟女偷拍| 天天干天天色综合网| 91亚洲精选| 成年av福利永久免费观看| 国产剧情国内精品原创| 熟妇丰满人妻| 国产剧情无码视频在线观看| 亚洲AⅤ无码日韩AV无码网站| 超碰aⅴ人人做人人爽欧美 | 婷婷综合在线观看丁香| 免费一级毛片在线播放傲雪网| 中文字幕天无码久久精品视频免费 | 日韩欧美国产成人| 亚洲一级毛片免费看| 99色亚洲国产精品11p| 国产精品无码AV中文| 久久久久久久久18禁秘| 欧美一级高清视频在线播放| 久热中文字幕在线观看| 毛片三级在线观看| 九九线精品视频在线观看| 久综合日韩| 日本三级欧美三级| 欧美成人a∨视频免费观看 | 国产一级α片| 国内a级毛片| 手机看片1024久久精品你懂的| 全午夜免费一级毛片| 国产精品成人第一区| 最近最新中文字幕在线第一页| 日韩av资源在线| 一级毛片无毒不卡直接观看| 亚洲欧美不卡视频| 精品久久高清| 久久公开视频| 中文国产成人精品久久| 亚洲午夜片| 中文字幕欧美日韩| 亚洲天堂网在线观看视频| 国产精品成人一区二区不卡| 国产日韩丝袜一二三区| 亚洲视频免| 亚洲国产精品一区二区第一页免 | 久久久精品无码一区二区三区| 午夜电影在线观看国产1区| 精品一区二区三区水蜜桃| 亚洲一区波多野结衣二区三区| 91在线激情在线观看| 国产精品男人的天堂| jizz亚洲高清在线观看| 伊人久久综在合线亚洲2019| 国产麻豆另类AV| 色婷婷视频在线| 特黄日韩免费一区二区三区| 又爽又黄又无遮挡网站| 久久久久久高潮白浆| 国产在线观看91精品| 国产91丝袜在线播放动漫| 毛片免费在线视频| 免费激情网址| 五月激情婷婷综合| 永久免费无码日韩视频| 欧美黄网在线| 九九这里只有精品视频| 欧美成在线视频| 国产视频 第一页| 亚洲欧美日本国产综合在线| 日韩精品中文字幕一区三区| 亚洲AⅤ波多系列中文字幕| 呦女亚洲一区精品| 在线观看欧美国产| 国产成人精品第一区二区| 亚洲午夜福利精品无码| 婷婷色狠狠干| 亚洲欧美日韩成人高清在线一区| 啦啦啦网站在线观看a毛片 | 婷婷午夜影院| 制服无码网站|