金濤 戴玉剛

摘 要:文本聚類技術是一種對文本信息進行重新組織的重要手段,隨著人工智能的發(fā)展,文本聚類技術得到了廣泛的研究,文本聚類技術的算法眾多,標準眾多,但是沒有一個標準的評價體系,無法準確的、科學的評價文本聚類結果。因此本文通過對文本聚類的評價方法進行了一定的探討。
關鍵詞:文本聚類 評價 標準
中圖分類號:TP391 文獻標識碼:A 文章編號:1003-9082(2018)05-000-01
當今是一個信息爆炸的時代,互聯(lián)網信息種類繁多、內容豐富,如何能夠在這樣繁雜的互聯(lián)網信息中提取有價值的、人們感興趣的信息是現階段的主要問題。目前,人們對于文本聚類技術的研究非常之多,但是目前研究中對于文本聚類分析結果的有效性評價方法機制比較混亂,文本聚類的算法不斷地涌現,各說各的好處,但是當我們應用到實際過程中的時候,這么多的算法中我們應該選擇哪一個算法呢?因此,本文在通過大量研究前人的文獻中,總結了一些觀點與想法。
一、評價標準
在傳統(tǒng)的聚類研究當中,大致可以分為三個評價標準,分別是外部評價標準、內部評價標準和相對評價標準,本文在過大量分析研究這些標準后,總結出了兩個評價的標準,一是在聚類結果分析研究中,團內越緊密、團外越分離越好,另一種標準是聚類分析的結果與人工評價的結果越接近越好。本文認為,在不同的場合應該使用不同的評價標準,在某些情況下不能使用單一的標準,必須將兩個或者幾個標準結合來使用才能達到更好地效果。首先是在更加緊密結合人工判定結果當中,基于人工判定的結果表現更好,另外,基于人工判定的方法還能對不同的算法進行橫向的比較,同時能夠對算法的性能進行分析,最重要的是能夠在我們設定算法參數時給予一定的指導作用,讓聚類的結果更加的符合人工的判定結果。其次,函數指標本身就可以作為算法的一部分,能夠更好地適用于計算目標的選擇當中去。實際在評價機制上,并不是直接使用這兩個指標,而是在這兩個指標的指導下,衍生出來的一系列評價標準與方法。基于此標準的判定,本文通過研究發(fā)現以下兩種評價標準在傳統(tǒng)評價當中結果最好。
1.基于文檔的準確率、召回率和F-Measure值的評價標準
2.熵的評價標準
針對語料X上的聚類結果C={C1,C2,…,Cm},單獨衡量每一個簇Ci,計算簇Ci的熵 (人工判定結構為 P={P1,P2,…,Ps}):
熵是一個非常好的指標,不僅能應用到單獨一個簇的評價,同時也可以利用簇的大小進行加權計算,然后通過加權值對整個聚類結果進行評價,該指標具有很好的可比性,并且可以用于評價一個文檔屬于多個簇的聚類結果。但是在實際的運用過程中,單單一個熵是不能很好的評價的,必須與F值相結合使用,才能更加準確的對聚類結果進行評價。
二、基于目標函數的指標
在我們上述的兩個標準中,我們提出了團間越分離越好的觀點,基于這個大的指標,可以衍生出的指標可以稱為是基于目標函數的指標,在算法的設計當中,函數的指標是可以作為算法的其中一部分的,該指標融入算法當中,可以通過該指標來判斷在聚類算法當中下一步的最優(yōu)的迭代方向,與此同時,我們可以根據該指標來判斷我們的算法是否滿足要求,得到結果是否達標。
1.誤差平方和
K-means算法的目的就是通過自身的迭代去尋找一個能搞滿足誤差平方和最小的聚類的方法。在上述公式當中S表示的是一個聚類的結果,我們可以用S={s1,s2…sk}表示聚類的結果,其中的Sr表示的是一個簇,Cr表示的是簇的中心,應用這個標準,我們可以最小化簇與簇之間的內部距離,使得聚類文本當中內部之間的距離最小,獲得更好地聚類結果。
從前面的討論我們可以知道,在實際運用過程中,基于人工判定的指標更加適合分析文本聚類分析結果的質量,基于函數的指標有很多,這里只是簡單提出了一種方法,函數指標更加適用于作為算法的一部分。如果在算法設計過程中,遇到了難以設定的參數,這時候我們就需要不斷的改變參數的值來獲得不同的試驗及結果,然后利用例如K-Means算法中的方法,對結果進行分析,選擇最優(yōu)的參數。
結語
隨著時代的發(fā)展,文本聚類技術的研究也越來越重視,作為一種無監(jiān)督的機器學習方法,聚類文本技術具有一定的靈活性和自動性,可以被廣泛的應用到引擎搜索、自然語言處理等相關領域,這也是未來人工智能的一個重要的研究方向。
參考文獻
[1]周昭濤. 文本聚類分析效果評價及文本表示研究[D].中國科學院研究生院(計算技術研究所),2005.
[2]曹曉.文本聚類研究綜述[J].情報探索,2016(01):131-134.
[3]劉務華,羅鐵堅,王文杰.文本聚類算法的質量評價[J].中國科學院研究生院學報,2006(05):640-646.
作者簡介:金濤,(1991.10-),男,漢族,安徽省合肥人,學歷:在讀碩士研究生,研究方向:云計算。