999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析文本聚類有效性評價的方法

2018-05-30 11:50:08金濤戴玉剛
中文信息 2018年5期
關鍵詞:標準評價

金濤 戴玉剛

摘 要:文本聚類技術是一種對文本信息進行重新組織的重要手段,隨著人工智能的發(fā)展,文本聚類技術得到了廣泛的研究,文本聚類技術的算法眾多,標準眾多,但是沒有一個標準的評價體系,無法準確的、科學的評價文本聚類結果。因此本文通過對文本聚類的評價方法進行了一定的探討。

關鍵詞:文本聚類 評價 標準

中圖分類號:TP391 文獻標識碼:A 文章編號:1003-9082(2018)05-000-01

當今是一個信息爆炸的時代,互聯(lián)網信息種類繁多、內容豐富,如何能夠在這樣繁雜的互聯(lián)網信息中提取有價值的、人們感興趣的信息是現階段的主要問題。目前,人們對于文本聚類技術的研究非常之多,但是目前研究中對于文本聚類分析結果的有效性評價方法機制比較混亂,文本聚類的算法不斷地涌現,各說各的好處,但是當我們應用到實際過程中的時候,這么多的算法中我們應該選擇哪一個算法呢?因此,本文在通過大量研究前人的文獻中,總結了一些觀點與想法。

一、評價標準

在傳統(tǒng)的聚類研究當中,大致可以分為三個評價標準,分別是外部評價標準、內部評價標準和相對評價標準,本文在過大量分析研究這些標準后,總結出了兩個評價的標準,一是在聚類結果分析研究中,團內越緊密、團外越分離越好,另一種標準是聚類分析的結果與人工評價的結果越接近越好。本文認為,在不同的場合應該使用不同的評價標準,在某些情況下不能使用單一的標準,必須將兩個或者幾個標準結合來使用才能達到更好地效果。首先是在更加緊密結合人工判定結果當中,基于人工判定的結果表現更好,另外,基于人工判定的方法還能對不同的算法進行橫向的比較,同時能夠對算法的性能進行分析,最重要的是能夠在我們設定算法參數時給予一定的指導作用,讓聚類的結果更加的符合人工的判定結果。其次,函數指標本身就可以作為算法的一部分,能夠更好地適用于計算目標的選擇當中去。實際在評價機制上,并不是直接使用這兩個指標,而是在這兩個指標的指導下,衍生出來的一系列評價標準與方法。基于此標準的判定,本文通過研究發(fā)現以下兩種評價標準在傳統(tǒng)評價當中結果最好。

1.基于文檔的準確率、召回率和F-Measure值的評價標準

2.熵的評價標準

針對語料X上的聚類結果C={C1,C2,…,Cm},單獨衡量每一個簇Ci,計算簇Ci的熵 (人工判定結構為 P={P1,P2,…,Ps}):

熵是一個非常好的指標,不僅能應用到單獨一個簇的評價,同時也可以利用簇的大小進行加權計算,然后通過加權值對整個聚類結果進行評價,該指標具有很好的可比性,并且可以用于評價一個文檔屬于多個簇的聚類結果。但是在實際的運用過程中,單單一個熵是不能很好的評價的,必須與F值相結合使用,才能更加準確的對聚類結果進行評價。

二、基于目標函數的指標

在我們上述的兩個標準中,我們提出了團間越分離越好的觀點,基于這個大的指標,可以衍生出的指標可以稱為是基于目標函數的指標,在算法的設計當中,函數的指標是可以作為算法的其中一部分的,該指標融入算法當中,可以通過該指標來判斷在聚類算法當中下一步的最優(yōu)的迭代方向,與此同時,我們可以根據該指標來判斷我們的算法是否滿足要求,得到結果是否達標。

1.誤差平方和

K-means算法的目的就是通過自身的迭代去尋找一個能搞滿足誤差平方和最小的聚類的方法。在上述公式當中S表示的是一個聚類的結果,我們可以用S={s1,s2…sk}表示聚類的結果,其中的Sr表示的是一個簇,Cr表示的是簇的中心,應用這個標準,我們可以最小化簇與簇之間的內部距離,使得聚類文本當中內部之間的距離最小,獲得更好地聚類結果。

從前面的討論我們可以知道,在實際運用過程中,基于人工判定的指標更加適合分析文本聚類分析結果的質量,基于函數的指標有很多,這里只是簡單提出了一種方法,函數指標更加適用于作為算法的一部分。如果在算法設計過程中,遇到了難以設定的參數,這時候我們就需要不斷的改變參數的值來獲得不同的試驗及結果,然后利用例如K-Means算法中的方法,對結果進行分析,選擇最優(yōu)的參數。

結語

隨著時代的發(fā)展,文本聚類技術的研究也越來越重視,作為一種無監(jiān)督的機器學習方法,聚類文本技術具有一定的靈活性和自動性,可以被廣泛的應用到引擎搜索、自然語言處理等相關領域,這也是未來人工智能的一個重要的研究方向。

參考文獻

[1]周昭濤. 文本聚類分析效果評價及文本表示研究[D].中國科學院研究生院(計算技術研究所),2005.

[2]曹曉.文本聚類研究綜述[J].情報探索,2016(01):131-134.

[3]劉務華,羅鐵堅,王文杰.文本聚類算法的質量評價[J].中國科學院研究生院學報,2006(05):640-646.

作者簡介:金濤,(1991.10-),男,漢族,安徽省合肥人,學歷:在讀碩士研究生,研究方向:云計算。

猜你喜歡
標準評價
2022 年3 月實施的工程建設標準
SBR改性瀝青的穩(wěn)定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統(tǒng)評價再評價
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
你可能還在被不靠譜的對比度標準忽悠
一家之言:新標準將解決快遞業(yè)“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
2015年9月新到標準清單
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
主站蜘蛛池模板: 欧美激情综合一区二区| 国产一区二区在线视频观看| 午夜日b视频| 国产视频久久久久| 国产在线观看91精品| 亚洲婷婷六月| 成人中文在线| 亚洲精品日产精品乱码不卡| 亚洲福利视频一区二区| 一区二区三区成人| 国产成人在线无码免费视频| 国产精品免费电影| 亚洲人成高清| 香蕉综合在线视频91| 2022精品国偷自产免费观看| 国产欧美精品专区一区二区| 亚洲精品国产成人7777| 精品无码一区二区三区电影| 中国毛片网| 制服丝袜一区二区三区在线| 91成人在线观看| 999福利激情视频| 国产va欧美va在线观看| 国产成年女人特黄特色毛片免| 日本精品视频一区二区| 永久天堂网Av| 无码AV高清毛片中国一级毛片| 国产菊爆视频在线观看| 亚洲高清无码久久久| 色综合狠狠操| 亚洲欧美不卡| 亚洲欧美日韩中文字幕在线| 免费一级毛片在线观看| 伊人色天堂| 国产区免费精品视频| 国产免费黄| 波多野结衣中文字幕一区二区| 亚洲色图在线观看| 国产一级在线播放| 一本大道东京热无码av| 国产日韩精品欧美一区喷| 大陆国产精品视频| 人与鲁专区| 日韩免费成人| 2018日日摸夜夜添狠狠躁| 国产精品黄色片| 亚洲精品片911| 亚洲欧美激情小说另类| 免费三A级毛片视频| 国产又色又爽又黄| 中文字幕波多野不卡一区| 亚洲精品无码高潮喷水A| 国产欧美高清| 久久人妻xunleige无码| a级毛片毛片免费观看久潮| 91小视频在线观看| 国产地址二永久伊甸园| 久久精品最新免费国产成人| 黄色网在线免费观看| 精品黑人一区二区三区| 999国内精品久久免费视频| 日韩av电影一区二区三区四区| 亚洲精品成人7777在线观看| 精品福利网| 91视频精品| 国产成人91精品免费网址在线| 亚洲欧洲日韩综合| 欧美精品亚洲精品日韩专| 国产在线观看一区精品| 青青青伊人色综合久久| 国产成人欧美| 香蕉99国内自产自拍视频| 亚洲av日韩综合一区尤物| 国产91无码福利在线| 国产一区二区人大臿蕉香蕉| 亚洲免费成人网| 午夜啪啪网| 午夜在线不卡| 国产精品香蕉| 色首页AV在线| 91麻豆国产视频| 免费一级无码在线网站|