999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析文本聚類有效性評價的方法

2018-05-30 11:50:08金濤戴玉剛
中文信息 2018年5期
關鍵詞:標準評價

金濤 戴玉剛

摘 要:文本聚類技術是一種對文本信息進行重新組織的重要手段,隨著人工智能的發(fā)展,文本聚類技術得到了廣泛的研究,文本聚類技術的算法眾多,標準眾多,但是沒有一個標準的評價體系,無法準確的、科學的評價文本聚類結果。因此本文通過對文本聚類的評價方法進行了一定的探討。

關鍵詞:文本聚類 評價 標準

中圖分類號:TP391 文獻標識碼:A 文章編號:1003-9082(2018)05-000-01

當今是一個信息爆炸的時代,互聯(lián)網信息種類繁多、內容豐富,如何能夠在這樣繁雜的互聯(lián)網信息中提取有價值的、人們感興趣的信息是現階段的主要問題。目前,人們對于文本聚類技術的研究非常之多,但是目前研究中對于文本聚類分析結果的有效性評價方法機制比較混亂,文本聚類的算法不斷地涌現,各說各的好處,但是當我們應用到實際過程中的時候,這么多的算法中我們應該選擇哪一個算法呢?因此,本文在通過大量研究前人的文獻中,總結了一些觀點與想法。

一、評價標準

在傳統(tǒng)的聚類研究當中,大致可以分為三個評價標準,分別是外部評價標準、內部評價標準和相對評價標準,本文在過大量分析研究這些標準后,總結出了兩個評價的標準,一是在聚類結果分析研究中,團內越緊密、團外越分離越好,另一種標準是聚類分析的結果與人工評價的結果越接近越好。本文認為,在不同的場合應該使用不同的評價標準,在某些情況下不能使用單一的標準,必須將兩個或者幾個標準結合來使用才能達到更好地效果。首先是在更加緊密結合人工判定結果當中,基于人工判定的結果表現更好,另外,基于人工判定的方法還能對不同的算法進行橫向的比較,同時能夠對算法的性能進行分析,最重要的是能夠在我們設定算法參數時給予一定的指導作用,讓聚類的結果更加的符合人工的判定結果。其次,函數指標本身就可以作為算法的一部分,能夠更好地適用于計算目標的選擇當中去。實際在評價機制上,并不是直接使用這兩個指標,而是在這兩個指標的指導下,衍生出來的一系列評價標準與方法。基于此標準的判定,本文通過研究發(fā)現以下兩種評價標準在傳統(tǒng)評價當中結果最好。

1.基于文檔的準確率、召回率和F-Measure值的評價標準

2.熵的評價標準

針對語料X上的聚類結果C={C1,C2,…,Cm},單獨衡量每一個簇Ci,計算簇Ci的熵 (人工判定結構為 P={P1,P2,…,Ps}):

熵是一個非常好的指標,不僅能應用到單獨一個簇的評價,同時也可以利用簇的大小進行加權計算,然后通過加權值對整個聚類結果進行評價,該指標具有很好的可比性,并且可以用于評價一個文檔屬于多個簇的聚類結果。但是在實際的運用過程中,單單一個熵是不能很好的評價的,必須與F值相結合使用,才能更加準確的對聚類結果進行評價。

二、基于目標函數的指標

在我們上述的兩個標準中,我們提出了團間越分離越好的觀點,基于這個大的指標,可以衍生出的指標可以稱為是基于目標函數的指標,在算法的設計當中,函數的指標是可以作為算法的其中一部分的,該指標融入算法當中,可以通過該指標來判斷在聚類算法當中下一步的最優(yōu)的迭代方向,與此同時,我們可以根據該指標來判斷我們的算法是否滿足要求,得到結果是否達標。

1.誤差平方和

K-means算法的目的就是通過自身的迭代去尋找一個能搞滿足誤差平方和最小的聚類的方法。在上述公式當中S表示的是一個聚類的結果,我們可以用S={s1,s2…sk}表示聚類的結果,其中的Sr表示的是一個簇,Cr表示的是簇的中心,應用這個標準,我們可以最小化簇與簇之間的內部距離,使得聚類文本當中內部之間的距離最小,獲得更好地聚類結果。

從前面的討論我們可以知道,在實際運用過程中,基于人工判定的指標更加適合分析文本聚類分析結果的質量,基于函數的指標有很多,這里只是簡單提出了一種方法,函數指標更加適用于作為算法的一部分。如果在算法設計過程中,遇到了難以設定的參數,這時候我們就需要不斷的改變參數的值來獲得不同的試驗及結果,然后利用例如K-Means算法中的方法,對結果進行分析,選擇最優(yōu)的參數。

結語

隨著時代的發(fā)展,文本聚類技術的研究也越來越重視,作為一種無監(jiān)督的機器學習方法,聚類文本技術具有一定的靈活性和自動性,可以被廣泛的應用到引擎搜索、自然語言處理等相關領域,這也是未來人工智能的一個重要的研究方向。

參考文獻

[1]周昭濤. 文本聚類分析效果評價及文本表示研究[D].中國科學院研究生院(計算技術研究所),2005.

[2]曹曉.文本聚類研究綜述[J].情報探索,2016(01):131-134.

[3]劉務華,羅鐵堅,王文杰.文本聚類算法的質量評價[J].中國科學院研究生院學報,2006(05):640-646.

作者簡介:金濤,(1991.10-),男,漢族,安徽省合肥人,學歷:在讀碩士研究生,研究方向:云計算。

猜你喜歡
標準評價
2022 年3 月實施的工程建設標準
SBR改性瀝青的穩(wěn)定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統(tǒng)評價再評價
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
你可能還在被不靠譜的對比度標準忽悠
一家之言:新標準將解決快遞業(yè)“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
2015年9月新到標準清單
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
主站蜘蛛池模板: 国内精品久久久久久久久久影视 | 国产色偷丝袜婷婷无码麻豆制服| 亚洲a级在线观看| 高清无码一本到东京热| 日韩精品亚洲一区中文字幕| 久久夜色撩人精品国产| 婷婷伊人五月| 久久精品人人做人人爽| 天堂久久久久久中文字幕| 国产一区二区精品高清在线观看| 国产日本一线在线观看免费| 91精品啪在线观看国产91| 亚洲午夜久久久精品电影院| 国产麻豆精品手机在线观看| 97国内精品久久久久不卡| 国产成人精品一区二区三区| 丁香六月激情综合| 精品伊人久久久大香线蕉欧美| 成年看免费观看视频拍拍| 69av在线| 毛片免费网址| 天天色天天操综合网| 99久久精品美女高潮喷水| 国产成人a在线观看视频| 97青青青国产在线播放| 国产美女主播一级成人毛片| 久久久久久久久久国产精品| 国产香蕉一区二区在线网站| 凹凸精品免费精品视频| 日本精品αv中文字幕| 日本不卡视频在线| 在线观看国产精品日本不卡网| 亚洲国产午夜精华无码福利| 国产一区二区丝袜高跟鞋| 深夜福利视频一区二区| 99热最新网址| av尤物免费在线观看| 在线欧美国产| 国产成人永久免费视频| 99精品热视频这里只有精品7| a在线亚洲男人的天堂试看| 九色视频最新网址| 久久精品人妻中文视频| 亚洲国产精品美女| 欧美中文字幕在线二区| 亚洲av日韩av制服丝袜| 91精品国产无线乱码在线| 天天操精品| 亚洲精品麻豆| 无码视频国产精品一区二区| 国产欧美成人不卡视频| 欧美人与牲动交a欧美精品| 精品久久久久久成人AV| 欧美精品成人一区二区在线观看| 在线看片中文字幕| 亚洲欧美在线综合图区| 亚洲无限乱码| 91在线精品麻豆欧美在线| 超薄丝袜足j国产在线视频| 日本亚洲最大的色成网站www| 亚洲人成网址| 亚洲永久色| 亚洲成综合人影院在院播放| 国产精品yjizz视频网一二区| 华人在线亚洲欧美精品| 国产亚洲精品97在线观看| 中文字幕色站| 国产精品亚洲一区二区三区z| 毛片免费高清免费| 亚洲午夜久久久精品电影院| 美女一级毛片无遮挡内谢| 热99精品视频| 欧美在线一二区| 波多野结衣久久精品| 免费不卡在线观看av| 精品人妻系列无码专区久久| 国产亚洲欧美日韩在线一区二区三区| 不卡无码网| 午夜视频www| 午夜欧美理论2019理论| 手机在线免费毛片| 中文字幕乱码二三区免费|