999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談文本聚類算法對網絡熱點發現精準度的影響

2017-09-07 21:42:41陳瑜韓晨靖
中國管理信息化 2017年17期

陳瑜+韓晨靖

[摘 要] 面對輿情載體已從傳統媒體向互聯網轉移的新形勢,從網絡輿情熱點發現的主要技術出發,研究網絡輿情熱點發展的規律,準確把握網絡輿情熱點,提高網絡輿情的精準度。在此基礎上,重點分析文本聚類中不同種類的算法研究對網絡熱點發現精準度的影響。

[關鍵詞] 網絡輿情;熱點發現;文本聚類;精準度

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 17. 092

[中圖分類號] TP391 [文獻標識碼] A [文章編號] 1673 - 0194(2017)17- 0194- 02

0 引 言

網絡技術迅速發展的今天,互聯網儼然成了民眾關注社會萬象的首要通道。如何在網絡輿情信息采集的海量信息中快速準確地提取出熱點信息,準確地把握熱點并研究其形成的規律和發展的形勢,成為網絡熱點研究領域中急需解決的問題。如何在網絡輿情信息采集的基礎上進行輿情匯集,研究網絡輿情熱點發展的規律,準確把握網絡輿情熱點,提高網絡輿情的精準度,對于正確引導網絡輿論具有十分重要的現實意義。在網絡輿情熱點發現的研究中,以文本聚類算法技術研究居多,將文本聚類相關理論技術應用到網絡輿情熱點的發現,可以大大地提高熱點發現的準確度和有效性。因此文本聚類算法的研究對于網絡熱點信息的發現也就具有了十分重要的意義。

1 網絡熱點發現研究現狀

我國最早以 “輿情”為研究目標的研究所是始建于1999年10月的天津市社會科學院輿情研究所。目前國內對于網絡輿情熱點發現的研究,主要集中于兩個方面:對于中文的信息處理和數據挖掘的研究領域。

在中文的信息處理方面,主要是對于詞頻統計方式的研究,根據文獻中所述,中文信息處理方面主要涉及的技術有識別新詞、未統計過的詞、中文和英文的相關分詞技術等方面。在數據挖掘研究領域主要涉及的相關內容有:自動分類、文本的聚類、智能檢索以及相關輿情信息的采集等方面,并取得了一定的成果。如:錢愛兵分析了網絡輿情的基本情況,設計了一個基于主題的網絡輿情分析模型;王偉等根據對網絡輿情分析的需求,構建了基于聚類的網絡輿情熱點問題發現及分析系統。國外熱點發現與分析研究較為有名的如美國的TDT( Topic Detection and Tracking)研究項目,用以應對日益嚴重的互聯網信息爆炸問題,對新聞媒體信息流進行新話題的自動識別和已知話題的持續跟蹤。

2 文本聚類算法分析

聚類算法的研究開始于20世紀60年代,其所依據的思想方法起源于數值分類學的聚類分析。目前的聚類算法依據聚類劃分的結果是否擁有層次結構,可以將其劃分為層次法和平面劃分法兩大類,以及基于密度的方法、基于網格的方法和基于模型的方法。主要代表算法有:基于劃分的K-Means算法、基于層次的Single- Link和CURE算法、基于網格的STING算法、基于密度的DBSCAN算法、OPTICS 算法以及其他聚類算法。

2.1 基于層次的聚類方法

基于層次的聚類是將一個有n個對象的數據集D分解為若干層嵌套的分塊,根據層次的分解是自底向上還是自頂向下形成,層次結構分解是通過一個系統樹圖表示的。基于層次的聚類方法可以分為凝聚法和分裂法,層次聚類算法中典型代表是Single- Link和CURE算法。

Single-Link是一種層次凝聚算法,它為之后衍生出來的很多層次聚類算法提供了依據。Single-Link最大的優點是可以分層展示文本數據,該特點為人們瀏覽大規模文本數據集提供了非常大的幫助。

2.2 基于劃分的聚類方法

基于劃分的算法是給定一個具有n 個對象的文本集,將數據集劃分為k個子集,并且k≤n。基于劃分的算法有兩個步驟:首先,創建一個初始劃分,決定使目標函數最小化的k值,其次,采用一種迭代的重定位技術將每個對象分配到類中,保證每個類中至少要包含一個對象。劃分聚類算法中最具代表性的算法是K- Means算法。

K-Means的算法復雜度較低,且K-Means算法不僅效率高而且可伸縮性強。因此K-Means算法常用于處理大型的文本數據集。

2.3 基于密度的方法

基于密度的聚類算法最大的優點就在于它能夠發現任意形狀的簇, 能夠將孤立點保存起來作為后續處理。它與其他的聚類方法的區別在于:它不是基于各種樣本距離的方法而是基于密度的方法。該類方法的代表算法有:DBSCAN 算法、OPTICS 算法等。DBSCAN最大的優點就在于它能發現任意形狀的類,它成為自動和交互聚類分析的通用基礎,并為自動和交互的聚類分析計算出一個類的秩序。OPTICS算法不會顯式地產生一個數據集合,它是DBSCAN 算法的延伸,該算法被用來計算數據集中對象的擴展聚類序列,且不用考慮輸入參數的設置。

2.4 基于網格的方法

基于網格的聚類算法的主要思想是采用一個多分辨率的網格數據結構,把對象空間量化為有限數目的單元。所有的聚類操作都在這個網格結構 (即量化的空間)上進行。該方法所聚類出來的結果是不依賴數據的輸入順序的,對于大型數據 集中的高維數據進行聚類非常有效。STING 算法是基于網格聚類算法的典型例子,它使用的是多分辨率的聚類方法,在進行聚類的時候利用網格單元保存相關的統計信息,這些統計信息可以用作查詢處理。

2.5基于模型的方法

基于模型的方法試圖優化給定的數據和某些數學模型之間的適應性,它為每個類首先設定了一個模型,再去尋找數據與給定模型的最佳擬合。這種模型方法主要有兩種:統計學聚類方法和神經網絡聚類方法。自組織特征映射 (SOM ) 是神經網絡聚類方法中的代表,SOM算法對人的腦神經元的相關屬性進行模仿,該算法是作為神經網絡學習中不需要監督的一類算法。SOM算法簡單,對于復雜的求導、積分運算是不包含在其中的,并且可以很好地處理孤立點問題。endprint

2.6 算法分析

通過上面介紹的各種文本聚類算法, 可以看到現在最常用于文本聚類的算法是K-Means、Single-Link、DBSCAN和SOM四種算法,它們擁有一個共同的特征:即建立在距離或相似度計算的基礎之上。將常用的聚類算法從對象形狀、聚類粒度、初始條件、終止條件、能否適應動態數據、噪聲影響等方面的性能特點進行比較,可以得出:K-Means算法的對象形狀與其他三種算法不一樣,K-Means算法為凸形,其他三種算法都是任意形狀;四種算法的聚類粒度都不一樣,有各自的粒度值規定;K-Means和SOM算法有初始條件,Single-Link和DBSCAN算法沒有初始條件;且K-Means和DBSCAN算法的終止條件很精確,Single-Link和SOM算法的終止條件不精確,但是K-Means和DBSCAN算法要受到噪聲的影響。

3 文本聚類算法對熱點發現的影響

聚類作為一種知識發現的重要形式,日益受到重視,聚類算法的研究是為了要在海量的數據集中找出屬于同一類的數據。在聚類算法研究中,提出了一些對聚類算法評價的標準,這些標準包括:可擴展性、能夠處理噪聲數據和孤立點、能夠處理不同類型的屬性、高維性、能夠發現任意形狀的類、能夠根據用戶指定的約束條件進行聚類以及聚類的結果具有可用性和可解釋性。

因此,在使用聚類算法之后通常都會對聚類結果做出一個評價,以此來發現使用的聚類算法是否有效,這一步對于熱點發現研究分析來說是很重要的。在網絡熱點發現過程中,使用文本聚類算法將得到的數據樣本進行聚類,并得到聚類結果,再去判斷該聚類結果中每個類別包含的個數是否達到了最優,這在評價聚類結果的時候對于聚類評價指標的有效性來說就成為了一個很重要的方面。文本聚類是網絡熱點發現的核心,對于不同的聚類算法會有不同程度的有效性。通過對比各種聚類算法,有效性越高的聚類算法,對于熱點發現的精準性就越高。

主要參考文獻

[1]J B Pena-Shaff. and C Nicholls. Analyzing Student Interactions and Meaning Construction in Computer Bulletin Board Discussions[J]. Computers & Education,2004,42(3):243-265.

[2]曾依靈,許洪波.網絡熱點信息發現研究[J].通信學報,2007,28(12):141-146.

[3]錢愛兵. 基于主題的網絡輿情分析模型及其實現[J].現代圖書情報技術,2008,24(4):49-55.

[4]王偉,許鑫. 基于聚類的網絡輿情熱點發現及分析[J].現代圖書情報技術,2009,3(3):74-79.

[5]A K Jain,M N Murty,P J Flymn.Data Clustering: A Review[J].ACM Computing Surveys,1999,31(3):264-323.

[6]T Kohonen. The Self-Organizing Maps[J].Proceedings of the IEEE,1990,78(9): 1464-1480.endprint

主站蜘蛛池模板: 91精品网站| 91免费国产高清观看| 色窝窝免费一区二区三区| 99精品国产电影| 色有码无码视频| 中文字幕人妻av一区二区| 久久美女精品| 亚洲高清中文字幕| 538精品在线观看| 国产无码高清视频不卡| 免费一级毛片| 色婷婷在线影院| 国产精品成人观看视频国产| 亚洲天堂视频在线免费观看| 国产污视频在线观看| 免费久久一级欧美特大黄| 亚洲最新地址| 91青青草视频| 国产乱肥老妇精品视频| 日韩无码黄色| 五月激激激综合网色播免费| 一级毛片无毒不卡直接观看| 亚洲欧美日韩另类在线一| 亚洲丝袜第一页| 久久综合干| 亚洲国产亚综合在线区| 中文字幕久久亚洲一区| 欧美日韩精品一区二区视频| 97超爽成人免费视频在线播放| 91人妻在线视频| 日本精品视频| 国产精品片在线观看手机版 | 欧美一区二区自偷自拍视频| 自拍偷拍欧美| 久久精品人妻中文系列| 18禁不卡免费网站| 婷婷六月综合网| 久久9966精品国产免费| 九九视频在线免费观看| 国产精品高清国产三级囯产AV| 欧美色视频在线| 免费国产黄线在线观看| 国产成人亚洲综合A∨在线播放 | 亚洲一级毛片免费观看| 九九这里只有精品视频| 大香网伊人久久综合网2020| 伊人久热这里只有精品视频99| 国产亚洲高清在线精品99| 色视频国产| 高清视频一区| 亚洲av无码成人专区| 久热re国产手机在线观看| 2022精品国偷自产免费观看| 国产大片喷水在线在线视频| 久久精品丝袜高跟鞋| 亚洲成在线观看| 国产美女91视频| 国产H片无码不卡在线视频| 亚洲国产亚综合在线区| 国产理论一区| 天天视频在线91频| 欧美综合激情| 国产精品开放后亚洲| 亚洲国产天堂久久综合226114| 国产在线观看人成激情视频| jizz国产在线| 亚洲午夜国产精品无卡| 亚洲日韩精品伊甸| 国产大片黄在线观看| 无码一区二区三区视频在线播放| 中文字幕久久波多野结衣| 妇女自拍偷自拍亚洲精品| 在线欧美国产| julia中文字幕久久亚洲| 美女无遮挡免费视频网站| A级毛片无码久久精品免费| 欧美国产日产一区二区| 91小视频在线播放| 亚洲一区无码在线| av在线5g无码天天| 亚洲国产无码有码| 欧美在线中文字幕|