淺談文本聚類算法對網絡熱點發現精準度的影響

2017-09-07 21:42:41陳瑜韓晨靖

中國管理信息化 2017年17期

陳瑜+韓晨靖

[摘要] 面對輿情載體已從傳統媒體向互聯網轉移的新形勢，從網絡輿情熱點發現的主要技術出發，研究網絡輿情熱點發展的規律，準確把握網絡輿情熱點，提高網絡輿情的精準度。在此基礎上，重點分析文本聚類中不同種類的算法研究對網絡熱點發現精準度的影響。

[關鍵詞] 網絡輿情；熱點發現；文本聚類；精準度

doi ： 10 . 3969 / j . issn . 1673 - 0194 . 2017. 17. 092

[中圖分類號] TP391 [文獻標識碼] A [文章編號] 1673 - 0194（2017）17- 0194- 02

0 引言

網絡技術迅速發展的今天，互聯網儼然成了民眾關注社會萬象的首要通道。如何在網絡輿情信息采集的海量信息中快速準確地提取出熱點信息，準確地把握熱點并研究其形成的規律和發展的形勢，成為網絡熱點研究領域中急需解決的問題。如何在網絡輿情信息采集的基礎上進行輿情匯集，研究網絡輿情熱點發展的規律，準確把握網絡輿情熱點，提高網絡輿情的精準度，對于正確引導網絡輿論具有十分重要的現實意義。在網絡輿情熱點發現的研究中，以文本聚類算法技術研究居多，將文本聚類相關理論技術應用到網絡輿情熱點的發現，可以大大地提高熱點發現的準確度和有效性。因此文本聚類算法的研究對于網絡熱點信息的發現也就具有了十分重要的意義。

1 網絡熱點發現研究現狀

我國最早以 “輿情”為研究目標的研究所是始建于1999年10月的天津市社會科學院輿情研究所。目前國內對于網絡輿情熱點發現的研究，主要集中于兩個方面：對于中文的信息處理和數據挖掘的研究領域。

在中文的信息處理方面，主要是對于詞頻統計方式的研究，根據文獻中所述，中文信息處理方面主要涉及的技術有識別新詞、未統計過的詞、中文和英文的相關分詞技術等方面。在數據挖掘研究領域主要涉及的相關內容有：自動分類、文本的聚類、智能檢索以及相關輿情信息的采集等方面，并取得了一定的成果。如：錢愛兵分析了網絡輿情的基本情況，設計了一個基于主題的網絡輿情分析模型；王偉等根據對網絡輿情分析的需求，構建了基于聚類的網絡輿情熱點問題發現及分析系統。國外熱點發現與分析研究較為有名的如美國的TDT（ Topic Detection and Tracking）研究項目，用以應對日益嚴重的互聯網信息爆炸問題，對新聞媒體信息流進行新話題的自動識別和已知話題的持續跟蹤。

2 文本聚類算法分析

聚類算法的研究開始于20世紀60年代，其所依據的思想方法起源于數值分類學的聚類分析。目前的聚類算法依據聚類劃分的結果是否擁有層次結構，可以將其劃分為層次法和平面劃分法兩大類，以及基于密度的方法、基于網格的方法和基于模型的方法。主要代表算法有：基于劃分的K-Means算法、基于層次的Single- Link和CURE算法、基于網格的STING算法、基于密度的DBSCAN算法、OPTICS 算法以及其他聚類算法。

2.1 基于層次的聚類方法

基于層次的聚類是將一個有n個對象的數據集D分解為若干層嵌套的分塊，根據層次的分解是自底向上還是自頂向下形成，層次結構分解是通過一個系統樹圖表示的。基于層次的聚類方法可以分為凝聚法和分裂法，層次聚類算法中典型代表是Single- Link和CURE算法。

Single-Link是一種層次凝聚算法，它為之后衍生出來的很多層次聚類算法提供了依據。Single-Link最大的優點是可以分層展示文本數據，該特點為人們瀏覽大規模文本數據集提供了非常大的幫助。

2.2 基于劃分的聚類方法

基于劃分的算法是給定一個具有n 個對象的文本集，將數據集劃分為k個子集，并且k≤n。基于劃分的算法有兩個步驟：首先，創建一個初始劃分，決定使目標函數最小化的k值，其次，采用一種迭代的重定位技術將每個對象分配到類中，保證每個類中至少要包含一個對象。劃分聚類算法中最具代表性的算法是K- Means算法。

K-Means的算法復雜度較低，且K-Means算法不僅效率高而且可伸縮性強。因此K-Means算法常用于處理大型的文本數據集。

2.3 基于密度的方法

基于密度的聚類算法最大的優點就在于它能夠發現任意形狀的簇，能夠將孤立點保存起來作為后續處理。它與其他的聚類方法的區別在于：它不是基于各種樣本距離的方法而是基于密度的方法。該類方法的代表算法有：DBSCAN 算法、OPTICS 算法等。DBSCAN最大的優點就在于它能發現任意形狀的類，它成為自動和交互聚類分析的通用基礎，并為自動和交互的聚類分析計算出一個類的秩序。OPTICS算法不會顯式地產生一個數據集合，它是DBSCAN 算法的延伸，該算法被用來計算數據集中對象的擴展聚類序列，且不用考慮輸入參數的設置。

2.4 基于網格的方法

基于網格的聚類算法的主要思想是采用一個多分辨率的網格數據結構，把對象空間量化為有限數目的單元。所有的聚類操作都在這個網格結構（即量化的空間）上進行。該方法所聚類出來的結果是不依賴數據的輸入順序的，對于大型數據集中的高維數據進行聚類非常有效。STING 算法是基于網格聚類算法的典型例子，它使用的是多分辨率的聚類方法，在進行聚類的時候利用網格單元保存相關的統計信息，這些統計信息可以用作查詢處理。

2.5基于模型的方法

基于模型的方法試圖優化給定的數據和某些數學模型之間的適應性，它為每個類首先設定了一個模型，再去尋找數據與給定模型的最佳擬合。這種模型方法主要有兩種：統計學聚類方法和神經網絡聚類方法。自組織特征映射（SOM ）是神經網絡聚類方法中的代表，SOM算法對人的腦神經元的相關屬性進行模仿，該算法是作為神經網絡學習中不需要監督的一類算法。SOM算法簡單，對于復雜的求導、積分運算是不包含在其中的，并且可以很好地處理孤立點問題。endprint

2.6 算法分析

通過上面介紹的各種文本聚類算法，可以看到現在最常用于文本聚類的算法是K-Means、Single-Link、DBSCAN和SOM四種算法，它們擁有一個共同的特征：即建立在距離或相似度計算的基礎之上。將常用的聚類算法從對象形狀、聚類粒度、初始條件、終止條件、能否適應動態數據、噪聲影響等方面的性能特點進行比較，可以得出：K-Means算法的對象形狀與其他三種算法不一樣，K-Means算法為凸形，其他三種算法都是任意形狀；四種算法的聚類粒度都不一樣，有各自的粒度值規定；K-Means和SOM算法有初始條件，Single-Link和DBSCAN算法沒有初始條件；且K-Means和DBSCAN算法的終止條件很精確，Single-Link和SOM算法的終止條件不精確，但是K-Means和DBSCAN算法要受到噪聲的影響。

3 文本聚類算法對熱點發現的影響

聚類作為一種知識發現的重要形式，日益受到重視，聚類算法的研究是為了要在海量的數據集中找出屬于同一類的數據。在聚類算法研究中，提出了一些對聚類算法評價的標準，這些標準包括：可擴展性、能夠處理噪聲數據和孤立點、能夠處理不同類型的屬性、高維性、能夠發現任意形狀的類、能夠根據用戶指定的約束條件進行聚類以及聚類的結果具有可用性和可解釋性。

因此，在使用聚類算法之后通常都會對聚類結果做出一個評價，以此來發現使用的聚類算法是否有效，這一步對于熱點發現研究分析來說是很重要的。在網絡熱點發現過程中，使用文本聚類算法將得到的數據樣本進行聚類，并得到聚類結果，再去判斷該聚類結果中每個類別包含的個數是否達到了最優，這在評價聚類結果的時候對于聚類評價指標的有效性來說就成為了一個很重要的方面。文本聚類是網絡熱點發現的核心，對于不同的聚類算法會有不同程度的有效性。通過對比各種聚類算法，有效性越高的聚類算法，對于熱點發現的精準性就越高。

主要參考文獻

[1]J B Pena-Shaff. and C Nicholls. Analyzing Student Interactions and Meaning Construction in Computer Bulletin Board Discussions[J]. Computers & Education，2004，42（3）：243-265.

[2]曾依靈，許洪波.網絡熱點信息發現研究[J].通信學報，2007，28（12）：141-146.

[3]錢愛兵. 基于主題的網絡輿情分析模型及其實現[J].現代圖書情報技術，2008，24（4）：49-55.

[4]王偉，許鑫. 基于聚類的網絡輿情熱點發現及分析[J].現代圖書情報技術，2009，3（3）：74-79.

[5]A K Jain，M N Murty，P J Flymn.Data Clustering： A Review[J].ACM Computing Surveys，1999，31（3）：264-323.

[6]T Kohonen. The Self-Organizing Maps[J].Proceedings of the IEEE，1990，78（9）： 1464-1480.endprint

中國管理信息化2017年17期

中國管理信息化的其它文章: 基于過程控制的供應商質量管理方法研究與應用初探; 科研事業單位員工績效考核體系研究; 企業實施名牌戰略思考; 航空發動機附件制造企業的質量管理研究; 淺談標準化在檔案信息化建設中的重要性; 高校檔案信息資源集成服務模式構建研究