999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時空大數據挖掘的網絡輿情研判方法研究

2021-05-12 03:00:08解仲秋
電子設計工程 2021年8期
關鍵詞:單詞分類文本

解仲秋

(西安航空職業技術學院,陜西西安 710089)

隨著互聯網的迅速發展,網絡媒體作為一種新型的信息傳播形式,正成為表達公眾情感、暢通社會交流、凝聚公眾智慧的重要渠道。互聯網作為一種新型的媒體,由于具有自由、開放、互動等特點,比報紙、廣播、電視及其他媒體更容易吸引公眾參與輿論討論。

對于熱門話題與緊急情況,眾多的互聯網用戶通過網絡渠道表達其觀點。新聞評論、BBS 與博客已成為互聯網用戶傳播和表達公眾信息的主要方式。當前,中國正處于社會轉型的關鍵時期,網絡輿情的影響力越來越大。若無法正確識別或引導出現偏見或負面輿論,將會構成極大的公共安全威脅。大學生是我國網民的主體,大學生對社會問題的參與度高,極易受到新思想的影響。因此,有效收集、監測與分析網絡中大學生輿情成為亟待解決的重要問題[1]。

數據挖掘與機器學習作為動態處理大量數據的有效工具[2]。文中借助這兩項工具研究了網絡輿情熱點檢測,對各種民意的相互作用結構進行自然分組,并進行全面、及時的描述,實現了動態監測熱點意見。

1 系統分析與架構

在網絡環境下,輿情信息來源于評論、BBS、博客與各式聊天軟件[3],不同的信息來源具有不同的特征。系統框架如圖1 所示。首先,使用Web 搜尋器獲取有關網絡數據的最新信息,在刪除重復的url后,將數據以Html 源文件的形式存儲到硬盤中[4]。隨后預處理源文件,將Html 文件轉換為文本,提取信息主體與文件的網頁地址,并發布時間、作者等信息[5]。在此基礎上通過字典對提取的數據進行分析,得到文本信息的特征集合,提取關鍵詞并統計關鍵詞的出現頻率[6]。使用專業詞典與關鍵詞進行比較,并提取相關事件,形成輿情信息數據庫。最終,根據所需的類型、發布時間、源出處等實現對網絡輿情的實時監控。

圖1 輿情研判系統框架

該系統涉及的關鍵技術包括Web 爬蟲技術[7]、主題詞提取技術[8]、自動文本分類技術[9]。

1.1 Web爬蟲技術

文中設計的Web 爬蟲策略基于無主題搜索的廣度優先[10]與深度優先策略[11]。基于深度優先策略,Web 爬蟲程序搜索含有起始頁面的所有頁面。然后,選擇一個鏈接頁面,繼續爬完此頁面上的所有鏈接頁面。基于深度優先策略,Web 爬蟲程序從起始頁面開始,遍歷到所有鏈接的子鏈接,一直處理到網頁目錄盡頭。隨后,Web 爬蟲程序繼續跟隨下一個起始頁面。廣度優先策略可以保證網絡爬蟲并行處理,提高數據搜尋效率;深度優先策略確保數據挖掘成本。文中根據需求混合使用兩種網絡爬蟲的搜索策略,以提高鏈接的準確性,減少計算時空復雜性。

1.2 主題詞提取技術

主題詞提取技術的關鍵要點包括通用分詞與POS 標記、識別與多詞短語分組的新字符串、同義詞與近義詞的合并、基于結構和統計信息的關鍵詞提取[12]。

文中使用中國科學院ICTCLIS 系統構建通用分詞與POS 標記技術,并使用統計算法對關鍵詞進行詞頻分析[13]。考慮到互聯網語言中存在較多新詞與未知詞,文中通過計算相鄰詞組串的互信息,選擇超過某個閾值的單詞作為候選單詞[14]。

2 數據挖掘算法構建

在上文建立的識別框架下,系統需提取輿情數據的特征。選擇過程基于文檔頻率,通過互信息或信息增益的方法以減少單詞的數量,從而獲得有用的信息。在網絡文本意見的分類過程中,將區分某種文本意見的重要單詞提取出來(定義為功能單詞),在檢測網絡意見熱點時使用,這些詞稱為功能單詞[16]。

功能單詞有兩種功能:全字功能與詞干功能,全字功能從文中按原樣提取,詞干功能只提取詞組的詞干。考慮到輿情檢測與分析的完整性和準確性,文中使用全字功能。通過使用常用術語加權TFIDF,結合術語頻率(TF),乘以反向文檔頻率(IDF),用于衡量一個詞組的信息性。文中使用K-means 聚類與SVM 分類器對Web 文本進行分類。

2.1 K-means聚類

K-means 是解決聚類問題時最樸素的無監督學習算法之一。其算法流程如圖2 所示。

圖2 K-means算法流程

算法通過預先設置的一定數量的聚類(假設k個聚類)對給定數據集進行分類。定義k個質心,這些質心隨機存在于多維空間中。為保證聚類的準確性,將k個質心放置在盡可能遠的距離。在一次迭代的基礎上,重新計算k個新質心,將其作為上一步所產生簇的重心,然后依據相同數據集點與最近的新質心之間的距離重新進行運算。經過上述迭代,直至k個質心不再移動位置為止。文中使用的目標函數如式(1)所示。

式中,J是在數據點與聚類中心之間的距離度量,表征了n個數據點到其各自聚類中心的距離度量。

運算周期內獲得的互聯網輿論,通過特征選擇與降維,如式(2)所示。

其中,Di表示文本輿情,Ti表示特征,wj表示特征權重。式(2)用作K-means 聚類輸入的數據集,該數據集將被聚集成k組,每個聚類的中心主題是最接近集群理論中心的熱點。

2.2 SVM分類

由于網絡輿論熱點的數量尚不確定,因此是一個多分類問題。文中通過非線性函數將輸入空間轉化為高維空間。在高維空間中,構造線性判別函數以實現對原始文本空間的非線性判別,得到分類決策函數f(x)如式(3)所示。

其中,k(xi,x)為選擇徑向基函數,作為內積核函數,其形式如式(4)所示。

該節還使用SVM 來實現熱點預測,為預測當前時間段的輿情熱點分布,將最近時間段獲得的歷史數據輸入到SVM 模型中。在此基礎上,使用K-means 方法與當前時間段的聚類結果監督學習工具的SVM 輸出。訓練后的SVM 通過輸入從當前數據中獲得的數據,來對下一個時間段進行預測。假設當前時間段是si,輸入si的表征向量,并將輸出設置為K-means 的聚類結果。在此基礎上訓練SVM,最終得到si時刻的預測值。

3 實驗驗證

硬件體系結構如圖3 所示。總體上分為服務器端與客戶端,通過TCP/IP 協議進行通信。客戶端主要搭載遠程控制器應用程序,允許用戶使用自然語言規范與鼠標等控件調用命令。此外,用戶可以選擇在客戶端使用麥克風與揚聲器,通過語音命令對系統進行調控。服務器端由Mentor 與Mitsubishi 服務器組成,Mentor 服務器使用Pentium III 450/ 128 Mb PC 直接控制,Mitsubishi 服務器使用Pentium II 400/128 Mb Windows NT PC。每個服務器可以共享一些模塊,包含對象的數據庫保存在單個計算機中,并由屬于該項目的任何服務器共享。

圖3 硬件系統結構

為了評估該方法對文本數據的分類結果,下面分別使用宏平均精度、宏平均召回率與宏平均F1 量度3個參數進行評價,其形式分別如式(5)~(7)所示。

Macro_P是系統所有預測的正確分類占實際正確數據的比例,可由Macro_P=TP/(TP+FP)得出。Macro_R是預測的正確數據占所有實際正確數據的比例,可由Macro_R=TP/(TP+FN)得出。Macro_F1是精度與召回率的諧波平均值,可由式(7)得出。

3.1 K-means聚類驗證實驗

為驗證K-means 的聚類效果,文中選取來自互聯網論壇網站的數據,內容包括財經、人文、生活、娛樂等。

K-means 算法的一個不足是需要預設k。因此,文中的K-means 聚類分析針對一組k個值,計算出相同的向量空間模型所需的介于5~10 之間的k值。表1 給出了不同k值下的VSM(向量空間模型)值。分析表1 可知,該方法足以獲得良好的準確性。在輿情監控的應用場景下,選取k=9 時以獲得最佳聚類效果。K-means 聚類效果如表2 所示。

表1 不同k值下算法效果實驗

表2 K-means聚類實驗

3.2 K-means與SVM比較研究

文中從表3 給出的6 個不同類別Web 文本中選擇1 000 個文檔,通過篩選,使用其中692 個文檔用于訓練神經網絡,120 個文檔用于測試。

表3 分類測試的Web文本數據庫

由于中文文本中單詞之間未有明顯的空格,因此,首先需要對文檔加注標點符號。在刪去停用詞與輔助詞減少了文本無用特征后,采用TFIDF 構建識別構架輸入功能,得出表4 所示的特征維度。最終的分類實驗結果如表5 所示。對比可知,5 類文本信息下SVM 的Macro_F1 度量優于K-means。

表4 文本特征維度

表5 兩種方法的F1量度實驗結果

4 結論

文中設計了一個互聯網輿情研判檢測與分析模型。根據網絡輿情的文本屬性,引入VSM來表達文本輿論。根據實際應用場景,從一些新網站中選取文本語料庫。對收集的文本文檔進行K-means 聚類與SVM 分類,通過實驗結果證明了該方法的有效性。

此外,未來工作的研究方向如下:深入開展網絡輿情檢測研究,細化文中互聯網輿情研判方法的每個步驟,以加強對高校輿情的引導,預防輿情危機的出現。建設動態監視技術,既能夠實時監視網站,又可以省去時間、經濟成本高昂的數據清理工作。此外,網絡輿情檢測不能止步于詞頻分析,如何確定聚類算法的最優k值、如何提高海量數據的處理速度,也是未來工作的主要研究內容。

猜你喜歡
單詞分類文本
分類算一算
單詞連一連
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
看圖填單詞
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产 日韩 欧美 第二页| 激情成人综合网| 国产真实乱子伦精品视手机观看| 国产91麻豆视频| 国产人成在线视频| 无码日韩视频| 国产jizzjizz视频| 天天综合网亚洲网站| 91人人妻人人做人人爽男同| 成人午夜免费观看| 尤物视频一区| 91年精品国产福利线观看久久 | 婷婷综合亚洲| 在线观看免费黄色网址| 日韩午夜片| 精品国产自在在线在线观看| 制服丝袜一区| 综合色88| 欧美日本不卡| 午夜少妇精品视频小电影| 亚洲中文无码h在线观看 | 国产婬乱a一级毛片多女| 久久99蜜桃精品久久久久小说| 亚洲精品自产拍在线观看APP| 日韩激情成人| 国产毛片基地| 亚洲六月丁香六月婷婷蜜芽| Aⅴ无码专区在线观看| 国产不卡网| 国内精品久久人妻无码大片高| 国产91熟女高潮一区二区| 亚洲综合专区| 免费中文字幕一级毛片| 国产精品成人一区二区| 亚洲精品第一页不卡| 亚洲第一页在线观看| 91在线中文| 亚洲精品在线观看91| 欧美国产精品不卡在线观看| 五月婷婷亚洲综合| 秘书高跟黑色丝袜国产91在线| 亚洲精品视频网| 免费无码在线观看| 亚洲av无码专区久久蜜芽| 真实国产乱子伦视频| 国产无码网站在线观看| 国内a级毛片| 欧美一区二区三区香蕉视| 亚洲av无码牛牛影视在线二区| 日本道中文字幕久久一区| 国产成人精品第一区二区| 亚洲色欲色欲www网| 一区二区日韩国产精久久| 91麻豆精品国产高清在线| 91蜜芽尤物福利在线观看| 美女无遮挡免费网站| 国产成人精品在线1区| 97av视频在线观看| 日本一区二区三区精品国产| 九色国产在线| 亚洲第一区欧美国产综合| 亚洲国产日韩在线观看| 欧美一级一级做性视频| 国产日产欧美精品| 成人国产精品一级毛片天堂| 亚洲欧洲自拍拍偷午夜色| 久久精品国产国语对白| 免费一极毛片| 国产成人免费高清AⅤ| 国禁国产you女视频网站| 91久久偷偷做嫩草影院免费看| 日韩美一区二区| 免费人成网站在线观看欧美| 国产经典免费播放视频| 五月婷婷中文字幕| 亚洲中文字幕久久精品无码一区| 黄色污网站在线观看| 国产91在线|日本| 婷婷在线网站| 日韩精品一区二区深田咏美| 久久www视频| 69国产精品视频免费|