999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

KNN算法在輿情領域中的應用研究

2019-03-25 07:26:54鄭偉王若怡馬林李明王喆
中國管理信息化 2019年6期

鄭偉 王若怡 馬林 李明 王喆

[摘 要]KNN算法是模式識別領域中的一種常用算法,具有簡單有效、無須估計參數等優點。本文針對訓練樣本的不規則性,分析了相似度權重的KNN算法,并將該算法應用于網絡輿情的識別實驗中,旨在為研究KNN算法提供借鑒。實驗結果表明:KNN算法用相似度作為權重能夠有效提高輿情識別質量。

[關鍵詞]輿情;KNN算法;準確率

doi:10.3969/j.issn.1673 - 0194.2019.06.074

[中圖分類號]TP391[文獻標識碼]A[文章編號]1673-0194(2019)06-0-02

0? ? ?引 言

現實生活中的熱點、焦點問題會引發廣大網民關注,同時民眾會通過網絡媒體轉發并發表相關意見。輿情就是大量民眾集中的意見表述與訴求,網絡輿情識別與預警對于輿情工作尤為重要,如有關部門提前發現輿情的源頭或預測可能產生的現實危機,可以提早判斷輿論走向,可以通過多部門聯動做好輿論引導和應對突發事件的準備。輿情預警是否及時決定了后續輿情處理效果的好壞,如何有效地從海量的互聯網言論中及時發現一些潛在的存在危機的輿論導向對維護社會安定尤為重要。目前,輿情識別技術除日常監測外還有以下技術,如主題提取、情感分析、話題聚類和話題跟蹤等。

近年來,一些研究者做了一些與輿情識別新技術有關的研究。例如:王珍從社會網絡的角度詳細分析了輿情的監測和預警方法;田殷姿提出了一種挖掘搜索引擎日志內容的輿情監測方法,并通過實踐獲得了較好的預警效果;劉勘 等提出一種基于支持向量的真假輿情識別方法;趙靜嫻針對輿情的識別問題,提出一種基于組合優化決策樹的偽輿情識別方法。本文主要研究了KNN算法下的網絡輿情識別及分類,并嘗試在KNN中采用相似度作為權重參與計算。

1? ? ?經典KNN算法

經典KNN(K-Nearest Neighbor)是一種基于統計的分類算法,原理簡單、編程易理解,在各個領域應用廣泛。很多研究者對其進行了不同程度的改進,在分類、推薦與模式識別方向取得了較好的效果。KNN算法的思想在分類時采用投票原則,即少數服從多數原則;通過某種測量手段測量未知樣本的K個近鄰數,統計K個近鄰大多數屬于的類別,算法如下。

(1)已知訓練樣本集合K={K1,K2,…,Km},訓練集合中樣本的數目,m、n為類別數目。

(2)設定待測樣本的最近鄰數目值k。

(3)樣本間的相似程度采用余弦相似度進行測量,測度值用s表示。

(4)每個待測樣本用Z表示。①計算m個測度值并使用排序算法對其進行排序,排序后為:s1,s2,…,sk,sK+1,…,sm。②取出其相似度最高的K個樣本,然后遵守投票規則進行待測樣本Z的類別值判定,Z類別值為得票數最多的那個類別。

2? ? ?加權重KNN算法

針對K值的不易確定性、訓練樣本的不均勻性,KNN算法采用一種相似度加權的KNN算法,該算法在分類時可以有效體現類別代表樣本的重要性,修改后的算法流程如下。

(1)已知訓練樣本集合K={K1,K2,…,Km},m為訓練樣本數目,n為類別數。(2)樣本間的相似程度采用余弦相似度進行測量,測度值用s表示。

(3)每個待測樣本Z的計算如下:①依次計算樣本X與訓練樣本的余弦相似度si,其中i∈[1,n];②計算X的K個最近鄰的相似值{s1,s2,…,sk};③使用式(1)判別樣本X的類別,其中wk=sk,y?取最大值時所對應的類別為樣本最終對應的分類類別。

3? ? ?文本特征提取方法

向量空間模型常用文本向量表示,文本中的代表特征提取也稱特征選擇,通過構造一個評估算法,對待評估的文本特征進行打分,通過預設的閾值篩選出合適的詞條作為文本樣本的特征。目前,常用的特征評估函數有下列幾種形式:信息增益(IG)、互信息(MI)、χ2統計(CHI)、文本證據權(WET)、期望交叉熵(CE)等。周茜對上述常用的特征選擇方法進行了研究,研究發現IG、χ2、WET法的效果較佳。

3.1? ? 信息增益(IG)

信息增益是信息論的一種信息計算公式,可以衡量特征出現時類別的貢獻度,n個類別的信息增益值需要累加。IG的定義如下。

其中,t與t分別表示特征的出現與不出現,ci表示第i個類別。

3.2? ?文本證據權(Weight of Evid Txt)

一個類別出現的概率與某個特征出現的概率關系可以通過條件概率之間的差別進行表示,定義如下。

3.3? ?χ2估計(CHI)

CHI可以有效衡量特征詞t與類c之間的依存關系,特征t的CHI計算值為零,表示特征t與類別c之間相互獨立。對于類別c,特征t的CHI估計定義如下。

4? ? ?基于KNN算法的輿情分類實驗

表1顯示的是使用經典KNN分類算法取不同K值時的分類結果。在京東網上商城下載關于某型號數碼相機的網絡商品評論數據,共360條作為語料進行分類實驗,其中評論情感數據分為好評與差評兩類。實驗時選擇其中270條評論作為訓練數據,余下90條作為測試數據,實驗數據使用2組交叉語料進行實驗,特征選擇算法使用信息增益方法,特征維數取經驗值500維。實驗采用的評估指標為準確率,其具體計算公式如下。

從表1可以看到,當K值增大時,2組測試樣本所對應的分類準確率均在K值等于10時取最大值,隨后呈現波動趨勢,可見K值在10以后增加時,近鄰樣本中不斷引入各類別“雜”樣本。但是,加權重KNN算法與經典KNN分類準確率不同,表2顯示的是采用加權重KNN算法用于分類的結果。

主站蜘蛛池模板: 日韩毛片视频| 3344在线观看无码| 国产精品嫩草影院视频| 伊人天堂网| 国产香蕉97碰碰视频VA碰碰看| 日韩一区二区三免费高清| 精品国产自在在线在线观看| 四虎国产永久在线观看| 亚洲国产成人精品一二区| 高清久久精品亚洲日韩Av| 国产va欧美va在线观看| 在线永久免费观看的毛片| 一级黄色片网| 中文字幕丝袜一区二区| 国产女人综合久久精品视| 综合久久五月天| 欧美成人精品一区二区| 免费可以看的无遮挡av无码| 午夜精品一区二区蜜桃| 午夜视频免费一区二区在线看| 欧美亚洲另类在线观看| 久久精品视频一| 色首页AV在线| 国产成人精品综合| 国模沟沟一区二区三区| 成人免费视频一区| 亚洲色图欧美一区| 国产精彩视频在线观看| 国产精品嫩草影院视频| 狠狠色成人综合首页| 国产女同自拍视频| 毛片免费在线视频| 国产v精品成人免费视频71pao| 婷婷色一二三区波多野衣| 午夜国产不卡在线观看视频| 高潮毛片免费观看| 狠狠v日韩v欧美v| 色婷婷丁香| 国产美女在线免费观看| 亚洲国产精品久久久久秋霞影院| 久久香蕉欧美精品| 成人国产精品2021| 午夜国产精品视频| 国产三区二区| 青青操视频免费观看| 亚洲综合狠狠| 亚洲精品午夜无码电影网| 精品久久香蕉国产线看观看gif| 亚洲欧美h| 久青草免费在线视频| 麻豆精品在线视频| 高清无码一本到东京热| 91在线国内在线播放老师| 欧美啪啪一区| 2021精品国产自在现线看| 精品国产香蕉在线播出| 全部无卡免费的毛片在线看| 国产精女同一区二区三区久| 中国精品自拍| 人妻熟妇日韩AV在线播放| 日韩精品一区二区三区视频免费看| 国产福利小视频高清在线观看| 国产成人精品一区二区三区| 伊人久久大香线蕉成人综合网| 亚洲人成成无码网WWW| 毛片网站观看| 欧美不卡在线视频| 免费看美女自慰的网站| 黄色片中文字幕| 一区二区三区在线不卡免费| 亚洲美女久久| 99精品国产自在现线观看| 国产草草影院18成年视频| 欧美日在线观看| 国产精品亚洲专区一区| 亚州AV秘 一区二区三区| 欧美日韩va| 久久久久久国产精品mv| 久久久久久久蜜桃| 国产成人精品在线1区| 国产成+人+综合+亚洲欧美| 亚洲一区二区三区麻豆|