999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM 的新聞文本分類研究

2021-11-15 09:03:28吳銳妍李夏永才兆奕
魅力中國 2021年44期
關鍵詞:分類利用用戶

吳銳妍 李夏永 才兆奕

(河南大學數學與統計學院,河南 開封 475004)

一、引言

一般情況下,大眾很少對于互聯網上正在發生的事情利用關鍵字檢索。整合相關新聞主題的綜合信息,包括新聞背景、當前進展、不同的觀點討論,不僅能為用戶提供更好的體驗,也有利于平臺對于用戶群體需求進行分析,優化升級。傳統新聞信息整理是由網站編輯手動操作的,十分費時費力,因此也很難做到實時更新。

以某公眾平臺賬號對于為例,其自定義菜單欄的內容推送只能由運營人員手動添加超鏈接跳轉到單一的推送消息,未能針對相關信息進行自動整合。新聞在跨越更長的時間后,價值大大降低。手動添加固定數量的新聞信息繁瑣而耗時,很多情況下只能選擇階段內相對重要的信息進行展示,無法體現新聞的時效性。

若利用算法自動收集整合相關新聞的所有信息,將其提供給用戶,將會大大提升工作效率。但算法的實用性以及準確性也需要一定的保證。現如今,數據已經成為新聞報道的驅動力。數據資料作為研究基礎,利用科學方法來分析處理數據,解構它將是我們的目標。希望能夠在實踐中學習并利用SVM即支持向量機理論進行中文短文本分類,并能夠對處理結果進行總結。

二、研究方法

SVM,即支持向量機理論對于處理微型樣本問題和非線性分類問題等多種復雜問題有其獨特的技術優點。人們把能使兩類數據準確分離且分離距離最優的平面稱為最優超平面,當數據是線性可分離時,最優超平面距離兩類點的邊距最大;當數據不是線性可分離時,利用損失函數對越過超平面的點進行懲罰或使用核變換,將非線性可分的數據轉化到高維度以便找到線性判定邊界。

SVM 嘗試尋找一個最優的超平面使得兩類樣本到這個平面的距離最大。樣本中距離超平面最近的一些點,決定超平面的選取,將這些點稱為支持向量。

任意超平面可以用下面的線性方程描述:

所有支持向量到超平面的距離可以寫為

兩類支持向量到超平面的距離之和為

由于原式中有不等式約束條件,因此需要滿足KKT 條件,即

對數據是非線性的情況,無法找到一個超平面使兩類樣本點完全分開,則利用軟間隔,相比于硬間隔的嚴格要求,我們允許個別樣本點越過超平面,即允許部分樣本點不滿足約束條件

三、實例分析

(一)數據預處理

本項目使用搜狗實驗室開放的搜狐新聞數據(SogouCS)的完整包進行該實驗。數據是xml 文件,需要用正則表達式篩選出我們需要的新聞標題和新聞類別。新聞類別可以從url 中獲取,比如,http://gongyi.sohu.com 的url 前綴對應的新聞類型就是“公益類”。

完整包中總計141196 篇新聞,一共18 個類別,但是經過篩選發現有些類別的新聞數量較少,因此,我們選擇了以下7 個類別進行實驗。

在這七個類別中隨機抽取20000 篇文章作為訓練樣本,隨機抽取5000篇文章作為測試樣本。

再對新聞標題使用jieba 分詞將標題劃分為若干個名詞。因為名詞在文本類別中起到主要作用,因此要停用一些與類別無關的通用詞。

接著再利用TF-IDF 對分詞后的標題進行特征抽取。利用sklearn 里的TfidfVectorizer 對標題進行TF-IDF 特征提取。

(二)加載SVM 模型

本項目利用sklearn 里的SVM 模型,對預處理好的標題和類別加載SVM 模型進行訓練,分別使用了多項式核,高斯核,sigmoid 核,線性核進行訓練,并且評測訓練的正確率,預測正確率最高的是線性核,達到了0.8762。結果如圖:

表1 訓練結果

四、結論

對于新聞分類系統模型,還需要長久的算法優化與測試。隨著網絡傳播的發展,互聯網新聞分類研究仍是具有很高的研究價值。結合群體極化、網絡暴力等現象分析,對網絡環境進行監管,研究輿論傳播規律。此方面研究能為新聞工作者、用戶提供諸多便利。希望能夠利用互聯網新聞分類系統與優化后的SVM 模型結合,使新聞信息更清晰直觀地呈現給用戶,提升工作人員對于新聞信息整合的效率,減少冗余數據對用戶的干擾,對于縮小城鄉數字鴻溝具有研究價值。

猜你喜歡
分類利用用戶
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
分類算一算
利用一半進行移多補少
分類討論求坐標
利用數的分解來思考
Roommate is necessary when far away from home
數據分析中的分類討論
教你一招:數的分類
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 在线另类稀缺国产呦| 久久精品人人做人人综合试看| 久久久久久久97| 国产91麻豆视频| 国产亚洲欧美在线中文bt天堂| 日本午夜影院| 色亚洲成人| 91麻豆国产视频| 波多野一区| 少妇露出福利视频| 97se亚洲综合| 久久香蕉国产线看观看式| 91福利在线看| 欧美人人干| 乱系列中文字幕在线视频| 黄片一区二区三区| 国产成人综合亚洲网址| 精品乱码久久久久久久| 亚洲成人播放| 国产一区二区三区夜色| 国产美女自慰在线观看| 久久久久久久久久国产精品| 天天综合亚洲| 国产欧美在线| 男女精品视频| 伊伊人成亚洲综合人网7777| 四虎在线观看视频高清无码| 日本欧美午夜| 亚洲高清在线天堂精品| 一本大道香蕉久中文在线播放| a级毛片网| 亚洲中文字幕23页在线| 欧美日韩中文国产| 亚洲一区第一页| 成人久久精品一区二区三区| 日本欧美中文字幕精品亚洲| 直接黄91麻豆网站| 精品亚洲麻豆1区2区3区| 国产亚洲欧美在线中文bt天堂| 亚洲精品视频在线观看视频| 青青国产视频| a亚洲天堂| 国产91av在线| 国产精品粉嫩| 澳门av无码| 福利一区三区| 色亚洲成人| 亚洲天堂日本| 手机永久AV在线播放| 亚洲码一区二区三区| 四虎永久免费在线| 毛片大全免费观看| 五月婷婷导航| 四虎国产在线观看| 国产午夜人做人免费视频中文| 1769国产精品视频免费观看| 日韩无码精品人妻| 天堂成人在线| 天天激情综合| 亚洲国产综合精品一区| 色妞www精品视频一级下载| 99国产精品国产| 成人va亚洲va欧美天堂| 亚洲一道AV无码午夜福利| 成人午夜福利视频| 欧美三级日韩三级| 欧美激情第一欧美在线| 欧美日韩精品一区二区在线线| 亚洲大尺码专区影院| 亚洲欧美另类久久久精品播放的| 国产高清在线观看| 亚洲精品少妇熟女| 国产欧美视频一区二区三区| 精品国产Av电影无码久久久| 亚洲中字无码AV电影在线观看| 国产精品区视频中文字幕| 色偷偷av男人的天堂不卡| 亚洲天堂网在线观看视频| 新SSS无码手机在线观看| 亚洲精品午夜天堂网页| 精品亚洲麻豆1区2区3区| 伊人91在线|