999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM 的新聞文本分類研究

2021-11-15 09:03:28吳銳妍李夏永才兆奕
魅力中國 2021年44期
關(guān)鍵詞:分類利用用戶

吳銳妍 李夏永 才兆奕

(河南大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,河南 開封 475004)

一、引言

一般情況下,大眾很少對于互聯(lián)網(wǎng)上正在發(fā)生的事情利用關(guān)鍵字檢索。整合相關(guān)新聞主題的綜合信息,包括新聞背景、當(dāng)前進(jìn)展、不同的觀點討論,不僅能為用戶提供更好的體驗,也有利于平臺對于用戶群體需求進(jìn)行分析,優(yōu)化升級。傳統(tǒng)新聞信息整理是由網(wǎng)站編輯手動操作的,十分費時費力,因此也很難做到實時更新。

以某公眾平臺賬號對于為例,其自定義菜單欄的內(nèi)容推送只能由運營人員手動添加超鏈接跳轉(zhuǎn)到單一的推送消息,未能針對相關(guān)信息進(jìn)行自動整合。新聞在跨越更長的時間后,價值大大降低。手動添加固定數(shù)量的新聞信息繁瑣而耗時,很多情況下只能選擇階段內(nèi)相對重要的信息進(jìn)行展示,無法體現(xiàn)新聞的時效性。

若利用算法自動收集整合相關(guān)新聞的所有信息,將其提供給用戶,將會大大提升工作效率。但算法的實用性以及準(zhǔn)確性也需要一定的保證。現(xiàn)如今,數(shù)據(jù)已經(jīng)成為新聞報道的驅(qū)動力。數(shù)據(jù)資料作為研究基礎(chǔ),利用科學(xué)方法來分析處理數(shù)據(jù),解構(gòu)它將是我們的目標(biāo)。希望能夠在實踐中學(xué)習(xí)并利用SVM即支持向量機理論進(jìn)行中文短文本分類,并能夠?qū)μ幚斫Y(jié)果進(jìn)行總結(jié)。

二、研究方法

SVM,即支持向量機理論對于處理微型樣本問題和非線性分類問題等多種復(fù)雜問題有其獨特的技術(shù)優(yōu)點。人們把能使兩類數(shù)據(jù)準(zhǔn)確分離且分離距離最優(yōu)的平面稱為最優(yōu)超平面,當(dāng)數(shù)據(jù)是線性可分離時,最優(yōu)超平面距離兩類點的邊距最大;當(dāng)數(shù)據(jù)不是線性可分離時,利用損失函數(shù)對越過超平面的點進(jìn)行懲罰或使用核變換,將非線性可分的數(shù)據(jù)轉(zhuǎn)化到高維度以便找到線性判定邊界。

SVM 嘗試尋找一個最優(yōu)的超平面使得兩類樣本到這個平面的距離最大。樣本中距離超平面最近的一些點,決定超平面的選取,將這些點稱為支持向量。

任意超平面可以用下面的線性方程描述:

所有支持向量到超平面的距離可以寫為

兩類支持向量到超平面的距離之和為

由于原式中有不等式約束條件,因此需要滿足KKT 條件,即

對數(shù)據(jù)是非線性的情況,無法找到一個超平面使兩類樣本點完全分開,則利用軟間隔,相比于硬間隔的嚴(yán)格要求,我們允許個別樣本點越過超平面,即允許部分樣本點不滿足約束條件

三、實例分析

(一)數(shù)據(jù)預(yù)處理

本項目使用搜狗實驗室開放的搜狐新聞數(shù)據(jù)(SogouCS)的完整包進(jìn)行該實驗。數(shù)據(jù)是xml 文件,需要用正則表達(dá)式篩選出我們需要的新聞標(biāo)題和新聞類別。新聞類別可以從url 中獲取,比如,http://gongyi.sohu.com 的url 前綴對應(yīng)的新聞類型就是“公益類”。

完整包中總計141196 篇新聞,一共18 個類別,但是經(jīng)過篩選發(fā)現(xiàn)有些類別的新聞數(shù)量較少,因此,我們選擇了以下7 個類別進(jìn)行實驗。

在這七個類別中隨機抽取20000 篇文章作為訓(xùn)練樣本,隨機抽取5000篇文章作為測試樣本。

再對新聞標(biāo)題使用jieba 分詞將標(biāo)題劃分為若干個名詞。因為名詞在文本類別中起到主要作用,因此要停用一些與類別無關(guān)的通用詞。

接著再利用TF-IDF 對分詞后的標(biāo)題進(jìn)行特征抽取。利用sklearn 里的TfidfVectorizer 對標(biāo)題進(jìn)行TF-IDF 特征提取。

(二)加載SVM 模型

本項目利用sklearn 里的SVM 模型,對預(yù)處理好的標(biāo)題和類別加載SVM 模型進(jìn)行訓(xùn)練,分別使用了多項式核,高斯核,sigmoid 核,線性核進(jìn)行訓(xùn)練,并且評測訓(xùn)練的正確率,預(yù)測正確率最高的是線性核,達(dá)到了0.8762。結(jié)果如圖:

表1 訓(xùn)練結(jié)果

四、結(jié)論

對于新聞分類系統(tǒng)模型,還需要長久的算法優(yōu)化與測試。隨著網(wǎng)絡(luò)傳播的發(fā)展,互聯(lián)網(wǎng)新聞分類研究仍是具有很高的研究價值。結(jié)合群體極化、網(wǎng)絡(luò)暴力等現(xiàn)象分析,對網(wǎng)絡(luò)環(huán)境進(jìn)行監(jiān)管,研究輿論傳播規(guī)律。此方面研究能為新聞工作者、用戶提供諸多便利。希望能夠利用互聯(lián)網(wǎng)新聞分類系統(tǒng)與優(yōu)化后的SVM 模型結(jié)合,使新聞信息更清晰直觀地呈現(xiàn)給用戶,提升工作人員對于新聞信息整合的效率,減少冗余數(shù)據(jù)對用戶的干擾,對于縮小城鄉(xiāng)數(shù)字鴻溝具有研究價值。

猜你喜歡
分類利用用戶
利用min{a,b}的積分表示解決一類絕對值不等式
分類算一算
利用一半進(jìn)行移多補少
分類討論求坐標(biāo)
利用數(shù)的分解來思考
Roommate is necessary when far away from home
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 操美女免费网站| 国产精品55夜色66夜色| 亚洲无码电影| 国产在线观看91精品| 在线国产三级| 71pao成人国产永久免费视频 | 国产精品吹潮在线观看中文| 国外欧美一区另类中文字幕| 毛片最新网址| 日韩欧美国产精品| a在线观看免费| 日韩欧美综合在线制服| 国产精品欧美在线观看| 国产极品美女在线| 亚洲91精品视频| 老色鬼欧美精品| 久久青草精品一区二区三区| 国产亚洲精品无码专| 中日韩一区二区三区中文免费视频 | 人妻免费无码不卡视频| 动漫精品中文字幕无码| 91网红精品在线观看| 日韩精品一区二区三区swag| 一级不卡毛片| 激情无码视频在线看| 精品无码人妻一区二区| 人妻91无码色偷偷色噜噜噜| 亚洲日韩AV无码一区二区三区人 | 五月婷婷中文字幕| 91在线激情在线观看| 在线观看免费国产| 国产香蕉国产精品偷在线观看| 欧美激情,国产精品| 亚洲an第二区国产精品| 成人午夜视频免费看欧美| 国产成人综合网| 国产尹人香蕉综合在线电影| 久久精品日日躁夜夜躁欧美| 日韩成人免费网站| 青青草原国产一区二区| 91精品情国产情侣高潮对白蜜| 亚洲欧美自拍中文| 72种姿势欧美久久久大黄蕉| 亚洲日本中文综合在线| 色婷婷电影网| 国产午夜不卡| 91麻豆精品视频| 在线观看亚洲国产| 91国内外精品自在线播放| 夜夜拍夜夜爽| 国产精品区视频中文字幕| 免费A级毛片无码无遮挡| 97视频精品全国免费观看| 国产精品9| 无码AV高清毛片中国一级毛片| 成人在线亚洲| 一级片一区| 国产美女叼嘿视频免费看| a毛片在线| 熟妇无码人妻| 久久精品视频一| 精品久久国产综合精麻豆| 国产人成在线视频| 国产精品无码AV中文| 狼友av永久网站免费观看| 国产噜噜噜视频在线观看 | 57pao国产成视频免费播放| 亚洲一级毛片| 亚洲高清中文字幕| 欧美日韩第三页| 国国产a国产片免费麻豆| 91久久夜色精品国产网站| 亚洲中文字幕久久无码精品A| 久久精品中文字幕免费| 天天干天天色综合网| 亚洲一区毛片| 天天综合色网| 91丝袜乱伦| 丁香五月亚洲综合在线| 99福利视频导航| 中文字幕资源站| 亚洲精品第五页|