999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習算法的社交數據挖掘與用戶偏好的建模

2019-08-23 02:45:04崔懿心
電子技術與軟件工程 2019年14期
關鍵詞:特征提取分類文本

文/崔懿心

隨著社交網絡的蓬勃發展,人們對社交網絡的需求已經不僅僅是為了獲取資訊,還很大程度上地利用社交網絡來表達自我,宣泄情感。就在去年,臉書陷入了私下和廣告商交易用戶社交數據的丑聞當中,以便廣告商通過分析社交數據得出用戶的不同偏好,并將廣告針對性下放。這說明了社交數據具有巨大的可研究性,如果該特征能夠被正當利用,那么我們將可以提取出很多有用的信息。本文將會解決以下三個問題:

(1)利用文本挖掘技術對社交數據進行預處理,并選出最優特征提取模型;

(2)采用積極的機器學習算法、傳統鄰近分類算法和集成學習算法訓練時事類微博二分類模型,對比選出最優模型;

(3)闡述本研究所得的結論,包括最終模型的描述和多種算法間的對比;并討論時事偏好評估模型在實際生活上的應用

1 文本挖掘技術與機器學習算法

中文分詞算法可以分為三種類型:基于字符串匹配的分詞方法,基于統計的分詞方法以及基于理解的分詞方法。基于統計的分詞方法,通常會統計相應詞串的組合出現的頻率,進而評估組合間詞串的緊密程度,如果達到一定標準則認為組成了一個詞匯。該方法常用的統計模型包括隱馬爾科夫模型,最大熵模型以及N-gram模型等等。本文采用的是基于統計的分詞方法中的N-gram模型。

本文數據挖掘的研究過程將使用9種機器學習算法,包括樸素貝葉斯算法,邏輯回歸算法,支持向量機SVM算法,決策樹算法,AdaBoost(自適應增強)算法,隨機森林RF算法等等。

2 基于機器學習文本挖掘的時事偏好評估模型

2.1 研究數據

利用網絡爬蟲獲取微博名為頭條新聞和新浪娛樂的微博各5000條,對數據進行去異常值和人工標注:定義“頭條新聞”所發微博為時事偏好強微博,標注tag=1;“新浪娛樂”發表的微博則為科研偏好弱數據,標注tag=0。最終獲取到的數據包括content和tag兩個變量,其中content為文本數據,tag為布爾型變量。同時,對content變量進行中文分詞后,利用TF-IDF技術進行文本特征提取并對特征進行過濾。

表1:各特征提取算法實驗結果

表2:分類算法對比

2.2 文本特征提取模型對比擇優

本文采用N-grams算法進行中文分詞,通過調參得到三種分詞模型:unigram(單詞)模型、unigram+bigram(單雙詞)模型、bigram(雙詞)模型,經過機器學習算法訓練后進行分詞模型的對比,結果如表1所示。

由表1可得,在各個積極機器學習算法訓練中,單雙詞模型在準確率和AUC值的指標對比中都要更勝一籌。因此選取單雙詞模型作為最優分詞模型,加入TF-IDF特征提取技術組成最優文本特征提取模型,最終提取出15562個文本特征向量。

2.3 分類算法對比擇優

本文共采取九種機器學習算法進行時事類微博分類器的訓練,共分成三類分類算法進行對比。基礎評價指標對比如表2所示。

Rocchio和KNN屬于傳統的鄰近分類算法,其評價指標普遍比機器學習算法要差。Rocchio算法和KNN鄰近算法的準確率均低于其他四個機器學習算法,甚至低于4種機器學習算法的平均準確率95.34%。說明積極機器學習算法優于傳統鄰近分類算法。積極的機器學習算法之間,線性SVC的準確率,F1分數,AUC值達到了96%以上的。而決策樹模型在積極的機器學習算法中屬于分類效果最差的模型。

集成學習算法的模型分類效果顯示,AdaBoost的各個模型指標都不理想,甚至低于傳統鄰近算法。而將隨機森林算法與強單分類器——線性支持分類機模型對比發現,線性支持分類機算法在各方面都要更勝一籌。

2.4 分類模型改進

對線性支持分類機進行調參,包括懲罰項、懲罰項參數和成本函數類型。最終通過模型評價指標的對比得到,最優分類器為懲罰項為l2范數,成本函數類型為square hinge,懲罰項系數為1的線性SVC模型。因此,在分類結果基礎上,得到以“時事類微博/總微博數”為時事偏好評估指標的用戶時事偏好評估模型。

3 結語

本文重點研究如何從社交數據提取出用戶的時事偏好屬性,并將該屬性指標用于學生評價體系當中。總結全文得到以下研究成果:以單雙詞模型為分詞模型,結合TF-IDF技術作為最優文本特征提取模型;對比9種機器學習算法,得出最優分類算法為線性支持分類機;最優時事類微博分類器為懲罰項為l2范數,成本函數為square hinge,懲罰項系數為1 的線性SVC模型。

猜你喜歡
特征提取分類文本
分類算一算
在808DA上文本顯示的改善
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
一種基于LBP 特征提取和稀疏表示的肝病識別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 一区二区三区在线不卡免费| 99热这里只有精品5| 在线免费观看AV| 日本不卡在线| 国产午夜福利亚洲第一| 婷五月综合| 国产欧美日韩另类| 人妻丰满熟妇AV无码区| 亚洲国产在一区二区三区| 亚洲无码免费黄色网址| 农村乱人伦一区二区| 欧美激情视频二区| 国产无遮挡裸体免费视频| 51国产偷自视频区视频手机观看| 无码AV高清毛片中国一级毛片| 最新日韩AV网址在线观看| 谁有在线观看日韩亚洲最新视频 | 国产精品亚洲а∨天堂免下载| 青青青伊人色综合久久| 亚洲精品久综合蜜| 乱人伦99久久| 色婷婷啪啪| 国产va在线观看| 欧美精品v日韩精品v国产精品| 国产无码性爱一区二区三区| 中文字幕佐山爱一区二区免费| 波多野结衣一区二区三区88| 97se亚洲综合在线韩国专区福利| 色综合久久88色综合天天提莫| 在线观看免费国产| 国产新AV天堂| 99久久精品久久久久久婷婷| a级免费视频| 22sihu国产精品视频影视资讯| 在线欧美日韩国产| 毛片卡一卡二| 台湾AV国片精品女同性| 女人毛片a级大学毛片免费| 成人精品在线观看| 国产95在线 | 在线精品欧美日韩| 日韩经典精品无码一区二区| 视频二区欧美| 日韩av手机在线| 精品黑人一区二区三区| 亚洲中文字幕在线一区播放| 美女一区二区在线观看| 国产成熟女人性满足视频| a级毛片免费看| 亚洲性日韩精品一区二区| 国产成人精品高清不卡在线| 国产精品欧美日本韩免费一区二区三区不卡 | 性欧美久久| 色老头综合网| 亚洲二区视频| 污视频日本| jizz国产视频| 国产簧片免费在线播放| 波多野结衣一二三| 国产拍在线| 亚洲综合经典在线一区二区| 国产肉感大码AV无码| 九九热免费在线视频| 91区国产福利在线观看午夜| h网址在线观看| 亚洲人成成无码网WWW| 国产视频入口| 香蕉eeww99国产在线观看| 国产精品密蕾丝视频| 欧美精品成人| 日韩av在线直播| 尤物特级无码毛片免费| 黄色网站不卡无码| 丁香婷婷激情网| 久草国产在线观看| 亚洲欧美日韩中文字幕一区二区三区 | 色AV色 综合网站| 国产剧情无码视频在线观看| 无码一区中文字幕| 91成人免费观看| 亚洲欧洲国产成人综合不卡| 91娇喘视频|