999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark和改進的TF—IDF算法的用戶特征分析

2016-05-30 10:48:04張舒雅王占剛
軟件工程 2016年10期
關鍵詞:分類

張舒雅 王占剛

摘 要:使用樸素貝葉斯分類算法,結合Spark內存計算框架,對用戶觀看視頻及次數信息進行分析,建立用戶性別和年齡區間的分類模型;然后利用特征項的權重優化模型,考慮到每個特征項在各個類別中的權重對分類結果的影響,提出了一種基于特征項與類別間相關性的TFC-IDFC權重計算方法,并與傳統的TF-IDF權重計算方法進行比較,通過正確率和F1值兩個指標,證明考慮到特征項與類別的相關性所提出的TFC-IDFC權重使得分類模型的分類能力更好。

關鍵詞:Spark;用戶特征;貝葉斯;分類;TF-IDF

中圖分類號:TP391 文獻標識碼:A

1 引言(Introduction)

隨著互聯網的快速發展,用戶的數量飛速增加,用戶屬性更加多元化,大數據的應用與創新成為一個重要的關注點。通過用戶的網絡行為,分析用戶的特征,無論在理論研究中還是實際應用中,都是一個熱門話題。大數據用戶特征分析,整合海量用戶數據,將用戶標簽化,使得計算機能夠程序化處理與人相關的信息,通過機器學習算法、模型能夠“理解”人。深度分析用戶特征,在理論研究上可以更好地挖掘事件關聯及預測事件;對于企業而言,無論是搜索引擎、推薦系統、廣告投放等各種應用領域,都可以進一步提高獲取信息的精準度和效率。

而Spark作為一種基于內存計算的分布式計算框架,正受到越來越多大數據研究者的關注。它提供了一個更快、更通用的數據處理平臺,通過將大量數據集計算任務分配到多臺計算機上,并且將中間過程的輸出結果保存在內存中,不再需要讀取和寫入HDFS,以提供高效內存計算,因此Spark可以更好的應用于大數據挖掘和機器學習等算法[1-3]。同時Spark引入了彈性分布式數據集(RDD,Resilient Distributed Dataset)。RDD是不可變的、容錯的、分布式對象集合,用戶可以利用RDD的操作函數并行地操作該集合,以提高計算速度。

目前國內用戶特征分析的研究主要是對社交網絡、微博評論、日志數據等進行特征分析,少部分人則對視頻數據進行分析。張巖峰等人通過用戶在微博上的言論、行為和社交圈等公開數據信息,提出了對該用戶的個性化維度進行分類分析的方法[4];張宏鑫等人從海量移動終端日志數據中挖掘用戶特征,提出了一種基于日志數據的用戶特征分析方法[5];李冰利用用戶觀看新聞類視頻數據,并通過用戶行為分析和建模處理,挖掘用戶在類別、國別、年代、熱度值、評分等維度的興趣偏好[6];馮婷婷通過用戶瀏覽視頻的行為,利用支持向量機、邏輯回歸等分類器進行性別推理[7]。

國際上,Das S等人通過終端用戶的特征標簽,提出了基于權重的邏輯回歸算法的監督和半監督學習的用戶特征分析[8];Kim H L等人提出通過分析用戶標簽,實現以用戶興趣為中心的聚類[9];Gulsen E等人利用網絡日志數據,使用url、DMOZ和文本內容三個特征數據集,預測性別[10]。

目前利用用戶觀看視頻信息分析用戶特征的研究成果還比較少。本研究利用用戶觀看視頻及次數信息,基于樸素貝葉斯分類算法[11-15]和Spark內存計算框架,訓練用戶性別與年齡區間的分類模型,其中年齡區間分為19歲以下、19—30歲、31—40歲、41—50歲和50歲以上,通過計算每個特征項在各個類別中的權重優化模型,提高分類結果的正確率。

4 結論(Conclusion)

本文利用用戶觀看視頻的數據,將樸素貝葉斯分類算法應用到Spark計算框架,訓練用戶的性別和年齡區間的分類模型、加載模型,對測試樣本進行分類,比較分類結果與標注標簽,分析模型性能,整個過程耗時大約三分鐘。在實驗過程中,未考慮特征項權重的分類效果不是很理想;在樸素貝葉斯分類算法中加入傳統的TF-IDF權重計算方法,分類效果僅有小幅度提升;其原因是TF-IDF權重考慮的是特征項與整個樣本集的相關性,并沒有考慮到特征項與類別的相關性,給出的特征項權重并不準確,因此文本提出了一種改進的基于特征項與類別間相關性的TFC-IDFC權重計算方法。該算法的思想是某個特征項在各個類別間出現的越不均勻,則區分類別的能力越強,權重越大,也就意味著每個特征項在各個類別中的權重在很大程度上影響了樸素貝葉斯分類算法的分類能力;另外,通過實驗也證明改進的TFC-IDFC權重計算方法,增加對類別重要程度較大的特征項的權重,有利于提高分類模型的質量和分類結果的正確率,分類效果有了明顯的提高。

大數據背景下的用戶特征分析是當前的研究熱點,用戶的一切網絡行為都是值得挖掘的對象。在最短的時間內,能夠對用戶更加準確分析是我們的研究目標。采用更多維度、更大量級的數據信息,對用戶更多特征的分析將是下一步的研究重點。

參考文獻(References)

[1] Zhang F,et al.A Distributed Frequent Itemset Mining Algorithm Using Spark for Big Data Analytics[J].Cluster Computing,2015,18(4):1493-1501.

[2] Semberecki P,Maciejewski H.Distributed Classification of Text Documents on Apache Spark Platform[C].International Conference on Artificial Intelligence and Soft Computing.Springer International Publishing,2016:621-630.

[3] Meng X,et al.Mllib:Machine Learning in Apache Spark[J].JMLR,2016,17(34):1-7.

[4] ZHANG Yanfeng,et al.A Micro-Blog User Personality Classification Analysis[J].Computer Engineering and Science,2015,37(2):402-409.

[5] ZHANG Hongxin,et al.Visualization of Crowd Characteristics Based on Mobile terminal log data[J].Journal of Software,2016,27(5):1230-1245.

[6] LI Bing.Design and Implementation of Personalized Video Recommendation System based on Hadoop[D].Beijing University of Technology,2015.

[7] Feng T,et al.Tags and Titles of Videos you Watched Tell Your Gender[C].ICC 2014 IEEE International Conference on Communications,2014:1837-1842.

[8] Das S,et al.End-User Feature Labeling: Supervised and Semi-supervised Approaches Based on Locally-Weighted Logistic Regression[J].Artificial Intelligence,2013,204(9):56-74.

[9] Kim H L,et al.Mining and Representing User Interests:The Case of Tagging Practices[J].Systems Man & Cybernetics Part A Systems & Humans IEEE Transactions on,2011,41(4):683-692.

[10] Gulsen E,et al.Big Data Feature Selection and Projection for Gender Prediction Based on User Web Behaviour[C].Signal Processing and Communications Applications Conference (SIU),2015 23th.IEEE,2015:1545-1548.

[11] Luo X,et al.Improvement of Automatic Chinese Text Classification by Combining Multiple Features[J].IEEJ Transactions on Electrical and Electronic Engineering,2015,10(2):166-174.

[12] Lee C H.A Gradient Approach for Value Weighted Classification Learning in Naive Bayes[J].Knowledge-Based Systems,2015,85(C):71-79.

[13] Bi W,Kwok J T.Bayes-Optimal Hierarchical Multilabel Classification[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(11):2907-2918.

[14] Kim H K,Kim M.Model-Induced Term-Weighting Schemes for Text Classification[J].Applied Intelligence,2016:1-14.

[15] Vicente M,Batista F,Carvalho J P.Twitter Gender Classification Using User Unstructured Information[C].Fuzzy Systems(FUZZ-IEEE),2015 IEEE International Conference on.IEEE,2015:1-7.

[16] McCallum A,Nigam K.A Comparison of Event Models for Naive Bayes Text Classification[C].AAAI-98 Workshop on Learning for Text Categorization,1998,752:41-48.

[17] Peralta D,et al.Evolutionary Feature Selection for Big Data Classification:A MapReduce Approach[J].Mathematical Problems in Engineering,2015,12(05):301-305.

[18] LIANG Hong,XU Nanshan,LU Lingang.Sina Micro-blog Users Characteristics Analysis[J].Computer Engineering and Applications,2015,51(7):141-148.

[19] Bozkurt O O,Taygi Z C.Audio-Based Gender and Age Identification[C].Signal Processing and Communications Applications Conference,2014:1371-1374.

[20] Pentreath N.Machine Learning with Spark:Create Scalable Machine Learning Applications to Power a Modern Data-Driven Business Using Spark[M].Packt Publishing,2015.

[21] Hu W,et al.Tagpref:User Preference Modeling by Social Tagging[C].Proceedings of the 2013 IEEE 10th International Conference on Ubiquitous Intelligence & Computing and 2013 IEEE 10th International Conference on Autonomic & Trusted Computing.IEEE Computer Society,2013:111-118.

[22] Sun X,Lin H.Topical Community Detection from Mining User Tagging Behavior and Interest[J].Journal of the American Society for Information Science & Technology,2013,64(2):321-333.

[23] Wang Z,et al.Analysis of User Behaviors by Mining Large Network Data Sets[J].Future Generation Computer Systems,2014,37(7):429-437.

[24] Han Y,Xia K.Data Preprocessing Method Based on User Characteristic of Interests for Web Log Mining[C].Instrumentation and Measurement, Computer,Communication and Control(IMCCC),2014 Fourth International Conference on.IEEE,2014:867-872.

[25] Bai S,et al.Predicting Big Five Personality Traits of Microblog Users[C].2013 IEEE/WIC/ACM International Joint Conferences on Web Intelligence(WI)and Intelligent Agent Technologies(IAT).IEEE Computer Society,2013:501-508.

作者簡介:

張舒雅(1989-),女,碩士生.研究領域:大數據挖掘.

王占剛(1975-),男,博士,副教授.研究領域:大數據,計算

機檢測應用,計算機網絡安全.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 人妻中文久热无码丝袜| 欧美另类一区| AV熟女乱| 亚洲av无码牛牛影视在线二区| 国产精品福利在线观看无码卡| 97久久免费视频| 国产欧美视频一区二区三区| 亚洲视频在线观看免费视频| 欧美综合激情| 久久国产毛片| 99ri国产在线| 婷五月综合| 日韩大片免费观看视频播放| 极品国产一区二区三区| 美美女高清毛片视频免费观看| 成人免费午间影院在线观看| 国产成人艳妇AA视频在线| 人妻丰满熟妇αv无码| 综合社区亚洲熟妇p| 国产内射在线观看| 国产欧美日韩91| 中文字幕 日韩 欧美| a在线亚洲男人的天堂试看| 亚洲精品动漫| 91年精品国产福利线观看久久| 久久精品人妻中文视频| 成人欧美日韩| 久久综合亚洲色一区二区三区| 免费国产黄线在线观看| 亚洲无线视频| 国产精品一线天| 国产精品偷伦视频免费观看国产 | 中文字幕日韩欧美| 精品亚洲国产成人AV| 天堂av综合网| 91欧美亚洲国产五月天| 特级毛片免费视频| 国产精品自在在线午夜区app| 巨熟乳波霸若妻中文观看免费| 男女精品视频| AV熟女乱| 视频二区亚洲精品| 欧美激情成人网| 婷婷开心中文字幕| 国产成人精品日本亚洲| 一级香蕉视频在线观看| 国产91高跟丝袜| 久久伊人操| 色婷婷亚洲十月十月色天| 国产欧美精品一区二区| 成人年鲁鲁在线观看视频| 久久久久青草大香线综合精品| 亚洲va欧美va国产综合下载| 中文字幕欧美成人免费| 欧美国产日本高清不卡| 直接黄91麻豆网站| 欧美成人精品一级在线观看| 国产成人91精品| 午夜爽爽视频| 91福利免费| 激情五月婷婷综合网| 国产丝袜无码精品| 国产精品香蕉在线观看不卡| 亚洲国产成人久久77| 中文字幕1区2区| 精品国产免费人成在线观看| 免费不卡在线观看av| 2021国产乱人伦在线播放| 香蕉eeww99国产在线观看| 欧美69视频在线| 日韩无码视频专区| 日韩在线第三页| 国产精品视频久| 免费看美女自慰的网站| 国产成人在线无码免费视频| 久久久久国产精品熟女影院| 国产成人精品2021欧美日韩| 国产午夜不卡| 国产精品第一区| 久久国产V一级毛多内射| 国产系列在线| a毛片免费在线观看|