王晨綾 劉 偉 鄭世玨
(1.華中師范大學信息管理學院 武漢 430079)(2.華中師范大學計算機學院 武漢 430079)
?
基于Apriori算法的對微信熱點事件的關聯分析與研究
王晨綾1劉偉2鄭世玨2
(1.華中師范大學信息管理學院武漢430079)(2.華中師范大學計算機學院武漢430079)
摘要作為移動互聯網時代的殺手級應用,騰訊公司的微信作為新一代通訊軟件在互聯網用戶中迅速發展。基于移動終端,跨網絡、跨終端的特點使微信的傳播機制與規律都呈現出新的特點,提升了溝通的效率。微信的大規模使用,使微信聚集了大量的用戶傳播的社會事件。論文使用Apriori算法對萃取出來的微信熱點事件進行關聯分析,分析當前社會熱點事件的相關性,發現與其相對應的安全性關聯規則,跟蹤并有效記錄該熱點事件,形成熱點萃取的分析結果。
關鍵詞Apriori; 微信; 熱點事件; 關聯分析
Association Analysis on Wechat’s Social Hot Issues Based on Apriori Algorithm
WANG Chenling1LIU Wei2ZHENG Shijue2
(1. Department of Information Management, Central China Normal University, Wuhan430079)
(2. Department of Computer Science, Central China Normal University, Wuhan430079)
AbstractAs a killer communication APP in mobile internet era, Wechat has developed a large amount of users. Wechat is based on mobile terminal and supports various networks and various devices, so the mechanism and the law of the spreading of news and events on wechat has also become different from traditional. The wide-scale use of wechat gathers large amount of social hot issues. In this article Apriori Algorthm and association analysis are used to discover the correlation of wechat’s social hot issues and to reveal the security association rules. These issues will be trcacked and record effectively to get the results of analysis.
Key WordsApriori, wechat, social hot issues, association analysis
Class NumberTP301.6
1引言
隨著互聯網的迅速發展,關于如何在海量數據里發現有價值的信息和知識的工作受到越來越廣泛的重視。數據挖掘也稱為知識發現,其正是在這樣的背景下產生并蓬勃發展起來的。數據挖掘是從大量的數據中挖掘那些令人感興趣的有用的隱含的先前未知的和可能有用的模式或知識。關聯規則挖掘是數據挖掘中最活躍的研究方法之一,最早是由Agrawal等提出的。最初提出的動機是針對購物籃分析問題提出的,其目的是為了發現交易數據庫中不同商品之間的聯系規則[2]。這些規則刻畫了顧客購買行為模式,可以用來指導商家科學地安排進貨、庫存以及貨架設計等。當下微信應用在互聯網用戶中廣泛使用,產生了大量的社會熱點事件,而對萃取出來的熱點事件進行關聯分析,成為迫切需求,而Apriori算法可以進行該關聯分析,形成熱點事件的分析結果。
2Apriori算法及其微信熱點事件的關聯分析模型
2.1Apriori算法
Apriori算法是在1994年提出的關聯規則的經典算法,它是所有關聯挖掘算法的核心。Apriori算法將關聯規則挖掘劃分為兩個子問題: 1) 在事務集中尋找滿足所有最小支持度閾值min_sup的頻繁項集; 2) 利用頻繁項集來生成所有滿足最小置信度閾值min_conf的關聯規則。其中的子問題a是Apriori算法所要解決的核心問題。Apriori算法主要通過迭代的方法來求出事務集中所有的頻繁項集[1]。
2.2Apriori算法在微信事件分析中的關聯模型
Apriori算法的基本思想是:首先找出所有的頻繁項集,這些項集出現的頻繁性至少和預定義的最小支持度一樣。然后由頻集產生強關聯規則,這些規則必須滿足最小支持度和最小可信度。然后使用第一步找到的頻集產生期望的規則,產生只包含集合的項的所有規則,其中每一條規則的右部只有一項,這里采用的是中規則的定義。一旦這些規則被生成,那么只有那些大于用戶給定的最小可信度的規則才被留下來。為了生成所有頻集,該算法使用了遞歸的方法[3]。
經典的關聯規則數據挖掘算法Apriori算法廣泛應用于各種領域,通過對數據的關聯性進行了分析和挖掘,挖掘出的這些信息在決策制定過程中具有重要的參考價值。
Apriori算法的基本實現原理:
輸入:數據集D,最小支持度minsupport
輸出:所有的頻繁項集
L1=find_Frequent_itemsets(D,minsupport)
for(k=2;Lk-1!=NULL;k++)
{Ck=apriori_gen(Lk-1)
for each item t包含于D
do {Ct=subset(Ck, t)
for each candidate c包含于Ct
count++;}
通過本課題組在微信平臺萃取出來的大量熱點事件,剔除無效數據,將Apriori算法應用在獲取的大量微信熱點事件上,分析出影響微信事件成為熱點事件的原因,本論文將原因大概分為以下幾類:事件屬性,事件主題知名度,發布平臺知名度,是否有知名平臺轉發,閱讀量,點贊數,通過這些事件屬性,分析出影響熱點事件的因素。
3Apriori算法在微信熱點事件分析中的數據分析
本課題組通過我們的微信平臺萃取出大量微信事件信息,隨機抽取其中部分事件,將事件屬性(民生-5,娛樂-4,政治-3,經濟-2,文化-1),事件主體知名度(高-2,中-1,低-0),發布平臺知名度(高-2,中-1,低-0),是否有知名平臺轉發(是-1,否-0),閱讀量,點贊數,是否是熱門事件(是-1,否-0)這七項數據錄入到數據庫中。將通過數據挖掘的方法找出前六項數據對事件是否為熱點事件的影響。表1給出了本課題組萃取的部分事件的七項屬性視圖,共有200條信息,截取部分事件如表1所示。

表1 事件信息圖
通過對微信內容進行萃取后,使用Apriori算法對獲取的結果進行關聯分析,找出事件屬性,事件主體知名度,發布平臺知名度,是否有知名平臺轉發,閱讀量,點贊數等因素對事件是否成為熱門事件的影響。

表2 關聯規則挖掘結果
這里,設初始minsupport=5%,利用Apriori算法編寫程序,搜索存入事件信息的數據庫,得到滿足最小支持度和最新可信度的關聯規則。圖2是其中部分事件的關聯情況,這些關聯情況的右邊為1(即為熱點事件),左邊為事件屬性,事件主體知名度,發布平臺知名度,是否有知名平臺轉發,閱讀量,點贊數等其中的一個,即為X→1的形式,X為事件屬性,事件主體知名度,發布平臺知名度,是否有知名平臺轉發,閱讀量,點贊數其中之一。
4對微信熱點事件關聯分析的測試
通過本課題組從微信平臺萃取出大量微信事件信息,選取其中的一個時間段內的大量事件作為樣本進行分析,通過Matlab仿真測試,通過仿真測試可以獲取該時間段內熱點事件的關聯分析結果,獲取熱點時間的形成原因,讓我們獲取熱點事件關聯分析的結果。在本仿真測試中,設初始minsupport=5%,利用Apriori算法編寫程序,隨機抽取其中部分事件,將事件屬性,事件主體知名度,發布平臺知名度,是否有知名平臺轉發,閱讀量,點贊數,是否是熱門事件這七項數據錄入到數據庫中,然后進行仿真測試。

表3 仿真測試圖
通過對熱點事件中萃取的部分熱點事件進行關聯分析,可以看出,測試結果與上一部分中的計算結果一致,微信熱點事件的形成與事件主體是否知名,事件發布平臺是否知名,事件是否有知名平臺轉發,事件閱讀數,事件轉發數等因素成正相關。通過仿真測試的結果驗證了上述Apriori算法的計算分析結果。
5對微信熱點事件關聯規則的結果分析
通過得到的關聯規則,可得到如下的分析結果及改進措施。
1) 事件屬性對事件是否成為熱點事件的影響
通過上述關聯規則前五項的支持度,可以看出,事件屬性為娛樂的支持度明顯高于其他事件屬性,說明娛樂事件成為熱門事件的可能性比其他事件成為熱點事件的可能性大。
2) 事件主體知名度對事件是否成為熱點事件的影響
通過上述關聯規則第六項、第七項的支持度,可以看出,事件主體知名度高的支持度明顯高于事件主題知名度不高的事件,說明事件主體知名度能很大程度影響事件是否成為熱點事件。
3) 事件發布平臺是否知名對事件是否成為熱點事件的影響
通過上述關聯規則第八項、第九項的支持度,可以看出,事件發布平臺高的支持率與事件發布平臺低的支持率相差無幾,說明發布平臺的知名度對事件是否成為熱點事件影響不大。
4) 是否有知名平臺轉發對事件是否成為熱點事件的影響
通過上述關聯規則第十項、第十一項的支持度,可以看出,有知名平臺轉發的支持率明顯高于沒有知名平臺轉發的支持率,說明有知名平臺轉發對事件能否成為熱點事件有影響。
5) 事件閱讀量對事件是否成為熱點事件的影響
通過上述關聯規則第十二項、第十三項的支持度,可以看出,事件閱讀量大的事件的支持率明顯高于事件閱讀量低的事件,說明事件閱讀量能很大程度地影響事件是否成為熱點事件。
6) 事件點贊量對事件是否成為熱點事件的影響
通過上述關聯規則第十四項、第十五項的支持度,可以看出,事件點贊量大的事件的支持率明顯高于事件點贊量低的事件,說明事件點贊量能很大程度地影響事件是否成為熱點事件。
6結語
隨著微信在互聯網時代的迅速發展,微信每天都產生大量的社會熱點信息,通過對微信產生的熱點事件萃取獲得的結果進行分析,可以獲得大量有效的關于當前社會,當前互聯網發展的情況,但是這些數據有些還未能得到有效利用,只是一個有待開發的寶藏[4~5]。鑒于當前微信在互聯網用戶中迅速發展,利用這些數據理性地分析當前社會熱點信息產生的各個因素進行關聯分析,對當前微信的發展具有重要意義。本文通過將關聯規則挖掘的理論知識應用到微信熱點事件關聯分析中,通過Apriori算法,分析影響微信事件是否成為熱點事件的主要因素,可以為事件發布者提供一定的參考依據。
文中借用數據挖掘中的規則分類技術給出一種劃分方法,主要介紹了在關聯分析中利用基于決策樹規則的分類技術來劃分等價類的方法模型。可借由此方法編程實現測試用例的自動生成工具。該方法模型采用基于規則的排序策略對決策樹規則進行排序,按分類規則將測試用例劃分為若干個等價類,然后在每個類中選擇少數有代表性的測試用例進行測試,測試成本,實現最小回歸測試集的生成。盡管數據挖掘技術在其他方面得到了廣泛的應用,但是在工程實踐中,某些方法的效率和有效性還需要提高及檢驗;隨著計算機學科技術的發展和研究的深入,將數據挖掘的相關技術越來越多的應用到軟件測試中會成為軟件測試有效方法之一。
參 考 文 獻
[1] 林郎碟,王燦輝.Apriori算法在圖書推薦服務中的應用與研究[J].計算機技術與發展,2011,21(5):22-24,28.
LIN Langdie, WANG Chanhui. Application and research of Apriori algorithm in book recommendation service[J]. Computer Technology and Deveolpment,2011,21(5):22-24,28.
[2] 張紅艷,都娟.關聯規則中Apriori算法的應用[J].數字技術與應用,2011,8:14-15.
ZHANG Hongyan, DU Juan. Application of Apriori algorithm in association rules[J]. Digital Technology and Application,2011,8:14-15.
[3] 趙松.Apriori算法的改進及應用[D].哈爾濱:哈爾濱理工大學,2006.
ZHAO Song. The improvement and application of Apriori algorithm[D]. Harbin: Harbin University of Science and Technology,2006.
[4] 方興東,石現升,張笑容,等.微信傳播機制與治理問題研究[J].現代傳播(中國傳媒大學學報),2013,6:122-127.
FANG Xingdong, ZHANG Xiaorong, ZHANG Jing, et al. WeChat communication mechanism and governance issues[J]. Modern Communication(Journal of Communication University of China),2013,6:122-127.
[5] 王萍.微信移動學習的支持功能與設計原則分析[J].遠程教育雜志,2013,6:34-41.
WANG Ping. WeChat mobile learning support functions and design principles of analysis[J]. Journal of Distance Education,2013,6:34-41.
[6] 劉軍,艾力斯木吐拉,段天山,等.一種改進的Apriori挖掘算法的研究與應用[J].武漢理工大學學報,2009,19:144-147.
LIU Jun, AI Lisimutula, DUAN Tianshan, et al. Research and Application of an improved Apriori algorithm mining[J]. Journal of Wuhan University of Technology,2009,19:144-147.
[7] 劉華婷,郭仁祥,姜浩.關聯規則挖掘Apriori算法的研究與改進[J].計算機應用與軟件,2009,1:146-149.
LIU Huating, GUO Renxiang, JIANG Hao. Research and improvement of the Apriori algorithm for mining association rules[J]. Computer Applications and Software,2009,1:146-149.
[8] 殷劍鋒,徐建城,李偉強.改進Apriori挖掘算法的網格實現[J].計算機仿真,2010,2:145-148,268.
YIN Jianfeng, XU Jiancheng, LI Weiqiang. The Grid implementation of improved Apriori mining algorithm[J]. Computer Simulation,2010,2:145-148,268.
[9] Wenjing Zhang, Donglai Ma, Wei Yao. Medical Diagnosis Data Mining Based on Improved Apriori Algorithm[J]. Journal of Networks,2014,95.
[10] Honglie Yu, Jun Wen, Hongmei Wang, et al. An Improved Apriori Algorithm Based On the Boolean Matrix and Hadoop[J]. Procedia Engineering,2011,15.
[11] Yuxia Li. The Application of Apriori Algorithm in the Area of Association Rules[J]. Energy Procedia,2011,11.
[12] Li Hanguang, Ni Yu. Intrusion Detection Technology Research Based on Apriori Algorithm[J]. Physics Procedia,2012,24.
[13] Cristian Aflori, Mitica Craus. Grid implementation of the Apriori algorithm[J]. Advances in Engineering Software,2006,385.
中圖分類號TP301.6
DOI:10.3969/j.issn.1672-9722.2016.01.007
作者簡介:王晨綾,女,碩士研究生,研究方向:情報學。劉偉,男,碩士研究生,研究方向:數據挖掘。鄭世玨,男,教授,博士生導師,研究方向:數據挖掘。
收稿日期:2015年7月9日,修回日期:2015年8月27日