


摘 要:網絡活動已成為人們日常生活的重要組成部分,研究我國網民網絡活動對促進“互聯網+”經濟發展以及網民網絡活動向著健康有益的方向發展具有重要的理論和現實意義。運用關聯規則挖掘的Apriori算法和Gri算法,對網民網絡活動間的關聯性以及網民特征與網絡活動的關聯性進行分析。研究表明,上網聊天、了解新聞資訊、收發郵件、觀看視頻、購物與收集資料、下載資源和軟件密切關聯;玩游戲、購物、觀看視頻、收集資料、下載資源和軟件與上網聊天密切關聯;未婚大學生網民進行收集資料、下載資源和軟件的網絡活動,從而獲得對學習有益的信息和資源,上網聊天也已成為青年人的主要網絡活動形式;本科大學男生更喜歡玩游戲,而城鎮已婚男性或者學歷為碩士研究生的網民偏愛于了解新聞資訊。
關鍵詞:網絡活動;關聯規則;Apriori算法;Gri算法
中圖分類號:F224? ? ? ? 文獻標志碼:A? ? ? 文章編號:1673-291X(2020)10-0130-06
引言
2017年1月,中國互聯網絡信息中心(CNNIC)在第39次《中國互聯網絡發展狀況統計報告》中指出,截至2016年12月,中國網民規模達7.31億,相當于歐洲人口總量,互聯網普及率達到53.2%,比全球平均水平高出了3.1個百分點,超過亞洲平均水平7.6個百分點。從上網時長來看,中國網民的人均周上網時長為26.4小時,網絡已深入到我國國民的生活中,網絡活動也已成為日常生活中的重要組成部分。網絡活動日益豐富,網絡活動間必然存在某些聯動關系,并且網民特征與網絡活動也存在著某種關聯,了解這些關聯可以幫助互聯網企業在激烈的市場競爭中獲得有利地位,可以更好地滿足網民的上網需求。
隨著信息化時代的發展,網民網絡活動引起了國內外學者的關注,對網絡數據的挖掘與研究成為了一個熱點問題。Yu等、Li等、Ríos等通過收集在Web日志數據運用關聯規則對網民的網絡活動進行了分析,發掘網民的用戶特征,從而不斷完善網站的結構和提高用戶的客戶體驗[1~3]。Liao等、Najafabadi等通過使用關聯規則挖掘來有效地處理海量數據,在關聯規則中捕獲每個事務的多個購買,從而獲取多個購買行為的用戶之間的相似的興趣模式[4~5]??娂t保等通過對用戶網絡流量進行協議投影而獲得其行為模式和特征[6]。付關友等基于心理學的角度,用線性回歸模型來描述用戶瀏覽行為與關注度之間的相關性[7]。王實等挖掘Web訪問頁面之間用戶訪問的關聯度規則,對Web站點的結構進行調整和優化[8]。高琳琪采用模糊相似度分析用戶偏好結構與新聞結構的相似性,建立模型提供個性化新聞推薦服務,進行精細化的市場定位[9]。
國內外學者從不同角度對網民網絡活動間問題進行了分析,并將獲得規律運用至商業領域。本文則通過1 337份調查問卷,基于關聯規則挖掘的Apriori算法以及Gri算法兩種算法,進一步探尋網民網絡活動之間,以及網民特征與網絡活動之間的關聯規則模型。研究成果對了解當下我國網民的網絡活動狀況,促進“互聯網+”經濟及網民網絡活動向著健康有益的方向發展具有重要的理論和現實意義。
一、數據來源與模型描述
1.數據來源。本研究通過問卷設計,網上調查和實地調查相結合,邀請被調查者在問卷星網站作答或通過調查員紙質問卷開展調查,共發放問卷1 500份,回收1 350份,有效問卷1 337份。所有缺省數據的處理由SPSS Clemenetine12.0自動處理,不影響本研究的最終結果。
2.關聯規則模型描述。關聯規則最早由Agrawal等學者提出,主要用于研究超市顧客購買商品之間的規律,稱為購物籃分析,其目的是為了挖掘隱藏在數據間的相互關系。簡單關聯規則的一般表現形式是:X→Y。其中,X稱為規則的前項,Y稱為規則的后項。規則置信度是對簡單關聯規則準確度的測量,規則支持度則測度簡單關聯規則的普遍性。判定簡單關聯規則實用性指標,主要有規則提升度、置信差、置信率等。本研究主要采用規則提升度,反映了項目X的出現對項目Y出現的影響程度,一般大于1才有意義。
3.Apriori 算法與Gri算法。Apriori 算法與Gri算法均是用于簡單關聯分析。區別在于:第一,Apriori 算法只能處理分類型變量,而Gri算法不但能處理分類型變量,而且前項還可以為數值型變量;第二,Apriori 算法中數據可以按事務表和事實表方式兩種方式存儲,而Gri算法只能按事實表方式存儲;第三,Apriori 算法依據頻繁項集產生關聯規則,而Gri算法采用深度優先搜索(Depth First Search)策略實現算法。為此,本研究在分析網民網絡活動關聯規則時使用Apriori 算法,在分析網民特征與網絡活動關聯規則時使用Gri算法。
二、基于Apriori算法的我國網民網絡活動間關聯規則分析
1.事實表數據準備。網民網絡活動的數據以事實表形式表示,變量值取1或0,1表示被調查者有此項網絡活動,0表示被調查者無此項網絡活動。調查表中共涉及9項具體網絡活動,第10項為“其他”(如表1所示)。
網民網絡活動情況(如表2所示)。網民性別、年齡、戶籍、職業、學歷、婚姻狀況、月收入構成等特征限于篇幅,在文中略去。
2.Apriori 算法的關聯規則。數據預處理后,采用二值型關聯規則算法進行挖掘。本文使用 SPSS Clementine 12.0 軟件中的 Apriori 節點來實施關聯分析。首先,運用網絡節點生成網狀圖(如圖1所示)。當最低條件規則支持度閾值為 10%,最小規則置信度閾值為 80%,最大前項5時,可以得到28條有效關聯規則。為進一步減少規則,甄別關鍵信息,將最大前項設置減少至2,最低條件規則支持度閾值為 10%,最小規則置信度閾值為 80%,可以得到10條有效關聯規則(如圖2所示)。
3.結果分析。通過Apriori算法得到關于網民網絡活動的10條關聯規則,后項主要為收集資料、下載資源和軟件,以及上網聊天兩類網絡活動。
當后項為收集資料、下載資源和軟件時,有7條關聯規則,其中置信度最高為88.852%,其規則為:收發郵件,了解新聞資訊→收集資料、下載資源和軟件,表明當網民進行收發郵件。了解新聞資訊時,在88.852%的情況下,會有收集資料、下載資源和軟件這樣的網絡活動。該規則作用度為 1.443,支持度為22.593%,具有較高的應用價值。
當后項為上網聊天時,有3條關聯規則,其中置信度最高為85.612%,其規則為:玩游戲、購物→上網聊天,表明當網民進行玩游戲、購物時,在85.612%的情況下,會有上網聊天這樣的網絡活動。該規則作用度為 1.551,支持度為10.296%,具有較高的應用價值。
同理,其他獲得的8條規則在不同程度上揭示了網民網絡活動間的關聯性,這些關聯規則均具有較高的實用性。因此可以認為,上網聊天、了解新聞資訊、收發郵件、觀看視頻、購物與收集資料、下載資源和軟件密切關聯;玩游戲、購物、觀看視頻、收集資料、下載資源和軟件與上網聊天密切關聯是網民經常開展的網絡活動。
三、基于Gri算法的我國網民特征與網絡活動的關聯規則分析
1.數據準備。本研究中網民特征主要通過性別、年齡、戶籍、職業、學歷、婚姻狀況、月收入構成(如表3所示),網絡活動數據同上。
2.Gri算法的關聯規則。本文使用 SPSS Clementine12.0 軟件中的Gri節點來實施關聯分析。當最低條件規則支持度閾值為 10%,最小規則置信度閾值為75%,最大前項為3時,可以得到43條有效關聯規則。為進一步減少關聯規則,在43條有效關聯規則中調整最低條件規則支持度閾值為22%,最小規則置信度閾值為75%,最大前項為3時,可以得到15條有效關聯規則(如下頁圖3所示)。
3.結果分析。通過Gri算法得到15條關聯規則,后項包括收集資料、下載資源和軟件、上網聊天和觀看視頻。三類后項,在圖3中典型的關聯規則主要有三條。
第一條,職業為大學生,婚姻狀況為未婚→收集資料、下載資源和軟件,置信度為77.5%,表明未婚大學生網民,在77.5%的情況下,會進行收集資料、下載資源和軟件的網絡活動。該規則提升度為1.259,支持度為46.74%,該規則符合當前大學生網絡活動的特點,具有較強的應用價值。
第二條,年齡在20歲及以下,無收入→上網聊天,置信度=76.97%,表明在76.97%的情況下,20歲及以下、無收入的青年網民群體是上網聊天的主要人群。該規則提升度為 1.395,支持度為22.52%,該規則符合該類網民群體上網特征,上網聊天是青年學生重要的網絡活動的形式。
第三條,性別為女性、職業為大學生、無收入→觀看視頻,置信度=76.56%,表明在76.56%的情況下,無收入的女大學生群體是觀看視頻的主要人群。該規則提升度為 1.337、支持度為24.96%,該規則揭示了女大學生是觀看視頻的主要群體。
同理,其他獲得的12條關聯規則在不同程度上揭示了網民特征與各項網絡活動間的關聯性,這些關聯規則均具有較高的實用性。從輸出結果來看,主要涉及到的網絡活動就是收集資料、下載資源和軟件、上網聊天和觀看視頻。
綜合以上分析可以得到,未婚大學生網民會進行搜集資料、下載資源和軟件的網絡活動,主要由于大學生仍處在學習之中,網絡上可以獲取對學習有益的信息和資源,這一關聯規則較為顯著;上網聊天成為青年人的主要網絡活動形式,當前網絡即時通信技術發達,成為青年人溝通的主要媒介;女大學生成為了觀看視頻的主要群體,當前網絡提供了海量視頻資源,包括學習、娛樂等視頻,這些資源成為了女大學生關注的重點。
如進一步降低閾值,設置最低條件規則支持度閾值為 10%,最小規則置信度閾值為 60% 時,執行后得到80條有效規則??蛇M一步發現,本科大學男生更喜歡于玩游戲,城鎮已婚男性或者學歷為碩士研究生的網民偏愛于了解新聞資訊。
四、結論與建議
通過1 337位網民的網絡活動情況調查,運用關聯規則挖掘的Apriori算法以及Gri算法可以得到以下主要結論。
1.上網聊天、了解新聞資訊、收發郵件、觀看視頻、購物與收集資料、下載資源和軟件密切關聯;玩游戲、購物、觀看視頻、收集資料、下載資源和軟件與上網聊天密切關聯。
2.未婚大學生網民進行收集資料、下載資源和軟件的網絡活動,從而獲得對學習有益的信息和資源,上網聊天業已成為青年人的主要網絡活動形式。
3.本科大學男生更喜歡于玩游戲,而城鎮已婚男性或者學歷為碩士研究生的網民偏愛于了解新聞資訊。
網絡已成為人們生活工作中不可或缺的重要載體,要提高我國網民更多有益的網絡活動:第一,互聯網企業可以不斷提供豐富的網絡活動形式,特別是與網絡相匹配的網絡產品和服務組合;第二,目前,網絡活動形成關聯規則的仍然集中在青年學生等群體中,針對中老年網民的網絡活動較少,中老年網民網絡活動特征不明顯,未見有效關聯規則,可以進一步開拓基于該中老年網民群體的網絡活動,提升互聯網服務的范圍和價值;第三,針對已有的青年網民網絡活動特征,一方面加強網絡活動的正確引導,另一方面進一步加大對青年群體網絡消費潛力的挖掘,促進“互聯網+”健康有序的發展。
網絡活動已成為人們日常生活重要的組成部分,是滿足人們精神生活的一種重要保障。為此,有針對性地加強網絡活動的引導,對滿足人們日益增加的網絡消費需求,促進互聯網產業健康發展,切實轉變經濟發展方式具有深遠的意義。
參考文獻:
[1]? Yu X.,Li M.,Paik I.,et al..Prediction of Web User Behavior by Discovering Temporal Relational Rules from Web Log Data[M].Database and Expert Systems Applications.Springer Berlin Heidelberg,2012:31-38.
[2]? Li D.,Laurent A.,Poncelet P.Mining Unexpected Web Usage Behaviors[C].Industrial Conference on Advances in Data Mining:Medical Applications,E-Commerce,Marketing,and Theoretical Aspects.Springer-Verlag,2008:283-297.
[3]? Ríos S.A.,Velásquez J.D.,Yasuda H.,et al..Web Site Off-Line Structure Reconfiguration:A Web User Browsing Analysis[C].International Conference on Knowledge-Based Intelligent Information and Engineering Systems.Springer-Verlag,2006:371-378.
[4]? Liao S.H.,Chang H.K.A rough set-based association rule approach for a recommendation system for online consumers[J].Information Processing&Management,2016,(6):1142-1160.
[5]? Najafabadi M.K.,Mahrin M.N.,Chuprat S.,et al..Improving the accuracy of collaborative filtering recommendations using clustering and association rules mining on implicit data[J].Computers in Human Behavior,2017,(67):113-128.
[6]? 繆紅保,李衛.基于數據挖掘的用戶安全行為分析[J].計算機應用研究,2005,(2):105-110.
[7]? 付關友,朱征宇.個性化服務中基于行為分析的用戶興趣建模[J].計算工程與科學,2005,(12):76-78.
[8]? 王實,高文,李錦濤.基于用戶訪問事務文法的序列關聯規則[J].軟件學報,2001,(10):1503-1509.
[9]? 高琳琪.基于用戶行為分析的自適應新聞推薦模型[J].圖書情報工作,2007,(6):1-5.
An Association Rules Analysis on Chinas Internet Users Network Activities Based on Apriori and Gri Algorithm
HUANG Wen-jing
(School of Finance and Economics,Jiangsu University,Zhenjiang 212013,China)
Abstract:Network activities have become an important part of daily life.Studying the network activities of Chinas Internet users has the theoretical and practical significance to promote the“Internet Plus”economic development and the development of Chinas Internet users network activities towards a more beneficial direction.This paper applies Apriori algorithm and Gri algorithm to analyze the correlation among network activities and between Internet users and network activities.The result shows,Chatting on the Internet,reading the newspaper and magazines,sending and receiving e-mails,watching the video and shopping are closely related to collecting information,downloading resources and software;Playing games,shopping,watching the video,collecting information,downloading resources and software are closely related to chatting on the Internet;Unmarried college Internet users often collecting information,downloading resources and software,which are useful to study;Chatting on the Internet has become the main form of network activities for young people;Undergraduate college boys prefer to play games,and urban married men or academic qualifications for postgraduates preferred to understand the newspaper or magazines.
Key words:network activities;association rule;Apriori algorithm;Gri algorithm
收稿日期:2019-10-28
基金項目:江蘇高校哲學社會科學重點項目“新常態下江蘇文化產業供給側結構性改革動力與增長潛力研究”(2017ZDIXM037)
作者簡介:黃文靜(1995-),女,湖北潛江人,碩士研究生,從事國際經貿與產業經濟學研究。