999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進的基于Spark 的用戶行為分析方法的研究

2016-11-16 10:20:54阮得寶李長云
湖南工業大學學報 2016年4期
關鍵詞:數據挖掘數據庫用戶

阮得寶,李長云

(湖南工業大學 計算機與通信學院,湖南 株洲 412007)

一種改進的基于Spark 的用戶行為分析方法的研究

阮得寶,李長云

(湖南工業大學 計算機與通信學院,湖南 株洲 412007)

為解決大數據量情況下的網絡用戶行為分析的時效性、準確性,針對Apriori算法對數據庫反復掃描和候選集過大的問題,提出了一種將壓縮矩陣和事務權值引入的改進型Apriori算法,并將改進后的算法運用于云計算平臺Spark。實驗證明,改進后的算法的性能和效率都更高,在網絡用戶行為分析中具有優勢。

Spark;Apriori;互聯網;數據分析;網絡用戶行為分析

1 背景知識介紹

隨著互聯網的飛速發展,網絡逐漸成為人們獲取信息的最重要手段,網絡數據流量也產生了巨大的增長。用戶行為分析,是指在獲得網站訪問量基本數據的情況下,對有關數據進行統計、分析,從中發現用戶訪問網站的規律,并將這些規律與網絡營銷策略和推薦系統等相結合,從而發現目前網絡活動中可能存在的問題,并為進一步優化用戶體驗和擴大服務提供商利益提供依據[1]。但是由于網絡的開放性、動態性以及多樣性等特點,用戶在網上產生的數據量越大,用戶行為分析的難度也越大。因此,在大數據量情況下對網絡用戶行為進行分析的需求越來越迫切。

用戶行為分析的目的,是掌握用戶的行為習慣和特點,進而根據用戶的行為特點進行有針對性的網絡信息推送;通過推送,用戶獲取需要信息的難度也大大降低。用戶行為分析方式主要有以下幾種方法:用戶特征分析,是指找出用戶的行為特征的方法;關聯分析,是指尋找用戶的兩種或者幾種行為習慣的聯系、相關性或者因果關系;分類與預測,利用分類技術將用戶歸屬于一個特定的類;異常分析,針對用戶的不正常網絡流量進行分析;TopN分析,在用戶行為分析中,往往按照某一指標進行倒序或者正序排列,取前N項分析。

互聯網發展的同時,網絡用戶行為相關的數據也在激增,傳統的用戶行為分析方法不足以支持如此巨大的數據量。因此,用戶行為分析的方法必須運用海量數據運算[2]。在這樣的情況下,海量數據的挖掘技術就至關重要。當前海量數據挖掘的辦法主要有以下幾種。

1)抽樣,對數據進行抽樣,在抽樣數據的基礎上建立數據挖掘模型;2)集成方法,劃分數據集,并行創建分類器,然后集成處理;3)Map/reduce框架,基于云計算平臺處理海量數據[3]。

針對云計算情形下的用戶行為分析的算法主要有以下幾種。

1)分類。分類是指將數據庫中的數據按照種類和性質分別歸類。2)回歸分析。回歸分析是指查找出幾種變量之間的依賴關系,并用來分析變量里所包含的數據之間的規律。3)聚類分析。聚類分析是指根據規定的聚類變量,將數據庫中的數據分成若干類。4)關聯規則。關聯規則是指數據對象之間的依賴關系,目的就是從發現支持度大于給定值的規則。5)神經網絡方法。神經網絡方法模擬人的直觀思維方式,將信息分布式存儲以及并行協同處理,特點是非線性映射能力及高度的并行性,神經網絡方法在邏輯推理中寫成串行的指令,讓計算機運行。6)Web數據挖掘。Web數據挖掘應用于Web環境,它從大量的Web文檔數據中發現隱藏在數據中的規律,通過對這些數據的挖掘,可以得到僅通過文字檢索無法獲得的信息。

基于云計算平臺的用戶行為分析中,較為重要、應用較廣泛的算法是關聯規則算法,其流程圖如圖1所示。

圖1 關聯分析流程圖Fig.1 Flow chart of the correlation analysis

關聯分析中最典型的算法就是Apriori算法。Apriori算法的核心思想是基于兩階段頻集思想的挖掘算法,它的優點是簡單、容易理解和數據要求低。但是,傳統的Apriori算法存在下面2個缺點:1)根據Apriori算法的定義,Apriori算法會產生大量的頻繁集;2)在數據庫規模巨大的情況下,算法會重復掃描事務數據庫,這種反復掃描會增加I/O的負載,并且隨著數據庫規模的增加,I/O負載會呈現指數式的增加。

近幾年,隨著Hadoop的使用不斷廣泛和完善,大量研究人員也都致力于將傳統的數據挖掘算法采用并行編程框架進行分布式并行化處理,以提高數據挖掘的效率[4]。許多學者也針對Apriori算法的不足,結合Hadoop在大集群中所展現的優勢,提出了一些基于Hadoop的改進型Apriori算法。其不足之處大多是求解局部的頻繁項集時,沒有剪切操作,導致生成的候選項集過大。隨著Spark的異軍突起,Hadoop有逐漸被取代的趨勢。現階段,針對Spark的運用,主要集中在數據挖掘方面,鮮有將Spark運用于用戶行為分析的研究。本文提出的基于Spark的改進型Apriori算法更能適用于大數據挖掘,從而對用戶行為進行可靠的分析。

2 基于Spark的Apriori算法設計

針對Apriori算法效率欠佳的問題,許多研究人員在Apriori原始算法的基礎上對Apriori算法進行了大量地改進。改進的Apriori算法所使用的主要技術有:哈希技術、事務壓縮技術、分區技術和采樣技術等等。而通過這些技術改進后的Apriori算法都存在著候選集過大或者犧牲了原算法計算結果準確性的問題[5]。

在大數據情況下,影響Apriori算法效率最大的問題主要是對數據庫的反復掃描。為了解決這個問題,課題組在使用矩陣形式來存儲數據庫的基礎上,提出利用向量計算的方法計算支持度,并且對相同事務壓縮以減小矩陣的大小,優化數據結構,提高算法的效率。算法首先對交易事務的數據庫進行掃描,然后將數據庫轉化成一個布爾矩陣,轉化的同時對事務數據進行壓縮,在生成頻繁集時,得到項集的支持度計數,若大于最小支持度計數,保留項集,反之則舍棄。計算過程中對數據矩陣進行刪減,并反復迭代上述過程,避免了原算法在計算候選集的支持度時掃描全部數據庫的不足。

Spark是UC Berkeley AMP Lab所開源的類HadoopMap/reduce的通用并行框架,擁有Hadoop MapReduce所具有的優點。Spark與Map/reduce的區別是,它的Job中間輸出和結果可以保存在內存中,沒有讀寫HDFS的需求[6]。因此,Spark為迭代式數據處理提供了更好的支持。Spark的生態系統如圖2所示。Spark的核心和精華是它的彈性分布式數據集(resilient distributed dataset,RDD),RDD是只讀的紀錄分區的集合,能夠在內存中加載,方便再次使用。RDD可以分布在多個節點上,可以進行并行處理[7]。

圖2 Spark的生態系統圖Fig.2 Spark ecosystem diagram

基于Spark的改進型Apriori算法使用Map/reduce思想實現頻繁的計算。基于Spark的改進Apriori算法流程圖如圖3所示。

圖3 基于Spark的改進Apriori算法流程圖Fig.3 Flow chart of the improved Spark-based Apriori algorithm

在設計方面,由于Spark運行在Mesos平臺,所以采用分布式管理系統作為原始數據存放的存放系統。在Spark實現算法時,首先將原始的交易數據存放在HDFS中,隨后讀取HDFS上的交易事務數據,并將其轉化為壓縮矩陣,根據轉化后的矩陣數創建RDD。其次,通過Map操作計算候選集的局部支持度計數,通過Reduce計算候選集的全局支持度計數。因為轉化后的數據是緩存到本地隨機存取存儲器RAM中,所以每一個Map操作的過程中,都是直接讀取候選項集中項的行向量數據,不需要到分布式文件系統上重寫。數據集的劃分和任務分配都在Spark中由系統自動完成的[8]。為了驗證改進算法的性能提升程度,課題組進行了2組實驗,分別檢驗兩種算法在常規和云計算平臺下的表現。

3 實驗結果分析

Apriori算法性能提升,是指算法在分析處理大數據環境下的用戶行為數據時,其運算速度得到了提升。課題組設計2組實驗來驗證改進算法的性能。實驗一在不同規模的數據環境下,檢驗2種算法的性能。實驗二則是檢測在云計算平臺下,針對不同節點時,算法性能。實驗環境配置如下表1所示。

表1 實驗環境配置表Table 1 Configuration table of the experimental environment

實驗采用的數據是從數據堂獲得,數據內容為社交資源共享站點用戶行為數據集[9],數據大小總計652.36 MB。實驗一采用3種數據規模,對原算法和改進算法的性能進行對比,如表2所示。圖4用折線圖方式對比2種算法的運行時間。

表2 實驗1算法測試結果Table 2 Algorithm test results of experiment 1 ms

圖4 不同數據規模下2種算法性能的比較Fig.4 Comparison between the performance of two algorithms with different data scales

通過表2和圖4可知,改進Apriori算法效率在執行時間上得到了很大的提升。但當數據量增大時,提升的效率有所降低。

實驗二使用不同的節點的集群,測試處理相同大小數據時,原算法和運行于云計算平臺Spark的改進算法的性能。原算法無法運用在多節點,因此僅有1組數據。實驗結果如表3所示。圖5用折線圖的方式直觀地反映在不同節點數量情況下,改進算法的性能。

表3 實驗2算法測試結果Table 3 Algorithm test results of experiment 2 ms

圖5 不同節點下算法的性能Fig.5 Improved performance of algorithms with different nodes

通過表3和圖5可知,隨著節點數量的上升,在云計算平臺上使用的改進Apriori算法的效率越來越高。總的來說,效率的提升和節點數成正比。

綜合以上的實驗結果可以得出結論,在云計算平臺上使用的改進Apriori算法在性能和效率方面提升顯著,符合預期。

4 結語

本文為解決大數據量情況下的網絡用戶行為分析的時效性、準確性,針對Apriori算法對數據庫反復掃描和候選集過大的問題,在使用矩陣形式來存儲數據庫的基礎上,提出了利用向量計算的方法計算支持度,并且對相同事務壓縮以減小矩陣的大小,優化數據結構,提高算法的效率,并將改進后的算法運用于云計算平臺Spark。實驗結果表明,課題組提出的改進Apriori算法的性能有明顯的提升。并且改進后的算法運用于云計算平臺Spark時,性能也有進一步顯著的提升。

[1]呂桃霞,劉培玉.一種基于矩陣的強關聯規則生成算法[J].計算機應用研究,2011,28(4):1301-1303.LTaoxia,LIU Peiyu.Algorithm for Generaring Strong Association Rules Based on Matrix[J].Application Research of Computers,2011,28(4):1301-1303.

[2]劉宗成,張忠林,田苗鳳.基于關聯規則的網絡行為分析[J].電子科技,2015,28(9):16-18.LIU Zhongcheng,ZHANG Zhonglin,TIAN Miaofeng.Analysis of Network Behaviors Based on Association Rules[J].Electronic Science and Technology,2015,28(9):16-18.

[3]Apache Spark.The Apache Software Foundation[EB/OL].[2015-09-21].http://spark.apache.org.

[4]吳岳忠,周訓志.面向Hadoop的云計算核心技術分析[J].湖南工業大學學報,2013,27(1):77-80.Wu Yuezhong,Zhou Xunzhi.The Core Technology of Hadoop-Oriented Cloud Computing[J].Journal of Hunan University of Technology,2013,27(1):77-80.

[5]陶彩霞,謝曉軍,陳康,等.基于云計算的移動互聯網大數據用戶行為分析引擎設計[J].電信科學,2013,29(3):27-31.TAO Caixia,XIE Xiaojun,CHEN Kang,et al.Design of Mobile Internet Big Data User Behavior Analysis Engine Based on Cloud Computing[J].Telecommunications Science,2013,29(3):27-31.

[6]鄭鳳飛,黃文培,賈明正.基于Spark的矩陣分解推薦算法[J].計算機應用,2015,35(10):21-23.ZHENG Fengfei,HUANG Wenpei,JIA Mingzheng.Matrix Factorization Recommendation Algorithm Based on Spark[J].Journal of Computer Applications,2015,35(10):21-23.

[7]宋文惠,高建瓴.基于矩陣的Apriori算法改進[J].計算機技術與發展,2016,26(6):80-83.SONG Wenhui,GAO Jianling.The Inproved Apriori Algorithm Based on Matrix[J].Computer Technology and Development,2016,26(6):80-83.

[8]李仕瓊.數據挖掘中關聯規則挖掘算法的分析研究[J].電子技術與軟件工程,2015(4):200.LI Shiqiong.Analysis of Algorithms Data Mining Association Rules Mining[J].Electronic Technology & Software Engineering,2015(4):200.

[9]YAO Junjie,CUI Bin,HAN Qiaosha,et al.Modeling User Expertise in Folksonomies by Fusing Multi-Type Features[C]//15th International Conference on Database Systems for Advanced Applications(DASFAA 2011).HongKong:Springer,2011:53-67.

(責任編輯:申劍)

On an Improved Spark-Based Method for the Analysis of User Behaviors

RUAN Debao,LI Changyun
(School of Computer and Communication,Hunan University of Technology,Zhuzhou Hunan 412007,China)

In view of the repeated scanning of the database and the potential massive candidate sets involved in the Apriori algorithm, an improved method, with the compressed matrix and the transaction value introduced in the process, is proposed to solve such problems as the timeliness and accuracy of the analysis of network user behaviors, with a further application of the improved algorithm to Spark, a cloud computing platform.The experimental results verify the better performance and higher efficiency of the proposed method, with evident advantages in the user behavior analysis.

Spark;Apriori;Internet-work;data analysis;user behavior analysis

TP301.6

A

1673-9833(2016)04-0032-04

10.3969/j.issn.1673-9833.2016.04.007

2016-06-17

國家自然科學基金資助項目(61350011,61379058,41362015),湖南省自然科學基金資助項目(14JJ2115,12JJ2036),湖南工業大學自然科學基金資助項目(2014HX16)

阮得寶(1991-),男,安徽六安人,湖南工業大學碩士生,主要研究方向為大數據,E-mail:1040668038@qq.com

猜你喜歡
數據挖掘數據庫用戶
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
數據庫
財經(2016年15期)2016-06-03 07:38:02
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 欧美视频在线播放观看免费福利资源| 特级做a爰片毛片免费69| 91精品久久久久久无码人妻| 欧美黄网在线| 亚洲制服丝袜第一页| 成人一区专区在线观看| 国产精品v欧美| 久久亚洲精少妇毛片午夜无码 | 欧美精品1区| 国产成人综合网在线观看| 波多野结衣视频一区二区| 99精品视频在线观看免费播放| 国产婬乱a一级毛片多女| 欧美色99| 国产精品第一区在线观看| 在线观看国产精品第一区免费| 99这里只有精品在线| 国产18页| 日韩国产精品无码一区二区三区 | 欧美五月婷婷| 国产精品亚洲一区二区三区z| 午夜啪啪网| 在线观看视频一区二区| 亚洲欧美综合在线观看| 色哟哟国产精品| 日韩中文字幕免费在线观看 | 欧美日韩国产精品综合| 热99精品视频| 激情五月婷婷综合网| 九色综合伊人久久富二代| 精品福利视频网| 91无码视频在线观看| 日韩无码视频专区| 国产成人综合久久精品下载| 国产在线小视频| 美女一级免费毛片| 91精品综合| 国产91全国探花系列在线播放| 久久国语对白| 亚洲欧美自拍中文| 国产高清在线观看| 人妻无码中文字幕一区二区三区| 波多野结衣一区二区三视频 | 亚洲国产在一区二区三区| 亚洲天堂2014| 啦啦啦网站在线观看a毛片| 久久永久免费人妻精品| 国产最新无码专区在线| 精品一区二区三区波多野结衣| 国产毛片高清一级国语 | 欧美精品一二三区| 在线视频97| 91青草视频| 无码国产伊人| 国产在线精彩视频二区| 91久久偷偷做嫩草影院精品| 青青青亚洲精品国产| 9久久伊人精品综合| 蝴蝶伊人久久中文娱乐网| 亚洲无线国产观看| 中文一区二区视频| 激情在线网| 欧美一级在线| 亚洲欧美综合在线观看| 久久久亚洲色| 亚洲天堂首页| 午夜不卡视频| 国产一区二区网站| 天堂亚洲网| 99热这里只有精品免费国产| 小说区 亚洲 自拍 另类| 女人18一级毛片免费观看| 97青青青国产在线播放| a级毛片一区二区免费视频| 97国产精品视频自在拍| 午夜老司机永久免费看片| 天天综合网色| 国产久操视频| 亚洲欧美不卡视频| 天天综合天天综合| 色噜噜在线观看| 无码人妻免费|