999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的校園一卡通數據分析

2016-09-25 05:37:43付影平
無線互聯科技 2016年15期
關鍵詞:校園學生

付影平,馬 晶,杜 程

(西安郵電大學 信息中心,陜西 西安 710061)

基于Hadoop的校園一卡通數據分析

付影平,馬晶*,杜程

(西安郵電大學 信息中心,陜西西安710061)

文章通過對校園一卡通消費數據特征進行分析,發現學生消費行為背后隱藏的規律。文章采用數據挖掘統計分析的方法對前期獲取的原始數據進行篩選,從不同年級、不同就餐地點兩個方面考慮,研究不同群體的消費習慣。數據處理是在Hadoop(分布式系統基礎架構)框架下采用MapReduce(一種編程模型,映射和化簡)方法,通過對關鍵字過濾之后得到統計結果并將其可視化。

校園一卡通;消費數據;Hadoop;MapReduce

當下,眾多高校都在積極建設數字化校園。校園一卡通系統作為數字化校園的重要組成部分,是校園信息化建設的基礎工程之一,主要具有綜合消費、身份識別、金融服務、公共信息服務等功能。校園一卡通卡片取代了以前各種證件(包括學生證、工作證、借書證、出入證等)的全部或部分功能,最終實現“一卡在手,走遍校園”。以校園卡為紐帶促進數字校園的建設,擴展校園卡和業務系統的結合應用,會產生大量學生消費和日常活動數據。通過對這些數據進行分析,可發現其潛在價值,促進學校管理效率和水平的提升。

1 相關技術介紹

1.1Hadoop介紹

Hadoop是由Apache Lucene的創始人Doug Cutting創建的,起源于開源網絡搜索引擎Apache Nutch,它本身也是Lucene項目的一部分。Hadoop框架中最核心的設計是分布式文件系統( Hadoop Distributed File System,HDFS)和MapReduce。HDFS提供了海量數據的存儲,MapReduce提供了對海量數據的計算[1]。HDFS在集群上實現分布式文件系統,MapReduce在集群上實現了分布式計算和任務處理[2]。HDFS在MapReduce任務處理過程中提供了文件操作和存儲等支持,MapReduce在HDFS的基礎上實現了任務的分發、跟蹤、執行等工作,并收集結果,二者相互作用,完成了Hadoop分布式集群的主要任務[3]。

1.2MapReduce介紹

MapReduce是一種可用于數據處理的編程模型。Hadoop可以運行各種語言版本的MapReduce程序。MapReduce本質上是并行運行的,因此可以將大規模的數據分析任務分發給任何一個擁有足夠多機器的數據中心。MapReduce的優勢在于處理大規模數據集。MapReduce實現了存儲的均衡,但未實現計算的均衡。MapReduce模型主要有Mapper和Reducer兩個抽象類。Mapper端主要負責對數據的分析處理,最終轉化為Hadoop的數據結構;Reducer 端主要是獲取Mapper出來的結果,對結果進行統計[4]。

為了充分利用Hadoop架構下MapReduce的并行處理優勢,需要將查詢表示成MapReduce作業。MapReduce任務過程分為兩個處理階段:Map階段和Reduce階段。每個階段都以鍵值對作為輸入和輸出,其類型由程序自己選擇。只需要程序員自己寫入Map函數和Reduce函數。本文使用MapReduce的邏輯數據流,如圖1所示。

圖1 邏輯數據流

2 消費數據分析方法設計

2.1消費數據結構

一卡通數據單日產生量大、來源廣泛、產生人群類型復雜。消費日志數據包括證件號碼、卡號、第二證件號碼、流水號、商戶名稱、交易金額、交易時間等18項信息。而此次需要獲取的關鍵數據主要是證件號碼、第二證件號碼(身份證)、商戶名稱、交易金額和交易時間等。

2.2消費數據分析設計

2.2.1基于年級的消費數據分析方法設計

在近兩萬名學生中,不同年級因為教學計劃安排差異以及高年級學生考研、找工作等因素影響,會在消費地點、消費時間等方面有差別。從這些方面分析學生消費行為,可以更好地幫助學校引導學生進行實際需求的消費。

按照上述思路,通過從原始數據“學生證件號”“消費商鋪”以及“消費金額”等字段進行數據提取,將年級和消費地點等條件相結合,計算不同年級在不同地點的平均消費額,以此來發現不同年級選擇消費地點的傾向性;通過從原始數據“學生證件號”和“消費商鋪”以及“消費時間”等字段進行數據提取,以年級、消費地點及時間段為關鍵字,計算出不同消費地點在各個時間段內發生的消費次數,用于判斷相同時間段內,哪些地點是消費發生的熱點地區。

2.2.2基于位置的消費數據分析方法設計

學校有兩個食堂,但在兩個食堂建成之后,并沒有數據表明其設置是否合理、師生是否滿意,是否因環境問題而選擇不同的就餐地點。通過對數據的分析,可以提示學校對消費人次較少的地方加強建設,增強服務提供能力,提升學生消費體驗。

按照上述思路,將原始數據中的消費時間和消費地點提取出來,將月份和兩個食堂作為關鍵字,依據不同時間對消費人次和每月單次平均消費額進行計算。

3 消費數據分析方法實現及分析

采用Hadoop框架,實現是在Ubuntu和Windows操作系統中完成的,數據采集時間為2015年3月1日至2016年3月20日,主要采用MapReduce和HDFS技術完成數據分析工作。

3.1數據分析平臺搭建

本次環境的搭建如圖2所示,主要分為兩個部分。一端是Hadoop集群,在集群中分為Master和Slave兩個角色,其中Master是Hadoop的主節點,主要是管理文件系統的命名空間和客戶端對文件系統的訪問,Slave 則作為管理和存儲數據。MapReduce框架是由一個單獨運行在Master節點上的JobTracker和運行在每個集群Slave節點的TaskTracker共同組成的[5]。Master節點負責調度構成一個作業的所有任務,這些任務分布在不同的從節點上。主節點監控它們的執行情況,并且重新執行之前的失敗任務;Slave節點僅負責由Master節點指派的任務。當一個Job被提交時,JobTracker接收到提交作業和配置信息之后,就會將配置信息等分發給Slave節點,同時調度任務并監控TaskTracker的執行。

圖2 環境搭建示意

另一部分是在Windows7上安裝Eclipse開發軟件,配置Hadoop開發環境,通過以太網連接Hadoop集群Master,利用Eclipse的開發環境來控制HDFS和調用MapReduce。

Hadoop操作環境為Ubuntu14.4系統,Hadoop軟件版本為2.6.4,集群架構為偽分布式。Eclipse安裝在Windows7操作系統中,軟件版本為4.5.0,HadoopEclipse插件版本為hadoop-eclipse-plugin-2.6.4。Hadoop是一個強大的并行框架,它允許任務在其分布式集群上并行處理[6]。

3.2消費數據預處理

本文獲取的原始數據是以Excle格式存儲的,需要先將其以UTF-8編碼形式轉換為txt格式,以便MapReduce識別、處理。在對原始數據分析過程中發現有些數據是不完整的,或者有很多數據如果不進行剔除,會影響最后結果的準確性。那么在Mapper函數進行處理之前,要對這些數據進行一次清洗,將無效數據進行剔除,避免不必要的誤差。

3.3基于年級的消費行為分析

根據上述數據分析方法,基于年級的消費數據設計,是利用Hadoop的MapReduce方法進行一個關鍵字段的過濾以及一個群體共同特征的統計,得出這個特征群體的平均值并進行對比。代碼流程如圖3所示。

圖3 基于年級消費數據分析流程

在前期各個年級的消費數據代碼運行之后,各個年級在不同消費地點段平均消費金額對比如圖4所示。

圖4 各個年級在相同地點消費對比

其中2011級學生的數據截止到2015年6月前,2015級學生數據從9月開始,從圖4中可以看出,2011級學生在旭日苑消費比其他低年級要高。大四畢業生因為課業量少,如果沒有參加實驗室或其他社團,那么每天主要的消費活動范圍就在宿舍樓附近,而旭日苑是離宿舍最近的食堂;從勤工助學商店消費平均額可以看出,大一、大二學生略高一些。

3.4基于位置的消費行為分析

基于上述關于食堂的消費數據分析方法的設計,因此在關于食堂的流程圖設計上,主要依據季節以及各個月份每個食堂的單次平均消費額來對比,代碼流程如圖5所示。

圖5 基于位置的消費數據流分析

基于位置的數據可視化,如圖6所示,可以更加直觀地對比不同季節對于食堂的選擇差異。

圖6 消費次數對比

由圖6可以看出,學生更傾向于旭日苑而不是美食廣場,季節對于學生選擇食堂并沒有太大的影響,基本在所有季節,旭日苑的消費次數都是美食廣場的2倍左右。

4 結語

本次工作因為需要進行大量數據的處理,在平臺搭建上選擇了Hadoop框架。針對新校區的本科生,從不同年級、不同就餐地點兩個方面進行消費行為的統計。發現,低年級和高年級在消費時間段和消費地點都會有一定差異,低年級的消費地點更分散,消費時間段高峰期在下課后;高年級恰恰相反,消費點多數集中在宿舍樓附近,消費時間段剛好會避開低年級消費高峰期;對兩個食堂消費進行統計發現,旭日苑消費次數一直都是美食廣場的兩倍。

[1](美)懷特.Hadoop權威指南[M].曾大聃,周傲英,譯.北京:清華大學出版社,2010.

[2]黃懋.基于集群的HDFS高可用性研究和實現[D].上海:復旦大學,2012.

[3]蔡睿誠.基于HDFS的小文件處理與相關MapReduce計算模型性能的優化與改進[D].吉林:吉林大學,2012.

[4](美)拉姆.Hadoop實戰[M].韓冀中,譯.北京:人民郵電出版社,2011 .

[5]張永坤.基于進程剩余運行時間的集群負載平衡系統[D].武漢:華中科技大學,2004.

[6]賈玉生.基于Hadoop的分布式文本分類研究[D].北京:北京工業大學,2013.

Analysis on data of the Campus IC Card based on Hadoop

Fu Yingping, Ma Jing, Du Cheng
(Xi'an University of Posts and Telecommunications, Xi'an 710061, China)

This article found the hidden rules of students' consumption behavior through the analysis on characteristics of the Campus IC Card consumption data. In this paper, the methods of data mining and statistical analysis are used to screen the raw data,in terms of two sides including different grades and different restaurants to considerate and study the consumption habits of different groups. Data processing means to adopt the MapReduce method under the Hadoop framework to get statistical results and visualize them after fltering the keywords.

Campus IC Card; consumption data; Hadoop; MapReduce

付影平(1973— ),男,陜西西安,助理工程師;研究方向:計算機網絡安全。*

馬晶(1991— ),女,陜西渭南,碩士研究生;研究方向:云計算理論與應用。

猜你喜歡
校園學生
快把我哥帶走
《李學生》定檔8月28日
電影(2018年9期)2018-11-14 06:57:21
Q爆校園
趕不走的學生
再見,我的校園
南方周末(2018-06-28)2018-06-28 08:11:04
校園的早晨
琴童(2017年3期)2017-04-05 14:49:04
春滿校園
學生寫話
學生寫的話
開心校園
主站蜘蛛池模板: 色网站在线视频| 亚洲一区网站| 久久黄色一级视频| 免费一级α片在线观看| 亚洲精品高清视频| 日韩a级毛片| 国产视频一区二区在线观看| 精品夜恋影院亚洲欧洲| 99精品影院| 五月天综合网亚洲综合天堂网| 成人福利一区二区视频在线| 美女国内精品自产拍在线播放| 国产亚洲精品精品精品| 欧美啪啪一区| 三上悠亚一区二区| 国产午夜福利片在线观看| 国产日本欧美在线观看| 91丝袜美腿高跟国产极品老师| 亚洲日本韩在线观看| 国产国模一区二区三区四区| 久久精品中文字幕少妇| 午夜毛片免费观看视频 | 性喷潮久久久久久久久| 精品视频91| 中文字幕亚洲综久久2021| 免费观看无遮挡www的小视频| 欧美精品亚洲精品日韩专区va| 欧美日韩精品在线播放| 99热这里只有精品在线播放| 亚洲欧美色中文字幕| 性视频久久| 亚洲无码高清免费视频亚洲 | 亚洲视频色图| 在线无码私拍| 久久成人免费| 日韩激情成人| AV无码国产在线看岛国岛| 高清无码一本到东京热 | 国产成人高精品免费视频| 日韩精品毛片人妻AV不卡| 老司机午夜精品视频你懂的| 国产精品成人啪精品视频| 狠狠操夜夜爽| 国产精品55夜色66夜色| 国内老司机精品视频在线播出| 国产在线观看91精品| 国产在线视频二区| 无码av免费不卡在线观看| 2021国产精品自拍| 免费无码在线观看| 美女扒开下面流白浆在线试听| 欧美在线视频a| 欧美伦理一区| 四虎在线观看视频高清无码| 欧美激情视频一区二区三区免费| 一本大道香蕉久中文在线播放| 中日韩一区二区三区中文免费视频| 国产日韩欧美精品区性色| 99久久精品免费观看国产| 91精品视频网站| 九月婷婷亚洲综合在线| 国产三区二区| 国产美女无遮挡免费视频| 欧美成人日韩| 成人免费一级片| 亚洲男人天堂久久| 999在线免费视频| 91精品专区国产盗摄| 久热99这里只有精品视频6| 国产成人亚洲综合A∨在线播放| 2020久久国产综合精品swag| 国产午夜人做人免费视频| 九九热视频精品在线| 18禁黄无遮挡免费动漫网站 | 成人欧美在线观看| 美女高潮全身流白浆福利区| 毛片在线播放网址| igao国产精品| 欧洲高清无码在线| 久久婷婷色综合老司机| 国产午夜不卡| 男女性色大片免费网站|