999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據背景下學生消費水平分析模型的建立

2020-05-13 14:15:23范媛蔡敏
電腦知識與技術 2020年8期
關鍵詞:大數據

范媛 蔡敏

摘要:該研究以中國石油大學(北京)的校園卡系統消費數據為數據源,建立數據倉庫,通過數據清洗和數據挖掘得到學生在食堂的消費數據。通過使用聚類算法對學生消費數據進行分類,進而將學生的消費水平分為四類。以馬氏距離作為判別距離建立學生消費水平判別分析模型,利用該模型判斷學生的消費水平,通過對學生消費水平的分析研究,可以在學校有關部門進行決策時提供有效依據。

關鍵詞:校園卡系統;大數據;聚類算法;判別分析;消費模型

中圖分類號:TP311 文獻標識碼:A

文章編號:1009-3044(2020)08-0005-03

開放科學(資源服務)標識碼(OSID):

校園卡系統具有身份識別和電子錢包等功能,實現了校內統一身份認證和消費統一管理,校園卡使用數據完全記錄了使用者在校內的消費情況和行為軌跡,通過對校園卡數據的挖掘分析,對高校數據決策具有十分重要的意義。目前各大高校均展開了對校園卡大數據的挖掘分析,來為有關部門進行學生管理提供真實、有效的數據支撐[1]。校園卡系統內積累的大量消費數據,對其進行挖掘分析可以掌握學生在校消費的偏好和規律,將對學校優化資源配置、數據化決策等提供重要參考。該研究通過建立學生消費水平判別模型,將學生消費水平分為4類,可為貧困生認定提供判定依據[2],為深入研究學生消費水平提供有效方法。

1 數據倉庫建立

該研究用于進行分析的數據是以中國石油大學(北京)2018級本科生消費數據作為數據源,抽取學生就餐率較高的2018年11月、12月和2019年3月份的消費數據共計32萬多條進行分析,由于數據量龐大,為了不增加數據庫的壓力并且滿足數據分析和數據挖掘的需求,數據分析過程不與校園卡系統數據庫直接建立關系,而是通過soL數據庫建立數據倉庫[3]進行分析。

1.1 數據源確認

通過采集校園卡系統內學生消費數據作為數據源進行分析,進而可以掌握學生的消費習慣,消費水平等情況,在不增加校園卡系統數據庫壓力的前提下將學生的消費流水數據提取到指定數據庫中,把數據處理成可用的數據。

1.2數據預處理

校園卡消費數據中包含了大量信息,包括時間、地點、商戶、消費金額、人賬信息等,根據分析需求對消費數據進行清洗,去除包含噪聲的無意義數據以及無用的字段,并對清洗后的數據進行數據轉換[4]。

1.3 建立數據倉庫概念模型

對校園卡系統內學生消費數據進行分析,一般按照消費次數、消費金額、消費時間、消費地點等字段進行分析,建立的數據倉庫所需要的數據包括:學生基本信息、消費信息、校園卡系統終端數據,數據挖掘的關鍵性能指標是學生校園卡消費流水信息。

1.4 建立邏輯模型

邏輯模型的建立主要用于劃分數據維度,對學生基本信息、消費流水、消費終端信息等數據進行分類儲存、數據簡化、同屬類別歸并。邏輯模型如圖1所示。

1.5 建立物理模型

建立物理模型的目的是構建合理的數據庫物理結構,通過合理規劃數據庫的結構、字段、索引、存儲等,來實現模型的建立,從而可以清楚地對學生消費數據進行分析。物理模型如表1所示。

2 數據挖掘

在此次學生消費水平分析中,通過對校園卡消費數據進行數據清洗,抽取出分析所需的字段,再通過數據清洗與轉換將抽取出的數據進行處理轉換為用于數據挖掘的形式[5]。

數據來源于校園卡系統學生消費數據,將數據中可壓縮的、可合并的、含噪聲的以及可刪除的字段進行數據清洗與數據合并,通過約減相關性保持數據原貌,達到盡可能地減少數據量的目標[6j。在不同的應用場景中,按照不同的關鍵詞進行數據合并,在分析學生的消費水平時,選取學號作為關鍵詞進行數據合并。該研究利用MATLAB對消費數據進行處理,得到了學生在3個月的月消費數據。

3 建立學生消費水平模型

3.1 聚類分析

K-means聚類算法是聚類分析中應用最廣泛的聚類算法之一,是一種發現給定數據集k個簇的算法[7-8]。

針對學生消費水平的研究中,取學生平均單筆消費額和總消費次數為評價指標如表2所示。由于這兩項指標的量綱和數量級不同,為了便于決策評價,故對原始數據進行極差規格化變換處理。

極差規格化變換是從數據矩陣的每一個變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個變量的每個原始數據中減去該變量中的最小值,再除以極差,就得到規格化數據。即:

經過規格化變換后,數據矩陣中的每列即每個變量的最大數值為1,最小值為0,其余數值取值均在0-1之間;并且變換后的數據都不再具有量綱。根據上述公式變換后的評價指標數據如表3所示。

通過聚類算法對極差規格化變換后評價指標進行聚類。確實聚類數目為4,得到各類的中心結果以及各類的類內元素與中心的距離和(如表4所示)學生消費水平的分類結果(如表5所示),聚類結果示意圖如圖2所示。

通過聚類分析結果可得類別A的學生消費水平特點為:消費次數低于均值,但平均消費金額高于均值;B類的學生消費水平特點為:消費次數處于均值水平,平均消費金額低于均值;C類的學生消費水平特點為:消費次數高于均值,平均消費金額低于均值水平;D類的學生消費水平特點為:消費次數高于均值,平均消費金額高于均值水平。由此可推斷出學生家庭經濟狀況,A類消費水平的學生很少在食堂吃飯,并且單筆消費金額高,可認定為家庭條件良好,B類消費水平的學生經常在食堂吃飯,但單筆消費金額較低,認定為家庭條件一般貧困,C類消費水平的學生基本在食堂消費,單筆消費金額低于平均水平,認定為家庭條件貧困,D類消費水平的學生在食堂消費次數高于均值,且單筆消費金額較高,認定為家庭條件較好。

3.2 判別分析模型

根據距離判別分析原理,選用馬氏距離作為判別距離[9],針對學生在校食堂消費水平建立了學生消費水平距離判別的分析模型,利用該模型判別學生的消費水平。

式(8)即是學生消費水平判別分析模型,通過該模型可對學生消費情況進行判別。將學生消費水平數據代入式(8)中,即可判斷其所屬類別。將訓練樣本數據回代判斷結果如表6中所示。選取10組學生消費數據作為待判樣本,以此模型對待判樣本進行判別,得到結果如表7所示。

(5)判別準則評價

通過3.2.4中訓練樣本回代,樣本總量為80組,正確判別數為78,誤判數為2,計算得到誤判概率為2.5%,可見此模型合理,達到了對學生消費水平進行有效分類的效果。

4 結論

該研究通過構建數據倉庫,得到有效的學生校園卡消費數據。通過聚類算法將學生的消費水平分為四類,可根據消費水平判定學生家庭經濟情況.為貧困生資助提供數據支持;利用以馬氏距離作為判別距離的判別算法建立學生學費水平判別模型,用以判別學生消費水平的分類是否有效。

參考文獻:

[1]張艷分,盧小清,劉禹等.基于大數據平臺的大學生校園行為探析[J].中國教育信息化,2019(1):39-42,46.

[2]張林.基于差分隱私保護技術的高校貧困生認定系統設計[J].計算機技術與自動化,2017(3):151-156.

[3]田雨露.基于校園一卡通系統的決策支持和數據分析研究[D].北京化工大學,2018.

[4]萬曉燕.基于聚類劃分的大數據處理方法研究[J].智庫時代,2019(39):280,283.

[5] Nguyen T V,Zhou L,Loong A Y,et al-Predicting customerdemand for remanufactured products:A data-mining approach[J]. European Journal of Operational Research, 2019(8): InPress.

[6]潘曉英,趙倩,趙普.時空屬性關系標簽的頻繁軌跡模式挖掘[J].計算機工程與應用,2019,55(10):83-89.

[7]陸近,郭躍近.一種含噪聲處理的K-means聚類算法[J].計算機應用于軟件,2015,32(10):265-268.

[8]鄒晨紅,袁滿.模糊綜合評判的系統聚類算法研究[J].吉林大學學報:信息科學版,2018,36(5):441-448

[9]張華平.常用判別分析方法的綜合比較[J].統計與決策,2015(22):77-78.

[10] Wang B X,Zou H.A Multicategory Kernel Distance Weight-ed Discrimination Method for Multiclass Classification[J].Technometrics,2019,61(3).

[11] LIN T,Chen G,Ouyang W L.et al-Hyper-spherical dis-tance discrimination: A novel data description method foraero-engme rolling bearing fault detection[J].Mechanical Sys-tems and Signal Processing,2018,109(9).

[12]相詩堯,邢會敏,徐東晶.空間點所屬空間體的距離判別法分析[J].測繪科學,2016,41(6):40-43,112.

【通聯編輯:王力】

作者簡介:范媛(1980-),女,河北南和人,碩士,工程師,主要從事高校一卡通和信息化建設;蔡敏(1995-),女,甘肅慶陽人,碩士在讀,化工過程機械專業。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 久久情精品国产品免费| 国产丝袜无码精品| 午夜一级做a爰片久久毛片| 国内精品久久人妻无码大片高| 亚洲天堂日本| 久久久久久久久亚洲精品| 国产区精品高清在线观看| 亚洲无码37.| 她的性爱视频| 久久久久久高潮白浆| 国产欧美成人不卡视频| 91在线一9|永久视频在线| 国产三级精品三级在线观看| 国产福利在线免费观看| 欧美爱爱网| 日本91视频| 日韩精品欧美国产在线| 亚洲婷婷丁香| 日本一区二区三区精品视频| 日韩欧美色综合| 伊人久久青草青青综合| 激情综合网激情综合| 狠狠色噜噜狠狠狠狠色综合久| 久青草国产高清在线视频| 国产aⅴ无码专区亚洲av综合网 | 成年女人a毛片免费视频| 色哟哟精品无码网站在线播放视频| 国产精品一区二区在线播放| 亚洲欧美日韩成人在线| 国产黄色片在线看| 久久鸭综合久久国产| 免费无码AV片在线观看中文| 亚洲一区二区三区香蕉| 欧美日韩午夜视频在线观看| 伊人欧美在线| 中文字幕在线永久在线视频2020| 免费午夜无码18禁无码影院| 亚洲香蕉在线| 亚洲a级毛片| 曰韩人妻一区二区三区| 欧美三级日韩三级| 国产自在自线午夜精品视频| 亚洲妓女综合网995久久| 中文无码精品a∨在线观看| 色婷婷亚洲综合五月| 国产高清自拍视频| 无码精油按摩潮喷在线播放| 亚洲精品无码久久久久苍井空| 亚洲人成网址| 无码日韩视频| 午夜精品福利影院| 久久久久久久久亚洲精品| 91人人妻人人做人人爽男同| 欧美成a人片在线观看| 99久久国产综合精品2020| 日韩精品资源| 中文字幕1区2区| 欧美在线网| 国产日韩精品欧美一区喷| 成人在线视频一区| 欧美精品成人| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 久久亚洲美女精品国产精品| 欧美一级高清片欧美国产欧美| 欧美成人亚洲综合精品欧美激情| 在线观看91香蕉国产免费| 国产簧片免费在线播放| www.日韩三级| 日韩精品专区免费无码aⅴ| 免费中文字幕在在线不卡| 成人日韩视频| 色悠久久久久久久综合网伊人| 91九色最新地址| 天天干天天色综合网| 一区二区三区在线不卡免费| av一区二区无码在线| 高清久久精品亚洲日韩Av| 天堂va亚洲va欧美va国产| 青青草91视频| 国产精品久久久免费视频| 国产无人区一区二区三区| 强奷白丝美女在线观看|