999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粗糙集改進Apriori算法在高校貧困生認定中的應用

2019-09-24 06:03:39樊偉劉紅匡亞茹
電腦知識與技術 2019年21期
關鍵詞:數據挖掘

樊偉 劉紅 匡亞茹

摘要:為增強困難學生認定的準確度,該文從粗糙集理論思想通過屬性約簡,得到關鍵屬性集合,建立決策信息表,利用改進的Apriori算法對決策條件屬性數據分析,給出頻繁項集;通過對部分貧困生數據實驗驗證,得出該算法在一定程度上保證貧困生認定的準確度。

關鍵詞:粗糙集;Apriori算法;屬性約簡;數據挖掘;貧困生認定

中圖分類號:TP391.9? ? ? 文獻標識碼:A

文章編號:1009-3044(2019)21-0003-04

開放科學(資源服務)標識碼(OSID):

Abstract: In order to enhance the accuracy of the identification of difficult students, this paper gets the key attribute set from the rough set theory thought through attribute reduction, establishes the decision information table, uses the improved Apriori algorithm to analyze the decision condition attribute data, gives the frequent item set, and through the experimental verification of some poor students ' data, It is concluded that the algorithm ensures the accuracy of the identification of poor students to a certain extent.

Key words: rough sets; Apriori algorithm; Apriori algorithm; teaching quality evaluation; Data mining; poor student identification

1 背景

貧困生的認定是高校學生工作的重要組成部分,國家和地方政府推出一系列舉措幫扶每個貧困生,制定一系列的量化標準。如何認定貧困生,把助學金用到真正學校幫助的學生身上。認定工作完成學生資助工作首要任務,是學校實施各項資助措施的依據[1]。本文提出了基于粗糙集的屬性依賴度對屬性進行約簡的算法,利用核心屬性數據,再通過改進的Apriori算法對決策屬性數據分析,總結出頻繁項集;大大減少讀取數據庫的次數,防止候選項集大量產生,降低了關聯規則挖掘的時間復雜度,提高對貧困生認定的效率。

2 設計思路

2.1 設計流程

該算法的設計思想分兩步走:首先運用屬性約簡算法對全校Excel統計的貧困生數據進行約簡,將約簡后的決策信息表導入進Access數據庫;再通過改進的Apriori算法對決策信息進行關聯規則的數據分析,從而產生頻繁項集。算法流程圖1如下:

2.2 粗糙集基本理論

粗糙集理論是處理模糊和不確定信息的數學工具,在1982年由波蘭科學家Z.Pawlak提出,其主要思想是在保留分類能力的前提下進行數據化簡,識別并分析數據之間依賴關系。目前在機器學習、過程控制、決策分析等領域應用廣泛。屬性約簡是粗糙集理論中研究重要課題,更多學者提出改進約簡算法[3]。屬性約簡基于Rough集理論的知識獲取,主要是通過對原始決策表的約簡,在保持決策表決策屬性和條件屬性之間的依賴關系不發生變化的前提下對決策表刪除不相關或不重要的屬性。

定義1 形式上,四元組[S=(U,A,V,f)]是一個信息系統,其中[A=C?D],[U={x1,x2,???,xn}],[U]中的每個[xi(1≤i≤n)]稱為一個對象,[A=C?D]是屬性的非空有限集合,[C={c1,c2,???,cm}]是條件屬性集合,[D={d1,d2,???,dk}]是決策屬性集合,且[C?D=?],[C≠?],[D≠?];其中,[V=a∈AVa,Va]是屬性a的值域;[f:?a∈A,x∈U,f(x,a)∈Va],一般簡記為[S=(U,A)],則這樣的知識表達系統為決策表。

定義2 令[R]為一族等價關系,[r∈R],如果[ind(R)=ind(R-{r})],則稱[r]為[R]中不必要的;否則稱[r]為[R]中必要的。

設[Q?P]。如果[Q]是獨立的,且[ind(Q)=ind(P)],則稱[Q]為[P]的一個約簡。[P]中所有必要的原始關系構成集合稱為[P]的核,記做[core(P)]。

核與約簡有如下關系:[core(P)=?red(P)] ,其中[red(P)]表示[P]的所有約簡[5]。

定義 3 假設[P]和[Q]是集合[U]上的等價關系,正域、負域、邊界域定義如下:

正域:[posp(Q)=X∈U/QPX];

負域:[NEGp(Q)=X∈U/QPX];

邊界域:[BNDp(Q)=X∈U/QPX-X∈U/QPX]。

定義4 令[K=(U,A)]為一知識庫,且[P,Q∈R]當[k=rp(Q)=|posp(Q)|/|U|]稱知識[Q]是[k]度依賴于知識[P]的,記作[p?kQ]。當[k=1]時,我們稱[Q]完全依賴于[P];當[0

2.3 改進的Apriori算法

Apriori算法是經典的挖掘頻繁項集和關聯規則的數據挖掘算法,使用頻繁項集性質的先驗性質進行逐層搜索的迭代方法。在計算過程中多次讀取數據庫,需對項集剪枝。針對Apriori算法在計算中產生大量的候選項集和對數據庫的讀取時有較大的I/O開銷等問題[6],提出了利用鏈表建立數據模型,鏈表包括分項集頭結點、項結點、事務結點三種結點。 如圖2所示對數據庫只需掃描一次,這樣避免在Apriori 算法中多次掃描數據庫,大大減少了對I/O開銷。鏈表的兄弟結點從左到右依照子集支持度的遞增順序排列,由1-項集產生較少的候選2-項集,由2-項集再產生更少的候選3-項集,大大提升內核的匯聚能力。

3 算法在高校貧困生認定中驗證

在網絡信息化高度發展的當代,對貧困生的認定應從多方面入手來進行界定,定量和定性相結合的認定標準,對貧困生的基本信息進行匯總,相關信息表如下:

學生基本信息表(學號,姓名,性別,出生年月,民族,身份證號碼,政治面貌,院系,專業,年級,個人愛好,孤殘,單親,烈士子女,健康狀況,家庭人口數,家庭年收入,已參加勤工儉學,家庭地址)。

家庭成員登記表(姓名,年齡,與學生關系,職業,工作單位,健康狀況,學號)。

貧困生認定申請表(學號,姓名,院系,專業,年級,班級,家庭人均年收入,申請理由)。

學生成績表(學號,姓名,院系,班級,課程名,成績)。

校園一卡通月消費明細表(卡號、學號,姓名,性別,月消費金額)。

助學貸款登記表(學號、姓名、院系、專業、年級、班、貸款金額(元) [7]。

對上述數據表等信息進行匯總分析,得到反映學生是否貧困的基本因素(a1:是否申請貧困;a2:是否補考;a3:戶籍;a4:家庭人口;a5:月生活費用;a6:是否抽煙喝酒;a7:貸款金額; a8:兄弟姐妹上學人數;a9:烈士子女;a10:家庭人均月收入;a11:危重病人;a12:單親或孤殘,a13:父母職業;a14:是否貧困地區),構成原始信息決策表的條件屬性[C]。現抽取某高校17級15名學生相關信息構成的論域[U={x1,x2,???,x15}],認定學生是否為貧困結果:貧困和不貧困,即得決策屬性集[D]。

為了方便運用粗糙集算法對上述數據進行數據約簡,對連續型數值數據進行離散化,如貸款金額、月消費金額等屬性,用數字編號各屬性值:

調整最小支持度為25%,最小置信度為80%,利用改進的Apriori算法生成頻繁項集,如表6所示:

對生成的10條規則加以分析得出:

規則1:月生活費用>500,說明該生月生活費在500元以上,雖是農村戶口,家庭人口在6人以下,家中有2人上學,父母務農,貧困生認定的可信度在56.17%。

規則4:月生活費用<=500,說明該生月生活費在500元以下,雖是城鎮戶口,但父母失業,低保,貧困認定的可信度為87.23%。

規則7:月生活費用<350,說明該生單親,農村戶口,上學人數有2人,家庭負擔較重,申請過助學貸款,貧困生認定的可信度為100%。

規則9:月生活費用<350,說明該生月生活費用在350元以下,雖城鎮戶口,單親,但是烈士子女,符合重點優撫對象,貧困生認定的可信度為100%。

4 結束語

本文提出基于粗糙集理論的屬性依賴度的屬性約簡方法引入到經典的Apriori算法的改進工作中減少對數據庫的掃描次數及產生大量的候選項集的問題,對貧困生信息的認定實驗中驗證了該方法能有效地進行數據約簡和關聯規則挖掘,能提高高校貧困生認定的效率。

參考文獻:

[1] 丁桂蘭, 周艷華. 高校貧困生認定的現實困境與對策思考[J]. 教育與職業, 2010(9): 33-35.

[2] 白華, 徐英. 高校貧困生資助績效評價指標體系設計[J]. 黑龍江高教研究, 2016(6): 116-120.

[3] 張文東, 李明壯, 等. 基于粗糙集理論的屬性約簡算法[J]. 計算機工程與設計, 2008(11): 5795-5797.

[4] 楊沛, 袁莎, 等. 一種改進的基于依賴度的屬性約簡算法[J]. 云南民族大學學報, 2011(11): 504-507.

[5] 陳鑫影. 粗糙集在企業信息系統中的應用[J]. 商場現代化, 2007(11): 36.

[6] 周玲元, 段隆振. 改進的 Apriori 算法在高校圖書推薦服務中的應用研究[J]. 圖書館學研究, 2013(2): 89-91.

[7] 曹路舟. Apriori算法在高職院校貧困生認定工作中的應用[J]. 池州學院學報, 2012(12): 9-11.

[8] 申靜, 王華彪. 高校貧困生認定的困境與對策[J]. 學校黨建與思想教育, 2012(3): 50-51.

[9] 胡善忠, 徐怡. 多粒度粗糙集粒度約簡的高效算法[J]. 計算機應用, 2017(37): 3392-3398.

[10] 喻瑛, 楊崢, 王偉杰. 基于分布式計算模式的兩種屬性約簡算法[J]. 計算機技術與發展, 2018(1): 28-32.

【通聯編輯:謝媛媛】

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 日韩欧美中文字幕在线韩免费| 欧美成人影院亚洲综合图| 日本www色视频| 久操线在视频在线观看| 亚洲av无码牛牛影视在线二区| 欧美成一级| 日韩免费毛片视频| 国产99在线| 亚洲—日韩aV在线| 国产永久无码观看在线| 国产女人在线视频| 亚洲Av激情网五月天| 精品国产网站| 人人澡人人爽欧美一区| 嫩草国产在线| 亚洲日韩国产精品综合在线观看| 国产成人亚洲精品色欲AV | 亚洲第一区精品日韩在线播放| 色婷婷成人| 一本色道久久88| 婷婷色在线视频| 伊人久综合| 亚洲 欧美 日韩综合一区| 99精品免费在线| 久久亚洲日本不卡一区二区| 真实国产精品vr专区| 国内a级毛片| 久久综合干| 亚洲精品无码av中文字幕| 久久久久人妻精品一区三寸蜜桃| 精品视频一区在线观看| 久久99国产综合精品女同| 色一情一乱一伦一区二区三区小说| 欧美特级AAAAAA视频免费观看| 国产成人久久综合777777麻豆| 色综合色国产热无码一| 丁香婷婷在线视频| 色综合久久久久8天国| 4虎影视国产在线观看精品| 精品国产成人a在线观看| 99er这里只有精品| 日韩高清中文字幕| 亚洲人精品亚洲人成在线| 在线精品亚洲一区二区古装| 久久精品中文字幕少妇| 国产凹凸一区在线观看视频| 精品综合久久久久久97超人| 国产精品久久精品| 老司机午夜精品视频你懂的| 亚洲最黄视频| 精品国产免费第一区二区三区日韩| 婷婷亚洲天堂| 玖玖免费视频在线观看| 人妻少妇乱子伦精品无码专区毛片| 久久精品日日躁夜夜躁欧美| 亚洲成A人V欧美综合| 亚洲第一香蕉视频| 久久鸭综合久久国产| 亚洲男人天堂2018| 欧美三级不卡在线观看视频| 色成人综合| 无码一区二区波多野结衣播放搜索| 亚洲福利网址| 国产精品黄色片| 日韩a级毛片| 亚洲日韩久久综合中文字幕| 欧美精品H在线播放| 国产午夜在线观看视频| a在线观看免费| 午夜少妇精品视频小电影| 国产免费网址| 性视频久久| 亚洲国产成熟视频在线多多 | 国产成人乱码一区二区三区在线| 亚洲男人天堂网址| 国产在线日本| 99在线视频免费| 国产69精品久久久久孕妇大杂乱 | 伊人色综合久久天天| 久久精品中文字幕少妇| 久久综合AV免费观看| 亚洲女人在线|