摘要:關聯規則挖掘是數據挖掘中的重要研究內容.分析了關聯規則增量式更新算法FUP算法的思想,指出算法的優缺點及改進算法,為增量式關聯規則挖掘奠定理論基礎.最后將該算法應用于大學生心理健康測評數據,從而使相關職能部門有效地制定大學生心理危機干預計劃、減少或消除危機.
關鍵詞:關聯規則;增量更新;FUP算法;心理健康
中圖分類號:TP311? 文獻標識碼:A? 文章編號:1673-260X(2019)01-0066-03
1 引言
在前期的研究中,我們采用統計分析和數據挖掘技術對大學生心理健康測評數據進行了分析,特別是針對強迫癥和人際關系敏感癥兩種高比例心理疾病,采用關聯規則Apriori算法對性別、來源地、家庭結構、獨生子女、學生干部、家庭月收入六個屬性和九個心理維度因子間的關系進行了挖掘,挖掘結果為相關職能部門開展大學生心理健康教育的規劃、決策提供了依據,效果顯著.可是隨著時間的推移,大學生心理健康測評數據越來越多,前期得到的關聯規則結果會發生改變嗎?顯然數據挖掘是一個動態的交互過程,如果繼續采用Apriori算法,則算法的效率非常低,同時浪費了以前挖掘出來的信息.采用增量式關聯規則算法對增長后的大學生心理數據進行挖掘勢在必行.
2 增量式關聯規則
增量式關聯規則挖掘的主要思想是在更新的數據庫或參數上,充分利用原有挖掘規則,發現滿足條件的新規則,刪除失效的舊規則,目的是盡量減少計算量.增量式關聯規則挖掘算法主要解決以下三類問題:①即在原始數據庫D不變,最小支持度和置信度發生變化時,如何生成D中新的關聯規則;②在最小支持度和置信度不變,數據庫發生更新時,如何生成新數據庫D∪d或D-d的關聯規則;③在原始數據庫發生更新的同時,最小支持度和置信度同時發生變化時,如何生成新數據庫在新支持度下的關聯規則.馮玉才等人提出了IUA算法和PIUA算法[1],針對第一類問題進行了研究.針對第二類問題,D.W.Cheung等人對新數據庫D∪d的情況提出FUP算法[2]和FUP2算法[3],其中FUP2算法同時考慮了新數據庫D∪d和D-d的情況.徐文拴等[4]針對第三類情況中數據集增加和最小支持度同時變化的關聯規則更新問題進行了研究.本文重點研究關聯規則增量式更新算法FUP算法的思想,算法的優缺點及改進,為增量式關聯規則挖掘奠定理論基礎.
2.1 FUP算法的基本思想
當數據庫中的數據發生變化時,為了獲取更新后的關聯規則,最簡單的辦法是重新運用Apriori算法對數據庫進行挖掘,但是這樣做不僅算法效率較低,而且沒有充分利用以前挖掘的結果,在眾多的增量式關聯規則挖掘算法中,D.W.Cheung等提出的FUP算法最為典型,它是Apriori算法的改進算法,與Apriori算法的框架一致[5],主要解決在支持度和置信度不變,數據集增加的情況下,如何生成新的頻繁項集的算法.
設原始數據集為D,新增數據集為d,則變化后的數據集為(D+d),假設已經采用Apriori算法獲得原始數據集D的頻繁項集L(D),則FUP算法的基本思想是:
2.2 FUP算法的優缺點
FUP算法在新增數據集與原始數據集相差不大的情況下,較Apriori算法在效率方面有了很多的提升,主要體現在Apriori算法需要多次掃描數據庫,而FUP算法只有在確定項集t∈L(d)且t?埸L(D)的情況下,才需要掃描原始數據集;通過對K項集在原始數據集和新增數據集中是否頻繁的分析,可以過濾掉許多候選項集.FUP算法雖然對原始數據集挖掘結果進行了使用,但是對于一些大數據集而言,該算法也存在著不足:由于候選項集的生成由Apriori連接來獲得,即使用L’k-1生成Ck,產生新增數據集的候選項集規模是巨大的,在處理這些候選項集時耗費大量時間,而且其中有很多是非頻繁項集,影響了算法的效率;對候選項集進行模式匹配時需要對整個數據庫進行多次重復掃描,代價很大;算法對新增項目不敏感.
2.3 算法的改進
針對FUP算法只考慮了支持度和置信度不變,數據集增加的情況,以及該算法存在的不足,眾多學者對該算法進行了改進.文獻[4]針對數據庫和最小支持度同時發生變化的情況,提出了哈希增量更新算法HIUA,該算法結合hash定位以及鏈表插入、刪除的高效性,不生成候選項集,只掃描原始數據集一次,充分利用了原有的挖掘信息,算法效率較高.文獻[6]提出了基于臨時表的改進算法MFUP,該算法適用于原始數據庫規模大,新增數據集相對小的情況,通過建立臨時表,來存放新增數據集的頻繁項集,充分利用原始數據集挖掘的結果,大大減少了對數據的重復掃描,提高了算法的效率.文獻[7]提出了IFU算法,用于解決數據庫和最小支持度都發生改變時關聯規則的增量式更新問題,該算法減少了對原始數據集和新增數據集的掃描次數,提高了算法的效率,但由于該算法使用了一次IUA算法,所以如何減少對原始數據集D的掃描次數有待進一步研究.文獻[8]提出了一種基于矩陣的增量式關聯規則挖掘算法IUBM,采用數組結構和位運算,節省了大量內存空間,充分利用原始數據集挖掘的結果,僅掃描一次新增數據集,不需要掃描原始數據集,同時加入了剪枝算法,減少了大量不必要的比較和計算,該算法的時間復雜度和空間復雜度大大降低.
3 FUP算法在大學生心理危機預防中的應用
大學生心理測評系統采用ASP.NET和C#,以SQL Server2008作為后臺數據庫,通過ADO.NET技術對數據庫連接和訪問,采用三層B/S體系結構,實現了數據準備、基本信息與心理癥狀關系、心理癥狀維度間關系挖掘等功能.抽取某高校2010- 2014四年的心理測評數據進行測試分析[9].在挖掘過程中,我們可以對全體學生心理測評數據進行分析,也可以分年級、院系、專業來進行關聯挖掘.采用FUP算法對全體在校學生的心理數據進行挖掘,九維心理癥狀維間關聯規則挖掘結果如表1所示,屬性與強迫癥狀間的關聯規則挖掘結果如表2所示.
通過挖掘結果我們可以看出心理維度間確實存在著某種潛在的關系,比如對于大學生中患有強迫癥狀的高比例人群,同時伴有焦慮、抑郁、人際關系敏感、偏執等癥狀的可能性很高;患有人際關系敏感癥狀的學生中伴有抑郁、焦慮、恐怖、精神病等癥狀的可能性很高;計算機系的學生中患有偏執癥狀的學生中伴有抑郁、焦慮、精神病等癥狀的可能性很高.單親家庭是個不容忽視的特殊群體,在測試的學生中雖然支持度不高,但是卻有著較高的置信度,顯然單親家庭由于親子關系的失調等原因帶給孩子的傷害是肯定的;生活在大中城市的學生較農村學生而言,由于家長教育觀念的不同,具有更大的學習、生活等各方面壓力,強迫癥狀更為明顯;擔任過學生干部的學生,社會閱歷較豐富,人際關系處理得比較好;來自農村的學生,受物質條件、生活環境與見聞等的影響,強迫癥狀的置信度較高;由于很多地方還是重男輕女的落后思想,導致女生患有強迫癥狀的比例遠高于男生[10].這些挖掘結果與心理學上的認知基本相似,與前期我們的研究結果基本一致,由于大學生心理咨詢中心長期通過加強師資隊伍建設、開展心理健康教育專題活動和開設心理健康系列校級選修課等多種途徑對學生心理危機進行預防,患有軀體化、抑郁、強迫等九維心理癥狀的學生比例普遍有所降低,尤其是高比例的強迫癥和人際關系敏感癥狀都有所改善,充分說明了關聯規則在大學生心理危機預防中的必要性.
4 總結
增量式關聯規則挖掘算法大致分為基于Apriori算法的增量更新算法和基于FP-tree的增量更新算法兩類.本文對基于Apriori算法的增量式關聯規則算法FUP算法的基本思想、優缺點進行了探討,同時針對算法不足提出了改進算法,并將FUP算法應用于大學生心理健康測評數據,從而幫助學校心理輔導人員做到大學生心理危機預防與疏導,推動學校心理健康教育工作更進一步的順利開展.
參考文獻:
〔1〕馮玉才,馮建琳.關聯規則增量式更新算法[J].軟件學報,1998,9(4):301-306.
〔2〕David W Cheung,J.Han,V.Ng,et al.Maintenance of Discovered Association Rules in Large Databases:An Incremental Updating Technique[A].Proc of the 12th Int,1 Conf on Data Engineering[C].1996:106-114.
〔3〕杜孝平,羅憲,唐世渭.頻繁項集挖掘中的兩種哈希數構建方法[J].計算機科學,2002,29(12):138-140.
〔4〕徐文拴,辛運幃.一種改進的關聯規則維護算法[J].計算機工程與應用.2006,42(18):178-180.
〔5〕梅俊,鄭剛.一種基于臨時表的關聯規則增量更新算法[J].安徽工程科技學院學報,2010(3):44-47.
〔6〕唐璐,江紅,上官秋子.一種改進的關聯規則的增量式更新算法[J].計算機應用與軟件,2012(4):246-248.
〔7〕倪志偉,高雅卓,等.基于矩陣的增量式關聯規則挖掘算法[J].計算機工程與應用,2008,44(13):153-155.
〔8〕吳立鋒,侯睿,王江晴.基于關聯規則的增量更新算法[J].武漢理工大學學報,2010(10):151-155.
〔9〕廖深基.關于加強和改進大學生心理危機干預工作的思考[J].思想教育研究,2011(9):86-88.
〔10〕亓文娟,晏杰,等.關聯規則挖掘在大學生心理健康測評系統中的應用研究[J].湖南工業大學學報,2013(11):94-99.