王 璇
(福建對外經濟貿易職業技術學院,福州350016)
改進的Ap rio ri算法在大學生心理數據分析中的應用
王 璇
(福建對外經濟貿易職業技術學院,福州350016)
在基于傳統的支持度—置信度評價框架的Ap riori挖掘算法的基礎上,加入了興趣度評價指標,并將其應用到大學生心理測評數據的分析中,探尋不同的心理測評量表數據之間的聯系,有效地提高了系統的挖掘效率和挖掘效果.
關聯規則;Ap riori;興趣度;心理測評
高校開展心理健康教育,首先要對學生的心理健康狀況有全面的了解,最直接的做法就是進行心理測評,再根據心理測評數據進行統計分析,得出相應的結論.但是,目前大多數的心理測評系統還是傳統的信息管理系統,對數據沒有更深層次的分析和提煉,無法揭示出數據之間隱含的關聯.使用關聯規則挖掘技術則可以從這些海量數據中發現不同的心理測評數據之間的關聯,為學校更好地開展心理健康教育提供科學的依據.
本文將關聯規則挖掘技術運用到大學生心理測評數據的分析中,并在經典的Ap riori算法的框架上,加入了興趣度評價,以此來進一步評價挖掘出的關聯規則,從而提高挖掘結果的有效性.
大學生心理數據挖掘系統采用C/S結構模式,服務器端采用SQL Server 2005作為后臺數據庫管理系統,客戶端應用程序開發平臺選擇Delphi工具,數據挖掘算法用C++語言實現.管理人員通過客戶端軟件的人機交互界面實現心理測評數據的挖掘分析,具體包括從數據庫中抽取數據、清理數據、選擇挖掘模式、結果輸出、規則解釋等一個完整的數據挖掘過程.其具體的業務流程如圖1所示.

圖1 心理測評數據挖掘業務流程圖
這里的數據挖掘算法選擇了關聯規則挖掘中的Ap riori算法,并將其應用到大學生心理測評數據的分析上,以此來對不同心理數據之間的關聯進行深入的挖掘探討.例如,個體的心理健康水平是否與其人格特點有關聯?又有著怎樣的關聯?對此類問題應用關聯規則進行數據挖掘,挖掘出二者數據之間的潛在聯系,可以為心理測評量表的設計提供依據,從而提高心理測評工作的科學性和客觀性.
關聯規則挖掘[1]是數據挖掘技術中的一個重要研究領域,它能從大量的數據項中挖掘出隱藏著的聯系或者相關性,挖掘出的關聯規則通常揭示了某種客觀規律或數據之間的依賴關系.根據這種規律或依賴關系,人們可以更科學地認識客觀事物,合理地制定決策.
關聯規則用形如X?Y的蘊含式來表示一條規則,表示事務X的出現會帶動事務Y的出現.其中,X稱為關聯規則的前件,Y稱為關聯規則的后件,?稱為關聯操作.
Ap riori算法[2]是一種最有影響的關聯規則挖掘算法.該算法基于一種稱為逐層搜索的迭代思想,首先找到頻繁1-項集,表示為L1,然后用L1來生成L2,L2又用來生成L3,重復此過程,直到無法找到更多的頻繁項目集為止.每搜索一次,需要一次數據庫掃描,每一趟掃描中只考慮具有同一寬度K的所有K-項集.
算法1結合文獻[2]給出Ap riori算法.
輸入:事務數據庫D,最小支持度minsup.
輸出:頻繁項集L.
具體步驟:

算法中Ap riori_gen函數的功能是生成頻繁項集Lk的候選頻繁項集Ck,具體過程分為連接和剪枝2步進行:首先以Lk-1為參數,通過Lk-1自身的連接生成一個Lk的超集Ck;然后刪除Ck中所有(k-1)項子集不在Lk-1中的項集.另一個函數subset(Ck,t)的功能是找到包含在事務t中的所有候選項集.
由Apriori算法得到的頻繁項集即可生成相應的關聯規則,但得到的關聯規則是否正確有效,還需要進一步驗證.傳統的關聯規則的評價方法是采用支持度 —置信度框架,即通過設置最小支持度閾值(minsup)和最小置信度閾值(mincnf)來剔除無效的關聯規則.
(1)支持度定義[3]:X和Y同時發生的事務占總事務的比率,即其中X∪Y?ti,ti∈T.
(2)置信度定義[3]:X和Y同時發生的事務與X發生的事務之比,即其中X?ti,Y∈ti,X∪Y?ti,ti∈T.
從以上定義得出的支持度用于衡量關聯規則的重要性,置信度用于衡量關聯規則的有效性.支持度高,說明事務出現的概率高,挖掘出的關聯規則就越重要;置信度高,說明事務之間的關聯程度高,其關聯規則也就越有效.關聯規則挖掘的結果就是要找出支持度和置信度均大于或等于預先指定的最小支持度m insup和最小置信度mincnf的規則,即強關聯規則.
傳統的關聯規則挖掘算法就是基于這種支持度—置信度框架來進行關聯規則評價的,也就是找出數據集所有的強關聯規則.然而有研究發現,強關聯規則并不一定是正確的,有時甚至是完全錯誤的.例如:在學生心理測評數據庫中,性格爽直的學生占68%,無強迫癥狀的學生占66%,性格爽直且無強迫癥狀的學生占42%.現假設最小支持度域值為0.3,最小置信度域值為0.6,則經過挖掘,可以得到“性格爽直 ?無強迫癥狀”,這條關聯規則的支持度為0.42,置信度為0.42/0.68=0.62,即性格爽直的學生中有62%無強迫癥狀.盡管該規則是強關聯規則,但顯然是錯誤的,因為無強迫癥狀的學生本來就有66%,比62%的置信度還要高,說明規則前件的出現反而降低了后件出現的可能性,這樣的規則需被濾去.因此,有必要在傳統的支持度 —置信度框架上加入其他的評價指標,以提高關聯規則挖掘結果的有效性.
對于關聯規則評價問題,有學者提出了規則興趣度RI(Rule Interestingness)的度量方法[4].其原理是借用不確定推理中的主觀Bayes方法的充分性因子來對基于支持度 —置信度框架挖掘出的關聯規則進行進一步評價.
對于一條關聯規則X?Y,興趣度RI定義[4]為:

由定義可知,興趣度RI反映了事務X和事務Y之間的關系:當RI值大于1時,表明事務X的發生會增加事務Y發生的概率,即事務X和事務Y是相關的,稱為正相關性,RI值越大,表明事務X和事務Y的相關性越大;當RI值小于1時,表明事務X的發生會降低事務Y發生的概率,稱為負相關性;當RI值等于1時,表明事務X和事務Y是相互獨立的,即事務X和事務Y之間不具有相關性.
在傳統的Ap riori算法挖掘出的關聯規則基礎上,再引入興趣度對規則有效性進行衡量,淘汰興趣度 ≤1,即負相關性或無關的關聯規則,從而剔除一些無趣或錯誤的規則,提高關聯規則的挖掘質量.再以前面“性格爽直 ?無強迫癥狀”關聯規則為例,在支持度0.42,置信度0.62的基礎上,計算其興趣度:RI=0.62/0.66=0.939<1,因此可以將其淘汰.
對算法1得到的項集內的每條規則計算其置信度,先淘汰置信度小于最小置信度閾值的規則,再計算剩下規則的興趣度,淘汰興趣度小于最小興趣度閾值的規則,最后剩下的規則即為引入興趣度后所得到的最終結果.
算法2加入興趣度的Ap riori算法.
輸入:關聯規則X?Y,最小置信度閾值mincnf,最小興趣度閾值minri.
輸出:關聯規則X?Y或φ.
具體步驟:

應用加入興趣度的Ap rio ri算法,算法用C++語言實現,程序運行環境為 Window s XP、賽揚 2.1G CPU、1G內存,抽取某高校2010級學生心理測評數據庫中的部分數據作為數據樣本集進行測試,得到表1所示的挖掘統計結果.

表1 不同閾值設置的規則數量統計
根據表1的數據統計,可以得出在沒有興趣度及不同興趣度閾值設置下的關聯規則數量的前后對比,如圖2所示.

圖2 不同興趣度閾值的關聯規則數量
從圖2可以看出,引入興趣度閾值后,生成的關聯規則數量急劇減少,同時,隨著興趣度閾值的提高,淘汰了許多錯誤或無用的規則,提高了挖掘結果的有效性.
數據來源于某高校2010級學生的《大學生心理健康量表》與《大學生人格量表》的相關測評數據,收回有效問卷2 067份,經過數據預處理,得到實際有效記錄1 988條作為關聯挖掘的數據樣本.具體包含心理健康量表中9個維度[5](強迫、敏感、抑郁、焦慮、敵對、偏執、恐怖、軀體化、精神病傾向)和人格量表中7個因子[6](活躍、爽直、堅韌、嚴謹、趨利、重情、隨和)共 16 個字段.
以強迫癥為例,挖掘不同人格因子與強迫癥之間的關聯.在字段選擇步驟中,選擇7個人格因子和1個心理健康維度(強迫)作為關聯挖掘字段,再分別設置支持度=0.2,置信度=0.5,興趣度=1.2,如圖3所示.

圖3 關聯規則數據挖掘界面
系統運行后,挖掘出的關聯規則共36條,選擇其中與強迫癥相關的關聯規則,即規則后件為有癥狀或無癥狀的規則,得到的結果如表2所示.

表2 與強迫癥有關的關聯規則挖掘結果
本文在傳統的基于支持度—置信度框架的關聯規則評價體系中加入了興趣度評價,并將加入興趣度的Ap riori算法應用于大學生心理測評數據的分析中,挖掘出相關的規則.實踐證明,引入興趣度閾值可有效減少生成的關聯規則數量,淘汰掉一些無用的規則,進而提高關聯規則的挖掘質量.
[1]Dunham M H.數據挖掘教程[M].郭崇彗等譯.北京:清華大學出版社,2005:152-153,169-170.
[2]Agrawal R,Srikant R.Fast A lgorithm s fo r M ining Association Rules in Large Databases[C]//.Proceedings of the 1944 International Conference on Very Large Databases.San Francisco:Morgan kaufmann Publishers,1994:487-499.
[3]黃勇.基于關系數據庫的關聯規則挖掘算法的研究[D].安徽:安徽大學,2006:11-12.
[4]Piatetsky-Shapior G,Fraw ley W J.Know ledge Discovery in Database[M].Cambridge,Massachusetts,USA:AAA I/M IT Press,2001:158-165.
[5]教育部《大學生心理健康測評系統》課題組.《中國大學生心理健康量表》的編制[J].心理與行為研究,2005,3(2):102-108.
[6]王登峰.《中國大學生人格量表》的編制[J].心理與行為研究,2005,3(2):88-94.
Application of the Improved Apriori Algorithm in College Students’Psychological Data Analysis
WANG Xuan
(Fujian International Business Economic College,Fuzhou 350016,China)
Based on the traditional support-confidence evaluation framework of Ap riori algorithm,joining the Rule Interestingness,the college students’psychological data is analyzed,and the relation between different psychological evaluation data is exp lored,so the system’s efficiency and effect are imp roved effectively.
association rules;Ap riori;rule interestingness;psychological evaluation
TP311.5
A
10.3969/j.issn.1671-6906.2011.01.009
1671-6906(2011)01-0035-04
2011-01-03
福建省教育廳2010-2011年度B類科技項目(JBS10324)
王 璇(1978-),女,福建福州人,講師,碩士.