張輝
摘 要: 傳統數據挖掘系統存在挖掘速率慢、時間長、數據可靠度低等問題,無法達到運動訓練生化指標精準數據挖掘的標準,為此,對基于關聯規則的運動訓練生化指標數據挖掘系統進行設計。采用三層結構B/S模式,將后臺的數據庫存儲以及挖掘的數據作為參考,設計系統硬件框架;選取數據并對數據進行預處理,采用關聯規則數據挖掘算法完成系統軟件部分設計;進行實驗,驗證系統設計的合理性。實驗結果表明,該系統數據挖掘速率快、耗費時間短、可信度高,為運動生化指標數據挖掘提供了更加合理的評定標準。
關鍵詞: 關聯規則; 運動訓練; 生化指標; 數據挖掘; B/S模式; 數據可靠度
中圖分類號: TN02?34; G80?32 文獻標識碼: A 文章編號: 1004?373X(2018)07?0183?04
Design of association rules based data mining system
for exercise training biochemical indexes
ZHANG Hui
(Xinlian College of Henan Normal University, Zhengzhou 450000, China)
Abstract: The traditional data mining system has the problems of slow mining speed, long mining time and low data reliabi?lity, and can′t reach the accurate data mining for biochemical indicators of exercise training. Therefore, an association rule based data mining system of exercise training biochemical indexes was designed. The three?layer B/S mode is adopted to design the system hardware framework by storing the background database and taking the mined data as a reference. The data is selected for preprocessing. The data mining algorithm based on association rules is used to design the system software. The experiment was performed for the system to verify the rationality of the system design. The experimental results show that the data mining system has fast mining rate, short time consumption and high reliability, and provides a more reasonable evaluation standard for the data mining of sports biochemical indexes.
Keywords: association rule; exercise training; biochemical indicator; data mining; B/S mode; data reliability
0 引 言
隨著數據庫技術的突飛猛進,人們對于數據的獲取途徑越來越多,人類所擁有的數據也急劇增加,但是對于數據的分析與處理方式卻很少,人們通過數據而獲取的信息僅僅占整個系統所有信息中較小的一部分,隱藏在數據之后的是更加重要的特征以及未來的發展趨勢,這些信息在決策過程中具有重要意義。數據挖掘能夠給決策者帶來重要的參考價值,進而產生不可估量的效益,成為運動競賽的關鍵環節。但是傳統的數據挖掘系統存在挖掘速率慢、時間長、數據可靠度低等問題,無法滿足運動訓練生化指標精準數據挖掘的標準。
針對該問題,對基于關聯規則的運動訓練生化指標數據挖掘系統進行設計。實驗結果表明,該系統數據挖掘速率快、耗費時間短、可信度高,為運動生化指標數據挖掘提供了更加合理的評定標準,也為今后的訓練方案提供了依據。
1 數據挖掘系統設計
1.1 系統結構和功能框架設計
基于關聯規則的運動訓練生化指標數據挖掘系統結構與功能框架的設計需要建立一個分布式的數據挖掘平臺,關聯規則集成數據庫、數據挖掘的模型以及知識挖掘表達等功能。該系統選擇將數據倉庫中的數據作為挖掘的對象,并采用關聯規則原理和方法提取拓撲關系的信息,使用具體數據模型進行處理與挖掘,根據圖形結果的表達來探詢關聯規則的內在信息,通過傳統分析功能獲取抽象規則[1]。
為了滿足該系統的需求,采用三層結構的B/S模式,將后臺的數據庫存儲以及挖掘的數據作為參考,將關聯規則的數據引擎SDE作為連接器[2]。在該應用服務器上與相應的數據進行配置,并將數據挖掘的客戶端與文件和描述文件存放在服務器上,使多個客戶機能同時訪問Web頁面,并激發下載與之相關的數據挖掘客戶端。該系統功能框架主要由以下三部分構成,如圖1所示。
由圖1可知:基于關聯規則的運動訓練生化指標的數據管理和人機交互模塊是整個系統的核心模塊,采用ArcSDE完成數據挖掘的信息抽取,而模塊中的組件用于對原始數據挖掘,其中,應用層Web的服務器負責接收教練員、訓練中心和體育局的決策人員經過瀏覽器發送的請求,然后根據數據庫服務器獲取的數據再傳送回瀏覽器[3],進而實現系統框架的設計。
1.2 數據挖掘系統模塊設計
運動訓練生化指標數據挖掘對運動員來說具有重大意義,也是關注的焦點。
1.2.1 數據選取
從數據庫中選擇運動訓練的生化指標,主要包括:血色素(HB)、血肌酸激酶(CK)、血尿素氮(BUN)以及睪酮(T),除去性別與年齡[4],原始數據如表1所示。
1.2.2 數據預處理
對數據進行預處理時,需要將大量具有屬性指標的數據進行記錄,假設考慮每一個指標,那么就會存在以下問題:指標多、無代表性;指標存在不同程度的關聯性,容易造成數據維數禍害而導致數據挖掘效率降低[5]。主成分分析方法能夠將這類指標的維數降低,通過綜合指標表示原有的指標,并將復雜指標簡化為簡單的綜合指標[6],如表2所示。
) 經過對數據的查詢與分析,需要將目標有關的對象與參照集合共同收集到數據庫當中[7]。數據庫中的關聯規則[X?Y,]所有事物所包含的百分比稱之為[X?Y]的期望置信度[8];將置信度與期望的置信度進行對比,獲取興趣度[(f)]為:
[f=置信度X?Y期望置信度X?Y] (1)
興趣度能度量所有事物所包含的[X,Y]相關度。
2) 在粗略層次上進行謂詞計算,將目標設定為最小的限定矩形,抽取距離落在預定閾值之內作為對象,將對象關系的謂詞存儲在數據庫當中,屬性值被設定為單個值或一組值。
3) 不同謂詞具有不同的支持度,即:
[支持度X,Y=f×支持度X×支持度Y] (2)
將支持度較小的閾值排除,進而形成常用數據庫。
4) 在常用數據庫中執行準確的空間計算,采用MBR技術對謂詞之間的關系進行檢查,排除掉與實際不符合的謂詞關系,進而形成拓撲數據表,由此計算謂詞的支持度,排除支持度較小的項目進而形成最優的數據庫[9?10]。
5) 對步驟4)的拓撲關系進行概化,形成新的拓撲關系數據表,進而完成對數據的挖掘。
2 實 驗
為了驗證基于關聯規則的運動訓練生化指標數據挖掘系統設計的合理性,進行了如下實驗。首先需要對實驗參數進行設置,選取某體育學院50名學生運動訓練的生化指標:血色素(HB)、血肌酸激酶(CK)、血尿素氮(BUN)以及睪酮(T),在GoogleAppEngine平臺上進行數據挖掘,將數據集作為輸入的標準,根據不同的數據量分成5組,分別在傳統和基于關聯規則的數據挖掘設計的系統上進行數據挖掘,以此驗證該系統設計的合理性。
2.1 數據挖掘速率結果與分析
對50名學生的訓練生化指標數據進行分組,共分為5組,分別在傳統數據挖掘系統與基于關聯規則的數據挖掘系統進行實驗,并記錄數據挖掘所耗費的時間,結果如表3所示。
由表3可知:當數據采集量為2 000時,傳統數據挖掘系統所耗費的時間為8.25 s,而基于關聯規則數據挖掘系統所耗費的時間為2.31 s;當數據采集量為10 000時,傳統數據挖掘系統所耗費的時間為821.45 s,而基于關聯規則數據挖掘系統所耗費的時間為65.78 s;當數據采集量為18 000時,傳統數據挖掘系統所耗費的時間為2 015.68 s,而基于關聯規則數據挖掘系統所耗費的時間為91.65 s。明顯看出,傳統數據挖掘系統所耗費的時間較長。
根據數據挖掘系統所耗費的時間繪制兩種系統進行數據挖掘時所運行的速率,結果如圖3所示。
由圖3可知:基于關聯規則的運動訓練生化指標數據挖掘系統的速率明顯比傳統數據挖掘速率要快,且隨著數據采集量的增加,該系統數據挖掘速率優勢更加明顯;而傳統的數據挖掘系統存在不能對大數據進行快速分析等問題,導致大量數據積壓,不能及時處理,進而降低了系統挖掘數據的速率。
2.2 數據挖掘的可信度結果與分析
基于本文采用的關聯規則算法對運動訓練生化指標的數據挖掘,從表2中選取支持度為20%的頻繁1項,由頻繁1項按照步驟進行挖掘,選取可信度為70%的進行挖掘,挖掘結果如表4所示。
根據表4中第2個規則說明了血色素(HB)指標大小范圍在13~17 g/dL的運動員可信度為77.9%;第4個規則說明了血色素(HB)指標大小范圍在14~18 g/L的運動員可信度為82.1%;第6個規則說明了血肌酸激酶(CK)指標大小范圍在50~130 U/L的運動員可信度為85%;對于其他運動員來說,血肌酸激酶(CK)大小為[80~150 U/L]的運動員的可信度為100%。
基于關聯規則的運動訓練生化指標數據挖掘系統的設計對數據挖掘的可信度較高,能夠為運動訓練模式與訓練計劃的制定提供依據。
2.3 實驗結論
根據上述實驗內容得出實驗結果:基于關聯規則的運動訓練生化指標數據挖掘系統的速率明顯比傳統數據挖掘速率要快,且隨著數據采集量的增加,該系統數據挖掘速率優勢更加明顯;而傳統的數據挖掘系統存在不能對大數據進行快速分析等問題,導致大量數據積壓,不能及時處理,進而降低了系統挖掘數據的速率。而且該系統對數據挖掘的可信度較高,能夠為運動訓練模式與訓練計劃的制定提供依據。
3 結 語
為了能夠更好地為運動項目提供決策,針對關聯規則的數據挖掘研究進行了深入的分析與設計,將各種指標因素與成績好壞的關系結合起來,在關聯規則數據挖掘算法的分析基礎上,制定更加合理的科學評價方法,為運動生化指標數據挖掘提供更加合理的評定標準,也為今后的訓練方案提供了依據。
參考文獻
[1] 李悅,孫健,邱志祺.基于關聯規則的數據挖掘技術的研究與應用[J].現代電子技術,2016,39(23):121?123.
LI Yue, SUN Jian, QIU Zhiqi. Application and research on data mining technology based on association rules [J]. Modern electronics technique, 2016, 39(23): 121?123.
[2] 唐曉東.基于關聯規則映射的生物信息網絡多維數據挖掘算法[J].計算機應用研究,2015,32(6):1614?1616.
TANG Xiaodong. Biological information network multidimensional data mining algorithm based on association rules mapping [J]. Application research of computers, 2015, 32(6): 1614?1616
[3] 謝修娟,莫凌飛,朱林.基于關聯規則的濫用入侵檢測系統的研究與實現[J].現代電子技術,2017,40(2):43?47.
XIE Xiujuan, MO Lingfei, ZHU Lin. Research and implementation of misuse intrusion detection system based on association rules [J]. Modern electronics technique, 2017, 40(2): 43?47.
[4] 徐開勇,龔雪容,成茂才.基于改進Apriori算法的審計日志關聯規則挖掘[J].計算機應用,2016,36(7):1847?1851.
XU Kaiyong, GONG Xuerong, CHENG Maocai. Audit log association rule mining based on improved Apriori algorithm [J]. Journal of computer applications, 2016, 36(7): 1847?1851.
[5] 王宏,于勇,印璞,等.基于關聯規則的MBD數據集定義研究與實現[J].北京航空航天大學學報,2015,41(12):2377?2383.
WANG Hong, YU Yong, YIN Pu, et al. Research and implementation of MBD dataset definition based on association rules [J]. Journal of Beijing University of Aeronautics and Astronautics, 2015, 41(12): 2377?2383.
[6] 林穎華,陳長鳳.基于關聯規則的企業財務風險評價研究[J].會計之友,2017,22(1):32?35.
LIN Yinghua, CHEN Changfeng. Research on enterprise financial risk assessment based on association rules [J]. Friends of accounting, 2017, 22(1): 32?35.
[7] 梁路,王彪,王劍輝.一種結合OCAT邏輯方法的細粒度的關聯規則數據挖掘[J].小型微型計算機系統,2015,36(12):2667?2670.
LIANG Lu, WANG Biao, WANG Jianhui. A fine?gained association rule data mining based on OCAT logical method [J]. Journal of Chinese computer systems, 2015, 36(12): 2667?2670.
[8] 王文槿,劉寶旭.一種基于關聯規則挖掘的入侵檢測系統[J].核電子學與探測技術,2015,21(2):119?123.
WANG Wenjin, LIU Baoxu. Association rule?based network intrusion detection system [J]. Nuclear electronics & detection technology, 2015, 21(2): 119?123.
[9] 鄒元君,姜彤偉.基于改進關聯規則的圖像挖掘技術研究[J].現代電子技術,2017,40(16):109?111.
ZOU Yuanjun, JIANG Tongwei. Research on image mining technology based on improved association rules [J]. Modern electronics technique, 2017, 40(16): 109?111.
[10] 周芳.基于關聯規則Apriori算法的物聯網海量數據挖掘系統研究[J].河北北方學院學報(自然科學版),2015,32(1):15?18.
ZHOU Fang. Mass data mining system for Internet of Things based on association rules Apriori algorithm [J]. Journal of Hebei North University (natural science edition), 2015, 32(1): 15?18.