朱 春
(蕪湖職業技術學院 體育教學部,安徽 蕪湖 241003)
關聯規則是數據挖掘中所要遵循的重要規則,關聯規則以原始資料作為處理對象,在高頻項目組的控制下,利用項目組中的高頻項建立規則,并結合不同的最小支持度,逐步搜索形成數據項目組[1].關聯規則能夠使用已知的數據推算出其他與其有關聯的數據,并以此為對比標準,構建形成一個科學化的判斷過程[2].
在計算機技術的參與下,大學生體質測試模式逐漸發展,進而形成一個健康數據分析系統,將學生各項體質測試指標輸入該系統后,系統能夠以特定的健康數值,生成個體或總體的身體健康分析結果,校方據此調整實際的教學方向,增強大學生的身體素質[3].
在境外,分析大學生體質測試健康數據的研究起步較早,其大多應用了數據挖掘算法后,數據分析系統逐漸向精準化、關聯化發展,可高效分析大學生群體的體質健康狀況[4-7];而我國,相關數據分析系統起步較晚,文獻[8]以學生體質健康測試區塊鏈為研究對象,在"省級-地級-縣級"的三級結構下,從矯正利害相關者的關注點出發,從平臺架構、應用前景與現實挑戰3個向度對學生體質健康測試現狀進行分析.文獻[9]采用聚類分析法評價醫學院校學生體質健康成績結構特征,揭示學生體質結構特征的內在聯系,為醫學院校學生體質健康科學訓練工作提供理論依據,有助于快速提高體質健康成績.
綜合各國的研究現狀來看,設計一種基于關聯規則的大學生體質測試健康數據分析系統是很有必要的.因為其在體質測試指標輸入后,通過給定的最小置信度,在每個最大頻繁項集中尋找置信度不小于設定的最小置信度的關聯規則,便于確定數據項數量數值、降低迭代次數、減少實際響應時間.
在構建分析系統的硬件層結構時,選擇數據采集設備和上位機作為主要組成部分,在獲取實際的大學生體質物理量數據后(如身高、體重等),通過傳感器將其傳輸到硬件層.硬件層采用NI Compact RIO機箱作為數據采集核心器件,搭建形成的硬件層結構如圖1所示.
在圖1所示的硬件層結構下,控制數據采集模塊內設置1個FPGA芯片,芯片外部連接1個可拆卸的工業I/O模塊后,外部串聯1個嵌入式控制器NI cRIO-9075,配置1個4通道的電壓輸入模塊NI9215后,外部串聯1個8通道的電流輸入模塊NI9275.在控制器內形成同步采樣電壓過程,緩沖處理硬件結構中的模數,形成模數轉換器,在模擬輸入通道的控制下,在硬件結構內形成一個數據傳輸通道,實現對大學生體側數據的傳輸.
圖1 搭建的硬件層結構
設置NI cRIO-9075設備的工作溫度范圍為40~-30 ℃之間,固定其工作頻率為300 MHz后,在設備上放置1個4槽接口并連接1個串行端口.在I/O串口功能的支持下,實現硬件結構的定時功能,設定的工作參數如表1所示.
表1 設定的器件工作參數
在表1所示的器件工作參數下,在硬件層結構外部設定無線WIFI感應器,控制感應器內集成數據信號監聽、數據預處理以及數據通信3個模塊.數據信號監聽模塊內部放置一個1GB、支持RAM功能的四核處理器,利用處理器板上的USB端口,外部連接一個LPDDR2 SDRAM作為儲存預處理數據的元件,元件外部連接一個微型天線,接收體測過程產生的各項數據.
采用光電傳感器( EE-SX1042,深圳中勤拓展實業有限公司)作為數據采集電路的核心,光電傳感器將激光束用偏振片遮擋后,串聯一個放大器,形成的信號采集電路結構如圖2所示.
在圖2所示的信號采集電路結構下,以控制電路中的無線傳輸芯片(NRF24L01)為核心,并在其內部集成晶振和頻率合成器.為了控制芯片的發射功率,在頻率合成器外部連接一個調制器后,控制芯片的工作電流在10 mA左右,并在芯片上配置1個天線,同時調控相同接收數據頻道內的數據信號.在外圍電路內設定10個元器件后,控制器件的工作電壓為3.3V.通信器件采用單邊天線,調控采集電路中產生的電感與電容間的參數值.
圖2 設計得到的信號采集電路結構
為了控制硬件電路的功率輸出,在信號采集電路外部并聯1個橋式電路結構,電路內部設定3個二極管和2個濾波電容.實際控制硬件結構時,通過控制二極管間接控制數據采集電路中的電流大小,形成的橋式電路結構如圖3所示.
圖3 構建得到的橋式電路結構
在圖3所示的橋式電路結構下,當電阻R4輸入高電平時,控制Q1接口流入電流,在線圈U-V的控制下,電流流經Q4端口流入到地端,定義上述電流流經過程為正方向.定義VCC為電容C3的充電電源后,將C9電容作為繼電器的調和電容.控制電容C8工作時兩端充電,將電路中的碰撞滑塊直接發射到碰撞銅板上,在RV1接口上調節電壓的輸出.在上述硬件結構的控制下,設計數據分析系統的軟件結構.
在構建體質測試健康數據關聯規則時,以硬件結構采集得到的初始體質數據作為處理對象[10],設定I={I1,I2,...,Im}是m個測試項目的數據集合,此時體質測試項目為Ik,也就是長度為k的項集.假設數據集合中存在一個健康數據子集T,此時子集在測試集上的映射就可定義為關聯性,關聯性數量關系可表示為:
(1)
其中,|D|表示事務總數量;σ(Ik∪k)表示存在的健康數據數量.在上述數量關系下,構建健康數據在體質測試數據中出現的概率,數值關系可表示為:
(2)
其中,sup_count(Ik∪k)表示包含數據長度的事件,sup_count(k)表示含有健康數據的體測事物數.根據上述計算公式,概率值可以反映大學生體質測試健康數據在總數據集中的比例.當概率數據值較大時,可作為健康數據之間相互規則的最小置信度.以最小置信度為篩選準則,對數據中的數據項進行反復篩選,然后對健康數據進行檢驗.將健康數據不斷集成到一個健康數據集中,設置身體素質情況判斷的體質測試指標,逐步提取滿足要求的規則,作為健康數據的篩選規則.如圖4所示.
圖4 體質測試健康數據間的對應關系示意圖
圖4中,構造關聯規則后,對體質測試數據輸出的關聯結果進行分類,形成健康數據測試組,將其分為訓練數據組和驗證數據組.在數據比例的控制下,構建數據訓練模型,對項目的預測數據進行測量,并按照過程構建實際的健康函數[11].為了控制評價形成的分類函數精度,采用二元模型將算法模型、計算出的數據劃分為不同類型的數據,在確保都是真實類數據的情況下,即可保證數據訓練模型的實際精度滿足要求.
大學生體質測試數據的種類較為復雜,所以在實現其數據分析功能時,將其劃分為登錄模塊、數據管理模塊、數據分析模塊以及數據回調模塊等.在JAVA語言工具的幫助下,用戶登錄模塊設定用戶賬號以及用戶密碼,當密碼與賬號間符合設定的代碼邏輯關系時,開放數據分析系統內部設定的權限[12].數據管理模塊的主要功能是更新或更正大學生個人信息和體質測試數據,按照當前大學生體質測試項目名稱作為數據管理批次.數據分析模塊主要對分析系統硬件中的健康數據進行采集、壓縮和存儲,方便高校對大學生體質數據進行調用與分析[13].數據回調模塊以構建的分析模塊作為基礎.具體實現過程如下:
第1步,在上述所示的模塊劃分下,據實際測試的大學生體質數據選擇健康數據值,建立相同測試批次的數據分析任務,同時配合學生自身體質參數,一定程度上增加或是刪除操作[14].根據設定的關聯規則,在線分析體質測試數據在健康標準中所處的位置,計算得到體測數據項的流形程度,計算公式可表示為:
(3)
其中,Lift(k?T)表示體測數據在健康數據關聯關系中形成的提升度,在提升度數值的控制下,方便體育教師對學生的體測數據進行體質健康數據分析.
第2步,進入健康數據分析模塊后,選擇不同種類的體質測試通道,采集獲取得到大學生體質測試數據,控制此時對數據信號的壓縮以及分析,使用壓縮處理后的信號進行數據回調分析,同時實現體測數據的在線健康分析過程.
第3步,在數據信號的獲取過程中,選定數據分析模塊的回調功能時,要壓縮實際獲取的體質數據信號,并結合實際的數據分析要求,生成實際所需的健康數據分析規則[15],實現對大學生體質測試健康數據的分析.
綜合上述軟、硬件的設計,最終完成對基于關聯規則的大學生體質測試健康數據分析系統的設計.
為測試數據分析系統的性能,采用文獻資料法、數理統計法和比較分析法,全面了解某大學學生體質健康現狀[16].以該學校期末工作總結報告中提供的學生體質健康狀況量化數據為數據樣本,設定其為采集得到的大學生體質測試健康數據集,采集得到的數據集結果如表2所示.
表2 實驗采集得到的數據集
使用表2準備的實驗數據集下,使用文獻[3]、[8]中以及設計的分析系統進行實驗,對比3種數據分析系統的性能.
在上述實驗準備下,控制3種數據分析系統在相同的時間段處理準備的大學生體質健康數據,以時間段內可處理的數據峰值作為統計目標,將10組數據集作為處理對象,最終3種數據分析系統分析數據的峰值結果如表3所示.
表3 3種數據分析系統可處理的最大數據量結果
根據表3所示的最大數據量結果可知,在相同的實驗環境下控制3種數據分析系統同時處理相同數據集,文獻[3]中數據分析系統可處理的最大數據量在300項左右,實際可處理的數據項數量較少;文獻[8]中的數據分析系統可處理的最大數據量在與實驗準備的數據量少50項,可處理的最大數據量較大;而設計的數據分析系統幾乎能夠處理實驗準備的所有體質測試數據項,數據處理能力最強.
保持上述實驗環境不變,控制3種數據分析系統采集數據的頻率為500 Hz,將實驗數據集中的數據項作為數據分析中的最小網(mm),統計在不同采樣速度下,3種數據分析系統能分辨數據項的個數,實驗結果如表4所示.
表4 3種數據分析系統分辨數據項結果
在3種數據分析系統控制下,將實驗數據集中的數據項視為不同的數據網格.根據表中數值,文獻[3]中數據分析系統可分辨的數據項在20項左右,可分辨健康數據項的數量最多;文獻[8]中的數據分析系統可分辨的數據項要少于實際健康數據5項左右,實際可分辨的健康數據集數量較多;設計的數據分析系統可分辨的數據項數量與實際的健康數據項數值相等,可分辨的數據項數量最多.這是因為本文應用關聯規則算法,最高精準度地確定了數據項數量數值,為響應時間的減少奠定基礎.
保持上述實驗環境不變,設定數據分析系統內的功能項,設定觀測的操作項名稱如表5所示.
在表5設定的操作下,控制3種數據分析系統處理表中的操作,定義操作在數據分析系統中表現與預期效果一致時,表示數據分析系統完成一次數據分析過程.統計并分析不同操作產生的響應時間,并將其作為系統的響應時間,3種數據分析系統的響應時間結果如表6所示.
表5 設定的觀測操作項名稱
表6 3種數據分析系統對操作的響應時間
控制3種數據分析系統同時處理設定的操作后,根據統計得到的響應時間可知,文獻[3]中數據分析系統實際的響應時間在5.5s左右,系統的響應時間最長;文獻[8]中的數據分析系統的響應時間在4.2 s左右,系統的響應時間較長;而設計的分析系統對操作的響應時間在1.3 s左右,與兩種文獻中的數據分析相比,設計得到的數據分析系統的響應時間最短.綜合上述系統測試結果可知,與現有數據分析系統相比,設計得到的數據分析系統的性能最佳.這是因為本文方法將整個系統軟件部分的數據分析功能模塊化處理,根據設定的關聯規則,在線分析體質測試數據在健康標準中所處的位置,計算得到體測數據項的流形程度,有針對性地生成實際所需的健康數據分析規則,提高響應時間.
在關聯規則的支持下,設計一種大學生體質測試健康數據分析系統,在硬件優化的基礎上,將大學生體質測試健康數據分析系統劃分為登錄模塊、數據管理模塊、數據分析模塊以及數據回調模塊等.根據設定的關聯規則,以最小置信度為篩選準則,對數據中的數據項進行反復篩選,設置身體素質情況判斷的體質測試指標,在線分析體質測試數據在健康標準中所處的位置,有針對性地生成實際所需的健康數據分析規則,確定了數據項數量數值,能夠改善現有數據分析系統響應時間過長的問題,為今后判斷大學生體測數據健康狀態提供一定的理論參考.