蘇曉雨 謝文才
武警警官學院 四川 成都610213
軍事訓練是部隊的中心工作,努力提高訓練成績是部隊追求的目標,更是基層單位抓的經常性工作。隨著部隊實戰化訓練的深入,傳統的訓練成績分析方法已不能適應科學組訓的需要,無非是得到均值、方差、效度和可信度而已,只能從表面獲取部隊訓練的成效,無法深層次反應訓練成績間的關聯與特點,并不能從隱藏的因素中尋找真正影響訓練成績的核心環節。數據挖掘能為決策者提供重要的、極有價值的信息或知識,從而產生不可估量的效益。雖然數據挖掘產品尚不成熟,但其市場份額卻正日益擴大,越來越多的大中型企業開始利用數據挖掘來分析公司的數據以輔助決策,數據挖掘正逐漸成為在社會市場競爭中立于不敗之地的法寶。為訓練成績的分析提供科學的依據,為改進訓練及弱勢科目的改進具有重要意義。
科目與科目成績之間的關系,使用關聯規則分析總體流程圖為圖1所示。

圖1 運用關聯規則分析流程圖
2.1 關聯算法過程Apriori算法[1-3]主要利用逐層搜索的迭代方法進行挖掘,其中k項集用于尋找k+1項集。首先通過完整的掃描數據庫,累計每個項的出現次數,并收集符合最小支持度的項,找出頻繁1項集的集合。該集合記為L1。然后,利用L1找出頻繁2項集的集合L2,再次利用L2找出L3,如此下去,直到不能再找出頻繁k 項集。找出的每個Lk需要在數據庫一次完整的掃描。它可以用于挖掘事件數據集內有價值的、未知的卻又實際存在的數據關系,找到這些關系——關聯規則,并利用即可達到某些預測功能。算法流程圖如圖2所示。

圖2 運用Apriori算法分析流程圖
2.2 挖掘頻繁項集具體實現
1.連接步:連接的作用是生成候選K項集。對預先設定的最小支持度,通過對項數為1的候選1項集C1,刪除小于最小支持度的項集得到頻繁1項集L1;然后L 1由通過與自身連接生成候選2項集C2,保留C2中滿足最小支持度的項集,
得到頻繁2項集L2;而后由L2與L2連接生成候選3項集C3,保留C3中滿足最小支持度的項集得到頻繁3項集L 3,如此不斷循環,將會得到頻繁項集Lk。
2.剪枝步:緊跟著連接步后面的就是剪枝,剪枝的作用通過對比最小支持度,將不滿足的項集剔除掉,為下一步的運算縮小搜索空間的范圍。因為頻繁項集的所有非空子集也是頻繁項集,則Lk-1與Lk-1連接生成Ck也是頻繁項集。
3.先驗性質:頻繁項集的所有非空子集也是頻繁項集。其流程圖如圖3所示。

圖3 Apriori算法流程圖
采用Matlab語言進行編寫,需要將等級用字符代替,其關系表如表1所示:

表1 科目等級與字符對應關系表
挖掘12000條關聯規則,如表2所示。

表2 篩選后的關聯規則

5 E1→Z2 77.1930% 83.8095% 5 E2→Z2 --6 F1→Z2 49.1228% 91.8033% 6 F2→Z2 18.4211% 95.4545%7 G1→Z2--7 G2→Z2 48.2456% 82.0896%8 H1→Z2--8 H2→Z2 73.6842% 84.8485%9 I1→Z2 5.2632% 85.7143% 9 I2→Z2 74.5614% 81.7308%
得到科目規則關系如圖4、圖5所示。

圖4 單科目優秀與總評良好的規則

圖5 單科目良好與總評良好的規則
為提取出多個科目之間對總評的影響,使用主成分分析法將“重要”科目先篩選出來,而后利用Apriori算法進行關聯規則分析,選取兩個科目進行分析,提取出兩個科目與總評成績的規則如下。通過主成分分析法,得到的兩個科目分別為“科目7、科目8”,將兩個科目個等級的成績兩兩組合與總評良好之間的規則表如表4所示。

表4 科目7、科目8與總評關聯規則
由上表可知,可以得到刺殺與擒敵術兩個科目的成績與總評成績之間的關系,例如:“G2,H2→Z2”表示當刺殺與擒敵都取得良好的成績時,總評取得良好的成績的概率為43.8596%。而“G4,H2→Z2”表示刺殺取得及格,擒敵取得良好的情況下,總評良好的概率為28.9474%。其余科目與科目或與總評成績之間的關系可以在結果中查找并進行分析。
本文運用Apriori算法主要在給定支持度與置信度的情況下對科目與科目,科目與總評之間的關聯規則的分析,結果較為詳實,有較強的參考性。