趙曉凡
(中國人民公安大學 信息技術與網絡安全學院,北京 102623)
計算機專業目前仍屬于比較熱門的好就業專業,公安高等院校均開設有計算機專業,內含網絡安全與執法、信息安全、視頻圖像技術和數據挖掘等方向。隨著公安信息化工作的發展,公安業務工作利用計算機進行輿情分析、預警決策,進而打擊、預防犯罪成為趨勢,這些都與數據挖掘課程所講授的內容密切相關,是數據挖掘課程在實踐中的具體應用[1-6]。計算機專業課程設置及教學內容對公安院校學生知識儲備至關重要,考慮到公安院校學生的就業方向基本為各地市公安機關,計算機專業選修課應以實用性為主,特別是數據挖掘課程,其教學內容更應結合公安業務并緊跟時代的發展,適時而變。
目前,針對數據挖掘課程與大數據技術相結合的教改探討有:文獻[7]從培養數據意識、加強理論體系、創新教學方法和深入科學研究等4個方面來探索如何設計高校數據挖掘課程,以解決大數據時代背景下數據挖掘課程因抽象而帶來的問題;文獻[8]針對大數據的特點,以構建課程核心知識體系為主題,采用案例教學法,改革傳統的教學評價方式,理論結合實踐進行研究生數據挖掘課程教學創新嘗試,教學達到了預期效果,受到學生好評;文獻[9]結合大數據的特點,對大數據時代數據存儲與挖掘算法的教學改革進行分析,對后續研究提供了參考;文獻[10]以課堂教學、MOOC 嵌入式課程和項目實踐相結合的方式,推進數據挖掘課程在大數據環境下的教學和實踐。對數據挖掘課程從其他方面進行教改的文章還有:文獻[11]對數據挖掘課程的特點和應用領域、數據預處理方法和關鍵的四項技術、Web 挖掘與個性化推薦以及算法實現及應用上做了分析,對應用型本科生開設數據挖掘課程做了嘗試;文獻[12]提出通過建設開放數據挖掘實踐教學資源庫來提升教學效果。
數據挖掘通常稱為從數據中發現知識,是自動、方便提取代表知識的模式,這些模式隱藏在大型數據庫、數據倉庫、Web、其他大量信息庫或數據流中[13]。作為計算機專業研究生的專業選修課,在公安高等院校開設數據挖掘課程的必要性如下。
互聯網行業作為大數據的推動者與技術應用創新的領跑者,不僅是傳統行業實現產業升級的重要手段,也是新興行業開啟新型服務方式的依賴。當前,互聯網逐漸滲透到電子商務、移動通信、醫療衛生、政府機構等領域和機構,許多計算機技術正在日益改變我們的生活。物聯網、云計算、大數據逐步成為計算機專業的熱門研究方向。在這些口號的背后,蘊藏和折射出的是運用信息和數據的能力,即如何從大量、復雜的數據中提取有用的信息,這就是數據挖掘課程涉及的內容。此外,近些年大數據技術迅猛發展,而大數據分析所運用的算法和工具都是數據挖掘課程的內容,是數據挖掘課程的拓展和進一步延續。
社會需求是高等院校人才培養的驅動力。計算機發展的最高境界是實現真正意義上的人工智能,而人工智能屬于數據挖掘大類中的一個領域,是其發展的方向。隨著科技的進步,一方面,一些原來需要人工完成的工作開始被機器替代,這些崗位隨之逐步消失,退出歷史舞臺,如信審員;另一方面,新的技術帶來新興產業,創造出新的技術崗位,如數據分析師。公安高校應及時調整培養方案,開設相關專業課程,跟隨時代步伐,培養與時俱進的創新性人才。
隨著金盾工程二期的實施,復雜而龐大的公安應用系統全面投入使用。公安云平臺的搭建,八大資源庫和自主開發的一些小型公安業務庫內的數據量日益增多,使得公安大數據的挖掘、分析和應用迫在眉睫。公安網偵、技偵、情報等多個業務崗位的工作都與數據的挖掘與分析密切相關。
數據挖掘是結合數據庫技術、統計學、機器學習、神經網絡、知識系統、信息檢索、高性能計算和可視化等多學科知識的交叉學科[14],其先修課程有概率論與數理統計、數據結構、數據庫原理、離散數學等。
以中國人民公安大學為例,數據挖掘課程一般開設在研究生一年級下學期,開課對象是網絡安全與執法專業的學生,選課人數基本在15~20人,實行小班授課。數據挖掘課程不指定教材,以數據挖掘和數據倉庫為主要內容,講述如何實現數據挖掘的各類主要功能、挖掘算法和應用,包括如何構建數據倉庫,如何計算數據立方體,如何進行數據預處理、分類與預測、聚類分析、關聯分析,進而培養學生數據分析和處理的能力。數據挖掘課程學時32,教學時數具體分配見表1(無實驗課時)。

表1 數據挖掘研究生專選課學時分配
數據挖掘是一門與時俱進的課程,隨著科技的創新發展,一些算法在不斷地被改進,經典算法的基本思想需要更新,但主流的改進才是最新的思路。數據挖掘發展到現在,數據量級達到了PB甚至ZB,數據類型開始多樣化,如數據流、序列、圖、時間序列、符號序列、生物學序列等,經典算法無法對這些新型的數據進行處理,因而產生新的大數據分析技術。此外,數據挖掘課程的經典書籍內容仍停留在對文本、數字、圖像、視頻等數據的挖掘和處理上。
數據挖掘有3個研究方向:①從數據庫的角度出發,因為數據挖掘的發展是數據庫技術自然演化的結果;②從統計學角度出發,因為對數據挖掘來講,從一系列數據中挖掘出有用的信息,這本身就是一個統計的計算,也就是概率的問題,因此從統計學角度出發也是當前數據挖掘研究的一個熱門的方向;③從機器學習的角度出發,機器學習再繼續研究就是人工智能。作為這些課程的綜合和交叉,數據挖掘顯然是個理論體系,數據挖掘的每個處理過程都包含從統計學、機器學習、神經網絡、模式識別、知識庫系統、可視化等學科領域汲取的知識。此外,這些學科領域也需要從不同角度關注數據的分析與理解,這種學科交叉融合帶來的良性互動,使得數據挖掘注定是一個不斷更新和發展的知識匯聚、切合社會需求的學科方向。
目前,公安院校數據挖掘課程的講解主要采用課堂教學的方式,沒有設置實驗操作課時,考核形式仍然采用試卷或者論文形式:試卷考核形式無法體現對算法功能的掌握和對數據挖掘幾大步驟的理解和應用;論文形式過于片面化,學生一般都會針對分類或者聚類的某一個算法的改進進行綜述,且論文內容通常比較空泛,有抄襲現象,達不到科研的水平。
隨著公安大數據技術的應用,業務崗位對于公安數據的應用和分析要求越來越高,對大數據分析的人才需求也越來越多。數據挖掘課程應在原有基本概念和技術的基礎上,適時拓展教學內容到大數據挖掘技術上,完成主流技術在校園內的普及和講解。
計算機專業本科生的課程設置已經包含計算機科學與技術專業相關理論體系,到研究生階段應該有所提升,專業課內容應更能體現研究價值,以幫助學生完成與之相關聯的科學研究。數據挖掘的方法更適用于實際應用,例如公安院校應該加入在公安業務中會用到的數據分析和可視化的軟件使用,而數據挖掘的三個研究方向是在基本方法掌握的基礎上研究算法改進的可能。
大數據挖掘已經是潮流,我們需要在授課時添加大數據分析技術,學生能夠熟悉常用的數據分析工具,可以根據業務需求完成數據分析流程;能掌握常用數據分析平臺的配置、管理及維護工作。在學生確定方向后,可根據興趣選擇更深層的點進行研究,最終達到可以針對實際問題完成建模、設計合理算法的目標。
針對數據挖掘課程知識難度大的問題,本文提出可以降低對實現經典算法的要求,學生只需理解經典算法的基本思路,在理解的基礎上學以致用,能夠在相關數據分析工具中實現算法,不要求專門用代碼來實現。
本來程序代碼的講解就比較枯燥,學生一開始還有興趣,一旦涉及代碼,就有可能適得其反,況且對經典算法的改進已經很多,如果學生真的有興趣,可以自己去研究如何改進代碼,而不需要在課堂上做講解,只需做好引導,告訴學生如何查文獻、做研究即可。目前比較流行的幾類數據分析工具基本上都包含了對經典算法的實現,學生只要進行簡單的拖拽、設置參數變量就可完成對經典算法的套用,非常方便。將講解代碼的時間轉移到如何在數據挖掘工具中實現算法,既形象、可操作性又高,教學效果會更優。
筆者在課堂上發現,公安院校的學生更注重對口公安業務的實踐,研究生做科研也都在公安技術方向上。數據挖掘課程應多與公安業務相結合,以公安實際案例數據來完成數據挖掘幾大步驟的講解,教學效果最好。
例如,以網絡賭博案件為例,對數據挖掘中關聯分析的幾大步驟逐一說明:①數據準備階段,即調取資料,分析銀行交易流水,抽取有用的數據字段如付款方賬號、收款方賬號、交易時間、交易金額等;②數據處理階段,即清理入庫階段,包括對交易時間進行處理,統一來自各銀行數據的格式,將日期與時間分離的雙字段合為單字段,統一為14位的標準文本格式,還包括交易方向的處理,統一使用“借、貸”標志字段來表示資金的流向,在金額中去掉正負,便于以后的計算;③數據整理階段,為加快可視化展示速度而進行的數據前期處理階段,可以對發生交易的實體先進行金額匯總,還可以進行數據庫層面的數據分析,如對時間進行處理,可以按時間段進行數據匯總,顯示出交易頻繁的時間段,對賬戶存留資金進行預估,為今后的資金凍結時間提供參考依據;④關聯分析階段,包括實體連接定義、雙向關聯拓展、過濾法分析、匯報圖與分析圖展示;⑤決策支持階段,即對賬戶定性,找出頂層賬戶及其活動規律,分析資金凍結的最佳時機,減少損失。
針對數據挖掘課程缺乏實驗平臺的問題,筆者提出在不斷積累中,創建公安院校專屬模擬案例事例庫,用多元化的案例事例數據來驗證數據挖掘算法的效果,展示數據分析的結果,提高數據挖掘課程的可操作性,增加學生的學習興趣。
在創建模擬案例事例庫的同時,結合大數據分析技術,建設數據挖掘與大數據分析實驗室,與數據挖掘授課內容相對應,基于案例事例庫開設實現數據挖掘算法的實驗課程,利用數據挖掘算法實現數據分析的實驗課程,以及利用可視化工具完成數據關聯關系展示的實驗課程等。
數據挖掘與大數據分析實驗室的建設,可以幫助學生加深對數據挖掘和大數據知識的理解,協助教師完成數據挖掘相關實驗內容,方便學院建立數據挖掘與大數據分析人才培養體系。
根據《教育部關于公布2015年度普通高等學校本科專業備案和審批結果的通知》(教高函〔2016〕2號),新增“數據科學與大數據技術”專業。北京大學、對外經貿大學、中南大學首批獲得招生資格。教育部發布“《普通高等學校高等職業教育(??疲I目錄》2016年增補專業”,其中包括“大數據技術與應用”“商務數據分析與應用”。
由此可見,數據挖掘與大數據分析技術的結合成為必然趨勢,公安院校的數據挖掘課程改革可以朝著這個方向進一步探討,為人才培養助力,促進學科發展。
[1]鄭廷, 張云濤. 基于領域本體的數據挖掘技術在賄賂犯罪偵查中的應用[J]. 中國檢察官, 2016(3): 55-57.
[2]楊雁瑩. 關聯規則挖掘在重點人口管控中的應用[J]. 福建電腦, 2016(1): 40-41.
[3]蔡霖翔. 網絡詐騙案件涉案人群智能分析[EB/OL].[2017-05-30]. http://cpfd.cnki.com.cn/Article/CPFDTOTALJSAQ201610001049.htm.
[4]呂雪梅. 美國犯罪情報預測分析技術的特點: 基于蘭德報告《預測警務》的視角[J]. 情報雜志, 2016, 35(7): 7-12.
[5]陳鵬, 瞿珂, 胡嘯峰. 犯罪情報分析中的數據挖掘應用[J]. 計算機系統應用, 2017, 26(2): 249-253.
[6]閆密巧, 過仲陽, 任浙豪. 基于聚類關聯規則的公交扒竊犯罪時空分析[J]. 華東師范大學學報(自然科學版), 2017(3): 145-152.
[7]李海林. 大數據環境下的數據挖掘課程教學探索[J]. 計算機時代, 2014(2): 54-55.
[8]張艷. 大數據背景下的數據挖掘課程教學新思考[J]. 計算機時代, 2014(4): 59-61.
[9]黃艷梅. 大數據數據存儲與挖掘算法的教學改革分析[J]. 電腦迷, 2016(11): 69-69.
[10]張云春, 薛崗, 何婧, 等. 基于MOOC嵌入式教學的數據挖掘教學改革初探[J].計算機教育, 2015(13): 39-42.
[11]徐金寶. 對應用型本科生開設數據挖掘課程的嘗試[J]. 計算機教育; 2007(14): 27-29.
[12]黃嵐. 數據挖掘課程實踐教學資源庫建設[J]. 計算機教育, 2014(12): 89-92.
[13]Han J W, Kamber M, Pei J. 數據挖掘: 概念與技術[M]. 3rd ed. 范明, 孟小峰, 譯. 北京: 機械工業出版社, 2012.
[14]王珊, 王會舉, 覃雄派, 等. 架構大數據: 挑戰、現狀與展望[J]. 計算機學報, 2011(10): 1741-1743.