摘 要:為解決數據挖掘課程教學過程中,學生理論知識儲備與實際工作應用脫節的問題,設計演示型、驗證型、案例型、項目參與型四個層次的實踐教學體系。在項目參與型實驗中,要求學生基于CRISPDM模型開展數據挖掘項目,針對具體的業務背景,依次開展提出問題、分析問題和解決問題的全過程。
關鍵詞:數據挖掘;實踐教學;項目驅動;CRISPDM模型
在大數據時代,社會各行各業都需要大量數據分析人才。許多院校正在積極探索數據分析人才的培養模式,在信息類、經管類專業學生的本科階段開設“數據挖掘”課程,培養學生數據分析和處理的能力。然而,數據挖掘課程仍存在以課堂教學為主,沒有設置實驗課時或實驗課時設置過少等問題,使得學生難以在有限的教學時間內掌握數據挖掘項目所必備的知識和技能,出現“理論知識儲備”與“實際工作應用”脫節的問題。
目前,針對數據挖掘課程的教改探討有:黃嵐提出通過建設開放數據挖掘實踐教學資源庫提升教學效果,激發學生的學習興趣。白楊依據應用型本科院校人才培養目標需求,將傳統教學法與現象教學法、翻轉課堂教學法相結合,提高學生的學習興趣和實踐能力。趙曉凡針對公安高等院校學生就業狀況和數據挖掘課程實際教學效果,提出結合公安大數據業務、重點介紹數據挖掘算法的應用、案例驅動教學等三點改革措施。胡敏指出商務智能實踐課程需要讓學生實現由問題找方法,進而深入理解方法的過程。
南京信息工程大學信管專業依據專業發展內容創建了“大數據分析”專業方向,培養能做業務咨詢、商務智能的數據分析人才。在“數據挖掘”課程的教學過程中,總結出“重方法,輕算法;重應用,輕研究”的教學理念,培養學生數據分析能力、文字表達和人際溝通等能力。
一、 實踐教學思路
在實驗課設計過程中,根據信管專業人才培養的特點和要求,從企業大數據分析的實際應用出發,培養學生將實際的商業問題轉化為數據挖掘目標、理解和收集數據、應用數據挖掘工具建模、評估模型以判斷是否符合商業目的,并將發現的結果組織成可讀文本的能力,使學生的理論知識和實踐技能得到共同發展。
在此基礎上,從系統演示、軟件模擬、案例教學、項目驅動四個方面開展實踐教學,設計演示型、驗證型、案例型、項目參與型等四個層次的實踐教學體系(見表1)。在鞏固和理解理論知識的基礎上,培養學生的分析能力、動手能力和綜合運用知識的能力,解決教學中的“理論知識”與“實際動手”、“算法設計”與“工具實用”的兩個嚴重脫節的問題。
設計數據挖掘軟件認識的演示型實驗,對數據挖掘軟件的基本操作和環境進行講解,使學生對數據挖掘軟件有一個初步的認識。設計數據預處理、關聯規則挖掘、分類挖掘和聚類挖掘幾個驗證型實驗,實驗和數據挖掘的理論知識模塊一一對應,使得學生夯實理論知識。通過案例型實驗使學生掌握數據挖掘的方法論,初步理解數據挖掘過程,為學生獨立完成數據挖掘項目打好基礎。通過項目參與型實驗使學生深刻理解數據挖掘的全過程。
項目參與型實驗采用項目的形式,將學生分為若干項目組,將相對獨立的數據挖掘項目交予學生獨立完成。從業務目標的確定、數據的處理、算法的選擇,到模型的評價、商業的部署,都由學生具體負責。選題主要結合學院教師現有的縱向和橫向科研項目,由教師擬出一個或者多個可供選擇的課題,同時也鼓勵學生根據自己的想法并在教師的幫助下擬定課題。
二、 項目驅動的“數據挖掘”課程實踐教學設計
跨行業數據挖掘標準流程CRISPDM(crossindustry standard process for data mining)是業界認可的用于指導數據挖掘全過程的方法。通過近幾年的發展,CRISPDM模型在各種KDD過程模型中占據領先位置,2014年統計表明,采用量達到43%。
因此,在項目驅動的“數據挖掘”課程實踐教學設計中,要求學生基于CRISPDM模型開展數據挖掘項目,針對具體的業務背景,依次開展提出問題、分析問題和解決問題的全過程。
(一) 業務理解
在開展數據挖掘項目之前,先要確定業務目標,確定想通過數據挖掘項目達到什么目標。在這個階段,需要學生收集有關業務情況的背景信息,從應用角度討論具體的業務目標,并把這些理解轉換成數據挖掘問題的定義;最后確定從業務角度判定的數據挖掘成功與否的標準。業務目標的定義非常重要,如果開始方向錯了,那么無論模型多么準確都只能得出錯誤的結論。
(二) 數據理解
學生在數據理解階段需要理解項目相關的數據資源以及這些資源的特征。如購物籃分析項目中需要確定:哪些數據可以用來進行購物籃分析和識別客戶群體的購物偏好?這些數據是否已經獲得?還有哪些數據資源還沒有獲得,用什么方法可以得到這些數據資源?獲得所需數據資源之后,學生用表格、圖表和其他可視化工具探索數據,為關鍵屬性計算基本的統計數據,并對數據資源的質量進行評估。
(三) 數據準備
數據準備階段要求學生選擇和數據挖掘項目相關的數據,并對數據進行預處理,為建模做好準備。由于現實世界中的數據不可避免地存在不完整、不一致和包含噪聲等情況,因此需要對數據進行數據清理、數據集成等預處理工作,從而提高數據挖掘的質量。
(四) 建模
學生根據數據挖掘項目的目標和數據的實際情況,選擇合適的算法,設置合理的參數,構建模型。建模的過程通常情況下要進行多次迭代,可能會進行算法的調整、參數的調整,甚至是重新準備數據。
(五) 評估
在這個階段,評估數據挖掘的結果是否明確,是否滿足之前確立的業務目標。為了保證項目評估的客觀性,評估工作可以交叉進行,每一個項目組對另外一個項目組的數據挖掘結果進行評估。
(六) 部署
這個階段是數據挖掘結果的實際應用階段。項目組要基于數據挖掘的結果設計策略進行模型的應用及預演。如可以基于購物籃分析得出的關聯規則設計交叉銷售策略、貨架陳放方案等。
三、 基于CRISPDM模型的零售公司客戶價值提升應用
以FoodMart公司的客戶價值提升項目為例,闡述基于CRISPDM模型的數據挖掘項目全過程。數據挖掘工具使用IBM SPSS Modeler,它是一款基于CRISPDM模型的商業數據挖掘軟件。
(一) 業務理解
1. 業務背景:FoodMart公司在美國、加拿大、墨西哥的連鎖店銷售商品,目前面臨來自其他零售公司的競爭日益加劇。公司老板提出一個解決方案是培養現有客戶關系,以便最大化現有客戶的價值。
2. 業務目標:通過提供更好的推薦增加交叉銷售的數量;通過提供更個性化的服務提高客戶的忠誠度。
3. 數據挖掘目標:基于客戶購物數據識別商品之間的關聯規則;基于客戶購物數據和客戶人口統計數據確定不同的客戶群體,并識別客戶群體的購物偏好。
(二) 數據理解
FoodMart數據庫中有食品連鎖店經營業務所產生的數據,本項目中需要的客戶數據、購物交易數據、產品數據都可以在數據庫中找到。IBM SPSS Modeler的數據審核、表格等節點可以用來對數據資源進行探索性分析和質量評估。
(三) 數據準備
以識別商品之間的關聯規則為例,闡述數據準備工作。
1. 不同數據源數據的合并
表sale_fact_1998(1998年交易數據表)中只有產品號字段,不利于用戶對挖掘出的關聯規則的理解,因此需要再添加表product(商品列表),從而獲得產品名稱。在IBM SPSS Modeler中添加兩個數據庫源節點,分別導入表sale_fact_1998和表product,并通過合并節點合并和過濾數據。
2. 挖掘算法所需新字段的生成
SPSS Modeler軟件中關聯規則模型使用的數據可能是事務處理格式,也可能是表格格式。事務處理格式數據對于每個交易或項目具有一個單獨的記錄,要求有一個交易標識字段TID。交易數據表sale_fact_1998是事物處理格式的,但它缺少交易標識字段TID。因此,根據time_id字段和customer_id字段生成交易標識字段TID,將同一個客戶在同一個時間的紀錄視為一個交易。
3. 字段的過濾和重排
用過濾器節點去掉建模不需要的字段,用字段重排節點調整字段的前后順序。
(四) 建模
選擇Aprior節點,設置規則的最低條件支持度和最小規則置信度,執行數據流。從使用默認的參數開始挖掘,不能找到有效的關聯規則,調整參數重新挖掘,仍不能得到理想的挖掘結果。結果發現在原始層數據中進行挖掘,得不到理想的挖掘結果。
重新回到數據準備節點,對數據進行泛化,將商品的低層概念(product)用對應的高層概念(product subcategory或product category等)替換,挖掘高層概念的關聯規則。在商品的高層概念層次上挖掘,可以得到較好的結果。
(五) 評估和部署
在商品的高層概念上挖掘,得到商品之間的關聯規則。使用這些規則設計交叉銷售策略,從而提供更好的商品推薦,增加交叉銷售的數量。
四、 結語
在數據挖掘課程的教學過程中,實行基于項目實踐的綜合實習,可以使學生能夠從工程的角度,對數據挖掘的全過程有深入地了解,理論知識和實踐技能得到共同發展,解決“理論知識儲備”與“實際工作應用”脫節的問題。
參考文獻:
[1]白楊.應用型本科“數據挖掘”課程的構建研究[J].無線互聯科技,2018(5):95-96.
[2]趙曉凡.公安高等院校數據挖掘課程教改研究[J].計算機教育,2018(1):39-42.
[3]黃嵐.數據挖掘課程實踐教學資源庫建設[J].計算機教育,2014(12):89-92.
[4]胡敏.商務智能實踐教學內容設計與方法研究[J].教育現代化,2016,3(23):127-128.
[5]百度百科.CRISPDM[EB/OL].[2018-5-9]https://baike.baidu.com/item/CRISPDM/7002457?fr=aladdin.
[6]IBM SPSS Modeler 18.0建模節點[EB/OL]. [2018-5-22]. http://bbs.pinggu.org/thread-4463720-1-1.html.
作者簡介:朱慧云,江蘇省南京市,南京信息工程大學管理工程學院。