譚征 孫紅霞 王立宏 任滿杰


摘要:分析數據挖掘原理與算法課程在教學中存在的弊端,并基于數據挖掘課程的本質,闡述在以培養應用型人才為主的大學中,如何以實例為主線,貫穿教學過程,開設本課程的,思路和做法。
關鍵詞:數據挖掘原理與算法;實例;教學探索
0.引言
隨著經濟、科技和信息技術的飛速發展,特別是網絡技術的發展,數據的產生和存儲能力有了很大程度的提高。數據挖掘的出現,為人們提供了一條解決“數據豐富而知識貧乏”困境的有效途徑Ⅲ。所以很多高校,包括世界上一些著名高校都開設了數據挖掘課程。課程的基礎理論部分一般包括數據預處理、關聯規則、分類、聚類、時間序列挖掘、Web挖掘等內容。該課程使學生學會分析研究數據挖掘中數據預處理、常用算法、結果的可視化等技術,并培養學生的數據抽象能力,幫助學生形成科學思維和專業素養,使他們畢業后在就業上有更多的選擇。
筆者將探討基于實例教學的數據挖掘課程的教學內容安排,強調淡化學科背景,加強算法的應用性訓練,將實際的例子貫穿于教學中,并重新組織授課內容、安排實踐環節,教會學生學以致用。
1.教學現狀分析
1.1課程本質
數據挖掘原理與算法涉及的學科領域很寬泛。其最終目的是在數據中挖掘出可供人們利用的知識和信息,因此數據挖掘技術要從數據庫技術、統計學、機器學習、神經網絡、知識系統、信息檢索、高性能計算和可視化等領域汲取營養。另外,每個學科都在進行著日新月異的發展變化,數據挖掘技術遇到的挑戰也為相關學科領域的深入研究提供了新的契機。由于課程難度較大,很多高校把這門課程作為研究生的專業課程,也有院校將此課作為本科生高年級選修課開設腳。但是本科生開設這門課程的普通院校較少,我們能借鑒的教學經驗有限。
1.2數據挖掘課程教學環節的弊端
①某些學校對本科生開設的數據挖掘課程,其教學過程對理論的探討過多,與應用存在距離,沒有體現出這門課程面向應用的特質,缺少對學生工程能力的訓練,存在學生在學了這門課程后不知道能干什么的現象。
②教學形式呆板單一。傳統的教師講、學生聽的教學模式,很難引起學生的探究興趣,不利于發揮他們自身的能動性和創新動機。
2.選擇恰當實例貫穿數據挖掘課程的教學過程
煙臺大學計算機學院所開設的數據挖掘課程在教學上安排了6章內容,涉及3個實例(其中兩個是實際生活中的項目課題):第1個是用于房產信息調查的房產客戶關系管理系統;第2個是用于煙臺大學督評中心評教文本分類的中文文本數據挖掘系統;第3個是用于國家葡萄酒檢測中心的數據分析的葡萄酒成分數據挖掘系統。
2.1房產客戶關系管理系統
在講述房產客戶關系管理系統時內容涵蓋緒論、知識發現過程和關聯規則3章,重點講授內容包括:
(1)數據倉庫。住房管理數據倉庫中的數據是按主題組織的,可從歷史觀點提供信息。數據挖掘技術能按知識工程的方法完成高層次需求,可以發現蘊藏在數據內部的知識模式。挖掘后形成的知識表示模式可為企業決策提供支持。
(2)通過對客戶信息進行分析,闡述關聯規則的參數:support、confidence、expected confidence,并簡單介紹關聯規則中的多維、多層次等拓展知識。
(3)關聯規則挖掘。①講授關聯規則挖掘的Apriori算法;②講述布爾關聯規則的概念,對處理后形成的交易數據庫進行布爾關聯規則挖掘,將問題轉化為尋找以決策屬性為結果的規則;③將關聯規則挖掘應用于客戶關系管理的最終目的是努力將潛在客戶轉變為現實客戶,將滿意客戶轉變為忠誠的終生客戶,提高客戶滿意程度,降低市場銷售及宣傳成本,增加利潤率。
(4)設minsup=10%,minconf=70%。在統計的各類人群中獵取咨詢的渠道主要是雜志、報紙、互聯網和電視。經試驗統計后得到以下有關知識:①滿足age>50 AND職業=“工人”的客戶占所統計總人數的9.7%;其中滿足age>50 AND職業=“工人”AND渠道=“TV”的客戶占92%。②符合學歷=“大專”AND職業=“工人”的客戶占所統計總人數的24.8%,其中滿足學歷=“大專”AND職業=“工人”AND渠道=“newspaper”的客戶占82%。③被統計人群中滿足income=“5000-9000”AND職業=“教師、醫生、公務員”的客戶占所統計總人數的32.7%;其中滿足income=“4000-6000”AND職業=“教師、醫生、公務員”AND渠道=“雜志”的客戶占83%。④被統計人群中滿足學歷=“本科”AND income≥“10000”的客戶占所統計總人數的占11.6%;其中符合學歷=“本科”ANDincome≥“8000”AND職業=“公司經理”AND渠道=“雜志”的客戶占86.5%。
(5)教師要分析Apriori算法的瓶頸和改進,介紹Close算法和FP-樹算法,并且要求學生們掌握這3種經典算法。
2.2中文文本數據挖掘系統
中文文本數據挖掘系統圍繞評教分類模型的建立講述特征選擇和主要分類算法。根據煙臺大學教學督評中心提供的學生對教師的中文評教文本,利用分類的方法找出其評價的傾向性,結合教材,重點講授了以下內容:
1)特征選擇。
①介紹有監督、無監督和半監督的特征選擇方法。②介紹使用分詞軟件后,統計詞頻,去掉小于閾值的低頻詞。③對比詞頻率、IG值(信息增益)、期望值差異對分類結果的影響留取特征詞。
部分數據示例如下:用特征選擇的方法對重要的屬性進行抽取,略去對分類影響不大的屬性,達到降維的目的,把特征選擇作為預處理。我們選用517條主觀評價作為訓練樣本,其中233條留言是一般評價,采用以下3種方式進行特征選擇:詞頻率、IG值(信息增益)、期望值差異。不同方式特征選擇對分類準確性的影響如表1所示。
2)分類。
在介紹常用的分類基礎知識和決策樹、ID3、樸素貝葉斯分類、最近鄰分類算法之后,又介紹了基于潛在語義分析的降維技術,講授了支持向量機(SVM)適用于文本分類的原因。布置給學生的任務是用爬蟲獲取網評,作傾向性分析。
評教文本分類統計后的結論是:將降維技術和支持向量機算法結合在評教模型的建立過程中,研究討論的主要內容有:①各個指標取不同值對分類的影響,這些指標主要集中在特征抽取和選擇、保留詞性和降維維數等幾方面;②對分詞后的文本進行特征選擇,篩去了詞頻數小于4的文本;③降維至30維,并適當設置SVM中的可變參數,找到合適的訓練一測試樣本的比例,最后綜合出一個現有條件下的最佳分類模型。
2.3葡萄酒成份數據挖掘系統
葡萄酒成份數據挖掘系統介紹數值數據的預處理和聚類2章內容。對葡萄酒成份的分析是根據所提供的酒中各成份的含量數據,采用聚類或分類的方法確定某種葡萄酒的種類,比如是紅葡萄酒、白葡萄酒還是甜葡萄酒。圍繞這個問題我們介紹了如下內容:
1)數值數據的預處理。
①介紹葡萄酒中各個屬性的含義和取值范圍;②講授數據的離散化技術,如等深、等寬、聚類技術;③講授本例中使用的m一估值計算對數值屬,1生的離散化技術;④講述本例中如何避免0值出現及去噪聲技術。
葡萄酒中各成份的含量數據如表2所示。
2)聚類。
在介紹聚類的基本知識和常用算法(如k均值、k中心點、DBSCAN技術)之后,講解了:①本課題使用的層次聚類算法。在測試結果時通過測試樣本和分類樣本的不同比例,對結果進行了對比。②講述了用樸素貝葉斯分類計數對這一問題的分類處理,同時對比了聚類和分類算法在同一問題上的結論差異。利用樸素的貝葉斯分類器可以完成預測目標,根據訓練樣本建立分類器,對待測樣本進行預測,準確率可達到90%以上。③引導學生思考對問題的處理可以聯合使用各種算法,并分析各種算法對結果的影響,從而找出解決問題的最佳方案。
2.4利用已知算法和實例講授Web挖掘技術
因特網規模龐大、結構復雜、動態變化性大,蘊含大量的信息。將Web上豐富的信息轉變成有用的知識正是Web挖掘的意義所在。用之前中文文本分類的方法引導學生在一些購物網站中下載對商品評論的中文文本,抽取特征詞,進行傾向性分析,使學生熟悉支持向量機的分類方法,分詞軟件的使用及文本挖掘的整個過程。
3.結語
文章在前期制定應用型本科生數據挖掘課程教學大綱的基礎上,針對數據挖掘課程內容多學科交叉的特點,在教學中提出淡化學科背景,注重算法應用與實踐,以客戶關系管理、葡萄酒數據分析、中文評教文本分類等實例作為授課內容主線,讓實例教學始終圍繞著典型的算法和前沿知識展開的教學方式。在今后的教學工作中,我們還應該不斷站在學科發展的前列,經常更新實例,使其更好地融入教學,將教與學有機統一,取得更好的教學效果。因此我們還有大量的工作需要探索研究。
參考文獻:
[1]宋成,李晉宏,項目驅動的數據挖掘教學模式探討[J],中國電力教育,2011(27):116-177.
[2]劉云霞,統計學專業本科生開設“數據挖掘”課程的探討[J],吉林工程技術師范學院學報,2010(6),20-22.
[3]徐金寶,對應用型本科生開設數據挖掘課程的嘗試[J],計算機教育,2007(7):27-29.
[4]高園園,呂慶文,數據挖掘課程的教學思考[J],醫學信息,2009,22(11):23-24.
[5]譚征,孫紅霞,王立宏,普通院校本科生開設數據挖掘課程的教學研究[J],福建電腦,2011,27(10):38-39.
[6]曾志強,本科數據挖掘教學研究[J],科教文匯(上旬刊),2009(10):26-27.
(見習編輯:劉麗麗)