范彥勤 覃楊森 史旭明 袁媛
[摘 要] 《機器學習》教學內容理論深、算法多、難度大,難以理解,造成學習興趣難以維持和提高,采用案例化的教學方法是改善這一困境的有益嘗試。該過程可讓學生從實際場景入手,由淺入深,逐步引導學生解決問題,既鞏固已學理論知識,又讓學生掌握新課程內容,激發學生的積極性和參與度。給出一個貝葉斯分類器案例教學過程,實踐證明,該方法能夠有效地幫助學生掌握貝葉斯分類器的分類過程及實際應用現狀,并為他們以后的工作打下基礎。
[關鍵詞] 機器學習;案例教學;貝葉斯分類器
[基金項目] 2019年度桂林航天工業學院教改項目“大數據背景下機器學習課程建設研究”(2019JB28)
[作者簡介] 范彥勤(1988—),女,河南駐馬店人,碩士,桂林航天工業學院理學院助教,研究方向為貝葉斯網絡及概率圖模型;覃楊森(1986—),男(壯族),廣西來賓人,碩士,桂林航天工業學院計算機科學與工程學院工程師,研究方向為計算機軟件技術。
[中圖分類號] G642 ? ?[文獻標識碼] A ? ?[文章編號] 1674-9324(2020)43-0109-02 ? ?[收稿日期] 2020-03-23
機器學習作為人工智能發展最快的分支之一,其理論和方法已被廣泛應用于各領域。它是一門多領域交叉學科,學習算法多而抽象,不易理解掌握,容易導致教學理論與實踐脫節[1-2]。同時大部分教材及參考書,包括很多的教學過程,重在抽象概念和課程理論的講解,缺乏結合案例。
一、原理教學設計
(一)貝葉斯分類器的信用評估原理
貝葉斯分類器[3-4]的信用評估原理是在個人信用的先驗概率基礎上,利用貝葉斯公式計算出類別的后驗概率,將后驗概率最大的類作為信用評估所屬的類。
(二)構造樸素貝葉斯分類器(NB)
樸素貝葉斯分類器是最簡單的貝葉斯分類器,具有高效率和良好分類精度的優點。該分類器將類變量作為父節點,屬性變量作為子節點,并假定子節點之間相互獨立。
(三)結合案例建立個人信用評估模型
1.采集獲取個人信用評估數據,對其預處理。
2.利用訓練樣本在NB分類器上構建模型,具體如下:(1)根據貝葉斯分類器結構學習算法,得到最優貝葉斯網絡結構;(2)學習貝葉斯分類器的條件概率分布。
對于樸素貝葉斯分類器(NB),由于該分類器的網絡圖中各指標變量間是相互獨立的,則彼此之間不再需要進一步的結構學習,只需要估計出指標變量的條件概率即可。一般采用頻率估計的方法對離散型指標變量進行估計;對于連續屬性變量一般把正態分布設定為其分布函數。
3.分類測試集。基于已訓練好的貝葉斯分類模型進行分類。
4.輸出分類結果。
二、案例應用
(一)樣本數據收集
給定數據為UCI[5]上德國標準個人信貸數據,該數據庫主要用于評估個人信用的研究。該樣本數據共1000條,信用結果分好和壞兩種,其中評估結果為好客戶700條,壞客戶300條。同時每個樣本中有21個變量,20個為屬性指標變量,1個為類變量。
(二)數據預處理
樣本數據20個屬性變量中2-5-8-11-13-16-18為連續屬性,其余為離散屬性。屬性變量類型不統一,使用前需將數據全部轉化為離散型。處理方法:對于離散型數據,保留其實際數值;對于連續型數據,需將其轉化成離散型數據。此外,需對各指標數據進行標準化處理。
三、應用分析與總結
模型實現方法比較多,大家可以使用Python,C,MATLAB等編程語言,下面我們提供具體算法如下:
1.輸入訓練樣本,定義類變量和屬性變量。
3.分類測試。
我們采用五折交叉驗證方法進行計算,用Matlab編制并運行了NB的分類程序,各類的先驗概率按訓練樣本中的各類占訓練樣本總數的比例計算。其中定義第一類錯誤為將壞客戶錯判為好客戶的比率;第二類錯誤為將好客戶錯判為壞客戶的比率,總分類錯誤為總分類錯判人數占樣本總人數的比率。最終實現分類結果為:第一類錯判比率0.1357;第二類錯判比率0.4833;總錯判比率0.2400。通過引入信用評估案例,學生學習主動性高,結合之前所學的編程及建模思想,較好的掌握了貝葉斯分類器的分類應用,可有效推廣至其他應用領域中。
四、結束語
機器學習作為一門數學理論深且實踐操作難的課程,如何將抽象、枯燥的理論知識簡單有效地傳授給學生,顯得尤為重要。本文以教學目標為出發點,將實際應用案例引入機器學習教學中,可以讓學生解決實際問題的過程中。
參考文獻
[1]李勇.本科機器學習課程教改實踐與探索[J].計算機教育,2015(13):63-66.
[2]閔鋒,魯統偉.《機器學習》課程教學探索與實踐[J].教育教學論壇,2014(53):158-159.
[3]周志華.機器學習[M].北京:清華大學出版社,2018:13-16.
[4]張連文,郭海鵬.貝葉斯網引論[M].北京:科技出版社,2006:80-85.
[5]Asuncion A,Newman D J.UCI Repository of Machine Learning Databases[DB/OL][http://www.ics.uci.edu/~mlearn/MLRepository.html].Irvine,CA:University of California,Department of Information and Computer Science,2007.