何苑,郝夢巖
(長治學院計算機系,山西長治046011)
?
基于自然語言處理的計算機專業數學課程教學研究
何苑,郝夢巖
(長治學院計算機系,山西長治046011)
針對計算機專業相關數學課程教學中存在的學生學習難度大、興趣不高的問題,從數學方法在自然語言處理方面的應用入手,討論了將相關數學概念、方法與應用相結合的教學方法。教學實踐表明,口述方法可激發學生學習興趣,改善教學效果。
計算機專業;數學課程;自然語言處理;推薦系統;教學研究
計算機科學與技術的相關專業基礎課程中有多門數學基礎課程,如高等數學Ⅰ、高等數學Ⅱ、線性代數、概率統計及離散數學等,學生在這些課程的學習過程中普遍存在學習難度大、興趣不高的問題。學生只有在進入研究生階段的學習或在工作當中才逐漸體會到數學作為一種工具的作用。如何在有限的課時內,既做到數學抽象思維能力的培養又能和專業應用較好地結合,引入難易復雜程度適中而且學生易于理解的應用問題,一直是相關數學課程教學中的難點。而計算機科學是一門從實踐中發展提煉出來的學科,自然語言處理作為其中的研究方向之一,包含許多以這些數學概念和方法為基礎的相關內容。
針對上述問題,文章從自然語言處理方面的相關研究入手,把這些課程中包含的如線性代數中的“向量計算”、概率論中的“條件概率”、離散數學中“圖論”、“布爾代數”等基本內容與自然語言處理領域中的應用聯系起來[1],加深學生概念理解的同時,培養其理論聯系實際的能力,激發其學習興趣。同時在地方性高校向應用型大學轉型過程中,如何將應用和理論的有機結合的課程教學改革探索,具有十分重要的現實意義[2]。
2.1推薦系統和向量計算
在線性代數課程中,通過向量概念和各種定理的學習,要求學生掌握基于向量運算的線性方程組的求解方法,并在隨后的數值分析課程中學習了各種求解線性方程組的近似算法。學生在學習的過程中往往局限于對各種定義定理的記憶,并不能很好理解這些定義和定理在實際應用中的意義。而在計算機應用的研究中存在大量相關的應用,例如圖形圖像處理中特征值和特征向量的運用、向量計算機的研制等,在自然語言處理領域,許多應用問題都可以轉化成對向量的處理。
在移動互聯普及應用的今天,推薦系統已經融入了學生的生活當中,作為一個成熟商業系統的標準配置之一,也是學生日常接觸較多非常容易理解的一個應用[3]。通過推薦系統,學生可以找到和自己興趣相同的人群,或者找到適合自己的書籍、音樂、電影等各種產品。

圖1 推薦系統通用模型
推薦系統的通用模型如圖1所示,各種推薦系統的基礎是各類對象的相似性,這種相似性既可以是指用戶已購買產品和其他未購買產品的相似性,也可以是與其他用戶興趣品味的相似性。在將對象進行向量化表示后,可以通過對向量距離的度量來進行計算。基于用戶相似度的算法中,用戶的屬性可以用一個特征向量來表示,特征向量中元素的值可以用用戶對已購買商品的評分來表示,而未購買商品則可以表示為0。用戶相似度計算轉化為代表用戶屬性的特征向量相似性的計算。簡單的計算向量距離的方法有標準化歐式距離和表示兩個向量相似程度的余弦夾角[4]。
2.2圖論和網絡爬蟲
在離散數學課程中,要求學生理解許多圖論方面的相關定義和定理,掌握用各種矩陣表示圖的方法,并學習一些特殊圖如歐拉圖、漢密爾頓圖的判定定理。同時在數據結構課程中對圖的實現和遍歷做了進一步的學習。在這些學習的過程中,學生往往側重于對定義定理的記憶,對于其在實際生活中的應用并不是特別的清楚,因此影響了學習的效果。

圖2 反映頁面鏈接關系的圖
谷歌、百度等搜索引擎是學生在學習生活中使用最多的一種互聯網應用,其中就可以看到圖論的應用。要通過搜索引擎在龐大的互聯網上快速找到相關資源和內容的鏈接和頁面,首要對所有網頁進行搜集。負責該基礎性工作的程序是網絡爬蟲,它是基于圖論中的基本原理進行工作。網絡爬蟲在上萬臺通過高速互聯網絡連接的集群服務器上運行,完成對互聯網頁面的采集工作。在對如圖2所示的由頁面鏈接關系構成的圖進行遍歷時按其訪問順序的不同可分為寬度優先遍歷和深度優先遍歷兩種遍歷方法。
為了在有限的時間內采集盡可能多的重要頁面,負責完成待下載網頁優先級排序的調度系統就是基于這兩種方法的特點實現的[5]。首先從網站設計的特點來說,重要的網頁與首頁的距離較普通網頁更近一些,從這一點出發采用寬度優先遍歷更容易抓取到重要頁面。在圖2中自頂向下頁面的重要性逐級下降,因此頁面采集的順序應為1、2、3、4、5、6、7、8、9。但是從數萬臺機器組成的分布式的爬蟲結構,采用深度遍歷的方式能有效的能有效的降低網絡通信成本,一臺或幾臺服務器針對一個網站的進行專門下載。例如在圖2所示結構中根據深度優先遍歷由第1臺服務器負責2、5、8節點,第2臺服務器負責節點3、6、9,第3臺服務器負責節點4和7。上述遍歷策略通過不同的調度算法來實現。通過與一些實際問題的結合能使學生對于各種方法的特點及在實際應用中的效果有更好的了解。
2.3文獻檢索和布爾代數
在布爾代數的學習中,定義了對0和1兩個元素的與、或和非三種運算,由于過于簡單使得學生對于其解決問題的有效性有很強的質疑。但在實際應用中,該簡單的理論卻非常有效的解決了許多應用問題[6]。例如布爾代數將所有的數學運算通過轉換成二值的布爾運算,通過開關電路實現,使得布爾代數成為數字電路的理論基礎。同時在文獻檢索領域基于索引的布爾運算可以實現高效的查詢。
在文獻檢索領域,可以通過判斷用戶輸入的關鍵詞是否在文獻中出現,給予該文獻一個邏輯值0(不出現)或1(出現)。當考慮多個關鍵詞時,查詢可以通過二值的布爾運算進行實現。基于索引結構可以加快上述運算的速度,其中最簡單的索引結構由關鍵字及其是否出現在某篇文檔中,出現記為1,未出現記為0。這樣索引就表示為一個超長的二進制串,串的長度由文檔的個數決定,而查詢就變成了兩個二進制串的布爾運算。
2.4網絡垃圾檢測和條件概率
在概率論與數理統計課程的教學中,學生往往停留在對概率、隨機變量、參數估計和假設檢驗等各種定義和定理學習中,雖然有舉例說明各種定義定理的使用,但由于專業相關性的缺乏,效果并不明顯。在自然語言處理領域,基于統計的方法得到了廣泛的應用并取得了非常好的效果。其中基于條件概率的樸素貝葉斯方法,由于其簡潔性在分類問題中常作為一種基準方法被廣泛采用。網絡垃圾的檢測如垃圾郵件檢測、垃圾博客檢測[7]、垃圾網頁檢測等作為二分類問題是非常好的實際應用。
樸素貝葉斯分類法[8]是基于條件概率的分類方法,使用樸素貝葉斯分類法進行按類別分類,其中二分類是最簡單的分類。假定要決定樣本X屬于類別C1還是C2,首先在訓練集計算類別C1和C2的各種特征的先驗概率,在條件獨立性假設的條件下通過全概率公式計算最大后驗概率概率P(C1|X)、P (C2|X),即分別計算出X屬于不同類別的概率,如果P(C1|X)>P(C2|X),則樣本屬于類別C1,否則屬C2。圖3描述了垃圾博客檢測中樸素貝葉斯方法的訓練和檢測過程。
文章從自然語言處理方向應用的角度出發,通過在相關課程中引入推薦系統、搜索引擎、文獻檢索和網絡垃圾檢測中數學知識的應用,使學生對相關內容有了更好的理解。通過讓學生在學習中體會數學作為一種工具在實際中的應用,特別是在計算機領域中解決實際問題中的應用,既可以提高學生理論與應用結合的能力,又能提高學生的專業素養,激發學生的學習興趣,從而改善學習的效果。

圖3 基于樸素貝葉斯分類方法的訓練及檢測過程
[1]D.Manning,Hinrich Sch tze著.苑春法等譯.統計自然語言處理基礎[M].北京:電子工業出版社, 2007,(4):330-354.
[2]鐘秉林.中國大學改革與創新人才教育[M].北京:北京師范大學出版社,2008,(1):1-5.
[3]孟祥武,胡勛,王立才,張玉潔.移動推薦系統及其應用[J].軟件學報,2013,24(1):91-108.
[4]Haralambos Marmanis,Dmitry Babenko著,陳剛譯, Algorithms of the Intelligent Web[M].北京:電子工業出版社,2011,(11):74-80.
[5]李曉明,閆宏飛,王繼民.搜索引擎—原理、技術與系統[M].北京:科學出版社,2008,(4):45-47.
[6]吳軍.數學之美[M].北京:人民郵電出版社,2012,(6):81-87.
[7]何苑,譚紅葉.基于多結構特征的垃圾博客識別研究[J].計算機工程與設計.2010,(22):4932-4935.
[8]Jiawei Han,Kamber[M].范明,孟小峰,譯.數據挖掘:概念與技術.北京:機械工業出版社, 2007,200-204.
(責任編輯張劍妹)
TP301
A
1673-2014(2016)02-0086-03
山西省高校科技開發項目(20121117);長治學院教學研究項目(2011205)。
2016—02—24
何苑(1981—),男,山西新絳人,講師,碩士,主要從事中文信息處理和數據挖掘研究。
郝夢巖(1979—),女,山西武鄉人,講師,碩士,主要從事網絡協議安全研究。