艾山·吾買爾,買合木提·買買提,汪烈軍
(新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046)
隨著互聯(lián)網(wǎng)技術(shù)和人工智能技術(shù)的普及,尤其是近年來人工智能技術(shù)的迅速發(fā)展,使自然語言處理技術(shù)也成為學術(shù)界和工業(yè)界的熱點研究方向之一,國內(nèi)外許多計算機專業(yè)學位點全部開設(shè)了“自然語言處理”課程。自然語言處理(Natural Language Processing,NLP)是未來所有人工智能技術(shù)的基礎(chǔ)和根本。微軟創(chuàng)始人比爾·蓋茨曾經(jīng)表示:“語言理解是人工智能領(lǐng)域皇冠上的明珠”。隨著人工智能技術(shù)的普及,尤其是深度學習技術(shù)滲透到人工智能領(lǐng)域的各個研究方向,自然語言處理成為全社會熱點之后,學習該課程的學生人數(shù)猛增。隨著社會需求的不斷提高,研究機構(gòu)和企業(yè)對自然語言處理人才的需求也不斷提高,國內(nèi)面向研究生開設(shè)“自然語言處理”課程的高校也越來越多。“自然語言處理”是一門交叉學科,需要掌握數(shù)學、語言、計算機編程、心理學等多個學科的相關(guān)知識[1-3]。在大數(shù)據(jù)和人工智能快速發(fā)展的背景下,如何利用“自然語言處理”課程提高學生對該領(lǐng)域的認識,讓學生掌握理論原理、具備實踐能力,是一項非常具有挑戰(zhàn)性的課題。
新疆大學作為“雙一流”建設(shè)大學,具有計算機科學與技術(shù)一級學科博士學位授權(quán)點,長期以來開展“自然語言處理”課程,培養(yǎng)了不少該方向的高學歷人才。為了適應新的發(fā)展趨勢,在已有的基礎(chǔ)有機融合數(shù)學基礎(chǔ)、機器學習方法、深度學習基礎(chǔ)、自然語言處理基礎(chǔ),對已有教學方案進行改革勢在必行,制定以團隊授課、導師參與、多階段多元化考核方式的案例式教學模式,使得學生掌握理論知識,同時,提高實踐能力。
根據(jù)前期教學情況的分析,對學生后續(xù)研究能力和科研成果的觀察發(fā)現(xiàn),以前的授課模式存在以下問題:
(1)單人授課難以覆蓋全部知識點。因為自然語言處理是交叉學科,研究內(nèi)容多,算法模型多,任務本質(zhì)有差異,所以,任課老師難以深入、全面地講授所有內(nèi)容。雖然大多數(shù)研究人員熟悉基本原理,但是在對每一種任務、方法的細節(jié)之處進行掌握和理解方面可能存在薄弱點,授課過程中可能會弱化對某個部分的深入講解。
(2)學生基礎(chǔ)差異較大。雖然錄取的研究生都超過了招生的分數(shù)線,但是畢業(yè)于不同學校的學生、跨學科的學生在本科階段所學習的相關(guān)課程、編程基礎(chǔ)、外語能力等方面都具有差異,會影響本課程的學習效率。尤其是隨著近年來人工智能技術(shù)越來越受到社會的關(guān)注后,不少學生選擇跨專業(yè)學習計算機科學與技術(shù)專業(yè),雖然也會補學部分課程,但是難以在短時間內(nèi)掌握相關(guān)知識。
(3)課程教學與導師的研究脫節(jié)。選修“自然語言處理”課程的研究生導師一般也會從事相關(guān)研究,導師希望自己的學生能夠很好地學習基礎(chǔ)內(nèi)容,為進一步在具體研究領(lǐng)域的深入打好基礎(chǔ)。自然語言處理的研究進一步細化為詞法句法分析、語義分析、知識表示學習、問答系統(tǒng)、對話系統(tǒng)、閱讀理解等多個細分返崗,每個方向都有不少知識需要學習。在目前的教學模式中,導師不參與課程教學環(huán)節(jié),也不參與考核階段,導致授課教師顧及不到每一名學生的具體方向,只能安排比較籠統(tǒng)的或者同質(zhì)化的大作業(yè)來鍛煉學生能力,課程作業(yè)與導師沒有建立聯(lián)系,學生可能僅是為了任務而獨立完成作業(yè),得不到導師更加細致的指導,可能會出現(xiàn)大作業(yè)流于形式的情況。
自然語言處理是以利用計算機程序模擬人類理解自然語言的過程,根據(jù)專家學者對人類學習和理解語言的認知行為的理解,與計算機程序的運行原理和處理能力結(jié)合提出的相關(guān)經(jīng)驗方法、統(tǒng)計方法的總和[4-6]。目前,自然語言處理的主要研究內(nèi)容為詞法分詞、句法分析、語義分析、文本分類、摘要抽取、機器翻譯、知識挖掘、問答系統(tǒng)、對話技術(shù)等,其中,詞法分詞、句法分析、語義分析等屬于基礎(chǔ)性技術(shù),文本分類、信息抽取、摘要抽取、機器翻譯、知識挖掘、問答系統(tǒng)、對話技術(shù)、閱讀理解等屬于直接應用技術(shù)。對自然語言的處理方法包括基于規(guī)則的方法、基于統(tǒng)計的方法、基于深度學習的方法等;從分析任務方法本質(zhì)來說,可分為序列標注任務、分類任務、端到端的生成任務。
新疆大學“自然語言處理”課程的教學目的是讓學生熟練掌握自然語言處理基礎(chǔ)技術(shù)的原理和實踐能力,熟悉語料庫標注過程,熟練掌握不同的方法和不同性質(zhì)任務的算法,了解不同研究任務的基本原理,熟練掌握該項技術(shù),并以此為目標制定教學內(nèi)容和考試內(nèi)容。
根據(jù)目前存在的問題和技術(shù)發(fā)展趨勢,筆者制定了團隊授課和導師參與的多階段多元化考核的教學模式,達到利用該門課程讓學生學會基本原理和實踐能力的目的,同時,引導導師參與具有針對性知識單元的教學、指導、評價,激發(fā)學生學習的積極性,加強對學生的過程考核,比較全面和客觀地評價學生的真實能力。在新疆大學碩士研究生的培養(yǎng)方案中,本課程具有2學分,每周學習2學時,教學周期為16周,每個階段的學習結(jié)束后,按照教學計劃進行筆試測試或者大作業(yè)評分比例核算最終成績,其中,任意筆試測試中成績低于50分,直接定為不及格。具體如表1所示。

表1 主要教學內(nèi)容設(shè)置及考核方式、考核比例
可以看出,本課程通過多階段、多樣化考核和多人參與的方式,彌補了期末考試+大作業(yè)考核方式中存在的難以讓學生深入學習每一個知識單元的問題。通過單元化多人教學+導師引導的方式,引導學生從基礎(chǔ)知識入門到自己將來研究領(lǐng)域的入門。利用筆試測試+實踐性作業(yè)考核,引導學生同時具有掌握理論原理和算法實現(xiàn)能力。通過要求自學的方式鞏固Python編程學習和機器學習,利用現(xiàn)有網(wǎng)絡課程資源,對學生的編程能力進行有效提升,進一步加強學生的自學能力。
讓學生在一學期內(nèi)鞏固數(shù)學基礎(chǔ)、強化編程能力、學習機器學習、深度學習基礎(chǔ),全面、深入地了解“自然語言處理”課程中基礎(chǔ)技術(shù)的理論原理、掌握實踐能力,在自然語言處理細分研究方向上更加深入地學習,讓學生的學習內(nèi)容與目前的技術(shù)基本保持一致,是具有較大挑戰(zhàn)性的教學活動。針對傳統(tǒng)教學模式存在的問題和發(fā)展趨勢,新疆大學計算機科學與技術(shù)學科碩士研究生“自然語言處理”課程教學和實踐應緊密結(jié)合技術(shù)發(fā)展趨勢,制定、改革新的教學模式,以達到課程學習與研究方向有機融合的目標,能夠有效提升教學效果。