李顯勇 李齊治 胡容維
摘要:“自然語(yǔ)言處理”融合了數(shù)學(xué),計(jì)算機(jī)等多門(mén)學(xué)科知識(shí),是人工智能專(zhuān)業(yè)的核心課程。結(jié)合近幾年的教學(xué)與科研實(shí)踐,對(duì)“自然語(yǔ)言處理”發(fā)展歷程進(jìn)行了教學(xué)探討,從不同學(xué)派的理論與技術(shù)、單一技術(shù)的發(fā)展、系統(tǒng)思維、數(shù)學(xué)方法、聯(lián)系與發(fā)展和學(xué)術(shù)前沿六個(gè)方面對(duì)自然語(yǔ)言處理的發(fā)展歷程進(jìn)行了分析,旨在將自然語(yǔ)言處理的理論與技術(shù)融入其發(fā)展歷程,調(diào)動(dòng)學(xué)生的學(xué)習(xí)熱情,準(zhǔn)確地課程的相關(guān)理論與技術(shù)。
關(guān)鍵詞:自然語(yǔ)言處理;課程教學(xué);發(fā)展歷程;發(fā)展觀(guān)點(diǎn)
中圖分類(lèi)號(hào):G642? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)26-0130-03
1 引言
隨著信息與網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,人與人之間可以采用微博、微信、QQ等多種社交平臺(tái)進(jìn)行實(shí)時(shí)、方便、快捷地交流。2021年6月,中國(guó)互聯(lián)網(wǎng)中心(CNNIC) 發(fā)布的報(bào)告表明[1],我國(guó)網(wǎng)民數(shù)量已達(dá)10.11億,互聯(lián)網(wǎng)普及率達(dá)71.6%,大量用戶(hù)實(shí)時(shí)參與網(wǎng)絡(luò)媒體互動(dòng)與評(píng)論。2021年第一季度微信與WeChat月活12.416億,同比增長(zhǎng)3.3%,每天產(chǎn)生數(shù)億條消息。iiMedia Research(艾媒咨詢(xún))最新發(fā)布的報(bào)告表明[1-2],我國(guó)社交網(wǎng)絡(luò)用戶(hù)主要采用文字聊天方式進(jìn)行日常交流。可見(jiàn),人們習(xí)慣于在網(wǎng)絡(luò)上進(jìn)行交流,由此產(chǎn)生的龐大數(shù)據(jù),收集、整理和分析這些數(shù)據(jù)尤為重要,它能揭示人們?cè)诨ヂ?lián)網(wǎng)上社會(huì)交往活動(dòng)的一般規(guī)律,為國(guó)家文化、社會(huì)、經(jīng)濟(jì)等提供決策支撐。
自然語(yǔ)言處理(NLP) 為網(wǎng)絡(luò)數(shù)據(jù)的收集、整理和分析提供了良好的解決方案。當(dāng)前,自然語(yǔ)言處理屬于計(jì)算機(jī)科學(xué)、人工智能等學(xué)科的熱點(diǎn)研究領(lǐng)域,其研究目的在于實(shí)現(xiàn)人與計(jì)算機(jī)之間的正確理解和有效交流。它的研究涉及人們?cè)谌粘I钪邢嗷ソ涣魉褂玫牟煌Z(yǔ)言,因此語(yǔ)言學(xué)對(duì)自然語(yǔ)言處理的研究起重要作用,它與數(shù)學(xué)知識(shí)和計(jì)算機(jī)知識(shí)共同構(gòu)成了自然語(yǔ)言處理的知識(shí)理論體系。自然語(yǔ)言處理屬于計(jì)算機(jī)科學(xué)的范疇[3],它的最終研究目標(biāo)在于研制有效地利用自然語(yǔ)言進(jìn)行通信的計(jì)算機(jī)軟件系統(tǒng)。
“自然語(yǔ)言處理”課程是很多高校計(jì)算機(jī)專(zhuān)業(yè)的核心課程,涉及內(nèi)容包括信息檢索與抽取、機(jī)器翻譯、文本生成、情感分析、知識(shí)庫(kù)等。面對(duì)豐富的理論知識(shí)和技術(shù),教好這門(mén)課程,提升學(xué)生的學(xué)習(xí)熱情與興趣,成為老師們關(guān)注的焦點(diǎn)。陳艷平[4]從課程教學(xué)目標(biāo)和理論教學(xué)兩方面進(jìn)行了闡釋。羅世奇等[5]結(jié)合地方院校的特點(diǎn),討論了利用項(xiàng)目實(shí)現(xiàn)教學(xué)目的的教學(xué)方法。傅迎華等[6]基于實(shí)際例子探討了課程的教學(xué)目標(biāo)、理論教學(xué)內(nèi)容選擇、實(shí)驗(yàn)內(nèi)容安排和設(shè)計(jì)等。鐘茂生等[7]介紹了"問(wèn)題引導(dǎo)+項(xiàng)目驅(qū)動(dòng)"的“自然語(yǔ)言處理”教學(xué)與實(shí)踐方法,及其實(shí)施過(guò)程和教學(xué)效果。
教學(xué)需要教師不斷地去探索、創(chuàng)新與發(fā)展的教學(xué)方式與方法,本文將探討“自然語(yǔ)言處理”發(fā)展歷程的教學(xué),將自然語(yǔ)言處理的理論與技術(shù)融入自然語(yǔ)言處理發(fā)展歷程中進(jìn)行教學(xué),提高學(xué)生的學(xué)習(xí)興趣和悟性,培養(yǎng)學(xué)生的創(chuàng)新能力。
2 “自然語(yǔ)言處理”發(fā)展歷程的教學(xué)探討
自然語(yǔ)言處理的發(fā)展歷程是一個(gè)艱辛且充滿(mǎn)機(jī)遇的過(guò)程,從提出至今已有70多年的歷史,但是現(xiàn)在仍處于期望膨脹期,且被評(píng)為了AI未來(lái)十年重點(diǎn)發(fā)展方向[9]。在其發(fā)展過(guò)程中,可分為三個(gè)階段:第一個(gè)階段為符號(hào)主義與經(jīng)驗(yàn)主義占主流的階段;第二個(gè)階段為理性主義與統(tǒng)計(jì)主義占主流的階段;第三個(gè)階段為連接主義占主流的階段。教學(xué)過(guò)程中,基于這三個(gè)發(fā)展階段介紹相關(guān)理論與技術(shù),以及涉及的重要人物成果,有利于學(xué)生理清自然語(yǔ)言處理發(fā)展歷程,用發(fā)展的觀(guān)點(diǎn)指導(dǎo)“自然語(yǔ)言處理”課程的學(xué)習(xí)與實(shí)踐。例如,講解第三階段連接主義時(shí),可以從最初的神經(jīng)元數(shù)學(xué)模型(MP模型)開(kāi)始,到1960至1970年代的連接主義(如腦模型),再到Rumelhart等在1986年建立的反向傳播算法[8][13],最終過(guò)渡到近幾年的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN) 、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM) 、詞嵌入(word embedding) 、注意力模型(Attention Model, AM) 等,以時(shí)間為主線(xiàn),理論與技術(shù)的發(fā)展為脈絡(luò)進(jìn)行介紹與分析。自然語(yǔ)言處理發(fā)展歷程可從以下幾個(gè)維度進(jìn)行教學(xué)。
2.1 從不同學(xué)派的理論與技術(shù)看待自然語(yǔ)言處理發(fā)展歷程
自然語(yǔ)言處理高度融合了數(shù)學(xué),計(jì)算機(jī)等學(xué)科,研究方向中也包含了神經(jīng)科學(xué),生物學(xué),心理學(xué)等。在自然語(yǔ)言處理發(fā)展的歷史中,我們會(huì)看到不同學(xué)派之間的碰撞。正如哲學(xué)中的經(jīng)驗(yàn)主義與理性主義一樣,自然語(yǔ)言處理領(lǐng)域中的經(jīng)驗(yàn)主義(統(tǒng)計(jì)主義)更看重的是證據(jù),即所有理論和假設(shè)都必須被實(shí)驗(yàn)來(lái)檢驗(yàn)。所以我們可以發(fā)現(xiàn)經(jīng)驗(yàn)主義的方法都是統(tǒng)計(jì)的整個(gè)語(yǔ)料庫(kù)中的概率,以此作為經(jīng)驗(yàn)來(lái)驗(yàn)證我們的后續(xù)任務(wù)。而自然語(yǔ)言處理領(lǐng)域中的理性主義(符號(hào)主義),也如哲學(xué)中的理性主義,認(rèn)為大部分的知識(shí)是來(lái)自感覺(jué)上的獨(dú)立思考。就像正則表達(dá)式只提取我們需要的內(nèi)容,而不會(huì)關(guān)心這個(gè)詞在句子中是否是一個(gè)獨(dú)立的個(gè)體。
在多個(gè)學(xué)派各自探索與研究的過(guò)程中,在初期時(shí)代是孤立的。可是隨著學(xué)者們的不斷前進(jìn),呈現(xiàn)出了高度綜合化的趨勢(shì)。自然語(yǔ)言處理在21世紀(jì)迎來(lái)發(fā)展的高潮,正是從圖像與語(yǔ)音領(lǐng)域得到了啟發(fā),結(jié)合了深度學(xué)習(xí)才得到的成果。而這個(gè)高潮時(shí)代也離不開(kāi)其他領(lǐng)域發(fā)展所帶來(lái)的貢獻(xiàn),如果沒(méi)有計(jì)算機(jī)科學(xué)、腦神經(jīng)科學(xué)與認(rèn)知科學(xué)不斷發(fā)展而帶來(lái)神經(jīng)網(wǎng)絡(luò)的高潮[13],也不會(huì)有連接主義的出現(xiàn)。隨著學(xué)者們對(duì)自然語(yǔ)言處理研究的深入,不同學(xué)派之間也產(chǎn)生了融合。
2.2 從單一技術(shù)的發(fā)展看待自然語(yǔ)言處理發(fā)展歷程
恩格斯的否定之否定規(guī)律揭示了事物發(fā)展的方向和道路[11]。在自然語(yǔ)言處理知識(shí)體系中,學(xué)者們對(duì)詞嵌入技術(shù)的研究過(guò)程是一個(gè)不斷螺旋上升的過(guò)程。學(xué)者們提出了一個(gè)新的詞向量構(gòu)建技術(shù),后人在研究的過(guò)程中會(huì)發(fā)現(xiàn)其的不足,并加之完善。這樣的過(guò)程伴隨著詞嵌入這項(xiàng)技術(shù)的發(fā)展。雖然在研究的過(guò)程中出現(xiàn)了許多問(wèn)題,甚至謬誤,但技術(shù)發(fā)展并未停滯,在學(xué)者們一次又一次地發(fā)現(xiàn)了不足后,加之完善,達(dá)到了更好的境地。可見(jiàn)詞嵌入技術(shù)的發(fā)展歷程是螺旋式、曲折式前進(jìn)的過(guò)程。以否定之否定規(guī)律來(lái)看,詞嵌入技術(shù)的發(fā)展歷程可看成是技術(shù)內(nèi)部矛盾引起的自我否定,內(nèi)部矛盾轉(zhuǎn)化,最終解決矛盾的過(guò)程[11]。而從整個(gè)詞嵌入技術(shù)的發(fā)展過(guò)程來(lái)看,我們也可以推測(cè)出整個(gè)自然語(yǔ)言處理領(lǐng)域的發(fā)展是類(lèi)似的情況,都是在前人工作中發(fā)現(xiàn)不足,并進(jìn)行改正,不斷完善理論的一個(gè)過(guò)程。在研究該領(lǐng)域的過(guò)程中,我們要從其歷史進(jìn)行科學(xué)的解讀,針對(duì)出現(xiàn)的新問(wèn)題,發(fā)現(xiàn)過(guò)去理論的不足,改正這些錯(cuò)誤,并不斷完善這個(gè)領(lǐng)域的理論。
2.3 從系統(tǒng)思維看待自然語(yǔ)言處理發(fā)展歷程
系統(tǒng)思維是指將事物看成系統(tǒng)進(jìn)行分析與處理[11]。在整個(gè)自然語(yǔ)言處理的過(guò)程中,自然語(yǔ)言處理可看作為一個(gè)系統(tǒng),它是人工智能系統(tǒng)的一個(gè)子系統(tǒng)。系統(tǒng)理論與方法對(duì)自然語(yǔ)言處理技術(shù)的發(fā)展起重要的指導(dǎo)和促進(jìn)作用。
系統(tǒng)理論著重從全局和整體兩方面分析問(wèn)題,注重事物之間的復(fù)雜聯(lián)系,而不單方面地分析問(wèn)題[11]。就像在自然語(yǔ)言處理的研究中,現(xiàn)階段的工作都是基于文檔、基于句子甚至是基于詞語(yǔ)的,雖然我們能夠?qū)⑵淇醋鳛橐粋€(gè)系統(tǒng),但是人類(lèi)在表達(dá)一句話(huà)的時(shí)候有可能會(huì)暗含許多信息(比如輸入“520快樂(lè)”給計(jì)算機(jī),計(jì)算機(jī)只能識(shí)別出一串?dāng)?shù)字“520”和一個(gè)詞“快樂(lè)”,卻不能夠理解“520”暗指網(wǎng)絡(luò)情人節(jié))。這就表明了盡管現(xiàn)在自然語(yǔ)言處理正在蓬勃發(fā)展,但是卻有一定的缺陷。近年來(lái)知識(shí)工程學(xué)科的研究就正在致力于解決計(jì)算機(jī)沒(méi)有外部知識(shí)這一問(wèn)題[4]。從這個(gè)方面來(lái)說(shuō),盡管現(xiàn)在對(duì)自然語(yǔ)言處理系統(tǒng)化的研究已經(jīng)有了顯著成果,但是依舊需要學(xué)者們站在一個(gè)更為宏觀(guān)的角度來(lái)系統(tǒng)化看待這個(gè)問(wèn)題。
2.4 從數(shù)學(xué)方法看待自然語(yǔ)言處理發(fā)展歷程
數(shù)學(xué)是辯證的輔助手段和表達(dá)方式[12]。在學(xué)者研究自然語(yǔ)言處理的過(guò)程中,特別是統(tǒng)計(jì)主義學(xué)派與連接主義學(xué)派及其融合學(xué)派,通過(guò)發(fā)現(xiàn)自然語(yǔ)言的內(nèi)在規(guī)律,對(duì)其進(jìn)行數(shù)學(xué)建模,將其用數(shù)學(xué)公式形式化表達(dá)出來(lái)。正是由于數(shù)學(xué)作為基石,自然語(yǔ)言處理才能夠穩(wěn)步發(fā)展。計(jì)算機(jī)處理文字是一件復(fù)雜的事,正是由于詞嵌入技術(shù)將文字映射到向量空間,才能夠降低計(jì)算機(jī)運(yùn)行的成本。在隱含馬爾科夫模型中,通過(guò)雙隨機(jī)過(guò)程,能夠?qū)崿F(xiàn)為詞語(yǔ)打標(biāo)簽的工作。數(shù)學(xué)無(wú)處不在,在發(fā)展過(guò)程中扮演舉足輕重的作用,正是由學(xué)者將發(fā)現(xiàn)的規(guī)律進(jìn)行簡(jiǎn)化并形式化表達(dá)為數(shù)學(xué)公式,才能夠有層出不窮的新技術(shù)誕生。
2.5 從聯(lián)系與發(fā)展看待自然語(yǔ)言處理發(fā)展歷程
自然語(yǔ)言處理的發(fā)展歷史上,離不開(kāi)辯證法中聯(lián)系與發(fā)展的兩大特征。如語(yǔ)言模型[13],正是學(xué)者們發(fā)現(xiàn)了相鄰的詞語(yǔ)之間存在關(guān)聯(lián)關(guān)系,并對(duì)這種內(nèi)在規(guī)律建模,才有了相應(yīng)的研究。同時(shí),正因?yàn)槠渌麑W(xué)科的學(xué)者們?cè)谧匀唤绲劝l(fā)現(xiàn)了相應(yīng)的規(guī)律,才有學(xué)者能夠?qū)⑵湟氲阶匀徽Z(yǔ)言處理中。注意力機(jī)制[14],也正是學(xué)者們研究了人類(lèi)的注意力機(jī)制,發(fā)現(xiàn)了其中的客觀(guān)性與普遍性,才能夠通過(guò)數(shù)學(xué)對(duì)其建模,而引入到計(jì)算機(jī)科學(xué)中,接著才能夠應(yīng)用到自然語(yǔ)言處理領(lǐng)域。從以上兩個(gè)例子我們可以看出,學(xué)者們不僅對(duì)一句話(huà)中的詞語(yǔ)之間的關(guān)聯(lián)關(guān)系進(jìn)行了研究,還將自然界中的客觀(guān)現(xiàn)象引入到了自然語(yǔ)言處理中,這也反映了辯證法聯(lián)系的思想。
從自然語(yǔ)言處理技術(shù)的發(fā)展路線(xiàn)我們可以發(fā)現(xiàn),這種發(fā)展是具有普遍性的,并沒(méi)有因?yàn)檫^(guò)程的曲折而致使技術(shù)停滯不前。且學(xué)者們通過(guò)分析總結(jié)前人的不足,并加之完善,這體現(xiàn)出了發(fā)展的實(shí)質(zhì):事物的前進(jìn)與上升。盡管事物的前進(jìn)方向是光明的,但是學(xué)者們用了幾年甚至幾十年才慢慢完善該學(xué)科,也就體現(xiàn)出了事物發(fā)展道路的曲折性。最后我們可以發(fā)現(xiàn),如果不是之前學(xué)者們從one-hot編碼到語(yǔ)言模型的提出,也不會(huì)有Word2Vec這種模型的創(chuàng)建。Word2Vec正是吸收了前面詞嵌入技術(shù)的精華,而提煉出的一個(gè)全新技術(shù),這正印證了辯證法發(fā)展性中量變引起質(zhì)變的特性。
2.6 從學(xué)術(shù)前沿看待自然語(yǔ)言處理發(fā)展歷程
自然語(yǔ)言處理中多學(xué)科交叉融合的優(yōu)勢(shì)越來(lái)越明顯,在研究過(guò)程中會(huì)有更多的新思想、新技術(shù)融合到自然語(yǔ)言處理,自然語(yǔ)言處理的應(yīng)用領(lǐng)域越來(lái)越廣泛。自然語(yǔ)言處理的學(xué)術(shù)前沿代表當(dāng)前學(xué)術(shù)界或工業(yè)界需解決的理論或技術(shù)問(wèn)題,教學(xué)過(guò)程中適當(dāng)?shù)貙W(xué)術(shù)前沿理論融入自然語(yǔ)言處理發(fā)展歷程中進(jìn)行教學(xué),增強(qiáng)學(xué)生自主學(xué)習(xí)動(dòng)力,激發(fā)學(xué)生的科研興趣。比如,計(jì)算機(jī)在處理文本數(shù)據(jù)時(shí),它并不能很好地識(shí)別出一個(gè)句子中包含的外部知識(shí)和真實(shí)情感,我們需要研究在知識(shí)指導(dǎo)下的自然語(yǔ)言處理技術(shù),建立知識(shí)獲取、知識(shí)產(chǎn)生、知識(shí)表達(dá)等與自然語(yǔ)言處理的方法與技術(shù),使計(jì)算機(jī)能夠智能認(rèn)知和理解自然語(yǔ)言[8]。同時(shí),其他學(xué)科所產(chǎn)生的新理論、新技術(shù)為自然語(yǔ)言處理提供了良好的基石,可以引導(dǎo)學(xué)生嘗試借鑒這些新理論與新技術(shù)構(gòu)建出新模型、新技術(shù),推動(dòng)自然語(yǔ)言處理的新發(fā)展。
3 結(jié)束語(yǔ)
課程教學(xué)是一個(gè)不斷改進(jìn)、不斷創(chuàng)新、不斷發(fā)展的過(guò)程,本文對(duì)“自然語(yǔ)言處理”發(fā)展歷程進(jìn)行了課程教學(xué)探討,從六個(gè)方面對(duì)自然語(yǔ)言處理的發(fā)展歷程進(jìn)行了分析,將自然語(yǔ)言處理的理論與技術(shù)融入其發(fā)展歷程中教學(xué),調(diào)動(dòng)學(xué)生的學(xué)習(xí)熱情,準(zhǔn)確地課程的相關(guān)理論與技術(shù)。
參考文獻(xiàn):
[1] 中國(guó)互聯(lián)網(wǎng)信息中心. 第48次中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].中國(guó): CNNIC, 2021.
[2] 艾媒大文娛產(chǎn)業(yè)研究中心, 艾媒網(wǎng). 艾媒咨詢(xún)2020-2021年中國(guó)移動(dòng)社交行業(yè)研究報(bào)告[R]. 中國(guó): 艾媒咨詢(xún), 2021.
[3] 李長(zhǎng)云,王志兵.智能感知技術(shù)及在電氣工程中的應(yīng)用[M].成都:電子科技大學(xué)出版社,2017.
[4] 陳艷平.“自然語(yǔ)言處理”課程教學(xué)探索和實(shí)踐[J].科教文匯(上旬刊),2020(12):135-136.
[5] 羅世奇,田生偉.自然語(yǔ)言處理項(xiàng)目式教學(xué)策略探究[J].中國(guó)教育技術(shù)裝備,2020(4):104-105.
[6] 傅迎華,李江,付東翔.自然語(yǔ)言處理課程教學(xué)探索和實(shí)踐[J].計(jì)算機(jī)教育,2018(4):56-59.
[7] 鐘茂生,黃曉輝,張紅斌.“問(wèn)題引導(dǎo)+項(xiàng)目驅(qū)動(dòng)”并舉的自然語(yǔ)言處理課程教學(xué)改革實(shí)踐[J].計(jì)算機(jī)教育,2018(6):72-75.
[8] 清華大學(xué)人工智能研究院. 清華-中國(guó)工程院知識(shí)智能聯(lián)合研究中心. 人工智能發(fā)展報(bào)告2011-2020[R]. AMiner: AMiner.org, 2021-01-21.
[9] 機(jī)器人網(wǎng). 人工智能的三大學(xué)派:符號(hào)主義、連接主義、行為主義[EB/OL]. 2021, https://www.sohu.com/a/203862511_468638.
[10] 李德聰.“人工神經(jīng)網(wǎng)絡(luò)”理論發(fā)展的自然辯證法意義[J].廣西大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),1999,21(S1):19-23.
[11] 竇嘉銘.淺談自然辯證法視角下人工神經(jīng)網(wǎng)絡(luò)發(fā)展歷程[J].電腦知識(shí)與技術(shù),2021,17(1):202-204,207.
[12] 韋建樺. 中共中央馬克思恩格斯列寧斯大林著作編譯局編譯.馬克思恩格斯文集-21848-1859年[M].北京:人民出版社,2009.
[13] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].2版.北京:清華大學(xué)出版社,2013:83-85.
[14] 張俊林. 深度學(xué)習(xí)中的注意力機(jī)制[J].程序員, 2017.
【通聯(lián)編輯:王力】
收稿日期:2022-01-21
基金項(xiàng)目:國(guó)家自然科學(xué)基金( 61802316、61872298、61602389) ;教育部春暉計(jì)劃科研合作項(xiàng)目(Z2015109、Z2015100) ;四川省科技廳項(xiàng)目(22ZDYF3157、2021YFQ0008) ;西華大學(xué)青年學(xué)者后備人才項(xiàng)目;西華大學(xué)自然科學(xué)重點(diǎn)基金項(xiàng)目(Z1422615)
作者簡(jiǎn)介:李顯勇(1984—) ,男,四川省達(dá)州市渠縣人,副教授,博士,碩士生導(dǎo)師,主要研究方向?yàn)樽匀徽Z(yǔ)言處理、社交網(wǎng)絡(luò)分析和容錯(cuò)與并行計(jì)算。