檀亞寧 陳輝 邱毅斌
摘 要 語言能力(包括口語能力和書面語言能力)是人的首要能力,是其綜合能力的重要組成部分。而計(jì)算機(jī)科學(xué)領(lǐng)域也有語言處理,即計(jì)算機(jī)理解和運(yùn)用人類語言的能力,也就是自然語言處理技術(shù)。自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。本文簡要分析了自然語言處理學(xué)習(xí)中的重點(diǎn),并對其處理過程和技術(shù)方面進(jìn)行了主要探究,旨在從更多更深入的自然語言處理的方法和技術(shù)層面推動(dòng)人工智能及計(jì)算機(jī)的發(fā)展。
關(guān)鍵詞 自然語言處理;人工智能計(jì)算機(jī)
1引言
機(jī)器翻譯是最早的自然語言理解方面的研究,但人們當(dāng)時(shí)低估了自然語言的復(fù)雜性,而且語言處理的理論和技術(shù)均不成熱,所以相關(guān)方面的研究進(jìn)展不大[1]。隨著計(jì)算機(jī)與互聯(lián)網(wǎng)的迅速發(fā)展,現(xiàn)在的自然語言處理技術(shù)可以做到信息提取,語音輸入,輿論分析,情感分析,智能問答甚至語言生成等一系列較為先進(jìn)的功能。隨著深度學(xué)習(xí)在圖像識別、語音識別領(lǐng)域的大放異彩,人們對深度學(xué)習(xí)在NLP的價(jià)值也寄予厚望。自然語言處理作為人工智能領(lǐng)域的認(rèn)知智能,成為目前大家關(guān)注的焦點(diǎn)。自然語言處理這一研究方向主要解決的是使得計(jì)算機(jī)能夠理解人類的自然語言的問題。自然語言理解完成了人類與機(jī)器的交互,并且做出人類要求的相應(yīng)的命令控制處理工作。
2自然語言處理研究要點(diǎn)
2.1自然語言處理的基本問題
(1)語音學(xué)問題:研究詞語及其語音之間的關(guān)聯(lián)。這是語音識別方面研究的主要問題,機(jī)器通過對語音信號進(jìn)行處理、分析并識別從而判斷語音的意思。此方面的應(yīng)用主要有:輸入法的語音識別、同聲傳譯等等[2]。
(2)語法學(xué)問題:研究其句子結(jié)構(gòu)成分之間的相互關(guān)系和組成句子的序列的規(guī)則。如英語中的語法眾多,漢語中也有很多的語法,這些語法也同樣是自然語言處理中的難題。
(3)語義學(xué)問題:研究如何從一個(gè)語句中得到一個(gè)詞的本質(zhì)意思,以及這些詞在該句子中的句法結(jié)構(gòu)的作用來推導(dǎo)語句的意義。這其中的主要問題是語言文字的歧義現(xiàn)象。歧義現(xiàn)象包括結(jié)構(gòu)歧義和語義歧義。如何正確理解歧義也是一個(gè)重點(diǎn)。
(4)語用學(xué)問題:研究在不同語境中語句的應(yīng)用,以及上下文對句子理解所產(chǎn)生的影響。自然語言的處理大部分情況下離不開語境,在不同的語境下不同的句子會(huì)有不同的含義。因此語境的學(xué)習(xí)同樣為語言識別的要點(diǎn)。
3自然語言處理過程
自然語言理解的研究分為兩個(gè)方面,一方面是書面理解,另一方面是口語理解,其中計(jì)算機(jī)處理更容易處理書面理解。計(jì)算機(jī)對于語言的分析與理解通常是一個(gè)層次化過程,語言學(xué)家將這一過程分為語用分析、語音分析、語義分析四種。
自然語言處理主要步驟包括:
(1)分詞處理:將一篇文章按詞組依次分開。
(2)詞法分析:將分詞處理后的詞匯類型進(jìn)行分詞,標(biāo)明詞匯的詞性也就是確定詞的類
型,包括名詞、動(dòng)詞、形容詞、副詞、介詞等。
(3)語法分析:分析出句子的語法成分。
(4)語義分析:指的是讓計(jì)算機(jī)能夠理解自然語言。
4自然語言處理技術(shù)
4.1語料庫
語料庫是為一個(gè)或者多個(gè)應(yīng)用目標(biāo)而專門收集的,有一定結(jié)構(gòu)的、有代表的、可被計(jì)算機(jī)程序檢索的、具有一定規(guī)模的語料集合。語料是翻譯和做語言研究的基礎(chǔ),同樣是我們自然語言處理的一個(gè)重要的數(shù)據(jù)庫。21世紀(jì)是大數(shù)據(jù)的時(shí)代,語料庫中豐富的語言數(shù)據(jù),對于自然語言處理這一工作是重中之重。
4.2 word2vec
該技術(shù)通過一個(gè)句子中的周邊詞語預(yù)測中心詞語或通過中心詞語預(yù)測周邊詞語來構(gòu)建模型,并將句子中所有的詞都轉(zhuǎn)換為詞向量的形式。中心詞距離周邊詞較其他詞語更近。該方法借助于神經(jīng)網(wǎng)絡(luò)進(jìn)行自然語言的處理。
4.3 長短期記憶LSTM
普通的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在進(jìn)行語言處理時(shí)候,對距離近的詞記憶較好,而對于距離較遠(yuǎn)的詞記憶較差,所以在實(shí)際中通常使用LSTM即長短期記憶的方法,其優(yōu)勢在于可以避免長距離的失憶問題。
5總結(jié)與展望
當(dāng)前人工智能正從感知智能向認(rèn)知智能升級,自然語言處理的重要性日益凸顯。一方面,自然語言處理受到大數(shù)據(jù)和深度學(xué)習(xí)的雙輪驅(qū)動(dòng),在各項(xiàng)關(guān)鍵技術(shù)方面都有不同程度的進(jìn)步;另一方面,自然語言處理滲透到各個(gè)領(lǐng)域,與教育、醫(yī)療、法律等知識服務(wù)型行業(yè)深度整合,同時(shí)虛擬/實(shí)體機(jī)器人等新型應(yīng)用模式與線下服務(wù)對接。人類對智能的需要隨著社會(huì)科技的進(jìn)步已經(jīng)越來越必須,要求也越來越高。目前計(jì)算機(jī)還遠(yuǎn)遠(yuǎn)沒有的達(dá)到人一樣的理解水平,相信將來也不會(huì)達(dá)到這樣的水平,所以應(yīng)該從實(shí)用的角度去判斷計(jì)算機(jī)對自然語言的理解,只要計(jì)算機(jī)能夠?qū)崿F(xiàn)人機(jī)會(huì)話,或者能夠自動(dòng)摘錄一些語言信息,那么我們就可以說計(jì)算機(jī)已經(jīng)具有了自然語言的能力。
參考文獻(xiàn):
[1]張靜. 基于自然語言處理的智能識別和智能控制應(yīng)用[D].南京郵電大學(xué),2017.
[2]孫茂松,周建設(shè).從機(jī)器翻譯歷程看自然語言處理研究的發(fā)展策略[J].語言戰(zhàn)略研究,2016,1(06):12-18.