自然語言處理的現狀研究與未來發展初探

2017-03-24 10:07:16王天笑

中國科技縱橫 2017年2期

王天笑

摘要：自然語言處理是人工智能領域所研究的重要課題之一，同時也是目前最前沿的科技研究熱點之一。探究并實現人與計算機之間使用自然語言進行有效通信的各種理論和方法，是未來人工智能的核心驅動力。因此，了解自然語言處理技術的科學內涵，闡述自然語言處理的研究方法及發展歷史，深入探究自然語言處理在各個領域中的應用與現狀，進一步展望未來的發展趨勢，是十分必要且有意義的。

關鍵詞：自然語言；處理；人工智能；機器學習

中圖分類號：TN941.1 文獻標識碼：A 文章編號：1671-2064（2017）02-0196-02

隨著社會的日益信息化，計算機學科也在逐步發展成熟，人們也越來越強烈地希望能更好地同計算機進行交流。而伴隨信息爆炸而來的是更為廣闊的信息檢索需求、日益嚴峻的信息安全問題以及潛力十足的機器翻譯市場。如何讓計算機實現自動的語言處理功能、挖掘和有效利用海量語言信息顯得尤為重要，也對于人工智能研究領域提出了更新的要求。

1 自然語言處理的含義及任務

1.1 自然語言處理的含義

1.1.1 什么是自然語言處理

自然語言處理（NLP， Natural Language Processing）是使用機器處理人類語言的理論和技術，將語言做為計算對象來研究相應的算法。目的是讓人類可以用自然語言形式跟計算機系統進行人機交互，從而更便捷、有效地進行信息管理。關鍵是要讓計算機“理解”自然語言，所以自然語言處理又被叫做自然語言理解（NLU， Natural Language Understanding），也稱為計算語言學（Computational Linguistics）。

1.1.2 什么是自然語言

根據新華字典的解釋，自然語言是指以語音為物質外殼，由詞匯和語法兩部分組成的符號系統。眾所周知，語言是人類交際的工具，也是人類思維的載體。我們所說的自然語言具體是指約定成俗的、區別于人工語言的語言，如程序設計語言。

1.1.3 什么是處理

處理的含義包括理解、轉化、生成等。自然語言處理的具體表現形式包括機器翻譯、文本摘要、文本分類、文本校對、信息抽取、語音合成、語音識別等。

1.2 自然語言處理的層次性

自然語言的理解和分析過程是一個層次化過程，許多語言學家把這一過程劃分為以下五個層次，從而更好地體現語言本身的構成：

1.2.1 語音分析

根據音位規則，從語音流中區分出一個個獨立的音素，再根據音位形態規則找出一個個音節及其對應的詞素或詞。

1.2.2 詞法分析

分析目的是找出詞匯的各個詞素，從中獲得語言學的信息。

1.2.3 句法分析

對句子和短語的結構進行分析，目的是找出詞、短語等的相互關系以及各自在句中的作用。

1.2.4 語義分析

分析目的是找出詞義、結構意義及其結合意義，從而確定語言所表達的真正含義或概念。

1.2.5 語用分析

研究語言所存在的外界環境對語言使用者所產生的影響。

2 自然語言處理的研究內容

2.1 自然語言處理的研究方向

自然語言處理的范圍涉及眾多方面，如機器翻譯、文本摘要、文本分類、文本校對、信息抽取、語音合成、語音識別等等。大致可分為以下四個方向：

2.1.1 語言學方向

把自然語言處理看作語言學的一個分支來研究，研究內容只涉及語言處理與計算相關的方面，不涉及在計算機上的具體實現方法。這個方向最重要的研究領域是語法形式化理論和數學理論。

2.1.2 數據處理方向

把自然語言處理作為開發語言研究相關程序以及語言數據處理的學科來研究。這一方向早起的研究有屬于數據庫的建設、各種機器可讀的電子詞典的開發，近些年來則有大規模的語料庫的涌現。

2.1.3 人工智能和認知科學方向

把自然語言處理作為在計算機上實現自然語言能力的學科來研究，探索自然語言理解的只能機制和認知機制。這一方向的研究與人工智能以及認知科學關系密切。

2.1.4 語言工程方向

把自然語言處理作為面向實踐的、工程化的語言軟件開發來研究，這一方向的研究一般也被稱為“人類語言技術”或“語言工程”。

2.2 自然語言處理的應用

以上所討論的研究方向基本上涵蓋了當今自然語言處理主要的研究內容，進一步可細分為具體的應用如下：書面語輸入、語言分析和理解、話語分析與對話、語言生成、多語問題的計算機處理、口語輸入、口語輸出技術、自然語言處理中的數學方法、信息傳輸與信息存儲、文獻自動處理、語言資源、多模態的計算機處理、自然語言處理系統的評測。這些應用領域都需要對語言進行更形式化的描述，建立合適的算法，并在計算機上實現這些算法，因此，要涉及到的學科包括數學、邏輯學和計算機科學等，當然也需要運用到電子科學技術。由此我們可以得出，自然語言處理都是一個多邊緣的交叉型學科。由于它的對象是語言，因此，本質上它是一個語言學科，但還涉及到其他眾多的學科，尤其是數學和計算機科學。

3 自然語言處理的發展概述

3.1 自然語言處理的發展歷程

1956年之前，人們主要進行的都是自然語言處理的基礎性研究。1948年Shannon把離散馬爾可夫過程的概率模型首次應用于描述語言的自動機，同時又把“熵” （Entropy）的概念引用到語言處理中。就在同一時期，Kleene研究了有限自動機和正則表達式。1956年，Chomsky提出了上下文無關文法，也因此產生了基于規則和基于概率兩種不同截然不同的自然語言處理方法，進而引發了數十年該領域研究中兩大陣營有關孰優孰劣的爭執。

1956年，人工智能誕生以后，自然語言處理迅速融入了人工智能的研究中。隨機派學者在這一時期利用貝葉斯方法等統計學原理取得了一定的進步；而以Chomsky為代表的符號派也進行了形式語言理論、生成句法和形式邏輯系統的研究。由于這一時期，多數學者注重研究推理和邏輯問題，只有少數學者在研究統計方法和神經網絡，所以符號派的勢頭明顯強于隨機派的勢頭。

1967年美國心理學家Neisser提出了認知心理學，從而把自然語言處理與人類的認知聯系起來。

70年代初，由于自然語言處理研究中的一些問題未能在短時間內得到解決，而新的問題又不斷地涌現，許多人因此喪失了信心，自然語言處理的研究進入了低谷時期。盡管如此，一些發達國家的學者依舊地研究著。基于隱馬爾可夫模型（Hidden Markov Model，HMM）的統計方法和話語分析（Discourse Analysis）在這一時期取得了重大進展。

80年代，在人們對于過去的工作反思之后，有限狀態模型和經驗主義的研究方法開始復蘇。

90年代以后，隨著計算機的速度和存儲量大幅增加，自然語言處理的物質基礎大幅改善，語音和語言處理的商品化開發成為可能；同時，網絡技術的發展和1994年Internet商業化使得基于自然語言的信息檢索和信息抽取的需求變得更加突出。自然語言處理的應用領域已不再局限于機器翻譯、語音控制等早期研究方向。

從90年代末到21世紀初，人們逐漸認識到，僅用基于規則的方法或僅用基于統計的方法都是無法成功進行自然語言處理的。基于統計、基于實例和基于規則的語料庫技術在這一時期開始蓬勃發展，各種處理技術開始融合，自然語言處理的研究又迅速發展并逐漸興旺起來。

3.2 自然語言處理的研究現狀及思考

自然語言處理的研究歷史雖然不是很長，但就目前已經取得的成果和地位足以顯示它的重要性和廣闊的應用前景。就目前的研究成果來看，部分問題已經得到了解決，可以為人們提供可靠的輔助性幫助，比如專業領域文檔翻譯，電子詞典，搜索引擎，文字錄入等。但隨著信息服務、通訊、網絡內容管理、情報處理、國家安全等社會需求的日益迫切，很多基礎問題的研究仍然任重道遠：比如語義表示和計算、比如高質量的自動翻譯。目前所進行的研究中，暴露和存在的問題還有很多很多，研究中仍然缺乏堅實的理論基礎；詞匯句法方面的問題尚未解決，已開始挑戰語義、知識等深層次課題；語音識別中采用的統計語言模型推動了發展，于是目前的統計模型在迅速向語言深層發展等等等等。所以，許多技術離真正實用其實還有不少距離，若干理論問題也有待更深入的研究。我們可以從現有的模型和方法改進入手，在不成熟技術的基礎上開發出更實用的人機系統，我們也有理由期待更有效和更健全地理論體系。

3.3 自然語言處理的未來前景及研究意義

從長遠看，自然語言處理具有廣闊的應用領域和令人驚喜的應用前景。作為一個多學科交叉的新型領域，自然語言處理的繁榮發展對于很多相關學科及方向都具有深遠的影響力。伴隨著各種詞表詞義詞法語料庫等數據資源的日益豐富、分析技術的快速進步、新方法新理論的不斷涌現、研究模型的逐漸迭代更新，不僅可以為理論研究奠定堅實基礎，自然語言處理的快速發展也將逐步鞏固其在人工智能領域乃至整個計算機科學研究的核心課題地位。

最后，基于上文對于自然語言處理領域現狀的深入研究與現狀分析，我們可以得出以下結論：未來該領域的研究方法將更強調多技術多領域集成、更強調理性與經驗方法相結合、更強調模塊構件化和工具環境開發、更強調知識與意義的表示和利用、更強調實際研究成果的實用化。

參考文獻：

[1]蔡自興，等.人工智能及其應用[M].北京：清華大學出版社，2001.

[2]俞士汶.自然語言理解與語法研究[M].北京：商務印書館，1999，1240.

[3]姚天順.自然語言理解-一種讓機器懂得人類語言的研究[M].清華大學、廣西科技出版社，2002（第二版）.

[4]汪安圣.認知心理學[M].北京：北京大學出版社，1997.

[5]王小捷，常寶寶.自然語言處理基礎[M].北京郵電大學出版社，2002.

[6]馮志偉.自然語言處理的歷史與現狀[J].中國外語，2008.