蔣 萍
(廣西警察學院,廣西 南寧 530028)
目前,隨著人工智能在深度學習方面的技術越來越可靠成熟,圖像識別、圖像分類、圖像檢測、自動駕駛、智能安防等方面已開始廣泛應用深度神經網絡技術。作為人工智能的皇冠“明珠”,語言智能如果可以實現突破,那么人工智能則可以得到進一步長足發展。近些年來,自然語言處理技術取得了突破性進展,尤其是基于深度學習方面自然語言處理技術在語音識別、智能問答、情感分析等領域都得到了廣泛應用,未來將會發揮出巨大的優勢。
(1)基本概念。深度學習(Deep Learning)是當前機器學習領域研究的一個熱點,針對深度學習的研究,來源于人工神經網絡研究,主要以通過建立深層的神經網絡來模擬人腦運轉機制,從而實現對圖像、文本和語音的解析。
(2)結構模式。深度學習的結構模式可以根據模型和技術的應用劃分成為生成性深度模式、區分性深度模式和混合型模型:生成性深度模式與傳統型神經分區網絡有所不同,該模式是通過講述觀測數據以及相應的聯合概率分布來充分展現數據高階的相關特點;區分性深度模式,卷積神經網絡就是屬于區分性訓練,它能夠真正實踐多層成真的網絡結構算法;混合型模型是區分更佳性的目標,它包含生成性部分和區分性部分。
(1)基本概念。自然語言處理技術(NLP),主要是將機器學習算法應用于語音和文本。譬如,可以使用NLP 來創建機器翻譯、語音識別、垃圾郵件檢測、自動填寫地址、命名實體識別等。如今,我們大多數人都擁有具有語音識別功能的智能手機,這些智能手機就是使用 NLP 來理解所說的內容。此外,許多人使用筆記本電腦,其操作系統也具有內置的語音識別功能。
(2)應用領域。針對深度學習方面的自然語言處理技術比針對傳統機器學習方面的自然語言處理技術更具備應用的優勢,它更適用于復雜的自然語言處理領域,從而促使 NLP 技術在智能問答、信息檢索、機器翻譯等方面能夠發揮出更大的優勢。目前,該技術主要用在檢索領域、數據整合領域和語音識別領域等。
首先,該技術應用于檢索領域能夠大大提高檢索的精準度,而且能夠促使引擎更加精準的理解用戶的需求、更加智能化。其次,該技術在數據整合領域的應用能夠提高數據處理的質量、優化輸出指令。最后,語音識別領域運用中,該技術能夠通過語音對智能設備進行操控、提升語音識別系統的有效性。
深度學習在自然語言處理運用中有一定的優勢,通常一般將單詞表示為向量,將文本或句子表示為單詞的向量序列,進而完成對于語言的分類和理解過程。與傳統的機器學習相比,該技術有著自身優勢:一是深度學習能夠具備更好性能的循環神經網絡( RNN)、模型如卷積神經網絡 (CNN)、長短記憶網絡( LSTM)等,可以代替現有的線性模型,進而可以實現同等或者更好的性能。二是深度學習可以以詞和向量為前提,學習語言的特征并且掌握更高層次和更加抽象的語言特征,進而滿足特征工程的自然語言處理。三是深度學習可以通過神經網絡自動學習高層次特性而無需專家人工定義訓練集。
例如,在短文情感分析中,基于傳統機器學習的自然語言處理技術往往會出現由于多義詞而產生歧義,以及上下文信息的缺乏問題導致對于文本情感分析結果的準確性降低。但是基于深度學習方面的自然語言處理技術能夠對傳統基于單詞層面的卷積神經網絡模型進行優化,通過加入單詞和句子方面的特征而構建起卷積神經網絡模型,通過輸入向量化的句子矩陣而提取更高向量度的特征,能夠從句子的整體出發來理解詞語的含義和整個句子的語義,最終實現情感分析的全過程。由此可見,基于深度學習方面的自然語言處理技術能夠在減少網絡模型工作量的基礎之上提高對比分析的性能。
首先,詞向量技術的出現加快了深度學習方面自然語言處理技術的應用和推廣,大大提升了情感分析、語音識別等自然語言處理任務的準確率。其次,深度學習的識別技術取代了原有 CRF 計算法,其構建的模型,只需要對訓練數據做好標記,就可以通過標記的上下文,找出具有相似的實體以及類型。再次,通過運用 CNN算法,促使文本自動分類優勢逐漸凸顯。Yoon Kim 構建的自動分類卷積神經網絡( CNN),可以提取文本特征,然后通過全連接神經網絡層開展文本分類計算。最后,情感分析方面,以往對于情感傾向的分析需要借助句子中相應的詞匯進行判斷,而深度學習模型的應用能夠充分融合情感分類和詞向量的算法,并且借助深度學習模型實現觀點級的情感分析以及文檔級。
深度學習可以用完全相同的一套工具、技術和方法,在相同的解題框架下以超高的準確性解決不同領域的不同問題。自然語言處理方面,深度學習通過以詞義為起點,學習單詞的詞向量表示,進而構建出完整的語義空間。雖然與語音領域和圖像方面取得的成就相比,深度學習在自然語言處理方面還沒有能夠實現重大突破,但是在很多相關領域已經取得了很好的效果。
(1)在詞法的應用上:深度學習將每一個詞根視為向量,通過神經網絡將不同的向量聯系在一起組成單詞,這樣就可以通過小的語言單位構建更大的語言單元。
(2)在句法的應用上:深度學習能夠學習到句子的不同組成部分,也就是句子結構。
(3)在語義的應用上:深度學習能夠使用向量表達短句的含義,進而通過神經元函數將不同的短句連接起來,以便構成更長的句子進行自主的學習。
(4)在情緒的分析上:結構遞歸的神經網絡能夠自主捕獲到句子中的所有字節,從而能夠正確判斷句子的情緒。
在自然語言處理技術得到了突飛猛進發展的背景下,卷積神經網絡和循環神經網絡等基礎模型的相繼建立促使該技術在機器翻譯、問答交互等各方面都有了很大的進展,但是仍然面臨著很多的問題,主要表現在以下幾個方面:
(1)自然語言的不確定性帶來的挑戰。人類語言的結構和邏輯關系非常的復雜,一詞多義和不同語氣代表的意思截然不同,這些都是常見的現象。即便采取向量技術作為原始輸入信號,但是也不能夠保證將原始的信息分毫不差的輸入到學習的模型之中,而且因為自然語言的不確定性帶來的誤差也會隨著不同間層的傳遞而會被局部放大,想要突破這種不確定性帶來的誤差就需要結合語言的語境。因此,突破自然語言的局限性,結合上下文開展深層語義的理解將是未來重點的發展方向。
(2)大規模語料數據建設面臨的挑戰。自然語言處理技術以統計機器學作為基礎,因而離不開大規模的語料庫的支撐,而語料庫則需要人工建立,比如PennTreebank、WordNet 等。但是,不論哪種類型和規模的語料庫都不可能囊括某一個領域的所有案例。不僅如此,語料庫的劃分過細就會導致信息量過于龐大,相反,如果過粗劃分資料庫則沒有辦法很準確描述語言,從而導致嚴重的統計數據稀疏問題發生。
(3)語義分析面臨的挑戰。自然語言處理面臨的又一個大的挑戰是怎樣可以更加精準表達語義,目前,常用兩種語義分析方法有基于統計學的語義分析及基于語義規則的語義分析。雖然當前這兩種方法都可以進行語義推導和準確判別信息之間的關聯,但是都不能夠完全覆蓋全部語言現象,無法處理不確定事件存在限制和缺陷,因此,知識及建立語義規則是自然語言處理技術的難點。不僅如此,基于統計學的語義分析方法需要大規模語料庫的支持,那么就很容易受到數據稀疏和噪聲的干擾,正如之前所提及的,語義分析仍然是一大難題。
自然語言處理技術在深度學習方面發展還需要在多模態、生成、預練習和神經符號處理等幾個方面進行探索,而其中的關鍵還是在于新的神經網絡模型的開發。
首先,深度學習在圖像、語音、語言幾個領域的研究相對比較獨立,在今后通過深度學習把它們聯系在一起,比如,卷積神經網絡的跨領域使用;跨模態的信息處理,看圖說話就是一個較為典型的例子,多模態的信息處理在未來還有很大的發展空間,在未來還會出現很多新的技術以及新的應用。其次,生成是深度學習給自然語言處理技術帶來的重要變革,目前訓練語料充分的機器翻譯(比如新聞翻譯)已經可以使用,而圍繞著生成的技術創新還存在很大的潛力。再次,預練習是指用大量的無標注數據,實現訓練語言表示模型,然后用于各種語言處理任務。目前,預練習的語言表示模型BERT 用于不同的語言處理任務,促使正確率得到大幅度提升。無標注數據都是大量存在的,預練習技術在促進自然語言處理發展的前景也是非常可觀的。最后,神經符號樹立能夠將神經處理和符號處理進行結合,進而實現更加強大的語言處理能力,可以認為神經處理與符號處理相對應著人的下意識和意識層面的信息處理,這兩種處理是完全不同的特性,將其結合并不是一件簡單的事情,但是一旦取得突破,將會帶來革命性的進步。
深度學習在圖像、聲音和語言等領域都產生了深遠的影響,但是基于深度學習的自然語言處理技術仍存在一定問題,因此,在未來的研究工作中需要不斷的進行研究,相信伴隨著計算能力的不斷增強和訓練數據的進一步增多,未來該技術一定能夠得到進一步突破。