999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的自然語言處理研究綜述

2020-08-31 06:14:08
智能計算機與應用 2020年4期
關鍵詞:語義深度文本

羅 梟

(浙江農林大學 信息工程學院, 浙江 杭州311300)

0 引 言

目前,人工智能領域中最熱的研究方向當屬深度學習。 深度學習的迅速發展受到了學術界和工業界的廣泛關注,由于其擁有優秀的特征選擇和提取能力,對包括機器翻譯、目標識別、圖像分割等在內的諸多任務中產生了越來越重要的影響。 同時在自然語言處理(Natural Language Processing, NLP)、計算機視覺(Computer Vision, CV)、語音識別(Speech Recognition, SR)領域得到廣泛應用。

自然語言處理被稱為人工智能皇冠上的明珠,因此如何使用深度學習技術推動NLP 中各個任務的發展是當前研究熱點和難點。 語言是人類所特有的一種能力,而如何用自然語言與計算機進行通信,是人們長期以來追求的。 自然語言處理就是實現人機間通過自然語言交流。 但自然語言是高度抽象的符號化系統,文本間存在數據離散、稀疏,同時還存在多義詞、一詞多義等問題。 而深度學習方法具有強大的特征提取和學習能力,可以更好地處理高維度稀疏數據,在NLP 領域諸多任務中都取得了長足發展。 因此,本文將對當前深度學習在NLP 領域的發展展開綜述性討論,詳細闡述目前NLP 的研究進展和最新的技術方法。

1 深度學習概述

深度學習的概念最早是由Hinton[1]在2006 年提出的,是研究如何從數據中自動提取多層特征表示。 其核心思想是通過數據驅動的方式,采用一系列的非線性變換,從原始數據中提取由低層到高層、由具體到抽象的特征。 不同于傳統的淺層學習,深度學習強調模型結構的深度,通過增加模型深度來獲取深層次含義。 其次,深度學習明確特征學習的重要性,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預測更容易。 最經典的深度學習網絡包括卷積神經網絡(Convolutional Neural Network, CNN)和遞歸神經網絡(Recurrent Neural Network, RNN)。

1.1 卷積神經網絡

CNN 是一種前饋神經網絡,區別于其它神經網絡模型,卷積運算操作賦予了CNN 處理復雜圖像和自然語言的特殊能力[2]。 CNN 神經元之間采用局部連接和權值共享的連接方式。 其中,局部連接是指每個神經元只需對圖像或者文本中的部分元素進行感知,最后的神經元對感知到的局部信息進行整合,最后得到圖像或文本的綜合表示信息。 權值共享使得模型在訓練時,可以使用較少的參數,以此來降低深度神經網絡模型的復雜性,加快模型訓練速度,從而使深度神經網絡模型可以被應用到實際生產。

卷積神經網絡通常由輸入層、卷積層、池化層、全連接層和輸出層5 部分組成,CNN 的網絡結構如圖1 所示。

圖1 卷積神經網絡結構圖Fig.1 The structure of Convolutional Neural Network

在自然語言處理領域,CNN 的輸入通常是將單詞或者句子表示成向量矩陣。 卷積層是CNN 中的重要組成部分,卷積層中的每一個節點輸入是上一神經網絡層的一部分,其目的是提取輸入圖片或者文本的不同特征。 卷積層在處理文本序列問題時,通常使用不同大小的濾波器提取文本序列中不同特征。 池化層是為了降低網絡模型的輸入維度,從而降低網絡模型復雜度,減少整個模型參數,使神經網絡模型具有更高的魯棒性,同時在一定程度上能有效防止模型過擬合問題。 其中最常見的池化方式為最大池化(Max-Pooling)和平均池化(Average-Pooling)。 CNN 一般會在卷積層和池化層之后加上全連接層,該層可以把高維度轉換成低維度,同時把有用的信息保留下來。 通常將卷積層、池化層的組成部分視為自動提取特征的過程,在特征提取完成之后,需要使用輸出層來完成分類或者預測任務。一般將學習到的高維度特征表示饋送到輸出層,通過Softmax 函數可以計算出當前樣本屬于不同類別的概率。

1.2 遞歸神經網絡

遞歸神經網絡具有樹狀層結構,網絡節點按其連接順序對輸入信息進行遞歸的人工神經網絡[3]。RNN 具有可變的拓撲結構且權重共享,多被用于包含結構關系的機器學習任務,在NLP 領域受到研究者的重點關注。

RNN 的基本結構包括輸入層、隱藏層和輸出層。 與傳統神經網絡最大的區別在于RNN 每次計算都會將前一詞的輸出結果送入下一詞的隱藏層中一起訓練,最后僅僅輸出最后一個詞的計算結果。RNN 的缺點:

(1)對短期的記憶影響比較大,但對長期的記憶影響很小,無法處理很長的輸入序列。

(2)訓練RNN 需要極大的成本投入。

(3)RNN 在反向傳播時求底層的參數梯度會涉及到梯度連乘,容易出現梯度消失或者梯度爆炸[4]。 而 長 短 時 記 憶 網 絡(Long Short - Trem Memory, LSTM)和門控循環單元(Gated Recurrent Unit, GRU)在一定程度上可以解決該問題。

2 NLP 應用研究進展

NLP 領域主要研究任務包括語言建模、機器翻譯、問答系統、情感分析、文本分類、閱讀理解、中文分詞、詞性標注及命名實體等。 國內外學者使用深度學習在NLP 各個任務都取得了前所未有的發展。

Conneau 等人[5]將殘差網絡和CNN 相結合,提出一種最多包含29 個卷積層的深度神經網絡架構VDCNN 用 于 文 本 分 類。 Chen[6]將 條 件 隨 機 場(Conditional Random Field, CRF)引入情感分析中,利用BiLSTM 和CRF 組合模型捕獲句子中不同目標,然后利用一維CNN 進行分類。 Yang[7]提出結合注意力機制的層次結構模型,該模型通過使用門控循環單元(Gated Recurrent Unit, GRU)分別對詞和句子進行建模,然后在GRU 之后加入注意力機制,并成功將該模型應用在篇章級別文本分類任務中。Choi 等人[8]提出一種細粒度注意力用于機器翻譯任務中,其中上下文向量的每個維度都將收到單獨的注意力分數。 Wu 等人[9]提出一種輕量級的機器翻譯模型,將動態卷積與自注意力機制相結合在英語—德語翻譯任務中取得了優異的效果。 Tan 等人[10]提出一種在匹配聚合框架下,利用多個注意力函數匹配句子對的多向注意力網絡,并成功將該網絡應用在語義相似計算任務中。 Tay 等人[11]提出一種以緊密連接方式的神經網絡結構用于閱讀理解任務,該網絡以緊密方式連接網絡的所有層,建立了跨層次的通道和查詢之間的關系,此外該網絡的密集連接器是通過注意力機制學習,而不是標準的跳躍連接器。

黃改娟等人[12]提出一種雙重注意力模型,在模型訓練過程中使用微博數據集,數據中不僅包含文本信息還包括情感符號。 通過注意力機制和情感符號的結合,模型增加了對微博數據中情感知識的獲取能力,進而將分類的準確率進行了提升。 金志剛等人[13]通過對BiLSTM 和Bagging 算法的改進,提出一種新的情感分析Bi-LSTMM-B 模型,該模型的優點在于結合了深度學習模型可提取抽象特征的優勢和集成學習多分類器共同決策的思想,相比于其它模型,該模型提高了情感分析的準確率。 張新路[14]針對維吾爾語到漢語這種低資源語料庫使用神經機器翻譯容易出現局部最優解問題,提出利用集成策略整合多個模型預測概率分布,將多個模型作為一個整體,訓練選取出得分最高的候選作為翻譯結果輸出。 陳瑛等人[15]以食品安全為研究對象,采用Lucene 全文檢索架構和LSTM 構建了食品安全自動問答系統。 李佳媛等人[16]提出一種基于語義詞典和語料庫相結合的詞語語義相似度計算模型,在Word Similarity-353 數據集上取得了優異結果,顯著提高了中文詞語語義相關度計算效果。

3 預訓練語言模型

預訓練思想的本質是模型參數不再隨機初始化,而是通過語言模型進行訓練。 目前NLP 各項任務的解決思路是預訓練加微調。 預訓練對于NLP任務有著巨大的提升幫助,而預訓練語言模型也越來越多,從最初的Word2vec[17]、Glove[18]到通用語言文本分類模型ULMFiT[19]以及EMLo[20]等。 而當前最優秀的預訓練語言模型是基于Transformer 模型構建。 該模型是由Vaswani 等人[21]提出的,其是一種完全基于Self-Attention 所構建的,是目前NLP領域最優秀的特征提取器,不但可以并行運算而且可以捕獲長距離特征依賴。

3.1 BERT

當前影響最大的預訓練語言模型是基于Transformer 的雙向深度語言模型—BERT[22]。 其網絡結構如圖2 所示。

圖2 BERT 模型Fig.2 BERT model

BERT 是由多層雙向Transformer 解碼器構成,主要包括2 個不同大小的版本:基礎版本有12 層Transformer,每個Transformer 中的多頭注意力層是12 個, 隱 藏 層 大 小 為 768; 加 強 版 有 24 層Transformer,每個Transformer 中的多頭注意力層是24 個,隱藏層大小為1 024。 由此可見深而窄的模型效果要優于淺而寬的模型。 目前BERT 在機器翻譯、文本分類、文本相似性、閱讀理解等多個任務中都有優異的表現。 BERT 模型的訓練方式包括2種:

(1)采用遮蓋單詞的方式。 將訓練語料中的80%的單詞用[MASK]替換,如my dog is hairy—>my dog is [MASK]。 還有10%的單詞進行隨機替換,如my dog is hairy—>my dog is banana。 剩下10%則保持句子內容不變。

(2)采用預測句子下一句的方式。 將語料中的語句分為A 和B,B 中的50%的句子是A 中的下一句,另外的50%則是隨機的句子。 通過上述2 種方式訓練得到通用語言模型,然后利用微調的方法進行下游任務,如文本分類、機器翻譯等任務。 較比以前的預訓練模型,BERT 可以捕獲真正意義上的雙向上下文語義。 但BERT 也有一定的缺點,既在訓練模型時,使用大量的[MASK]會影響模型效果,而且每個批次只有15%的標記被預測,因此BERT 在訓練時的收斂速度較慢。 此外由于在預訓練過程和生成過程不一致,導致在自然語言生成任務表現不佳,而且BERT 無法完成文檔級別的NLP 任務,只適合于句子和段落級別的任務。

3.2 XLNet

XLNet[23]是一種廣義自回歸的語言模型,是基于Transformer-XL[24]而構建的。 Transformer 的缺點:

(1)字符之間的最大依賴距離受輸入長度的限制。

(2)對于輸入文本長度超過512 個字符時,每個段都是從頭開始單獨訓練,因此使訓練效率下降,影響模型性能。 針對以上2 個缺點,Transformer-XL引入了2 個解決方法:分割循環機制(Division Recurrence Mechanism)和相對位置編碼(Relative Positional Encoding)。 Transformer-XL 的測試速度更快,可以捕獲更長的上下文長度。

無監督表征學習在NLP 領域取得了巨大成功,在這種理念下,很多研究者探索了不同的無監督預訓練目標,而自回歸語言建模和自編碼語言是2 個最成功的預訓練目標。 而XLNet 是一種集合了自回歸和自編碼2 種方式的泛化自回歸方法。 XLNet不使用傳統自回歸模型中的固定前向或后向因式分解順序,而使用一種隨機排列自然語言預測某個位置可能出現的詞,這種方式不僅可以使句子中的每個位置都能學習來自所有位置的語境信息,而且還可以構建雙向語義,更好地獲取上下文語義。 由于XLNet 采用的是Transformer-XL,因此模型性能更優,尤其在包含長文本序列的任務中。 通過XLNet訓練得到語言模型后,可以用于下游相關任務,如閱讀理解,基于XLNet 得到的結果已經遠超人類水平,在文本分類、機器翻譯等任務中取得了優異的效果。

3.3 ERNIE

無論是BERT 還是XLNet 語言模型,在英文語料中表現都很優異,但在中文語料中效果一般,ERNIE[25]則是以中文語料訓練得出一種語言模型。ERNIE 是一種知識增強語義表示模型,其在語言推斷、語義相似度、命名實體識別、文本分類等多個NLP 中文任務上都有優異表現。 ERNIE 在處理中文語料時,通過對預測漢字進行建模,可以學習到更大語義單元的完整語義表示。 ERNIE 模型內部核心是由Transformer 所構成,其模型結構如圖3 所示。 模型結構主要包括2 個模塊,下層模塊的文本編碼器(T-Encoder)主要負責捕獲來自輸入標記的基本詞匯和句法信息,上層模塊的知識編碼器(KEncoder)負責從下層獲取的知識信息集成到文本信息中,以便能夠將標記和實體的異構信息表示成一個統一的特征空間中。

圖3 ERNIE 模型Fig.3 ERNIE model

ERNIE 模型通過建立海量數據中的實體概念等先驗語義知識,學習完整概念的語義表示,即在訓練模型時采用遮蓋單詞的方式通過對詞和實體概念等語義單詞進行遮蓋,使得模型對語義知識單元的表示更貼近真實世界。 此外,ERNIE 模型引入多源語料訓練,其中包括百科類、新聞資訊類、論壇對話等數據。 總體來說,ERNIE 模型通過對實體概念知識的學習來學習真實世界的完整概念語義表示,使得模型對實體概念的學習和推理能力更勝一籌,其次通過對訓練語料的擴充,尤其是引入了對話語料使得模型的語義表示能力更強。

4 結束語

本文主要對深度學習中的卷積神經網絡和遞歸神經網絡做了簡單介紹,闡述了目前NLP 領域各個任務的研究進展。 當前NLP 的研究重點是預訓練語言模型,因此詳細介紹BERT、XLNet 和ERNIR3種模型。 盡管深度學習在NLP 各個任務中取得了巨大成功,但若大規模投入使用,仍然有許多研究難點需要克服。 深度神經網絡模型越大,使得模型訓練時間延長,如何減小模型體積但同時保持模型性能不變是未來研究的一個方向。 此外深度神經網絡模型可解釋性較差,在自然語言生成任務研究進展不大。 但是,本文認為隨著深度學習的不斷研究深入,在不久的將來,NLP 領域將會取得更多研究成果和發展。

猜你喜歡
語義深度文本
深度理解一元一次方程
語言與語義
在808DA上文本顯示的改善
深度觀察
深度觀察
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
深度觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 天天综合网亚洲网站| 思思热在线视频精品| 57pao国产成视频免费播放| 成年人福利视频| 无码aaa视频| 亚洲Aⅴ无码专区在线观看q| 尤物成AV人片在线观看| 3344在线观看无码| 暴力调教一区二区三区| 伊人成人在线| 国产成人乱无码视频| 日本91视频| 久久这里只有精品66| 欧美一道本| 亚洲制服丝袜第一页| YW尤物AV无码国产在线观看| 视频二区亚洲精品| 一级毛片基地| 四虎永久在线视频| 浮力影院国产第一页| 亚洲男人的天堂在线观看| 亚洲欧美日韩成人高清在线一区| 91黄视频在线观看| 国产激情无码一区二区免费| 色爽网免费视频| 午夜综合网| 国产97色在线| 欧美亚洲一二三区| 自拍偷拍欧美日韩| 欧美成人二区| 欧洲极品无码一区二区三区| 中文字幕在线观| 久久美女精品| 亚洲人在线| 国产一级裸网站| 国产区91| 精品伊人久久久大香线蕉欧美| 国产精品专区第1页| 国产亚洲欧美日本一二三本道| 在线观看91精品国产剧情免费| 亚洲欧美成人影院| 欧美人人干| 思思热精品在线8| 免费高清毛片| h网址在线观看| 2022国产无码在线| 四虎国产永久在线观看| 五月激激激综合网色播免费| 99国产精品国产| 黄色不卡视频| 免费在线a视频| 欧美自慰一级看片免费| 婷婷色中文| 国产主播喷水| 欧美成一级| 中文无码伦av中文字幕| 国产成人无码综合亚洲日韩不卡| 日本一区二区三区精品视频| 久久女人网| 91福利片| 手机精品福利在线观看| 国产成人高清亚洲一区久久| 青青草一区二区免费精品| 日韩激情成人| 曰AV在线无码| 九九九国产| 欧美精品影院| 国产成人综合亚洲欧美在| 色综合热无码热国产| 日韩无码视频网站| 日韩在线永久免费播放| 欧美日韩亚洲综合在线观看| 白丝美女办公室高潮喷水视频| 一本大道在线一本久道| 久久精品人人做人人| 久久青草免费91观看| 凹凸国产分类在线观看| 国产爽妇精品| 免费观看成人久久网免费观看| 岛国精品一区免费视频在线观看| 77777亚洲午夜久久多人| 尤物成AV人片在线观看|