999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

預訓練語言模型探究

2022-09-28 10:48:58李景玉
科技資訊 2022年19期
關鍵詞:文本語言模型

李景玉

(北京電子科技職業學院電信工程學院 北京 100176)

1950 年,圖靈發表了論文《計算機器與智能》,提出著名的圖靈測試,通過一個模仿游戲來測試機器是否能夠像人類一樣思考、對話,而讓測試者無法分辨在對面進行對話的是人類還是機器。圖靈測試可以用來檢驗機器是否像人類一樣智能,它也被稱為是人工智能的開端。從1950年至今,人工智能已經有六十多年的發展歷程,被譽為“人工智能皇冠上的明珠”的自然語言處理技術更是在近幾年得到了飛速發展,自然語言處理相關應用也是隨處可見,分別有基于機器翻譯的翻譯軟件、基于信息檢索的搜索引擎、基于問答系統的智能客服等。而自然語言處理的廣泛應用離不開深度學習等技術,可以說,深度學習等技術為自然語言處理帶來了一場革命,尤其是2017年Transformer 模型的提出,此后大規模預訓練語言模型的誕生和使用,基于“預訓練+精調”的模式儼然已經成為了研究自然語言處理的新范式。

1 預訓練語言模型

1.1 預訓練語言模型概述

語言模型(Language Model,LM)是指描述自然語言概率分布的模型,它在自然語言處理任務中一個非常基礎和重要的。在自然語言處理的任務中,常用的說法是N 元語言模型,具體任務是指當給定詞序列w1w2...wt-1時,需要根據給定序列判斷下一個時刻t可能出現的詞語wt,也就是計算條件概率P(wt|w1w2...wt-1)。N 元語言模型推動了自然語言處理技術的發展,但它本身也有自己的局限性,N 元語言模型容易受到數據稀疏的影響,因此平滑技術往往必不可少。隨后出現的神經網絡語言模型,通過引入神經網絡架構和詞向量,在一定程度上克服了這一局限,極大地緩解了數據稀疏的問題。這也是自然語言處理領域里面早期的預訓練方法,隨著技術的革新,更多優秀的預訓練語言模型被挖掘出來。

廣義上來講,預訓練語言模型是指基于大規模數據訓練的語言模型,具體包括靜態詞向量模型如Word2vec[1]、GloVe[2],動態詞向量模型如CoVe[3]、ELMo[4],基于深層Transformer 的表示模型如GPT[5]、BERT[6]。其實,預訓練這一做法最早源于計算機視覺領域,學者們會采用以ImageNet[7]為代表的大規模圖像數據對模型進行一次預訓練,再根據具體領域進行參數精調。而預訓練語言模型被更多人熟知和應用,則是從以BERT為代表的基于大規模數據的預訓練語言模型的提出開始的。

1.2 使用預訓練語言模型的優勢

預訓練語言模型相較于傳統的文本表示模型,其具有大數據、大模型和大算力“三大”特點[8]。大數據是指預訓練語言模型在訓練時采用的數據規模較大,訓練數據規模的增大能夠提供更多豐富的上下文信息,同時也能夠降低較差質量的語料對預訓練語言模型的影響;大模型是指預訓練語言模型的參數量大,要求的并行程度高;大算力是指要實現基于大規模文本的預訓練語言模型所必備的硬件條件,也就是被大家熟知的GPU算力。

預訓練語言模型的三大特點是預訓練語言模型能夠得到廣泛使用的原因。一方面,大數據時代是信息爆炸的時代,傳統的自然語言處理方法、深度學習技術都過分依賴大規模的有標注語料,而預訓練語言模型的大規模數據可以采用無標注語料,這恰好可以解決對大規模有標注語料的依賴性問題。另一方面,預訓練語言模型通過大算力來訓練模型的大量參數,大算力意味著對GPU算力有要求,大量參數意味著訓練的時間會很長,高速GPU算力當然可以有效減短訓練時間,然而高速的GPU算力并不是每一個機構或個人都能擁有的,通過采用權威機構預訓練的語言模型,可以直接進行后續網絡構建、參數調優。

預訓練語言模型也沒有讓人失望,它的出現與發展幫助自然語言處理不斷突破,在自然語言處理的眾多方向或領域中都取得了大幅度提升。

2 主流技術與方法

近年來,隨著預訓練語言模型的發展,在大規模無標簽的語料上訓練通用模型成為一種趨勢。人們利用已經訓練好的模型對文本中的語句進行向量化的表示,再利用這些向量在具體的問題中進行參數調優、計算。目前,比較具有代表性的預訓練語言模型包括GPT[5]、BERT[6],以及其他進一步優化的預訓練語言模型。

2.1 GPT

GPT(Generative Pre-Training)[5]是由OpenAI 公司于2018年提出的一種生成式預訓練模型,通過在大規模文本上訓練深層的神經網絡模型,來獲取更豐富的語義信息,從而提升自然語言處理任務的效果。GPT是一個基于深層Transformer 的單向語言模型,也就是說,GPT 只會采用目標詞的上文來進行計算。GPT 采用的是12 層深度神經網絡,在隨后的研究中,GPT 的升級版本GPT-2,則是采用48 層深度神經網絡,更大規模的語料庫,參數高達15億個[9]。

2.2 BERT

BERT(Bidirectional Encoder Representation from Transformers)[6]是Devlin 等人于2018 年提出的一種基于深層Transformer 的預訓練語言模型,它可以利用大規模無標注語料,獲取其中豐富的語義信息。BERT一經問世,就在多個自然語言處理任務中表現優異,刷新了當時11項自然語言處理的任務記錄。

BERT 模型是由多層Transformer 構成的,可以分為兩個預訓練任務:一是掩碼語言模型,二是下一句預測任務。其中,掩碼語言模型是BERT 預訓練語言模型的核心,它通過隨機掩碼的訓練方式,讓機器獲得還原掩碼部分詞語的能力,這種方式類似“完形填空”。下一句預測任務則可以構建兩段文本之間的關系。那么通過采用BERT模型,可以得到上下文語義表示,這時就可以根據下游任務進行參數調整。

2.3 其他預訓練語言模型

因為BERT 模型的優異表現,學者們也將視線逐漸投向BERT,并對BERT 進行改進,比如K-BERT[10]、ALBERT[11]、ERNIE[12]等,而基于BERT模型的改進模型的不斷誕生,也證實了BERT 模型本身的優越性。目前,具有代表性的、被進一步優化的預訓練語言模型有XLNet[13]、RoBERTa[14]、ALBERT[11]和ELCETRA[15]等。

2.3.1 XLNet

XLNet(Extra Long Net)[13]是一種基于Transformer-XL 的自回歸語言模型,也是GPT、BERT 模型的延伸。XLNet預訓練語言模型的訓練過程引入雙流自注意機制,同一個單詞具有兩種不同表示:內容表示向量h和查詢表示向量g,同時XLNet 提出一種排列語言模型(Permutation Language Model),對句子的詞序列的建模順序做出更改,從而實現了雙向上下文的建模方式。

2.3.2 RoBERTa

RoBERTa(Robustly Optimized BERT Pre-training Approach)[14]是對BERT 的擴展和延伸,在RoBERTa 中引入了動態掩碼技術,舍棄了NSP任務,同時采用了更大規模的語料進行預訓練,設置了更大的批次以及更長的預訓練步數,通過改進BERT的每個細節,并進行詳盡的實驗,從而提升RoBERTa預訓練語言模型在多個自然語言處理任務中的表現。

2.3.3 ALBERT

ALBERT(A Lite BERT)[11]針對BERT 模型在預訓練時會占用大量計算資源以及訓練速度較慢的問題,通過詞向量參數因式分解和跨層參數共享兩項技術,來降低訓練模型時的內存消耗,同時提高ALBERT 模型的訓練速度。

2.3.4 ELCETRA

ELCETRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)[15]是由谷歌與斯坦福大學共同研發的預訓練語言模型,因其小巧的模型體積以及良好的模型性能受到了廣泛關注。ELECTRA 的預訓練框架是由生成器和判別器兩部分構成的。生成器相當于一個小的掩碼語言模型(Masked Language Model,MLM),能夠在[MASK]的位置預測原來的詞,判別器則采用替換詞檢測(Replaced Token Detection,RTD)代替任務代替了掩碼語言模型,來判斷生成器采樣后的句子中的每個詞是否被替換。

3 預訓練語言模型的應用

經過大規模語料的預訓練后,對預訓練語言模型如何應用在下游任務中,通常的做法是將預訓練語言模型作為下游任務模型的基底,然后利用預訓練語言模型得到文本對應的上下文語義表示,再參與到下游任務中。也就是說,預訓練語言模型在下游任務的訓練中,會不斷地更新自身參數。這種預訓練語言模型的應用方法也被稱為模型精調。模型精調基于預訓練語言模型的大量參數,訓練下游任務的模型,這樣可以使得預訓練語言模型的大量參數與下游任務的匹配度提高。目前,以GPT[5]、BERT[6]、XLNet[13]等為代表的預訓練語言模型,采用預訓練加微調的自然語言處理基本流程已經成為進一步研究和發展的主導方向[16-18]。

3.1 文本分類

文本分類任務是自然語言處理任務中較為常見的一種任務,以BERT 預訓練語言模型為例,基于BERT完成單句文本分類任務的網絡結構如圖1 所示,其由輸入層、編碼層和輸出層這3個部分構成。

圖1 基于BERT的文本分類任務網絡結構

輸入層的初始輸入為文本s 和句子開頭標識[CLS]、結尾標識[SEP],其中文本s根據詞表劃分后的字符串,記為ti,i ∈N,由此得到,文本s 可以表示成字符串的集合s={t1,t2,…,tN}。原始輸入文本記為X。

X=[CLS],t1,t2,...,tn,[SEP]

輸入文本X由字嵌入向量、分段嵌入向量、位置編碼向量組合而成后,得到BERT 輸入表示V。在BERT構成的編碼層,輸入表示V 經過由多層Transformer 構成的編碼層后,得到BERT 模型的輸出向量Tn,n ∈N。與BERT 預訓練階段的下一句預測任務類似,文本分類任務也使用[CLS]位進行預測。因此,利用輸出向量Tn中的首位元素,經過Softmax 操作后,得到對應類別的概率分布。

在具體應用中,張宇豪[19]基于BERT 的base 版本完成新聞短文本分類,同時針對BERT 模型存在的問題,提出改進的N-BERT 模型完成新聞短文本分類任務。針對短文本分類任務,郭騰州[20]提出S-BERT 模型,即將BERT模型和支持向量機分類器進行融合,從而有效提升短文本分類的效果。劉豪[21]將BERT 與GSDMM 融合完成聚類指導的短文本分類任務。陸曉蕾[22]基于BERT 預訓練語言模型,構建BERT-CNN 模型應用于文檔分類任務,并在專利文獻分類領域中取得一定進展。

3.2 閱讀理解

機器閱讀理解(Machine Reading Comprehension,MRC)任務一直是自然語言處理眾多任務中的一個重要任務。近年來,因深度學習技術的發展,機器閱讀理解任務稱為自然語言處理領域熱門的研究方向之一。根據數據集的不同,也就是問題和答案的不同表現形式,機器閱讀理解可以被分成不同的任務形式:填空式、選擇式、抽取式、生成式、會話式、多跳推理。以抽取式閱讀理解為例,閱讀理解任務就是給定篇章P、問題Q,要求機器在讀取篇章P 和問題Q 后,能夠給出答案A,也就是在篇章P中抽取出部分文本片段作為答案A。以BERT 預訓練語言模型為例,基于BERT 的抽取式閱讀理解模型的網絡結構如圖2所示,由輸入層、編碼層和輸出層這3個部分構成。

圖2 基于BERT的抽取式閱讀理解模型的網絡結構

在輸入層中,將經過分詞后的問題Q、篇章P和特殊標記拼接得到編碼層的輸入序列X,具體如下。

Q=q1q2...qi

P=p1p2...pj

X=[CLS]q1q2...qi[SEP]p1p2...pj[SEP]

其中,i表示分詞后問題序列的長度,j表示分詞后篇章文本的序列長度,[CLS]表示文本序列開始的特殊標記,[SEP]表示文本序列之間的分隔標記。

輸入文本X由字嵌入向量、分段嵌入向量、位置編碼向量組合而成后,得到BERT 輸入表示V。經過BERT編碼層后,可以得到上下文語義表示h。

h=BERT(V)

V=v1,v2,...,vn

h ∈Rn×d

其中,n表示輸入序列的長度,d表示BERT的隱含層維度。

將得到的上下文語義表示h作為輸入,通過Softmax 函數預測答案起始位置概率Ps 和終止位置概率Pe。當得到起始位置概率和終止位置概率后,可以采用不同答案抽取方法得到最終答案。

2016 年斯坦福大學發布公開數據集SQuAD[23],目前針對SQuAD2.0 數據集面向全世界學者推出機器閱讀理解榜單,大力地推動了機器閱讀理解技術的發展。目前面向中文的閱讀理解數據集主要有抽取式的閱讀理解數據集DuReader-robust[24]和CMRC2018[25]等,公開數據集極大地推動了中文閱讀理解技術的發展。CUI Y M 等人[26]基于RoBERTa 模型提出MacBERT 模型,在CMRC2018閱讀理解數據集上F1值達到60.2%。隨后,CUI Y M 等人[27]提出中文預訓練模型BERTwwm 模型,該模型在CMRC2018 閱讀理解數據集上被證實性能優于BERT 模型。賈欣[28]提出基于遷移學習的BERT-wwm-MLFA 模型,該模型被證實優于BERT模型。CUI Y M 等人[29]提出跨語言閱讀理解模型Dual-BERT,該模型在CMRC2018 閱讀理解數據集上F1達到了90.2%。

3.3 其他應用

除了自然語言處理的基礎任務文本分類和熱門任務機器閱讀理解,預訓練語言模型在自然語言處理的其他任務中也表現優異,極大地推動了自然語言處理技術的發展。比如:朱巖等人[30]將RoBERTa-WWM 模型應用于命名實體識別;方萍等人[31]將改進的BERT模型應用于摘要抽取;ALAPARTHI S[32]將BERT 模型應用于電影評論數據集的情感分析任務。

4 結語

近10 年來,深度學習技術的飛速發展,引發了自然語言處理領域的一系列變革。而預訓練語言模型的出現,使得構建模型不用再過度依賴于有標注的語料,預訓練語言模型可以從大量無標注文本中學習到豐富的語義信息,這無疑更快速地推動了自然語言處理領域的發展,并取得了一系列的突破。

未來除了進一步改進單一語言的預訓練語言模型,如何能夠更好地融合多種語言的預訓練語言模型,以及如何能夠將圖像、視頻等多種模態的數據與自然語言融合,從而構成多模態預訓練語言模型,也將會成為學者們關注的熱點。

猜你喜歡
文本語言模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产不卡国语在线| 亚洲天堂首页| 日韩AV无码免费一二三区| 国产国产人免费视频成18| 无码日韩人妻精品久久蜜桃| 91视频免费观看网站| 成人免费视频一区二区三区| 欧美精品一区二区三区中文字幕| 永久免费无码日韩视频| 99热免费在线| 色九九视频| 99久久免费精品特色大片| 国产精品永久久久久| 波多野结衣一区二区三视频| 亚洲国产亚综合在线区| 欧美激情视频一区二区三区免费| 亚洲成在线观看 | 乱码国产乱码精品精在线播放| 中国一级特黄大片在线观看| 欧美午夜视频在线| 无码专区在线观看| 丁香综合在线| 国产亚洲欧美在线人成aaaa | 色偷偷男人的天堂亚洲av| 欧美激情第一区| 伊人色天堂| 国产丝袜无码精品| 毛片网站免费在线观看| 精品国产美女福到在线不卡f| 亚洲欧洲免费视频| 喷潮白浆直流在线播放| 五月天在线网站| 欧美另类精品一区二区三区| 亚洲一区二区精品无码久久久| 久久久久亚洲精品成人网| 国产乱人伦AV在线A| 国产精品999在线| 欧美日韩激情在线| 中文国产成人精品久久一| 毛片在线看网站| 91福利一区二区三区| 日本免费高清一区| 99爱在线| 欧美精品成人一区二区视频一| 综合色88| 日韩高清在线观看不卡一区二区| 青青草国产免费国产| 久久青草热| 国产高清在线观看| 四虎综合网| 成人国产精品2021| 亚洲色图另类| 日韩国产精品无码一区二区三区| 久久天天躁夜夜躁狠狠| 青草免费在线观看| 成年A级毛片| 在线无码av一区二区三区| 国产sm重味一区二区三区| 最新日韩AV网址在线观看| 熟妇无码人妻| 亚洲 欧美 偷自乱 图片 | 国产精品久久久久久影院| www.狠狠| 亚洲综合色吧| 日本在线亚洲| 亚洲男人天堂2018| 亚洲福利视频一区二区| 手机看片1024久久精品你懂的| 色妞www精品视频一级下载| 999国产精品永久免费视频精品久久| 亚洲精品成人片在线观看| 久草国产在线观看| 91精品国产自产91精品资源| 久操中文在线| 91福利国产成人精品导航| 亚洲欧洲国产成人综合不卡| 国产尤物jk自慰制服喷水| 久久女人网| 熟女日韩精品2区| 67194亚洲无码| 91午夜福利在线观看| 欧美性爱精品一区二区三区 |