999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于UniLM預訓練的改進數學問答模型

2024-10-19 00:00:00林云
物聯網技術 2024年10期

摘 要:自然語言處理(NLP)技術,在個性化內容推薦系統、對話式人工智能等多個領域發揮著重要作用。在NLP領域,詞嵌入和長短時記憶網絡(LSTM)等神經網絡模型取得了顯著進展,提升了自然語言處理的能力。盡管這些模型在實際應用中表現出色,但它們通常需要大量數據來進行訓練,這在一定程度上限制了模型訓練的效果和泛化能力。因此,研究者們一直在探索新的方法來提高模型的訓練效率,同時減少對大規模數據集的依賴。研究提出了一種改進的統一預訓練語言模型(UniLM),它結合了Transformer和注意力機制模型的優勢,能夠完成從單向到雙向的多種語言預測任務。在大規模數學問答數據集的實驗中,改進的模型展現出比傳統模型更優的性能,準確率最高達80.56%,證明了其在自然語言處理任務中的能力。

關鍵詞:自然語言處理;自然語言生成;無監督預訓練;有監督微調;UniLM;雙向預測

中圖分類號:TP3-0; 文獻標識碼:A 文章編號:2095-1302(2024)10-0-03

0 引 言

自然語言處理(NLP)的核心是基于統計的語言模型(LM)[1]。語言模型是一系列單詞的概率分布,可以定量評估一串字符出現的概率。LM在語音識別、機器翻譯、詞性標注、解析、光學字符識別、手寫識別、信息檢索等任務中得到了廣泛應用[2]。它作為一種概率模型被用來建模語言規則,能夠為NLP處理相關任務提供強大助力。

常見的LM有兩種類型:統計語言模型和神經語言模

型[3]。統計LM使用傳統的統計技術,如利用N-gram、隱馬爾可夫模型(HMM)和某些語言規則來學習單詞的概率分布[4]。然而,在這些模型中,隨著文本的增大,數據稀疏性和不準確的問題變得愈發嚴重,使得模型預測準確率降低。為了解決使用N-gram模型估計概率時的數據稀疏性問題,研究人員嘗試使用神經網絡來研究語言模型,并嘗試使用各種機制來優化語言模型的文本分析能力,例如CNN、RNN和Transformer[5-6]。CNN LSTM架構使用卷積神經網絡(CNN)層對輸入數據進行特征提取,結合LSTM支持序列預測,改善了RNN中存在的長期依賴問題。此外,使用Bert預訓練模型可以實現良好的預測性能,相較于傳統的統計技術優勢明顯。文獻[7]提出了一種基于Bert的簡單且輕量級的文本分類深度學習模型。該架構類似word2vec CBOW模型[8]。實驗結果表明,添加預訓練的模型能夠更加準確地識別文本的上下文關系,取得較好的文本分析結果。

預訓練能夠更好地幫助模型達到預期效果。例如,百度提出了一種預訓練連續學習性框架ERNIE[9]。該框架通過學習算法,將大數據預設與多源知識相結合,不斷吸收大量數據文本中的文本結構和知識體系。通過不斷學習,ERNIE已經在40多個經典的NLP任務中取得了SOTA效果,并在國際名人比賽中贏得了十多位冠軍。近年來,微軟研究院在Bert的基礎上推出了最新的預訓練語言模型—UniLM。UniLM是一種簡單而有效的多模態文本預訓練方法。與Bert不同,UniLM可以使用不同的自注意力掩碼來聚合不同類型的語言模型的上下文[10]。UniLM結合了AR和AE兩種語言模型的優點,在抽象摘要、生成式問題回答和語言生成數據集的抽樣領域獲得了優異的成績。

本文提出了一種基于UniLM的半監督方法,該方法使用無監督預訓練和有監督微調方式來處理語言任務。算法的訓練過程分為兩個階段:第一階段使用未標記數據上的語言建模目標來學習神經網絡的初始參數;第二階段使用相應的有監督目標來使這些參數適應目標任務。此外,為了評估本文模型與其他模型的性能,我們在數據集MAWPS上進行了一系列實驗。結果顯示,所提出模型的準確率最高為80.56%。

1 系統設計

本文所提出的模型是一個類似于Bert的多層Transformer網絡。與Bert相比,該模型可以同時實現3個預訓練目標,模型中還添加了一種新的序列到序列的訓練方法,使得模型在自然語言理解(NLU)和自然語言生成(NLG)任務上表現得更加出色。此外,模型通過加入掩碼詞的上下文語境完成了對掩碼詞的預測,將任務轉換成填空任務。對于不同的訓練目標,應用不同的上下文進行處理。

該模型的執行流程如圖1所示。

1.1 輸入

輸入x都是由單詞標記組成的序列,該序列可以是短句或者長句。對于每個輸入標記ti,通過對應的標記嵌入、位置嵌入和段落嵌入計算其相應的xi。對于序列開頭/結尾的標記,添加了一個特殊的分類嵌入(CLS)和每個段落的特殊序列結束嵌入(SEP)。

1.2 Transformer編碼器

模型使用多層雙向Transformer編碼器來編碼由輸入表示的上下文信息。給定輸入向量X={xi}Ni=1,L層Transformer的輸入編碼形式如下:Hl=Transformer(Hl-1)。其中,l∈[1, L],H0=X, HL=[h1L, ..., hNL],Hl是隱式向量,用作ti的上下文表示。

1.3 預訓練目標

為充分利用語言中豐富的句內結構和句間結構,模型在完成編碼后,對原始的UniLM預訓練目標進行了兩方面擴展:詞結構目標(主要用于單句任務)和句子結構目標(主要用于長句任務)擴展。對輔助目標和原始掩碼語言模型目標一同進行預訓練,使語言模型能夠在統一的模型中找到內部的語言結構。模型結構如圖2所示。

1.4 詞結構目標

展示同時訓練新的詞目標和掩碼語言模型目標的方法,對每個輸入序列,首先像UniLM那樣,隨機掩蓋15%的標記,然后將輸出向量發送到softmax分類器,以預測原始掩碼。給定一個隨機打亂的標記(考慮新單詞的順序),將詞目標等同于最大化每個打亂的標記被放置在正確位置的概率。該概率可以用以下公式表示:

式中:θ表示模型中可訓練的參數;K表示每個打亂子序列的長度,較大的K將迫使模型重構更長的序列,同時注入更多的干擾輸入,取K=3來平衡模型的可重現性和魯棒性。

1.5 句子結構目標

原始的UniLM模型能夠準確預測下一個句子(準確率為97%~98%)。在設計的模型中,需要預測的不僅是下一個句子,還包括前一個句子,以使預訓練的語言模型以雙向方式感知句子的順序。如圖2所示,給定一對句子S1、S2,其中S2可能是S1的下一個句子,或相反,或無關。一般而言,S2是S1的下一個句子或前一個句子的概率為2/3,或者它們是無關句子的概率為1/3。我們使用SEP標記連接S1和S2,然后將CLS編碼向量輸入到softmax分類器進行三類預測。

2 實驗和結果分析

為了評估所提出模型在數學問題上的有效性,設計了多組實驗進行驗證。數據集采用廣泛使用的MAWPS基準測試數學問題。實驗不僅驗證了該模型在實際數學問答應用中的有效性,而且討論了模型中不同參數設置對實驗結果的影響。

2.1 數據集

MAWPS數據集提供了一個包含1 674個問題和答案對的訓練集,以及一個包含865個問題和答案對的測試集。我們從訓練集中選擇了900個問題作為開發集,剩下的1 639個問題和答案對被用作訓練集。

2.2 實驗結果

本文實驗分為2部分:實驗1比較所提出模型與其他基準模型的預測性能。見表1所列,所提出模型在實驗中的表現優于所有基準模型,最高準確率達80.56%。例如,在F1-Score的比較中,與Graph2Tree和GTS分別為0.76和0.75的得分相比,本模型將F1分數提高到了0.79。這是因為UniLM結合了AR和AE模型的優點,彌補了LSTM只能存儲單向信息的缺點。顯然,所提出的模型在所有任務中都能夠達到良好的效果。

為了更好地理解受限模型能夠表現出色的原因,我們進一步進行實驗,測試模型中不同參數設置對結果的影響。

2.3 參數設置的影響

2.3.1 算術順序的影響

錯誤的算術順序會導致生成錯誤的結果表達式,本文提出的模型針對這一問題做出了改進,并通過實驗證明了模型改進的有效性。我們首先檢索出具有錯誤預測表達式的數學問題。在實驗中,檢查錯誤預測表達式的長度是否與其對應的真實表達式長度相等。見表2所列,本文模型只有

105個預測錯誤的句子,而Seq2Seq有131個,Graph2Tree有111個。

檢查最初檢索集中預測錯誤句子的數量。結果顯示,本文提出的模型生成的算術順序錯誤句子較少,表明所提出的模型準確率相對更高。

2.3.2 句子長度的影響

本文還研究了句子長度對模型性能的影響。實驗在測試集上進行,旨在驗證所提出模型在句子長度增加時的表現。使用顯式樹解碼器對本文模型與幾個基準模型進行比較。見表3所列,在大多數情況下,所提出模型的表現均優于其他模型(除句子長度等于5的情況)。當句子長度少于5時,與其他模型相比,該模型顯示出良好的效果。其次,隨著句子復雜度的增加,所有模型的性能均下降。當句子長度達到10時,所有模型的預測性能均大幅下滑。這是因為較長的句子導致了更復雜的問題,更難以預測。

3 結 語

本文提出了一種優化的數學問題解答模型,該模型通過UniLM處理多樣化語言預測任務,從而提高了模型性能。實驗結果表明,該模型在解決數學問題方面超越了其他基準模型,準確率峰值達到80.56%。然而,該模型在處理長且復雜的句子時預測效果不盡人意。因此,在今后的工作中,將專注于理解數學量之間的關系及其對預測問題上下文和答案的影響,提高模型的準確性。

參考文獻

[1]王超,孔祥輝.大型預訓練語言模型在網絡健康信息鑒別中的應用探討[J].農業圖書情報學報,2023,35(6):51-59.

[2]沈凌云,樂小虬.文本神經語義解析方法研究進展[J].數據分析與知識發現,2023,7(12):1-21.

[3]李政.基于神經網絡語言模型的統計機器翻譯應用分析[J].信息與電腦(理論版),2022,34(22):109-111.

[4]李沅靜,葉仁玉,冷婷.基于二階隱馬爾可夫模型的中文分詞在文本情感分析中的應用[J].安慶師范大學學報(自然科學版),2023,29(3):44-48.

[5] CHEN G,LIU S,XU J T. Memory-boosting RNN with dynamic graph for event-based action recognition [J]. Optoelectronics letters,2023,19(10):629-634.

[6]馬占海,張俊超,田光欣.電網人機對話系統短文本用戶意圖自動識別方法[J].電子設計工程,2023,31(17):128-131.

[7]劉斐瑜,俞衛琴.融合Bert與注意力的文本情感分析模型[J].軟件導刊,2023,22(8):66-71.

[8] ZHELEZNIAK V,SAVKOV A,SHEN A,et al. Don't settle for average,go for the max:fuzzy sets and max-pooled word vectors [J]. arXiv:1904.13264,2019.

[9]趙逢達,郭凡,李賢善,等. ASE-ERNIE:一種基于ERNIE的中文指令動作序列生成方法[J].計算機集成制造系統,2024,30(5):1745-1753.

[10]曾江峰,劉園園,程征,等.基于UniLM模型的學術文摘觀點自動生成研究[J].圖書情報工作,2023,67(2):131-139.

主站蜘蛛池模板: 成年网址网站在线观看| 国产精品自拍合集| 91久久国产综合精品女同我| 免费高清毛片| 国产真实二区一区在线亚洲| 自偷自拍三级全三级视频| 白浆免费视频国产精品视频 | 成人av手机在线观看| a级毛片网| 国产99视频在线| V一区无码内射国产| 国产免费福利网站| 日韩第九页| 亚洲AV人人澡人人双人| 999国内精品久久免费视频| 国产精品自在拍首页视频8| 日本在线欧美在线| 中文字幕久久波多野结衣| 国产18页| 亚洲人成影院午夜网站| 91精品小视频| 国产97视频在线观看| 亚洲 欧美 偷自乱 图片| 无码'专区第一页| 欧美精品啪啪一区二区三区| 2021最新国产精品网站| 亚洲无码四虎黄色网站| www.亚洲国产| 色偷偷一区| 99久久精彩视频| 日本人真淫视频一区二区三区| 萌白酱国产一区二区| 伊人成人在线视频| 国产精品浪潮Av| 无码日韩人妻精品久久蜜桃| 亚洲成人www| 亚洲人成影视在线观看| 中文字幕佐山爱一区二区免费| www.99精品视频在线播放| 国产福利小视频在线播放观看| 国产视频a| 国产杨幂丝袜av在线播放| 99草精品视频| 91视频首页| 秘书高跟黑色丝袜国产91在线| 亚洲成人黄色网址| 无码一区二区波多野结衣播放搜索| 亚洲AV永久无码精品古装片| 久久黄色毛片| 精品福利网| 欧美一级视频免费| 久久婷婷五月综合色一区二区| 亚洲第一色网站| 久久婷婷国产综合尤物精品| 伊人色婷婷| 中国一级特黄视频| 国产精品30p| 久久久久亚洲Av片无码观看| 最近最新中文字幕免费的一页| 99久久国产综合精品女同| 色播五月婷婷| 小蝌蚪亚洲精品国产| 亚洲bt欧美bt精品| 国产九九精品视频| 国产精品久久自在自线观看| 日韩无码黄色网站| 精品国产网站| 天天综合网亚洲网站| 制服丝袜亚洲| 国产区91| 精品国产一区91在线| 黄色成年视频| 97国内精品久久久久不卡| 欧美a网站| 免费看a级毛片| 免费人成又黄又爽的视频网站| 国内老司机精品视频在线播出| 国产乱人视频免费观看| 国产污视频在线观看| 少妇被粗大的猛烈进出免费视频| 狼友视频一区二区三区| www.99精品视频在线播放|