999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遷移學習的LLaMA 2大語言模型微調優化方法

2024-09-22 00:00:00孫倩石競澤裴麗君張倩怡徐鳳強
軟件工程 2024年9期

關鍵詞:大語言模型;微調優化;遷移學習

中圖分類號:TP312 文獻標志碼:A

0 引言(Introduction)

近年來,大型語言模型[1]的出現和發展對自然語言處理和人工智能領域產生了變革性影響。自GPT-3(Generative Pre-Trained Transformer v3)問世以來,逐漸涌現出一批具有強大競爭力的語言模型,例如ChatGPT[2]、Meta LLaMA[3]、文心一言、盤古大模型等。利用大模型技術解決實際任務,已經成為人工智能領域的發展趨勢。然而,大模型技術應用于下游任務時,常常面臨諸多挑戰,例如數據規模龐大、計算資源有限,以及模型微調所需的訓練成本高、微調時間長等,因此大模型難以通過傳統的模型訓練方式來進一步提高自身的性能。因此,本文主要研究大模型微調優化方法并對其進行改進,通過遷移學習[4]將預訓練模型遷移至下游任務場景,然后進行模型微調(Fine-tuning)優化,在繼承預訓練模型的泛化能力的同時,使模型能夠適應下游任務場景,從而提高LLaMA 2[5]預訓練大模型在特定任務場景下的應用性能。

1LLaMA 2大語言模型介紹(Introduction of LLaMA 2 pre-trained large model)

本文采用的預訓練模型是由Meta AI正式發布的最新一代開源大模型LLaMA 2[5],是一種用于自然語言處理的深度學習模型。LLaMA 2大語言模型是基于原始Transformers架構[6]的生成式預訓練模型,其訓練數據集包括2萬億個token,上下文長度為4 096,參數包括7 B、13 B和70 B,在各種基準集的測試上的表現突出,并且在多個下游任務上的表現超過了GPT-3。

1.1LLaMA 2大語言模型結構

LLaMA 2大語言模型基于自回歸Transformer架構實現,采用32層Transformer的解碼器(decoder-only)作為主干網絡,通常用于條件生成任務。模型首先通過詞嵌入(WordEmbedding)將輸入文本轉換為詞向量;其次將詞向量輸入解碼器網絡,學習詞向量之間的語義關系,通過解碼器的迭代學習提高模型對文本信息的處理能力;最后根據給定的條件信息,可以通過解碼器生成相應的答案進行輸出,LLaMA 2大語言模型結構圖如圖1所示。

1.2 模型訓練及遷移應用

LLaMA 2大語言模型訓練過程如下:首先需要準備大規模的文本語料庫作為訓練數據,并進行預處理;其次采用詞嵌入技術將文本數據向量化;最后使用數據集訓練神經網絡模型,通過定義的損失函數和優化算法調整模型參數。在訓練過程中,參數更新分為前向傳播和反向傳播兩個階段。前向傳播是指將訓練數據從輸入層傳遞到輸出層的過程,反向傳播則是計算模型參數的梯度并利用優化器更新參數。經過多次迭代后,模型逐步學習到語料庫中的語言規律和概率分布。

LLaMA 2大語言模型訓練過程中,淺層語言知識,如詞法、詞性、句法等存儲在模型的底層和中層,而抽象類的語言知識,如語義、邏輯、推理等廣泛分布在模型的中層和頂層結構中,這種模型可以被視為通用的語言理解系統。因此,可以利用遷移學習思想將訓練好的LLaMA 2大語言模型用于各種下游任務,例如智能問答、文本分類、情感分析、機器翻譯等。

受訓練數據集的影響,在下游任務中,原始模型一般會面臨不完全適配具體任務場景的問題。因此,需要通過微調訓練,將模型的語言理解能力遷移到特定的下游任務中,并與下游任務的語境知識進行適配,提高模型的應用性能。

2LLaMA 2大語言模型微調優化方法(LLaMA 2large language model fine-tuning optimizationmethods)

2.1LLaMA 2大語言模型微調

微調LLaMA 2大語言模型的核心技術包含兩個部分:一部分是損失函數,用來驗證模型輸出的優劣;另一部分是優化器,通過損失函數的梯度更新模型的參數,使模型的輸出更接近正確的目標。

為了提高大語言模型的微調效率,本文分別對損失函數和優化器進行改進。通過在損失函數中引入權重方向懲罰因子,減少多頭自注意力機制中對輸入向量的加權值與其梯度方向相反的情況;通過改進優化器權重衰減策略,平衡模型權重參數的衰減程度,進一步提高模型的優化性能。

本文分別對原有損失函數和優化器進行改進,加快了LLaMA 2預訓練大模型的微調收斂速度。同時,本文優化的方法不僅適用于LLaMA 2預訓練大模型,還適用于其他具有前向傳播和后向傳播機制的網絡模型。

3 實驗(Experiment)

為了驗證本文方法的效果,設計了基于LLaMA 2預訓練模型的微調優化實驗。

3.1 數據集

本文的數據集來源是huggingface 2.4.1的問答任務。問答任務(Question Answering)[10]是根據提出的問題生成使用自然語言的回答,數據集如表1所示。

3.2 參數設置

模型由24層編碼器和解碼器組成,模型的隱層維度(Hidden State Dimensions)為1024,前饋網絡維度(FeedForward Dimensions)為[1 024, 4 096, 1 024],設置參數更新步數(Steps)為1000,最大輸入序列長度(Maximum SequenceLength)為1 024,最大輸出序列長度(Maximum TargetLength)為512,批樣本容量(Batch Size)為16。使用改進后的優化器,其中β1=0.9,β2=0.95,ε=8×10-4,并設置學習率初始為0,在前10%的步數中逐漸預熱至峰值,隨后在剩余的步數中逐漸衰減至8×10-5,學習率變化曲線如圖2所示。設置權重方向懲罰的權重α=0.3。

3.3 問答任務實驗結果與分析

為驗證本文預訓練大模型微調優化方法的性能,基于LLaMA 2大語言模型進行問答任務微調實驗。采用問答任務數據集分別在原方法和改進后的優化方法上迭代微調1 000次,對實驗結果進行對比。為保證實現效果,本文使用相同的學習率設置策略。

3.3.1 問答任務損失情況分析

本實驗將訓練過程和驗證過程的損失收斂情況進行可視化,問答任務訓練損失曲線如圖3所示,問答任務驗證損失曲線如圖4所示,圖中的實線為優化后的訓練損失曲線和驗證損失曲線,虛線為未優化的訓練損失曲線和驗證損失曲線。

對訓練數據和驗證數據的損失函數收斂情況進行分析發現,無論是在訓練過程還是在驗證過程中,尤其是在迭代次數較小的情況下,經優化后的損失函數收斂速度更快。這說明本文提出的損失函數在較少的迭代步數下可以加速模型的學習,并且可以使模型的輸出更接近正確的目標。

3.3.2 問答任務實例

為了進一步驗證改進后的模型微調優化方法的性能,分別利用未改進與通過改進的微調優化方法的模型進行問答任務測試。當向模型提問“先天性單管擴張疾病是什么?”時,使用本文提出的改進的微調優化方法的模型在訓練初期(迭代第100輪時)便可得到正確答案,而此時未使用改進的微調優化方法的模型仍沒有得到正確答案,甚至出現亂碼等情況。通過實例說明本文提出的改進微調優化方法短時間內達到的收斂速率更快,問答任務實例如表2所示。

4 結論(Conclusion)

本文針對大模型在應用于實際任務場景的微調過程中面臨的時間過長、成本高等問題,提出一種基于遷移學習的LLaMA 2預訓練大模型微調優化方法。該方法通過改進自注意力驗jDXXGAILiQEHyjMPvPL+9Q==證的損失函數及優化器,加快模型的收斂速度。在問答任務的數據集上進行實驗驗證,通過訓練損失對比和驗證損失對比,可以看出改進后的模型收斂速度更快,因此改進后的微調優化方法可以有效減少微調的迭代次數,提高微調效率,從而提升大語言模型在下游任務的遷移應用能力。

作者簡介:

孫倩(1993-),女,碩士,講師。研究領域:深度學習,自然語言處理。

石競澤(2004-),男,本科生。研究領域:人工智能,深度學習。

裴麗君(1987-),女,碩士,講師。研究領域:人工智能,自然語言處理。

張倩怡(1994-),女,碩士,講師。研究領域:人工智能,自然語言處理。

徐鳳強(1991-),男,博士,講師。研究領域:人工智能,深度學習,圖像識別。

主站蜘蛛池模板: 日韩高清在线观看不卡一区二区 | 亚洲大学生视频在线播放| 青青青国产在线播放| 亚洲区第一页| 在线欧美一区| 无码不卡的中文字幕视频| 新SSS无码手机在线观看| 美女裸体18禁网站| 精品国产成人三级在线观看| 日本精品视频一区二区 | 久久夜色精品| 高清精品美女在线播放| 国产迷奸在线看| 久热中文字幕在线观看| 无码人妻热线精品视频| 亚洲精品片911| 亚洲无码一区在线观看| www.99精品视频在线播放| 超碰91免费人妻| 国产亚洲高清视频| 欧美性精品不卡在线观看| 久久99精品久久久久纯品| 免费看的一级毛片| 中文字幕无码电影| 日韩区欧美国产区在线观看| 亚洲AⅤ波多系列中文字幕| 亚洲综合婷婷激情| 欧美亚洲国产日韩电影在线| 亚洲AV无码久久天堂| 自慰高潮喷白浆在线观看| 欧美人在线一区二区三区| 国产成人高清亚洲一区久久| 成人亚洲国产| 亚洲天堂.com| 精品国产黑色丝袜高跟鞋| 波多野结衣无码中文字幕在线观看一区二区 | 午夜电影在线观看国产1区| 在线a视频免费观看| 久久这里只有精品8| 2021天堂在线亚洲精品专区| 日韩无码一二三区| 一本大道无码高清| 久久精品视频一| 2019年国产精品自拍不卡| 亚洲一欧洲中文字幕在线| 性喷潮久久久久久久久| 国产香蕉97碰碰视频VA碰碰看| 日本www在线视频| 97se亚洲综合在线天天| 日韩欧美中文字幕在线韩免费| 中文字幕日韩欧美| 亚洲αv毛片| 国内丰满少妇猛烈精品播| 欧美中文字幕一区| 亚国产欧美在线人成| 青青久视频| 亚洲AⅤ波多系列中文字幕| 中文字幕资源站| 久热这里只有精品6| 嫩草影院在线观看精品视频| 激情无码字幕综合| 99精品国产自在现线观看| 2024av在线无码中文最新| 亚洲日本中文综合在线| 这里只有精品国产| 97久久免费视频| 欧美国产三级| 国产亚洲精品91| 亚洲激情区| 91国内视频在线观看| 一区二区三区毛片无码| 国产精品熟女亚洲AV麻豆| 草逼视频国产| 日韩a级片视频| 中文字幕久久波多野结衣| 在线免费亚洲无码视频| 国产偷国产偷在线高清| 九色视频最新网址| 国产在线精品人成导航| 视频一本大道香蕉久在线播放| 天天做天天爱天天爽综合区| 国产成人精品免费视频大全五级 |