999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大模型的非均衡樣本文本分類優化方法

2025-03-14 00:00:00張大偉秘蓉新周培姚靳大為張漫漫宋天航
軟件工程 2025年3期

關鍵詞:大模型;文本分類;樣本不平衡

中圖分類號:TP391 文獻標志碼:A

0引言(Introduction)

非均衡樣本,亦稱樣本不平衡,是文本分類領域中常見的問題,其中某些類別的樣本數量遠遠多于其他類別的樣本數量。這種不均衡性導致模型偏向于預測數量較多的類別,從而忽視了數量較少的類別。為了解決樣本不平衡的問題,在數據層面,傳統的方法是使用過采樣和欠采樣等技術來平衡不同類別的樣本數量。然而,這些方法也存在一些缺陷,例如過采樣可能導致過擬合,欠采樣可能導致重要信息丟失等缺陷。因此,非均衡樣本的文本分類問題已經成為當前文本分類任務面臨的一個嚴峻挑戰,其解決方案對于提高分類模型的準確性和泛化能力至關重要。

近年來,隨著人工智能技術的迅速發展,以ChatGPT(Chat Generative Pre-trained Transformer)為代表的一系列大語言模型,憑借其出色的自然語言處理能力以及在諸多領域的優秀表現而受到了廣泛關注。這些大模型通過大規模的預訓練,掌握了豐富的語義表達知識,使其能夠生成真實、有意義且多樣化的文本。在針對非均衡文本分類問題的研究中,研究人員正在積極探索如何利用大型模型生成高質量的少數類樣本,以提高模型的整體性能。然而,僅依靠樣本生成可能無法滿足某些實驗對數據的特定需求,因此還需要對多數類樣本進行去噪或刪減操作。

本研究主要聚焦如何運用大型模型同步處理多數類和少數類樣本,以解決樣本非均衡性問題,進而在數據層面有效解決不平衡文本分類問題。

1相關工作(Related work)

1.1深度學習

自2006年以來,深度學習在計算機視覺領域取得了重大突破。隨后,眾多學者開始將深度學習應用于自然語言處理的各個子領域。深度學習受到了人腦神經元結構的啟發,通過模擬人腦處理信息的層次結構,構建了深度神經網絡架構,如卷積神經網絡(CNN)和循環神經網絡(RNN)。與傳統的機器學習相比,深度學習能夠自動挖掘和捕捉文本數據的深層語義表示信息,避免了依賴領域內專家手工設計特征的過程。因此,自2010年以后,深度學習逐漸成為解決文本分類問題的主流方法。

TextCNN、TextRNN、TextRCNN是自然語言處理(NLP)領域中常用的文本分類模型,它們基于不同的神經網絡結構,如卷積神經網絡(CNN)、循環神經網絡(RNN)或它們的組合,以適應不同的任務需求。

TextCNN是一種基于卷積神經網絡的文本分類模型,它通過卷積層自動提取文本特征,并結合池化層和全連接層完成分類任務。由于TextCNN的結構簡單且效率高,因此被廣泛應用于多種自然語言處理(Natural Language Processing,NLP)任務中。與TextCNN不同,TextRNN是基于循環神經網絡的文本分類模型,它利用循環神經網絡(Recurrent Neural Networks,RNN)的記憶特性來捕捉文本中的序列信息,這對于理解文本的含義和上下文至關重要。因此,TextRNN在處理文本數據時能夠更好地考慮上下文信息。為了充分利用卷積神經網絡和循環神經網絡的優勢,研究人員提出了TextRCNN模型。該模型融合了循環神經網絡和卷積神經網絡的結構,既能捕捉文本的序列信息,又能提取局部的關鍵特征。這種融合使得TextRCNN在文本分類任務中表現出色。

除了上述基于深度學習的模型,Facebook AI Research團隊還開發了一種高效的文本分類和詞向量訓練工具——FastText。FastText在WordVec的基礎上進行了擴展,主要用于解決文本分類問題,同時也支持詞向量的訓練。憑借其簡潔的模型結構、快速的訓練速度以及高準確率,FastText贏得了廣泛的認可與青睞。

在深度學習文本分類領域,詞的表示方法有多種,其中較為常用的包括以下幾種。

獨熱編碼(One-Hot Encoding):這是最基本的詞表示方法之一。獨熱編碼示意圖如圖1所示,在這種方法中,每個詞都被表示為一個長向量,其長度與詞表的大小相等;對于特定的詞,其對應的向量位置標記為1,而其他位置則標記為0。盡管獨熱編碼方法簡單且直觀,但是它無法捕捉詞與詞之間的相似性。此外,當詞表規模較大時,生成的向量將會非常稀疏。

詞嵌入(Word Embeddings):相較于獨熱編碼,詞嵌入通過將詞映射到低維空間中的稠密向量來解決向量稀疏性問題。這些詞向量不僅能夠捕獲詞與詞之間的語義和語法關系,而且還能夠有效地處理大規模詞表。常見的詞嵌入模型包括Word2Vec(Word to Vector)、GloVe(Global Vectors for Word Representation)等。

上下文嵌入(Contextual Embeddings):這類方法考慮了詞在不同上下文中的含義變化,例如ELMo(Embeddings from Language Models)、BERT(Bidirectional Encoder Representations from Transformers)等模型。它們生成的詞向量不僅包含了詞本身的語義信息,而且還包含了該詞在特定上下文中的意義。這使得上下文嵌入方法在處理具有多義性的詞匯時具有更高的準確性和靈活性。

1.2大模型

大語言模型(LLMs)簡稱大模型,是人工智能快速發展的產物。它們得益于高質量的數據標注、大規模的計算能力支持以及基于人類反饋的強化學習策略,具備了高度的通用性和較強的邏輯推理能力,對人工智能的研究范式產生了深遠的影響。提示詞是與大型模型進行有效溝通的關鍵,它們可以幫助用戶在與AI交流期間減少信息獲取所花費的時間,并獲得更準確且有效的答案。提示詞可以被視為在與模型進行對話時提供指導的方式,幫助AI語言模型更準確地理解用戶的意圖。

在大模型應用領域,使用提示詞有兩大顯著的好處。首先,有研究表明,1個提示詞相當于100個真實數據樣本。這充分顯示了提示詞所包含的海量信息。其次,在自然語言處理或其他領域的下游任務數據稀缺的場景中,提示詞具有無與倫比的優勢。由于大模型往往無法在小型數據集上進行微調,因此基于提示的微調技術是首選方案。

當前的主流大型模型均采用轉換器Transformer架構。Transformer模型結構圖如圖2所示,這是一種基于注意力機制的深度學習模型。Transformer模型的設計初衷在于克服傳統的序列到序列模型,如基于循環神經網絡(RNN)和長短時記憶網絡(LSTM)的模型,在處理長序列時的性能限制。Transformer模型完全依賴自注意力機制來捕捉輸入序列間的依賴關系,摒棄了遞歸或卷積結構。此外,Transformer模型主要由編碼器(Encoder)和解碼器(Decoder)兩個部分組成。模型的輸入首先通過詞嵌入(Word Embedding)轉換為向量形式,其次加入位置編碼(Positional Encoding),以保留序列中的位置信息。

大模型擁有龐大的參數規模和復雜的結構,這使得它們擁有強大的語言理解能力,因此在文本分類任務中表現出色。然而,大模型的文本分類速度嚴重依賴于硬件資源。相比之下,傳統的機器學習和深度學習模型通常具有更快的預測速度,因為它們具有相對簡單的結構和較低的計算要求。此外,鑒于大模型具有復雜的結構和較高的計算需求,在處理長文本分類時,其分類時間會隨著文本長度的增加而相應增長。因此,在快速文本分類任務中,通常首選傳統的機器學習或深度學習模型,而大模型則可以作為樣本處理的輔助工具。因此,本研究提出了一種基于大模型的樣本均衡算法(Based on Large Model Sample Balancing Algorithm,LMSBA)。

2 LMSBA算法(LMSBA algorithm)

2.1算法流程

LMSBA算法的原理與混合采樣方法異曲同工,兩者都致力于克服僅依賴樣本生成技術來解決非均衡樣本問題的局限性。然而,LMSBA算法獨具優勢,它充分利用了預訓練的大模型中豐富的訓練樣本和超大規模的參數,能夠更好地理解自然語言處理任務,并生成及篩選出高質量且低噪聲的數據。LMSBA算法流程圖如圖3所示。

2.2少數類樣本生成

少樣本學習(Few-shot Learning)是一種機器學習范式,它旨在使模型能夠從非常有限的樣本中學習并做出準確的預測。LMSBA算法將少樣本學習引入大模型,并設計合適的提示詞(Prompt),這些提示詞可以幫助大模型理解任務的上下文,并激發其生成與現有樣本相似的新樣本。LMSBA算法基于大模型的少數類樣本生成的策略如下。

步驟1:采用數學排列組合中組合的方式從少數類樣本集S中隨機抽取n個樣本,并將這些樣本提供給大模型。隨后,該模型將模仿這些樣本并生成一個新的樣本數據。

步驟2:增加從少數類樣本集S中抽取樣本的數量,樣本抽取數量從n變成n+1。

步驟3:重復本小節的“步驟1”和“步驟2”,直到生成的少數類樣本滿足LMSBA算法的需求為止。

基于大模型的少數類樣本生成方法,其優勢在于可以模擬人類的思維方式生成所需的樣本,這與單純依靠數據使用SMOTE(Synthetic Minority Over-sampling Technique)等重采樣算法生成少數類樣本的方法相比,具有更高的靈活性和創造性。大模型可以理解和分析大量的文本數據,從中提取有用的信息和模式,然后根據這些信息生成新的少數類樣本。這種方法不僅可以生成高質量的少數類樣本,還可以在一定程度上控制生成樣本的特征和分布,使其更符合實際需求。

2.3多數類樣本篩選

為了解決文本分類中的多數類樣本不平衡問題,LMSBA算法基于大模型的多數類樣本篩選采用的策略如下。

步驟1:從多數類樣本集S中隨機抽取n個樣本,并將這些樣本提供給大模型。然后,該模型對這些樣本進行分析,以確定它們的質量。

步驟2:根據大模型的分析結果,將質量較高的樣本保留,而將質量較低的m個樣本剔除。

步驟3:若篩選的高質量樣本數量大于LMSBA算法的需求,則對篩選出的樣本重復執行本小節的“步驟1”和“步驟2”;若篩選的高質量樣本數量小于LMSBA算法的需求,則對剔除的樣本重復本小節的“步驟1”和“步驟2”。

此策略相較于傳統的欠采樣技術,具有更高的智能性和準確性。大模型能夠從人的思維角度深入理解文本數據的內在結構和特征,從而更精準地識別出那些對模型訓練貢獻較小的多數類樣本。這樣不僅能夠有效降低數據維度、減輕計算負擔,還能避免丟失過多有價值的信息,從而提高模型的性能和泛化能力。

2.4提示詞設計

LMSBA算法基于大模型對樣本執行生成、篩選及剔除任務,在此過程中,避免不了使用提示詞引導大模型完成樣本的處理工作。多數類樣本篩選不需要精心設計提示詞,而在少數類樣本的生成過程中,為了確保大模型生成的文本長度與給定的少數類樣本長度相差不大,實驗中特意設計了幾個簡單的提示詞,提示詞信息如表1所示。

3實驗與分析(Experiment and analysis)

3.1實驗環境

本實驗采用Facebook人工智能研究院研發的PyTorch深度學習框架,實驗環境的配置如表2所示。

3.2大模型配置

實驗使用阿里云計算有限公司(以下簡稱阿里云)研發的超大規模語言模型——通義千問,它是阿里云在人工智能領域的重大成果之一。通義千問模型擁有超過10億級別的參數量,這賦予了其強大的自然語言處理能力和廣泛的知識覆蓋范圍。模型選用通義千問72 B(qwenl.5-72 b-chat),通過API接口調用大模型,不需要自己搭建和維護復雜的模型環境,可以直接利用云端的服務,大大節省了時間成本。除此之外,通過擴展多種模型的在線API接口數量,可以并行處理非均衡樣本,從而顯著提升了LMSBA算法處理非均衡樣本的能力。本實驗選擇的模型配置信息如表3所示。

3.3實驗數據集

本實驗采用了THUCNews數據集的一部分數據。該數據集由清華大學自然語言處理與社會人文計算實驗室根據新浪新聞RSS(Really Simple Syndication)訂閱頻道20052011年的歷史數據篩選過濾而成,共包含74萬篇新聞文檔(約2.19GB),涵蓋了14種不同的新聞類別。為了確保通義千問大模型生成的文本數據長度不超過2000個tokens,從THUCNews數據集中選取了科技、體育、游戲、星座4個類別的新聞數據,并從中抽取了一部分文本長度不超過2000字的新聞文本。數據集信息如表4所示。

3.4實驗結果

由于THUCNews數據集中各類別的不平衡分布的問題,為了更全面地衡量模型在處理多類文本分類任務中的整體性能,本實驗選擇使用宏平均F1分數作為性能評估指標。在本實驗中,將使用LMSBA算法生成的均衡樣本在FastText、TextCNN、TextRNN和TextRCNN 4個模型上進行訓練和測試,以驗證LMSBA算法在解決非均衡樣本問題上的有效性。實驗數據如表5所示。

從表5中可以看出,當使用LMSBA算法生成的均衡樣本進行模型訓練和預測時,文本分類的宏平均F1分數得到了顯著提升。宏平均F1分數作為一種綜合度量標準,能夠幫助科研人員全面了解模型在處理多類分類問題時的整體性能,尤其是在不同類別之間的平衡性方面。通過對表5中的數據進行對比分析發現,FastText模型的宏平均F1分數提高了37.09百分點,TextCNN模型的宏平均F1分數提高了38.18百分點,TextRNN模型的宏平均F1分數提高了36.89百分點,而TextRCNN模型的宏平均F1分數提高了37.33百分點。以上實驗結果充分證明了LMSBA算法可以有效地解決文本分類中的不平衡問題,顯著提高了模型的泛化能力以及對每個類別的預測性能。

4結論(Conclusion)

本研究受到少樣本學習(Few-shot Learning)、欠采樣技術的啟發,并結合在線大語言模型API接口,提出了一種基于大模型的樣本均衡算法——LMSBA。LMSBA算法與機器學習中的混合采樣方法具有相似之處,同時也具備類似的優點。更重要的是,LMSBA算法充分利用了大模型的優勢,進一步提升了算法的性能和效果。LMSBA算法針對多數類樣本可以進行多輪篩選,在此過程中剔除出低質量、高噪聲的多數類樣本,針對少數類樣本進行樣本生成,進而生成高質量、低噪聲的少數類樣本。

實驗結果表明,這種方法可以顯著提高多個文本分類模型的宏平均F1分數指標。此外,LMSBA算法仍有需要改進的空間,例如添加多個不同系列的在線大模型API,以及進行消融實驗以進一步探究和優化提示詞工程。

主站蜘蛛池模板: 69国产精品视频免费| 国产欧美日本在线观看| 久久无码av三级| 欧美日韩激情在线| 国产乱人激情H在线观看| 精品久久久久无码| 国产精品第一区| 国产精品吹潮在线观看中文| 中文字幕人成人乱码亚洲电影| 欧美笫一页| 丁香婷婷激情网| 国产香蕉一区二区在线网站| 有专无码视频| 91精品专区| 伊人久久大香线蕉综合影视| 亚洲高清资源| 国产99在线| 日韩成人在线网站| 91成人在线观看| 婷婷色婷婷| 亚洲欧美另类色图| 久久77777| 九色国产在线| 99久久国产精品无码| 日本国产一区在线观看| yjizz国产在线视频网| 欧美亚洲欧美| 99精品热视频这里只有精品7| 午夜啪啪网| 人妻熟妇日韩AV在线播放| 2021最新国产精品网站| 国产欧美视频综合二区| 国产成人无码AV在线播放动漫| 中国精品自拍| 丁香婷婷综合激情| 区国产精品搜索视频| 久久黄色视频影| 国产成人三级| 成人av专区精品无码国产| 九九热这里只有国产精品| 欧美日韩国产综合视频在线观看| 国产精品视频第一专区| 精品一区二区久久久久网站| 国产91线观看| 特级做a爰片毛片免费69| 亚洲综合中文字幕国产精品欧美| 免费看久久精品99| 亚国产欧美在线人成| 九九精品在线观看| 亚洲欧美一区二区三区图片| 精品久久久无码专区中文字幕| 日韩a在线观看免费观看| 天天综合网色| 久久精品无码国产一区二区三区| 亚洲欧美日韩成人高清在线一区| 免费观看亚洲人成网站| 国产午夜精品一区二区三区软件| 国产又黄又硬又粗| 久久永久视频| 伊人久久精品无码麻豆精品| 极品国产一区二区三区| 日韩精品成人网页视频在线| 无码精品国产dvd在线观看9久 | 国产免费看久久久| 亚洲无码四虎黄色网站| 久久精品视频一| 一级毛片在线播放免费观看 | 国产女人喷水视频| 黄色在线网| 亚洲天堂日韩在线| 久久免费精品琪琪| 99视频只有精品| 蜜桃视频一区二区三区| 手机在线免费不卡一区二| 午夜福利无码一区二区| 久久国语对白| 亚洲精品成人片在线播放| 久久人人爽人人爽人人片aV东京热| 精品91在线| 亚洲精品成人片在线播放| 国产成人调教在线视频| 亚洲狼网站狼狼鲁亚洲下载|