999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大語言模型的標準文獻分類研究

2024-12-31 00:00:00劉春卉高志春張輝黃振遠
標準科學 2024年12期
關鍵詞:標準

摘 要:在當今大數據時代,隨著標準等文獻呈現爆炸性增長,文獻的高效管理與服務面臨著巨大挑戰。由于產業的不斷演進和多樣化,傳統的標準分類體系無法靈活適應不斷變化的產業需求,導致標準分類與實際產業之間的鴻溝日益加深。尤其在信息時代,該問題顯著突顯,而傳統標準分類的轉型升級困難。因此,解決標準分類與產業匹配難題成為提升文獻管理效能和服務質量的重要一環。在這一背景下,本文提出一種創新性方法,旨在彌合標準分類與產業之間的差距,提高產業分類的準確性,從而更好地滿足不斷發展的產業需求。同時,該方法注重解決在中文產業分類領域所面臨的多語義、多類別和少標注數據等復雜問題。

關鍵詞:大語言模型,語義表征,文獻,標準

DOI編碼:10.3969/j.issn.1674-5698.2024.12.007

0 引 言

在當今數字化轉型時代,信息量呈指數級增長,記載了各個領域的數字化過程及成果,形成了龐大的數據海洋。標準化領域同樣經歷著這一潮流,如:山西省在長期的科研攻關及生產應用過程中,產出了大量的標準文獻資源。這些標準按照適用范圍劃分,包括國家標準,行業標準,地方標準和企業標準,按標準化對象劃分,又有產品標準、過程標準、服務標準等。其不僅分類繁多,且各產業本身也有其獨立的分類體系,因此標準分類很難與產業分類進行直接關聯。在信息化時代之前,由于標準相對較少,主要依賴相關領域的專家進行人工分析,確定標準所屬產業的類別信息。然而,如今大量標準文獻的涌現使得人工產業分類方法不再適用。一方面傳統方法不僅需要大量人力投入,而且分類效率不高。因此,迫切需要利用深度學習等技術構建一套能夠自動化分析標準文獻、提取產業類別信息的模型[1]。

本文針對標準分類體系無法適應不斷變化的產業需求這一挑戰,通過深度學習技術提出一種先進的自動化標準產業分類模型。分類作為數據挖掘的一個重要分支,近年來在各種實際應用中受到廣泛研究和應用。標準文獻是一種文本,基于文本的分類模型可以分為3個階段:特征提取、分類器選擇和模型評估。其中特征提取是文本分類的關鍵步驟之一,它有助于將文本數據轉化為機器學習算法可以理解的形式。傳統的文本分類方法主要依賴于手工設計的特征和統計學習方法。典型的方法包括n-gram模型[2]、支持向量機[3]等傳統機器學習算法。這些方法在一定程度上取得了成功,但受限于特征表達和模型的表達能力,難以捕捉文本中的復雜語義和上下文信息。隨著深度學習的興起,基于神經網絡的文本分類方法取得了顯著的突破。特別是利用預訓練的大型語言模型(如:BERT[4]、GP T[5])進行文本表示學習,使得模型能夠更好地理解語境和語義關系,大語言模型在各種文本分類任務中擁有卓越的性能,超越了傳統方法的限制。此外,卷積神經網絡(CNN)和循環神經網絡(RNN)等架構也被廣泛應用于文本分類[6]。CNN通過卷積操作捕捉局部特征,而RNN則能夠建模序列信息,兩者結合使用更能有效地處理文本數據。

綜合而言,文本分類領域取得了長足的進展,從傳統的特征工程方法到基于深度學習的方法,各種技術層出不窮。本文基于大語言模型,提出一種標準產業分類模型,以更有效地應對標準領域分類的復雜性,并適應不斷多樣化的產業分類需求,最終為標準大數據的分類管理及分類檢索提供高效的解決方案。

分類模型的核心是表征學習技術,該技術是機器學習領域的核心,旨在學習數據的有效表示,從而更好地理解和利用數據[8]。隨著人工智能的發展,在文本分類任務中,研究者們提出了兩類主要的方法,分別是基于機器學習和基于深度學習的文本分類模型。

1 基于機器學習的分類模型

在文本分類領域,基于機器學習的分類模型一直扮演著重要的角色。這一類模型在處理自然語言文本時,通過傳統的特征工程和經典的機器學習算法,取得了一系列顯著成果。其中,特征工程是關鍵的步驟之一,其目的在于將文本轉化為計算機可處理的形式,提取文本的關鍵信息。最典型的特征表示方法包括詞袋模型(Bag-of-Words,B oW)和詞頻逆文檔頻率(T F-I DF)。在這些表示基礎上,研究者們應用了支持向量機(Suppor tVector Machine, SVM)、樸素貝葉斯等傳統的分類算法[18]。這些基于機器學習的文本分類模型在處理中小規模文本數據集時表現出色,取得了令人滿意的分類性能。然而,基于機器學習的分類模型也面臨一些挑戰。首先,傳統的特征工程往往需要大量的領域專業知識,而且在處理大規模、高維度的文本數據時,手動提取特征變得非常困難且耗時。其次,這類模型通常無法捕捉到文本中的深層語義信息,因為它們缺乏對文本全局結構和上下文關系的理解。因此隨著深度學習的興起,基于深度學習方法逐漸成為新的研究熱點,也為文本分類任務帶來了全新的技術范式。

2 基于深度學習的分類模型

深度學習的興起為表征學習帶來了重大突破,深度神經網絡在圖像處理、自然語言處理、語音識別等領域實現了廣泛應用。表征學習的基本思想是通過神經網絡自動學習數據的最佳表示,從而取代了傳統的手工特征工程方法,使機器能夠更好地理解和處理各種類型的數據。隨著深度學習方法的崛起,自動特征學習開始成為焦點。早期的Word2Vec詞嵌入模型,將單詞映射到連續向量空間,以捕獲單詞的語義信息[9]。它有兩種主要變種模型,CBOW和Skip-gram,分別用于從上下文預測目標單詞或從目標單詞預測上下文。Word2Vec的訓練允許單詞在向量空間中相似的單詞更加接近,使其廣泛用于文本分類、語義搜索、情感分析等NLP任務,引領了自然語言處理領域的重大變革。

自2017年Transformer模型[8]問世以來,預訓練模型開始引領表征技術的新時代。這一模型架構引入了多頭自注意力機制,使其在自然語言處理領域取得了顯著的突破。隨后,BERT[4]的發布將預訓練技術推向高潮,通過大規模語料庫的無監督學習,為多個NLP任務提供了最先進的性能。從那時起,預訓練模型如:GPT[5]、RoBERTa[10]、XLNet[11]等的不斷涌現,將表征學習技術推向了更廣泛的領域,包括計算機視覺和多模態任務。這些模型的成功闡釋了預訓練技術對于自動學習數據的強大能力,為解決各種復雜問題提供了新的可能性。

最近,代表性的大語言模型,如:GP T-4[12],LLaMA[13],已經成為人工智能研究領域的一大重要突破。這些模型展現出了令人矚目的人機對話和任務求解能力,引發了廣泛的關注和討論。它們不僅在自然語言處理任務中表現出色,還在各種應用中取得了卓越的成績。因此本文選擇大語言模型作為表征模型進行產業分類。結合大語言模型進行多類型文獻表征,能夠實現更準確和語義豐富的文獻分類,提高了文獻資源的組織和管理效率。這一方法不僅有助于更好地理解文獻內容,還可以為研究人員提供更多深入的領域洞察力,推動科學研究的進展。

3 基于大語言模型的標準文獻分類

本文通過對不同類型的文獻資源進行統一表征,已解決文獻資源的異構性。通過大語言模型強大的語義表征能力對不同文獻資源進行建模,使其具有標準化的數學表達,幫助不同類型文獻資源的統一產業分類。本文提出的產業分類模型架構圖如圖1所示。該分類模型架構中選擇LLaMA大語言模型作為文本表征模型,該模型基于Transformer架構中的Decoder,但相比Transformer,LLaMA有一些改進機制,如:預歸一化、SwiGLU激活函數等。LLaMA模型中使用了多頭注意力機制,該機制能用于捕獲輸入序列中的不同關注點。在該機制中,輸入序列經過多個不同的自注意頭,每個頭都學習到不同的權重分布,可表示為:

交叉熵損失(Cross-entropy loss)函數是深度學習中常用的一種損失函數,通常用于分類問題。該函數度量了模型預測結果與實際結果之間的差異,是優化模型參數時的一個關鍵指標,可表示為:

本文采用微調(Finet u ne)技術對模型進行訓練。微調這一技術的興起始于基于Transformer架構的大型語言模型(L L M),如:G P T- 4 [ 1 2 ]和BERT[4]。微調技術是深度學習領域的關鍵技術,一直以來都受到廣泛的研究和應用。通常,它指的是研究人員使用在大規模數據上進行了預訓練的神經網絡模型,在特定任務或領域上對其進行進一步的調整和優化的過程。這個過程使得模型能夠在新任務上表現出色,因為在預訓練階段它已經學到了通用的特征和知識。微調技術在自然語言處理、計算機視覺、語音識別等領域都取得了顯著的成功,其經過不斷改進以適應不同類型的任務和數據,成為深度學習中的一個關鍵工具。在分類任務中,微調技術的重要性尤為顯著。通過將預訓練的模型以特定的分類任務進行微調,能夠實現出色的產業分類性能,而無需從頭開始構建和訓練一個全新的模型。通過不斷改進微調策略,例如:微調層次結構、調整學習率和優化損失函數等,進一步提高了分類性能。

4 實驗結果與分析

4.1 標準文獻數據集構建

本文采用山西省標準文獻數據作為數據集。為提高文獻資源的產業分類效果,需要對山西省科研攻關及生產管理過程中產生的標準文獻進行產業標注,以實現更準確和可靠的文獻分類。該任務的目標是將標準文獻資源標注為14個產業,共15個類別,具見表1。在數據標注的過程中,針對每個領域,精心選擇相關的關鍵詞,這些關鍵詞將成為標注的依據,確保它們能夠充分反映每個領域的主題特點。隨后,將標準文獻根據其內容和關鍵詞進行標注,以便將其歸類到正確的產業類別中。這一標注工作可以借助領域專家的知識和經驗來提高準確性。在進行模型訓練時,本文將數據集劃分為訓練集、驗證集和測試集,以便在模型開發和評估過程中有足夠的數據支持,其中劃分方式為隨機從所有樣本中采樣70%的樣本作為訓練集,10%的樣本作為驗證集,20%的樣本作為測試集。

4.2 實驗結果

為了驗證本文提出的模型相對于當前存在的基線模型的性能優勢,研究中選擇了4種不同的基線模型。

(1)WideMLP[14]:該模型是一個基于詞袋的多層感知器,包含一個具有1024個線性單元的單一隱藏層。這個模型作為一個有用的基準,用于度量實際科學進展的水平。

(2)LSTM(Long short-term memor y)[15 ]:LSTM是一種循環神經網絡(RNN)的變體,專門設計用于解決傳統RNN中梯度消失和梯度爆炸的問題。其通過精妙的門控結構,能夠有效地捕捉和記憶長期依賴關系,使其成為處理序列數據的強大工具。

(3)DADGNN[16 ]:深度注意擴散圖神經網絡(DADGNN)是一種基于圖的方法,旨在解決圖神經網絡中的過度平滑問題。它通過引入注意擴散機制,允許堆疊更多的層和采用解耦技術。這種解耦技術對于短文本尤其有利,因為它能夠在深度圖網絡中捕獲明顯的隱藏特征。

(4)C onTex t I NG -BE RT [17 ]:將圖神經網絡(GNN)與BERT結合,提供基于文檔的上下文嵌入,以用于歸納文本分類。此混合模型充分利用了GNN對圖結構的建模能力和BERT對上下文的深層理解,使得文本分類任務在更豐富的語境下得以執行。

以上所選的基線模型包括一種傳統機器學習模型(WideMLP),以及其他3個基線模型(LSTM、DADGNN、ConTextING-BERT),他們都是來自最新研究論文中的先進模型。這些模型的選擇旨在覆蓋不同的方法和技術,以全面評估提出模型的性能。通過與這些基線模型進行比較,可以更清晰地了解提出模型在文本分類任務中的優越性和創新之處。同時,本文選擇在3個公開數據集進行模型比較,分別為R8、MR和SST-2數據集。R8是新聞數據集可用于8種類別的文本分類任務。MR是一個廣泛用于文本分類的數據集,其中包含了平均長度為20.39個標記的影評文件。SST-2是情感庫的一個子集,是一個細粒度的情感分析數據集,其中中立的評論已被刪除,數據集僅包含積極或負面標簽,因此可用于進行二分類文本分類任務。通過在這些不同領域和任務的數據集上進行模型比較,可以更全面地評估提出模型的泛化性能和適用性。

通過對比表2的實驗結果,可以明顯觀察到本文所提出的模型在分類任務中表現更為卓越,這進一步證明了本文模型的有效性和性能優勢。

為了進一步驗證提出的模型在實際應用中的有效性,本文進行了多組實驗,使用構建的數據集來評估模型在產業分類任務中的性能,同時使用精準率、召回率和F1值等指標來衡量模型的優越性。首先,觀察不同迭代次數下模型的訓練結果,見表3。隨著迭代次數的增加,模型在測試集上的性能逐漸提升,直至模型趨于收斂。從表3中可以看出,模型在測試集上的F1值最高可達到98%以上。這表明我們的模型在產業分類任務中表現出色,具有高度的性能和實用性。

圖2展示了本文提出的分類模型在測試集上得到的混淆矩陣,反映了模型的分類性能。從圖中可以觀察到,在所有類別中,該模型表現出超過95%的準確率。這表明提出的模型在各個類別上都取得了顯著的分類準確性,展現了其在多類別文獻分類任務中的優越性和魯棒性。

此外,實驗還進行了對比分析,研究了超參數中學習率(LR)對實驗結果的影響。學習率在深度學習模型中扮演著至關重要的角色,它決定了模型在訓練過程中參數更新的速度和方向。因此,學習率的選擇對模型的性能和收斂速度具有顯著影響。在表4中,本文呈現了經過5次迭代后,模型在不同學習率下對產業分類效果的影響。從表中可以清晰地看出不同學習率對模型的收斂速度和最終結果產生了顯著的影響。這突出了學習率選擇在深度學習中的重要性。因此,在實際應用中,合適的學習率選擇需要謹慎權衡,以取得最佳的模型性能和訓練效率。

5 結 論

本文提出了一種基于大型語言表征模型的多類型文獻資源產業分類方法,旨在應對標準文獻按產業進行分類時的多語義、多類型、少標注的挑戰。通過實驗證明,所提出的模型有效提高了文獻資源分類的準確性和效率。在方法的實施中,本文充分利用大型語言模型,對標準文獻資源進行語義表征,從而生成了文獻的豐富語義信息。該方法有助于解決文獻中的多語義問題,使得模型能夠更好地理解文獻中的隱含語義和關聯性。其次,本文采用多層感知機模型進行產業分類。最終,結合大型語言模型的語義表征和多層感知機的分類能力,本文提出的方法成功應用在山西“111”創新工程項目中,對于推動科技文獻資源更好地應用于服務具有重要意義。

參考文獻

[1]Floridi L , Chiriatti M. GPT-3: Its nature, scope, limits, and consequences[J]. Minds and Machines, 2020,30(2): 1-14.

[2]杜宇晨.基于Word2Vec和N-Gram的短文本情感分類方法研究[D].杭州:浙江工業大學, 2018.

[3]奉國和.SVM分類核函數及參數選擇比較[J]. 計算機工程與應用, 2011,47(03):123-124+128.

[4]Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[5]Radford, A., Narasimhan, K., Salimans, T., et al. Improving language understanding by generative pre-training.

[6]汪家偉,余曉. 基于深度學習的文本分類研究綜述[J]. 電子科技, 2024(1):81-86.

[7]Yang F J. An implementation of naive bayes classifier[C]//2018 International conference on computational science and computational intelligence (CSCI). IEEE, 2018: 301-306.

[8]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J].Advances in neural information processing systems, 2017, 30.

[9]Goldberg Y, Levy O. word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method[J]. arXiv preprint arXiv:1402.3722, 2014.

[10]Liu Y, Ott M, Goyal N, et al. Roberta: A robustly optimized bert pretraining approach[J]. arXiv preprint arXiv:1907.11692, 2019.

[11]Yang Z, Dai Z, Yang Y, et al. Xlnet: Generalized autoregressive pretraining for language understanding[J]. Advances in neural information processing systems, 2019, 32.

[12]OpenAI. GPT-4 technical report[R]. 2023.

[13]Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971,2023.

[14]Galke L., Scherp A. Bag-of-words vs. graph vs. sequence in text classification: Questioning the necessity of text-graphs and the surprising strength of a wide MLP[C]. 2022 arXiv preprint arXiv:2109.03777.

[15]Long short-term memory[J]. Neural computation, 2010, 9(8):1735-1780.

[16]Liu Y H, Guan R C, Giunchiglia F., Deep attention diffusion graph neural networks for text classification[C]//Proceedings of the 2021 conference on empirical methods in natural language processing.

[17]Huang Y H, Chen Y H, Chen Y S. ConTextING: Granting Document-Wise Contextual Embeddings to Graph Neural Networks for Inductive Text Classification[C]//Proceedings of the 29th International Conference on Computational Linguistics.2022: 1163-1168.

[18]李旭然,丁曉紅. 機器學習的五大類別及其主要算法綜述[J]. 軟件導刊, 2019,18(07):4-9.

猜你喜歡
標準
2022 年3 月實施的工程建設標準
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
標準匯編
上海建材(2019年1期)2019-04-25 06:30:48
美還是丑?
你可能還在被不靠譜的對比度標準忽悠
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
2015年9月新到標準清單
標準觀察
標準觀察
標準觀察
主站蜘蛛池模板: 青草91视频免费观看| 国产欧美日韩另类精彩视频| 玖玖免费视频在线观看| 91年精品国产福利线观看久久 | 欧美国产日韩在线| 欧美福利在线观看| 亚洲伊人天堂| 天天综合亚洲| 国产情侣一区| 亚洲男人天堂网址| 蜜桃视频一区二区| 99视频有精品视频免费观看| 国产第一页屁屁影院| 久久综合伊人77777| 欧美日韩中文国产| AV不卡无码免费一区二区三区| 亚洲天堂啪啪| 91青青草视频在线观看的| 日韩黄色精品| 国产菊爆视频在线观看| 亚洲高清无码久久久| 免费国产小视频在线观看| 精品亚洲欧美中文字幕在线看 | 久久精品波多野结衣| 亚洲国产一成久久精品国产成人综合| 欧美综合中文字幕久久| 日韩午夜福利在线观看| 波多野结衣在线se| 免费国产一级 片内射老| 国产内射一区亚洲| 五月丁香伊人啪啪手机免费观看| 精品久久久久成人码免费动漫| 露脸真实国语乱在线观看| 国产肉感大码AV无码| 亚洲国产高清精品线久久| 中文字幕在线欧美| 色婷婷国产精品视频| 亚洲一级毛片在线播放| 啪啪免费视频一区二区| 国产成人在线无码免费视频| 亚洲黄色成人| 国产精品人成在线播放| 91精品久久久无码中文字幕vr| 情侣午夜国产在线一区无码| 国产又色又爽又黄| 国产在线自在拍91精品黑人| 蜜桃视频一区二区| 国产h视频在线观看视频| 五月天综合网亚洲综合天堂网| 露脸一二三区国语对白| 欧美午夜在线视频| 亚洲无码高清视频在线观看| 久久亚洲国产最新网站| 国产女人18水真多毛片18精品| 国产男女免费视频| 日本高清有码人妻| 亚洲欧美在线精品一区二区| 一级毛片在线播放| 青青操国产视频| 欧美特黄一免在线观看| 毛片手机在线看| 国产小视频网站| 欧美区一区| 亚洲欧洲自拍拍偷午夜色无码| 中文字幕乱码中文乱码51精品| 欧美在线伊人| 国产主播在线一区| 亚欧乱色视频网站大全| 亚洲综合经典在线一区二区| 精品无码国产一区二区三区AV| 国产三级视频网站| 午夜无码一区二区三区| 国产成人综合在线观看| 99草精品视频| 亚洲第一成年网| 国产在线自在拍91精品黑人| 夜夜操狠狠操| 亚洲国产成人精品一二区| 日本精品αv中文字幕| 亚国产欧美在线人成| 人妻精品久久久无码区色视| 亚洲 成人国产|