999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

LLM在工業(yè)品物料分類場(chǎng)景的應(yīng)用

2024-01-11 10:23:44
寶鋼技術(shù) 2023年6期
關(guān)鍵詞:分類文本語(yǔ)言

朱 俊

(歐冶工業(yè)品股份有限公司,上海 201900)

1 工業(yè)品領(lǐng)域物料分類技術(shù)現(xiàn)狀及場(chǎng)景落地

1.1 工業(yè)品領(lǐng)域物料分類任務(wù)的概述

隨著全球工業(yè)化進(jìn)程的不斷推進(jìn),工業(yè)品領(lǐng)域物料的種類與數(shù)量呈現(xiàn)出爆炸式增長(zhǎng)。自21世紀(jì)初以來(lái),全球制造業(yè)產(chǎn)值已經(jīng)翻了一番多[1]。如何對(duì)這些物料進(jìn)行有效的分類和管理,已經(jīng)成為企業(yè)降低成本、提高生產(chǎn)效率和市場(chǎng)競(jìng)爭(zhēng)力的關(guān)鍵問(wèn)題。采用有效的物料管理系統(tǒng)可以幫助企業(yè)提高生產(chǎn)效率,同時(shí)降低庫(kù)存成本。因此,研究工業(yè)品領(lǐng)域物料分類技術(shù)具有重要的實(shí)際意義和理論價(jià)值。

1.2 NLP技術(shù)在工業(yè)品領(lǐng)域物料分類中的應(yīng)用及局限性

近年來(lái),自然語(yǔ)言處理(NLP)技術(shù)在物料分類領(lǐng)域取得了顯著的成果。主要可以概括為基于規(guī)則的分類方法和基于深度學(xué)習(xí)的分類方法。

基于規(guī)則的分類方法是物料分類技術(shù)的傳統(tǒng)方法,通過(guò)人工設(shè)定一系列規(guī)則進(jìn)行分類,例如基于專家經(jīng)驗(yàn)制作關(guān)鍵詞—物料類別對(duì)照表。這種方法在物料種類較少、規(guī)則明確的場(chǎng)景下具有一定的實(shí)用性。然而,隨著物料種類的增多,規(guī)則的制定變得越來(lái)越復(fù)雜,人工設(shè)定的規(guī)則很難覆蓋所有物料,導(dǎo)致分類效果不理想。

隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,這類方法在物料分類上也得到了不少應(yīng)用,并具有更好的泛化能力和更高的準(zhǔn)確率[2]。例如DNN、LSTM、BERT等,可以有效地解決基于規(guī)則方法在物料種類繁多、規(guī)則復(fù)雜的情況下的局限性,可以隨著數(shù)據(jù)集的增長(zhǎng)和變化不斷優(yōu)化模型性能[3]。

然而,基于深度學(xué)習(xí)的物料分類方法仍然存在一定的局限性。首先,深度學(xué)習(xí)模型需要大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,而在工業(yè)品實(shí)際場(chǎng)景中,大部分物料數(shù)據(jù)質(zhì)量較差,存在物料屬性數(shù)據(jù)缺失、型號(hào)規(guī)格書(shū)寫(xiě)不規(guī)范等問(wèn)題,獲取高質(zhì)量的標(biāo)注數(shù)據(jù)是一大難題。此外,深度學(xué)習(xí)模型的可解釋性較差,由于工業(yè)領(lǐng)域?qū)?zhǔn)確性的要求較高,這可能導(dǎo)致企業(yè)在實(shí)際應(yīng)用中對(duì)模型輸出的結(jié)果產(chǎn)生質(zhì)疑,從而影響模型的推廣應(yīng)用。

綜上所述,工業(yè)品領(lǐng)域物料分類技術(shù)已經(jīng)取得了一定的成果,但仍然面臨著諸多挑戰(zhàn)。傳統(tǒng)的基于規(guī)則的分類方法在應(yīng)對(duì)復(fù)雜物料分類任務(wù)時(shí)顯得力不從心,而基于深度學(xué)習(xí)的分類方法雖然具有一定的優(yōu)勢(shì),但也存在數(shù)據(jù)需求高、可解釋性差等問(wèn)題。

近期,隨著GPT模型的快速崛起,生成式大語(yǔ)言模型逐漸成為自然語(yǔ)言處理領(lǐng)域的新風(fēng)向,大量任務(wù)引入生成式大語(yǔ)言模型并取得了顯著的效果。因此,在未來(lái)的研究中,探討如何將生成式大語(yǔ)言模型與物料分類技術(shù)相結(jié)合,實(shí)現(xiàn)對(duì)工業(yè)品領(lǐng)域物料的高效識(shí)別和分類,具有重要的研究?jī)r(jià)值。

2 生成式大語(yǔ)言模型在工業(yè)品物料分類上的應(yīng)用

2.1 生成式大語(yǔ)言模型原理

大語(yǔ)言模型(LLM),如GPT-3和GPT-4(GPT即生成預(yù)訓(xùn)練 Transformer)是基于Transformer架構(gòu)的NLP模型。大語(yǔ)言模型的訓(xùn)練過(guò)程基于一個(gè)被稱為“自監(jiān)督”的學(xué)習(xí)任務(wù)。在這個(gè)任務(wù)中,模型預(yù)測(cè)給定一個(gè)文本序列中的下一個(gè)詞是什么。例如,如果輸入的文本是“今天天氣很好,我打算去公園”,那么模型的任務(wù)可能是預(yù)測(cè)“出行”這個(gè)意圖。這個(gè)任務(wù)要求模型學(xué)習(xí)到大量的語(yǔ)言知識(shí),包括語(yǔ)法、詞匯、習(xí)語(yǔ),甚至一些世界知識(shí)。LLM通過(guò)在大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練來(lái)完成這個(gè)任務(wù)。訓(xùn)練數(shù)據(jù)可以包括各種類型的文本,比如書(shū)籍、文章、網(wǎng)頁(yè)等。模型通過(guò)這種方式學(xué)習(xí)了大量的語(yǔ)言模式,從而可以生成流暢且自然的文本。

大語(yǔ)言模型可以應(yīng)用于各種自然語(yǔ)言處理任務(wù),包括但不限于以下幾個(gè)方面:

(1) 文本生成:生成一篇文章,寫(xiě)一個(gè)故事,或者是創(chuàng)作一首詩(shī)。

(2) 機(jī)器翻譯:將文本從一種語(yǔ)言翻譯成另一種語(yǔ)言。

(3) 問(wèn)答系統(tǒng):在問(wèn)答系統(tǒng)中,大語(yǔ)言模型可以用來(lái)生成問(wèn)題的答案。

(4) 文本摘要:生成文本的摘要或者是概括。

(5) 情感分析:分析文本的情感傾向,是積極還是消極。

(6) 代碼生成和代碼理解:理解和生成編程代碼,這對(duì)于開(kāi)發(fā)者幫助和代碼自動(dòng)完成等場(chǎng)景非常有用。

(7) 聊天機(jī)器人:用于構(gòu)建能夠與人自然交流的聊天機(jī)器人。

2.2 工業(yè)品物料分類應(yīng)用場(chǎng)景

在工業(yè)品采購(gòu)過(guò)程中,基于采購(gòu)需求的描述,對(duì)工業(yè)品詢單物料進(jìn)行分類,有助于精細(xì)化識(shí)別用戶需求,推薦最優(yōu)質(zhì)的供應(yīng)商。在該應(yīng)用場(chǎng)景中,分類模型需要根據(jù)非結(jié)構(gòu)化物料文本信息(可能包括物料名稱、型規(guī)、技術(shù)屬性及使用場(chǎng)景),將物料分類到一個(gè)具體的葉類,葉類來(lái)自于給定的物料葉類體系。本文用于訓(xùn)練的數(shù)據(jù)集是物料庫(kù)中的物料數(shù)據(jù),共1 081 488條,每條包括名稱、品牌、型規(guī)、技術(shù)屬性、葉類字段,其中葉類即為預(yù)測(cè)目標(biāo),共581個(gè)葉類。另外有來(lái)自于實(shí)際業(yè)務(wù)場(chǎng)景中的物料數(shù)據(jù)523 897條,不包括所屬類別信息。

2.3 生成式大語(yǔ)言模型數(shù)據(jù)增強(qiáng)及效果

針對(duì)該場(chǎng)景,使用傳統(tǒng)的規(guī)則方法或深度學(xué)習(xí)方法效果較差。本文提出一種使用大語(yǔ)言生成式模型增強(qiáng)工業(yè)品物料分類的方法,以提高分類的準(zhǔn)確性和魯棒性,并降低算力消耗。

首先,通過(guò)引入生成式大語(yǔ)言模型,分別對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng),以及對(duì)多個(gè)分類模型進(jìn)行集成,以增強(qiáng)分類模型的表現(xiàn)。作為參考,本文首先設(shè)計(jì)了一個(gè)基于關(guān)鍵詞—葉類表的TF-IDF統(tǒng)計(jì)學(xué)分類模型(每個(gè)關(guān)鍵詞對(duì)每個(gè)葉類計(jì)算TF-IDF,形成關(guān)鍵詞—葉類的權(quán)重表),一個(gè)基于Word2Vec+LGBM的分類模型[4],以及一個(gè)基于微調(diào)后的BERT的分類模型[5],各原始模型分別在測(cè)試集上的表現(xiàn)如表1所示。

表1 原始分類模型效果統(tǒng)計(jì)指標(biāo)Table 1 Statistical metrics for the performance of the original classification model

本文以BELLE-7B-2M模型[6]為基礎(chǔ),通過(guò)物料數(shù)據(jù)庫(kù)數(shù)據(jù)對(duì)BELLE進(jìn)行微調(diào),對(duì)原始數(shù)據(jù)進(jìn)行增強(qiáng)。微調(diào)采用instruct-answer的形式,instruct為“有以下物料信息,{物料名稱、型規(guī)、品牌、技術(shù)屬性的拼接},請(qǐng)問(wèn)它屬于哪個(gè)葉類”。answer為“{葉類名稱}”。微調(diào)數(shù)據(jù)采用平滑分布抽樣[7]后的物料庫(kù)數(shù)據(jù)2萬(wàn)條,并保證每個(gè)葉類至少有一條物料數(shù)據(jù)。

在第一階段,使用生成式大語(yǔ)言模型對(duì)數(shù)據(jù)量較少的葉類進(jìn)行數(shù)據(jù)增強(qiáng)。具體實(shí)施步驟見(jiàn)圖1、2。

圖1 使用原分類器結(jié)合人工審核找到分類效果較差葉類數(shù)據(jù)Fig.1 Finding poorly classified leaf data by the original classifier and manual review

圖2 使用BELLE對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng)Fig.2 Data augmentation with BELLE applied to the dataset

(1) 在物料數(shù)據(jù)庫(kù)中,采用分布平滑抽樣的方法取15%的數(shù)據(jù)作為測(cè)試集[7],并確保每個(gè)葉類至少有一個(gè)測(cè)試數(shù)據(jù)。統(tǒng)計(jì)三個(gè)模型的測(cè)試集結(jié)果,分別統(tǒng)計(jì)結(jié)果中所有葉類的F1值,取在三個(gè)模型下F1值均處于后四分之一的葉類作為待增強(qiáng)葉類集合。

(2) 使用LGBM、BERT和TF-IDF這三個(gè)模型分別對(duì)物料數(shù)據(jù)進(jìn)行分類,得到三個(gè)類別預(yù)測(cè)結(jié)果(可以重復(fù))。使用微調(diào)后的BELLE在這三個(gè)結(jié)果中進(jìn)行選擇。取結(jié)果屬于待增強(qiáng)葉類的物料并人工審核BELLE的選擇是否正確,篩選后得到共1 362條物料數(shù)據(jù),作為增強(qiáng)樣本。

(3) 使用BELLE對(duì)增強(qiáng)樣本進(jìn)行數(shù)據(jù)增強(qiáng),即通過(guò)prompt“生成類似{增強(qiáng)樣本中的物料信息}的物料數(shù)據(jù)”使BELLE生成近似的物料數(shù)據(jù),以1∶10的比例擴(kuò)充增強(qiáng)樣本以解決原數(shù)據(jù)分布不均及稀疏的問(wèn)題[8]。

(4) 使用增強(qiáng)樣本繼續(xù)微調(diào)訓(xùn)練LGBM和BERT模型,使其在待增強(qiáng)葉類上的性能得到提升。

在一階段融合后,LGBM和BERT在同樣的測(cè)試集下表現(xiàn)如表2所示。

表2 一階段加強(qiáng)后分類結(jié)果Table 2 Classification results after first-stage enhancement

在第二階段,將增強(qiáng)后的LGBM模型、增強(qiáng)后的BERT模型,以及原始的TF-IDF模型在推理階段進(jìn)行集成,從而進(jìn)一步提高工業(yè)品物料分類的準(zhǔn)確性和魯棒性。具體實(shí)施步驟如圖3。

圖3 使用BELLE對(duì)BERT、LGBM和TF-IDF分類進(jìn)行集成Fig.3 Integration of BERT,LGBM,and TF-IDF classifiers using BELLE

(1) 分別使用增強(qiáng)后的LGBM模型、增強(qiáng)后的BERT模型和原始的TF-IDF模型對(duì)測(cè)試樣本進(jìn)行推理,得到各自的預(yù)測(cè)類別。這一步驟可以提供多種視角的預(yù)測(cè)結(jié)果,為后續(xù)的融合打下基礎(chǔ)。在實(shí)際操作中,我們將各模型的輸出結(jié)果進(jìn)行歸一化處理,以消除不同模型預(yù)測(cè)概率值之間的差異。

(2) 使用微調(diào)后的BELLE對(duì)這三個(gè)預(yù)測(cè)類別進(jìn)行判斷。具體而言,微調(diào)后的BELLE模型會(huì)將各模型的預(yù)測(cè)結(jié)果作為輸入,輸出一個(gè)綜合評(píng)估后的類別預(yù)測(cè)。BELLE模型基于其自身與訓(xùn)練及微調(diào)的結(jié)果,對(duì)物料信息及三個(gè)模型的分類結(jié)果進(jìn)行理解并選擇,從而使集成后的模型性能更加優(yōu)越。

通過(guò)BELLE進(jìn)行集成學(xué)習(xí)后在同樣的測(cè)試集下可以得到表3所示結(jié)果。

表3 二階段加強(qiáng)后分類結(jié)果Table 3 Classification results after second-stage enhancement

2.4 試驗(yàn)結(jié)果與分析詳述

本研究采用了三種模型:TF-IDF統(tǒng)計(jì)分類,LGBM及BERT模型進(jìn)行分類,并采用微調(diào)后的BELLE-7B-2M模型進(jìn)行兩階段的加強(qiáng)。實(shí)驗(yàn)結(jié)果顯示,在使用微調(diào)后的BELLE模型一階段加強(qiáng),對(duì)LGBM和BERT進(jìn)行樣本增強(qiáng)和再次訓(xùn)練后,LGBM在精確率0.88、召回率0.87和F1值 0.87上有所提升,BERT在精確率0.87、召回率0.89和F1值 0.88上也有所進(jìn)步。在微調(diào)后的BELLE模型二階段加強(qiáng)后,通過(guò)對(duì)三個(gè)基礎(chǔ)模型的預(yù)測(cè)結(jié)果進(jìn)行選擇完成對(duì)三個(gè)模型結(jié)果的集成,集成后的模型在精確率0.89、召回率0.90和F1值 0.89上相比三個(gè)模型獨(dú)立工作取得了進(jìn)一步提升。總體來(lái)說(shuō),通過(guò)BELLE加強(qiáng)原分類模型的方法在提升模型性能方面取得了成效。

3 結(jié)語(yǔ)

本文通過(guò)對(duì)工業(yè)品領(lǐng)域物料分類技術(shù)的分析,提出了一套結(jié)合生成式大型預(yù)訓(xùn)練模型(如BELLE)和深度學(xué)習(xí)分類器的物料分類方案,并經(jīng)實(shí)驗(yàn)進(jìn)行對(duì)比驗(yàn)證了生成式大型預(yù)訓(xùn)練模型能夠?yàn)榉诸惾蝿?wù)帶來(lái)有效提升。這套方案充分利用了生成式模型在數(shù)據(jù)預(yù)處理和增強(qiáng)方面的優(yōu)勢(shì),同時(shí)結(jié)合領(lǐng)域知識(shí)和先進(jìn)的深度學(xué)習(xí)技術(shù),實(shí)現(xiàn)了高準(zhǔn)確率的物料分類。

猜你喜歡
分類文本語(yǔ)言
分類算一算
語(yǔ)言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
讓語(yǔ)言描寫(xiě)搖曳多姿
教你一招:數(shù)的分類
累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 久久精品中文无码资源站| 香蕉在线视频网站| 久草视频一区| 午夜精品区| 91伊人国产| 久久久精品无码一二三区| 2020久久国产综合精品swag| 久久国产拍爱| 99久久精品国产综合婷婷| 一本色道久久88综合日韩精品| 五月婷婷丁香色| 99re视频在线| 亚洲天堂伊人| 亚洲综合亚洲国产尤物| 久久一本精品久久久ー99| 日韩在线观看网站| 在线观看免费黄色网址| 久久久久久午夜精品| 91视频区| 国产第八页| 欧美国产综合色视频| 第九色区aⅴ天堂久久香| 乱人伦中文视频在线观看免费| 99久久精品视香蕉蕉| 国产精品福利社| 日韩二区三区| 99精品国产电影| 国产在线精品香蕉麻豆| 欧美日本中文| 超薄丝袜足j国产在线视频| 韩国v欧美v亚洲v日本v| 91青草视频| 四虎国产精品永久一区| 成人午夜视频网站| 一区二区午夜| 在线免费亚洲无码视频| 国产在线无码av完整版在线观看| 国产高潮视频在线观看| 亚洲精品天堂在线观看| 亚洲中文字幕日产无码2021| 精品久久国产综合精麻豆| 成人免费午夜视频| 亚洲AV无码乱码在线观看代蜜桃| 8090成人午夜精品| 色综合婷婷| 亚欧成人无码AV在线播放| 日本a∨在线观看| 亚洲精品无码成人片在线观看| 一本大道视频精品人妻| 99久久无色码中文字幕| 国产小视频免费| 免费国产不卡午夜福在线观看| 免费看美女自慰的网站| 欧美激情第一欧美在线| 欧美日韩福利| 国外欧美一区另类中文字幕| 国产在线观看高清不卡| 毛片基地视频| 四虎永久在线视频| 国产欧美日韩专区发布| 精品国产电影久久九九| 亚洲天堂网在线观看视频| 成人亚洲国产| 国产主播在线观看| 国产在线观看人成激情视频| 国产九九精品视频| 国产精品女熟高潮视频| 精品国产成人a在线观看| 亚洲福利片无码最新在线播放| 丝袜国产一区| 国产欧美一区二区三区视频在线观看| 中文字幕亚洲另类天堂| lhav亚洲精品| 成人免费黄色小视频| 亚洲成人在线免费观看| 午夜毛片免费观看视频 | 久久人人97超碰人人澡爱香蕉| 亚洲va视频| 真实国产乱子伦高清| 97视频在线观看免费视频| 91av成人日本不卡三区| 日韩精品一区二区三区大桥未久|