中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)08-0157-05
Abstract: In library service work, when facing local characteristic literature with a smalldata volume,library managers need to spend a great deal of time and efort manually organizing such local characteristic literature.In order to achieve automatedpre-clasificatinofcharacteristicliterature,thispaperproposestheCGBmodel,whichisanutomatedclasiiation modelforliteraturewithasmalldatavolume.TakingthecharacteristicliteraturedatasetofGuizhouProvinceas theexperimental object,the model conducts pre-training through GloVeand BERT,fuses the generated vectors,extracts andrepresents features throughTextC,andlasifsharactersticitratureofferentdatasales.Experimentalsultsidicatethatteaacy of the model with fused word vectors isat least 4 % higherthanthatof thebenchmark model.
Keywords: local characteristic literature; text classification; text vectorization
0 引言
在圖書(shū)館服務(wù)工作中,為展現(xiàn)地方特色建立地方文獻(xiàn)庫(kù),圖書(shū)館管理人員需要將具有地方特色的文獻(xiàn)從海量文獻(xiàn)中挑選出來(lái),與中圖分類(lèi)法不同,地方特色文獻(xiàn)融合了多種類(lèi)型文獻(xiàn),如:政治、科技、歷史、小說(shuō)等,卻又與地方特色密切相關(guān),將此類(lèi)文獻(xiàn)進(jìn)行歸納整理需要耗費(fèi)大量的時(shí)間與精力。通過(guò)特征提取對(duì)文獻(xiàn)[1-3]進(jìn)行分類(lèi),能夠有效簡(jiǎn)化圖書(shū)館工作人員的工作內(nèi)容。相較于大數(shù)據(jù)量動(dòng)輒上萬(wàn)條的各種文獻(xiàn),地方特色文獻(xiàn)具有小數(shù)據(jù)量的特點(diǎn),以中圖分類(lèi)法為基礎(chǔ),每一個(gè)領(lǐng)域只有幾百到幾千條記錄,這種數(shù)據(jù)量較小的情況使得傳統(tǒng)的機(jī)器學(xué)習(xí)模型和分析方法在處理時(shí)可能不夠有效,因此,在面對(duì)小數(shù)據(jù)量的文獻(xiàn)分類(lèi)時(shí),仍然采用圖書(shū)館管理人員手工選擇和提取特征。
在文獻(xiàn)分類(lèi)任務(wù)中,文獻(xiàn)信息的相關(guān)性識(shí)別具有重要意義,語(yǔ)義信息的精確表達(dá)能夠?yàn)槲墨I(xiàn)的相關(guān)性識(shí)別提供可靠保障。目前,語(yǔ)義信息的精確表達(dá)主要采用大量文本數(shù)據(jù)進(jìn)行詞向量訓(xùn)練[4-5],但各個(gè)地區(qū)在建立地方特色文獻(xiàn)庫(kù)的過(guò)程中,相關(guān)文獻(xiàn)的公開(kāi)發(fā)表量并不大,在該領(lǐng)域中僅依靠語(yǔ)義信息實(shí)現(xiàn)文獻(xiàn)相關(guān)度識(shí)別,會(huì)由于語(yǔ)義信息模糊造成文獻(xiàn)相關(guān)性識(shí)別的準(zhǔn)確率較低,現(xiàn)階段,面向小數(shù)據(jù)量的文獻(xiàn)分類(lèi)任務(wù)仍然是通過(guò)人工完成,加大了員工工作量。為解決這一問(wèn)題,本文提出了對(duì)小數(shù)據(jù)量的文獻(xiàn)進(jìn)行自動(dòng)化預(yù)分類(lèi)的方法,以實(shí)現(xiàn)文獻(xiàn)的相關(guān)性識(shí)別及精準(zhǔn)推薦。
為了滿(mǎn)足小數(shù)據(jù)量的地方特色文獻(xiàn)分類(lèi)這一現(xiàn)實(shí)需求,本文采用貴州省部分特色文獻(xiàn)作為實(shí)驗(yàn)數(shù)據(jù),通過(guò)GloVe與BERT模型生成融合詞向量后,結(jié)合TextCNN的深度學(xué)習(xí)方法,提出小數(shù)據(jù)量的文獻(xiàn)分類(lèi)模型融合詞向量(ClassificationModelwithSmallDataVolumeBasedonBERT-GloVe),并且通過(guò)實(shí)驗(yàn)驗(yàn)證本文所提模型的有效性。
1 研究背景
為了實(shí)現(xiàn)文獻(xiàn)自動(dòng)分類(lèi),減輕人工負(fù)擔(dān),國(guó)內(nèi)外大量研究人員對(duì)此進(jìn)行研究,張雨卉[基于《中圖法》分別從XMC和HTC對(duì)文獻(xiàn)進(jìn)行分類(lèi);呂琦等綜合參考文獻(xiàn)和文本內(nèi)容信息,構(gòu)建了引文詞嵌入模型,對(duì)期刊文獻(xiàn)進(jìn)行學(xué)科分類(lèi);Sajid等[根據(jù)粒度主題分類(lèi)的層次結(jié)構(gòu)進(jìn)行索引,通過(guò)可用元數(shù)據(jù)上進(jìn)行多標(biāo)簽分類(lèi)。
與大數(shù)據(jù)量的文獻(xiàn)分類(lèi)不同,小數(shù)據(jù)量文獻(xiàn)具有數(shù)據(jù)特征少的特點(diǎn),在有限的特征屬性中挖掘潛在內(nèi)容,可以有效增加模型的分類(lèi)準(zhǔn)確率,因此,文獻(xiàn)數(shù)據(jù)中的文本信息需要加以利用,由于計(jì)算機(jī)無(wú)法對(duì)中文文本數(shù)據(jù)直接進(jìn)行處理[9-10],衍生了大量的自然語(yǔ)言處理技術(shù)。易明等[1利用GloVe對(duì)在線研討文本進(jìn)行分類(lèi)訓(xùn)練,結(jié)合BiLSTM層提取語(yǔ)義特征后實(shí)現(xiàn)最終分類(lèi);周燕[12]為了解決近義詞、多義詞的表征困難,采用GloVe模型表示詞特征,充分利用全局信息和共現(xiàn)窗口的優(yōu)勢(shì)對(duì)文本進(jìn)行向量化。針對(duì)一詞多義問(wèn)題,BERT模型由Devlin等[13]于2018年提出,該模型通過(guò)MASK(Masked-LM)任務(wù)以及NSP(NextSentencePrediction)任務(wù),實(shí)現(xiàn)文本向量化。Li等[14]基于BERT提出了一種用句子序列代替詞級(jí)序列的長(zhǎng)文本相似度計(jì)算方法,解決了與長(zhǎng)文本語(yǔ)義相關(guān)的應(yīng)用的實(shí)際問(wèn)題;陸佳麗[15]提出以Bert-TextCNN模型為基礎(chǔ)且同時(shí)考慮標(biāo)題、正文和正則判斷的多標(biāo)簽分類(lèi)方法,該方法在多標(biāo)簽分類(lèi)任務(wù)中效果提升明顯;Aziz等[利用BERT的上下文優(yōu)勢(shì)進(jìn)行細(xì)微的語(yǔ)言理解,并采用雙仿射注意力機(jī)制來(lái)精確描述單詞關(guān)系,加強(qiáng)了其文本理解能力,并且能夠遷移到其他語(yǔ)料中。綜上所述,目前有大量學(xué)者對(duì)文本向量化進(jìn)行研究,但面向中文文本向量化任務(wù)中仍然存在詞向量表義不足的問(wèn)題。
針對(duì)小語(yǔ)料庫(kù)的文獻(xiàn)分類(lèi)問(wèn)題,由于文獻(xiàn)題目具有:專(zhuān)業(yè)性強(qiáng);文本短,形成的上下文語(yǔ)境較小;文本數(shù)據(jù)小,訓(xùn)練數(shù)據(jù)小等特點(diǎn)。相較于其他文本向量化模型,GloVe模型在投入小量數(shù)據(jù)的短文本語(yǔ)料庫(kù)的情況下,更能夠充分利用語(yǔ)料庫(kù)中的信息;BERT通過(guò)其深層的Transformer架構(gòu),能夠動(dòng)態(tài)地理解上下文,從而提高了對(duì)復(fù)雜語(yǔ)言結(jié)構(gòu)的建模能力,使得詞向量的表達(dá)更加完善。GloVe與BERT互相補(bǔ)充,相互完善,因此,本文提出融合GloVe模型與BERT模型地詞向量表達(dá)模型,實(shí)現(xiàn)特征提取與表達(dá)后,對(duì)多類(lèi)型特色文獻(xiàn)進(jìn)行有效分類(lèi)。
2 模型設(shè)計(jì)
為了實(shí)現(xiàn)小數(shù)據(jù)量的文獻(xiàn)精準(zhǔn)分類(lèi),本文以知網(wǎng)爬取的貴州省特色文獻(xiàn)作為實(shí)驗(yàn)數(shù)據(jù),利用GloVe和BERT預(yù)訓(xùn)練生成的融合字向量矩陣[17],融合向量矩陣經(jīng)過(guò)TextCNN進(jìn)行特征提取后,通過(guò)全連接層得到最終的分類(lèi)結(jié)果,本文使用準(zhǔn)確率、召回率等指標(biāo)對(duì)模型的有效性進(jìn)行了充分評(píng)估。模型的整體結(jié)構(gòu)如圖1所示。
2.1 詞向量轉(zhuǎn)化模塊
文本卷積神經(jīng)網(wǎng)絡(luò)無(wú)法識(shí)別字符,所以需要實(shí)現(xiàn)文本數(shù)據(jù)向量化。本文將原始數(shù)據(jù)經(jīng)過(guò)清洗和分詞任務(wù)后,通過(guò)基準(zhǔn)模型生成字向量矩陣,經(jīng)過(guò)融合層后得到該句子的融合向量矩陣。
在算法1中描述了基于GloVe與BERT的詞向量融合方法:
算法1.融合詞向量輸入:初始數(shù)據(jù)集輸出:短文本的向量矩陣初始化GloVe矩陣 X ,BERT矩陣 Y
1.FOR每條短文本DO
2.FOR每個(gè)字符DO
3. IF 字符不為空
4. 獲取字符的GloVe詞向量 x
5. 獲取字符的BERT詞向量 y
6. 擴(kuò)展 x 維度到與 y 維度相同
7. 將 x 連接在 X 后
8. 將 y 連接在Y后
9. ELSE
10. X 與Y進(jìn)行加權(quán)融合得到融合詞向量矩陣
11. END IF
12. END FOR
13.返回融合詞向量矩陣
14.ENDFOR
2.2特征提取分類(lèi)模塊
在文本向量化表示中,為優(yōu)化數(shù)據(jù)結(jié)構(gòu),采用特征提取進(jìn)行降維處理,本文使用文本卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)對(duì)融合后的向量矩陣進(jìn)行特征提取,以有效降低維度并提升模型性能。
在文本卷積神經(jīng)網(wǎng)絡(luò)中,卷積核通過(guò)滑動(dòng)窗口對(duì)字符序列進(jìn)行分析,以提取和組合文本特征,根據(jù)滑動(dòng)窗口大小的不同,獲取不同層次的語(yǔ)義信息。每個(gè)卷積核的寬度與字的維度相同,使得每次卷積操作都基于一個(gè)完整的字或詞語(yǔ)。此外,每次卷積操作會(huì)加上一個(gè)偏置項(xiàng),以增強(qiáng)模型的表達(dá)能力。為獲取文本的特征值,采用最大池化方法,從特征向量中篩選出最大的特征值,從而使得模型提取出有效特征,提升分類(lèi)任務(wù)的準(zhǔn)確性。
在全連接層中,本文選取Sigmoid函數(shù)作為激活函數(shù)以實(shí)現(xiàn)二分類(lèi)。若
,則類(lèi)別為正,若
,那么為負(fù)。
3 實(shí)驗(yàn)分析
3.1 數(shù)據(jù)集
本實(shí)驗(yàn)以貴州特色文獻(xiàn)庫(kù)中的文獻(xiàn)分類(lèi)為例,采用貴州省特色文獻(xiàn)為原始數(shù)據(jù)集共10632條,人工為其進(jìn)行分類(lèi),其中以“貴州民族”為標(biāo)簽的文獻(xiàn)共有2182條;以“貴州歷史”為標(biāo)簽的文獻(xiàn)共有2068條;標(biāo)簽為“貴州黨政”的文獻(xiàn)共有590條;標(biāo)簽為“貴州技術(shù)”的數(shù)據(jù)共有580條。將四組數(shù)據(jù)根據(jù)數(shù)據(jù)量組為“民族/歷史”的數(shù)據(jù)集1與“黨政/技術(shù)”的數(shù)據(jù)集2,分別由4250以及1170條數(shù)據(jù)組成,總數(shù)據(jù)共有5420條,數(shù)據(jù)集構(gòu)成如表1所示,符合小數(shù)據(jù)量文獻(xiàn)的標(biāo)準(zhǔn),通過(guò)對(duì)該數(shù)據(jù)集的分類(lèi)效果,可以證實(shí)該模型豐富小數(shù)據(jù)量文本語(yǔ)義的有效性。
進(jìn)行文本清洗后,按照字粒度進(jìn)行分詞。選取每個(gè)數(shù)據(jù)集中的 20 % 為評(píng)估集,每個(gè)數(shù)據(jù)集中的剩余數(shù)據(jù)為訓(xùn)練集,數(shù)據(jù)集組成情況如表1所示。

3.2 評(píng)價(jià)指標(biāo)
如表2所示,本文實(shí)驗(yàn)的評(píng)估指標(biāo)包括:1)準(zhǔn)確率(Accuracy):正確分類(lèi)與數(shù)據(jù)總數(shù)之比。2)查全率(Recall):正確預(yù)測(cè)正類(lèi)與實(shí)際正類(lèi)樣本數(shù)之比。3)查準(zhǔn)率(Precision):正確預(yù)測(cè)正類(lèi)與所有預(yù)測(cè)正類(lèi)的樣本數(shù)之比。4)F1值(F1),表示查全率和查準(zhǔn)率的調(diào)和平均值。

可以將各類(lèi)預(yù)測(cè)結(jié)果定義為:1)TP預(yù)測(cè)為歷史且實(shí)際類(lèi)別也為歷史的結(jié)果。2)FN預(yù)測(cè)為民族但實(shí)際類(lèi)別為歷史的結(jié)果。3)FP預(yù)測(cè)為歷史但實(shí)際類(lèi)別為民族的結(jié)果。4)TN預(yù)測(cè)為民族且實(shí)際類(lèi)別也為民族的結(jié)果。
根據(jù)這四個(gè)指標(biāo),可以進(jìn)一步計(jì)算模型的評(píng)估指標(biāo):




3.3 參數(shù)設(shè)置
本文使用300維度的GloVe詞向量以滿(mǎn)足詞向量的準(zhǔn)確描述。采用兩層卷積結(jié)構(gòu)減少計(jì)算復(fù)雜度。為了分析詞語(yǔ)關(guān)系及主謂賓關(guān)系,卷積核大小設(shè)為2,以捕捉該長(zhǎng)度的N-grams特征。具體參數(shù)如表3所示。

3.4 結(jié)果分析
為了驗(yàn)證算法的有效性,本文使用不同大小的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。對(duì)比基線模型:GloVe-TextCNN及BERT-TextCNN,實(shí)驗(yàn)結(jié)果如表4所示。


由實(shí)驗(yàn)得出如下結(jié)論:
1)通過(guò)表4以及圖2可發(fā)現(xiàn),較小數(shù)據(jù)量時(shí)不同模型效果差異度要大于較大數(shù)據(jù)量時(shí)的模型效果。這是由于在小數(shù)據(jù)量的語(yǔ)料庫(kù)中,依賴(lài)數(shù)據(jù)量的BERT模型的訓(xùn)練效果較差,而在GloVe與融合詞向量模型的訓(xùn)練過(guò)程中,對(duì)數(shù)據(jù)量的依賴(lài)性較小。
2)融合詞向量模型的表現(xiàn)優(yōu)于單一模型。在1170條和4250條數(shù)據(jù)組成的語(yǔ)料庫(kù)中,融合詞向量模型的準(zhǔn)確率均高于單一模型。在數(shù)據(jù)集1中,融合詞向量模型比BERT提升了 8 . 0 4 % ,比GloVe高了4 . 4 5 % ;在數(shù)據(jù)集2中,本文提出的分類(lèi)方法相比基準(zhǔn)模型的精確率分別提升了 3 . 2 9 % 及 2 . 0 2 % 。
3)隨著數(shù)據(jù)量的增加,融合詞向量模型準(zhǔn)確率的提升速率低于基準(zhǔn)模型。這表明在增加數(shù)據(jù)量的情況下,BERT模型對(duì)性能的提升更為顯著,同時(shí)GloVe也表現(xiàn)出了一定的提升。在數(shù)據(jù)量提升時(shí),BERT詞向量模型的準(zhǔn)確率有了明顯的大幅度提升,然而在特色文獻(xiàn)數(shù)據(jù)庫(kù)中,每個(gè)類(lèi)別的數(shù)據(jù)量大多在1 0 0 ~ 1 0 0 0 這個(gè)小數(shù)據(jù)量范圍,因此在小數(shù)據(jù)量時(shí)有更好分類(lèi)效果的融合詞向量能夠更好地應(yīng)用在特色文獻(xiàn)分類(lèi)這一應(yīng)用場(chǎng)景。
4結(jié)論
本文提出一種針對(duì)小數(shù)據(jù)量的文本分類(lèi)方法,通過(guò)結(jié)合GloVe和BERT的優(yōu)點(diǎn)優(yōu)化文本信息的表達(dá),采用卷積神經(jīng)網(wǎng)絡(luò)可以有效提取文本中的局部特征,適合于處理短文本或句子,增強(qiáng)分類(lèi)模型的性能。
本文詳盡闡述了融合詞向量模型,并通過(guò)實(shí)驗(yàn),模型在不同數(shù)據(jù)集上的表現(xiàn)得到了充分評(píng)估,為其有效性提供了支持。這種融合方法顯示了跨模型協(xié)同的潛力,尤其是在處理小規(guī)模數(shù)據(jù)集時(shí),為后續(xù)研究提供了新的思路。在未來(lái)的研究中,可以引入注意力機(jī)制來(lái)加權(quán)融合不同來(lái)源的詞向量,可能會(huì)進(jìn)一步提升模型的表達(dá)能力和性能。
參考文獻(xiàn):
[1] ZHU B,PAN W. Chinese Text Classification MethodBased on Sentence Information Enhancement and Feature Fusion[J/OL].Heliyon,2024,10(17):e36861[2024-09-25].https://doi.org/10.1016/j.heliyon.2024.e36861.
[2] LI J,TANG C,LEI Z,et al. KRA: K-NearestNeighbor Retrieval Augmented Model for Text Classification [J/OL].Electronics,2024,13(16):3237[2024-09-25].https://doi.org/10.3390/electronics13163237.
[3] SARIN G, MUKUND P K M. Text Classification UsingDeep Learning Techniques: A Bibliometric Analysis and FutureResearch Directions [J].Benchmarking: An Intermational Journal,2024,31(8):2743-2766.
[4]王欽晨,段利國(guó),王君山,等.基于BERT字句向量與差異注意力的短文本語(yǔ)義匹配策略[J].計(jì)算機(jī)工程與科學(xué),2024,46(7):1321-1330.
[5]孫清華,鄧程,顧振宇.結(jié)合詞向量和自注意力機(jī)制的設(shè)計(jì)素材推薦系統(tǒng)[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2024,36(1):63-72.
[6]張雨卉.基于《中國(guó)圖書(shū)館分類(lèi)法》的文獻(xiàn)自動(dòng)化深層分類(lèi)的研究和實(shí)現(xiàn)[J].圖書(shū)館雜志,2024,43(3):61-74.
[7]呂琦,上官燕紅,李銳.基于參考文獻(xiàn)和文本內(nèi)容學(xué)科分類(lèi)的跨學(xué)科測(cè)度研究[J].情報(bào)學(xué)報(bào),2024,43(8):976-991.
[8] SAJID N, AHMAD M,RAHMAN UA, et al. A NovelMetadata Based Multi-Label Document Classification Technique[J].Computer Systems Science and Engineering,2023,46(2):2195-2214.
[9]譚可人,蘭韻詩(shī),張楊,等.基于多層級(jí)語(yǔ)言特征融合的中文文本可讀性分級(jí)模型[J].中文信息學(xué)報(bào),2024,38(5):41-52.
[10]沈思,陳猛,馮暑陽(yáng),等.ChpoBERT:面向中文政策文本的預(yù)訓(xùn)練模型[J].情報(bào)學(xué)報(bào),2023,42(12):1487-1497.
[11]易明,李藿然,劉繼月.基于GloVe-BiLSTM的在線研討信息分類(lèi)模型研究[J].情報(bào)理論與實(shí)踐,2022,45(9):173-179.
[12]周燕.基于GloVe模型和注意力機(jī)制Bi-LSTM的文本分類(lèi)方法[J].電子測(cè)量技術(shù),2022,45(7):42-47.
[13] DEVLIN J,CHANG M W,LEE K,et al. BERT:Pre-Training of Deep Bidirectional Transformers for LanguageUnderstanding [C]//Proceedings of the 2019 Conference of theNorth American Chapter of the Association for ComputationalLinguistics: Human Language Technologies, Volume 1(Longand Short Papers).Minneapolis:ACL,2019:4171-4186.
[14] LI X,HU L L. Chinese Long Text SimilarityCalculation of Semantic Progressive Fusion Based on Bert [J].Journal of Computational Methods in Sciences and Engineering,2024,24(4-5):2213-2225.
[15]陸佳麗.基于Bert-TextCNN的開(kāi)源威脅情報(bào)文本的多標(biāo)簽分類(lèi)方法[J].信息安全研究,2024,10(8):760-768.
[16] AZIZ K, JI D,CHAKRABARTI P,et al. Unifying Aspect-BasedSentimentAnalysisBERTandMulti-LayeredGraph Convolutional Networks for Comprehensive SentimentDissection [J].Scientific Rep0rts,2024,14(1):14646[2024-09-06]. https://www.nature.com/articles/s41598-024-61886-7.
[17]邵一博,秦玉華,崔永軍,等.融合多粒度信息的用戶(hù)畫(huà)像生成方法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(2):401-407.
作者簡(jiǎn)介:陳藍(lán)(1997—),女,漢族,重慶人,助理館員,碩士,研究方向:信息管理與信息服務(wù)、文本挖掘;周杰(1992一),男,漢族,湖北安徽人,副研究館員,碩士,研究方向:數(shù)據(jù)挖掘、智能檢索;通信作者:楊帆(1969一),男,漢族,貴州貴陽(yáng)人,教授,博士,研究方向:知識(shí)組織與知識(shí)工程、文本挖掘。