999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于MCA-BERT的數學文本分類方法

2023-09-13 03:06:54楊先鳳李自強
計算機工程與設計 2023年8期
關鍵詞:分類文本信息

楊先鳳,龔 睿,李自強

(1.西南石油大學 計算機科學學院,四川 成都 610500;2.四川師范大學 影視與傳媒學院,四川 成都 610066)

0 引 言

對現有資源進行分類標識,匹配學科知識圖譜,彰顯了構建學科知識圖譜對教育的重要性[1]。非結構化文本數據是知識圖譜構建的重要數據來源,文獻[2]針對非結構化數據,圍繞知識圖譜中的信息抽取和信息融合任務開展了一系列的研究。對非結構化文本數據進行數據挖掘有利于后續任務的推進,文獻[3]針對電子病歷的非結構化數據對電子病歷數據挖掘的4種典型任務命名實體識別、關系抽取、文本分類[4]和智能問診進行了深入研究。文本分類是數據挖掘的重要子任務,將學科非結構化文本數據按知識類別分類不僅可以實現海量數據的自動聚類,還可以在一定程度上提高后續任務如關系抽取的精度,文獻[5]通過文本分類識別出數據集中的積極樣例進而提高了關系抽取的精度。

數學學科具有抽象性、簡潔性和準確性的特點,具有很重要的研究價值,文獻[6]基于SVM實現了數學題目的自動分類,可以幫助理解題意。本文以數學非結構化數據為研究對象,首先構建了數學數據集,然后提出了一種獲得句子級的實體信息和詞語級的實體信息并將二者與BERT生成的上下文信息結合的文本分類方法。最終實驗結果表明該模型相比其它基準模型具有更好的文本分類效果。

1 相關工作

分類模型是實現文本分類任務的重要部分。傳統的統計機器學習方法將文本轉換成數字或One-hot向量表示,輸入分類器如支持向量機分類器、樸素貝葉斯分類器,就可以得到分類結果。但是統計機器學習方法的缺點是需要特征工程工作的支持,非常耗時耗力,并且分類效果一般。深度學習的方法不存在統計機器學習的缺點,并且可以盡可能地挖掘文本中潛在的特征,進而提高分類效果。明建華等[7]提出將TextCNN模型應用在直播彈幕文本分類中,該模型可以更好地獲取文本特征,從而獲得比機器學習方法更好的分類效果,能夠有效識別直播彈幕中的非法短文本。文本表示是文本分類任務的另一重要部分,僅用數字或One-hot向量表示文本會因為忽略詞與詞之間的關系、詞與文本之間的關系而丟掉文本中的很多信息。Yao等[8]提到一種文本分類器FastText,該分類器將文本表示為詞袋,并向其加入了N-gram特征處理詞順序丟失的問題,可以在訓練時間比深度網絡快許多數量級的情況下實現與深度網絡相媲美的精度。Huang等[9]提出了一種新型文本分類模型,將層次注意力機制引入了文本分類,模型能夠直觀地解釋各個句子和詞對文檔分類的重要性。王根生等[10]提出用訓練生成的Word2vec詞向量和TF-IDF算法構建文本的向量表示,用卷積神經網絡負責特征的提取,最后取得了不錯的分類效果,說明實體詞信息對文本分類任務的重要性。為了更好地學習文本中字與字之間的上下文關系,段丹丹等[11]提出了將BERT運用在中文短文本分類中,使用Transformers 編碼器作為特征抽取器可以獲得更豐富的上下文信息。特定領域的文本分類可以挖掘到該文本中的潛在價值,杜琳等[12]提出將BERT應用在病歷文本分類中,能夠有效地利用寶貴的中醫病例文本資源。

2 模型結構

BERT預訓練模型可以有效提取文本的上下文信息。用數學文本中所有領域實體詞對應的Word2vec詞向量的平均池化來表示句向量可以從句子級方面提取文本的實體詞信息。對數學文本中的所有領域實體詞采用注意力機制可以獲得文本中不同實體詞的權重信息,可以從詞語級方面進一步加強實體詞信息的作用。MCA-BERT模型結構如圖1所示。

圖1 MCA-BERT模型結構

該模型網絡包含以下4個部分:

(1)BERT Context Information Channel(BERT_CIC)BERT上下文信息通道;

(2)Average Pool Channel(APC)平均池化通道;

(3)Attention Weight Channel(AWC)注意力權重通道;

(4)Softmax輸出層。

2.1 BERT上下文信息通道

BERT的模型結構如圖2所示。

圖2 BERT模型結構

模型的輸入E是文本中每一個字對應的輸入向量,輸入向量生成的方式如圖3所示。

圖3 輸入向量的組成

每一個字的輸入向量等于字向量TE和文本向量SE以及位置向量PE的和。Trm是指Transformers,由若干個編碼器和解碼器堆疊形成,BERT只用到了Transformers的編碼器部分,編碼器包含一個多頭自注意力機制和一個全連接層。多頭自注意力機制允許模型在不同的表示子空間里學習到相關的信息,全連接層輸出的是每一個輸入對應的隱藏層向量,該向量可用于下游任務。BERT與Word2vec最大的不同在于BERT的輸出向量是動態的,不同兩句話中同一個詞生成的輸出向量會因為上下文信息的不同而不同,可以很好地解決一詞多義的問題。

BERT模型有兩個自監督任務Masked Language Model(MLM)和Next Sentence Prediction(NSP)。MLM是指隨機mask每一個訓練句子中15%的詞,用其上下文來做預測,在這15%中,80%是被替換成[mask],10%是隨機取一個詞來代替被mask的詞,10%維持原狀。NSP是指從語料中選擇一些句子對A和B,其中50%的數據中B是A的下一條句子,剩余50%的數據中B是語料庫中隨機選擇的,通過訓練可以學習句子間的相關性。

BERT上下文信息通道中文本經過BERT編碼輸出的句向量w是在文本前添加的[CLS]對應的隱藏層向量。因為[CLS]本身沒有語義,得到的向量是經過多頭自注意力機制后所有詞的加權平均,相比其它的向量,可以更好地表征句子語義。

2.2 平均池化通道

2.2.1 One-hot

詞向量可以對文本進行編碼,One-hot是最簡單的編碼方式。One-hot詞向量的分量只有一個是1,其維度是整個詞匯表的大小,雖然這樣可以唯一表示所有的詞匯,但是詞匯量一旦過多,會導致維度災難問題的出現。除此之外,詞與詞在空間上都是垂直的關系,相關性為0,存在語義鴻溝的問題。One-hot工作原理如圖4所示。

圖4 One-hot編碼

2.2.2 Word2vec

Word2vec通過將One-hot詞向量轉化為低維度的連續值,可以解決One-hot詞向量維度災難和語義鴻溝的問題。詞向量與詞向量之間的相似度計算用的是余弦相似度[13],其值越接近1,向量之間的相似度越高,余弦相似度公式如式(1)所示

Similarity(A,B)=∑ni=1Ai×Bi∑ni=1(Ai)2×∑ni=1(Bi)2

(1)

Word2vec模型是一個簡單化的神經網絡,只包含輸入層、隱藏層和輸出層。該網絡最終的目的是獲得通過訓練得到的權重矩陣,該權重矩陣可以唯一表示輸入的One-hot向量,從而實現將高維的One-hot編碼降維至Word2vec形式的表示。Word2vec模型根據輸入輸出的不同可以分為兩種,一種是CBOW,它的輸入是目標詞對應的上下文詞向量,而輸出就是這個目標詞的詞向量。另一種是Skip-Gram模型,它的輸入輸出和CBOW相反。

本文用維基中文數據訓練的Word2vec詞向量模型查詢與“有理數”余弦相似度最高的5個詞,結果見表1,由表可知關聯性越高的詞匯余弦相似度越高。

表1 與“有理數”最相似的5個詞語

2.2.3 平均池化

文本中實體詞的詞向量的平均池化可以減少特征和參數,并且可以作為句向量表示文本,其公式如式(2)所示

s=∑ni=1ein

(2)

其中,ei表示文本中的第i個數學實體詞對應的詞向量,n表示實體詞的個數,s表示最終輸出的句向量。不同句子中的實體信息差別越大,最終得到的句向量之間的余弦相似度越小,所以句向量可作為句子級的實體信息,幫助判斷文本的類別。例如文本是“無理數和有理數統稱為實數。”,e0表示“無理數”的詞向量,e1表示“有理數”的詞向量,e2表示“實數”的詞向量,則文本的句向量s=(e0+e1+e2)/3。

2.3 注意力權重通道

句子級的實體信息對每一個實體詞的關注程度都是一樣的,只能簡單地幫助判斷句子的類別。在文本分類任務中,不同實體詞的貢獻是不同的,注意力機制可以對輸入的每一個實體詞向量分配不同的權重,使得模型能夠多關注一些重要實體信息,注意力計算公式如下式表示

ei=uTitanh(wihi+bi)

(3)

αi=softmax(ei)

(4)

o=∑ni=1αihi

(5)

其中,hi是經過Dense層非線性變換過后的實體詞向量,uTi是輸入hi對應的權重向量,wi是輸入hi對應的權重矩陣,bi是偏置向量,αi是hi的注意力權重,o是最終的加權和輸出。最終得到的輸出o會突出部分權重較高的詞的實體信息,所以可作為詞語級的實體信息,幫助判斷文本的類別。

2.4 Softmax輸出層

輸出部分的公式如下式表示

yj=softmax(zj)

(6)

zj=WTjx+bj

(7)

x=xBERT_CIC⊕xAPC⊕xAWC

(8)

softmax(zj)=exp(zj)∑nj=1exp(zj)

(9)

其中,yj是指第j類的概率,WTj是權重矩陣,bj是偏置矩陣,x是輸入向量,由xBERT_CIC、xAPC、xAWC拼接而成。xBERT_CIC是BERT上下文信息通道的輸出,xAPC是平均池化通道的輸出,xAWC是注意力權重通道的輸出。

3 實驗以及結果分析

3.1 實驗數據集

本文構建的數據集來源包括:手動搜索的教案文本、爬取人教版課本內容獲得的文本、爬取中文維基百科對數學實體詞描述的部分獲得的文本、調用科大訊飛語音轉寫接口轉寫初中數學課堂視頻得到的文本。獲得數據之后,接著對上述文本進行清洗、篩選、標注,最終得到一共6142條數據。數據內容是對數學概念的描述,如:“正數的絕對值是他的本身、負數的絕對值是他的相反數、0的絕對值是0。兩個負數比較大小,絕對值大的反而小。”,“解析式形如y=k/x的函數叫作反比例函數,其中k也叫作反比例系數,反比例函數的定義域是不等于零的一切實數。”。初中數學實體詞是指可在初中數學中能夠找到相關定義的詞,如“三角形”、“無理數”、“反比例函數”等。本文在劃分數據類別的時候,以人教版的初中數學目錄為參照,將整個知識體系分為代數和幾何兩個大類,然后將代數繼續細分為如下3類:

(1)數與式:實數及其運算、代數式及其運算以及根式的相關內容,主要包括有理數、實數、整式、分式、單項式、多項式等知識點。

(2)方程、不等式、函數:方程、不等式、函數這3個概念是區別而又緊密聯系的,概念大量交叉,所以該類包含上述3部分的所有內容,主要有方程與方程組、列方程解應用題、不等式與不等式組、平面直角坐標系、變量與函數、正比例函數、一次函數、反比例函數、二次函數等知識點。

(3)統計與概率:統計與概率的所有內容,主要包括總體、個體、眾數、平均數、中位數、方差、標準差、直方圖等知識點。

根據初中數學知識的重要程度,本文將幾何這個大類的文本繼續細分為如下4類:

(1)三角形:三角形的所有內容,主要包括三角形的概念與性質、相似三角形、全等三角形、三角函數等知識點。

(2)四邊形:四邊形(矩形、平行四邊形、梯形、菱形)的所有內容,主要包括四邊形邊、角的概念與性質、四邊形的面積計算、四邊形的判定等知識點。

(3)圓:圓的所有內容,主要包括圓的概念與性質、圓和圓的位置關系、弧的概念和性質、直線和圓的關系、弦的概念和性質等知識點。

(4)幾何知識類:沒有包含在上面幾何3大類知識點的內容,如視圖的概念和判斷、線的概念與性質、角的概念與性質、多邊形(不包括三角形和四邊形)的概念與性質等知識點。

部分數據內容及其類別見表2。

表2 數據分類示例

3.2 參數設置

為了解決現有Word2vec詞向量模型存在部分數學實體詞的詞向量缺失和數學實體詞的詞向量訓練不充分的問題,本文從初中數學中篩選出了782個數學實體詞添加到自定義用戶詞典,然后用本文的6142條數據訓練Word2vec詞向量,訓練的主要參數見表3。其中sg用于設置訓練算法,默認為0,對應CBOW算法,sg設置為1則采用Skip-Gram算法。Skip-Gram能夠更好地處理出現頻率較低的詞,比如很少出現在文本中的實體詞“混循環小數”、“大數定理”等。size是指輸出詞的向量維數,默認為100,設定為300。window表示當前詞與預測詞在一個句子中的最大距離是多少,設定為默認值5,一旦當前詞和預測詞的距離超過5就可以認為兩詞的相關性不大。Skip-Gram神經網絡在訓練的時候會有非常大的權重參數,負采樣negative samping每次讓一個訓練樣本僅僅更新一小部分的權重參數,可以降低梯度下降過程的計算量。對于小規模數據集,一般選擇5到20個negative words,本文設定的negative值為10。workers表示控制訓練的并行數,設定為4,可以減少訓練時間。iter表示隨機梯度下降法中迭代的次數,設定為10。

表3 Word2vec訓練參數

MCA-BERT部分網絡參數見表4。其中Dropout設置為0.7的含義是保留該神經網絡層百分之七十的結點,丟棄其余的結點,可以在一定程度上減小網絡的大小,防止模型過擬合。損失函數選擇的是categorical_crossentropy,它適用于多分類并且Softmax作為輸出層的激活函數的文本分類問題。

表4 網絡參數

3.3 評價指標

P=TPFP+TP

(10)

R=TPFN+TP

(11)

F1=2P·RP+R

(12)

其中,TP表示模型中預測正確的正樣本,FN表示模型中預測正確的負樣本,FP表示模型中預測錯誤的負樣本。F1可以很好地兼顧精確率和召回率,因為本文是一個多分類問題,所以使用宏平均作為評價指標,宏平均是所有類的F1值的算術平均,其計算公式如下式表示

Pmacro=1n∑ni=1Pi

(13)

Rmacro=1n∑ni=1Ri

(14)

F1macro=2Pmacro·RmacroPmacro+Rmacro

(15)

其中,Pi是第i類的精確率,Ri是第i類的召回率,n是類別數目,Pmacro是宏平均的精確率,Rmacro是宏平均的召回率,F1macro是宏平均的F1值。

3.4 實驗結果與分析

3.4.1 實驗一

為了驗證MCA-BERT模型的有效性,本文將該模型與以下模型進行對比:

TextCNN:首先對文本進行編碼,然后采用3種尺寸(2、3、4),一共3*2個卷積核對文本進行特征提取,相比單個卷積核可以得到更豐富的特征表達,最后將獲取的特征拼接并輸入Softmax層完成文本分類。

FastText:首先對文本進行編碼,然后利用N-gram挖掘文本特征,最后輸入層次Softmax完成分類。

Word2vec平均池化單通道:以文本中實體詞的詞向量的平均池化作為輸入,后接256維Dense層和Softmax層完成文本分類。

BERT單通道:以BERT生成的768維句向量作為輸入,后接256維Dense層和Softmax層完成文本分類。

BERT拼接Word2vec平均池化單通道:將BERT生成的768維句向量與Word2vec平均池化得到的300維向量拼接作為輸入,后接256維Dense層和Softmax層完成文本分類。

BERT_CIC+APC雙通道:將BERT_CIC的輸出與APC的輸出拼接再輸入Softmax完成文本分類。

BERT_CIC+AWC雙通道:將BERT_CIC的輸出與AWC的輸出拼接再接入Softmax完成文本分類。

實驗結果見表5。

表5 模型結果(實驗一)

3.4.2 實驗二

為了探究不同預訓練模型對該實驗的影響,本文將BERT預訓練模型與BERT-wwm[14]、BERT-wwm-ext、RoBERTa-wwm-ext[15]、ALBERT-base[16]預訓練模型進行了對比,每個模型輸出的向量維度都是768,各模型的特點如下:

BERT-wwm:BERT-wwm是在BERT基礎上,將Mask任務由替換字詞修改為替換一個完整的詞,訓練完成后字的embedding具有詞的語義信息。

BERT-wwm-ext:相比BERT-wwm的改進是預訓練模型做了增加,次數達到5.4 B;訓練步數增大,訓練的第一階段1 M步,訓練第二階段400 K,在一些中文任務上效果有提升。

RoBERTa-wwm-ext:該預訓練模型在BERT的基礎上做了以下調整:引入了動態mask,相比于靜態,動態mask是每次輸入到序列的mask都不一樣;改變了預訓練的方法,移除了BERT的NSP任務,相比于BERT,采用了連續的full-sentences和doc-sentences作為輸入(長度最多為512);訓練時間更長,batch size更大,訓練數據更多。

ALBERT-base:采用了兩種減少模型參數的方法,模型比BERT占用的內存空間小很多,同時極大提升了訓練速度,并在一些任務中獲得比BERT更好的模型效果。

實驗結果見表6。

表6 模型結果(實驗二)

然后本文對BERT_CIC+APC雙通道、BERT_CIC+AWC雙通道、MCA-BERT、MCA-RoBERTa-wwm-ext的驗證集損失進行了對比,如圖5所示。

圖5 驗證集損失

3.4.3 實驗三

表7 模型結果(實驗三)

3.4.4 實驗分析

由實驗一可知,傳統的TextCNN僅通過卷積挖掘文本的特征效果很差,原因是最大池化丟失了結構信息,很難發現文本中的轉折關系等復雜模式,并且TextCNN只知道關鍵詞是否在文本中出現,以及相似度強度分布,不知道關鍵詞出現的頻率以及這些關鍵詞出現的先后順序。FastText利用N-gram方法提取文本中特征,對于目標詞來說可以獲得前N-1個詞所能提供的全部信息,但是需要相當規模的訓練文本來確定模型的參數,可以一定程度上地提高分類效果。Word2vec平均池化單通道的方法只考慮了文本的實體詞信息,而沒有考慮到文本的上下文信息,所以效果相對較差,但是最終的結果說明句子級的實體信息對文本分類任務來說是有幫助的。BERT單通道的方法可以很好地挖掘文本的上下文信息,但是忽略了文本中實體信息的作用。BERT拼接Word2vec平均池化單通道的方法與BERT_CIC+APC雙通道的方法對比表明雙通道相比單通道的方法能夠更有效地融入句子級的實體詞信息,從而獲得更好的分類效果。BERT_CIC+AWC雙通道的實驗結果表明詞語級的實體信息比句子級的實體信息更有效。MCA-BERT的方法同時融入句子級的實體詞信息和詞語級的實體詞信息能夠獲得更好的文本分類效果,最終的實驗F1值相比BERT單通道的方法提高了2.1個百分點。實驗二對比各種預訓練模型發現將BERT替換成RoBERTa-wwm-ext能夠獲得更好的文本分類效果,驗證集的損失收斂得更快更低。實驗三中MCA-BERT模型得到的F1值相比BERT單通道的方法提高了0.7個百分點,說明通用數據集的文本分類任務也可以通過增強實體信息而提高文本分類效果,但是提升的效果不如特定領域的文本分類。

4 結束語

為了提高數學文本分類的效果,本文構建了數據集并根據數據集的特點提出了一種MCA-BERT的方法,并與其它基準模型進行了對比,實驗結果表明該方法能夠有效提高文本分類的精度,該方法可以為特定領域的文本分類任務提供參考。然后本文將MCA-BERT中的BERT與其它主流預訓練模型進行了對比,發現更換RoBERTa-wwm-ext模型能夠進一步提高文本分類效果。最后,用MCA-BERT模型在通用文本分類數據集THUCNews數據集上進行了測試,結果表明該模型也能在一定程度上提高通用文本分類任務的效果。下一步工作,我們會在此基礎上實現命名實體識別任務和關系抽取任務從而構建基于非結構化數據的數學知識圖譜,并探索更有效的實體詞信息獲取方法,將其拓展到其它文本分類任務中。

猜你喜歡
分類文本信息
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 中国毛片网| 97综合久久| 国产精品美女网站| 欧美综合激情| 久久亚洲AⅤ无码精品午夜麻豆| 国产成人精品一区二区免费看京| 成年A级毛片| 国产白浆一区二区三区视频在线| 色婷婷亚洲十月十月色天| 久久一色本道亚洲| 99久久国产综合精品女同| 一本一道波多野结衣一区二区| 国产三级毛片| 欧美日本激情| 亚洲欧美精品日韩欧美| 亚洲一区无码在线| 亚洲欧美日韩精品专区| 91蝌蚪视频在线观看| 成人自拍视频在线观看| 高清无码手机在线观看| 久久亚洲黄色视频| 97se亚洲综合在线天天| 欧美精品不卡| 97在线国产视频| 久久久久国产精品免费免费不卡| 色九九视频| 国产美女91呻吟求| 青青草久久伊人| 亚洲91精品视频| 国产精品人莉莉成在线播放| 国产综合网站| 日本亚洲成高清一区二区三区| 国产成人欧美| 狠狠做深爱婷婷久久一区| 91小视频在线| 九色视频一区| 波多野结衣视频网站| 免费一级成人毛片| 99久久精彩视频| 国产真实乱了在线播放| av色爱 天堂网| 久久久黄色片| 欧美午夜小视频| 久久99精品国产麻豆宅宅| 国产流白浆视频| 成年人久久黄色网站| 国产精品白浆无码流出在线看| 亚洲一区毛片| h网址在线观看| 九九免费观看全部免费视频| 亚洲综合色在线| 一级一毛片a级毛片| 欧美黄色网站在线看| 91国内外精品自在线播放| 国产成本人片免费a∨短片| 中国美女**毛片录像在线| 国产日韩欧美视频| 午夜爽爽视频| 亚洲午夜国产精品无卡| 国产sm重味一区二区三区| 就去吻亚洲精品国产欧美| 又大又硬又爽免费视频| 成人免费黄色小视频| 精品国产免费观看一区| 欧美色视频在线| 国产成人精品视频一区二区电影| 又黄又爽视频好爽视频| 毛片网站观看| 无码福利日韩神码福利片| 久久亚洲国产一区二区| 久草青青在线视频| 国产美女在线观看| 国产地址二永久伊甸园| 欧美精品xx| 尤物特级无码毛片免费| 国产午夜在线观看视频| 国产综合亚洲欧洲区精品无码| 九九视频免费在线观看| 亚洲手机在线| 国产自产视频一区二区三区| 99久久精品免费观看国产| 成人在线观看一区|