基于二分類模型的電子檔案管理技術研究

2022-07-12 04:53:50許秀霓

微型電腦應用 2022年5期

許秀霓

(廣東電網有限責任公司，廣東，廣州 510030)

0 引言

檔案是指單位及個人在進行相關業務的處理時，所產生的一級來源文件[1]。在計算機誕生以前，檔案主要以實體形式存在，不僅檔案難以管理，利用率也非常低[2]。隨著電子信息化的發展，如今的檔案大多以電子信息形式存在。電子檔案提升了檔案管理的效率，增加了檔案的流通性[3]。但是在電子檔案實際應用過程中，系統每天都會存入大量的數據，對于檔案內容的檢索就顯得非常關鍵[4]。文本摘要技術是近些年較為流行的一種技術檢索技術，可以將大量的文本信息快速地生成精準的文本摘要。為了能夠使檔案管理的效率有效提升，并能方便檔案管理工作者能夠有效地檢索到目標檔案，本次研究應用了二分類算法對關鍵詞分類模型進行構建，并與平滑方法相結合，旨在為管理工作人員提供通順可讀的電子檔案文摘。

1 基于二分類模型的電子檔案管理優化設計

1.1 訓練數據的清洗與詞向量的構建

在選用訓練語料時，需要確保語料主題是否與關鍵詞保持一致。本次研究在進行模型構建時的語料全部來源于csdn博客原文，并將博客中抽取的詞語標記成關鍵詞。在清洗訓練語料時，首先要清洗掉如字符亂碼之類的噪音數據，再對語料進行統計詞頻、分詞等[5]。為了能夠保證后面運算的準確性，還應進行去停用詞處理，因此便能得到可用的詞粒度訓練語料，增加了詞向量構建的準確性。訓練數據具體的清洗步驟，如圖1所示。

圖1 訓練數據具體的清洗步驟

在本次研究中，主要會考慮到主題與頻率的影響，同時應用有監督的學習方法進行模型構建和關鍵詞提取，構建該模式首先需要對詞語向量模式進行構建。本次研究在進行詞向量構建時，綜合了主體模型與詞頻的詞向量輸出，將4個算法word2vec、LSA、Textrank、tf-idf的輸出作為詞向量，同時對創建后的原始特征進行降維處理，以避免發生特征間的共線性情況，使運算復雜度有效降低。其中，word2vec、LSA為主題詞向量的表現，Textrank、tf-idf為詞頻詞向量的表現，將主題與詞頻進行有效結合，形成訓練所用詞向量，能夠有效提升模型的表現能力。為了能夠得到用于進行二分類模型的訓練詞向量，需要采用分類算法對模型進行優化，在當前詞向量特征表現中，選取模型能夠體現表現力的特征，剔除相對于模型而言不重要的特征，以使特征維度有效降低。

Filter方法為有效的過濾法，該方法通過具體指標對閾值進行設定，從而進行閾值特征的過濾。該方法可以用來檢驗因變量目標值與自變量特征之間的特征值關系。設x為自變量，y為因變量，構建統計量如式(1)，

(1)

式中，統計量X2用于衡量x=i且y=j的樣本頻數的期望和觀察值之間的差距，同時也是用來衡量目標函數和特征函數之間的相關性。再應用Embedded方法有效結合特征選取與模型訓練工作，通過降維處理降低訓練特征維度，這里主要應用了LDA降維方法，其優化方式如式(2)，

(2)

(3)

應用拉格朗日乘子法解決優化中的凸優化問題，具體函數如式(4)，

ξ(w,λ)=wTSbw-λ(wTSww-c)

(4)

再對w求偏導，設極值為0，如式(5)、式(6)，

(4)

(5)

圖2 詞向量構建過程

1.2 二分類模型構建及模型調參

詞向量構建成功后，就能夠構建二分類模型進行詞向量分類處理。本次研究設計主要采用了GBDT、隨機森林、SVM、logistic regression四類學習算法，對二分類模型進行構建，根據模型參數分類效果進行詞向量參數反饋，以確定最優分類算法。首先，構建出四類學習算法的模型，并進行模型參數優化，確保每種算法均在最優環境之下；其次，在相同數據環境、不同特征維度下對比各類算法的訓練效果，包括學習預測、AUC值、n值、查全率、預測查準率、存儲空間、時間消耗。綜合分析后選取最佳分類模型用于系統模塊的實現。分類算法在學習過程中的步驟，如圖3所示。

圖3 分類算法在學習過程中的步驟

接著評價模型分類結果，將指標好壞程度反饋到詞向量的構建過程中，以便構建時能夠及時調整特征維度，判斷各個算法中詞向量的分類準確程度、時間與空間的占用率，最后找出最優分類模式。本次研究采用多指標評價模式評價模型，以便對后面的數據、業務需求提供依據。評價具體表示方法包括將正例預測成正例(TT)、將正例預測成負例(TF)、將負例預測成正例(FT)、將負例預測成負例(FF)。

查準率也就是準確率，主要是衡量模型預測結果的準確程度，表示預測結果中的正例樣本中的真正正例數量，表示方式如式(6)：

(6)

查全率也就是召回率，主要是表示預測樣本中正例被正確預測的比例，表示方式如式(7)：

(7)

查全率與查準率的調和平均值表示為F1，F1值是一種模型預測相對均衡的評價方式，如式(8)：

(8)

AUC(Area Under Cover)指標主要是用于ROC函數下方面積的衡量。其中，ROC函數是將模型進行不斷變化，并將數據預測為正值的閾值，再將預測結果繪制成一條曲線。通過以上著重考察的評價指標，可以得出一個分類模型最好的評價，最終確定適合于本次研究的分類算法。

由于二分類算法最終生成的關鍵詞需要對關鍵句進行提取，本次研究采用的方法為遍歷文章中的所有句子，記錄包含關鍵詞的句子與關鍵詞數量，最后根據關鍵詞數量進行排序。設摘要顆粒度為k，關鍵句子為topk，對抽取后的關鍵句進行平滑化處理，以生成連續可讀的關鍵句。同時在文摘中加入關鍵句前后的n個句子，其中n值受到摘要規模的影響，屬于可變參數。摘要的生成需要通過人工判斷，在判斷過程中調整n值，直到最終生成最優摘要效果。

2 基于二分類模型的電子檔案管理設計測試分析

2.1 文本摘要模塊功能測試

本次研究的訓練數據來源于CSDN訓練集，其中包括1.5萬篇語料，數據集大小為4.4G。分別構建了50、100、150、200維度作為特征長度的選取，固定word2vec特征長度為50，LSA特征長度為10，再應用分類算法分類詞語。在每一次訓練測試中均采用同一臺計算機以及相同的數據集。訓練測試結果如圖4所示。

(b) 空間隨維度的變化圖

(d) F1值隨維度的變化圖

(e) AUC值隨維度的變化圖

(f) 準確率隨維度的變化圖-以10為步長

(g) F1值隨維度的變化圖-以10為步長

(h) AUC值隨維度的變化圖-以10為步長圖4 訓練測試結果

由圖4(a)～圖4(e)可知，各個算法在50、100、150維度時，AUC值、F1值與分類準確率均呈現上升趨勢。但是在200維度時，各測試值均呈現下降趨勢，主要是維度提升后造成了模型的過度擬合。所以可以判斷出Textrank與tf-idf算法的最優特征維度在150～200之間。本次測試將維度間隔調整至10進行迭代計算，結果如圖4(f)～圖4(e)所示。由圖4可知SVM算法最為穩健，AUC值、F1值與分類準確率均保持相對較高，其他算法則相對較差，表現不如SVM，且具有較高的運算復雜度。因此，本次研究基于二分類模型選擇的組合特征長度為180維度，應用SVM作為模型分類算。

在前文中構建的二分類模型在被調整到參數最優時，能夠準確地提取關鍵詞。所以本次研究將重點測試基于關鍵詞的關鍵句提取能力，并將測試結果與傳統算法進行比較。測試語料采用LCSTS集合中的數據源，LCSTS數據集中含有約200萬個中短文本，同時提供了人為標準的摘要，該數據集很符合本次研究的測試工作。為了測試所設計的摘要算法的優越性，本次研究引入傳統的Textrank、tf-idf算法，將這兩類算法使用同樣的評判標準與設計算法進行對比。

本次研究在進行測試時，主要是給出了人工標注的測試數據集，以便測試二分類模型中的摘要算法，并應用Edmundson評分標準進行標注評判。Edmundson評分標準是將目標文摘與算法生成文摘的共同句子數進行對比，根據對比結果給出評分。Edmundson具體評分的方法是先拆分句子，主要由標點符號來進行拆分。在將句子抽取后，Edmundson可以被定義為式(10)，

(10)

式中，|T|表示目標文摘中句子總數，|S|表示匹配上的句子總數。基于Edmundson評分標準，本次研究綜合考慮了算法對系統資源的占用情況，對算法進行了客觀評價，以判斷本次研究能否達到設計要求。

本次研究在LCSTS集合下進行了10次實驗，每次實驗均隨機抽取LCSTS集合中的10 000條數據，用以對二分類模型、Textrank、tf-idf進行評價，最后通過10次實驗結果綜合評價各個算法的效果。3種不同算法在10次實驗中的平均Edmundson值關系，如圖5所示。

由圖5可以看出，本次研究提出的有監督的二分類模型提取文摘的質量最優，主要的原因是該算法可以應用自身已有的模型進行文摘提取，從而節約了大量的時間。進一步對3種算法的平均模型的時間消耗與空間消耗進行對比，結果如圖6所示。

(b) 三種算法平均模型空間消耗對比圖6 三種算法的平均模型的時間消耗與空間消耗對比

由圖6可知，Textrank和tf-idf算法均為輸入無監督型算法，時空消耗大部分為訓練數據的切詞、預處理和先行詞頻統計等。而本次研究提出的基于二分類模型為監督型學習算法，在進行模型構建時，會不斷地調整模型參數，造成大量時間的耗費。因此模型的時間消耗與空間消耗測試結果顯示，2種無監督的學習算法時空消耗均遠遠小于二分類模型。但是二分類模型所消耗的時間基本上花費在了算法的訓練學習中，所以二分類模型只要能夠訓練出適合的參數，就能夠準確地預測到新數據。因此在后續預測過程中，有監督的二分類模型只需根據構建好的詞向量步驟進行預測數據，大大減少了測試所耗費的時間。從預測的效果來看，本次研究提出的二分類模型將語義特征與數據統計特征進行了有機融合，可以更優地評價關鍵詞語的權重，使得關鍵詞的獲取更加可靠，并且測試過程中受到數據影響波動非常小，這也是本次設計優于其他模型的特點。

2.2 不同算法間的性能對比分析

為了驗證本次研究提出的有監督二分類模型的有效性，選取了袁桂霞等[6]提出的有監督詞袋模型進行了算法性能對比。并通過平均檢索耗時(ART)與平均精確度均值(mAP)兩項指標對算法的性能進行評價。本次測試的數據庫選取了某新聞平臺的數據庫，該數據庫包括了9項類別，共約17 640個數據，如表1所示。

表1 某新聞平臺的數據庫類別及數量

此次研究選取了文檔數據的前1 000個樣本作為訓練樣本數據，剩下的960個樣本作為測試樣本，并給出了不同碼本尺寸下的2種算法模型的ART與mAP指標對比結果。測試結果如圖7所示。

(b) ART指標對比結果圖7 兩種算法平均檢索耗時(ART)與平均精確度均值(mAP)指標對比結果

由圖7(a)可以看出，在不同的碼本尺寸條件下，二分類模型的檢索精度明顯優于有監督詞袋模型，主要原因為二分類模型在進行模型構建時，會不斷地調整模型參數，在最優化問題求解過程中不易陷入局部最優，同時二分類模型只要能夠訓練出適合的參數，就能夠準確地預測到新數據，提升模型的區分能力，因此二分類模型的檢索精度指標得到提升。由圖7(b)可以看出，二分類模型的檢索時間同樣明顯優于有監督詞袋模型，主要是由于二分類模型只需根據構建好的詞向量步驟進行預測數據，大大減少了測試所耗費的時間。

3 總結

此次研究針對電子檔案管理方面的內容，應用了基于二分類模型的優化技術對提出的電子檔案管理方法進行了測試研究。研究結果顯示，基于二分類模型選擇的組合特征長度為180維度，應用SVM作為模型分類算；本文提出的有監督的二分類模型提取文摘的質量最優；無監督的學習算法時空消耗均遠遠小于二分類模型；二分類模型只要能夠訓練出適合的參數，就能夠準確地預測到新數據；并通過性能測試得出，在不同的碼本尺寸條件下，二分類模型的檢索精度和檢索耗時明顯優于有監督詞袋模型。本次研究提出的二分類模型將語義特征與數據統計特征進行了有機融合，可以更優地評價關鍵詞語的權重，使得關鍵詞的獲取更加可靠，并且測試過程中受到數據影響波動非常小，這也是本次設計優于其他模型的特點。