基于文本聚類的檔案數據全自動分類方法研究

2021-08-18 08:33:48于紅

電子測試 2021年14期

于紅

（吉林省琿春市敬信鎮衛生院，吉林延邊，133300）

0 引言

隨著網絡化、信息化的發展，檔案因關聯內容多樣、涉及范圍廣，數據量和規模面臨著規模化的遞增發展趨勢，并以文本形式存儲于計算機上，而此時，以往的人工分類、歸檔已經無法適從，亟待進行分類方法的變革。而文本聚類作為一種文本處理方法，其目的是將存在某種語義或主題關聯的數據集依照某種結構予以分類，劃歸為不同的聚類，而K-means算法作為應用最廣泛的文本聚類方法，具有運算簡便、收斂速率快等優點，但也存在易于陷入局部最優解的缺點，而以往多將PSO 與之融合，但并未解決問題。而GWO 算法作為一種新型的群智能算法，與PSO 相比搜索能力更強、收斂速度更快，可滿足海量檔案數據快速分類的需求，為此，本文結合該算法的優勢，著眼于檔案數據分類的準確性、效率性，借鑒以往研究來對GWO 算法進行優化，以化解PSO、K-means 算法早熟收斂、局部最優解問題，以此提升檔案數據分類的準確性，而后，引入FastText 深度學習模型，通過分類訓練實現檔案數據的全自動分類，實現檔案數據分類的高效性。

1 文本聚類的算法改進

1.1 GWO 算法改進

PSO 是文本聚類最常用的方法，但檔案數據的海量性使其搜索空間維數過稿，且特征稀疏下種群差異縮小，易于陷入局部最優解，且經過多方研究未找到有效解決方法，影響了分類的準確性。而灰狼優化算法（Grey Wolf Optimizer，GWO）是基于灰狼捕食獵物活動而設計的一種新型群智能優化算法，其因搜索能力、收斂性能較強，且參數運算少、易于實現而被推廣應用[1]，但是，在迭代逐漸增加時，因種群多樣性減弱，個體差異縮減，易產生早收斂問題，后期易于陷入局部最優解，影響文本聚類的準確性。為解決上述問題，優化檔案數據分類的可靠性，本文對該算法進行如下改進。

改進1：免疫克隆操作，為實現種群中個體的優選，將對精英個體進行克隆與變異操作以構建新種群，而后，從新種群中選出適應度更優的個體進行迭代，直至免疫克隆選擇達到最大迭代次數[2]，具體的操作步驟如下：

依據適應度函數從灰狼種群中優選出m 個個體組成精英種群；而后，對該種群中全部個體進行克隆，組建Nc大小的臨時種群T，如此即可保證精英種群中各個個體均匹配一定數量的克隆體[3]：

而后，通過下式對種群中所有個體的高頻變異，來獲取精英個體附近最優的候選解：

改進2：以改進DE 算法更新個體，因DE 算法利用種群中隨機選取的個體構造差分量，而后，以最優個體作為目標向量進行交叉融合生成后代，以依據適應度值進行個體更新生成新種群，但是，因為種群個體的聚類中心排序完全隨機，而在個體間進行自我尋優和全局尋優交叉操作時，不同簇類上差異較大的聚類中心會在出現在同一維度上，如此，個體將無法獲得有效的搜索經驗，彼此間的學習效果也將受到影響，甚至會偏離全局最優解的搜索方向，陷入局部最優解。故而，本文將針對個體間學習與更新中，種群個體的聚類中心向量排序隨機對其的負面影響，設計一種自適應調整排序方法，也即基于個體間相似度排序，盡量將相似度最高的聚類中心排列在同一維度，以個體ix、x j為例，該方法構建過程如下。

2 檔案數據的快速分類方法

結合上述方法，在優化文本聚類準確性基礎上，為實現檔案數據的快速分類，本文引入FastText 深度學習模型，其旨在協助創建文本表達和分類的可伸縮解決方案的資料庫，主要由輸入層Inputlayer、隱藏層hidder layer、輸出層out layer 等構成，整體結構如圖1 所示。

圖1 FastText 深度學習模型的結構

結合上圖，輸入層是添加文本n-gram 特征的詞語詞向量，可準確表征存在矢量特征的詞語語義，以確保語義表達的準確性；而隱藏層則用于各個詞向量均值的求解，并使用優化器和梯度下降算法完成權重參數的更新，而后，進一步計算出損失函數及與對應的分類，通過輸出層輸出分類概率，完成檔案數據的快速分類。與其他分類方法不同的是，FastText 利用分層分類器將檔案數據的不同分類整合為樹形結構，且為優化分類效率，其引入Softmax 分層技術，利用Huffman 編碼進行文本數據標簽的編碼，以提升分類模型訓練的效率，具體，FastText 分類模型訓練的步驟如下：

首先，對檔案的文本數據A 進行分詞、去停用詞的預處理，并增添標簽于每行結尾，初始化詞語向量；同時，設置選取損失函數LOSS、分類訓練的學習率為lr，并選定文本輸出對應的類別；而后，利用梯度下降算法完成各個詞語向量權重的計算，并據此，在分類訓練過程中實時更新詞向量數據、標簽數據的權值，進行分類模型的訓練，以實現檔案數據全自動分類。

3 結束語

檔案數據的海量性、高速更新性，使得其歸類管理面臨諸多難題，而且，多領域、不同描述的多模態數據，更是增加了其聚類分析的維度和運算量，且PSO 固有的局部最優問題也無法得到根本解決。為此，上述研究借鑒免疫克隆與DE 算法個體更新的優勢性，通過對GWO 算法進行改進，來實現可靠的文本聚類；同時，利用FastText 深度學習模型來進行權自動分類設計，由此從準確性、效率上雙重驅動檔案數據分類優化發展。