999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本聚類的檔案數據全自動分類方法研究

2021-08-18 08:33:48于紅
電子測試 2021年14期
關鍵詞:分類文本

于紅

(吉林省琿春市敬信鎮衛生院,吉林延邊,133300)

0 引言

隨著網絡化、信息化的發展,檔案因關聯內容多樣、涉及范圍廣,數據量和規模面臨著規模化的遞增發展趨勢,并以文本形式存儲于計算機上,而此時,以往的人工分類、歸檔已經無法適從,亟待進行分類方法的變革。而文本聚類作為一種文本處理方法,其目的是將存在某種語義或主題關聯的數據集依照某種結構予以分類,劃歸為不同的聚類,而K-means算法作為應用最廣泛的文本聚類方法,具有運算簡便、收斂速率快等優點,但也存在易于陷入局部最優解的缺點,而以往多將PSO 與之融合,但并未解決問題。而GWO 算法作為一種新型的群智能算法,與PSO 相比搜索能力更強、收斂速度更快,可滿足海量檔案數據快速分類的需求,為此,本文結合該算法的優勢,著眼于檔案數據分類的準確性、效率性,借鑒以往研究來對GWO 算法進行優化,以化解PSO、K-means 算法早熟收斂、局部最優解問題,以此提升檔案數據分類的準確性,而后,引入FastText 深度學習模型,通過分類訓練實現檔案數據的全自動分類,實現檔案數據分類的高效性。

1 文本聚類的算法改進

1.1 GWO 算法改進

PSO 是文本聚類最常用的方法,但檔案數據的海量性使其搜索空間維數過稿,且特征稀疏下種群差異縮小,易于陷入局部最優解,且經過多方研究未找到有效解決方法,影響了分類的準確性。而灰狼優化算法(Grey Wolf Optimizer,GWO)是基于灰狼捕食獵物活動而設計的一種新型群智能優化算法,其因搜索能力、收斂性能較強,且參數運算少、易于實現而被推廣應用[1],但是,在迭代逐漸增加時,因種群多樣性減弱,個體差異縮減,易產生早收斂問題,后期易于陷入局部最優解,影響文本聚類的準確性。為解決上述問題,優化檔案數據分類的可靠性,本文對該算法進行如下改進。

改進1:免疫克隆操作,為實現種群中個體的優選,將對精英個體進行克隆與變異操作以構建新種群,而后,從新種群中選出適應度更優的個體進行迭代,直至免疫克隆選擇達到最大迭代次數[2],具體的操作步驟如下:

依據適應度函數從灰狼種群中優選出m 個個體組成精英種群;而后,對該種群中全部個體進行克隆,組建Nc大小的臨時種群T,如此即可保證精英種群中各個個體均匹配一定數量的克隆體[3]:

而后,通過下式對種群中所有個體的高頻變異,來獲取精英個體附近最優的候選解:

改進2:以改進DE 算法更新個體,因DE 算法利用種群中隨機選取的個體構造差分量,而后,以最優個體作為目標向量進行交叉融合生成后代,以依據適應度值進行個體更新生成新種群,但是,因為種群個體的聚類中心排序完全隨機,而在個體間進行自我尋優和全局尋優交叉操作時,不同簇類上差異較大的聚類中心會在出現在同一維度上,如此,個體將無法獲得有效的搜索經驗,彼此間的學習效果也將受到影響,甚至會偏離全局最優解的搜索方向,陷入局部最優解。故而,本文將針對個體間學習與更新中,種群個體的聚類中心向量排序隨機對其的負面影響,設計一種自適應調整排序方法,也即基于個體間相似度排序,盡量將相似度最高的聚類中心排列在同一維度,以個體ix、x j為例,該方法構建過程如下。

2 檔案數據的快速分類方法

結合上述方法,在優化文本聚類準確性基礎上,為實現檔案數據的快速分類,本文引入FastText 深度學習模型,其旨在協助創建文本表達和分類的可伸縮解決方案的資料庫,主要由輸入層Inputlayer、隱藏層hidder layer、輸出層out layer 等構成,整體結構如圖1 所示。

圖1 FastText 深度學習模型的結構

結合上圖,輸入層是添加文本n-gram 特征的詞語詞向量,可準確表征存在矢量特征的詞語語義,以確保語義表達的準確性;而隱藏層則用于各個詞向量均值的求解,并使用優化器和梯度下降算法完成權重參數的更新,而后,進一步計算出損失函數及與對應的分類,通過輸出層輸出分類概率,完成檔案數據的快速分類。與其他分類方法不同的是,FastText 利用分層分類器將檔案數據的不同分類整合為樹形結構,且為優化分類效率,其引入Softmax 分層技術,利用Huffman 編碼進行文本數據標簽的編碼,以提升分類模型訓練的效率,具體,FastText 分類模型訓練的步驟如下:

首先,對檔案的文本數據A 進行分詞、去停用詞的預處理,并增添標簽于每行結尾,初始化詞語向量;同時,設置選取損失函數LOSS、分類訓練的學習率為lr,并選定文本輸出對應的類別;而后,利用梯度下降算法完成各個詞語向量權重的計算,并據此,在分類訓練過程中實時更新詞向量數據、標簽數據的權值,進行分類模型的訓練,以實現檔案數據全自動分類。

3 結束語

檔案數據的海量性、高速更新性,使得其歸類管理面臨諸多難題,而且,多領域、不同描述的多模態數據,更是增加了其聚類分析的維度和運算量,且PSO 固有的局部最優問題也無法得到根本解決。為此,上述研究借鑒免疫克隆與DE 算法個體更新的優勢性,通過對GWO 算法進行改進,來實現可靠的文本聚類;同時,利用FastText 深度學習模型來進行權自動分類設計,由此從準確性、效率上雙重驅動檔案數據分類優化發展。

猜你喜歡
分類文本
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 另类综合视频| 久草国产在线观看| 99re这里只有国产中文精品国产精品 | 国产亚洲现在一区二区中文| 中文字幕人妻av一区二区| 精品福利视频网| 亚洲AV无码乱码在线观看代蜜桃 | 免费看一级毛片波多结衣| 91久久国产综合精品女同我| 乱人伦视频中文字幕在线| 久久久久久午夜精品| av一区二区三区高清久久| V一区无码内射国产| 精品久久综合1区2区3区激情| 日本免费福利视频| 国产激情在线视频| 国产女人综合久久精品视| 热思思久久免费视频| 欧美第二区| 谁有在线观看日韩亚洲最新视频 | 久久五月天综合| 国产精品一线天| 97精品久久久大香线焦| 高清无码手机在线观看| 最新国产精品第1页| 911亚洲精品| 久久精品中文字幕免费| www中文字幕在线观看| 日本草草视频在线观看| 3D动漫精品啪啪一区二区下载| 国产视频a| 亚洲国产日韩在线成人蜜芽| 国产手机在线ΑⅤ片无码观看| 欧美另类图片视频无弹跳第一页| 青青操国产视频| 亚洲欧美h| 国产不卡在线看| 免费高清a毛片| 国产精品不卡片视频免费观看| 在线无码av一区二区三区| 亚洲黄网视频| 四虎永久在线| 夜夜操天天摸| 丁香六月激情综合| v天堂中文在线| 久久综合激情网| 一级成人欧美一区在线观看| 国产精品hd在线播放| 久久福利网| 中文字幕一区二区人妻电影| 国产尹人香蕉综合在线电影 | 色婷婷色丁香| 国产网站在线看| av天堂最新版在线| 久久精品无码国产一区二区三区| 久久女人网| av天堂最新版在线| 亚洲色图另类| 亚洲第一成年免费网站| 六月婷婷激情综合| 2021国产v亚洲v天堂无码| 国产一区二区三区精品欧美日韩| 伊在人亚洲香蕉精品播放| 青青青国产精品国产精品美女| 日本午夜三级| 日本尹人综合香蕉在线观看| 狠狠亚洲五月天| 国产成人三级| 日韩人妻无码制服丝袜视频| 伊人久久久久久久| 老司机aⅴ在线精品导航| 中文字幕中文字字幕码一二区| 日日碰狠狠添天天爽| 欧美精品成人一区二区视频一| 亚洲香蕉在线| 成人国产三级在线播放| 最新国产网站| 97av视频在线观看| 国产喷水视频| 999在线免费视频| 91久久偷偷做嫩草影院精品| 亚洲精品动漫|