999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本聚類的檔案數據全自動分類方法研究

2021-08-18 08:33:48于紅
電子測試 2021年14期
關鍵詞:分類文本

于紅

(吉林省琿春市敬信鎮衛生院,吉林延邊,133300)

0 引言

隨著網絡化、信息化的發展,檔案因關聯內容多樣、涉及范圍廣,數據量和規模面臨著規模化的遞增發展趨勢,并以文本形式存儲于計算機上,而此時,以往的人工分類、歸檔已經無法適從,亟待進行分類方法的變革。而文本聚類作為一種文本處理方法,其目的是將存在某種語義或主題關聯的數據集依照某種結構予以分類,劃歸為不同的聚類,而K-means算法作為應用最廣泛的文本聚類方法,具有運算簡便、收斂速率快等優點,但也存在易于陷入局部最優解的缺點,而以往多將PSO 與之融合,但并未解決問題。而GWO 算法作為一種新型的群智能算法,與PSO 相比搜索能力更強、收斂速度更快,可滿足海量檔案數據快速分類的需求,為此,本文結合該算法的優勢,著眼于檔案數據分類的準確性、效率性,借鑒以往研究來對GWO 算法進行優化,以化解PSO、K-means 算法早熟收斂、局部最優解問題,以此提升檔案數據分類的準確性,而后,引入FastText 深度學習模型,通過分類訓練實現檔案數據的全自動分類,實現檔案數據分類的高效性。

1 文本聚類的算法改進

1.1 GWO 算法改進

PSO 是文本聚類最常用的方法,但檔案數據的海量性使其搜索空間維數過稿,且特征稀疏下種群差異縮小,易于陷入局部最優解,且經過多方研究未找到有效解決方法,影響了分類的準確性。而灰狼優化算法(Grey Wolf Optimizer,GWO)是基于灰狼捕食獵物活動而設計的一種新型群智能優化算法,其因搜索能力、收斂性能較強,且參數運算少、易于實現而被推廣應用[1],但是,在迭代逐漸增加時,因種群多樣性減弱,個體差異縮減,易產生早收斂問題,后期易于陷入局部最優解,影響文本聚類的準確性。為解決上述問題,優化檔案數據分類的可靠性,本文對該算法進行如下改進。

改進1:免疫克隆操作,為實現種群中個體的優選,將對精英個體進行克隆與變異操作以構建新種群,而后,從新種群中選出適應度更優的個體進行迭代,直至免疫克隆選擇達到最大迭代次數[2],具體的操作步驟如下:

依據適應度函數從灰狼種群中優選出m 個個體組成精英種群;而后,對該種群中全部個體進行克隆,組建Nc大小的臨時種群T,如此即可保證精英種群中各個個體均匹配一定數量的克隆體[3]:

而后,通過下式對種群中所有個體的高頻變異,來獲取精英個體附近最優的候選解:

改進2:以改進DE 算法更新個體,因DE 算法利用種群中隨機選取的個體構造差分量,而后,以最優個體作為目標向量進行交叉融合生成后代,以依據適應度值進行個體更新生成新種群,但是,因為種群個體的聚類中心排序完全隨機,而在個體間進行自我尋優和全局尋優交叉操作時,不同簇類上差異較大的聚類中心會在出現在同一維度上,如此,個體將無法獲得有效的搜索經驗,彼此間的學習效果也將受到影響,甚至會偏離全局最優解的搜索方向,陷入局部最優解。故而,本文將針對個體間學習與更新中,種群個體的聚類中心向量排序隨機對其的負面影響,設計一種自適應調整排序方法,也即基于個體間相似度排序,盡量將相似度最高的聚類中心排列在同一維度,以個體ix、x j為例,該方法構建過程如下。

2 檔案數據的快速分類方法

結合上述方法,在優化文本聚類準確性基礎上,為實現檔案數據的快速分類,本文引入FastText 深度學習模型,其旨在協助創建文本表達和分類的可伸縮解決方案的資料庫,主要由輸入層Inputlayer、隱藏層hidder layer、輸出層out layer 等構成,整體結構如圖1 所示。

圖1 FastText 深度學習模型的結構

結合上圖,輸入層是添加文本n-gram 特征的詞語詞向量,可準確表征存在矢量特征的詞語語義,以確保語義表達的準確性;而隱藏層則用于各個詞向量均值的求解,并使用優化器和梯度下降算法完成權重參數的更新,而后,進一步計算出損失函數及與對應的分類,通過輸出層輸出分類概率,完成檔案數據的快速分類。與其他分類方法不同的是,FastText 利用分層分類器將檔案數據的不同分類整合為樹形結構,且為優化分類效率,其引入Softmax 分層技術,利用Huffman 編碼進行文本數據標簽的編碼,以提升分類模型訓練的效率,具體,FastText 分類模型訓練的步驟如下:

首先,對檔案的文本數據A 進行分詞、去停用詞的預處理,并增添標簽于每行結尾,初始化詞語向量;同時,設置選取損失函數LOSS、分類訓練的學習率為lr,并選定文本輸出對應的類別;而后,利用梯度下降算法完成各個詞語向量權重的計算,并據此,在分類訓練過程中實時更新詞向量數據、標簽數據的權值,進行分類模型的訓練,以實現檔案數據全自動分類。

3 結束語

檔案數據的海量性、高速更新性,使得其歸類管理面臨諸多難題,而且,多領域、不同描述的多模態數據,更是增加了其聚類分析的維度和運算量,且PSO 固有的局部最優問題也無法得到根本解決。為此,上述研究借鑒免疫克隆與DE 算法個體更新的優勢性,通過對GWO 算法進行改進,來實現可靠的文本聚類;同時,利用FastText 深度學習模型來進行權自動分類設計,由此從準確性、效率上雙重驅動檔案數據分類優化發展。

猜你喜歡
分類文本
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 真人高潮娇喘嗯啊在线观看| 久久大香伊蕉在人线观看热2| av大片在线无码免费| 亚洲精品制服丝袜二区| 久久精品无码国产一区二区三区| 午夜啪啪福利| 一级毛片基地| 国产99免费视频| 激情综合五月网| 精品国产中文一级毛片在线看 | 国产无码精品在线| 青青青国产在线播放| 国产丰满大乳无码免费播放| 无码中文字幕乱码免费2| 免费网站成人亚洲| 日韩欧美国产成人| 国产高清国内精品福利| 99热这里只有成人精品国产| 网久久综合| 国产无码性爱一区二区三区| 亚洲天堂视频网站| 午夜成人在线视频| 综合网久久| 91久久国产热精品免费| 国模沟沟一区二区三区| 国内精自视频品线一二区| 91福利免费| 欧美国产精品不卡在线观看| 亚洲日韩精品综合在线一区二区| 久久久久久久久久国产精品| 成人中文在线| 亚洲精品麻豆| 男女精品视频| 国产乱子伦无码精品小说| 日韩在线影院| 日韩av无码精品专区| 久久精品最新免费国产成人| 国产原创演绎剧情有字幕的| 国产剧情一区二区| 亚洲一区二区黄色| 欧美一区精品| 蜜桃视频一区二区| 毛片在线播放a| 东京热高清无码精品| 在线观看国产一区二区三区99| 国产日韩久久久久无码精品| 久久成人国产精品免费软件| 国产最新无码专区在线| 亚洲第一在线播放| 亚洲欧美成aⅴ人在线观看 | 毛片a级毛片免费观看免下载| 国产成人免费手机在线观看视频| 午夜国产大片免费观看| 91精品啪在线观看国产91九色| 一本大道无码日韩精品影视 | 久久精品国产免费观看频道| 久久午夜夜伦鲁鲁片无码免费| 亚洲欧洲免费视频| 好紧好深好大乳无码中文字幕| 热re99久久精品国99热| 亚洲欧美日韩精品专区| 亚洲精品第一页不卡| 国产在线观看91精品| 国产精品所毛片视频| 无码视频国产精品一区二区| 国国产a国产片免费麻豆| 日韩欧美亚洲国产成人综合| 国产视频一区二区在线观看| 久久精品国产亚洲麻豆| 国产精品播放| 亚洲日本中文字幕乱码中文 | 国产成人精品2021欧美日韩| 精品久久久无码专区中文字幕| 国产精品人莉莉成在线播放| 成人字幕网视频在线观看| 波多野结衣在线一区二区| 99尹人香蕉国产免费天天拍| 五月天综合婷婷| 手机成人午夜在线视频| 色婷婷电影网| 亚洲AV无码不卡无码| 精品福利视频导航|