王治軍 羅江洲

在當前社會發展過程中,信息交流、文本信息交換是社會發展的主要環節。然而在數據化時代,數據文本信息的交流和交換仍然存在諸多問題,有很大一部分數據信息存在虛假和欺騙行為,影響到數據信息的安全性。因此,在現代網絡信息甄別過程中,應該落實好欺騙檢測方法的研究,做好對中文文本信息的欺騙檢測。
欺騙屬于社會科學范疇,其具體是指在當前社會信息交流過程中,存在有虛假信息,處于目的性發送錯誤信息,導致信息接收者得到錯誤信息的結論。欺騙行為是一種影響到事物討論結果的行為,大多數欺騙行為具有危害性,危害到社會公眾或者個人利益。從現代檢測過程中,中文文本欺騙檢測的有效方法還比較少,這會影響到信息欺騙檢測效果。
集成學習在機器學習的有監督學習算法中,我們的目標是學習出一個穩定的且在各個方面表現都較好的模型,但實際情況往往不理想,有時我們只能得到多個有偏好的模型(弱監督模型,在某些方面表現得比較好)。集成學習就是組合這里的多個弱監督模型以期得到一個更好更全面的強監督模型,集成學習潛在的思想是即便某一個弱分類器得到了錯誤的預測,其他的弱分類器也可以將錯誤糾正回來。集成學習在各個規模的數據集上都有很好的策略。
(一)欺騙檢測模型
基于集成學習的中文文本欺騙檢測過程中,文本信息檢測非常關鍵。本文研究了一種基于集成學習的中文文本欺騙檢測方法。其方法本身也是建立于欺騙檢測模型基礎之上,在其技術的應用過程中,主要針對欺騙檢測模型進行分析,確保中文文本欺騙檢測更加有效,也能夠最大程度上提升欺騙檢測的技術效果。在本次欺騙檢測過程中,針對集成學習方法的中文文本欺騙檢測建立非常關鍵,一定程度上關系到欺騙檢測技術的效果。在進行欺騙檢測過程中,其主要包括欺騙線索選擇、樣本集劃分與個體分類器訓練、個體分類器集成等多個檢測模塊。通過不同的檢測模型應用,實現對欺騙的檢測。而在其文本建立的過程中,為了實現對文本信息的優化采集和優化分析,應用二分K-means的劃分方法,同時也應用了SVM分類器進行結果輸入輸出的有效控制,實現對其信息的有效分類采集,最大程度上提升信息分類的技術效果,確保其技術的應用更加合理,最大程度上解決信息分類技術效果。
(二)二分類任務分解與集成策略
在基于集成學習的中文文本欺騙檢測過程中,還應該做好對二分類任務的分解和集成策略研究,通過分類任務分解以及集成策略研究,實現對中文文本欺騙信息的有效檢測,確保信息檢測更加合理,也能夠最大程度上提升信息檢測效果。
1、二類問題的任務分解分析。在本次中文文本欺騙檢測過程中,針對文本信息進行有效的檢測,提升檢測效果。在對二類文本信息進行檢測過程中,發現二類信息分析非常關鍵,一定程度上關系到信息檢測效果。同時,在檢測研究中,其需要針對相對平衡的二類子問題進行信息分析,實現對文本信息的檢測控制分析,確保技術的應用更加合理。在二類任務分解過程中,首先需要完成對分解子任務進行實際的分析,主要針對正類和負類的文本數據進行分析,實現對訓練樣本總數的分析,設計其文本數目為N=N++N-。建立數據集,也方便后續的數據分類管理。在進行二類任務分解過程中,也應該做好訓練階段的數據管控。主要的任務是實現確定分解常數,并按照完成的文本數目對數據集進行原訓練分解,完成N++N-的數據集分解,得到其互不相交的子集,才能夠完成對信息的優化管理,也可以實現對信息的綜合優化管控,確保信息分析更加有效。
2、在本次項目研究過程中,還包括對文本信息的分類集成,將數據進行集成,也有助于對欺騙信息的分類分析,將欺騙和非欺騙信息進行良好的分類,能夠實現對其數據信息的分類管控,也可以在進行信息分析過程中,完成對項目的綜合優化管控,確保信息查詢更加有效。本次項目進行集成學習過程中,還可以完成對個體分類器的有效集成分析,通過個體分類器的集成分析,完成對數據的集成分析應用。在集成策略應用過程中,主要完成min規則和max規則的集成應用。以下表1為min規則和max規則的分析。在進行欺騙信息分析過程中,完成數據集成分類研究非常重要,能夠做好對其數據的集中處理,實現對欺騙信息的分析研究,落實好相關信息管控。

(一)實驗方法
在本次進行集成學習的中文文本欺騙檢測過程中,還針對文本信息進行學習檢測,實現對該方法的實驗,通過建立相關實驗,來完成對該欺騙檢測方法的有效分析,落實好的有效的檢測效果,確保檢測更加合理。本次實驗展開過程中,主要選擇隨機劃分、K-means劃分以及改進的二分K-means劃分方法作為樣本,對改進之后的二分K-means劃分方法進行實驗分析,在進行實驗檢測分析過程中,都是完成了個體分類器的檢測,最后完成對各種檢測方法的實際應用分析,確保其檢測分析展開更加合理,也能夠最大程度上提升檢測分析的有效性。而在本次進行實驗檢測過程中,還應該建立良好的檢測實驗指標,通過檢測指標的有效分析,確保其實驗結果得到有效的檢驗。在傳統的實驗檢測指標分析過程中,主要是通過新評價指標進行分析,而且也能夠同時描述非平衡指標分析,做好對其指標的分析,實現對其文本數據的分析研究,做好對中文文本欺騙檢測的實驗分析。其檢測評價過程中,主要包括樣本標注結果檢測、不同平衡數據集上不同分類器的實驗結果分析等相關內容。通過對檢測結果進行檢測分析,也能夠完成對其檢測效果的綜合應用控制,確保其檢測更加合理,也能夠最大程度上落實好相關檢測效果。通過多種檢測結果的技術對比分析發現,完成對實驗方法的優化分析,也更能夠做好對文本欺騙的檢測應用效果,進行中文文本檢測過程,更可以落實好實驗檢測效果。
(二)實驗結果與討論
本次實驗展開過程中,應該做好對其實驗數據的主要分析,通過實驗數據分析,完成對整個項目的檢測結果分析,確保其檢測更加合理,也能夠在最大程度上落實檢測應用效果。本次結果分析過程中,主要針對平衡數據集上不同分類器的實驗結果進行數據分析。實驗過程中,使用到隨機抽取的實驗方法,抽取700篇的隨機文章,同時也有1000篇的欺騙性文章進行混合測試分析。以下是對平衡數據集上不同分類器的實驗結果分析、無樣本劃分的非平衡數據集的實驗結果分析、隨機劃分方法的實驗結果以及K-means劃分方法的實驗結果分析。通過具體的實驗結果對比分析,分析出哪種劃分方法更適合應用于文本信息欺騙檢測,通過文本信息的有效檢測分析,落實好對文本信息的綜合交流,確保其信息交流更有效果。在實施的實驗結果分析過程中,主要針對隨機劃分方法的實驗結果、隨機劃分方法的實驗結果以及K-means劃分方法的實驗結果的RS值進行對比分析。RS值代表了測試結果的精準程度,也就是利用該種劃分方法之后,中文文本欺騙性檢測更加精準。以下表2為本次實驗分析過程中,各種劃分方法的實驗分析內容,通過實驗分析展開,確保其分析應用更加合理。落實好分析控制策略,也能夠提升實驗的檢測效果。通過本次實驗數據對比發現,三種檢測方法的精度比分別為:無樣本劃分的非平衡數據集RS>隨機劃分方法RS>K-means劃分方法RS值,而不同的劃分值,其檢測結果不同,但是明顯是K-means劃分方法的RS值更低,其檢測精度也就最高。所以,在基于集成學習理論下,采用K-means劃分方法對中文文本欺騙性信息檢測具有更高的檢測精度,適合應用于現代文本信息檢測,這對于文本信息檢測精度提升有重要的作用。

本文主要針對基于集成學習的中文文本欺騙檢測技術進行研究,文章中利用集成學習建立相關模型,并利用二分K-means劃分方法完成對數據樣本的分解,最終完成對中文文本欺騙檢測分析,實現了檢測應用效果。