999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進TF-IDF可疑人員文本表示方法

2021-02-25 05:50:48何雋飛何學明
計算機工程與設計 2021年2期
關鍵詞:分類文本模型

何雋飛,趙 慧,何學明

(1.武漢科技大學 機器人與智能系統研究院,湖北 武漢 430080;2.武警海警學院 機電管理系,浙江 寧波 315801)

0 引 言

承辦重大國際活動時,在不影響人民群眾正常工作生活的前提下,通常會在的人群聚集區域入口設立嚴密的視頻監控和安保閘口,通過監控閘口的身份識別信息,對人員進行數據庫信息比對[1]。研究表明,在實際案例中暴恐組織記錄在案的人員一般不直接參與暴恐活動,而是通過發展親友、組織新人直接制造暴恐活動,這給安保任務對可疑人員進行威脅等級研判帶來了新的技術挑戰[2]。目前現有的較為完備的人員信息庫一般是半結構化的文本數據庫;情報研判需要情報人員大量的人工參與才能進行,效率十分低下[3]。如何自動從大量的文本中提取出有用的信息,為后續研判提供支撐是首要待解決的技術問題。

本文通過對文本表示模型和文本分類方法的研究,提出了面向情報研判的可疑人員文本表示方法。方法通過引入文本類別參數改進TF-IDF文本特征提取算法,使文本表示模型能夠充分表征可疑人員屬性特征,從而提高威脅研判的效率。研究表明,潛在的可疑人員一般具有和暴恐份子相似或者重疊的行為規律和屬性特征。利用這一規律,本文基于歷史數據庫的可疑人員信息進行文本類別特征學習,通過提取可疑人員的行為規律和屬性特征,并進行文本表示,然后通過文本分類算法不斷加深對文本特征的學習,訓練出能對可疑人員進行研判的分類模型,從而實現對可疑人員的威脅等級研判。

1 相關工作

從大量文本中提取關鍵特征并進行研判分類是屬于文本分類的范疇。文本分類是自然語言處理領域極其重要的子任務,有絕大多數的場景都可以歸納為文本分類任務,比如:情感分析、領域識別、意圖識別等等[4]。文本分類的過程就是通過提取文本中能夠表達文本特征的關鍵詞來表征文本,然后通過關鍵詞的特征對文本進行類別的劃分[5]。在機器學習領域,文本分類屬于有監督學習,它通過對已標簽的文本數據集進行特征學習,尋找文本標簽和文本特征之間的關系,建立分類模型,然后使用這個模型對未知類別文本進行分類。

文本分類的核心問題是文本表示和分類模型。文本表示在分類模型之前,對分類模型的效果起著至關重要的作用。在自然語言處理領域,詞袋和詞嵌入是兩種最常用的文本表示模型[6]。它們通過不同的方式將文本表示為向量,然后通過分類模型對向量進行分類。詞袋模型是從文本文檔中提取特征最簡單但又最直接的技術。這個模型的本質是將每個文檔轉化成相應的向量,文檔向量表示在所有文檔空間中全部不同的單詞在該文檔中的頻率[7]。ZHANG等利用One-hot把文本表示為向量,這種文本表示方法在應對文檔單詞比較單一且數量不大時有非常好的性能表現;但是在應對包含大量單詞的文檔時,這種表達方式容易造成維度災難且不能展示詞語之間的語義關系。提取文本特征詞的好壞對詞袋模型的文本表示效果有著直接的影響[8]。TF-IDF是傳統的特征詞提取算法,它通過篩選文本中的高頻詞并使用逆文檔頻率對高頻詞進行加權得到文本特征詞[9]。它在表征文本特征方面達到了較高的精度,但是基于文本分類的場景,由于未考慮文本類別的參數,并不能有效提取出對文本分類具有關鍵作用的特征詞。詞嵌入模型是自然語言處理中語言模型與表征學習技術的統稱。Paccanaro等提出了Distributed representation概念,它基于神經網絡學習文本詞語的分布式表示。該方法用詞語之間的“距離”概念表示詞語的語義關系,從而達到將詞向量降維的目的[10]。其中,Word2vec[11]是Google在2013年開源的一款詞向量工具,其原理基于深度學習算法,是目前較為成熟的詞向量模型,適用于復雜文本的詞向量表示[12]。文本向量化表示之后,就可以通過文本分類模型進行訓練學習特征,從而得到可以對未知文本進行分類的分類模型。目前,應用于文本分類的技術和算法很多,例如樸素貝葉斯算法、K最近鄰算法、神經網絡、支持向量機(SVM)等[13]。大量研究表明SVM分類算法有很好的泛化能力與學習能力,被廣泛用于文本自動分類、人臉識別、基因表達、手寫體的識別等領域[14]。

2 屬性加權的可疑人員文本表示

2.1 基于文本表示的研判方案

鑒于現有的可疑人員情報文本數據特征,通過本文提出的屬性加權文本表示方法對可疑人員情報進行文本向量化表示,然后在SVM分類模型中建立可疑人員情報與威脅等級之間的映射關系,實現對可疑人員的研判分類,情報研判方案如圖1所示。

圖1 情報研判方案流程

2.2 可疑人員信息庫特點

目前,歷史可疑人員信息庫是在自然語言的基礎上提煉出的半結構化文本數據庫,它對比自然語言處理領域的應用對象有自身的特點。例如,可疑人員各屬性之間的關聯性相較于自然文本語言的詞語間的關聯性呈現出弱關聯的特點;但單個屬性的文本又具有自然文本語言的特點;可疑人員情報信息是基于可疑人員的屬性特征進行統計的,造成了屬性特征之間的相對獨立;半結構化的文本數據庫讓文本特征更加的簡明,但涉及特殊屬性例如‘負債情況’、‘征信情況’等則是通過復雜的文本表述進行特征表示。隨著可疑人員信息庫的逐漸擴展,單條可疑人員的文本信息量增多,主要表現為屬性數量的增加以及屬性信息更為復雜。將半結構化的可疑人員文本數據進行文本向量化表示是首要的也是直接影響威脅研判效果的關鍵一步。

2.3 屬性加權表示方法

One-hot和TF-IDF是目前最為常見的基于詞袋模型提取文本特征的方法。由于詞袋模型的緣故,詞與詞之間的順序特征未納入學習范圍,這恰好符合可疑人員信息庫中屬性相對獨立的特點;通常One-hot方法制作的向量是高維稀疏的,容易造成分類模型訓練過程中內存爆炸,但情報研判領域中由于現有信息庫屬性數量限制,后續可以通過人為控制屬性數量輸入來保證模型訓練的順利進行。

通常使用詞袋模型,考慮詞頻作為文本特征是比較合適的,但是向量完全依賴于單詞出現的絕對頻率,這會影響其它出現相對不頻繁但對文本分類更有意義和有效的單詞,因此本文通過改進TF-IDF詞頻-逆文檔頻率來對One-hot向量進行加權優化,以此來改善情報研判模型的效果。

One-hot向量基于詞袋模型表征可疑人員情報信息結果見表1。表格展示了3個可疑人員的One-hot向量,其中各屬性權重參數均為1,無法判斷屬性相對于威脅等級的重要性。

表1 基于詞袋模型的One-hot文本向量

TF-IDF是一種統計方法,用以評估單詞對于文本集合中某一文本的重要程度。它的核心思想是單詞的重要性與它在某篇文檔中出現的次數成正比,與它在所有文檔中出現的次數成反比。數學上,TF-IDF是兩個度量的乘積,可以表示為TF-IDF=TF×IDF,其中詞頻(TF)和逆文檔頻率(IDF)是兩個度量,TF-IDF的計算公式如式(1)所示。對于傳統的TF-IDF而言,它通過對高頻詞的統計,提取出文檔集合中特定文檔里所包含的區別于其它文檔的特征詞。但是在面向文本分類場景時,僅僅依賴每篇文檔區分度強的特征詞并不能達到理想的分類效果。尤其在可疑人員情報文本表示中,由于存在文本類別參數未納入考量,以及可疑人員信息文本長度相對固定的情況,這將導致屬性特征詞出現頻率TF值將是一個恒定不變的值,無法達到有效提取特征詞的作用

(1)

本文嘗試改進TF-IDF算法,引入文本類別的考量,提出屬性加權表示方法。將特定文檔內的詞頻率TF改為同類別文檔內的詞頻率,面向情報研判領域即各類威脅等級的可疑人員信息中各屬性特征詞出現的頻率;由于傳統算法中IDF部分只考慮了特征詞與它出現的文檔數量之間的關系,而忽略了特征詞在文本類別之間的分布情況,本文將包含特征詞的特定類別文檔數引入IDF算法來優化IDF權重,即引入包含特征屬性的特定威脅等級的可疑人數來優選影響研判的最佳權重。屬性特征詞的重要性隨著它在特定威脅等級的可疑人員信息中出現的頻率成正比增加,同時會隨著它在可疑人員信息數據庫中出現頻率成反比下降。本文改進算法中,TF詞頻基于詞袋模型以及文本集類別計算得出,表示該詞在特定類別文檔中出現的頻率值。詞頻公式為

(2)

其中,i表示單詞在詞袋中的位置,j表示文本類別數。ni,j表示詞袋中第i個詞在dj類文檔中出現的次數,∑knk,j表示該類文檔中所有詞條數目。逆文檔頻率是每個單詞的文檔頻率的逆,傳統算法中該值由文本集中全部文檔數量除以包含該單詞的文檔數量,然后將結果取對數得到。本文引入類別文本數的逆文檔頻率公式為

(3)

其中,|D|表示文本集中全部文檔數量,{m:ti∈dj}表示包含該單詞且屬于dj類文檔數量,|{x:ti∈dx}+1|表示所有包含該單詞的文檔數量。

整合改進后的TF-IDF算法公式為式(4)所示,表示第i個詞對dj類文檔的重要程度

(4)

為簡化分類模型訓練參數,防止過擬合,將整合后的類別特征詞屬性進行均值化處理如式(5)所示,得到了詞袋模型每個單詞的權重

(5)

將每個單詞權重按詞袋順序依次連接,合成為屬性特征詞向量,見表2,通過屬性特征詞向量對One-hot向量進行屬性加權,即對可疑人員情報文本信息進行改進的TF-IDF操作,得到了最終的可疑人員情報特征向量,見表3。

改進的TF-IDF方法制作的特征向量相較于One-hot向量,表征了更多的特征信息,不僅包含了One-hot的優點區分了每個可疑人員的信息,還引入了屬性加權區別了各屬性對可疑人員信息的權重,為后續研判提供了重要的參考。

表2 屬性特征詞向量

表3 可疑人員情報特征向量

3 實驗設計與分析

3.1 實驗設計

本文在Anaconda環境中使用Python3.7進行數據清洗操作,并通過scikit-learn機器學習庫對可疑人員歷史數據信息進行文本表示和特征學習的模型訓練。

通過使用One-hot編碼和改進的TF-IDF特征詞提取方法制作可疑人員特征向量,然后將可疑人員特征向量輸送給SVM分類模型,通過模型預測結果對分類模型進行性能評估,并分析實驗結果。實驗設計流程如圖2所示。

圖2 實驗設計流程

3.2 數據來源與預處理

本實驗數據來源于公安部重點人員信息庫,實驗所用數據進行了非密化處理,保留了原始數據的自然屬性和可疑人員的行為規律以及屬性特征。如圖3所示,每個可疑人員有13個特征屬性,涵蓋了威脅研判所需要的基本信息,包括年齡、性別、民族、宗教信仰、教育程度、籍貫、婚姻狀況、涉案類型、出行情況、征信情況、在案情況、負債情況、親友情況等。原始數據中,可疑人員被標簽為3個威脅等級,因為存在樣本不均衡的問題,需要通過數據預處理減輕不均衡對分類模型的影響,處理完的數據比例如圖4所示。其中,高威脅人員數據中宗教信仰分布和民族分布如圖5和圖6所示。

圖3 重點人員信息庫部分屬性截圖

圖4 可疑人員類別比例

圖5 高威脅人員宗教信仰分布

3.3 實驗結果評價指標

訓練、調優和建立模型是整個分析生命周期的重要部分,但更重要的是知道這些模型的性能如何。分類模型的性能一般基于模型對新數據的預測結果。本文使用精確率(precision)、召回率(recall)、F均值等指標來評估模型的性能,指標定義見表4。

其中,c為正樣本被正確預測為正類的數量,d為負樣本被錯誤預測為正類的數量,e為正樣本被錯誤預測為負類的數量。F均值通過同時考慮分類精確率和召回率,可以用來整體描述模型的分類精度。

圖6 高威脅人員民族分布

表4 分類器性能指標

3.4 實驗結果及分析

通過對比實驗得到改進前后TF-IDF文本表示方法與One-hot文本表示方法應用在可疑人員信息數據庫上的研判模型評估結果,如圖7所示,從結果可知,在使用SVM分類算法作為研判分類模型中,改進的TF-IDF屬性加權文本表示方法相較于傳統文本表示方法能達到更高的研判精度。

圖7 研判分類結果評估對比

其中,改進后的TF-IDF算法引入了類別參數后精確率達到了98.8%,相較于傳統的文本表示方法提高了將近4%,且完全符合安保任務對智能系統研判精度的要求標準。傳統的TF-IDF方法在該可疑人員數據集上的表現稍優于One-hot方法。

圖8展示了算法在各威脅等級測試集上的研判準確率。通過對比分析可知,改進的TF-IDF算法對中威脅等級的分類準確率更高,這源于本文算法引入類別參數后進行了類別權重的均值化操作,優化了算法對中威脅等級可疑人員的敏感度,并且沒有損失對高威脅等級的分類精度。傳統TF-IDF和One-hot算法對高威脅等級的分類準確率更高,但是對中威脅和低威脅的研判準確率相對就較低,這緣于數據集樣本均衡的前提下,特征提取算法沒能提取到區分類別的權重信息。

圖8 各威脅等級的研判準確率

算法的運算效率受制的因素有很多,其中算法的復雜程度、計算平臺以及數據本身占據著主要因素,本實驗所用平臺是Intel(R)Core(TM)i5-3210雙核CPU@2.5 GHz的RAM為8 GB的筆記本電腦。從圖9可以看出,由于在TF-IDF中引入了類別文本數,使改進的TF-IDF權重表征能力加強,改進后的文本表示方法能夠更好表征可疑人員信息,具有更多信息的特征向量導入研判模型的訓練時間相應也隨之增加,但在提高研判精度的前提下整體訓練耗時都在正常可控范圍內。

圖9 算法訓練時間對比

此外,本文還對目前主流的文本表示方法Word2vec模型進行了相應對比實驗,并控制不同的訓練集比例進行多組對照。如圖10所示,當訓練數據較少時,使用本文改進的TF-IDF算法進行特征提取,可以得到更好的分類特征,從而達到更高的研判準確率;由于Word2vec模型基于簡單神經網絡模型設計而來,需要大量的數據來訓練權重矩陣,因此隨著訓練集比例的增大,Word2vec模型的效果會有較大的提升,而改進的TF-IDF算法效果會有輕微下降,這緣于TF-IDF算法本身存在對數據集大小的限制,當數據集過大時,分類特征的提取受制于TF值的變化程度減弱,相應的表征能力會出現下降。

圖10 算法相對訓練集比例的準確率對比

4 結束語

本文提出了一種基于改進TF-IDF的可疑人員文本表示方法,通過實驗結果分析,驗證了方法的可行性,改進算法在可疑人員信息表征中可以提取到更多類別信息,有助于研判的分類準確率。同時,通過對比本文改進的TF-IDF屬性加權文本表示方法與傳統文本表示方法在SVM分類算法中的性能表現,可知在可疑人員情報研判任務中,鑒于目前可疑人員信息庫的特點,以及實際應用場景考慮,本文算法在充分滿足研判任務需求的同時,提供了高質量的研判參考信息,提高了情報人員的研判效率。

但隨著未來可疑人員信息數據庫逐步壯大,也需要研究更高效的文本分類模型。深度神經網絡在提取復雜文本信息方面有著更強大的表征能力,未來面向安防領域,可疑人員情報研判將納入更多的屬性信息,利用深度神經網絡將為安保任務提供更優質的技術保障。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久永久精品免费视频| 亚洲精品第一在线观看视频| 伊人福利视频| 黄色三级网站免费| 国产97视频在线观看| 国产精品欧美激情| 一区二区理伦视频| 婷婷99视频精品全部在线观看| 成人午夜在线播放| 成人韩免费网站| 六月婷婷精品视频在线观看| 欧美成人精品在线| 日韩中文精品亚洲第三区| 国产精品国产主播在线观看| 日韩精品亚洲精品第一页| 香蕉国产精品视频| 美女高潮全身流白浆福利区| 欧美一区二区三区不卡免费| 色婷婷丁香| 久热这里只有精品6| 久久婷婷六月| 国产精品2| 99久久精品视香蕉蕉| 手机精品福利在线观看| 精品福利视频导航| 老司机精品一区在线视频| 亚洲高清无码久久久| 好吊色妇女免费视频免费| 国产日韩AV高潮在线| 日韩无码视频播放| 国内精品久久人妻无码大片高| 四虎永久在线| 亚洲av综合网| 热re99久久精品国99热| 亚洲一级色| 国产在线观看91精品| 国产AV毛片| 色婷婷国产精品视频| 亚洲乱码在线播放| 88av在线播放| 99精品免费在线| 久久婷婷色综合老司机| 久久久久国产精品免费免费不卡| 国产在线精品美女观看| 激情乱人伦| 少妇高潮惨叫久久久久久| 99ri国产在线| 乱码国产乱码精品精在线播放| 成人在线观看不卡| 国产小视频a在线观看| 丁香六月综合网| a亚洲天堂| 亚洲av日韩综合一区尤物| 亚洲日本韩在线观看| 99在线观看国产| 国禁国产you女视频网站| 国产欧美视频在线观看| 久久黄色视频影| 亚洲天堂网在线播放| 亚洲av无码人妻| 亚洲资源在线视频| 一级毛片免费观看久| 97狠狠操| 国产成人精品高清在线| 高清不卡一区二区三区香蕉| 狠狠色成人综合首页| 精品亚洲国产成人AV| 欧美精品导航| 亚洲三级成人| aⅴ免费在线观看| 四虎综合网| 一本综合久久| 国产自产视频一区二区三区| 伊人AV天堂| 一本大道香蕉久中文在线播放 | 亚洲精品波多野结衣| 国产又黄又硬又粗| 国产一区二区影院| 亚洲最新在线| 久久国产热| 国产一级无码不卡视频| 免费欧美一级|