999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于群聊文本的分類研究

2019-04-22 12:03:04周園林邵國林
現代計算機 2019年8期
關鍵詞:分類文本模型

周園林,邵國林

(四川大學計算機學院,成都610065)

0 引言

隨著網絡服務場景的不斷豐富,網絡終端的性能提升和普及,移動數據量持續擴大,海量移動即時通訊工具所產生的數據在互聯網移動數據中占比最大[1],信息和通信技術(Information and Communication Technologies,ICT)正快速的改變著人們的生活。人們頻繁地利用社交軟件與朋友、親人、商家、同事甚至是陌生人進行著聊天交友、活動組織、獲取資訊、完成交易等活動,大大降低人們的時間成本,方便了人們的日常生活。但這些社交軟件也方便了違法犯罪人員組織和資訊違法犯罪方法、完成犯罪交易等非法活動,降低了違法犯罪人員的犯罪成本。所以,甄別和判斷即時通訊數據中蘊含的豐富信息,對于協助公安偵查違法犯罪行為,找出違法犯罪團伙,獲取違法犯罪證據,抓捕違法犯罪人員,搗毀違法犯罪社交組織,有著至關重要的作用。

目前,公安對于即時通訊類數據進行收集和分析的主要手段依然是利用大量人力進行自主甄別,從中找出有利于警方破案和偵察的消息。這無異于大海撈針。而利用人工智能領域的方法,可以有效地提取社交軟件的大量信息,進行學習和甄別,幫助警方自動的找到有關違法犯罪的有用信息,幫助警方提高辦案效率。同時,群聊文本具有的非正規性、不完整性、稀疏性等特點,相比單一的短文本和長文本信息,群聊文本更難分析和處理。所以對聊天文本進行有效分類,在數據處理和分析上面臨著巨大挑戰。

針對這些問題,本文提出了面向群聊的分類模型,一是利用群聊之間的相關性將其整合為長文本后,通過分詞和去停用詞等操作對整合出來的聊天長文本進行預處理;二是通過TF-IDF計算所有文本的詞匯,并將所有詞匯的TF-IDF值作為該詞在詞向量處的權重值;三是利用梯度降維的方法對詞向量的維度進行降維處理;最后利用傳統的機器學習方法對詞向量進行分類訓練得到用于群聊分類的分類模型。

對涉槍、涉毒、涉黃和正常群體的分類實驗結果表明,本文提出的分類模型能很好的分類出涉嫌犯罪的群體。本文的創新點為提出了一種基于群聊文本分類的方法,該方法利用詞向量賦權排序,通過梯度降維的方式減少詞向量的權重。基于聊天文本的特點,詞向量賦權排序可以將聊天文本的特點篩選出來,并且將權重大的特征放在最前面,而將權重低的特征放在后邊,通過梯度降維的方式將權重低的詞排除,不僅增加了模型訓練的準確性,提高了模型的泛化能力。同時降低了模型訓練需要的詞向量維度,加快了模型的訓練和預測,提高了模型的效率。

1 相關工作

群聊文本分類可以普適性的歸納到文本分類中,群聊天文本的分類方法和一般文本的分類方法大致可以歸為以下幾類:

(1)基于統計的文本分類方法

基于統計的文本處理方法是自然語言處理中最常用的分析方法之一,也稱經驗主義方法[2],該方法一般通過收集一些文本作為統計模型建立的基礎,然后計算統計得出的先驗概率去計算詞匯之間的后驗概率。常用的分類算法包括:貝葉斯分類法(Naive Bayesian classifier)及其變種,例如Shuo xu[3]提出的具有高斯事件模型的貝葉斯文本分類器在分類效果上優于經典的樸素貝葉斯文本分類器;基于支持向量機(Support Vector Machines,SVM)的文本分類器及其變種,例如Goudjil[4]等人提出一組SVM分類器提供的后驗概率標記文本信息,提高了文本分類的準確率。此外,還包括k-最近鄰(k-Neareast Neighbor,kNN)文本分類器、神經網絡(Neural Network,NNet)文本分類器、決策樹(Decision Tree)、模糊分類法(Fuzzy Classifier)、Rocchio分類方法和Boosting算法等優秀的文本分類方法。文本分類器算法的性能取決于數據集的特征[5]。

(2)基于人工知識庫和詞典輔助的文本分類方法

許多顯性文本分類模型主要利用詞匯上下文之間的依賴關系,來將文本內容概念化,通過建立不同類別的人工知識庫或關鍵詞詞典進行類別分類,例如Song Y[6]等人通過使用概率只是庫來改進文本理解,然后通過貝葉斯方法來概念化單詞和文本,獲取文本中每個詞語概念間的條件概率 p(concept|word)和 p(word|concept),最終推出每個文本的概念分布。或者利用現有的知識來提供作為文本分類的先驗知識。例如Hua Wen等人[7]通過提供眾所周知的語義網絡提供的詞匯語義知識來進行文本分類。他們提出的LexSA(Lexical Semantic Analysis)模型將文本理解系統化為分詞、詞性標注和概念識別三個步驟,并在每個步驟使用新的模型消除歧義。

(3)基于結合統計和人工知識庫的文本分類方法

因為群聊文本本身通常包含不完整和模糊的信息,這使得在用統計的方法之外還需要添加額外的知識來理解它。J Bian等人[8]認為文本本身已經包好明確的形態和句法知識,同時加入Web上的大量文本可以提取大量的語義知識,通過定義新的詞表示來輔助神經網絡語言模型(Neural Language Model,NLM)的訓練。Bing Li[9]等人,提出了利用Wikipedia和查詢分段特征方式形成文本特征向量空間,再利用傳統的統計方法進行機器學習,獲得了更好的F1值。Qiuxing等人[10]提出的基于LDA主題模型和kNN算法的文本分類方法,生成的概率主題有助于使文本以語義為中心,同時減少了稀疏性。

綜上所述,目前國內外在文本分類等方面已經取得了很大的研究進展。然而,在交互性社交群體的應用場景下,交互性的聊天文本有其獨有的特點,例如聊天文本多人交互帶來的復雜度更高,子話題內容更加多樣、樣本噪聲難以清洗等,給聊天文本的分類帶來了巨大的挑戰。同時由于聊天文本數據難以獲取、特征提取工作難度較大、樣本規模難以支撐模型的有效訓練等,所以面向群聊文本的研究關注也還比較少。

2 群聊文本及特點分析

群聊是在網絡社交軟件上與多個參與者通過文本通信同步交談的聊天形式[11-12],它是由短文本消息組成(例如一條評論、一條即時通訊等),這和郵件、新聞等長文本信息有著非常大的區別。它突破了傳統的面對面聊天所具有的時間和空間的限制,允許多個用戶能夠隨時隨地的通過終端進行即時聊天[13]。用戶之間通過消息進行交互,這些交互信息一般由三部分組成:用來識別用戶身份的昵稱,交互信息的時間戳,和交互信息的內容。

群聊文本(Interactive Text)是即時消息中主要以短文本為主的由多個移動終端參與的眾多消息構成,一般指如群聊天,討論組等形式的交互信息。群聊文本既不同于長文本,如博文、日志靜態網頁、文檔等,又區別于傳統的短文本,如國內的微博、短信、網絡評論以及國外的Facebook、Twitter等,其具備短文本的非正規性、不完整性及稀疏性三個特點[14]。

(1)非正規性。短消息通常在表達方式上與人們的口語接近,同時包含了非常多的網絡詞匯和表情符號。

(2)不完整性。短消息一般句子表達不完整(通常會破壞主謂賓的句法結構),指代不明,或者出現拼寫錯誤,或詞語簡寫。一般不會影響閱讀者的理解,但會增加語義分析的難度。

(3)稀疏性。短消息是以短文本的形式,僅包含幾個到十幾個字詞,在整個時間和空間中,僅占有語料庫中非常小的一部分字詞。

因為群聊天的非正規、不完整和稀疏性這類特點給研究帶來了困難,因此本文通過組合長文本,并用TF-IDF進行詞向量權重賦值排序,并用梯度降維的方式去解決群聊天文本特點所帶來的挑戰。

3 模型設計

本文綜合考慮了群聊文本非正規性、不完整性、稀疏性的特點。而長文本相對群聊文本而言,更加方便語義分析,分詞操作。在二分類或多類問題中,我們對群聊文本進行有監督學習,把群聊文本組合成長文本進行統一分析學習。我們提出了群聊文本轉長文本分類模型,整個算法模型如圖2所示,該模型將一組群聊文本融合成一篇長文本,對多組群聊文本分類轉化為對多篇長文本進行分類的算法模型,并引入TF-IDF統計方法,增加群聊文本主題詞的權重,減少噪音詞匯的影響,并用傳統機器學習算法對處理好的詞向量進行學習和分類驗證。

圖1 算法流程圖

表1給出了文中使用的符號和定義。

表1 符號定義

3.1 預處理

因為群聊文本是由多條消息組成,在一篇群聊文本中消息之間具有相關性,因此將一篇群聊文本看成一篇長文本,并不影響消息之間的相關性。以下給出證明。首先,一條消息在整個群聊文本的語料庫中計算給定詞項條件下詞項出現的概率值。

其中 Pm(ωiωj)表示詞項 ωiωj在整個短文本語料庫中出現的概率:

d(ωi)為詞ωi在該文檔中出現的頻率,由公式(2)、(3)可知,一篇群聊文本,將其中消息融合,將群聊文本當成一篇長文本處理,其詞項的概率保持不變。于是,在群聊分類問題中,我們可以直接用長文本的方式對群聊文本做分詞、去噪、轉詞向量處理。

圖2 預處理過程圖

預處理流程如圖2所示,主要包括短消息整合為長文本、數據清洗、分詞處理以及去除停用詞,具體描述如下:

(1)將群聊文本直接通過append的方式,將群聊文本消息組合成一篇長文本(如一個群的聊天記錄,便是一個長文本)。

(2)對長文本進行數據清洗,去除長文本中不需要的圖片、鏈接、標點和表情符號。

(3)對長文本進行中文分詞。本文采用的是開源的結巴分詞工具進行中文分詞。

(4)去除停用詞。將在文本中不具備實際意義的詞語去除,減少詞空間。

3.2 詞向加權策略

因為群聊文本中一般話題性比較明確,不同類別的群聊文本之間的話題區別性比較明顯。如一個涉毒的討論組會討論涉毒的話題,一個涉槍的討論組會討論涉槍的話題,一個日常交流組會討論生活日常或八卦新聞等,不同類別的群聊文本的話題比較容易區分。為了提高與群聊文本分類相關的詞匯權重,我們采用 TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文件頻率)統計方法對不同群聊文本進行詞頻和逆文件頻率計算。

詞頻(Term Frequency,TF)指的是某一個給定的詞語在該文件中出現的次數。這里用頻率做歸一化處理,同(1)式:

逆向文件頻率(Inverse Document Frequency,IDF)的主要思想是:如果包含詞條t的文檔越少,IDF越大,則說明詞條具有很好的類別區分能力。

pd(ωk)指包含詞條ωk的文檔數,M指文檔的總數,分母加1是為了避免分母為0。某一特定文檔內的高頻率詞語,以及該詞語在整個文檔集合中的低頻率詞語,可以產生出高權重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留特定文檔中重要的詞語。

本文將群聊文本中的每個詞的Ptf-idf值作為在詞向量上該詞位置的值。

3.3 梯度降維策略

不同的社交群體的詞向量通過TF-IDF賦值權重后,由于群聊天的稀疏性的特點,詞向量后的頻次呈現出趨于平穩的狀態。如圖3所示,為某涉槍群體各個詞權重與維度關系,隨著維度(橫軸)不斷變大,詞的權重變化逐漸收斂。

圖3 某涉槍群體詞權重曲線圖

在最前端其各個詞向量間的差異變化比較明顯,后面的詞向量之間的差異越來越小,并逐漸趨于平穩,差異越小的詞向量對模型的影響作用就越小,差異越大的詞向量對模型的影響作用就越大,所以我們可以利用梯度的方式截斷后面影響作用小的詞向量,達到降維的目的。給定梯度閾值σ,如果梯度?〈σ,則詞向量將以此為界分開。

因為梯度降維的方法要計算詞向量兩兩直接的差異,其效率并不高效,經過大量的數據觀察和對比,我們發現詞向量之間的差異和詞向量的權重值程正相關關系,所以我們可以直接依據詞向量的權重進行截斷,保留高權重的詞向量,去除低權重的詞向量,以達到降維的目的。本文一般通過統計多個群聊詞項權重后,選取最長的一個群聊向量作為統一標準。

3.4 模型訓練

群聊文本分類模型主要過程就是利用長文本與短文本中消息間的相關性保持一致的性質,利用TF-IDF統計方法,給定關鍵詞更高的權重生成群聊文本的詞向量。模型利用機器學習算法來訓練學習處理好的詞向量。算法過程描述如下:

算法模型訓練過程

輸入:帶有分類標簽的群聊文本

輸出:針對不同群聊類別的分類器

步驟1對輸入的群聊文本D進行消息整合為偽長文本;

步驟2對偽長文本進行數據清洗、分詞等預處理,得到 D′;

步驟 3利用公式(4)(5)(6)對 D′詞項進行加權,得到D′的詞向量;

步驟4利用機器學習算法對標簽和詞向量進行學習,構造分類器

算法模型預測過程

輸入:待分類的交互式短文本

輸出:短文本分類類別

步驟1對輸入的交互式短文本D進行消息整合為偽長文本;

步驟2對偽長文本進行數據清洗、分詞等預處理,得到 D′;

步驟 3利用公式(4)(5)(6)對 D,D′詞項進行加權,得到D,D′的詞向量;

步驟4利用已學習好的分類器進行預測

①該模型分為訓練過程和分析預測過程兩塊。每一塊均需要對數據進行預處理和加權生成詞向量的操作。

②詞向量的維度對模型的效率有著至關重要的作用,本文的詞向量保持在1000維度空間中。(單條消息的詞向量是稀疏的,但轉換為偽長文本后,經過詞向量賦權排序降維后,避免了稀疏性)。

4 實驗與結果分析

4.1 評價指標

本文將采用四個指標來評價分類的性能:查準率P、查全率R、F值,以針對涉槍和涉毒與正常群進行二分類后的AUC值。查準率表示正確分類的文檔數占總文檔比例,對于類別Ci,,其中|C|代

i表類別Ci的總數,max|Ci|代表Ci中正確分類的文檔數,對于總體:

查全率,即召回率,表示所有相似文本中,正確分類的比例,對于類別Ci,,其中|RC|代

i表類別Ci所有正確分類的大小,max|Ci|代表Ci中正確分類的文檔數,對于總體:

F值是綜合準確率和召回率的一個綜合評價指標,定義如下:

以上三個分類指標的取值都規范化在[0,1],其值越高代表著分類效果越好。對于二分類分類器來說,輸出結果標簽(0還是1)往往取決于輸出的概率以及預定的概率閾值,例如常見的閾值就是0.5,大于0.5的認為是正樣本,小于0.5的認為是負樣本。ROC曲線就是反映分類器分類能力。其橫軸代表著假陽率(FPR)、縱軸代表真陽率(TPR)。

●假陽率,簡單通俗來理解就是預測為正樣本但是預測錯了的可能性,顯然,我們不希望該指標太高。

●真陽率,則是代表預測為正樣本但是預測對了的可能性,當然,我們希望真陽率越高越好。

AUC實際上就是ROC曲線下的面積。AUC直觀地反映了ROC曲線表達的分類能力。

4.2 模型有效性分析

在社交網絡中存在大量的群聊文本信息。為了幫助公安更好地對群聊的類別進行分類,對涉槍、涉毒等違法犯罪群體進行篩選甄別,基于這類群聊文本信息,我們提出了一種基于群聊的分類模型。為了評估我們的模型,我們從一些社交平臺收集到了總共1057份群聊文本數據,其中包括涉槍有48份,涉毒有51份,正常群聊有958份,每個社交群里至少有200條消息。本文實驗主要以中文的群聊為實驗樣本數據。

本文通過KNN、SVM、樸素貝葉斯、AdaBoost、決策樹和隨機森林等多個學習算法進行了對比實驗,對每一類算法均迭代1000次,并記錄準確率、召回率和F1-Measure值的平均值。其中SVM的核函數為線性核,決策樹的特征選擇標準為信息熵,最大深度為10。隨機森林有10棵,特征選擇標準為基尼不純度。Ada-Boost的迭代次數為1000次,其弱學習器為決策樹。

實驗中,分別對涉毒、涉槍和正常群體進行了多分類驗證,因為涉毒和涉槍的樣本數據與正常群體的樣本數量差異很大,我們在訓練和驗證的過程中,對涉毒和涉槍的樣本數據進行了過采樣處理。如圖4所示,其訓練集有1136個,詞向量為300維,測試集有762個,詞向量為300維。詞向量的平均稀疏度保持在37.76%。其中,隨機森林的表現最為突出,得益于隨機森林在處理高維數據的優勢,能夠有效的檢測到特征之間的影響,并且有很強的抗干擾和過擬合的能力。圖5所示,在訓練和驗證過程中,各學習算法迭代1000次所消耗的時間度量。綜合圖4和圖5呈現的結果,可以得出群聊分類模型中用隨機森林作為文本分類器,是比較合理的選擇。

圖4 群聊分類模型不同算法性能度量

圖5 群聊分類模型不同算法1000次迭代時間度量

在群聊分類模型中,基于面向社交群體的分類,我們更加關注社交群體分類的正確性(因為社交群體的特征過于廣泛,僅有的樣本數據不能一一對應真實情況,所以召回率高反而會忽略其他特征下的相同類別的社交群體,例如涉毒群體中有販毒、帶毒、制毒,有吸冰毒、吸大麻、吸海洛因的不同人群,同時隨著時間的推移,不同群體的特征會不斷變化,因此我們更加關注準確率,輕微忽視召回率)。通過ROC曲線,我們計算AUC,其中隨機森林,SVM均有較好的結果。

4.3 與傳統文本分類方法對比

與傳統的文本分類相比,本文在針對群聊天文本的不完整性、非正規性和稀疏性的特點采用了TF-IDF權重賦值和排序,并通過梯度降維的方式減小了詞向量的維度。本文通過傳統的文本分類模型和基于群聊天的文本分類模型在不同算法進行了對比實驗。如圖7所示,基于群聊文本的分類模型在不同算法之間的準確率均是大于傳統的文本分類,可以得出TF-IDF權重賦權和梯度降維能夠有效提高群聊文本分類的準確率。

圖6 群聊分類模型不同算法ROC曲線

圖7 傳統文本分類算法和基于群聊天分類模型準確率對比

5 結語

針對群聊文本非正規性、不完整性、稀疏性等特點,本文提出了一種基于群聊文本分類模型。利用TF-IDF統計方法和梯度降維,去掉了大量重復、不重要的噪音詞匯,利用現有的機器學習算法,有效地構建出交互式短文本分類器。實驗部分驗證了本文提出的分析模型,得出了較好的分類效果;同時,我們希望更進一步會深入到群聊語義分析中,希望能夠通過語義層面的分析,來提高分類的效果。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲第一成年人网站| 亚洲成人黄色在线| 国产精品久久久久久久伊一| 中文字幕日韩久久综合影院| 91福利国产成人精品导航| 国产日本欧美亚洲精品视| 欧美有码在线观看| 成人毛片在线播放| 99热这里只有精品国产99| 亚洲性日韩精品一区二区| 国产自无码视频在线观看| 2020国产精品视频| 久久a毛片| jizz在线免费播放| 亚洲午夜国产精品无卡| 久久精品中文无码资源站| 亚洲国产成人无码AV在线影院L| 综合社区亚洲熟妇p| 国产伦片中文免费观看| 成人一级黄色毛片| 亚洲天堂自拍| 国产一级在线播放| 国产精品污污在线观看网站| 国产亚洲美日韩AV中文字幕无码成人 | 综合色88| 老司国产精品视频| 国产系列在线| 伊人色婷婷| 九九免费观看全部免费视频| 亚洲永久精品ww47国产| 亚洲AV无码乱码在线观看裸奔| 老熟妇喷水一区二区三区| 亚洲美女一级毛片| 欧美成人综合在线| 亚洲国产精品一区二区高清无码久久| 69综合网| 91无码网站| 亚洲欧美另类日本| 色综合热无码热国产| 试看120秒男女啪啪免费| 久久国产高潮流白浆免费观看| 免费激情网址| 久久午夜夜伦鲁鲁片不卡| 午夜久久影院| 亚洲自拍另类| 国产欧美在线| 亚洲精品视频免费| 国产成人啪视频一区二区三区 | 老色鬼久久亚洲AV综合| 美美女高清毛片视频免费观看| 亚洲国产系列| 国产视频自拍一区| 992Tv视频国产精品| 国产精品性| 亚卅精品无码久久毛片乌克兰 | 99九九成人免费视频精品| 五月天久久综合| 九九九九热精品视频| 青青草综合网| 男女男精品视频| 粉嫩国产白浆在线观看| 免费一级毛片不卡在线播放 | 色欲综合久久中文字幕网| 国产欧美自拍视频| 中文字幕在线欧美| 久久免费精品琪琪| 国产精品久久久久鬼色| 91口爆吞精国产对白第三集| 国产精品亚洲αv天堂无码| 色欲色欲久久综合网| 亚洲欧美成人综合| 91色在线观看| 色综合久久88| 中字无码精油按摩中出视频| 欧美成一级| 欧美日韩91| 日韩精品无码一级毛片免费| 国产综合无码一区二区色蜜蜜| AV不卡无码免费一区二区三区| 麻豆国产精品视频| 亚洲国产欧美自拍| 欧美区一区|