999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

涉及隱私侵占類APP識(shí)別與分類方法研究*

2022-01-05 14:25:46邱秀連彭艷兵
關(guān)鍵詞:分類特征文本

易 黎,邱秀連,馬 芳,彭艷兵,程 光

(1.南京烽火星空通信發(fā)展有限公司,江蘇 南京210019;2.東南大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京211189)

0 引言

中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第48次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》表明,截至2021年6月,中國(guó)手機(jī)網(wǎng)民的數(shù)量已高達(dá)10.07億,如此巨大的用戶量具有不可估量的商業(yè)價(jià)值,而其背后如此巨大的用戶個(gè)人信息在當(dāng)前信息時(shí)代環(huán)境下更是蘊(yùn)含著巨大價(jià)值[1]。但在實(shí)踐中,如此眾多的用戶使用量其問題也接踵而至,最明顯的是關(guān)于用戶個(gè)人信息泄漏事件層出不窮,對(duì)用戶個(gè)人信息的侵害可謂無孔不入,智能手機(jī)APP為用戶帶來便利的同時(shí),也成為個(gè)人信息泄漏的根本原因之一。

依據(jù)敏感程度和安全性不同,用戶個(gè)人信息內(nèi)容分為用戶核心隱私信息、用戶的重要隱私信息與用戶的普通隱私信息三個(gè)類別[2]。其中關(guān)于通訊錄聯(lián)系人、手機(jī)賬號(hào)、賬戶密碼、聊天記錄以及定位用戶當(dāng)前所在地點(diǎn)等內(nèi)容被劃分為核心隱私信息;關(guān)于手機(jī)發(fā)送接收短信信息、撥通電話、調(diào)用手機(jī)自帶的攝像頭權(quán)限等內(nèi)容信息歸屬于重要隱私信息一類;最后用戶的Wi-Fi連接無線網(wǎng)絡(luò)、藍(lán)牙連接無線設(shè)備、手機(jī)數(shù)據(jù)網(wǎng)絡(luò)流量使用等信息屬于普通隱私信息。

在實(shí)際應(yīng)用中,往往不僅想判別該APP是否有隱私侵占行為,更希望對(duì)該APP做深入挖掘,即進(jìn)行類型的判別。在已發(fā)現(xiàn)的電信網(wǎng)絡(luò)新型違法犯罪所使用的移動(dòng)APP的類型中,有下述三種常見的侵占隱私類APP:

(1)“套路貸”APP

該類型APP除了作為套路貸活動(dòng)的簽約、借款、還款平臺(tái),還會(huì)在受害人手機(jī)中索取權(quán)限獲取機(jī)主的短信、通話記錄、通訊錄、照片視頻等各類隱私信息,并在未經(jīng)允許的情況下收集上傳,從而進(jìn)行后續(xù)的催收騷擾或敲詐勒索違法行為[3]。

(2)“裸聊”APP

“裸聊”APP主要方式是與受害人進(jìn)行視頻聊天,欺騙誘導(dǎo)受害人安裝惡意APP,錄制受害人隱私音視頻,同時(shí)收集并上傳受害人手機(jī)中的短信、通話記錄、通訊錄、地理位置以及照片視頻等各類隱私信息[4]。

(3)網(wǎng)絡(luò)賭博APP

誘導(dǎo)境內(nèi)受害人安裝網(wǎng)絡(luò)賭博APP,進(jìn)行所謂“在線直播”、“線上下注”等違法活動(dòng),犯罪團(tuán)伙通過操縱后臺(tái)、修改數(shù)據(jù)以及直接下線跑路的方式侵吞受害人的錢財(cái)。部分APP會(huì)收集受害人手機(jī)中隱私數(shù)據(jù),用于開展“套路貸”等其他類型違法犯罪行為。

為此,針對(duì)現(xiàn)在市面上較常見的非法侵占隱私類移動(dòng)應(yīng)用的識(shí)別問題,提出一種基于多模態(tài)特征的多策略組合識(shí)別算法。通過靜態(tài)和動(dòng)態(tài)檢測(cè)相結(jié)合,針對(duì)移動(dòng)應(yīng)用APP進(jìn)行先分類后判別的模式分析,包含基本類別信息、是否通信傳輸行為、是否境外服務(wù)器、外在輿情、涉及敏感權(quán)限等多維度安全檢測(cè)。

1 基于Word2vec+CNN的APK分類方法

文本特征提取是文本挖掘中非常重要的一個(gè)環(huán)節(jié),無論是聚類、分類還是相似度任務(wù),都需要提取出較好的文本特征,才能取得較好的結(jié)果[5]。特征抽取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),以此來降低向量空間維數(shù),簡(jiǎn)化計(jì)算并提高文本處理的速度和效率。文本語(yǔ)料的不同文本特征提取方案也會(huì)不同,例如在長(zhǎng)篇幅的對(duì)話文本中,上下文銜接語(yǔ)義非常重要,用基于計(jì)數(shù)的模型(如詞袋)處理單詞不能捕獲單詞之間的語(yǔ)義關(guān)系,不能單用TF-IDF這類詞袋模型的提取方案。

本次實(shí)驗(yàn)數(shù)據(jù)的xml文本、APP名稱文本均具有上下文的語(yǔ)義信息,所以需要使用基于神經(jīng)網(wǎng)絡(luò)的特征提取方法。首先需要對(duì)文本進(jìn)行預(yù)處理,處理流程如下文。

1.1 文本預(yù)處理

(1)刪除標(biāo)簽:利用BeautifulSoup庫(kù)提取xml文件中所有的文本內(nèi)容,丟棄標(biāo)簽。

(2)刪除特殊字符:使用正則表達(dá)式過濾非字母和中文的其他字符。

(3)切分句子:將長(zhǎng)文本切分為中英文片段,再對(duì)每個(gè)片段判斷中英文,對(duì)于純英文片段利用wordninja包切詞;對(duì)于含有中文的片段,利用jieba進(jìn)行切詞。

(4)刪除干擾詞:將APP中經(jīng)常出現(xiàn)的如“同意、更新、返回”此類不能表征APP內(nèi)容的詞匯列入白名單,在完成切詞后濾除掉白名單詞匯。

另外,一些文本的處理操作可以當(dāng)做調(diào)優(yōu)參數(shù)對(duì)待,例如是否對(duì)切詞后的集合去重。

1.2 Word2vec提取特征

Word2vec是一種基于預(yù)測(cè)的深度學(xué)習(xí)模型,用于計(jì)算和生成高質(zhì)量的、連續(xù)dense的單詞向量表示,并捕捉上下文和語(yǔ)義相似性[6]。本質(zhì)上,這些是無監(jiān)督的模型,可以接收大量的文本語(yǔ)料庫(kù),創(chuàng)建可能的單詞詞匯表,并為表示該詞匯表的向量空間中的每個(gè)單詞生成dense的單詞嵌入。通常可以指定單詞的嵌入向量的大小,向量的總數(shù)本質(zhì)上反映詞匯表的大小。這使得該向量空間維度大大低于傳統(tǒng)的詞袋模型構(gòu)建出的高維稀疏的向量空間。訓(xùn)練好詞向量后,每篇文本經(jīng)過文本預(yù)處理到轉(zhuǎn)為對(duì)應(yīng)詞向量后,可以送入神經(jīng)網(wǎng)絡(luò)進(jìn)行分類模型的訓(xùn)練和測(cè)試。具體的演化流程如表1所示。

表1 APP中短文本到詞向量的轉(zhuǎn)換過程

1.3 分類模型

將Word2vec訓(xùn)練好的詞向量替代CNN的embedding層,利用類似于圖像分類的原理,用不同大小的卷積核對(duì)特征矩陣做卷積,即可以提取到不同景深下的特征維度,然后合并不同景深的特征矩陣,經(jīng)過max_pooling層后輸出最終的分類類別,具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 基于文本分類的APP類型識(shí)別

2 多策略組合的隱私侵占識(shí)別方法

為了進(jìn)一步對(duì)APP是否存在隱私侵占行為進(jìn)行研究,在APP的類別得到有效識(shí)別后,將分類識(shí)別的結(jié)果作為新的特征輸入到隱私侵占識(shí)別模型中,通過與通信傳輸行為、境外服務(wù)器、外在輿情(如百度貼吧是否涉及該APP)、涉及敏感權(quán)限等一批新的行為特征相組合,利用互信息、卡方分布等特征選擇方法,逐步過濾并選擇信息量較大的特征子集表征應(yīng)用程序。

2.1 框架介紹

圖2 所示為多策略組合的隱私侵占檢測(cè)框架,該框架執(zhí)行了四個(gè)主要的模塊:行為特征抽取與量化、特征選擇、初級(jí)檢測(cè)和投票判別。行為特征抽取模塊通過解壓縮并反編譯應(yīng)用程序的APK文件,從AndroidManifest.xml和classes.dex文件中抽取多種行為特征數(shù)據(jù)[7]。數(shù)據(jù)特征會(huì)直接影響預(yù)測(cè)模型的性能,因此為了刪除無用特征以構(gòu)造具有最佳分類效果的特征集,特征選擇模塊使用三種過濾式特征選擇方法,逐步過濾并選擇信息量較大的特征子集表征應(yīng)用程序。初級(jí)檢測(cè)和投票判別模塊設(shè)計(jì)一種復(fù)合分類模型,通過結(jié)合多種不同的基分類器,采用硬投票或者軟投票的方式預(yù)測(cè)應(yīng)用類別,從而降低了因分類算法對(duì)惡意行為的選擇性所帶來的誤報(bào)、漏報(bào)等風(fēng)險(xiǎn),提高了檢測(cè)的準(zhǔn)確性[8]。

圖2 多策略組合的隱私侵占識(shí)別

2.2 特征提取與量化

根據(jù)對(duì)侵占隱私類APP的分析,本文首先提取了八個(gè)層面的行為特征表征應(yīng)用程序,包括APP所屬類別、回傳通訊錄特征、服務(wù)器是否境外、外網(wǎng)輿情信息、應(yīng)用程序文件大小、APP來源、敏感權(quán)限、逆泛域名,表2所示為部分行為特征及其所屬類別的介紹。

表2 可疑行為特征

將文本類特征轉(zhuǎn)換為數(shù)值型特征,比如分類類別、APP來源、APP服務(wù)器位置;將定性自變量轉(zhuǎn)化為離散的數(shù)值型變量;將定量自變量用標(biāo)準(zhǔn)化或者歸一化處理。

2.3 特征選擇

為了提高算法的性能,研究人員一般都會(huì)選用大量的特征表征數(shù)據(jù),但并不是特征維度越高越好,在眾多的屬性中,一定含有冗余特征,如果不經(jīng)處理直接進(jìn)行分析,會(huì)影響模型的性能[9]。所以選擇信息量較大的特征子集表征應(yīng)用程序,不僅可以降低模型的復(fù)雜度并縮短模型運(yùn)行時(shí)間,還可以提高模型的準(zhǔn)確率和檢測(cè)效率。

針對(duì)不同數(shù)值類型的特征,需要不同的特征選擇方法。對(duì)于定性自變量對(duì)定性因變量的相關(guān)性檢驗(yàn),一般不采用相關(guān)系數(shù)法,可以使用卡方檢驗(yàn)和互信息法進(jìn)行檢驗(yàn);當(dāng)自變量的數(shù)值為連續(xù)型時(shí),可以使用簡(jiǎn)單的方差選擇法,也可以采用互信息法的變遷模式最大信息系數(shù)法。

(1)卡方檢驗(yàn)

卡方檢驗(yàn)通過觀察值和理論值之間的偏差來判斷理論值的正確率是多少。如果正確率很大則被認(rèn)為理論值是正確的,即假設(shè)成立,否則假設(shè)不成立。

卡方檢驗(yàn)的基本公式,即x2的計(jì)算公式,為觀察值和理論值之間的偏差:其中A代表觀察頻數(shù)(觀察值),E代表期望頻數(shù)(理論值)。通過計(jì)算x2數(shù)值以及自由度去對(duì)照卡方分布表,即可知道該假設(shè)條件下成立的概率值。自由度的計(jì)算公式通常為df=n-k。其中n為樣本數(shù)量,k為被限制的條件數(shù)或變量個(gè)數(shù)。在本次實(shí)驗(yàn)中,對(duì)于一個(gè)N分類模型,自由度為1*(N-1)。

(2)互信息法

互信息法指選擇一個(gè)能提供給類別盡可能多“信息”的特征子集,從而得到更多關(guān)于類別的“信息”,進(jìn)而為分類提供幫助。通過計(jì)算某個(gè)特征與標(biāo)簽列的互信息熵的值,即可以得到該特征與分類的相關(guān)度。首選介紹下互信息的計(jì)算公式:

其中,I(X;Y)表示事件X和Y共同提供的信息,I(X;Y)值越大,代表該項(xiàng)特征對(duì)提供分類信息越多。

對(duì)于互信息法可以設(shè)置閾值,低于閾值的特征被認(rèn)為對(duì)于分類無效,在訓(xùn)練模型時(shí)將丟棄該項(xiàng)特征。

(3)方差法

方差計(jì)算公式:

其中M為數(shù)據(jù)的平均數(shù),n為樣本個(gè)數(shù),s2為方差值。如果某列特征值均為一個(gè)數(shù)值或者波動(dòng)很小的話,對(duì)應(yīng)的方差則越小,該特征對(duì)樣本分類的貢獻(xiàn)也越少,可以通過閾值濾除掉方差值較小的特征。閾值的選擇理論上應(yīng)該根據(jù)分類模型結(jié)果與閾值的曲線來確定,需要多次進(jìn)行模型訓(xùn)練。在計(jì)算方差之前,需要將數(shù)值型的幾列特征的值調(diào)整到相同的數(shù)量級(jí),這里采用的是區(qū)間縮放法,將數(shù)值均縮放到[0,1]區(qū)間。

2.4 初級(jí)檢測(cè)

特征選擇模塊之后,可以得到與應(yīng)用程序類別相關(guān)性較高的特征子集。接下來為了得到更加精確的識(shí)別效果,選用了四種不同類型的分類算法對(duì)應(yīng)用程序進(jìn)行分類:邏輯回歸算法(Logistic Regression)、隨機(jī)森林算法(Random Forest)、bagging和adaboost,四種分類算法都被廣泛應(yīng)用于二進(jìn)制分類問題。

2.5 投票判別

借助集成學(xué)習(xí)的思想,通過結(jié)合多種不同的分類算法創(chuàng)建了一種復(fù)合分類模型,即投票判別模型[10]。將不同的分類算法定義為基分類器,投票判別應(yīng)用程序類別的基本原理被描述為:基于應(yīng)用程序訓(xùn)練樣本學(xué)習(xí)得到n個(gè)基分類器M1,M2,…,Mn,對(duì)于待分類應(yīng)用程序,由n個(gè)基分類器對(duì)其進(jìn)行類別預(yù)測(cè),每個(gè)基分類器都對(duì)自己的預(yù)測(cè)結(jié)果進(jìn)行投票,最終得票數(shù)最多的類別為投票判別結(jié)果。

采用硬投票的方式得到最終結(jié)果。硬投票又稱多數(shù)投票,通過統(tǒng)計(jì)多種基分類器的預(yù)測(cè)結(jié)果,以少數(shù)服從多數(shù)為原則,最終輸出得票數(shù)最多的類別。

3 實(shí)驗(yàn)過程及結(jié)果

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)使用的數(shù)據(jù)集是包括小米應(yīng)用商城、360手機(jī)應(yīng)用市場(chǎng)、非凡軟件站在內(nèi)的多家應(yīng)用市場(chǎng)數(shù)據(jù),共包含765 821萬條APP的有效動(dòng)靜態(tài)數(shù)據(jù),篩選有效類別的APP類別有11種,分別為博彩、工具-購(gòu)物、視頻、交友直播、虛擬幣、借貸、工具-兼職、色情、游戲、VPN、位置偽裝多開。以初始類為基礎(chǔ)再次篩選是否存在隱私侵占行為,篩選有效類別的數(shù)據(jù)集作為訓(xùn)練和測(cè)試樣本,均按照8:1:1的比例進(jìn)行訓(xùn)練集、驗(yàn)證集以及測(cè)試集的劃分,實(shí)驗(yàn)數(shù)據(jù)集的分布情況如表3所示。

表3 各類應(yīng)用數(shù)據(jù)分布

3.2 實(shí)驗(yàn)參數(shù)

基于Word2vec+CNN網(wǎng)絡(luò)的APP基礎(chǔ)類識(shí)別網(wǎng)絡(luò)參數(shù)如表4所示。

表4 APP基礎(chǔ)類識(shí)別網(wǎng)絡(luò)參數(shù)

基于多特征融合的投票方式隱私侵占APP識(shí)別模型參數(shù)如表5所示。

表5 多分類器的網(wǎng)絡(luò)參數(shù)

經(jīng)過特征相關(guān)性檢驗(yàn),實(shí)驗(yàn)一共確定了18個(gè)特征值。其中,原始敏感權(quán)限對(duì)應(yīng)了124維的特征矩陣,從124維的權(quán)限中篩選部分核心的權(quán)限作為特征,分別使用卡方檢驗(yàn)和互信息法推薦12個(gè)敏感權(quán)限特征。

3.3 評(píng)價(jià)指標(biāo)

系統(tǒng)完成建模之后,需要對(duì)模型的效果做評(píng)價(jià)。采用評(píng)價(jià)指標(biāo)準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-Measure)來衡量分類模型的效果。

(1)準(zhǔn)確率(Accuracy)

準(zhǔn)確率(Accuracy)計(jì)算公式如下,模型預(yù)測(cè)正確數(shù)量所占總量的比例。

(2)召回率(Recall)

召回率是覆蓋面的度量,度量有多個(gè)正例被分為正例。

(3)F1值(H-mean值)

F1值為算數(shù)平均數(shù)除以幾何平均數(shù),且越大越好。將Precision和Recall的上述公式帶入會(huì)發(fā)現(xiàn),當(dāng)F1值小 時(shí),True Positive相對(duì)增加,而false相 對(duì) 減少,即Precision和Recall都相對(duì)增加,也就是F1對(duì)Precision和Recall都進(jìn)行了加權(quán)。

3.4 實(shí)驗(yàn)結(jié)果

表6 和圖3分別列出了在驗(yàn)證集上對(duì)APP粗分類和基于分類后的結(jié)果對(duì)是否存在隱私侵占行為的檢測(cè)效果。實(shí)驗(yàn)結(jié)果顯示,對(duì)于APP的初始分類效果達(dá)到優(yōu)異的成績(jī),準(zhǔn)確率均高于95%,部分類別的召回率偏低;基于分類結(jié)果再融合異常侵占隱私行為特征的二次分類結(jié)果顯示,多個(gè)分類器的聯(lián)合投票結(jié)果優(yōu)于單個(gè)的分類器。

圖3 分類器性能示意圖

表6 APP基礎(chǔ)類識(shí)別驗(yàn)證集效果

4 結(jié)論

本文方案針對(duì)市場(chǎng)中較常見的涉及隱私侵占類的APP,達(dá)到了預(yù)期的實(shí)驗(yàn)效果,不僅分類領(lǐng)域達(dá)到較高的水準(zhǔn),還將各個(gè)不同類別中帶有隱私侵占性質(zhì)的APP進(jìn)行了二次識(shí)別。但是本文方案仍有許多值得研究和改進(jìn)的地方,首先由于樣本的限制,導(dǎo)致分類類別有限,對(duì)于未知類別中的涉及侵占隱私APP沒有涉及;其次是對(duì)于多分類器投票環(huán)節(jié),實(shí)驗(yàn)中只利用了4種二分類器,對(duì)于更多不同的分類器組合效果是否更好有待進(jìn)一步驗(yàn)證。

猜你喜歡
分類特征文本
分類算一算
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲无线国产观看| 手机永久AV在线播放| 91探花在线观看国产最新| 国产国语一级毛片| 欧美日韩国产成人高清视频| 亚洲一区波多野结衣二区三区| 国产主播在线一区| 亚洲国产理论片在线播放| 91精品专区国产盗摄| 91系列在线观看| 国产高颜值露脸在线观看| 狠狠干综合| 88av在线播放| 日韩午夜片| 午夜福利在线观看入口| 国产亚洲精| 色综合久久88| 国产一在线| 亚洲午夜天堂| 久久香蕉国产线| 一区二区三区精品视频在线观看| 秋霞一区二区三区| 亚洲av日韩综合一区尤物| 国产精品亚洲а∨天堂免下载| 在线看片免费人成视久网下载| 婷婷丁香色| 国产精品视频观看裸模| 四虎永久免费在线| 在线色国产| 久久美女精品| 久久久受www免费人成| 色婷婷成人| 免费a级毛片18以上观看精品| 女人18一级毛片免费观看| 亚洲开心婷婷中文字幕| 色婷婷在线播放| 91久久夜色精品| 免费看一级毛片波多结衣| 国内精品久久久久久久久久影视| 国产剧情一区二区| 亚洲精品成人片在线观看| 成人综合在线观看| 亚洲一区免费看| 激情影院内射美女| 91www在线观看| 国产在线观看一区精品| 92午夜福利影院一区二区三区| 国产成人夜色91| 超碰精品无码一区二区| 99久久婷婷国产综合精| 精品自窥自偷在线看| av性天堂网| 国产微拍精品| 国产精品无码作爱| 四虎精品国产AV二区| 亚洲天堂视频网站| 热久久这里是精品6免费观看| 99久久成人国产精品免费| 粉嫩国产白浆在线观看| 五月天在线网站| 狠狠亚洲五月天| 欧美午夜理伦三级在线观看| 久久先锋资源| 2021国产乱人伦在线播放| 国产97公开成人免费视频| 黄片一区二区三区| 国产大片喷水在线在线视频| 午夜国产不卡在线观看视频| 久久性妇女精品免费| 免费无码一区二区| 天天综合天天综合| 成人日韩精品| 五月婷婷精品| 亚洲永久精品ww47国产| 亚洲Av综合日韩精品久久久| 国产在线第二页| 中国黄色一级视频| 成人午夜亚洲影视在线观看| 国内精自线i品一区202| 色偷偷av男人的天堂不卡| 国产视频你懂得| 亚洲欧美极品|