999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

暗網網頁用戶身份信息聚合方法

2023-11-18 03:32:44王雨燕趙佳鵬時金橋申立艷劉洪夢楊燕燕
計算機工程 2023年11期
關鍵詞:用戶信息模型

王雨燕,趙佳鵬,時金橋,申立艷,劉洪夢,楊燕燕

(1.北京郵電大學 網絡空間安全學院,北京 100876;2.中國人民公安大學 信息網絡安全學院,北京 100038)

0 概述

當前的網絡空間可以根據其網頁內容是否能夠被常規搜索引擎獲取分為明網和暗網2 種類型。其中,暗網是深網的子集,需要借助特殊軟件(如Tor 瀏覽器)才能訪問。這種特殊的訪問方式為暗網帶來了匿名性、不可追溯性等特性。隨著互聯網的飛速發展,暗網網絡犯罪案件數量在全球呈現上升趨勢。相較于普通的網絡犯罪,暗網網絡犯罪因其本身具有的匿名性和不可追溯性導致犯罪分子更加難以被追蹤。情報分析是追蹤暗網犯罪的重要手段,該技術收集犯罪分子在暗網網絡活動中留下的相關身份信息(如郵箱地址、比特幣錢包地址、社交平臺賬號等)作為破解用戶身份的重要線索。因此,研究自動化識別和聚合同一用戶多種身份信息的技術具有重要的應用價值。

針對暗網用戶身份信息的識別和聚合問題,當前的相關研究較少。筆者通過廣泛調研發現,自然語言處理中的關系抽取和共指消解方法可以解決該問題。關系抽取旨在識別實體對之間的關系類別;共指消解旨在聚合同一句子內指向同一名詞的代詞。從本質上說,共指消解是一種特殊的關系抽取任務,其特殊在于指定了實體是代詞、實體間的關系是共指關系。雖然共指消解與本文研究的任務很相似,都是聚合語義上有關聯的對象,但它們依舊存在2 個不同之處:首先,任務關注的對象并不相同,前者是語句中的代詞,后者是網頁中的用戶身份信息;其次,當前流行的共指消解方法將代詞識別和代詞間共指關系抽取2 個部分聯合進行,例如文獻[1-3]方法。由于本文研究的用戶身份信息的識別和聚合是2 個不同的階段,不涉及聯合抽取的過程,因此本文最終選擇使用簡單的二元關系抽取方法解決用戶身份信息聚合的問題。本文定義屬于同一用戶的2 個用戶身份信息之間包含共指關系,使用關系抽取模型來識別身份信息之間的共指關系。

目前,使用關系抽取方法解決用戶身份聚合問題主要存在3 個問題:首先,該場景缺乏公開可用的包含暗網多種用戶身份信息的數據集;其次,雖然特征工程對于解決此類問題已經表現出不錯的性能,但是隨著深度學習的發展,擺脫特征依賴也是目前研究的主流方向,如何選擇合適的深度學習方法、構建相應的模型、實現同一用戶多種身份信息自動化和高性能聚合,也是難點之一;最后,在暗網用戶身份信息聚合的過程中,某些類別可獲取的用戶身份信息稀少,導致標注樣本有限,然而目前的深度學習方法又普遍依賴大規模標注樣本來保證識別性能,因此,如何進一步修改深度學習模型來降低模型對大規模訓練樣本的依賴,是另一個難點。

為了解決這些問題,本文提出一種基于規則的身份信息識別方法,用于識別網頁中出現的所有身份標識信息,并構建相應的用戶信息聚合數據集。在此基礎上,提出一種以有監督的共指關系抽取模型作為用戶聚合任務的基線模型,該模型輸入一對用戶身份信息及其上下文語境,返回該信息對之間是否包含共指關系。基于對數據集的統計分析,用戶身份信息的類別對共指關系的識別有一定提示作用,因此,本文在基線模型中引入實體類別信息,提出實體類別敏感的共指關系抽取模型,進一步提高用戶身份信息聚合模型的準確率。最后,針對暗網中通過某些身份類別信息無法獲取足夠多的訓練樣本這一問題,在基線模型中引入少樣本學習任務,構建低資源條件下基于多任務的用戶身份信息聚合模型,減少模型對大規模訓練集的依賴。

1 相關技術

1.1 實體識別技術

傳統的命名實體識別是自然語言處理的一項基礎任務,其研究的核心是如何在一些特定領域內對文本中的實體名詞進行抽取,例如從醫藥學領域的學術報告中獲取藥物名稱、從報紙中抽取關于機構活動的人名、地名、組織機構名等。基于統計機器學習的命名實體識別方法被廣泛應用,包括基于隱馬爾可夫模型(Hidden Markov Model,HMM)[4]的命名實體識別模型、基于支持向量機(Support Vector Machine,SVM)[5]的命名實體識別模型、基于條件隨機場(Conditional Random Field,CRF)[6]的命名實體識別模型等。當前,基于深度學習的模型效果最佳,在相關研究中:文獻[7]提出基于格的長短期記憶(Latticebased Long Short-Term Memory,Lattice-LSTM)網絡,結合了詞典匹配和條件隨機場進行命名實體的識別;文獻[8]使用預訓練模型BERT[9]獲得上下文單詞的語義嵌入,提高了模型對實體語義的理解能力。

命名實體識別技術可以實現暗網用戶身份信息的自動化識別,但是當前的命名實體識別技術面臨多個難題,例如在真實的開放環境中,無法列舉所有的實體種類和數量、無法完成實體間的歧義消解、難以對實體邊界進行界定等。受以往實體識別工作的啟發,本文統計并定義了以下種類的用戶身份標識信息:社交平臺賬號(如Telegram 群組、Raddit 賬號、GitHub 賬號、Discord 賬號、Medium 賬號、Facebook賬號、Linkedin 賬號、VK 賬號、Twitter 賬號、Instagram 賬號等);加密貨幣錢包地址(如比特幣地址、以太坊地址、門羅幣等);個人聯系方式(如郵箱地址、電話號碼等)。這些信息每一類都有其標志性的特征,因此,對不同類別的信息構建不同的匹配規則是一種簡單、有效的實體識別方式。

1.2 句子級關系抽取

給定一個句子S,句子中包含一對實體e1和e2,句子級關系抽取的目標是根據S中的語義信息識別出e1和e2之間的關系。基于統計機器學習的句子級關系抽取方法廣泛應用于情報抽取領域,包括最大熵模型(Maximum Entropy Model,MEM)[10]、隱馬爾可夫模型[11]、條件隨機場[12]、核(Kernel)方法[13]等。這些方法嚴重依賴于手工特征,消耗大量人工成本的同時靈活性低下,更換應用場景或數據內容往往需要構建新的特征集合。基于深度學習的關系抽取方法解決了這一難題,在相關研究中:文獻[14]使用卷積神經網絡(Convolutional Neural Network,CNN)來學習句子的語義嵌入,之后在CNN 的基礎上產生了多個變種,包括使用分類損失函數的CR-CNN[15]、添加分段最大池化操作的Pooling-CNN[16]等。此外,LSTM 網絡也用于學習文本序列的語義嵌入,在相關研究中:文獻[17]提出的雙向長短期記憶(Bidirectional LTSM,BiLSTM)網絡結合了前向LSTM層和后向LSTM 層,該方法被證明能同時捕捉詞語前的文本信息和詞語后續的語義信息;在此基礎上,文獻[18]將注意力機制用于BiLSTM,得到了Att-BiLSTM。

基于經典的Transformer 模型[19],文獻[20]提出了用于語言理解的生成式預訓練轉換器GPT-2,文獻[9]提出了大規模預訓練模型BERT。目前,關系提取的最佳模型均使用預訓練模型來獲得實體的語義嵌入。當前在優化關系抽取模型方面主要有以下2 種方式:

1)優化預訓練模型。ERNIE 模型[21]改進了預訓練過程中掩蓋關鍵字的方式,與基線預訓練模型BERT 相比,其將詞掩蔽策略擴展到分詞、短語和實體。SpanBERT[22]利用幾何分布隨機抽取短語片段,并根據片段邊界詞的向量預測整個掩碼詞。此外,還可以通過引入外部知識來優化預訓練模型,例如KnowBERT[23]和ERNIE 均通過預訓練外部知識庫來獲取實體嵌入。類似地,K-Adapter[24]關注如何向語言模型注入事實和語言知識,LUKE[25]進一步將掩蔽語言建模的訓練前目標擴展到實體,并使用了一種實體感知的自我注意機制。

2)對實體的標記進行改進。IREBERT[26]使用一組用于句子級關系抽取的類型化實體標記符號,該方法與傳統的實體掩碼技術和已有的實體標記技術相比,能得到更符合上下文語義的實體嵌入。當前句子級關系抽取的研究已經取得了令人滿意的成果,然而這些方法的性能依賴于豐富的訓練資料,隨著訓練樣本的減少,模型性能也隨之迅速下降。在暗網用戶身份信息聚合的場景中,有多個種類的身份信息在標注樣本集合中非常稀缺,在深度學習領域,該問題可以通過少樣本學習方法解決。

1.3 少樣本關系抽取

少樣本關系抽取是指僅通過少量訓練樣本對實體對關系進行分類的機器學習問題,目前解決該問題的方法主要分為以下3 類:

1)使用數據增強手段增加訓練樣本數量。EDA[27]是一種用于文本分類任務的數據增強方法,其使用4 種文本變換手段,包括對原數據集樣本進行同義詞替換、隨機插入單詞、隨機交換和隨機刪除。但是該方法需要大量手工操作(如定制同義詞集合等),且分類器性能提升并不明顯。

2)優化模型結構。目前最常見的優化方法是基于度量的方法和基于提示學習的方法。基于度量的方法通過計算實體嵌入與錨點的相似度(或距離)進行分類,例如:匹配網絡[28]使用余弦相似度計算相似度;原型網絡[29]使用歐氏距離計算相似度。基于提示學習的方法將關系抽取任務轉換為提示生成任務,使用預訓練模型推理獲得有關提示的答案。LAMA 模型[30]將關系抽取任務修改為填空題,在使用相同預訓練模型的情況下,相比引入外部知識庫等傳統方法獲得了更好的效果。文獻[31]研究表明,將任務描述(即提示)作為預訓練模型的輸入,能夠極大地提高少樣本模型的性能。隨后,文獻[32-33]應用2 種不同策略擴展了該方法。為降低手工生成提示的時間成本,文獻[34]提出了一種生成文本分類任務提示的有效方法。為了使提示學習能高效地應用于零樣本和少樣本關系抽取,文獻[35]進一步將關系抽取描述為一個文本蘊含任務。

3)改進模型算法,利用先驗知識初始化已有參數來改變模型的搜索方向,達到減小估計誤差的目的。OSVOS 模型[36]在解決視頻對象分割任務時,使用了預訓練的卷積神經網絡進行圖像分類,首先使用大數據集進行前景分割的調整,然后使用單次拍攝的分割對象進一步調整分割,優化后模型的分割準確率從68.0%提升到79.8%。文獻[37]對元學習任務的參數進行初始化,新任務的少量梯度步驟和少量訓練數據將在該任務上產生良好的泛化性能。

雖然目前少樣本關系抽取技術飛速發展,但是面對暗網用戶身份信息聚合等真實的場景,仍然缺乏相關模型的應用實例和實驗數據。

2 暗網用戶身份信息識別和聚合

從初始暗網網頁到完成用戶身份信息聚合的流程如圖1 所示,其中,用戶身份標識信息的識別和聚合是關鍵技術,前者識別網頁中的用戶身份信息,構建數據集,后者輸出數據集中信息對的共指概率,聚合屬于同一用戶的信息。

圖1 暗網用戶身份信息識別與聚合流程Fig.1 Procedure of identifying and aggregating identity information of darknet users

本文提出一種暗網用戶身份信息的識別和聚合方法,實現過程包括以下3 個部分:

1)針對缺少公開可用的暗網用戶身份信息數據集的問題,提出一種基于規則的用戶身份信息識別技術。該技術用于自動化并高效地識別純文本中的用戶身份信息,是構建暗網用戶身份信息數據集的關鍵技術。

2)受現有關系抽取技術的啟發,提出一種暗網用戶身份信息聚合的基線模型ConRE,然后在ConRE 基礎上加入實體類別信息優化,提出ConREtype和ConREtype_description模型。

3)為了降低聚合模型對大規模訓練樣本的依賴,在ConRE、ConREtype和ConREtype_description的基礎上,引入多任務學習來提高模型的F1 值,增強模型在訓練樣本資源不足(低資源)情況下的穩定性。

2.1 基于規則的用戶身份信息識別技術

暗網中的用戶身份信息每一類都有其標志性的特征,因此,對不同類別的信息構建不同的匹配規則是簡單且有效的用戶身份信息識別方式。基于規則的用戶身份信息識別技術使用手工定制的正則表達式,匹配同一網頁中的所有用戶身份信息。該技術輸入經過預處理的暗網HTML網頁,輸出用戶身份信息集合。

本文定義以下4 種暗網用戶身份信息類別:1)社交平臺賬號,如Discord 賬號、Instagram 賬號、GitHub賬號、VK 賬號、Twitter 賬號、Medium 賬號、Telegram賬號、Facebook 賬號、Linkedin 賬號、Reddit 賬號等;2)個人聯系方式,如郵箱地址、電話號碼等;3)加密貨幣,包括比特幣、以太坊;4)其他種類數量極少的用戶身份信息,如電話號碼、門羅幣等,統一歸納為其他類別。基于規則的用戶身份信息識別技術在特定的領域內準確率極高,是一種簡單、有效的匹配暗網用戶身份信息的方式。

基于規則的實體識別方法根據文本特點,手工定制規則匹配模板以完成實體識別。此類方法往往基于知識庫和詞典,以指示詞、標點符號作為抽取依據。本文針對每一類別的用戶身份信息制定了相應的正則匹配規則。表1 列舉了常見的14 種用戶身份信息以及匹配規則,其中:“X”指匹配任意字符;“[]”表示或運算;括號中每個選項用“|”分隔;“^”指匹配開頭字符“;$”指匹配結尾字符“;{}”表示匹配次數。

表1 用戶身份信息種類及相應匹配規則Table 1 Types of user identity information and corresponding matching rules

2.2 基于共指關系抽取的用戶身份信息聚合方法

在基于共指關系抽取的用戶身份信息聚合方法中,定義了同一頁面中屬于相同用戶的信息之間包含共指關系,用戶身份信息聚合任務被轉化為共指關系抽取任務。針對上一階段抽取的用戶身份信息實體,本文構建了有監督的共指關系抽取模型ConRE、實體敏感的共指關系抽取模型ConREtype和ConREtype_description。這些模型均通過學習實體對及其上下文語境所包含的語義信息,判斷實體對之間是否具有共指關系。本節將詳細介紹構建這些聚合模型的關鍵技術,包括獲取實體嵌入、實現共指關系二元分類器和引入實體類別信息特征來優化模型性能。其中:ConRE 模型由獲取實體語義嵌入的預訓練部分和二元分類器組成;ConREtype和ConREtype_description模型是在ConRE 的基礎上,引入實體類別的信息特征優化后的模型。

2.2.1 實體語義嵌入的獲取

本文通過BERT 預訓練模型獲得實體對嵌入。BERT 是由Transformer 編碼器在大規模語料庫上訓練得到的模型,也是目前使用最為廣泛和成熟的預訓練模型。Transformer 使用自注意力機制代替CNN 的卷積和LSTM 的門控機制來計算權重,在保證計算速度的情況下,能夠平等地捕捉到文本序列更長距離的上下文信息。本文通過BERT 提供的實體表示來完成二分類任務。

獲取實體嵌入需要對句子執行預處理程序,具體如下:1)將句子轉換為token 序列;2)為序列添加特殊符號,在序列開頭添加“[CLS]”作為分類標識符,在序列結尾或2 個序列分界處添加“[SEP]”作為句子分割符,在實體開始和結束的分界處分別添加“$”和“#”作為實體標記符。

將處理后的token 序列輸入BERT。假設句子S的2 個實體為e1和e2,對于BERT 輸出的完整隱藏狀態V,取出V中e1和e2對應的初始向量v1和v2,計算其平均值后經過同一個全連接層,獲得最終實體嵌入實體1 嵌入的計算過程如式(1)所示,其 中,W1和b1是可學 習的參 數,j和k分別表 示e1在句子中的起始token 編號和終止token 編號;e2嵌入的獲取同理,計算過程如式(2)所示;取出V中對應“[CLS]”的初始向量vc,然后經過一個全連接層獲得分類標識嵌入,分類標識符嵌入的計算過程如式(3)所示,其中,Wc和bc是可學習的參數。

2.2.2 二元分類器

分類器負責對輸入的每一個嵌入預測實體對之間是否存在共指關系。首先拼接2 個實體嵌入和分類標識嵌入,然后經過一個全連接層得到分類嵌入,式(4)為的計算過程,其中,Wp和bp是全連接層參數。最終共指分數由Softmax 層組成的分類器獲得,將分類嵌入輸入分類器,輸出實體對共指的概率P,如式(5)所示,當P大于閾值0.5 時,分類器預測實體對之間存在共指關系。

2.2.3 實體類別信息的引入

根據統計信息,實體類別信息對共指關系的判斷有一定指示作用,為了提高模型識別準確率,本文在基線模型ConRE 的基礎上,采用2 種不同的方法添加實體類別輔助信息:方法1 直接使用實體類別的名稱作為輔助信息,拼接于原句子結尾,并添加符號“[SEP]”分割原句與輔助信息,得到模型ConREtype;方法2 引用Wiki 知識庫中相關實體類別描述作為語義輔助信息,將拼接輔助信息后的句子輸入關系抽取模型,得到模型ConREtype_description。此時模型訓練所得到的和為額外獲得的實體類別語義信息。

2.3 低資源條件下的用戶身份信息聚合方法

本文提出的低資源用戶信息聚合方法以模型ConRE、ConREtype和ConREtype_description為基礎,添加實體類別輔助信息提升模型識別能力,并且引入度量學習任務提高模型在低資源條件下的魯棒性。

度量學習通過計算實體嵌入與錨點的相似度(或距離)進行分類。這種方法在少樣本學習領域得到了廣泛的應用,并且大量實驗證明,這種方法能顯著提高低資源條件下模型的識別能力。引入度量學習任務需要解決以下3 個問題:

1)設置錨點。對于分類模型,需要為每一個類別定義一個錨點。錨點的設置是度量學習的關鍵,其定義某類別樣本在高維空間中的投影中心,某樣本與該類別的錨點在高維空間中距離越近,表示該樣本屬于此類別的概率越大;相反地,某樣本與其他類別的錨點距離越遠,表示該樣本屬于這些類別的概率越小。為保證錨點在空間中的位置符合共指關系與非共指關系在現實世界中的語義,在暗網用戶身份信息集合的場景下,本文參考Wiki 百科手工定制共指關系和非共指關系的語義描述S1、S2,輸入BERT 獲得描述句子嵌入,即模型的2 個錨點。計算過程如式(6)和式(7)所示:

2)相似度計算。此處選擇內積計算實體嵌入與錨點嵌入的相似度,如式(8)所示,函數d接收實體嵌入和錨點嵌入。

3)修改損失函數,把度量學習任務與原任務組合為多任務模型。此時損失函數由兩部分組成,分別是基線模型的二元交叉熵損失L1和度量學習任務的三元損失L2。計算過程見式(9)和式(10):

式(11)是加入度量學習后模型的損失函數,由基線模型的交叉熵損失和度量學習的三元損失2 個部分組成,其中,?和γ是超參數,前者用于調節損失占比,后者表示相似度閾值,若空間距離遠于閾值,則認定2 個向量不屬于同一類別。

本文定義共指關系的錨點以a'S1表示,非共指關系的錨點以a'S2表示,多任務的暗網用戶身份信息聚合模型架構如圖2 所示。

圖2 多任務的暗網用戶身份信息聚合模型架構Fig.2 Architecture of multi-task darknet user identity information aggregation model

3 實驗

本文實驗對應上文內容驗證所提方法的性能。實驗分為3 個部分:第一部分使用第2.1 節中提出的基于規則的用戶身份信息識別技術,生成數據集Duad;第二部分給出第2.2 節中所提出的基線模型和多個主流的關系抽取模型的性能對比;第三部分對應于第2.3 節的內容,描述本文針對基線模型所提出的改進方法在數據集Duad 上的優化效果。

3.1 數據集的獲取

本文通過Tor瀏覽器提供的接口爬取50 000 個暗網初始網頁(已去除重復網頁和同源網頁)。該網頁集合需要經過特定的清洗模塊,模塊去除初始網頁多余的圖片、HTML 標簽、網頁格式符號后,將其轉換為純文本,方便用于獲取用戶身份信息及其上下文語境。

根據第2.1 節所提出的基于規則的用戶身份信息識別技術,構建相應的自動化規則匹配模塊。基于制定的14 種用戶身份信息匹配規則,模塊依次對每一個純文本網頁執行匹配程序,得到用戶身份信息集合。

最后,針對匹配模塊得到的用戶身份信息集合,語料生成模塊對屬于同一網頁的用戶身份信息對,即可能屬于同一用戶的實體對,生成共指關系抽取語料。模塊以實體為中心,截取3 個短句作為其上下文語境,列舉同一網頁所有用戶信息實體,選擇任意一個實體ei,將它與同網頁另一個實體ej組合,拼接ei和ej對應的上下文得到句子S,S是本文共指關系抽取模型的輸入。對所有網頁執行以上操作,最終獲得21 531 個實體。在所生成的Duad 數據集中,通過某些種類的用戶信息難以獲取大量訓練樣本,例如電話號碼、門羅幣等,Duad 將其歸類為其他類別,所有實體類別及其數量如表2 所示。

3.2 基于共指關系抽取的用戶身份信息聚合模型性能

本文參考關系抽取領域,使用F1 值作為模型性能的評估指標。F1 值由模型的正確率和召回率決定:正確率也稱為查準率,是指所有樣本中正確預測為真的樣本數量占全部預測為真的樣本數量的比例;召回率也稱為查全率,是指所有樣本中正確預測為真的樣本數量占全部實際為真的樣本數量的比例;F1 值是準確率和召回率的加權平均值。準確率、召回率和F1 值的計算公式如式(12)~式(14)所示:

其 中:PPrecision表示正確率;RRecall表示召回率;F1表示F1 值;TP表示模型預測為真、真實情況也為真的樣本數量;TN表示模型預測為真、真實情況為假的樣本數量;FP表示模型預測為假、真實情況為真的樣本數量;FN表示模型預測為假、真實情況也為假的樣本數量。F1 值越高,表明模型的性能越好。

為了證明本文所提出的ConRE、ConREtype和ConREtype_description模型能更有效地應對暗網網頁用戶身份信息聚合這一新的應用場景,本文選擇了多種當前流行的關系抽取方法作為對比方法,包括基于卷積神經網絡的模型(CNN)、按排名執行分類的卷積神經網絡(CR-CNN)[32]、帶注意力機制的雙向長短時記憶網絡(Att-BiLSTM)。同時,本文也對比了當前先進的關系抽取模型,包括基于雙向Transformer 的預訓練模型LUKE、將關系抽取轉換為文本蘊含任務的NLI-Roberta模型等在數據集Duad上的性能差異。

筆者認為,用戶身份信息的類別對共指關系的識別有一定的指示作用。首先,根據對數據集Duad 的統計顯示,相同類別的信息對之間共指的比例僅為12%,遠遠低于不同類別的信息對;其次,某些類別的信息共指的概率更高,如實體對中存在一個郵箱類別的信息則共指概率更高。ConREtype引入實體類別名稱,ConREtype_description引入實體類別描述,它們從這些信息中獲得類別語義,進而優化共指關系的識別。實體類別信息的引入過程如下,其中,斜體表示用戶身份信息實體,加粗表示引入的信息。

表3 列出了各模型在訓練樣本數量分別占總數據量10%、5%、2.5%和1.25%時的F1 值,其中,訓練集占比=(參與訓練集的樣本數量/總樣本數量)×100%,下標“type”表示引入用戶身份信息類別編號信息的模型,下標“type_description”表示引入用戶身份信息類別描述信息的模型。可以看出,當訓練樣本數量占數據集總量10%時,CR-CNN、Att-BiLSTM、LUKE 模型均能獲得較好的性能。然而,隨著訓練樣本數量的迅速減少,這些方法F1 值迅速下降。當訓練樣本占比從10% 降到1.25% 時,LUKE模型的F1 值下降約25 個百分點,由此可見,越復雜的模型對于訓練數據量越敏感。ConREtype_description模型在不同訓練集中均獲得了最佳性能,該結果證明,用戶身份信息類別的引入能有效提高用戶信息聚合模型在訓練樣本數量減少時的性能。

表3 各模型在不同訓練集占比情況下的F1 值Table 3 F1 value of each model under different training set proportions %

圖3 為本文工作的一個具體實例,其中展示了一個暗網的毒品銷售網頁,網頁中出現了4 個用戶身份標識信息:1)比特幣錢包地址“17gLLy NaEsaHuZ9r8XEfbs7kedVexrzasa”;2)比特幣錢包地址“3Q2Pt9dD1AVD5Mzr78jUjXZ48CrafWH8Wv”;3)郵箱地址“Email-example@Email.com”;4)Telegram平臺群組鏈接“https://tg.me/buydrugs”。

根據手工語義分析可知,第1、2 條信息來自于2 位用戶在該網頁的留言,第3、4 條信息屬于網頁負責人的聯系方式。通過第1、2 條信息所組成的實體對得到的訓練樣本如圖4 所示(彩色效果見《計算機工程》官網HTML 版)。由于2 條信息實體在網頁文本中的實際距離較近,樣本中截取的上下文語境有重疊部分,而語境的重疊也是判斷實體對是否共指的特征之一,在沒有使用信息實體類別特征時,ConRE 模型認為該信息實體對共指,加入實體類別信息后,ConREtype和ConREtype_description模型能學習到相同類別的實體之間共指概率較低,得出該實體對非共指的正確結果。

圖4 訓練樣本示例Fig.4 An example of training sample

3.3 低資源條件下的用戶聚合方法

暗網網頁中通過某些種類的用戶身份信息難以獲取大量訓練樣本,為提高模型在低資源條件下的魯棒性,以作為ConRE 基線模型,分別引入用戶身份信息類別、用戶身份信息類別描述以及度量學習任務進行優化。在訓練集占比為1.25%的條件下,評估優化后模型的性能。如表4 所示,其中,針對基礎模型ConRE,ConREtype添加用戶身份信息類別名稱作為輔助信息,ConREtype_description添加用戶身份信息類別描述信息作為輔助信息,ConREmul是引入度量學習任務后的多任務關系抽取模型。同時,列出對模型ConREmul添加了用戶身份信息類別名稱和用戶身份信息類別描述后的結果,分別由ConREmul+type和ConREmul+type_description表示。可以看出,本文引入的輔助信息和輔助任務均在一定程度上提升了模型的性能,其中,ConREmul+type獲得了最佳F1 值,為87.03%,相較于基線模型ConRE 提高了11.98 個百分點。

表4 各模型在Duad 數據集上的性能Table 4 Performance of each model on Duad dataset %

4 結束語

本文針對同一個暗網網頁中的多個用戶身份信息,提出一種基于規則的用戶信息識別技術,用于自動抽取網頁中的用戶身份信息。在此基礎上,根據從暗網中獲取的用戶身份信息,提出基于共指關系抽取技術來解決同一用戶多個身份信息的聚合問題。最后,提出在低資源條件下的用戶身份信息聚合方法,解決暗網場景下聚合模型依賴訓練樣本數量的問題。目前,本文所提出的用戶身份信息識別技術僅支持解決封閉域的問題,在暗網用戶身份信息聚合的場景下,需要手工定制用戶身份信息的類別,并根據每一種類別生成抽取規則。后續將重點研究開放域下的用戶身份信息識別技術,進一步提高識別準確率。

猜你喜歡
用戶信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产成人夜色91| 国产精品亚欧美一区二区| 亚洲有无码中文网| 中文成人无码国产亚洲| 色婷婷成人网| 色亚洲成人| 国产三级国产精品国产普男人| 欧美国产中文| 国产尤物在线播放| 一本色道久久88综合日韩精品| 五月激情婷婷综合| 欧美日韩亚洲综合在线观看 | 国产美女精品一区二区| 精品久久久久无码| 久久婷婷人人澡人人爱91| 在线欧美日韩国产| 国产亚洲视频播放9000| 一本视频精品中文字幕| 香蕉色综合| 青青久视频| 午夜免费小视频| 宅男噜噜噜66国产在线观看| 欧美亚洲第一页| 亚洲国产欧美目韩成人综合| 亚洲a级在线观看| 亚洲成人动漫在线观看| 91黄视频在线观看| 国产精品自拍露脸视频| 亚洲妓女综合网995久久| 国产丝袜丝视频在线观看| 亚洲人成网18禁| 久久国产精品影院| 国产毛片基地| 99精品免费欧美成人小视频| 国产精品丝袜在线| 国产探花在线视频| 天天做天天爱夜夜爽毛片毛片| 国产内射在线观看| 国产呦精品一区二区三区下载| 久草视频一区| 波多野结衣中文字幕一区二区| 精品小视频在线观看| a毛片在线| 青青草国产精品久久久久| 免费人成又黄又爽的视频网站| 5555国产在线观看| 人人看人人鲁狠狠高清| 日韩欧美中文字幕在线精品| 五月婷婷导航| 亚洲欧洲日韩综合色天使| 97狠狠操| 日韩在线欧美在线| 欧美激情伊人| 国产91蝌蚪窝| 国产在线一二三区| 国产成人亚洲日韩欧美电影| 欧美黄网站免费观看| 天天综合亚洲| 真实国产精品vr专区| 91口爆吞精国产对白第三集| 国产欧美精品专区一区二区| 毛片一区二区在线看| 精品少妇人妻一区二区| 狠狠v日韩v欧美v| 亚洲九九视频| 91美女视频在线| 19国产精品麻豆免费观看| 国产精品刺激对白在线| 久久精品亚洲中文字幕乱码| 中文字幕亚洲乱码熟女1区2区| 欧美一区日韩一区中文字幕页| 亚洲精品国偷自产在线91正片| 污污网站在线观看| 国产大片黄在线观看| 国产一级片网址| 国产成人精品一区二区不卡| 欧美在线天堂| 国产人人射| 人妻91无码色偷偷色噜噜噜| 欧美日韩一区二区在线播放| 97影院午夜在线观看视频| 国产精品制服|