999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于信息DNA的互聯網信息內容傳播及演化追溯方法

2022-12-08 07:46:22李攀攀謝正霞王贈凱靳銳
電信科學 2022年11期
關鍵詞:信息方法

李攀攀,謝正霞,王贈凱,靳銳

一種基于信息DNA的互聯網信息內容傳播及演化追溯方法

李攀攀1,謝正霞1,王贈凱1,靳銳2

(1.嘉興學院,浙江 嘉興 314001;2.哈爾濱工業大學,黑龍江 哈爾濱 150001)

針對如何解決互聯網上信息內容傳播及演化過程追溯的問題,提出了一種基于信息DNA的互聯網信息傳播及演化追溯方法。首先,根據領域知識對互聯網信息內容進行語義抽取,形成信息內容關鍵特征集;然后,使用信息內容關鍵特征集,提出基于局部敏感哈希的信息DNA構建方法;最后,通過公開數據集驗證了所提方法的可用性及有效性。以信息DNA為核心標識符解決了互聯網同源信息傳播及演化過程可追溯的問題,對研究互聯網信息內容傳播、演化追溯及網絡輿情事件的治理與引導等有重要的現實意義。

信息DNA;信息演化;信息傳播;計算傳播學

0 引言

以互聯網為代表的信息技術改變了信息的傳播模式,相較于傳統媒體,信息傳播渠道呈現開放性和虛擬化的典型特點。信息在互聯網中的傳播速度更快、影響范圍更廣,傳播渠道也更加多樣[1-2]。但是,在開放的互聯網中,網絡謠言傳播、數字知識產權剽竊、信息的不當引用等問題導致虛假和不實信息的蔓延和泛濫[3],給互聯網上信息內容的監管帶來嚴峻挑戰,因此,研究面向信息內容的傳播及演化溯源具有重要的現實意義[4]。

在互聯網信息傳播溯源的研究領域中,傳統方法主要使用信息發布時間、發布地址、引用(轉載或轉述)時間等關鍵特征構建信息傳播鏈,但是,這種方式通常忽略對信息內容的理解,導致對信息內容的不當引用或剽竊難以被溯源[5]。開放的互聯網中,信息的傳播往往不是獨立的個體行為[6],傳播環境的開放性、復雜性,特別是信息傳播過程中受其他相關信息(如融合、引用、評述等因素)的影響,都給信息內容的傳播及演化過程追溯帶來困難[7]。總的來說,在開放的互聯網中研究信息的傳播和演化過程的追溯面臨如下3個方面的挑戰。

? 互聯網上信息的傳播渠道多樣,信息在復雜多樣的傳播渠道流轉過程中,元數據變化或信息內容發生演化使得同源信息的追溯變得困難。

? 信息在融合傳播過程中不僅受多個前置信息內容的影響,還受與這些前置信息之間傳播渠道多樣性的影響,這都給信息傳播及演化過程追溯帶來挑戰。

? 信息在傳播過程中發生“變異”后,傳統使用串匹配、距離向量法等同源信息相似度檢測方法精確率低,難以適用。

為解決上述問題,本文提出了信息DNA的概念,作為信息內容的標識符,信息DNA是識別信息傳播及其演化過程的可辨識標識,主要采用關鍵信息特征抽取以及局部敏感哈希算法的思路構建描述信息內容特征的信息DNA,使用信息DNA有效地解決在開放互聯網中的信息內容傳播和演化追溯問題,實現了信息在開放互聯網上傳播過程中內容的可追溯。本文的主要貢獻有如下3個方面。

? 提出了面向互聯網信息內容DNA的概念,將其作為信息傳播及其演化追溯的標識符。

? 提出了信息在互聯網傳播過程中面向內容的可追溯方法,實現了對信息直接傳播和間接傳播的可追溯性。

? 提出了互聯網上信息變異傳播可追溯的方法,能追溯同源信息的傳播路徑及其內容的演化,并能在一定程度上容忍信息傳播過程中內容的變異。

網絡空間作為陸、海、空、天之外的第五空間,泛在網絡空間打破了信息傳播的時空束縛,信息的傳播內容、傳播范圍、傳播方式、傳播載體、傳播時效、傳播效果及傳播渠道等均呈現新的特點,研究互聯網上信息內容的傳播是對其進行風險管控及延伸控制的主要手段之一,具有重要的現實意義,期望本文方法能為在開放互聯網中研究信息的傳播及演化追溯提供一定的參考和借鑒。

1 面向信息DNA的多維特征抽取方法

1.1 互聯網信息傳播模型

理論上,互聯網中信息之間的引用、轉述、評論、轉發等均會產生傳播影響力,信息的傳播模式主要有直接傳播和間接傳播兩種方式[8],互聯網上信息的傳播模型如圖1所示。

圖1 互聯網上信息的傳播模型

在圖1中,信息實體A到信息實體D的傳播是直接傳播,信息實體A到信息實體G的傳播是間接傳播。

信息傳播模型用=(,)表示,其中,表示信息的集合,×表示邊的集合,v∈表示信息實體,e∈表示信息實體v與信息實體v之間的關系,信息在互聯網上的傳播以e為表現形式。

信息變異是指信息實體v通過e影響信息實體v時,信息實體v受傳播渠道或傳播形式的影響出現損失或附加的情況,這種影響因素包括信息因素、人為因素或網絡環境因素。

信息變異率指v通過e影響到v的信息傳播過程中,v信息的內容、意義或形式發生變化的程度。

隨著信息技術向生產生活領域的全面滲透,特別是移動互聯網及移動社交媒體的普及,受眾獲取及傳播渠道的多元化和碎片化,信息在互聯網傳播過程中更容易發生變異,如信息形式或內容上的變化,或未保留全部原信息實體的內容,如新聞的部分轉載。

1.2 信息DNA元素多維特征抽取與平行擴展

信息DNA的定義:信息DNA是指互聯網上所傳播信息內容的標識,是衡量信息傳播及演化過程中是否為同源信息的標識符。

設信息實體的特征集記作,其內容記作c、元數據集記作m,顯然,信息特征集由其內容和元數據兩部分組成,其中內容是指信息要傳遞的內容,元數據是標識信息本身的屬性,如信息長度、信息產生者、信息發布時間等。因此,則有=m∪c,那么構建信息DNA是從其特征集中抽取關鍵特征變量,處理后使其成為信息傳播及演化過程的標志。那么,提取信息特征集也即轉化成如何使用語料庫描述信息內容及其元數據,但是,傳統以“詞”為最小單位構建語料庫的方法中,很多高頻詞(如虛詞)對信息內容沒有實際意義,且需要較高維度的張量才能完整表達出信息實體特征集的內容,這將導致嚴重的維度災難[9],繼而給信息傳播路徑識別與追溯帶來技術上的挑戰。

為了解決維度災難的問題,本文采用詞頻—逆向文檔頻率(term frequency-inverse document frequency,TF-IDF)方法,該方法注重衡量每個“特征詞”對信息內容的貢獻程度[10]。通過對信息實體中詞語出現的次數進行“全局”歸一化處理后,再使用TF-IDF方法能有效地避免維度災難[11]。信息實體特征集多維特征的抽取過程如 式(1)所示。

根據前文所述,信息DNA具備對信息實體內容理解及形式變異后的追蹤和識別能力,因此,信息DNA從信息中抽取的多維特征關鍵詞集包含兩個方面。

(1)信息元數據的標識符,是信息實體全體屬性的集合。

(2)對信息內容的理解,即采用自然語言理解技術對信息的內容進行分析處理。

因此,面向信息DNA的多維特征抽取過程示意圖如圖2所示。

圖2 面向信息DNA的多維特征抽取過程示意圖

從圖2可以看出,經過特征抽取之后,由于剔除了對信息特征無貢獻的特征,||<<。信息DNA具備了信息變異后的理解能力,這為追溯信息演化及變異傳播提供了基礎依據。

但是,由于信息在互聯網上傳播過程的不確定性,如元數據的缺失、表示方法或格式不一等,單純抽取的信息多維特征關鍵詞集僅僅是對當前信息實體的描述。信息在傳播過程中可能發生變化,如時間元數據可能由“2021年1月3日”變成“2021/1/3”,地理元數據可能由“上海”變成“中國上海”或“滬”等。為解決上述問題,需要對′進行規則化,即數據抽取轉換和加載(extract-transform-load,ETL),針對特定的信息實體通過一系列規則模型將′進行規格化處理并將其更新,信息ETL的更新過程如式(2)所示。

=(, RULE) (2)

其中,RULE為規則化集,由領域專家確定。

開放互聯網實現了信息跨地域、跨語種的傳播、交流與共享,如不同語種新聞之間的轉載評論、學術論文的跨語種引用等。為了提升本文方法的適用性,基于信息DNA的溯源方法應支持信息實體的跨語種傳播。因此,需使用多語言模型庫對規則化的進行多語言系統擴展,本文使用平行語料庫對信息多維特征關鍵詞集進行平行擴充,這就實現了對信息內容的平行語料信息增強,面向信息內容的平行語料信息增強示意圖如圖3所示。

圖3 面向信息內容的平行語料信息增強示意圖

在圖3中,平行語料庫采用支持多語種語言的平行語料庫,將多維關鍵特征集′擴充到平行語料增強特征集D,實現從詞、語句乃至篇章級語料中自動抽取平行語句對的功能[12-13]。在平行語料的選擇上,采用余弦相似度計算′與文本語料庫的相似性,余弦相似度通過兩個向量之間夾角的余弦值評估語料之間的相似度,兩個向量的夾角越小,余弦值越接近于1,語料相似度也就越高[14]。另一方面,為了解決′與向量長度不一致的問題,采用傳統的向量填充法[15],使得經過填充后的或長度相同,填充的長度為?,那么相似度計算方法如式(3)所示。

2 基于信息DNA的信息內容傳播追溯方法

信息在互聯網傳播的過程中,信息實體元數據及其內容的變化具有隨機性和不確定性,因此,信息DNA要能容忍并追溯信息傳播的變化,本文引入了局部敏感哈希的方法,構建信息內容傳播及演化過程中的“遺傳物質”,即信息DNA。

2.1 信息傳播“遺傳物質”與局部敏感哈希算法

構建信息DNA的思路是,使用信息的平行語料增強關鍵詞集D構建出描述信息內容的唯一標志,信息DNA要能容忍信息實體的元數據及其內容在一定范圍內的變異,是追溯互聯網上信息傳播的線索。傳統的哈希算法不具備這種“容忍”信息內容或形式變化的能力,信息元數據或內容在形式上的任何微小變化都會導致其哈希值的巨大變化[16-17]。因此,無法將信息元數據或內容的哈希值作為其傳播過程中的“遺傳物質”用于追溯傳播及演化路徑。

為了應對上述問題,本文引入局部敏感哈希(locality sensitive hashing,LSH)方法,LSH方法常用于近似最近鄰查詢,不僅在高維空間中有優異的性能表現,而且在克服維度災難的同時,還能保持可接受的時間和空間復雜度,在圖形圖像、音視頻、海量文本等領域的相似性查詢算法中有廣泛的應用[18]。根據LSH方法的思想,在原空間中很近(相似)的兩個點,經過LSH方法中哈希函數的映射后,哈希值有很大的概率是相同的,而兩個距離很遠的點(相似性弱)映射后,哈希值相等的概率很小,即LSH方法的哈希函數lsh滿足如下性質。

對于在lsh高維空間的任意兩點和,則滿足:

(1)如果(,)≤,則(()=())≥1;

(2)如果(,)≥,則(()=())≤2。

其中,>1,1>2

基于LSH方法的數據距離與沖突概率示意圖如圖4所示。

圖4 基于LSH方法的數據距離與沖突概率示意圖

通過上述對LSH方法的分析,根據一定的策略或方法從信息實體中選擇適當的參數,再采用LSH方法構建信息內容傳播的“遺傳物質”,能在一定程度范圍內容忍信息元數據或內容的變化。信息實體A和信息實體B的信息DNA分別表示為DNAA和DNAB,在信息A向信息B的傳播過程中,當相似度發生變化時,(DNAA, DNAB) <,則(DNAA)等于(DNAA)的概率大于1,這樣可以將1作為判斷同源信息的閾值。

2.2 信息實體語義抽取

根據前文討論,信息DNA要同時具備追溯信息傳播過程中元數據和及其內容雙重變化的能力,因此,信息DNA還要包含信息實體的語義,需要提取信息實體的語義信息。

信息實體語義的理解通常有分布式語義表示、模型論語義表示和框架語義表示3種基本方法[19-20],前兩種方法通常將信息實體的詞或句子用高維向量表示,這導致在技術上信息特征集提取變得困難,特別是互聯網上信息傳播的碎片化,使得上述前兩種方法難以適用于碎片化的互聯網信息實體語義理解。由于采用分層的思路,框架語義方法對信息實體的語義碎片化有較強的表示能力,因此,本文使用框架語義表示方法分析信息實體的語義,把整個信息實體分成3個層次:信息領域(domain)、信息意圖(intent)和語義槽(slot),其中,信息領域指信息所處的上下文環境,信息意圖指信息實體隱式表達的潛在內容,語義槽指使用預定義關鍵詞集合增強信息語法的擴展能力。針對信息實體的具體領域,可由領域專家將信息實體劃分成其他表示形式,通過框架語義表示方法抽取信息實體的語義信息用表示。

2.3 基于LSH的信息DNA構建方法

設信息實體= {d}(∈||),信息實體經過LSH方法計算后得到其對應的信息DNA,信息實體的DNA信息DNA定義為式(4)。

DNA:= {ID,ID,DDNA} (4)

其中,ID表示信息實體的標識符,ID表示信息ID的語義信息,DDNA表示信息集中每個信息的信息DNA。根據前文信息DNA的定義,信息DNA是信息內容演化傳播過程中的“遺傳物質”,是研究信息傳播路徑及其內容演化規律的重要指標,因此信息DNA構建的流程及其所選取的參數至關重要。信息DNA必須具有信息元數據及其內容的強關聯性,這是評估信息內容傳播的基礎,顯然這與信息元數據及其內容的表達形式弱關聯,基于LSH方法的信息DNA計算流程如圖5所示。

圖5 基于LSH方法的信息DNA計算流

此外,為了加深對信息內容的理解,在采用框架語義表示各信息實體D之后,再分析出所屬領域,用于領域專家給出信息意圖和語義槽,這就在語義層面實現了對D的擴充,之后再使用LSH方法計算出每個信息實體的信息DNA,具體來講,信息DNA的構建算法如下。

算法1 信息DNA構建算法

輸入:信息實體、ID標志ID及其內容c和元數據集m,文本語料庫,′=NULL,平行語料庫,相識度判斷閾值;

輸出:信息DNA{ID、DNA};

使用LSH方法計算D,得到信息實體的DNA信息DNA;

return {ID、DNA}

綜合前文所述本文采用LSH方法構建信息DNA,能有效地解決信息在互聯網傳播過程中元數據缺失、差異化表述、內容剽竊、不恰當引用等情況下的追溯問題。

2.4 基于信息DNA的信息傳播鏈構建及溯源方法

此外,除構建信息DNA外,構建信息DNA“遺傳物質”的傳播鏈,用于信息傳播內容及演化追溯,需要兩個主要階段,即建立信息DNA傳播鏈階段、信息DNA驗證階段。

(1)建立信息DNA傳播鏈階段

步驟1 提取信息實體的平行語料增強關鍵詞集D

步驟2 使用LSH方法計算信息實體的平行語料增強關鍵詞集,對D中每個關鍵詞進行投影映射,并將映射的桶號作為該信息實體對象的編號來建立哈希索引表,并將哈希索引表向量存儲到對應的哈希桶中。

(2)信息DNA驗證階段

在信息內容傳播及演化追溯研究領域,傳統方法采用信息內容相似性分析與度量為主要手段,本文使用的信息DNA突破了這種相對“剛硬”的思路。通過引入LSH方法,本文有效地解決了信息在互聯網傳播過程中各種不確定性的問題,并能支持信息內容的傳播演化追溯。對于信息實體A和B,若存在AB,那么同源信息的判斷方法如下。

? 若(DNA,DNA)≤DNA,則可判斷信息實體AB為同源信息,即信息實體B受信息實體A的影響。

? 若(DNA,DNA)DNA,則可判斷信息實體AB不是同源信息,即信息實體B不受信息實體A的影響。

其中,DNA為同源信息的判斷閾值,其具體值由領域專家根據不同的應用環境、應用場合等綜合分析后指定。

3 信息傳播及演化過程中可追溯性理論證明

信息在互聯網傳播過程中,其內容被轉述、轉載等,信息傳播主要面臨如下3個風險。

(1)信息元數據丟失或形式發生變化。

(2)內容被不當引用、評述或轉載乃至歪曲。

(3)信息雜交融合傳播后引起的追溯困難。

下面從理論上證明信息DNA用于信息傳播及演化過程中可追溯的有效性。

(1)對于同源信息在傳播過程中形式的變化,如元數據形式的變化(丟失、格式變化等)以及信息內容的變化,如何驗證信息實體A和信息實體B為同源信息?

證明1:信息實體A到信息實體B的變異傳播過程中,在信息元數據或內容變化后,因為有平行語料庫的作用,信息實體B在信息實體A基礎上進行擴充,會使得||<||,根據LSH方法的性質,可判定(DNA,DNA)

(2)信息傳播過程中,若信息實體A被信息實體B全文轉載或引用,通過本文方法可分析出信息實體B受信息實體A的影響。

證明2:根據前文描述,信息實體A的擴展集真包含于信息實體B的擴展集,即DNA?DNA,根據LSH方法的性質,則有(DNA,DNA) = 0,根據同源信息遺傳物質驗證方法,可判斷A和B為同源信息,證畢。

(3)對于信息雜交變異后傳播的可追溯問題,設信息實體A和信息實體B相融合后共同影響信息實體C,通過本文方法可通過信息實體C的信息DNA判斷其受信息實體A或信息實體B的影響

證明3:顯然由證明2,可以確定信息實體C受影響于信息實體A,則有(DNA,DNA)

因此,通過上述證明,從理論上驗證了本文方法具有追溯互聯網中信息內容傳播及演化的能力。

4 實驗分析

下面進一步采用公開數據集及仿真實驗驗證本文方法的有效性和可用性。

4.1 實驗數據

使用MATLAB仿真本文方法,實驗數據采用來自互聯網的公開數據集SogouT互聯網信息語料庫[21],其包含互聯網原始網頁、引用和評論等,信息實體A、B和C隨機選自SogouT的網頁信息,平行語料庫使用聯合國平行語料庫[22],同源信息的判斷閾值DNA=0.6。

4.2 信息直接演化傳播的可追溯性

網絡環境的開放性及傳播路徑的復雜性導致信息在網絡上的變異傳播,首先驗證信息傳播過程中不同變異程度下的可追溯性,選取100組信息A影響信息B的傳播過程,其中,|A|≥300,|B|≤400,0<≤100,為了更加體現實驗結果的有效性,將本文方法與使用關鍵詞方法對信息傳播內容追溯準確性進行對比分析,關鍵詞方法即通過傳統的對信息傳播過程中信息主體和受影響信息客體的關鍵詞做余弦相似度分析,本實驗中關鍵詞余弦相似度=0.6。

在信息A到信息B的傳播過程中,信息的元數據和內容上的變異范圍為10%~70%的情況下,量化評估本文方法及關鍵詞法的可追溯性,即通過信息實體B的DNA信息分析出其受信息實體A影響的概率,信息直接演化傳播過程中追溯的準確性如圖6所示。

圖6 信息直接演化傳播過程中追溯的準確性

從圖6可以看出,隨著信息變異程度的增大,本文方法追溯的準確性逐漸降低,但是當變異程度增大到一定程度時,追溯的準確性保持在相對穩定的區間,這驗證了本文方法的可用性。較比關鍵詞方法,本文方法對信息內容可追溯性識別率更高,主要原因是本文方法使用了同義詞語料庫和平行語料庫對信息實體的特征集進行了擴充,使得本文方法能夠在一定程度上容忍信息內容的變異化傳播。另外,還可以看出,相較于信息內容變異傳播,本文方法對元數據變異傳播的容忍程度更大,主要是元數據變異后對其進行同義詞擴充相對容易,擴充的程度更加全面,這也驗證了使用平行語料增強關鍵詞集能提升對原始信息實體內容的表達能力。

下面進一步分析本文方法追溯的誤報率,即假陽性和假陰性,其中假陽性指當信息實體A未影響信息B時,而本文方法推斷出信息實體B受信息實體A影響的概率,假陰性則指當信息實體A影響信息實體B時,而本文方法未能推斷出信息實體B受信息實體A影響的概率,在元數據和內容傳播過程中不同變異程度的情況下,信息直接演化傳播過程中追溯的誤報率如圖7所示。

圖7 信息直接演化傳播過程中追溯的誤報率

從圖7中可以看出,本文方法的誤報率與信息的變異程度密切相關,隨著變異程度的增大,誤報率呈現上升的趨勢,同時也可以看出,相較于元數據的變異,內容變異所帶來的誤報率更高,這與圖6的結論相吻合,驗證了本文方法對信息傳播中內容變異的追溯能力稍遜于對元數據變異的追溯能力。

4.3 信息間接演化傳播的可追溯性

進一步地,通過實驗分析間接傳播內容的可追溯性,即對傳播鏈上信息實體A,經過信息實體B影響信息實體C,其中||=530,即信息實體C的個數為530,驗證本文方法檢測到信息實體C受影響于信息實體A的概率,為了充分驗證本文方法的有效性,在信息實體A到信息實體B的傳播過程中分別有10%、30%和50%的信息變異情況下,信息B到信息C傳播變異為10%~70%的情況下,通過信息實體C的信息DNA分析出其受信息實體A影響的概率,信息間接演化傳播過程中追溯的準確性如圖8所示。

信息在傳播鏈上的變異程度,直接影響著信息追溯的準確性,對比圖7中的實驗結果,驗證了本文方法的有效性,但是隨著信息變異程度的增加,追溯準確性受到一定程度的挑戰,主要由于實驗中采用了相對單薄的同義詞語料擴展庫,影響了對信息內容的擴展,繼而給信息內容變異傳播的分析帶來消極影響。在實際環境中,隨著同義詞預料庫的豐富,本文方法在信息間接傳播的追溯準確性上會隨之提升。通過對圖8進一步分析還可以發現,在不同變異傳播的情況下,本文方法的追溯準確性高于關鍵詞法,其原因也與圖7的分析結論類似。

圖8 信息間接演化傳播過程中追溯的準確性

下面進一步分析在不同信息變異程度下間接傳播過程中追溯的誤報率,信息間接演化傳播追溯的誤報率如圖9所示。

圖9 信息間接演化傳播追溯的誤報率

從圖9中可以看出,在元數據變異和內容變異范圍內,誤報率均在可接受的范圍內。進一步地,結合圖7和圖9,可以看出本文方法對直接演化傳播和間接演化傳播在一定變異范圍內追溯的有效性。

4.4 信息融合傳播的可追溯性

相較于信息在某一傳播鏈上的影響,信息融合后對受影響信息的追溯性判斷更具有挑戰性。假設信息實體A和信息實體B相融合后共同影響信息實體C,驗證信息實體C與信息實體A和信息實體B均為同源信息,其中,融合率指信息實體A和信息實體B分別到信息實體C傳播變異率(或變異程度)的最小值。在實驗過程中,信息實體A和信息實體B融合率分別為10%、30%、50%以及融合后信息在對信息實體C的傳播過程中變異程度為10%~70%的情況下,對信息融合傳播過程中進行可追溯性分析,即通過信息DNA檢測出信息實體C受信息實體A和信息實體B共同影響的概率,信息融合演化傳播過程中追溯的準確性如圖10所示。

圖10 信息融合演化傳播過程中追溯的準確性

信息融合傳播受限于前序信息實體對后續信息的影響程度,進一步地,從圖10可以看出,本文方法在低變異融合傳播過程中,能以較大概率識別得到同源信息。與前文類似,同源信息識別的精度與信息傳播過程的變異程度相關,識別的精度隨著變異程度的增大而降低,但當變異程度大于30%后,識別精度的下降趨勢變得相對平緩,這樣驗證了當信息變異足夠大時,本文方法仍能以一定的概率驗證同源信息。與圖6和圖8的實驗結果類似,在不同的融合率傳播情況下,本文方法比關鍵詞法的追溯精度要高,其原因也與圖6的分析類似。

下面進一步分析信息融合傳播過程下追溯的誤報率,信息融合演化傳播過程中追溯的誤報率如圖11所示。

圖11 信息融合演化傳播過程中追溯的誤報率

從圖11中可以看出,信息融合傳播情況下追溯的誤報率保持在10%~35%。需要指出的是,隨著變異程度的增加,誤報率也始終保持了相對緩和增長的趨勢,這也驗證了本文方法在信息融合傳播環境下的可用性。進一步地,結合圖7、圖9和圖11可以看出,各種信息傳播模式下,本文方法均能在一定范圍內實現信息內容傳播的可追溯性,即驗證了本文方法的可用性和有效性。

5 結束語

當前,互聯網以其開放性、時效性、共享性等特點改變了信息知曉、交流與共享的模式,網絡空間承載了海量的信息,研究互聯網上信息內容傳播及演化過程的可追溯性在網絡輿情治理、數字內容版權管理等領域具有重要的現實意義。針對互聯網上信息內容的傳播及演化過程,本文提出了信息DNA的概念,在對信息內容多維特征抽取和語料平行擴展的基礎上,引入了基于LSH的信息DNA構建方法,解決了互聯網上信息內容傳播及其演化過程可追溯的重要問題。期待本文的研究思路為本領域的研究人員提供一定的參考,共同促進本領域的發展。

[1] 曹玖新, 高慶清, 夏蓉清, 等. 社交網絡信息傳播預測與特定信息抑制[J]. 計算機研究與發展, 2021, 58(7): 1490-1503.

CAO J X, GAO Q Q, XIA R Q, et al. Information propagation prediction and specific information suppression in social networks[J]. Journal of Computer Research and Development, 2021, 58(7): 1490-1503.

[2] 李晉, 楊子龍. 微博轉發網絡中的節點特征和傳播模型[J]. 電信科學, 2016, 32(1): 40-45.

LI J, YANG Z L. Node characteristic and propagation model in microblog forwarding network[J]. Telecommunications Science, 2016, 32(1): 40-45.

[3] 徐銘達, 張子柯, 許小可. 基于模體度的社交網絡虛假信息傳播機制研究[J]. 計算機研究與發展, 2021, 58(7): 1425-1435.

XU M D, ZHANG Z K, XU X K. Research on spreading mechanism of false information in social networks by motif degree[J]. Journal of Computer Research and Development, 2021, 58(7): 1425-1435.

[4] 劉小洋, 何道兵. 基于突發公共事件的信息傳播動力學模型與輿情演化研究[J]. 計算機科學, 2019, 46(5): 320-326.

LIU X Y, HE D B. Study on information propagation dynamics model and opinion evolution based on public emergencies[J]. Computer Science, 2019, 46(5): 320-326.

[5] 曹峰, 張真繼, 關曉蘭. 基于系統動力學的網絡輿情驅動力模型研究[J]. 電信科學, 2020, 36(12): 49-58.

CAO F, ZHANG Z J, GUAN X L. Research on the driving force model of Internet public opinion based on system dynamics[J]. Telecommunications Science, 2020, 36(12): 49-58.

[6] ZHANG H J, DONG Y C, XIAO J, et al. Consensus and opinion evolution-based failure mode and effect analysis approach for reliability management in social network and uncertainty contexts[J]. Reliability Engineering & System Safety, 2021(208): 107425.

[7] FANI H, JIANG E, BAGHERI E, et al. User community detection via embedding of social network structure and temporal content[J]. Information Processing & Management, 2020, 57(2): 102056.

[8] 李攀攀, 謝正霞, 王贈凱, 等. 開放互聯網環境基于信息熵的信息傳播影響力計算方法[J]. 電信科學, 2022, 38(4): 90-100.

LI P P, XIE Z X, WANG Z K, et al. Calculation method of information dissemination based on information entropy in public Internet[J]. Telecommunications Science, 2022, 38(4): 90-100.

[9] 王乃鈺, 葉育鑫, 劉露, 等. 基于深度學習的語言模型研究進展[J]. 軟件學報, 2021, 32(4): 1082-1115.

WANG N Y, YE Y X, LIU L, et al. Language models based on deep learning: a review[J]. Journal of Software, 2021, 32(4): 1082-1115.

[10] 丁曉陽, 王蘭成. 網絡論壇文本特征詞權重計算優化方法研究[J]. 情報理論與實踐, 2021, 44(5): 187-192.

DING X Y, WANG L C. Research on optimized calculation method for weight of terms in BBS text[J]. Information Studies: Theory & Application, 2021, 44(5): 187-192.

[11] 孟青, 劉波, 張恒遠, 等. 在線社交網絡中群體影響力的建模與分析[J]. 計算機學報, 2021, 44(6): 1064-1079.

MENG Q, LIU B, ZHANG H Y, et al. Multi-relational group influence modeling and analysis in online social networks[J]. Chinese Journal of Computers, 2021, 44(6): 1064-1079.

[12] 賈承勛, 賴華, 余正濤, 等. 融合單語語言模型的漢越偽平行語料生成[J]. 計算機應用, 2021, 41(6): 1652-1658.

JIA C X, LAI H, YU Z T, et al. Chinese-Vietnamese pseudo-parallel corpus generation based on monolingual language model[J]. Journal of Computer Applications, 2021, 41(6): 1652-1658.

[13] 黃水清, 王東波. 國內語料庫研究綜述[J]. 信息資源管理學報, 2021, 11(3): 4-17, 87.

HUANG S Q, WANG D B. Review of corpus research in China[J]. Journal of Information Resources Management, 2021, 11(3): 4-17, 87.

[14] BA?óN M, CHEN P Z, HADDOW B, et al. ParaCrawl: web-scale acquisition of parallel corpora[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2020: 4555-4567.

[15] 孫留倩, 魏玉良, 王佰玲. 基于圖卷積網絡的多源本體相似度計算方法[J]. 網絡與信息安全學報, 2021, 7(5): 149-155.

SUN L Q, WEI Y L, WANG B L. Novel similarity calculation method of multisource ontology based on graph convolution network[J]. Chinese Journal of Network and Information Security, 2021, 7(5): 149-155.

[16] 郭一村, 陳華輝. 在線哈希算法研究綜述[J]. 計算機應用, 2021, 41(4): 1106-1112.

GUO Y C, CHEN H H. Survey on online hashing algorithm[J]. Journal of Computer Applications, 2021, 41(4): 1106-1112.

[17] WANG J, ZHANG T, SONG J, et al. A survey on learning to hash[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 769-790.

[18] JAFARI O, MAURYA P, NAGARKAR P, et al. A survey on locality sensitive hashing algorithms and their applications[J]. arXiv preprint, 2021, arXiv: 2102.08942.

[19] 徐戈, 楊曉燕, 汪濤. 單詞語義相似性計算綜述[J]. 計算機工程與應用, 2020, 56(4): 9-15.

XU G, YANG X Y, WANG T. Survey on semantic similarity calculation of words[J]. Computer Engineering and Applications, 2020, 56(4): 9-15.

[20] 由麗萍, 劉薈, 劉燾. 基于框架的情感語義表示模型設計與標注實驗[J]. 情報科學, 2014, 32(6): 143-147. YOU L P, LIU H, LIU T. Frame-based sentiment semantic representation model design and annotating experiments[J]. Information Science, 2014, 32(6): 143-147.

[21] LUO C, ZHANG Y K, LIU Y Q, et al. SogouT-16: a new web corpus to embrace IR research[C]//Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2017: 1233-1236.

[22] 聯合國大會和會議管理部. 聯合國平行語料庫[EB]. 2021. Department for General Assembly and Conference Management of United Nations. A six-language Parallel Corpus [EB]. 2021.

An information-DNA based method of information dissemination and evolution on Internet

LI Panpan1, XIE Zhengxia1, WANG Zengkai1, JIN Rui2

1. Jiaxing University, Jiaxing 314001, China 2. Harbin Institute of Technology, Harbin 150001, China

To solve the problem of how to trace the information content dissemination and evolution process on the Internet, an information DNA-based method of information dissemination and evolution on Internet was proposed. Firstly, semantic extraction of Internet information content was performed based on domain knowledge to form a key feature set of information content. Then, using the key feature set of information content, an information DNA construction method based on locally sensitive hashing was proposed. Finally, the usability and effectiveness of the proposed method were verified by public dataset. The problem of traceability of Internet homologous information dissemination and evolution process was solved by using information DNA as the core identifier, which was of great practical significance for the study of Internet information content dissemination, evolution tracing and the governance and guidance of Internet public opinion events.

information DNA, information evolution, information dissemination, computational communication

G206

A

10.11959/j.issn.1000–0801.2022280

2022–05–11;

2022–10–20

國家自然科學基金資助項目(No.61902226);浙江省自然科學基金資助項目(No.LY18F020021)

The National Natural Science Foundation of China (No.61902226), Zhejiang Provincial Natural Science Foundation of China (No.LY18F020021)

李攀攀(1983– ),男,博士,嘉興學院講師,主要研究方向為社會計算、開源情報、網絡空間安全等。

謝正霞(1982– ),女,嘉興學院工程師,主要研究方向為社會計算、網絡輿情等。

王贈凱(1980– ),男,博士,嘉興學院講師,主要研究方向為社會計算、人工智能等。

靳銳(1976– ),男,哈爾濱工業大學博士生,主要研究方向為信息安全、社交網絡分析、機器學習等。

猜你喜歡
信息方法
學習方法
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 国产精品成| 91成人在线观看| 日韩毛片在线播放| 国产精品永久免费嫩草研究院| 久久特级毛片| 999在线免费视频| 国产微拍一区| 114级毛片免费观看| 日本人妻一区二区三区不卡影院| 偷拍久久网| 午夜成人在线视频| 国产精品手机在线观看你懂的 | 婷婷亚洲天堂| 久久精品中文字幕免费| 亚洲av色吊丝无码| 国产v精品成人免费视频71pao| 2020国产免费久久精品99| 国产美女无遮挡免费视频网站 | 亚洲美女AV免费一区| 亚洲国产欧美目韩成人综合| 国产91视频免费观看| 欧美一级黄色影院| 国产91透明丝袜美腿在线| 国产综合无码一区二区色蜜蜜| 91丨九色丨首页在线播放 | 91亚洲视频下载| 制服丝袜国产精品| 国产又黄又硬又粗| 欧美日韩国产在线观看一区二区三区| 色综合a怡红院怡红院首页| 四虎影视国产精品| 91久久偷偷做嫩草影院免费看| 看看一级毛片| 国产精品久久精品| 国产女人喷水视频| 97在线观看视频免费| 色悠久久综合| 成人福利在线视频| 高清码无在线看| 欧美三级不卡在线观看视频| 国产丝袜啪啪| 欧美va亚洲va香蕉在线| 亚洲精品成人片在线播放| 亚洲无限乱码一二三四区| 四虎AV麻豆| 国产亚洲精品自在久久不卡| 日本久久久久久免费网络| 91久久夜色精品| 国产地址二永久伊甸园| 国产成人精品第一区二区| 精品久久久无码专区中文字幕| 一本综合久久| 欧美一级专区免费大片| 免费无码AV片在线观看国产| 精品色综合| 亚洲91精品视频| 日韩经典精品无码一区二区| 特级aaaaaaaaa毛片免费视频 | 亚洲精品午夜无码电影网| 亚洲h视频在线| 一区二区午夜| 高清国产在线| 一级毛片在线免费视频| 亚洲热线99精品视频| 四虎精品国产AV二区| 婷婷99视频精品全部在线观看| 午夜欧美在线| 免费AV在线播放观看18禁强制| 欧美视频在线第一页| 午夜精品国产自在| 国产成人高清精品免费5388| 韩国福利一区| 亚洲狠狠婷婷综合久久久久| 欧美影院久久| 国产一区三区二区中文在线| 国产精品网址在线观看你懂的| 久久精品日日躁夜夜躁欧美| 在线综合亚洲欧美网站| 国产福利小视频在线播放观看| 国产精品va| 国产黄网站在线观看| 99精品在线视频观看|