999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題詞與信息熵編碼的文本零水印算法*

2021-09-15 08:34:56張先國張佳慧蔣彤彤
計算機與數字工程 2021年8期
關鍵詞:文本信息

張 娜 張 琨 張先國 張佳慧 蔣彤彤 方 悅

(1.南京理工大學計算機科學與工程學院 南京 210094)(2.中國科學技術大學網絡空間安全學院 合肥 230022)(3.中電科網絡空間安全研究院有限公司安全驗證所 北京 100071)

1 引言

隨著互聯網的發展與數字媒體的普及,大量信息以電子文本的形式出現在網絡上,其易復制、易修改的特性使得非法復制與盜版問題日趨嚴重,數字媒體的版權保護問題亟待解決。數字水印技術被公認為數字產品版權保護、認證的有效技術。目前針對電子文本類的數字水印研究成果[1],大多集中于嵌入式水印,主要包括字間距、行距的移動[2~3],字體顏色改變[4],添加不可見字符[5]等方式實現。而嵌入式水印需要對原文檔進行一定的修改,使得水印的魯棒性與不可感知性產生沖突,而不改變載體信息的零水印方案正好解決了這些問題。

零水印通過從載體文本中提取具有代表性的特征,來構造載體的水印。現有研究中大多使用文中關鍵詞代表文章語義特性構造水印,卻欠缺對文章組織結構的考慮;部分研究通過統計分析,找出文中關鍵句子的位置等特性來構造水印,卻忽略了文章的語義信息。

本文在現有技術的基礎上,提出了基于主題詞抽取與文本信息熵[6]編碼的零水印算法。算法通過主題詞獲取文本的語義特性,通過語句信息熵獲取文本統計特性,融合后的水印信息高度提煉了文本特征,可作為文章的標識,且具有完全的隱蔽性,能夠抵抗各種常見格式變換與內容攻擊。為驗證本文算法效果,在收集了大量文本的數據集的上進行了語句刪減、同義詞替換、句型轉換等攻擊實驗,并選取了相似算法進行對比,結果顯示本文算法易實現,時間復雜度低,且抗攻擊性均優于現有算法。

2 研究現狀及相關技術

2.1 文本零水印技術

零水印技術在不改變原文本信息的基礎上,提取出能代表該文本的特征信息,如主題詞、句,中心思想等來構造載體的水印。現有研究中大多使用文本的詞語級特性,如:文獻[7~8]通過統計不同詞性的詞語的頻率信息,作為特征以構造水印;文獻[9]通過隨機選擇詞性標記串中對應的單詞,構成水印序列;文獻[10]通過獲取漢字的拼音信息的頻率統計構造文本水印,更詳細地統計了全文字詞,文獻[11]針對散文類文章的特性,選取重要詞匯及形容詞比例等信息形成水印,但這些方法都僅考慮了詞語本身,未考慮詞語的位置、作用等。為將詞語與文章聯系起來,文獻[12~13]統計了主謂語信息與不同語義角色的位置信息等生成水印;文獻[14]通過指代消解技術,根據代詞指代的原詞語進行水印構造;以及通過詞語間的關聯詞匯鏈[15]、關鍵詞語的分布位置信息[16]生成文本水印等,此類算法通過關鍵詞的上下文關系形成文本特征,卻沒有考慮到詞語原本的語義信息。因此一些研究轉向文本的語句級特性,如通過關鍵句子的位置信息[6,17]或段落中心句本身及文章邏輯關系[18]等信息構造水印,但當部分關鍵句子被刪除時,水印也會被大幅度破壞,抗攻擊性難以保障;文獻[19]使用主題詞、句子相關度等計算出關鍵句子,并用句子中的關鍵詞語生成水印信息,此算法充分考慮了詞語語義及文本統計特性,但不易于實現,時間復雜度極高。

因此,文本零水印技術雖取得了極大的發展,但仍存在許多亟待解決的問題。

2.2 文本主題詞抽取

通常文本零水印技術中需要用到主題詞抽取技術,本文在主題詞權重計算時,使用了TF-IDF[20](詞頻-逆文件頻率)算法。TF-IDF是用于資訊檢索與文本挖掘的常用加權技術,用以評估某一字詞對于一個文件集或一個語料庫中某一份文件的重要程度。詞頻(TF)指的是某一個給定的詞語在該文件中出現的頻率。設單詞w在全文中出現的次數為nw,全文詞總數為N,則w的詞頻TFw可以表示為

詞語權重的設置依賴于該詞預測主題的能力,詞語預測主題的能力越強,權重越大,反之越小。往往一些詞頻很高的通用詞語對于主題作用不大,而一些頻率較低的詞,在所有文件集或語料庫中,只有很少幾篇文章中出現過,這樣的詞對文章主題的作用往往很大,因此引入逆向文件頻率(IDF)的概念。

IDF是一個詞語普遍重要性的度量。主要思想是:如果語料庫中包含詞語w的文檔越少,則w的IDF越大,說明詞語w具有很好的類別區分能力。設語料庫總共包含Ndoc個文件,其中有Mw個文件包含詞語w,則詞語w的IDFw可以表示為

式(2)中分母加1是為了避免分母為0。某一文件內的高頻率詞語,以及該詞語在整個文件集中的低文件頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。計算公式為

2.3 同義詞詞林

基于自然語言技術的文本水印技術中,同義詞詞典是一個必不可少的工具。本文使用了哈工大信息檢索研究室開發的《哈工大信息檢索研究室同義詞詞林擴展版》。

同義詞詞林中把所有的詞語按照樹狀的結構組織在一起,構成一個五層的樹狀結構,如圖1所示。詞林中的詞語分成大、中、小三類,大類有12個,中類有97個,小類有1400個。每個小類里中含有若干個詞群,這些詞群又可以分成若干個原子詞群。在樹形結構中,每個原子詞群中的詞語語義上關聯度最高,兩個原子詞群之間的距離越長,則屬于這兩個原子詞群的詞語之間關聯度就越低。

圖1 同義詞詞林結構

2.4 文本信息熵計算

信息熵是對信息的量化度量,表達了信源的不確定性。信息熵一般和信息度呈負相關,即信息度越高,信息熵越低。在文本分析領域,信息熵可以用來描述文本內容所含信息量的多少。信息熵的計算公式如下(其中信息熵用符號H表示,X為隨機變量,p(xi)表示事件xi發生的概率,n表示所有可能發生事件的總數):

通常來說,需要計算文本中某個句子的信息熵的時候,式(4)同樣適用,只是這時X表示需要求信息熵的句子,p(xi)指X中第i個詞語在全文出現的頻率(詞頻)。

3 算法描述

本文提出了一種基于主題詞抽取與文本信息熵編碼的中文文本水印算法。通過TF-IDF算法對文本的主題詞進行抽取,并從同義詞詞林中獲取主題詞的編碼,作為水印的第一部分。再通過主題詞計算文本中每條語句的信息熵,并對信息熵進行統計分析,獲取不同信息熵值區間內的語句頻率,再對語句頻率的統計結果進行信息編碼,形成水印信息的第二部分。將主題詞編碼與信息熵編碼進行拼接后進行加密,并添加時間戳信息,生成最終的文本水印,并發送至第三方機構進行注冊保存。

當爭議文本出現時,使用水印構造算法獲取爭議文本的水印信息。并通過水印相似度算法,計算爭議文本的水印與第三方機構保存的原文本水印之間的相似度,當相似度超過閾值,則爭議文本存在抄襲行為,否則不存在抄襲行為。

3.1 水印構造算法

3.1.1 水印構造算法設計

零水印構造的流程如圖2所示,具體步驟如下。

圖2 水印構造流程圖

1)首先對文本進行預處理,包括去掉文本格式信息,并進行分句、分詞、去除停用詞等操作。

2)計算文本預處理后所有詞的權重,并根據權重抽取文章的主題詞。

3)根據《同義詞詞林(第二版)》,獲取所有主題詞的編碼。

4)根據詞頻計算文章中每條語句的信息熵。

5)將[0,1]以某個差值進行等分,作為信息熵區間。統計各區間內包含的句子數目直方圖,歸一化處理后生成每個信息熵區間內的頻率值。

6)將[0,1]以某個差值進行等分,生成頻率區間,并定義一個編碼表與之對應(如區間[0,0.1]對應字母a,則區間(0.1,0.2]對應字母b……)。依次判斷步驟5)中生成的頻率值所在的頻率區間,并記錄區間對應的編碼字符,即為全文的信息熵編碼。

7)將步驟3)與步驟5)中得到的主題詞編碼與信息熵編碼融合后,進行加密,并加入時間戳傳入第三方注冊機構進行注冊。

3.1.2 水印構造算法實現

1)獲取主題詞編碼

文本預處理。首先讀取文本、去除格式等干擾后獲取其純文本信息,并進行分句、去除停用詞、分詞等操作。

采用TF-IDF算法對預處理后的文本進行主題詞抽取,依據式(3)計算詞語權重,并排序,選出權重最高的n個詞作為主題詞,組成全文的主題詞集:K={k1,k2,…,kn},其中ki為文本的第i個主題詞。權重對應為W={w1,w2,…,wn},根據同義詞詞林獲取所有主題詞的編碼,最終獲取所有主題詞編碼集CW={cw1,cw2,…,cwn},其中cwi為文本的第i個主題詞的編碼。

2)獲取信息熵編碼

對預處理后的文本進行分句,獲取文本句子集:T={t1,t2,…,tm},其中ti為文本分句后的第i個句子。對每條語句進行分詞,并依據各詞語的詞頻信息計算句子的信息熵,進而統計直方圖,獲得信息熵編碼,具體步驟如下。

(1)依據式(4)獲取所有語句的信息熵,并對熵值進行歸一化處理。設第i條語句信息熵為hi,所有語句中信息熵最大的語句的信息熵為max H,信息熵最小的語句的信息熵為min H,則對hi的歸一化公式為

(3)直方圖歸一化,計算縱坐標與語句總數的比值,結果為信息熵落在橫軸對應區間內的語句的頻率。

(4)獲取(3)中每個區間對應的頻率值,得到頻率集F={f1,f2,…,ft}。之后以σ為步長,將[0,1]區間等分成s個子區間,建立s個子區間到編碼表的一一映射,即每個子區間對應編碼表中唯一的一個編碼。

(5)依據s個子區間到編碼表的映射關系對頻率集F進行編碼。根據F中每一個值fi,依據其處在的頻率區間,獲得對應的編碼。將F中的頻率轉化為編碼后,即獲得信息熵編碼集CF={cf1,cf2,…,cft}。

3)獲取水印信息

將主題詞編碼集CW,與信息熵編碼集CF進行拼接,生成文本的原始水印信息,并進行加密。將加密后的文本水印加入時間戳信息,傳入第三方可信機構注冊保存。

3.2 水印檢測算法

3.2.1 水印檢測算法設計

當出現文本版權爭議時,先獲取爭議文本及原文本第三方注冊的水印信息,再依據圖3所示流程進行判定,具體步驟如下。

圖3 水印檢測過程

1)根據本文水印構造算法,獲取有爭議文本的主題詞編碼與信息熵編碼。同時對第三方注冊的文本水印信息進行解密,獲取原文本的主題詞編碼與信息熵編碼。

2)計算爭議文本主題詞編碼和原文本的主題詞編碼之間的相似度。

3)計算爭議文本信息熵編碼和原文本的信息熵編碼之間的相似度。

4)將步驟2)、3)的結果進行加權求和,作為最終水印相似度,將該值不低于預定的相似度閾值,則認為爭議文本與原文本相似度過高,可能存在抄襲行為。

3.2.2 水印檢測算法實現

1)當出現版權問題時,對第三方保存的水印信息進行解密,獲取文本水印WM1,包括主題詞編碼CW1與信息熵編碼CF1。

2)通過水印構造算法,獲取有爭議文本的水印信息WM2,包括主題詞編碼信息CW2與信息熵編碼信息CF2。

3)計算CW1與CW2的相似度。設每個主題詞編碼包含n個編碼,CW1和CW2編碼相同的字符數為m,則主題詞編碼相似度為

4)計算信息熵編碼。信息熵編碼CF1和CF2的相似度為

其中xi、yi分別表示CF1、CF2中下標為i的字符的ASCII碼(i∈{1,2,…,t},t為每個信息熵編碼字符數)。

5)計算最終相似度。文本水印WM1和WM2總的相似度R(WM1,WM2)可以表示為

其中p和q分別表示主題詞編碼相似度和信息熵編碼相似度在總相似度中的權重,p∈[0,1],q∈[0,1],且p+q=1。

6)版權判斷,若最終相似度不低于相似度閾值ф,則爭議文本存在抄襲嫌疑。

4 實驗結果及性能分析

基于本文提出的算法,在Windows10系統下使用python語言進行開發實現。實驗數據集為從搜狗實驗室數據中隨機獲取的100篇新聞文章;從《朱自清文集》中隨機獲取的12篇散文;以及網絡中隨機獲取的6篇小說與記敘文等。

4.1 相關參數值的確定

對信息熵劃分間隔δ與頻率劃分間隔σ進行確定。取δ,σ區間為[0.01-0.1]進行實驗,選取數據集中部分文章進行隨機刪減,計算刪減后水印與原文本水印間相似度,部分結果如表1所示,δ,σ值均為0.05時,不同刪減率下的文章(即相似文章)水印與原文章水印相似度最大。因此確定δ=0.05,σ=0.05。

表1 δ與σ在各刪減率下對相似度的影響

4.2 抗攻擊性試驗

從文本刪減攻擊、同義詞替換攻擊以及句型轉換攻擊三個方面進行抗攻擊性實驗,其中相似度計算中主題詞相似度權重p=0.5,信息熵編碼相似度權重q=0.5。

為了綜合評估算法的有效性,復現了相似中文零水印算法:文芳等人[6]與劉等人[19]提出的算法,并基于本文數據集進行了對比試驗。

4.2.1 相似度閾值ф的確定

在搜狗實驗室新聞數據中隨機獲取200篇文章,以兩篇為一組,分別計算相似度,結果如圖4所示。不同文章的相似度均不高于0.65,因此本文選取相似度閾值為ф=0.7。即相似度大于0.7則認為可能存在抄襲嫌疑。

圖4 不同文章的水印相似度

4.2.2 文本刪減攻擊

通過隨機刪除特定比例的句子實現刪減攻擊。實驗中刪減率選取0.05~0.5,對文本進行刪減,計算每篇文章刪減后生成的水印,與原文本水印的相似度。通過對數據集中所有文本進行該操作后,以各刪減率下,每篇文章與原文章的相似度的平均值作為實驗結果。與文獻[6]、文獻[19]算法的對比試驗結果如圖5所示。本文算法在應對刪減攻擊時具有很強的穩定性。相似度-刪減率曲線整體斜率最小,對同一文本的識別率最高。

圖5 不同刪減度下水印相似度結果對比

4.2.3 同義詞替換攻擊

從數據集中選取部分文章,并對每篇文章進行一定比例的同義詞替換,來模擬同義詞替換攻擊。替換操作使用“飛魯達”替換工具與人工修改相結合的方式。計算替換后文章的水印與原文本水印的相似度,結果如圖6所示。

圖6 同義詞替換攻擊下水印相似度結果對比

結果顯示本文算法對于同義詞替換攻擊,具有很強的魯棒性。這是由于本文考慮到同義詞對水印的影響,主題詞部分使用同義詞詞林進行編碼,計算詞頻時也進行了同義詞消歧。因此同義詞替換攻擊對主題詞編碼與信息熵編碼影響都很小。

4.2.4 句型轉換攻擊

通過人工修改的方式,對實驗文章進行了不同程度的句型轉換,將句型轉換后的文本水印與原文本水印對比,計算相似度,結果如圖7所示,其中橫坐標為句型轉換率,縱坐標為句型轉換后生成的水印與原文本的水印的相似度。

圖7 句型轉換攻擊下水印相似度結果對比

結果顯示,在不同程度的句型轉換攻擊下,本文算法都表現出了較好的性能和較強的穩定性。這是由于句型轉換對詞影響較小,對句長和句子中的詞頻影響也很小。因此在句型轉換攻擊下,本文算法與其他算法相比具有更好的魯棒性。

4.3 性能分析

4.3.1 算法時間復雜度

本文算法在充分考慮并獲取了能代表文本的特征的前提下,簡單易實現。假設一篇文本總共有m個句子,其中平均每個句子有n個詞語,計算每句話熵值的時間消耗為O(mn),則統計句長與熵值以及編碼部分的的時間均為:O(m)。本文算法最終時間復雜度約為O(mn)。

文獻[6]時間開銷主要用于計算句子信息熵,時間復雜度為O(mn)。文獻[19]的算法時間開銷主要用于計算句子相關性上,該方法的時間復雜度約為O(m2n2)。

4.3.2 魯棒性

本文提出的文本水印算法為零水印算法,因此具有完全的隱蔽性。且由于算法僅獲取純文本內容作為水印生成的原始信息,因此完全不受字移、行移、字體轉換、顏色變換、重新編輯等攻擊的影響,同樣對于打印、掃描、截屏等攻擊的影響具有抵抗性。對于改變文章內容的常規文本內容攻擊,具有很強的抗攻擊性。

5 結語

為解決電子文檔的版權保護問題,本文結合自然語言處理技術,提出了一種新的中文文本零水印算法。通過提取主題詞獲取文本的語義特性。通過詞頻與語句長度計算全文語句信息熵,并對統計后的信息熵進行編碼以獲取文本的統計特性。相對于目前研究較多的以詞語代表文本特征的方案,算法使用的句子特性更好地表示了文本特征,具有更高的準確性。實驗結果顯示本文提出的水印算法具有較好的魯棒性。下一步的主要工作是研究如何獲取更優的文本特征來表示文本,生成水印信息。

猜你喜歡
文本信息
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 色屁屁一区二区三区视频国产| 午夜欧美理论2019理论| 69免费在线视频| 97青青青国产在线播放| 凹凸国产熟女精品视频| 免费A级毛片无码免费视频| 尤物特级无码毛片免费| 伊人久久大香线蕉综合影视| 91视频区| 蜜芽国产尤物av尤物在线看| 最新日本中文字幕| 国产成人无码综合亚洲日韩不卡| 国产成人久久综合777777麻豆| 国产精品久久久免费视频| 中文字幕无码中文字幕有码在线| 人妻21p大胆| 亚洲AV无码乱码在线观看裸奔| 亚洲精品无码久久久久苍井空| 青青青国产在线播放| 欧美精品在线看| 亚洲第一黄色网| 亚洲日韩AV无码一区二区三区人| 这里只有精品免费视频| 亚洲成人精品在线| 国产精品对白刺激| 欧美成人二区| 国产精品永久不卡免费视频| 熟妇无码人妻| 在线国产综合一区二区三区| 99在线国产| 国产色网站| 国产18在线| 亚洲三级电影在线播放| 99久久成人国产精品免费| 国产在线无码一区二区三区| 国产av色站网站| 国产视频入口| 亚洲成人一区在线| 无码高潮喷水专区久久| 亚洲第一成年网| 国产福利小视频在线播放观看| 亚洲va精品中文字幕| 久久综合丝袜长腿丝袜| 中文字幕av一区二区三区欲色| 日日噜噜夜夜狠狠视频| av一区二区无码在线| 国产无码精品在线播放| 2021国产在线视频| 国产精品香蕉在线| 美女无遮挡免费网站| 国产高清精品在线91| 中文精品久久久久国产网址| 天天视频在线91频| 欧美日韩91| 国产亚洲欧美在线人成aaaa| 999福利激情视频| 久久天天躁夜夜躁狠狠| 国产成人高清在线精品| 2020国产在线视精品在| 亚洲啪啪网| 成人国内精品久久久久影院| 国产高清免费午夜在线视频| 亚洲色欲色欲www在线观看| 在线观看国产精品一区| 午夜国产在线观看| 久久久久免费精品国产| a毛片免费看| 九色视频最新网址| 国模极品一区二区三区| 国产精选自拍| 污视频日本| 萌白酱国产一区二区| 国产00高中生在线播放| 国产精品香蕉在线观看不卡| 亚洲天堂高清| 2021天堂在线亚洲精品专区| 亚洲欧美一区二区三区蜜芽| 六月婷婷精品视频在线观看| 日韩亚洲高清一区二区| 日日碰狠狠添天天爽| 四虎影视8848永久精品| 手机看片1024久久精品你懂的|