999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

作者身份驗證系統的設計與實現

2020-04-08 09:30:50郭旭
電腦知識與技術 2020年3期

摘要:為了驗證文本對是否由同一作者書寫,設計并實現了一個作者身份驗證系統。該系統選擇了目前最先進的作者身份驗證方法之二,即基于深度神經網絡語言模型的方法和基于冒名者的方法。系統可根據不同的文本長度,自適應地選擇合適的算法,具有識別準確率高、操作簡便和運行速度快等優勢。最終,在一個公開的博客作者身份語料庫上進行了實驗,獲得了83%的識別正確率。實驗結果表明,該系統可以在一定程度上解決兩段文本的作者身份驗證問題。

關鍵詞:作者身份驗證;冒名者;語言模型;神經網絡

中圖分類號:TP18 文獻標識碼:A

文章編號:1009-3044(2020)03-0031-03

1 背景

隨著我國網絡技術的不斷發展與社交媒體等新型媒體形式的不斷涌現,網絡中出現了大量的匿名文本和作者用虛假身份書寫的文本,包括由“水軍”發表的虛假評論[1]、電信詐騙人員書寫的詐騙郵件和詐騙短信[2]、由“槍手”代寫的文章或冒名的文章[3]等。因此,對作者身份的有效驗證具有巨大的實際應用價值,成為當前自然語言處理的熱點研究方向。

作者身份驗證[4-5]主要研究:給定一個文本對,判斷文本X和文本Y是否由同一作者書寫。本文設計的作者身份驗證系統主要采用冒名者和深度神經網絡語言模型兩種算法,根據X和Y的文本長度,自適應地選擇算法驗證文本對,具有識別準確率高、操作簡便和運行速度快等優勢,可以滿足目前作者身份驗證方面的基本需求。

2 系統設計

2.1 系統組成

本文所設計的作者身份驗證系統由語料庫模塊、冒名者模

2.1.1 語料庫模塊

主要完成語料的增、刪、改、查等語料庫管理功能,以及文本清洗、分詞和分句等文本預處理功能。

2.1.2 冒名者模塊

主要實現基于冒名者算法的作者身份驗證方法,包括構建冒名者樣本集、多種文本相似度算法的實現和驗證作者等功能。

2.1.3 語言模型模塊

主要實現基于深度神經網絡語言模型的作者身份驗證方法,包括分割文本為樣本集、構建深度神經網絡語言模型、語言模型訓練和識別等功能。

2.1.4 可視化模塊

主要完成語料可視化分析、算法評價指標可視化和作者信息可視化等功能。

2.2 系統流程

本文系統的運行流程,如圖2所示。

步驟1:輸入文本對。

步驟2:判斷文本對中是否有文本的長度大于10,000字符。如果否,跳轉步驟6。

步驟3:分割長度大于10,000字符的文本為訓練樣本集。

步驟4:訓練深度神經網絡語言模型,并計算所有訓練樣本在深度神經網絡語言模型中的概率,并根據概率劃定閾值。

步驟5:計算待驗證文本在深度神經網絡語言模型中的概率,如果大于閾值則認定文本對由同一作者書寫,否則為不同作者書寫。

步驟6:構建冒名者池,并從冒名者池中篩選出冒名者樣本集。

步驟7:計算文本對和文本X與冒名者樣本集中樣本的文本相似度,如果文本對取得較大的文本相似度,則認定文本對由同一作者書寫,否則為不同作者書寫。

步驟8:可視化顯示驗證結果。

3 系統實現

本文的作者身份驗證系統將根據文本對中X和Y的文本長度,選擇不同的作者身份驗證方法。當文本X或Y的長度大于10,000字符時,可將文本X或Y分割為多個樣本,此時選擇評價指標較高的基于深度神經網絡語言模型的方法;否則,由于文本較短無法分割出足夠的訓練樣本,選擇評價指標略低的基于冒名者的方法。

3.1 冒名者算法

冒名者算法[6],是由Koppel等人提出的作者身份驗證方法,是目前為止最成功的短文本作者身份驗證方法之一,在多個作者身份驗證的公開數據集上取得了較高的評價指標,在作者身份驗證的國際評測PAN-2013和PAN-2014中,優勝者就均采用了冒名者算法的變種。冒名者算法的基本思想是:通過引入一些其他作者書寫的外部語料,將作者身份驗證這種單分類問題轉換為二分類問題處理,通過判斷文本X更接近文本Y或冒名者,來決定文本對是否由同一作者書寫。

冒名者算法的難點在于如何選擇合理的冒名者文本構建冒名者樣本集。最簡單的做法是在一個由多位冒名者構成的冒名者池中,隨機選擇冒名者。本文采用由Potha等[7]人改進的算法構建冒名者文本集,該算法在冒名者池中選擇具有最高相似度的K個文本構建冒名者樣本集,算法具體步驟如下:

步驟1:構建冒名者池。

步驟3:選取冒名者池中相似度最大的K個冒名文本,構建冒名者文本集。

3.2 基于深度神經網絡語言模型的方法

基于深度神經網絡語言模型的方法[8],是由郭旭等人提出的作者身份驗證方法,適用于文本對的文本長度不平衡的情況,即文本X的長度較長(10,000字符以上),文本Y的長度較短(100字符左右)。該方法的基本思想是:使用同一作者的語料訓練的語言模型,將分配給該作者書寫的文本更高的概率。本文選擇加入注意力機制的門控循環單元構建深度神經網絡語言模型。具體步驟如下:

步驟1:分割長度大于10,000字符的樣本為若干個文本塊,構建訓練語料。

步驟2:使用訓練語料訓練深度神經網絡語言模型。

步驟3:計算訓練語料在神經網絡語言模型中的概率,劃定閾值0。

步驟4:計算短文本在神經網絡語言模型中的概率。若大于閾值0,判斷為正例;否則,為負例。

4 實驗結果

本文選擇的實驗語料來自一個公開的博客作者身份語料庫,該語料庫包含19,320位作者共計681,288篇來自blogger.com的博客,平均每位作者有35篇博客和7,252字的博文。實驗語料構建過程如下:

步驟1:從博客作者身份語料庫中,篩選100位具有最多博客字數的作者,并將每位作者書寫的所些博客首尾相連,形成一個博客文本。

步驟2:在博客文本的開始部分隨機取10,000到15,000字符和3,000到5,000千字符,在結束部分隨機取10,000到15,000字符和3,000到5,000千字符,共4個文本塊,首尾文本塊各2個。

步驟3:每位作者的首尾文本塊兩兩組合,構成4個正例文本對,共400個正例文本對。

步驟4:隨機在不同作者的文本塊中組合,構成400個負例文本對。

步驟5:選取其中10個長文本對和90個短文本對作為測試樣本集,其中正負例各占50%,其余文本對為訓練樣本集。

本文系統在對測試樣本進行驗證時,獲得了83%的識別正確率。

5 結束語

本文設計并實現了一個作者身份驗證系統,該系統采用Python語言編寫,借助tensorflow、keras和HanLP等開源工具包,完成了語料庫模塊、冒名者模塊、語言模型模塊和可視化模塊共四個功能模塊。實驗結果表明,該系統可以有效地解決作者身份驗證的問題,在一定程度上滿足了當前對文本作者驗證的需要。但本文僅驗證了系統在英文博客上的效果,對于在中文和其他體裁上的效果仍需要進一步實驗。

參考文獻:

[1]張艷梅,黃瑩瑩,甘世杰,等.基于貝葉斯模型的微博網絡水軍識別算法研究[J].通信學報,2017,38(1):44-53.

[2] Ren Y F,Ji D H.Neural networks for deceptive opinion Spamdetection: an empirical study[J]. Information Sciences. 2017.385/386: 213-224.

[3]關珠珠,李雅楠,郭錦秋,醫學期刊編輯初審過程中對“槍手”論文的識別[J].編輯學報,2018, 30(1):61-63.

[4] Halvani 0,Winter C.Graner L On the usefulness of compres-sion models for authorship verification[C]//Proceedings of the12th International Conference on Availability. Reliability andSecurity - ARES '17, August 29-September l,2017. ReggioCalabria, Italy. New York. USA: ACM Press, 2017.

[5] Rocha A,Scheirer W J,Forstall C W. et al.Authorship attri-bution for social media forensics[J]. IEEE Transactions on In-formation Forensics and Security, 2017, 12(1):5-33.

[6] Koppel M, Winter Y.Determining if two documents are writ-ten by the same author[J]. Journal of the Association for Infor-mation Science and Technology, 2014, 65(1):178-187.

[7] Potha N,Stamatatos E.An improved impostors method for au-thorship verification[M]//Lecture Notes in Computer Science.Cham: Springer International Publishing, 2017: 138-144.

[8]郭旭,祁瑞華,基于神經網絡語言模型的作者身份驗證[J/OL].情報理論與實踐[2019-11-12].http://kns. cnki.net/kcms/detail/ 11.1762.G3 .20191024.1127.002.html.

主站蜘蛛池模板: 欧美日韩精品综合在线一区| 亚洲第一视频免费在线| 亚洲欧美日韩中文字幕在线| 成人欧美日韩| 无码专区第一页| 日韩亚洲高清一区二区| 国产精品毛片在线直播完整版| 欧美高清日韩| 国产成人一区在线播放| 亚洲av无码成人专区| 成人在线天堂| 毛片在线看网站| 久久久久青草线综合超碰| 黄片一区二区三区| 亚洲综合婷婷激情| 亚洲熟女中文字幕男人总站| 伊人久综合| 免费看的一级毛片| 一本大道香蕉中文日本不卡高清二区| 日韩免费毛片视频| 91娇喘视频| 亚洲美女高潮久久久久久久| 97色婷婷成人综合在线观看| 波多野结衣二区| 人妻丰满熟妇AV无码区| 欧美成人手机在线观看网址| 国产成人久久综合777777麻豆| 97久久超碰极品视觉盛宴| 国产在线一区视频| 亚洲国产天堂久久综合226114| 永久天堂网Av| 亚洲天堂网视频| 国产精鲁鲁网在线视频| a亚洲视频| 国产凹凸一区在线观看视频| 国产精品成人久久| 区国产精品搜索视频| 尤物在线观看乱码| 亚洲国产精品成人久久综合影院| 久久窝窝国产精品午夜看片| 国产网友愉拍精品| www精品久久| 天天色天天综合网| 精品少妇人妻av无码久久| 91久久夜色精品国产网站| 亚洲成人网在线播放| 国产成人啪视频一区二区三区| 制服丝袜在线视频香蕉| 男女男免费视频网站国产| 综合五月天网| 性视频一区| 亚洲精品大秀视频| 天天综合网色| 久久国产精品无码hdav| 在线a网站| 久久大香伊蕉在人线观看热2 | 国产99精品久久| 国产xxxxx免费视频| a毛片免费观看| 国产亚洲欧美在线人成aaaa| 国内精品久久九九国产精品| 小蝌蚪亚洲精品国产| 色视频久久| 婷婷综合在线观看丁香| 国产aⅴ无码专区亚洲av综合网| 国产人成在线观看| 国产成人精品一区二区秒拍1o| 亚洲成人网在线观看| 欧美亚洲欧美| 91午夜福利在线观看| 在线国产欧美| 亚洲成人免费在线| 久爱午夜精品免费视频| 无码中文AⅤ在线观看| 国产va免费精品观看| 91网在线| 久久综合亚洲色一区二区三区| 国产精品偷伦在线观看| 久久综合激情网| 激情五月婷婷综合网| 伊人激情综合网| a级毛片在线免费|