999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于角色行為的偽孿生網絡學術不端檢測模型研究

2022-08-13 06:33:02陳大文
無線互聯科技 2022年10期
關鍵詞:語義文本實驗

陳大文

(江蘇金盾檢測技術股份有限公司,江蘇 南京 210000)

0 引言

隨著互聯網迅速發展與學術競爭的加劇,學術期刊投稿過程中產生的學術不端行為日益嚴峻。 這種現象侵害他人知識產權,擾亂學界秩序,阻礙了科學的生產和進步。 中國科協早在2007 年就發布《科技工作者科學道德規范》進行規約,美國科學技術政策辦公室則在2000 年就對學術不端行為進行了定義。 學術不端是一個較為宏觀的概念,根據2019 年5 月所發表的《學術出版規范——期刊學術不端行為的定義》中的新界定,可初步將學術不端行為分為剽竊、偽造、篡改、一稿多投等類型。 當前所面臨的不端行為現象日益復雜,需要通過更有針對性的技術方法進行有效檢測和識別。

面對嚴峻的學術不端境況,國內外都積極展開了一系列的預防與監管措施。 國內的CNKI 科技期刊學術不端文獻檢測系統(AMLC)[1]從2006 開始正式立項到目前已經規?;褂?具備相當的成熟度。 AMLC 可以進行快速的文獻對比,以CNKI 的文獻數據庫為依托,在幾秒內完成文獻復制比率的檢測,其核心為內容重復比,系統中連續13 個字重復就算抄襲并被標紅。但是此抄襲檢測方法具有很大弊端,如一旦查重規律被摸透,抄襲者就可以輕易繞開系統監測。 國外的CrossCheck[2]是由CrossRef 組織推出的一項服務,主要用于檢測論文是否存在抄襲和剽竊行為,自然出版集團(NPG)、愛思唯爾、施普林格等都是CrossCheck 的使用成員。 同AMLC 類似,其也是將上傳論文與數據庫中的海量文獻進行分析比對,從而檢測文字抄襲或剽竊。 其缺點也較為明顯,一旦作者有意將文字進行掩飾或通過相關機構幫助潤色而間接地消除了“痕跡”,系統將很難檢測并識別。

本文提出一種角色行為的偽孿生網絡學術不端檢測模型,克服了用戶通過文字修改而造成的檢測難題,利用多種角色的行為數據,綜合分析用戶異常狀態,從而識別不端行為。

1 相關技術

近年來,媒體曝光的學術不端事件涵蓋種類多樣化趨勢明顯,既有抄襲手段,又有身份偽造、惡意投稿等不同類型,試圖通過一種檢測技術或方法識別所有學術不端行為是不可能的。 從田瑞強等[3]對Retraction Watch 數據庫的分析發現,因重復、造假等原因而撤銷的文獻達到70%。 當今主流的檢測技術也是針對諸如此類學術不端行為,而其他學術不端類型的檢測技術和方法尚不完善。 目前,剽竊檢測技術可大致分為3 類[4]。

1.1 基于字符的剽竊檢測

基于字符的檢測方法只考慮對文本中的字符、單詞或字符串進行相似度計算。 該方法最合適識別復制和粘貼的抄襲情況。 常用的方法有數字指紋、詞袋模型[5]、最長公共子序列等算法。 在詞袋模型中,文本被重新表示為多個單詞構成的集合,不考慮其語法和單詞順序[6]。 基于字符的剽竊檢測的技術最大的問題是不能識別經過同義替換或是文字修飾后的剽竊行為。Grozea 等人使用16-gram 來匹配16 個連續實體序列的相似性從而檢測文檔的相似內容。

1.2 基于語義的剽竊檢測

基于語義的剽竊檢測在語義層面計算文本相似度,從而判斷文本內容是否存在剽竊行為。 即該方法假設兩個段落的語義相似性取決于這些段落中相似語義單元的出現。 在分析中包括語義特征,如同義詞、上位詞和下位詞,這可以提高釋義識別的性能[7]。 對每個單詞使用規范的同義詞有助于檢測同義詞替換混淆并減少向量空間維度。 Tschuggnall 和Specht 僅分析文本文檔的語法,通過句子的語法上找到不合理的地方,區別了一般基于字符的檢測技術。 Salvador 等人通過使用skip-grams 改進了加權過程,并應用圖相似性度量產生文檔的語義相似性得分[8]。

1.3 基于非文本的剽竊檢測

基于非文本的剽竊檢測主要利用了文章中的非文本元素進行比對識別。 Meuschke 等提出了基于數學表達式的檢測方法,并進行實驗證明數學公式是獨立于文本的有效特征[9]。 Daniel 等人對文獻中的圖形元素進行了比對分析,并使用圖像相似性檢測算法發現了大量的圖像重用和剽竊行為。 另外,還有通過基于參考文獻引用的檢測手段。

2 模型

2.1 偽孿生網絡模型

針對現有技術方法的不足和缺陷,本研究拓展了基于非文本元素的學術不端檢測方法。 本研究提出了一種分析多角色行為的偽孿生網絡模型,用來檢測用戶在期刊投稿過程中的異常行為,以此檢測出存在的學術不端行為。 該模型主要有3 個任務:數據集預處理、對數據進行采樣和篩選等操作;角色行為分析,通過對文章作者和文章審稿人行為計算分析得出異常概率;結果輸出,對偽孿生網絡計算的結果綜合權衡得到結果。 模型的整體框架,如圖1 所示。

圖1 偽孿生網絡檢測模型框架

基于偽孿生網絡對于相似性檢測具有很好反饋的特性,使用兩對偽孿生網絡,并對稱組建了如上圖的角色分析模型。 模型輸入可以被分為兩塊:文章作者行為數據和審稿人行為數據,分別輸入到上方偽孿生網絡和下方網絡進行分析計算。 每一對偽孿生網絡不共享彼此的權重參數w,而是使用各自訓練的參數w1,w2,w3,w4。 偽孿生網絡訓練采用對比損失函數,以此評估網絡區分一對給定數據的能力或效果,對比損失函數公式如下:

為了度量當前角色的行為異常性,每對偽孿生網絡都被設計成左、右兩個分支網絡,左分支網絡的輸入是需要判斷的當前角色操作行為樣本,右分支網絡輸入則是符合該角色行為合理區間的任一常規行為樣本。Owi(inputi) 為分支網絡對當前輸入樣本input i的計算結果,即異常概率。 特別的,因為右分支網絡使用的是角色合理區間的行為樣本,所以輸出結果始終在正常概率區間內。 偽孿生網絡的兩個輸出結果的差值決定了角色行為的偏差距離。 本研究使用了歐氏距離計算了結果的偏差程度。 最后,模型決策器會考慮兩位角色的行為偏差程度,輸出最終結果。

2.2 分支網絡模型

為了提高模型的效率,本文簡化了單個分支網絡的組成元素。 分支網絡層次架構如圖2 所示。 本文實驗數據可總體分為文本數據和行為統計數據,將統計的數值型數據直接送入已構建的多層前饋神經網絡中計算,而對于部分文本數據則需要通過語義分析將句子化為分詞,然后進行詞向量表達,構成詞嵌入矩陣w,每個句子都可構成單獨的詞嵌入矩陣wi。 在自然語言處理模型中,將詞嵌入向量求取平均值以獲取整個文本在向量空間中的表示。 這是通用的做法,本研究延續了這種經典的做法。 最后使用余弦公式計算向量之間的夾角余弦值,這樣就得到了文本間相似度。

圖2 分支網絡層次模型

經過實驗和調整,本文中的多層神經網絡最終由3層構成。 第一層作為輸入層由8 個神經單元構成,接收來自角色的不同行為統計數據和經過語義分析計算后文本相似度數值。 如上圖所示,經過語義層得到的相似概率作為輸入層的輸入之一。 在隱藏層,本研究設置了5 個神經單元計算特征向量,再多的神經單元則會產生過擬合的風險,這一層使用了PRelu 激活函數,xj表示第j 個feature map,αi為需要學習的參數,公式參照如下:

最后,在輸出層設置一個神經單元,并采用softmax激活函數計算分類概率得出預測結果。 每一對偽孿生網絡都會得出兩個輸出結果,則一共計算得到2 對概率數值,可分別表示當前行為所隱藏的異常性與普通操作所隱藏的異常性。 顯然,計算兩者的歐氏距離Dis(Lout,Rout) 可獲得異常偏差值,其中,Lout為左分支網絡輸出結果,Rout為右分支網絡輸出結果。 這代表了此時行為與正常行為的偏離程度,值越大代表隱含的異常可能越大,越小則越接近普通行為。

3 數據處理

3.1 數據集

本文的實驗數據從合作出版商拿到了相關用戶的行為數據集,包括作者的登錄、數據修改、文章投稿、文章接受時間、文章出版時間等,同行評議相關的審稿數據包括審稿次數、審稿時長、文章建議等多種數據,共計3 萬多平臺用戶的相關信息被采用。 其中,對原始數據進行了大量的前期處理,將部分臟數據和錯誤數據清除,同時計算了相關行為數據的影響因子,篩出與本次實驗關聯度較低的變量,得到了更精煉的數據集。角色行為數據集如表1 所示。

表1 角色行為數據集

3.2 評估標準

為了評估模型的性能和有效性,本文采用了混淆矩陣中的查準率(precision)、準確率(accuracy)和召回率(recall)3 個指標作為評價標準。 查準率指模型判定為正例的樣本中真正的正例樣本的比重,準確率指模型判定正確樣本在所用樣本中的比重,召回率指模型判定正例占總的正例的比重。 公式如(3)(4)和(5)所示。

其中,FP表示將真實負例預測為正例的數量,TP表示將真實正例預測為正例的數量,TN表示將真實負例預測為負例的數量,FN表示將真實正例預測為負例的數量。

4 實驗

4.1 對比方法

本文采用了多角色行為變量作為模型參數,預測當前用戶在期刊投稿平臺中是否存在不端行為。 根據角色的不同,本研究設計了3 次對比實驗,分別對僅有作者、僅有審稿人和多角色進行實驗驗證。

4.2 實驗結果

經過對比實驗可以發現,僅通過單一角色行為進行檢測分析,模型性能并不能達到令人滿意的結果。當把多角色的行為一起考慮并加入模型中訓練,整體預測水平得到了一定的提高。 實驗結果如表2 所示。

表2 對比實驗結果

第一次實驗僅考慮通過作者的行為進行預測,從表中看出模型有了相當的預測水準,準確率和查準率分別為66.8%和71.2%,介于兩者之間,而召回率已達到較高水平。 第二次實驗僅考慮審稿人行為作為模型輸入,訓練后的模型性能最差,其3 個評價指標都為最低,說明審稿人行為對其預測任務的影響因素要遠低于作者。 第三次實驗綜合了兩者,模型性能有所提高,準確率的提升最為明顯達到76.5%,召回率提升有限,僅提高了0.4%。 從3 次實驗可以看出,僅靠單一角色不能有效提升模型預測性能,而加入多位角色的行為進行分析評估可以有效檢測出潛在的學術不端行為。

5 結語

如今,涵蓋多種學術不端的現象越發突出,面向學術不端場景的檢測模型需要更加敏感和全面,僅通過檢測抄襲或剽竊類型的方法無法滿足當前日益突出的學術問題。 文本提出了一種基于多角色行為的偽孿生網絡檢測模型,分析多個角色在期刊平臺上的操作行為,并通過構建偽孿生網絡計算角色行為偏差值,獲取行為異常性從而發現潛在的學術不端行為。 實驗證明,該模型可以有效地檢測出其中具有的惡意投稿、重復投稿、審稿合謀等非文本層面的學術不端現象,提高了關于平臺學術不端的檢測效率。

猜你喜歡
語義文本實驗
記一次有趣的實驗
語言與語義
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 99久久精品视香蕉蕉| 国产91成人| 国产精品林美惠子在线播放| 日本精品一在线观看视频| 免费毛片视频| 在线视频一区二区三区不卡| 一级毛片不卡片免费观看| 精品少妇三级亚洲| 国产在线自揄拍揄视频网站| 制服丝袜国产精品| 国产一二三区视频| 91精品在线视频观看| 亚洲视频免费在线看| 久草视频精品| 欧美激情一区二区三区成人| 嫩草国产在线| 无码日韩视频| 国产成年无码AⅤ片在线| AV无码一区二区三区四区| 国精品91人妻无码一区二区三区| 日本尹人综合香蕉在线观看| 日韩视频免费| 国产亚洲欧美另类一区二区| 亚洲日韩精品综合在线一区二区| 国产97区一区二区三区无码| 99成人在线观看| 亚洲天堂伊人| 91精品综合| 台湾AV国片精品女同性| 国产第二十一页| 欧美不卡视频在线观看| 99热这里只有免费国产精品 | 2022精品国偷自产免费观看| 国产成人无码综合亚洲日韩不卡| 二级特黄绝大片免费视频大片| 国产欧美日韩专区发布| 国产精品美女网站| 嫩草影院在线观看精品视频| 最新亚洲人成网站在线观看| 久久久久久久蜜桃| 亚洲视频二| 中国黄色一级视频| 麻豆精品在线视频| 中文字幕欧美成人免费| 亚洲欧美精品一中文字幕| 国产三级毛片| 欧美日韩一区二区三区在线视频| 很黄的网站在线观看| 亚洲成人在线免费观看| 扒开粉嫩的小缝隙喷白浆视频| 无码专区国产精品第一页| 国产区91| 久久久精品无码一二三区| 日韩美毛片| 亚洲AV无码乱码在线观看代蜜桃 | 国产精品白浆无码流出在线看| 国产在线啪| 中文字幕日韩欧美| 又黄又湿又爽的视频| 久久性妇女精品免费| 99热这里只有免费国产精品| 亚洲不卡网| 国产成a人片在线播放| 91视频首页| 亚洲天堂在线免费| 网友自拍视频精品区| 国模私拍一区二区| 亚洲最大看欧美片网站地址| 人妻无码一区二区视频| 久久久波多野结衣av一区二区| 精品视频一区在线观看| 国产精品自拍露脸视频| 亚洲成人动漫在线| 成人综合网址| 亚洲欧美成aⅴ人在线观看| 久久综合一个色综合网| 免费va国产在线观看| 精品久久人人爽人人玩人人妻| 高清免费毛片| 欧美国产三级| 蜜臀AV在线播放| 欧美成人怡春院在线激情|