999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本相似度分析的期刊引文有效性識別研究

2018-01-07 09:41:14鞠秀芳
現代情報 2018年11期

鞠秀芳

〔摘要〕真實性、準確性、直接性與完整性是引用參考文獻的首要準則,然而種種研究表明,當前的研究論著中引而不注、過度引用、模糊標注甚至虛假引用等不當引用行為日漸增多,這極大地影響了科學研究領域的學術風氣,給讀者閱讀、期刊審稿及成果評定等工作帶來了許多不便。本文利用文本相似度算法建立期刊引文有效性識別方法,試圖從海量期刊引文數據中識別出期刊引文的真實有效性。實驗表明,本文的期刊引文有效性識別方法在引文有效性方面實現了較好的識別效果,可為虛假引文的識別工作提供可靠的依據,從而為編輯人員發現、 修正虛假引用問題提供幫助,彰顯科學研究的嚴謹務實精神。

〔關鍵詞〕文本相似度;虛假引文;引文有效性;向量空間模型

DOI:10.3969/j.issn.1008-0821.2018.11.003

〔中圖分類號〕G250252〔文獻標識碼〕A〔文章編號〕1008-0821(2018)11-0014-04

Research on Identification of Journal Citation Validity

Based on Text Similarity AnalysisJu Xiufang

(Institute for Chinese Social Sciences Research and Assessment,Nanjing University,Nanjing 210093,China)

〔Abstract〕Truth,accuracy,directness and completeness are the primary criteria for citing references.However,various studies have shown that miscitations such as omission,excessive citation,fuzzy labeling and even false citation in current research works are becoming more and more normal,which have greatly affected the academic atmosphere in the field of scientific research.Peoples reading,periodical review and evaluation of results have brought a lot of inconvenience.In this paper,the text similarity algorithm was used to establish a method to identify the validity of periodical citations,trying to identify the true validity of periodical citations from a large number of periodical citation data.Experiments showed that this method achieved a good recognition effect on Citation validity,and provided a reliable basis for the identification of false citations,thus providing help for editors to find and correct false citations,and highlighting the rigorous and pragmatic spirit of scientific research.

〔Key words〕text similarity;false citation;citation validity;vector space model

一般來說,真實性、準確性、直接性與完整性是引用參考文獻的基本要求。隨著引文分析法在論文評價、期刊評價、科學家評價、學科評價、科研績效評價和科技競爭力評價等各個領域的廣泛應用,參考文獻正慢慢脫離“展示科學研究的繼承性”這一初衷,越來越多地受到作者、編輯、機構等多方面的人為影響,種種不當引用行為日漸增多[1]。王立宏等認為學術不端行為(抄襲、剽竊、誘引、匿引、轉引、濫引、崇引、引而不標)和引用不當行為(過度引用、錯標、誤標、引用時差)是不當引用的兩大主要表現形式[2];金鐵成認為期刊編輯同樣存在引文失范行為,共有6類行為:學術論文文后沒有引文、學術期刊編輯隨意刪減作者的引文、限制論文的引文數量、文中不標注引文編號、期刊過度自引、期刊互惠引用等[3]。種種不當的引用行為極大地影響了科學研究領域的學術風氣,給讀者閱讀、期刊審稿及成果評定等工作帶來了許多不便。其中,虛假引用無論是從引文質量還是學術影響上更是首當其沖,對學者、期刊、管理者造成了多方面不良的影響。如何從數量巨大、類型復雜的期刊引文數據中識別出期刊引文的真實有效性,為學術研究正本清源,彰顯科學研究的嚴謹務實精神,是當前引文分析研究領域急需解決的問題之一。

在情報檢索和信息處理中,面對海量的非結構化的學術論文,關鍵技術之一就是文本內容的相似度計算技術。文本相似度的計算是各應用領域(如搜索引擎、新聞推送、文本聚類與分類、網頁查重、機器翻譯、自動問答系統等)處理自然語言的關鍵技術之一,也是信息處理領域的熱點和難點,受到了廣大研究領域的高度重視。本文針對虛假引用現象,利用文本相似度算法深入論文內容研究,嘗試從海量文獻中識別出期刊引文的真實有效性。

2018年11月第38卷第11期現代情報Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于文本相似度分析的期刊引文有效性識別研究Nov.,2018Vol38No111引文有效性的定義及分析

引文引用是否有效的核心是施引論文中的觀點是否真實有效的出現在被引文獻之中。一般來說,引用參考文獻通常有4種情況:

1)引用有歷史背景和意義的文獻;

2)引用實驗中的方法;

3)引用支持性或批判性的證據;

4)引用相關文獻用于比較。

科研工作者出于上述目的在引用他人的概念、數據、觀點時出于表達的需要,通常有直接引用、間接引用、轉引以及隱含引用幾種情況。

無論哪種引用目的、哪種引用方式,參考文獻的觀點、數據、表述需要真實有效的出現在施引文獻中,方可判定引文是有效引用。鑒于參考文獻表明了科學研究的某種繼承性,本文認為在施引文獻和參考文獻之間天然存在相關性,但一般情況下兩者之間并不存在上下關系、同義關系或整體——部分等相關關系,施引文獻和參考文獻的整體相關性并不高。施引文獻和參考文獻兩者相關只是因為施引文獻引用了參考文獻中的部分內容、觀點或數據,即參考文獻被引用的內容和施引文獻中引用的內容具有相似性。一般來說,直接引用的內容相似性高,間接引用或轉引的內容相似性略低。因此本文認為,如施引文獻中引用的文字內容與參考文獻中的某段表述、數據、觀點具有相似性,則稱為引文有效,否則則稱為引文無效。對引文有效性的識別可用參考文獻與施引文獻引用的文本內容的相似性程度進行度量。

2文本相似度計算

一般來說,相關文本的兩個或多個變量之間存在以下依存關系:上下關系、同義關系、反義關系、整體——部分關系,主體——屬性關系等,反映出文本變量之間的關聯。相似文本的變量之間則一般表現為同義關系、上下關系、整體——部分關系。

由于應用場景以及需要解決問題、達成目標的差異性,學界對文本相似度尚沒有統一定義。本文認為文本相似度分析是指對兩個給定的文本通過詞匯、語句、段落進行比較,判定兩者的差異,從而確定文本的相似程度,通常用[0,1]之間的某個數值進行度量。相似性越強,數值越接近1(意味著比較的文本完全相同);相似性越弱,數值越接近0(意味著比較的文本完全不同)。Lin D在文獻An Information-theoretic Definition of Similarity中給出了相似度定理[4]:

Sim(A,B)=logP(common(A,B))logP(desctription(A,B))(1)

common(A,B)是比較文本A、B的共性部分,description(A,B)是比較文本A、B的全部信息。此定義由于其通用性,是在多種應用領域下采用較多的概念。

國內外研究人員針對不同應用提出了諸多相似度計算方法并已成功應用。目前已有的可用于文本相似度計算的有向量空間模型(Vector Space Model)、布爾模型、隱含語義標引(Latent Semantic Index)模型、P-normal模型、字符串匹配模型、概率模型等文本表示模型。這些模型運用數學的語言和工具對文本信息及其處理過程加以翻譯和抽象,解決文本相似度計算中的文本表示、特征加權和相似度計算問題。其中Salton等于20世紀60年代末提出的向量空間模型VSM(Vector Space Model)是目前最有效的文本結構化表示模型,已經被廣泛用于文本檢索、自動文摘、自動分類、機器翻譯、輿情控制等領域。VSM認為詞與詞之間是獨立的,文本表達的意義與詞語在文中出現的順序與位置沒有關聯,僅與詞語出現的次數有關。如參考文獻A可以看成是由詞語(a1,a2,a3,…,an)構成,每一個詞語ai的權重Wi就是n維坐標所對應的坐標值,由此參考文獻A可以用一個n維的文本向量空間表示。對于解決文本的相似度問題VSM有很強的可計算性和可操作性,是本文進行相似度計算的主要方法[5]。

3期刊引文有效性識別方法與實現

對引文有效性的識別即對引用內容與參考文獻內容相似度的計算。本文的引文有效性識別方法主要分成3步:文本表示,特征詞權重確定,相似度計算。

31參考文獻的文本表示

文本表示是指從參考文獻和引用內容中抽取出能體現參考文獻主要內容的特征詞,以形成參考文獻的向量表示,包括參考文獻和施引文獻引用的內容部分,主要解決抽取什么特征向量和抽取多少特征項量的問題。

期刊論文是人類自然語言的文本表示,屬于非結構化信息。為了便于計算機處理論文信息,需要將論文進行預處理,即將非結構化的論文信息轉化為能夠被計算機直接處理的結構化文本信息,通常有分詞和去停用詞兩個步驟。

分詞就是將待比較的論文切割成單個的詞,并根據詞性進行標注。目前常用的漢語分詞系統有:ICTCLAS分詞系統、HTTPCWS、SCWS——簡易中文分詞系統、PhpanAlysis、盤古分詞、MMSEG4J無組件分詞系統以及中國科學院的NLPIR中文分詞系統。NLPIR中文分詞系統可以基于信息交叉熵自動發現新特征語言,從較長的文本內容中自適應測試語料的語言概率分布模型,實現自適應分詞,在本文的期刊引文識別方法中分詞效果最好,是本文主要使用的分詞方法[6]。

文本預處理的第二步是去停用詞。所謂停用詞是指出現頻率較高但實際意義不大的詞,包括連詞、嘆詞、語氣詞等沒有實際意義的功能詞以及地名、人名等詞匯詞。去除、過濾停用詞可以有效降低文本相似度計算的誤差,提高計算效率并節省存儲空間。目前使用的停用詞都是根據人類經驗非自動化生成的,由此匯集而成停用詞表,目前尚沒有普遍應用的通用停用詞表工具。已有停用詞表包括哈工大停用詞詞庫”、“四川大學機器學習智能實驗室停用詞庫”、百度停用詞表“等。

考慮到引文有效性識別過程中涉及的參考文獻詞匯量比較大,如果將文本預處理之后的每個詞語都作為特征項,必然出現維度非常高的情形。為了提高計算計算效率,本文需要對特征項進行降維處理。傳統VSM無法回避同義詞、多義詞現象,需要對這些原始詞進行“合成”,使用SVD對原始的文本向量組成的矩陣分解以實現將原來的向量轉換成新的向量,從而消除詞的同義性和多義性對表征文本從而導致計算效果不佳的影響。圖1期刊引文有效性識別文本表示模塊

主站蜘蛛池模板: 97国产一区二区精品久久呦| 成人日韩精品| 午夜日本永久乱码免费播放片| 色吊丝av中文字幕| 欧美日韩精品一区二区视频| 国产精品美女网站| 四虎永久在线精品国产免费| 欧美啪啪一区| 亚洲第一在线播放| 一区二区三区精品视频在线观看| 国产成人永久免费视频| 国产91麻豆视频| 成人福利在线视频免费观看| 国产成人福利在线| 免费一级毛片不卡在线播放| 91成人在线观看视频| 国产精品香蕉| 国产成人精品高清在线| 午夜激情福利视频| 在线播放国产一区| 久久国产高潮流白浆免费观看| jizz在线观看| AV色爱天堂网| 鲁鲁鲁爽爽爽在线视频观看| 精品国产电影久久九九| 高潮毛片免费观看| 午夜无码一区二区三区在线app| 动漫精品中文字幕无码| 国产精品刺激对白在线| 欧美第九页| 99视频精品在线观看| 日本亚洲最大的色成网站www| 亚洲日韩AV无码一区二区三区人| 国产丝袜第一页| 国产视频自拍一区| 欧美一区福利| 亚洲综合精品香蕉久久网| 黄片在线永久| 亚洲三级a| 久久国产精品国产自线拍| 国产成人精品一区二区| 久久综合亚洲色一区二区三区| 老司国产精品视频91| 91青青视频| 99爱视频精品免视看| 亚洲天堂视频在线免费观看| 亚洲国产成人久久精品软件| 国产亚洲精品97AA片在线播放| 亚洲第一天堂无码专区| 亚洲第一中文字幕| 国产精品亚洲天堂| 毛片网站在线看| 国产第一色| 香蕉视频在线观看www| 久久精品亚洲中文字幕乱码| 日本免费福利视频| 精品无码一区二区三区电影| 国产精品人人做人人爽人人添| 在线播放真实国产乱子伦| 欧美成人综合在线| 经典三级久久| 欧美天堂在线| a亚洲视频| a毛片在线播放| 成人免费午夜视频| 97se亚洲综合在线| 全部无卡免费的毛片在线看| 一区二区自拍| 亚洲国产综合自在线另类| 手机精品视频在线观看免费| 不卡无码网| 亚洲精品亚洲人成在线| 日韩欧美中文| 久久久受www免费人成| 成人永久免费A∨一级在线播放| 91丝袜在线观看| 亚洲欧美一级一级a| 99ri精品视频在线观看播放| 青青国产成人免费精品视频| 国产高清在线丝袜精品一区| 亚洲成A人V欧美综合天堂| 欧美日韩v|