鞠秀芳
〔摘要〕真實性、準確性、直接性與完整性是引用參考文獻的首要準則,然而種種研究表明,當前的研究論著中引而不注、過度引用、模糊標注甚至虛假引用等不當引用行為日漸增多,這極大地影響了科學研究領域的學術風氣,給讀者閱讀、期刊審稿及成果評定等工作帶來了許多不便。本文利用文本相似度算法建立期刊引文有效性識別方法,試圖從海量期刊引文數據中識別出期刊引文的真實有效性。實驗表明,本文的期刊引文有效性識別方法在引文有效性方面實現了較好的識別效果,可為虛假引文的識別工作提供可靠的依據,從而為編輯人員發現、 修正虛假引用問題提供幫助,彰顯科學研究的嚴謹務實精神。
〔關鍵詞〕文本相似度;虛假引文;引文有效性;向量空間模型
DOI:10.3969/j.issn.1008-0821.2018.11.003
〔中圖分類號〕G250252〔文獻標識碼〕A〔文章編號〕1008-0821(2018)11-0014-04
Research on Identification of Journal Citation Validity
Based on Text Similarity AnalysisJu Xiufang
(Institute for Chinese Social Sciences Research and Assessment,Nanjing University,Nanjing 210093,China)
〔Abstract〕Truth,accuracy,directness and completeness are the primary criteria for citing references.However,various studies have shown that miscitations such as omission,excessive citation,fuzzy labeling and even false citation in current research works are becoming more and more normal,which have greatly affected the academic atmosphere in the field of scientific research.Peoples reading,periodical review and evaluation of results have brought a lot of inconvenience.In this paper,the text similarity algorithm was used to establish a method to identify the validity of periodical citations,trying to identify the true validity of periodical citations from a large number of periodical citation data.Experiments showed that this method achieved a good recognition effect on Citation validity,and provided a reliable basis for the identification of false citations,thus providing help for editors to find and correct false citations,and highlighting the rigorous and pragmatic spirit of scientific research.
〔Key words〕text similarity;false citation;citation validity;vector space model
一般來說,真實性、準確性、直接性與完整性是引用參考文獻的基本要求。隨著引文分析法在論文評價、期刊評價、科學家評價、學科評價、科研績效評價和科技競爭力評價等各個領域的廣泛應用,參考文獻正慢慢脫離“展示科學研究的繼承性”這一初衷,越來越多地受到作者、編輯、機構等多方面的人為影響,種種不當引用行為日漸增多[1]。王立宏等認為學術不端行為(抄襲、剽竊、誘引、匿引、轉引、濫引、崇引、引而不標)和引用不當行為(過度引用、錯標、誤標、引用時差)是不當引用的兩大主要表現形式[2];金鐵成認為期刊編輯同樣存在引文失范行為,共有6類行為:學術論文文后沒有引文、學術期刊編輯隨意刪減作者的引文、限制論文的引文數量、文中不標注引文編號、期刊過度自引、期刊互惠引用等[3]。種種不當的引用行為極大地影響了科學研究領域的學術風氣,給讀者閱讀、期刊審稿及成果評定等工作帶來了許多不便。其中,虛假引用無論是從引文質量還是學術影響上更是首當其沖,對學者、期刊、管理者造成了多方面不良的影響。如何從數量巨大、類型復雜的期刊引文數據中識別出期刊引文的真實有效性,為學術研究正本清源,彰顯科學研究的嚴謹務實精神,是當前引文分析研究領域急需解決的問題之一。
在情報檢索和信息處理中,面對海量的非結構化的學術論文,關鍵技術之一就是文本內容的相似度計算技術。文本相似度的計算是各應用領域(如搜索引擎、新聞推送、文本聚類與分類、網頁查重、機器翻譯、自動問答系統等)處理自然語言的關鍵技術之一,也是信息處理領域的熱點和難點,受到了廣大研究領域的高度重視。本文針對虛假引用現象,利用文本相似度算法深入論文內容研究,嘗試從海量文獻中識別出期刊引文的真實有效性。
2018年11月第38卷第11期現代情報Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于文本相似度分析的期刊引文有效性識別研究Nov.,2018Vol38No111引文有效性的定義及分析
引文引用是否有效的核心是施引論文中的觀點是否真實有效的出現在被引文獻之中。一般來說,引用參考文獻通常有4種情況:
1)引用有歷史背景和意義的文獻;
2)引用實驗中的方法;
3)引用支持性或批判性的證據;
4)引用相關文獻用于比較。
科研工作者出于上述目的在引用他人的概念、數據、觀點時出于表達的需要,通常有直接引用、間接引用、轉引以及隱含引用幾種情況。
無論哪種引用目的、哪種引用方式,參考文獻的觀點、數據、表述需要真實有效的出現在施引文獻中,方可判定引文是有效引用。鑒于參考文獻表明了科學研究的某種繼承性,本文認為在施引文獻和參考文獻之間天然存在相關性,但一般情況下兩者之間并不存在上下關系、同義關系或整體——部分等相關關系,施引文獻和參考文獻的整體相關性并不高。施引文獻和參考文獻兩者相關只是因為施引文獻引用了參考文獻中的部分內容、觀點或數據,即參考文獻被引用的內容和施引文獻中引用的內容具有相似性。一般來說,直接引用的內容相似性高,間接引用或轉引的內容相似性略低。因此本文認為,如施引文獻中引用的文字內容與參考文獻中的某段表述、數據、觀點具有相似性,則稱為引文有效,否則則稱為引文無效。對引文有效性的識別可用參考文獻與施引文獻引用的文本內容的相似性程度進行度量。
2文本相似度計算
一般來說,相關文本的兩個或多個變量之間存在以下依存關系:上下關系、同義關系、反義關系、整體——部分關系,主體——屬性關系等,反映出文本變量之間的關聯。相似文本的變量之間則一般表現為同義關系、上下關系、整體——部分關系。
由于應用場景以及需要解決問題、達成目標的差異性,學界對文本相似度尚沒有統一定義。本文認為文本相似度分析是指對兩個給定的文本通過詞匯、語句、段落進行比較,判定兩者的差異,從而確定文本的相似程度,通常用[0,1]之間的某個數值進行度量。相似性越強,數值越接近1(意味著比較的文本完全相同);相似性越弱,數值越接近0(意味著比較的文本完全不同)。Lin D在文獻An Information-theoretic Definition of Similarity中給出了相似度定理[4]:
Sim(A,B)=logP(common(A,B))logP(desctription(A,B))(1)
common(A,B)是比較文本A、B的共性部分,description(A,B)是比較文本A、B的全部信息。此定義由于其通用性,是在多種應用領域下采用較多的概念。
國內外研究人員針對不同應用提出了諸多相似度計算方法并已成功應用。目前已有的可用于文本相似度計算的有向量空間模型(Vector Space Model)、布爾模型、隱含語義標引(Latent Semantic Index)模型、P-normal模型、字符串匹配模型、概率模型等文本表示模型。這些模型運用數學的語言和工具對文本信息及其處理過程加以翻譯和抽象,解決文本相似度計算中的文本表示、特征加權和相似度計算問題。其中Salton等于20世紀60年代末提出的向量空間模型VSM(Vector Space Model)是目前最有效的文本結構化表示模型,已經被廣泛用于文本檢索、自動文摘、自動分類、機器翻譯、輿情控制等領域。VSM認為詞與詞之間是獨立的,文本表達的意義與詞語在文中出現的順序與位置沒有關聯,僅與詞語出現的次數有關。如參考文獻A可以看成是由詞語(a1,a2,a3,…,an)構成,每一個詞語ai的權重Wi就是n維坐標所對應的坐標值,由此參考文獻A可以用一個n維的文本向量空間表示。對于解決文本的相似度問題VSM有很強的可計算性和可操作性,是本文進行相似度計算的主要方法[5]。
3期刊引文有效性識別方法與實現
對引文有效性的識別即對引用內容與參考文獻內容相似度的計算。本文的引文有效性識別方法主要分成3步:文本表示,特征詞權重確定,相似度計算。
31參考文獻的文本表示
文本表示是指從參考文獻和引用內容中抽取出能體現參考文獻主要內容的特征詞,以形成參考文獻的向量表示,包括參考文獻和施引文獻引用的內容部分,主要解決抽取什么特征向量和抽取多少特征項量的問題。
期刊論文是人類自然語言的文本表示,屬于非結構化信息。為了便于計算機處理論文信息,需要將論文進行預處理,即將非結構化的論文信息轉化為能夠被計算機直接處理的結構化文本信息,通常有分詞和去停用詞兩個步驟。
分詞就是將待比較的論文切割成單個的詞,并根據詞性進行標注。目前常用的漢語分詞系統有:ICTCLAS分詞系統、HTTPCWS、SCWS——簡易中文分詞系統、PhpanAlysis、盤古分詞、MMSEG4J無組件分詞系統以及中國科學院的NLPIR中文分詞系統。NLPIR中文分詞系統可以基于信息交叉熵自動發現新特征語言,從較長的文本內容中自適應測試語料的語言概率分布模型,實現自適應分詞,在本文的期刊引文識別方法中分詞效果最好,是本文主要使用的分詞方法[6]。
文本預處理的第二步是去停用詞。所謂停用詞是指出現頻率較高但實際意義不大的詞,包括連詞、嘆詞、語氣詞等沒有實際意義的功能詞以及地名、人名等詞匯詞。去除、過濾停用詞可以有效降低文本相似度計算的誤差,提高計算效率并節省存儲空間。目前使用的停用詞都是根據人類經驗非自動化生成的,由此匯集而成停用詞表,目前尚沒有普遍應用的通用停用詞表工具。已有停用詞表包括哈工大停用詞詞庫”、“四川大學機器學習智能實驗室停用詞庫”、百度停用詞表“等。
考慮到引文有效性識別過程中涉及的參考文獻詞匯量比較大,如果將文本預處理之后的每個詞語都作為特征項,必然出現維度非常高的情形。為了提高計算計算效率,本文需要對特征項進行降維處理。傳統VSM無法回避同義詞、多義詞現象,需要對這些原始詞進行“合成”,使用SVD對原始的文本向量組成的矩陣分解以實現將原來的向量轉換成新的向量,從而消除詞的同義性和多義性對表征文本從而導致計算效果不佳的影響。圖1期刊引文有效性識別文本表示模塊