999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關鍵詞的期刊發(fā)文的相似性測度研究

2018-01-07 09:41:14田大芳張瑞麗魏瑞斌
現(xiàn)代情報 2018年11期
關鍵詞:研究

田大芳 張瑞麗 魏瑞斌

〔摘要〕[目的/意義]關鍵詞是反映期刊研究主題、研究方法和數(shù)據(jù)源等信息的重要途徑。本文嘗試通過論文關鍵詞來研究學術期刊的相似度,為期刊分類等學術研究和實際工作提供參考。[方法/過程]首先,在相關文獻梳理的基礎上,提出了基于論文關鍵詞的兩種期刊相似度計算方法。然后,以《中國圖書館學報》和《情報學報》為實證對象,從CSSCI采集了兩種期刊1998-2017年的關鍵詞數(shù)據(jù)。最后,計算了兩種期刊的相似度,并分析了兩種期刊論文的共現(xiàn)關鍵詞。[結論]研究發(fā)現(xiàn),兩種期刊的相似度有一定波動,但整體上呈現(xiàn)為一個下降趨勢。這反映出兩種期刊上發(fā)表的論文的相似性在不斷下降,而差異性在不斷增加。

〔關鍵詞〕關鍵詞;期刊相似性;TF-IDF算法;余弦相似性;學術期刊

DOI:10.3969/j.issn.1008-0821.2018.11.018

〔中圖分類號〕G250252〔文獻標識碼〕A〔文章編號〕1008-0821(2018)11-0105-04

Study on Measuring the Journal Similarity Based on the KeywordsTian Dafang1Zhang Ruili2Wei Ruibin3

(1.Library,Anhui University of Finance and Economics,Bengbu 233030,China;

2.Library,Shanxi University of Finance and Economics,Taiyuan 030006,China;

3.School of Management Science and Engineering,Anhui University of Finance and Economics,

Bengbu 233030,China)

〔Abstract〕[Purpose/Significance]Keywords are important ways to reflect the research topics,research methods,and data sources of journal articles.This paper aimed to study the similarity of academic journals through the key words of the paper and provided reference for academic research and practical work such as journal classification.[Method/Process]First,based on the review of relevant literatures,two kinds of journal similarity calculation methods based on the keywords of the paper were proposed.And then,the paper took Journal of library Science in China and Journal of the China Society for Scientific and Technical Information as examples and collected keywords of the two journals from CSSCI during 1998 and 2017.Finally,the similarities between the two journals were calculated.The co-occurrence keywords of two journal articles were analyzed.[Result/Conclusion]The result showed that there were certain fluctuations in the similarities between the two journals.However,the overall trend was a downward trend.This showed that the similarities of the papers published in the two journals were declining,and the differences were increasing.

〔Key words〕keywords;journal similarity;TF-IDF;cosine similarity;co-words network;academic journal

《科學技術報告、學位論文和學術論文的編寫格式(國家標準GB7713-87)》中明確指出,關鍵詞是為了文獻標引工作從報告、論文中選取出來用以表示全文主題內容信息款目的單詞或術語。每篇報告、論文選取3~8個關鍵詞。學術論文的關鍵詞與論文的題目一起構成了學術論文的“眼睛”,構成了閱讀者對一篇論文的直觀的學術印象。學術論文關鍵詞是提升學術期刊影響力的“助推器”[1]。許多學者通過論文關鍵詞展開了學科研究熱點[2]、主題演變[3]和學科交叉[4]等方面的相關研究。劉萍等[5]利用作者關鍵詞共現(xiàn)網(wǎng)絡,基于SimRank研究了作者相似度。從文獻檢索結果看,國內學者對期刊相似度的研究還較少。本文將通過研究期刊相似度來分析學術期刊發(fā)文的特點和規(guī)律,為期刊分類和期刊評價等方面的學術研究和實際工作提供參考。

2018年11月第38卷第11期現(xiàn)代情報Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于關鍵詞的期刊發(fā)文的相似性測度研究Nov.,2018Vol38No111研究方法

論文關鍵詞在一定程度上可以反映出論文研究主題、研究方法、數(shù)據(jù)源或研究背景等內容的。從劉萍等[6]、吳夙慧等[7]的綜述看,詞匯相似度研究作為自然語言處理中一項基礎性研究,被廣泛應用于機器翻譯、文本智能檢索、自動問答系統(tǒng)、文檔分類和聚類等方面。本研究的邏輯基礎是,如果兩種期刊共現(xiàn)的關鍵詞越多,那么可以認為這兩種期刊發(fā)文在研究主題等方面越接近,它們的相似性越高。

為了能夠定量分析兩種期刊的相似性,本文提出兩種計算方法來測度。

11共現(xiàn)關鍵詞算法

假設期刊A在某年發(fā)表的論文共有關鍵詞形成一個集合A={A1,A2,…,An};期刊B在某個的關鍵詞集合為B={B1,B2,…,Bn}。那么兩種期刊的相似性為:

(A∩B)/(A∪B)

即兩種期刊中同時出現(xiàn)的關鍵詞個數(shù)除以所有的關鍵詞個數(shù)。如果這個值越大,它們越相似。這種方法僅考慮了兩種期刊同時出現(xiàn)的關鍵詞個數(shù),沒有考慮同時出現(xiàn)的關鍵詞的次數(shù)及兩種期刊關鍵詞總數(shù)的規(guī)模等因素,其計算結果有一定的局限性。

12TF-IDF和余弦相似性算法

TF-IDF是Salton等[8]在1988年提出的一種詞頻統(tǒng)計方法。該方法主要用于評估詞語對于文檔集或語料庫中文本的重要程度。詞頻(TF)表示特定詞在文檔中出現(xiàn)的頻率。逆文檔頻率(IDF)用來評價詞語對于語料庫的普遍性。TF-IDF值由TF值乘以TDF值得到。余弦相似性通過測量兩個向量的夾角的余弦值來度量它們之間的相似性。武永亮等[9]基于TF-IDF和余弦相似度研究了文本分類方法。蔣永新等[10]利用TF-IDF分析了圖書情報學核心期刊學科特征。本文則結合這兩種方法來測度期刊的相似度。

TF-IDF和余弦相似性算法具體計算方法如下:

1)計算詞頻

考慮期刊發(fā)文數(shù)量的不同,為了便于不同期刊的比較,進行“詞頻”標準化。其計算方法為:詞頻(TF)=某個詞在期刊某時間窗口所有論文中出現(xiàn)的次數(shù)/該期刊某時間窗口的關鍵詞總數(shù)。

2)計算逆文檔頻率

逆文檔頻率(IDF)=LOG(期刊的文檔總數(shù)/(包含該詞的論文數(shù)量+1))

如果一個詞越常見,那么分母就越大,逆文檔頻率就越接近于為0,分母之所以加1,是為避免分母為0(即某期刊的論文中都不包含該詞)。

3)計算TF-IDF

TF-IDF=詞頻(TF)*逆文檔頻率(IDF)

TF-IDF與一個詞在論文中出現(xiàn)的次數(shù)成正比,與該詞在整個數(shù)據(jù)集合中的出現(xiàn)次數(shù)成反比。

4)計算期刊的相似度

余弦相似度計算如公式(1)。在公式中,Ai代表期刊A論文中的一個關鍵詞,Bi代表期刊B論文中的一個關鍵詞。一種期刊由一個向量表示,該向量由出現(xiàn)在期刊的關鍵詞組成,每個關鍵詞代表一個維度,其各個維度上的值對應于該詞項的TF-IDF值。由于一個詞的TF-IDF權不能為負數(shù),所以這兩種期刊的余弦相似度范圍是從0~1。

similarity=cos(θ)=A·BAB=∑ni=1Ai×Bi∑ni=1(Ai)2×∑ni=1(Bi)2(1)

2數(shù)據(jù)來源

21研究對象的選擇及數(shù)據(jù)獲取

本文選擇《中國圖書館學報》和《情報學報》為研究對象。因為它們是國內圖書館學和情報學領域最具代表性的學術期刊。國內不少學者曾以這兩種期刊為實證對象進行過一系列相關研究。如趙忠偉等[11]以《情報學報》和《中國圖書館學報》為例,分析了我國圖書情報領域近十年科研論文研究方法的演化。邱武等[12-13]從不同角度對兩種期刊做過比較研究。

從數(shù)據(jù)的權威性、準確性、規(guī)范性和數(shù)據(jù)的可獲取性等方面綜合考慮,本文以CSSCI為數(shù)據(jù)源,下載中兩種期刊1998-2017年的相關數(shù)據(jù)。然后利用EXCEL等工具對數(shù)據(jù)進行了結構化處理。

22兩種期期刊發(fā)文量及關鍵詞分布

從1998-2017年期間,《中國圖書館學報》總的發(fā)文量是2 199篇,關鍵詞總數(shù)為8 975個,篇均關鍵詞數(shù)量約為408個,去重后的關鍵詞個數(shù)為4 863個。《情報學報》的發(fā)文量是2 532個,關鍵詞總數(shù)為10 591個,篇均關鍵詞約為418個,去重后關鍵詞個數(shù)為6 066個。

從圖1看,2006年及以前,《中國圖書館學報》的發(fā)文量略高于《情報學報》;2007年和2008年,兩種期刊的發(fā)文量基本相同;2009年開始《中國圖書館學報》的發(fā)文量出現(xiàn)了一個較大幅度的下降。由于兩種期刊的篇均關鍵詞數(shù)量基本相當,那么,期刊發(fā)文量的變化直接導致關鍵詞的數(shù)量也會發(fā)生相應的變化。結合圖2看,兩種期刊關鍵詞數(shù)量的年度分布的變化趨勢與其發(fā)文量是一致的。

3數(shù)據(jù)分析

31兩種期刊的相似度計算結果

從圖3和圖4看,兩種相似度算法的計算結果都呈現(xiàn)圖1《情報學報》和《中國圖書館學報》發(fā)文量的分布情況

為一個不斷波動,但整體下降的趨勢。這種變化趨勢反映了兩種期刊發(fā)文的相似性在不斷下降。對比圖3和圖4還可以發(fā)現(xiàn),兩張圖中,2001年、2011年和2017年與前一年的相似度變化有一定差異。圖3中是2001年、2011年與2000年和2010年相比是下降趨勢,而圖4中是上升趨勢。圖3中2017年與2016年相比是上升趨勢,而圖4中是下降趨勢。這反映出兩種相似度計算方法總體上差異不大,只是在個別年份有一定的差異。這也表明兩種計算方法雖然有差異,但其計算結果還是有非常高的一致性。從期刊相似度的絕對數(shù)值看,TF-IDF和余弦相似性算法的變化幅度更大,其對兩種期刊的相似性測度結果更加敏感。圖3共現(xiàn)關鍵詞算法的期刊相似度

32共現(xiàn)關鍵詞分析

從圖5看,兩種期刊上發(fā)表論文的關鍵詞個數(shù),從1999-2002年是一個不斷上升的趨勢;從2003-2011年期間基本是一個下降趨勢;2013-2017年期間,關鍵詞的個數(shù)基本保持在20個左右。

本文將兩種期刊論文中同時出現(xiàn)的關鍵詞分為:數(shù)據(jù)源、研究背景、研究范圍、研究方法和研究主題共5種類型。從表1看,同時出現(xiàn)最多的是反映研究主題的關鍵詞(篇幅所限,僅列出了10次以上的關鍵詞),排在前5位的分別是數(shù)字圖書館、信息服務、信息檢索、知識管理和圖圖4TF-IDF和余弦相似性算法的期刊相似度

書館學。其次是表示研究方法的關鍵詞,排在前5位的分別是引文分析、社會網(wǎng)絡分析、共詞分析、比較研究和實證研究。其它3種類型的關鍵詞數(shù)量較少。

結合原始數(shù)據(jù)看,同時出現(xiàn)頻次排在前5位的關鍵詞中,《中國圖書館學報》論文中,數(shù)字圖書館、信息服務和圖書館學的次數(shù)明顯多于《情報學報》,而《情報學報》論文中,信息檢索和知識管理要多于《中國圖書館學報》。這從一定程度上反映出,兩種期刊上雖然同時出現(xiàn)了一些關鍵詞,但還是各自有所側重。這種關鍵詞數(shù)量上的差異是兩種期刊發(fā)文主題差異性的表現(xiàn)。

4研究結論

通過期刊相似度可以將相似性較大的期刊歸為一類,將相似性較小的期刊區(qū)別開,這對于實現(xiàn)學術期刊的分類評價有一定的理論價值和現(xiàn)實意義。本文提出的兩種期刊相似性測度方法雖然計算方法不同,但最終的計算結果非常接近。通過實證結果看,《中國圖書館學報》和《情報學報》的相似度在不斷下降。這一方面可能是由于國內圖書館學和情報學兩個領域研究主題的差異在不斷增加,導致兩種期刊的差異性不斷增加,兩個領域研究的邊界更加清晰;另一方面,從發(fā)文量看,《中國圖書館學報》近年來的發(fā)文量有一個快速下降,基本保持在50~60篇左右,而《情報學報》的發(fā)文量基本保持在130~140篇左右。這兩種期刊發(fā)文量上的差異,也是形成兩種期刊相似性減小的重要因素。

本研究是基于關鍵詞的期刊相似性測度,其測度結果的準確性依賴于論文關鍵詞的質量。從文獻[1,14-15]的分析看,目前國內期刊論文的關鍵詞是由作者給定的,每個作者對論文關鍵詞的理解程度不同,所給出的關鍵詞存在漏選或泛選、用詞不規(guī)范、選詞數(shù)量隨意等問題。這些問題都可能會影響到最終的論文關鍵詞質量。今后,可以綜合考慮論文標題、摘要或全文的信息基于詞語信息研究期刊的相似性。另外,除了從論文關鍵詞的角度外,還可以結合論文作者信息、關鍵詞共詞網(wǎng)絡、論文耦合、共引或共被引等視角來研究期刊的相似性。

參考文獻

[1]章誠,張愛梅,周麗娟.畫龍點睛:學術論文關鍵詞的科學選取[J].編輯之友,2015,(9):73-76.

[2]王蘭敬.2004-2009年我國圖書館、情報與檔案管理學科的研究熱點與重點領域——基于CSSCI來源文獻關鍵詞的分析[J].圖書情報工作,2011,55(16):68-71,139.

[3]魏瑞斌.學術期刊發(fā)文主題演變的實證研究——以《情報學報》為例[J].情報雜志,2013,32(6):64-69,39.

[4]閔超,孫建軍.基于關鍵詞交集的學科交叉研究熱點分析——以圖書情報學和新聞傳播學為例[J].情報雜志,2014,33(5):76-82.

[5]劉萍,黃純萬.基于SimRank的作者相似度計算[J].情報理論與實踐,2015,38(6):109-114.

[6]劉萍,陳燁.詞匯相似度研究進展綜述[J].現(xiàn)代圖書情報技術,2012,(Z1):82-89.

[7]吳夙慧,成穎,鄭彥寧,等.文本聚類中文本表示和相似度計算研究綜述[J].情報科學,2012,30(4):622-627.

[8]Salton G,Buckley C.Term-weighting Approaches in Automatic Text Retrieval[J].Information Processing & Management,1988,24(5):513-523.

[9]武永亮,趙書良,李長鏡,等.基于TF-IDF和余弦相似度的文本分類方法[J].中文信息學報,2017,31(5):138-145.

[10]蔣永新,孫愛莉.基于TF-IDF方法的圖情學核心期刊學科特征分析[J].情報資料工作,2009,(1):89-92.

[11]趙忠偉,黃永,程齊凱,等.我國圖書情報領域近十年科研論文研究方法的演化分析——以《情報學報》和《中國圖書館學報》為例[J].信息資源管理學報,2017,7(3):106-113.

[12]邱武,趙世華,丘峰.《中國圖書館學報》與《情報學報》的比較研究(下)[J].圖書館雜志,1996,(5):15-17.

[13]邱武,趙世華,丘峰.《中國圖書館學報》與《情報學報》的比較研究(上)[J].圖書館雜志,1996,(4):9-12,21.

[14]程智強,江洪濤.科技論文關鍵詞標引應琢磨的幾個問題[J].編輯學報,2014,26(1):40-42.

[15]王丹丹.科技論文關鍵詞使用中存在的問題及解決方法[J].出版發(fā)行研究,2013,(4):102-104.

(責任編輯:郭沫含)2018年11月第38卷第11期現(xiàn)代情報Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期D&M;信息系統(tǒng)成功模型的應用與展望Nov.,2018Vol38No11

收稿日期:2018-08-12

猜你喜歡
研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
關于遼朝“一國兩制”研究的回顧與思考
EMA伺服控制系統(tǒng)研究
基于聲、光、磁、觸摸多功能控制的研究
電子制作(2018年11期)2018-08-04 03:26:04
新版C-NCAP側面碰撞假人損傷研究
關于反傾銷會計研究的思考
焊接膜層脫落的攻關研究
電子制作(2017年23期)2017-02-02 07:17:19
主站蜘蛛池模板: 无码有码中文字幕| 乱人伦视频中文字幕在线| 国产女人在线观看| 国产精品午夜电影| 国产精品九九视频| 亚洲欧美在线综合一区二区三区| a色毛片免费视频| 无码中文字幕乱码免费2| 亚洲h视频在线| 亚洲精品午夜无码电影网| 伊人成人在线视频| 性网站在线观看| 国产网站黄| 亚洲an第二区国产精品| 亚洲第一视频免费在线| 丁香六月激情综合| 欧美色视频在线| 亚洲五月激情网| 亚洲日本www| 免费A级毛片无码免费视频| 美女内射视频WWW网站午夜| 91丝袜在线观看| 国产在线视频福利资源站| 永久免费无码日韩视频| 成人av手机在线观看| 日本精品αv中文字幕| 99视频在线免费看| 高h视频在线| 欧美特级AAAAAA视频免费观看| 啊嗯不日本网站| 谁有在线观看日韩亚洲最新视频| 色婷婷亚洲十月十月色天| 国产成人AV大片大片在线播放 | 中文字幕有乳无码| 国产又黄又硬又粗| 中文字幕在线观| 亚洲男人天堂久久| 亚洲首页国产精品丝袜| 亚洲精品777| 免费一级毛片不卡在线播放| 国产亚洲一区二区三区在线| 成人欧美日韩| 国产自在线拍| 国产网站免费| 国产99久久亚洲综合精品西瓜tv| 日韩无码真实干出血视频| 亚洲AV一二三区无码AV蜜桃| 亚洲综合中文字幕国产精品欧美| 综合天天色| 日韩乱码免费一区二区三区| 亚洲三级成人| 91亚洲精选| 99视频国产精品| 99久久国产综合精品2023| 欧美h在线观看| 熟妇丰满人妻| 在线观看国产精品日本不卡网| 福利视频一区| 亚洲AⅤ无码日韩AV无码网站| 久久久亚洲国产美女国产盗摄| 中文成人无码国产亚洲| 国产精品3p视频| 在线视频亚洲色图| 国产菊爆视频在线观看| 人人看人人鲁狠狠高清| 九九九久久国产精品| 男女男精品视频| 人妻中文字幕无码久久一区| 成人在线第一页| 欧美日韩国产系列在线观看| 国国产a国产片免费麻豆| 在线日韩日本国产亚洲| 伊人久久综在合线亚洲91| 日本黄网在线观看| 国产又色又爽又黄| 色成人综合| 一区二区在线视频免费观看| 五月婷婷伊人网| 精品自拍视频在线观看| av一区二区三区高清久久| 亚洲天堂网在线观看视频| 国产成人免费视频精品一区二区|