999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文獻信息分析工具的比較

2015-03-22 03:17:12士靖
中華醫學圖書情報雜志 2015年11期
關鍵詞:可視化數據庫分析

, , ,士靖

文獻信息分析工具通過結合文獻計量學、社會計量學、統計學、圖形學、信息科學、計算機科學的技術和方法,幫助用戶快速地獲取高價值信息,高效追蹤學科前沿。現有的文獻信息分析工具主要分為基于統計的分析工具、基于文獻計量的分析工具、基于社會網絡的分析工具和基于PubMed的分析工具四大類。隨著分析工具種類的不斷增加,已有一些學者對其進行了比較研究,如M.J. Cobo等對知識圖譜類工具進行了系統介紹和比較[1],肖明[2]、楊思洛[3]等也對知識圖譜類工具進行了比較。盡管如此,目前對文獻信息分析工具比較研究方面還存在諸多不足,涉及的范圍比較窄,并不能起到幫助用戶全方位了解和選擇分析工具的作用。

本文擬遵循可獲得性(開放性)、使用廣泛性和功能優越性原則,選擇其中一些工具進行比較研究,以期達到幫助用戶篩選工具、提高不同工具使用效率的目的。

1 研究對象和方法

1.1 研究對象

本文所取文獻信息分析工具主要來源于官方網站(如Histcite,SCI2,Vosviewer,Citnetexplore,Gephi,Network Workbench Tool, SciMAT,Inspire,VantagePoint,ColPalRed,Bibexcel,Pajek,SATI,GOPubMed, PubMedplus,本地PubMed,Anne O'Tate,PubFocus),科學網(如Citespace,Bicomb)和CSDN網站(如Netdraw,Ucinet, Refviz)。

根據工具的功能進行分類,并從各類工具中選取多個代表性工具,具體選取過程和結果如下。第一類是基于統計的分析工具,如SPSS,SAS,Excel 等。此類工具現已應用于多個領域,本研究不做介紹。第二類是基于文獻計量的分析工具,如Histcite[4],Citespace[5-7],Bibexcel[8],Inspire[9],ColPalRed[10],SATI[11],Leydesdorff系列軟件[12],Bicomb[13],SCI2[14],Network Workbench Tool[15],Vantagepoint[16],Vosviewer[17],Citnetexplore[18-19],SciMAT[20],Refviz。 其中,Bibexcel,Bicomb,SATI,Leydesdorff系列軟件是專門用來構建關系矩陣的工具,Bibexcel的功能最為強大,Bicomb和SATI是國內學者開發的;Histcite,Citnetexplore用于直接引文網絡,Histcite影響力更大、使用更廣泛;Citespace,SCI2,Vosviewer,Network Workbench Tool,SciMAT是功能較為完整的工具;SCI2,Network Workbench Tool是同一團隊開發的,具有很大的相似性,但SCI2在功能和廣泛性方面更具優勢;VantagePoint,ColPalRed,Inspire是收費工具,無法獲取。第三類是基于社會網絡的分析工具,如Pajek[21-22],Ucinet[23],Gephi[24],Netdraw。其中Pajek和Ucinet是綜合分析工具,功能多樣。第四類是基于PubMed的分析工具,如GOPubMed[25],PubMedplus,本地PubMed,PubFocus,Anne O'Tate[26]。其中,GOPubMed是最早基于語義分類工具開發的,功能強大;本地PubMed和PubMedplus是國內機構研發的,融合了多個工具的功能。相對來說,Anne O'Tate和PubFocus的功能較為簡單。綜上所述,最終選擇了13種的分析工具進行比較,詳見表1。

1.2 研究方法

根據文獻分析工具的性能和分析流程對分析工具從多個維度進行比較。分析流程通常分為數據準備、分析、結果解讀和可視化等三個步驟[1]。數據準備是文獻信息分析工具實現目標的基礎,包括文獻檢索和數據預處理;分析是文獻信息分析工具工作的主體,包括構建關系矩陣、標準化處理、映射和分析方法的選擇;結果可視化和解讀則是文獻信息分析工具的價值體現,旨在通過各種圖譜的展示,幫助用戶對結果進行解讀。最終確定從支持的數據格式、數據預處理、構建的矩陣、標準化處理、分析方法、結果的可視化6個維度對選出的13種分析工具進行比較。

2 文獻信息分析工具的比較

2.1 支持的數據格式

文獻分析是基于一定的數據進行的,分析工具主要支持書目數據、網絡數據或者其他格式數據。基于PubMed開發的工具,將PubMed作為數據源,無須導入數據;而基于社會網絡的工具,如Pajek,Ucinet等不支持書目數據,而是導入經過加工的網絡格式數據或用戶自行創建的矩陣數據。表2可見,大部分工具支持WOS,Scopus,PubMed等數據庫。其中,Citespace支持多個數據庫,SCI2則支持多種類型的數據。對于中文數據庫,Citespace,Bibexcel等支持轉化后的CSSCI數據庫,Bicomb和SATI支持萬方和中國知網數據庫。

表2 13種分析工具支持的數據格式

2.2 數據預處理

數據預處理是分析的一個重要步驟,主要有去重、時間切片、數據精簡和網絡精簡等功能。13種分析工具的數據預處理功能見表3。

表3 13種分析工具的數據預處理功能比較

表3顯示SciMAT和SCI2包含4種數據預處理模塊,優勢明顯;大部分工具支持數據精簡和網絡精簡;Pajek和Ucinet無數據預處理功能。GOPubMed,PubMedplus和本地PubMed基于語義分類工具GO&MeSH引入本體概念,支持語義級的交換,可消除或減少由于同義詞或相近詞概念及術語的混亂,在語義數據處理方面優勢明顯。此外,PubMedplus還增加了單位和作者異名的規范處理功能。

2.3 實現的關系矩陣

關系矩陣中最常見的分析單元是期刊、文獻、參考文獻、作者、主題詞或關鍵詞。分析單元之間的關系可分為三類。第一類是直接引文關系,即直接從信息的發送者到信息的接受者。第二類是將分析單元之間的關系用做共現數據,即通過計算兩個分析單元在文獻中同時出現的次數來衡量兩個分析單元之間的相似性,包括合作、耦合、共引和共詞。合作用來分析研究領域的社會結構,共詞則是使用文獻中最重要的主題詞或者關鍵詞研究一個領域的概念結構[27],共引和書目耦合用來分析研究領域的知識結構。區別在于,書目耦合是固定和永久的引文關系,共引關系是隨時間而變的[28]。第三類是一些不常見的或復雜的網絡。表4列舉了各種分析工具可以創建的關系矩陣。可以看出,沒有一個工具可以創建全部關系矩陣,大部分工具都支持共現矩陣的創建,其中Citespace,Vosviewer,SciMAT,SCI2,Bibexcel等可以構建多數關系矩陣,但只有Histcite和SCI2支持直接引文網絡。相對于GOPubMed和本地PubMed僅關注于一種網絡,PubMedplus可以構建4種網絡,Pajek和Ucinet則不支持文獻計量學網絡的創建。此外,SATI可以創建包含詞條共現矩陣、頻率分析矩陣、文檔詞條矩陣等在內的8種矩陣。

表4 13種分析工具構建的關系矩陣

2.4 標準化處理

構建了分析單元的關系矩陣之后,需通過標準化處理對數據間的相似性進行測量來獲得數據之間的隱含關系,簡而言之就是對數據進行規范化。13種分析工具的標準化處理方法見表5。

表5 13種分析工具的標準化處理方法

常用標準化處理方法有Salton's余弦、Jaccard's指數、Equivalence指數、關聯強度等[2]。如表5所示,大部分分析工具都使用了上述方法中的一種或多種;GOPubMed,PubMedplus,本地PubMed則因使用GO&MeSH工具,使用潛在語義分析將語料庫與本體進行連接;Pajek和Histcite則無規范化處理的功能。

2.5 分析方法

分析工具所用的分析方法很多,如網絡分析、地理空間分析、時間序列、性能分析、突變檢測等。網絡分析是測量某一節點在整個網絡中的中心度,或一個聚類在圖譜中的中心度;地理空間分析則是回答事件在哪里發生及其對周圍區域的影響;時間序列,或縱向分析旨在分析不同時間段研究領域的演變,主要通過對趨勢、離群、活動、模式和季節性等的觀測,是知識圖譜分析中最常見的一種分析方法;性能分析使用基于引文的文獻計量學指標和方法來量化圖譜和網絡中不同元素的重要性、影響和質量;突變檢測是時間序列分析的一種,旨在發現有限的持續時間內變量的劇烈變化[1]。表6顯示,最常見的方法是網絡分析、時間序列分析和突變檢測。其中,Citespace,SciMAT和SCI2的分析方法最多;Ucinet采用多種網絡分析指標。本地PubMed和PubMedplus等都使用了期刊影響因子、H指數、被引頻次等指標;此外,PubMedplus使用了替代計量學的評價指標Altmetric得分,本地PubMed增加了威望指數。

表6 13種分析工具的分析方法

2.6 可視化圖譜

可視化圖譜用來幫助用戶分析和理解結果。不同分析工具構建的圖譜也不同(表7)。

表7 13種工具的可視化圖譜

在時間序列分析的可視化中,Histcite使用編年史圖,Citespace使用時間線視圖,SciMAT使用演變地圖和重疊條目圖,GOPubMed,PubMedplus和本地PubMed則使用的是趨勢圖。Citespace,Vosviewer,SCI2,Pajek,Ucinet,GOPubMed,本地PubMed等可實現多種類型的可視化圖譜。其中SCI2是一個模塊化的工具集,除自身所具備的可視化技術,還內置多種可視化軟件;SATI, Bibexcel,Bicomb等不具備可視化功能,需要借助其他可視化軟件。

3 結論和建議

3.1 結論

通過對13種分析工具的比較,可以看出每一個工具都有著不同的特點,沒有一個工具能夠囊括所有的功能。比較結果顯示,Citespace,SCI2,SciMAT功能較完整,其他工具也有各自的優勢。對13種分析工具特點歸納如下。

Histcite主要用于對書目數據進行基本的統計分析,以時間序列編制引文編年史圖展示領域的演變路徑,但無法對數據進行標準化處理,分析方法較少。

Citespace支持中文數據庫在內的多個數據庫,可以構建常見的關系網絡,采用多種文獻計量學分析方法定量分析可視化結果,從多個角度展示某領域的演變歷程,但其無法實現數據的去重。

Vosviewer的優勢在于可視化,能從多個視圖對結果進行展示,可構建多種矩陣,并支持文本挖掘,但其無法實現數據的去重,不能通過時間演變展示一個領域的演進路徑。

SciMAT具有強大的預處理能力,能構建多種文獻計量學網絡,并以文獻計量學指標對結果的影響力進行定量分析,還可通過配置向導的方式引導用戶進行分析。

Bibexcel專門用來構建文獻計量學關系矩陣,具有高度的靈活性,需借助其他的可視化軟件來進行可視化分析。

Bicomb支持中文數據庫,能進行基本的統計分析,并生成多種共現矩陣和詞篇矩陣,但數據處理和可視化方面存在不足。

SATI支持中文數據庫,實現基本的統計分析,能構建多類矩陣。

Pajek支持大型的網絡數據,不僅可以構建一些普通的網絡圖,還支持特殊網絡的構建,具有強大的圖形處理能力,但不支持文獻計量關系矩陣的創建,數據預處理能力差。

Ucinet可導入矩陣,也可自行創建,具有網絡分析功能,內置可視化軟件,但不支持文獻計量學矩陣的創建。

GOPubMed是最早使用基于本體的語義分類工具,支持分類導航分析,使用戶能快速找到最相關的文獻,但創建的關系矩陣單一。

本地PubMed使用多個計量學指標對文獻進行評價,可以從多個角度對分析結果進行可視化。

PubMedplus基于PubMed,在數據處理方面解決了作者重名的問題,其最大的優勢在于其強大的聚類分析功能。

一個好的問題,一個精彩而恰到好處的懸念可以引發學生主動去思考,去學習。例如教《新型玻璃》一課,在指導學生學習時,我就向學生提出這樣一個問題,“新型玻璃到底新在哪?有什么特點?如果你是玻璃廠廠長,你怎么樣向大家推銷你的玻璃?”學生由于好奇就紛紛地尋找答案。通過閱讀,他們很快就知道各種新型玻璃的特點。一篇說明文,單靠教師乏味的直敘,學生是上得很無聊的。因此,讓學生帶著問題自己去閱讀,去理解課文,不僅使學生掌握了課文內容,也幫助他們認清了各種新型玻璃的特點。

3.2 建議

3.2.1 對用戶選擇分析工具的建議

由于文獻信息分析工具種類眾多,在開展分析時,應了解不同工具的特點,再根據不同的分析目的、特性和擬解決的問題,選擇恰當的分析工具。

一是要根據數據源選擇合適的工具。若數據源為PubMed,可以選擇GOPubMed,PubMedplus或者本地PubMed及支持PubMed數據庫的工具;對于用戶自行創建的矩陣數據,選擇Pajek或Ucinet。

二是Citespace,SCI2,SciMAT,Vosviewer,SATI,Bibexcel,Bicomb等工具均可用于共現分析。一般來講,用戶可以根據數據源選擇上述任何一個工具進行分析。不過共詞分析和合作者分析需要對源數據進行去重,所以應選擇SciMAT或SCI2。Bibexcel,SATI和Bicomb等工具主要用于構建各類關系矩陣,但需借助其他工具進行可視化。

三是不同的工具分析方法不同,用戶可根據需求進行選擇,如時間序列分析,需支持時間序列分析的工具,選擇Histcite,Citespace,SciMAT,SCI2,Pajek等工具;對于直接引文網絡的構建,選擇Histcite和SCI2等工具。

四是Citespace,SciMAT,Ucinet,本地PubMed和PubeMedplus等具有多種文獻計量學指標,可以對產生的圖譜進行定量分析。

五是對于中文數據,Bicomb和SATI支持中國知網和萬方數據庫,Citespace支持中國知網和CSSCI數據庫,Bibexcel支持轉化后的CSSCI數據庫。

六是可考慮多個工具聯合使用,因為沒有一個軟件可以實現全部的功能。

3.2.2 對文獻信息分析工具研發工作的建議

文獻信息分析工具是文獻計量學、社會計量學、統計學、圖形學、信息科學和計算機科學技術相結合的產物。國內對文獻信息分析工具的研究起步晚,專業人員的投入不足,應加強多個領域的合作研究[29]。

文獻信息分析工具針對書目數據進行分析,數據庫導出的數據越豐富,文獻信息分析工具的價值越高。國內的大型數據庫不支持引文數據的導出,故無法進行引文分析,應進一步加強與國內全文數據庫的合作,促進雙贏。

大部分文獻信息分析工具通過圖譜實現對某一學科宏觀和微觀、定性和定量的把握,圖譜的視覺效果對于結果的解讀起著“一圖勝千言”的作用。因此,要進一步加強分析工具的圖譜展示功能。

4 結語

文獻信息分析工具有著探測前沿熱點、預測發展方向的作用。科學研究人員學會選擇和使用這些工具,將使他們的科學研究更加高效。

猜你喜歡
可視化數據庫分析
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
隱蔽失效適航要求符合性驗證分析
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數據庫
財經(2017年2期)2017-03-10 14:35:35
電力系統及其自動化發展趨勢分析
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 无码日韩视频| 久久综合亚洲色一区二区三区| 国产精品大尺度尺度视频| 久久国产亚洲偷自| 激情综合激情| 久久国产拍爱| 欧美亚洲国产一区| 日韩久久精品无码aV| 激情六月丁香婷婷四房播| 国内精自视频品线一二区| 综合天天色| 亚洲男人的天堂久久精品| 日韩一区精品视频一区二区| 色天天综合| 亚洲欧美一区二区三区麻豆| 国模私拍一区二区| 国产精品永久久久久| 日韩在线2020专区| 中文国产成人精品久久| 热热久久狠狠偷偷色男同| 人妻免费无码不卡视频| 免费不卡视频| 国产国语一级毛片在线视频| 国产一区在线观看无码| 国产精品视频导航| 国产高清自拍视频| 国产乱子精品一区二区在线观看| 欧美yw精品日本国产精品| 色播五月婷婷| 国产视频你懂得| 婷婷伊人久久| 国产成人精彩在线视频50| 国产乱人伦精品一区二区| 97在线免费| 精品天海翼一区二区| 国产一级毛片网站| 国产精品偷伦在线观看| 日本欧美视频在线观看| 国产成人精品在线| 91久久偷偷做嫩草影院免费看 | 成人韩免费网站| 久久免费精品琪琪| 欧美一级在线| 伊人久久久久久久| 22sihu国产精品视频影视资讯| 日韩国产综合精选| 国产尹人香蕉综合在线电影 | 91在线播放免费不卡无毒| 理论片一区| 欧美高清国产| 免费大黄网站在线观看| 不卡网亚洲无码| 亚洲男人天堂网址| 欧美亚洲中文精品三区| 午夜不卡福利| 亚洲精品国产首次亮相| 国产精品九九视频| 国产精品部在线观看| 99精品免费欧美成人小视频 | 手机永久AV在线播放| 色老头综合网| 亚洲中文字幕日产无码2021| 欧美日本激情| 亚洲综合色区在线播放2019| 久久无码av一区二区三区| 国产亚洲欧美日韩在线一区| 日韩欧美在线观看| 国产精品妖精视频| 亚洲综合色婷婷| 视频一区视频二区日韩专区| 一本一本大道香蕉久在线播放| 欧美人人干| 8090午夜无码专区| 一级看片免费视频| 中文字幕波多野不卡一区| 青青国产成人免费精品视频| 国产亚洲视频播放9000| 色综合激情网| 亚洲美女久久| 中文天堂在线视频| 九色在线视频导航91| 四虎精品黑人视频|