朱光 董尹 張華坤
〔摘 要〕借用文獻計量學的方法首先對ISI Web of Knowledge數據庫中收錄的以mashup為主題的文獻的研究力量分布進行分析,然后利用信息可視化軟件Cite Space 繪制出mashup研究的關鍵期刊、文獻的知識圖譜,對其進行詳細的闡述,并通過分析文獻關鍵詞分布和檢測詞頻變動趨勢確定出mashup的研究熱點。
〔關鍵詞〕mashup;可視化分析;研究熱點;知識圖譜
DOI:10.3969/j.issn.1008-0821.2012.02.038
〔中圖分類號〕G250 〔文獻標識碼〕A 〔文章編號〕1008-0821(2012)02-0151-05
Visualized Analysis of Mashup Research Based on Knowledge MapZhu Guang1 Dong Yin1 Zhang Huakun2
(1.School of Information Management,Nanjing University,Nanjing 210093,China;
2.The school of Instrument Science and Opt-electronic Engineering,Hefei University of Technology,
Hefei 230009,China)
〔Abstract〕The research power for the published papers regarding to mashup was analyzed by making use of the newly developed information visualization methods-Cite Space,and the co-citation data records retrieved from ISI Web of Knowledge,then drew the knowledge map of key journals,key references on mashup,and confirmed the research fronts of mashup research by analyzing the keywords distribution and detecting the keywords frequency fluctuation.
〔Key words〕mashup;visualization analysis;research fronts;knowledge map
現代信息技術的飛速發展促使信息資源成爆炸式增長,如何對這些分布式、異構型的信息資源進行整合,提高用戶的信息資源檢索和利用效率成為研究的熱門問題。隨著新媒體和寬帶信息網技術的進展,傳統的信息資源整合方法難以滿足用戶個性化、多樣化的信息需求。在此背景下,mashup技術的提出有助于解決這一問題并推動信息資源及服務整合的發展。
mashup,國內學者一般將其譯為“融匯”或“混搭”,其概念起源于流行音樂,指將兩首不同的歌曲進行混搭并附上樂器的音軌而構成的一首新歌[1]。維基百科關于mashup的定義為:mashup是指整合網絡上多個資源或功能,以創造新的網絡應用服務程式[2]。目前mashup發展迅速,主要應用在地圖導航、電子商務、生物醫學、圖書館、網絡教育等領域。本文利用科學知識圖譜的分析技術對mashup領域的研究機構、代表期刊、關鍵文獻和研究熱點進行定量考查和可視化分析,使廣大學者能夠更加直觀地了解mashup研究的力量分布、研究現狀及熱點。
1 數據來源與研究方法
本文分析使用的數據來自于Web of Knowledge數據庫中以“mashup*”為主題詞進行檢索得到的文獻,經過嚴格篩選,最終獲得455篇文獻(數據下載日期為2011年12月1日)。可視化分析工具選擇美國德雷塞爾大學陳超美博士利用Java語言開發的可視化文獻計量軟件Cite Space[3],其繪制的知識圖譜能夠顯示一個學科或研究領域在一段時間發展的趨勢與動向,形成若干研究前沿領域的演進歷程。本文利用Cite Space軟件對mashup研究的力量分布、期刊分布、關鍵文獻及研究熱點前沿進行了定量分析。
2 數據分析及結果
2.1 Mashup的研究力量分布
在Cite Space軟件界面中,選擇國家(Country)與機構(Institute)作為網絡節點,確定文獻標題(Title)、摘要(Abstract)、關鍵詞(Descirptors)和標識符(identifers)為主題詞來源,選擇路徑搜索算法,數據抽取對象為top 30,并設置Time Scaling的值為1。運行Cite Space,得到有關mashup的研究力量圖譜,如圖1所示。
圖1 mashup的國家機構分布圖譜
從地域分布來看,mashup的相關研究力量來自多個國家。從發文頻次來看,美國的發文量最多,為82篇,遠高于其他國家和地區。中國、英國、意大利、西班牙和澳大利亞分列其后,發文篇數為34、29、26、22和21。從中心度來看,美國發文中心度為0.86,依然遠超于其他國家,澳大利亞和加拿大緊隨其后,中心度分別為0.33、0.27。值得一提的是,IBM公司雖然發文頻次只有6篇,但中心度為0.19,僅此于上述3個國家,可見IBM公司對mashup研究的發展起著重要的作用。具體國家地區分布如表1所示。表1 mashup研究文獻的國家或地區分布
頻次中心度國家或地區年份820.86USA2007340.16CHINA2007290.16ENGLAND2007260.19ITALY2008220.12SPAIN2007210.33AUSTIALIA2008210.27CANADA2008190.12JAPAN2008
從圖1可以看出,除IBM公司外,各個國家的研究機構主要分布在大學里,美國的Mashup研究機構包括耶魯大學(Univ Yale)、佐治亞大學(UNIV GEORGIA)、賓州州立大學(Penn State Univ)等,中國有浙江大學(Zhejiang Univ)、北京大學(Peking Univ)、北京郵電大學(Beijing Univ Posts & Telecommun)等,加拿大包括多倫多大學(Univ Toronto)、卡爾頓大學(Univ Carleton)等。從上述機構分布可以看出,mashup的研究力量主要分布在歐美國家,其他地區的研究力量主要集中在中國和日本。
2012年2月第32卷第2期基于知識圖譜的mashup研究可視化分析Feb.,2012Vol.32 No.22.2 Mashup研究的期刊共被引分析
確定一個研究領域的核心期刊分布需對該領域進行期刊分析,同時對核心期刊文獻被引頻次的分析可以反映出該期刊所刊登文獻的利用率及其含金量[4]。利用Cite Space繪制mashup研究的期刊共被引分析圖譜,如圖2所示。圖2 Mashup研究文獻的期刊分布圖譜
從圖2中能夠清晰的看出,目前在國際上mashup研究的相關文獻主要發表在以下幾個刊物中:《計算機科學講義》(LECT NOTES COMPUT SC)、《IEEE-互聯網計算》(IEEE INTERNET COMPUT)、《ACM通信》(COMMUN ACM)、《計算機》(COMPUTER)、《加州大學學報》(THESIS U CALIFORNIA)、《語義網雜志》(J WEB SEMANT)、《個人與普適計算》(PERS UBIQUIT COMPUT)、《麻省理工-斯隆管理評論》(MIT SLOAN MANAGE REV)等。其中,《計算機科學講義》是圖譜中最大的一個節點,由德國的斯普林格公司出版(SPRINGER)出版,其ISSN號為0302-9743,文種為英文,被引頻次達97次,中心度為1.5,兩項指標均列首位,可見其在Mashup研究期刊中的核心地位。列第2位的是《IEEE-互聯網計算》,中心度和被引頻次分別為0.75和68。《IEEE-互聯網計算》由IEEE(美國電子電氣工程師學會)出版,其ISSN號為1089-7801,文種為英文,每年出版6期,2010年SCI影響因子為2.514。同樣是IEEE出版的《計算機》列第三位,ISSN號為0018-9162,其中心度和被引頻次分別為0.68和29。
在由Cite Space生成的網絡圖譜中,定義中心度大于或等于0.1的節點被定義為關鍵節點[5]。表2所列期刊中心度均大于0.1,可見這幾份期刊在Mashup研究領域的重要地位。
2.3 Mashup研究的文獻共被引分析
在知識圖譜中,不同文獻的聚類之間通過關鍵節點文獻相連,通常這些文獻都具有較高的中心度,在聚類之間起到連接和過渡的橋梁作用。從知識認知的角度來看,關鍵節點文獻一般是提出重要的新理論或具有重大理論創新的經典文獻,也是最有可能形成科學研究前沿熱點的文獻[6]。因此,本文利用Cite Space繪制mashup研究的關鍵文獻圖譜,以便廣大學者更加直觀、深入地了解mashup的研究現狀。表2 組織復雜性研究文獻的主要代表期刊
頻次中心度期刊名年份971.5計算機科學講義2002680.75IEEE-互聯網計算2007290.68計算機2007240.57加州大學學報2000390.55ACM通信2006230.53語義網雜志200640.19個人與普適計算200560.15麻省理工-斯隆管理評論2006圖3 Mashup研究的文獻共被引網絡圖譜
按照節點在圖譜中中心度的大小,排在首位的是FIELDING RT發表的論文“Principled Design of the Modern Web Architecture”,中心度為1.1,被引頻次22次,在2009年達到共被引高峰(11次)。該文于2000年在國際軟件工程會議上發表,同年被加州大學學報收錄。FIELDING RT[7]在文中認為互聯網的成功很大程度上歸功于其軟件架構的設計滿足了分布式系統的需求,當前網絡架構強調組件的獨立性、通用性和擴展性,以減少交互延遲并增強系統的安全性。該文最大的貢獻是首次提出了REST(Representational State Transfer)協議這一重要概念,REST協議是一種使用HTTP和XML進行基于Web通信的技術,直接工作在HTTP協議之上。文中指出REST協議接口簡單,且具有可擴展、安全性高等優點,可有效解決當前網絡通信協議與應用服務程序不兼容的問題。
中心度位居第2的是Yu J于2008年在IEEE INTERNET COMPUT上發表的文章“Understanding mashup development”,該文中心度為0.57,在2010年達到了被引高峰(10次)。Yu J[8]在文中對mashup作了如下定義:mashup是新一代網絡資源和服務的應用開發程序。該文認為盡管過去兩年,mashup技術取得了飛速的發展,但仍然缺乏全面的應用框架和開發工具,一個新的應用程序往往意味著繁瑣、復雜的再次編程開發。作者對當前Mashup應用框架和開發工具的優缺點進行了總結和闡述,旨在推動mashup技術與應用的發展。
2007年,Daniel F在IEEE NTERNET COMPUT上發表的論文“Understanding UI integration—A survey of problems,technologies,and opportunities”的中心度為0.56,位居第3,2009年達到被引高峰(9次)。Daniel F[9]在文中認為在軟件工程和數據管理領域通過松散耦合組件的重復利用來創建復合應用程序是一種十分重要的技術,盡管在數據和應用程序層面已做了大量相關研究,但對客戶端界面展示層面的研究還略顯不足。該文對現今用于客戶端界面程序和服務展示的整合框架和組件技術進行了總結,闡述了它們的優點和不足,為未來的研究和工作指明了方向。
圖譜中另一個較大的節點為Wong J于2007年在SIGCHI conference上發表的論文“Making mashups with marmite: towards end-user programming for the web”。該節點中心度為0.31,在2010年達到被引高峰(5次)。Wong J[10]在文中認為隨著網絡資源的急劇增長,用戶被淹沒在信息海洋中。如何針對用戶的信息需求和目的,提供個性化、交互性的服務,成為亟需解決的問題。作者設計開發一個用于整合和混搭現今網站內容和服務的開發工具——Marmite,并在文中就Marmite的設計、使用和評價作了詳細的闡述。Marmite的使用并不需要專業的編程知識,可以廣泛地應用在各個領域。
2007年,MURUGESAN S在IT PROFESSIONAL上發表的論文“Understanding Web 2.0”在圖譜中的中心度為0.16,在2009年達到被引高峰(4次)。該文對Web 2.0的概念、應用及發展機遇作了詳細的闡述,認為Web 2.0是網絡技術發展的第二階段,是以用戶為中心,鼓勵用戶參與的網絡形式。Web 2.0強調同齡人的網絡交往和集體智慧,以便更有效地利用網絡資源和服務用戶。作者同時就Web 2.0的成功應用,如MySpace、Flickr、YouTube等社交網站作了介紹[11]。
圖譜中其他幾篇代表文獻包括:(1)CHEUNG KH于2005年發表的論文“YeastHub:a semantic web use case for integrating data in the life sciences domain”;(2)Rosenberg F于2008年發表的論文“Composing RESTful services and collaborative workflows-A lightweight approach”;(3)OREILLY T于2005年撰寫的著作“WHAT IS WEB 2.0 DESIGN”。文獻具體被引頻次和中心度如表3所示。
表3 組織復雜性研究的關鍵節點文獻
頻次中心性作者年份題名221.1FIELDING RT2000Principled Design of the Modern Web Architecture200.57Yu J2008Understanding mashup development140.56Daniel F2007Understanding UI integration-A survey of problems,technologies,and opportunities100.31WONG J2007Making mashups with marmite:towards end-user programming for the web120.16MURUGESAN S2007Understanding Web 2.040.15CHEUNG KH2005YeastHub:a semantic web use case for integrating data in the life sciences domain70.12Rosenberg F2008Composing RESTful services and collaborative workflows-A lightweight approach120.11OREILLY T2005WHAT IS WEB 2.0 DESIGN
2.4 Mashup研究熱點分析
關鍵詞是一篇文章主題的核心凝練和高度概括,借助Cite Space對Mashup研究文獻中的關鍵詞進行分析,通過顯示高頻關鍵詞來揭示Mashup的熱點研究領域[12]。設置合適的閾值,運行Cite Space軟件,生成的關鍵詞知識圖譜如圖4所示。圖4 Mashup研究熱點知識圖譜
如表4所示,頻次排在首位的關鍵詞是“mashup”,不同研究學者關于mashup定義也有所不同,綜合來看,本文認為mashup是新一代交互式的Web服務應用模式,涉及了Web Service、SaaS、SOA等多種技術框架的融合應用,通過不同渠道獲取網絡數據源,提供統一、全新的服務。
關鍵詞“Web 2.0”出現頻次為46次,排在第2位。Web2.0是相對Web 1.0的新的一類互聯網應用的統稱,更加注重用戶交互,用戶由被動地接收互聯網信息向主動創造互聯網信息發展。Web 2.0模式下的互聯網應用具有用戶分享、信息聚合、開發的平臺等顯著特點。常見的Web 2.0應用包括:blog、RSS、Wiki、SNS等。
頻次排在第3位的關鍵詞為“semantic web”,即語義網。語義網是對未來網絡的一個設想,目標是開發一系列計算機可理解和處理的表達語義信息的語言和技術,以支持網絡環境下廣泛有效的自動推理。將用戶從搜索相關網絡信息資源的繁瑣活動中解放出來,為用戶提供個性化、交互式的信息服務。
通過詞頻分析法確定Mashup研究領域中熱點關鍵詞還包括:“Web Service”(網絡服務)、“ontology”(本體)、“rest”(Representational State Transfer網絡協議)、“integration”(整合)、“services”(服務)等。表4 Mashup研究的熱點關鍵詞分布
年份頻次關鍵詞200780mashup200746Web 2.0200826semantic web200620web service200814ontology200812rest200911services20089integration3 結 論
本文對Web of Knowledge數據庫中以“mashup*”為主題詞檢索得到的455篇文獻進行分析,得到以下結論:
(1)mashup研究力量主要集中在歐美地區和亞洲的中國、日本,并且研究機構主要分布在大學及高科技企業中(如IBM)。由此可見,mashup的研究主要集中科學技術先進、經濟基礎較好的發達國家,mashup的研究人員主要是高學歷的學者和軟件開發工程師。
(2)從文獻分布來看,文獻涵蓋了mashup關鍵技術、網絡服務整合程序開發、web 2.0、互聯網通信協議等內容。文獻形式除研究論文外還包括書籍、評論、應用指南、實驗結果等多種類型。從期刊分布來看,核心期刊大都由歐美國家主辦,英文為主要語種,影響因子較高。
(3)通過CiteSpace探測出的高頻關鍵詞,挖掘出mashup研究呈現以下發展趨勢:①mashup的產生背景決定了其注重應用研究的特點,隨著應用領域越來越廣泛,如何對基礎理論與mashup技術進行整合成為mashup的研究熱點之一;②針對目前mashup應用存在的數據質量、協議安全性等問題,mashup系統架構與設計的改進也是現階段研究的熱點;③mashup的最終目標是使用戶同時作為開發者和使用者,如何在真正在語義層面實現數據與服務的互操作和集成是未來mashup的研究重點。
參考文獻
[1]DuaneMerril.Mashups:Web應用程序新成員[EB/OL].http:∥www.ibm.com/developerworks/cn/xml/x-mashups.htm?lSzTACT=105AGX52 & SzCMP=tec-csdn,2011-11-24.
[2]Wikipedia.Mashup(Web application hybrid)[EB/OL].http:∥en.wikipedia.org/wiki/Mashupz(webzapplication),2011-11-24.
[3]Chao mei Chen餾 Homepage[EB/OL].http:∥cluster.cis.drexel.edu/~cchen/citespace/,2011-11-29.
[4]趙蓉英,王菊.國際信息檢索模型研究的可視化分析[J].圖書情報工作,2010,54(18):61-66.
[5]劉澤淵,陳悅,侯海燕.科學知識圖譜方法與應用[M].北京:人民出版社,2008.
[6]陳超美.Cite Space Ⅱ:科學文獻中新趨勢與新動態的識別與可視化[J].陳悅,侯劍華,梁永霞,等譯.情報學報,2009,(3):401-402.
[7]Fielding R T,Taylor R N.Principled Design of the Modern Web Architecture.In Proceedings of the 2000 International Conference on Software Engineering(ICSE 2000),Limerick,Ireland,June 2000:407-416.
[8]Yu J,Benatallah B,Casati,F,et al.Understanding mashup development[J].IEEE INTERNET COMPUTING,2008,12(5):44-52.
[9]Daniel F,Matera M,Yu J,et al.Understanding UI integration-A survey of problems,technologies,and opportunities[J].IEEE INTERNET COMPUTING,2007,11(3):59-66.
[10]Wong J,Hong J I.Making mashups with marmite:towards end-user programming for the web[C].Proceedings of the SIGCHI conference on Human factors in computing systems.New York,USA,2007.
[11]MURUGESAN S.Understanding Web 2.0[J].IT Professional,2007,9(4):34-41.
[12]趙蓉英,王靜.社會網絡分析(SNA)研究熱點與前沿的可視化分析[J].圖書情報知識,2011,(1):88-94.