陶 艷 董 克
(1.南京航空航天大學圖書館,江蘇 南京 210007;2.武漢大學信息管理學院,湖北 武漢 430072)
?
基于計量的圖書情報領域元數據研究現狀分析
陶艷1董克2
(1.南京航空航天大學圖書館,江蘇 南京 210007;2.武漢大學信息管理學院,湖北 武漢 430072)
[摘要]利用社會網絡分析法中的路徑方法和文獻計量中的共現分析方法,對Web of Science數據庫中圖書情報學領域(LIS)元數據研究論文進行了定量分析,旨在明確圖書情報領域元數據研究的發展過程及研究結構。從定量統計的結果來看,美國在相關研究中處于絕對主導地位;相關研究的技術應用傾向明顯;引文路徑分析結果表明LIS領域metadata研究相對成熟,主要集中在信息檢索、知識組織和數字圖書館中;metadata在醫學信息學以及傳統的圖書館編目方面已經獲得的研究成果價值也十分重要。
[關鍵詞]元數據社會網絡分析文獻計量主路徑分析
元數據(Metadata)一詞最早出現在美國計算機專家Philip Bagley1968年出版的著作《Extension of programming language concepts》中,他第一次使用了metadata這個詞來描述“關于數據容器的數據”這一概念[1]。在此之前,圖書館的編目中已經存在類似的概念,如“關于數據內容的單個實例內容”或者“元內容”,但這樣的表述相對模糊,而Philip Bagley明確定義了數據描述。從那時起,圖書情報領域逐漸開始廣泛接受元數據這個詞。目前對于元數據最廣為人接受的定義為“關于數據的數據”[2]。
在圖書情報領域,元數據是數字化時代信息組織和處理的基本工具,元數據能為各種形態的數字化信息單元和資源集合提供規范、普遍的描述基準和方法[3]。目前,元數據基本功能已經發生了明顯轉變,信息組織已經從利用元數據描述資源進一步發展到通過元數據描述信息體系的各個內容層次,元數據正成為連接、協調整個信息服務體系的工具和紐帶,成為分布、開放的信息服務體系的基礎;針對不同的對象和目的的元數據大量涌現,人們開始普遍要求元數據遵循一定的規范,使其能夠交換、復用、轉換和整合,從而支持集成環境下的工作[4]。在這一背景下,筆者通過計量學的方法對目前圖書情報領域的元數據研究論文進行研究,分析元數據研究的歷史和目前的進展。
2.1數據來源及檢索策略
筆者選用Thomson Reuters公司提供的Web of Science平臺[5],Web of Science是美國Thomson Scientific(湯姆森科技信息集團)基于Web開發的產品,是大型綜合性、多學科、核心期刊引文索引數據庫,共包括數千種世界范圍內最有影響力的、經過同行專家評審的高質量的期刊,該數據庫每周更新。在Web of Science核心合集數據庫中,利用TI=(“metadata”OR“metadata”OR“meta data”)檢索,選擇SCI-EXPANDED,SSCI,A&HCI,CPCI-S和CPCI-SSH等數據庫,不限定論文發表年份,在系統返回結果中選擇學科領域為“INFORMATION SCIENCE&LIBRARY SCIENCE”,共獲得科學文獻1743篇,檢索時間為2015年9月15日。
2.2分析工具
在分析工具的選取上,數據分析及清洗主要利用湯姆森數據分析器(Thomson Data Analyzer,簡稱TDA);TDA是基于VantagePoint開發的專門針對湯姆森路透集團相關數據庫提供的文獻、專利資源進行分析的軟件,功能十分強大。在網絡數據的分析及可視化方面,主要利用社會網絡分析軟件Pajek進行;Pajek是有斯洛文尼亞盧布爾雅那大學的研究小組開發的開源社會網絡分析軟件,集成了目前絕大多數社會網絡分析算法,數據處理量及運算速度在目前社會網絡分析的軟件中具有明顯優勢。
3.1時間及類型分布
Web of Science數據庫收錄的文章中,最早的文獻發表于1982年的《Drexel圖書館季刊》,題為《應用于數值型數據文件綜合接入的元數據系統》;其后第二篇文獻發表于1992年,作者為荷蘭地理學家BURROUGH PA,文章的主要內容為智能地理信息系統開發,其中討論了元數據對提升信息組織效率的作用,目前被引已經達到47次。文獻發表的時間分布如圖1所示,從中可以發現,1996年以前圖情領域研究元數據的成果較少,僅有10篇,此后,論文數量整體上逐年增多,發文最多的年份為2007年,共166篇。

圖1 文獻發表的時間分布
從圖1中我們可以發現,總體上來講,至2007年為止,論文的數量呈現出明顯的上升趨勢,且數量增長相對較快,說明圖書情報領域對于元數據的研究處于不斷的深化過程中。2007年之后,相關研究成果的數量出現了一定的回落趨勢,從2010年開始,論文的數量趨于穩定,每年約100篇左右,2015年的文獻數量較少主要是受到數據檢索時間的影響;從生長周期的角度來看,文獻數量的減少并趨于平穩從一個側面表明圖書情報領域的元數據的研究逐漸成熟。
1743篇文獻的類型如表1所示,其中期刊論文及會議論文占到了總數的97%左右。在一般的文獻類型中,會議論文一般發表的周期最快,其次是期刊論文,因此,結合時間分布與文獻的類型分布可以發現圖書情報領域對元數據的研究雖然逐步走向成熟,同時也在不斷開拓新的研究內容。此外,書評、會議摘要和綜述等文獻類型也有一定的數量。其他文獻類型主要包括編者按、勘誤和新聞報道等。

表1 文獻類型
3.2地區與機構分析

表2 文獻地區分布
對檢出的1743篇文獻進行國家/地區分析,得到文獻數量排名前10位的國家或地區如表2所示。通過分析發現,文獻的地區集中極為明顯,美國、英國和德國的發文數量占到了全世界的一半;排在第一位的美國文獻發文數量為700篇,占到了全部論文的40.161%,而第二位的英國占總量的比例僅為6.7%,說明美國的圖書情報界在全世界的元數據研究中起到了絕對的核心作用,目前世界上最有影響力的元數據格式DC就是1995年由美國的圖書情報專家牽頭召開確定的。從排名中同時可以發現,中國大陸地區圖書情報界對元數據的研究在目前世界上也同樣名列前茅。

圖2 發文10篇以上國家的合作情況
圖2是發文在10次以上的國家之間的合作情況。國際合作是目前科學研究的大趨勢,在圖情領域的元數據研究中,大多數國家之間存在合作關系,發文數量較多的國家,如美國、英國、德國、西班牙等,均與多個國家開展了合作研究。亞洲國家進行國際合作研究的情況普遍較少,如日本、韓國、新加坡、中國等均只與很少的其他國家之間開展合作。進一步對發文數量較多的機構進行分析發現,發文數量在10篇以上的機構共有28個,從數量上來看,絕大多數為美國高校,發文數量前十個機構中僅有加拿大麥吉爾大學為非美國的科研機構。發文數量前5的機構分別為北卡羅來納大學教堂山分校,伊利諾伊州立大學香檳分校,雪城大學,德雷克塞爾大學和印第安納大學伯明頓分校;發文15篇以上的12個機構中,僅有美國國會圖書館為非大學機構,說明相關的研究主要集中在高校中。發文量較大的高?;旧隙际菤v年的USNews美國大學排名信息與圖書館學領域中排名最靠前的幾所高校,說明其研究實力均較強。
3.3作者合作分析
1743篇文獻共有3335位作者,其中第一作者1429人,平均每篇文章有作者1.91個作者,說明合作已經成為圖情領域元數據研究的主要趨勢。所有作者中,發文10篇以上的作者共10位;以第一作者發文5篇以上的作者共9位;同時位于這兩個列表的研究成果較為突出的學者共有4位,里斯本大學的學者Borbinha J,他共發表了14篇研究論文,其中第一作者論文7篇;英國盧瑟福實驗室的Jeffery K G發表了12篇文獻,其中11篇為第一作者;美國德雷克塞爾大學的Park JR發表了12篇文獻,其中8篇為第一作者;加拿大麥吉爾大學的Park EG共發表了10篇文獻,其中也有8篇為第一作者。這些學者在高產的同時,也在其自身所在的研究隊伍中起到非常重要的引領作用,例如Borbinha J長期參與葡萄牙國家數字圖書館的建設,對數字圖書館系統設計和資源的信息組織進行了深入的研究,并取得了許多重要的研究成果;Jeffery KG長期從事商業信息系統和數據庫的數據結構研究,發表了大量的研究論文;Park EG的大量研究都是國家層面的元數據框架及元數據評估;Park JR則在元數據的語義化方面取得了十分重要的研究成果。
通過作者的合作網絡,我們可以進一步分析圖書情報領域元數據研究的主要內容分布。在所有的作者中,發文量在兩篇以上的作者共569人,3篇以上的192人。我們以發文3篇以上的作者群體為研究樣本進行作者合作網絡構建與分析發現,192名作者共發生了394次合作關系,其中未與其他作者發生合作關系的有43個。作者合作關系強度中,合作強度最頻繁的為1,共有130個作者對;絕大多數作者之間的合作次數在2-5次之間,合作強度在5以上的共38個作者對,其中強度最大的1個作者對合作強度達到了10次。

圖3 合作數量≥5的作者合作子網
為了使可視化的結果更為清晰可讀,選擇人數大于等于4的8個子網絡進行可視化結果如圖3所示。圖中,各節點以作者名稱進行標記,作者名稱前括號內的數字為子網編號。通過分析發現,各個團體的研究側重點均有不同。以左上方規模最大的合作子網3為例,其雖然是一個聯通的合作網絡,但內部各部分之間的研究重點也有不同,其中包含了以“信息檢索系統中的元數據應用”“商業信息系統建設”和“網絡開放文檔中的元數據標注”等研究主題。右上角的合作子網2中,核心作者為弗吉尼亞理工大學的學者Fox E A 和GoncalvesM A,該群體的研究主題主要與數字圖書館建設有關。合作子網8位于圖3左側中部,該子網共包含了7為學者,研究主題為生物醫學數據庫及數據模型;圖3中部的子網5共包含6位學者,研究主題主要為Web資源共享中的互操作問題;位于中部右側的子網1包含6名學者,其核心人物為Borbinha J,研究內容主要集中在數字圖書館中的資源組織;圖3下部左側的子網6包含5位學者,研究主題為元數據質量控制與評價;下方中部的子網7的研究主題主要為元數據采集與收割;最后的子網4包含8位作者,研究內容主要集中在不同領域如農業、商業中的元數據應用。大量的合作者聚類中均存在一些聯系局部的核心作者,這些作者在跨學科或跨研究內容的合作中,起到了重要的媒介作用。
3.4載文期刊及被引期刊分析
1743篇論文共刊載于218種出版物,載文量在40篇以上的共10種,如表3所示。由于檢索中我們并沒有排除圖書,因此載文數量最多的是計算機領域的著名叢書《Lecture Notes In Computer Science》,共有170篇研究論文;排在第二位的是由Emerald公司出版的期刊《Electronic Library》載文70篇;排名第三的期刊為《Journal of the American Society for Information Science and Technology》(JASIST,2001年之前該期刊的名稱為《Journalof the American Society for Information Science》)??傮w而言,載文數量較多的期刊絕大多數是技術傾向明顯的期刊。

表3 載文量≥40的出版物
在被引出版物中,排名第一的為《JASIST》,共被引了772次(包含以JASIS和JASIST兩種名稱被引),該期刊由ASIS&T出版,是圖書情報學領域最為出名的期刊之一。排名第二的是《D-Lib Magazine》,該刊有美國國防部先進研究項目局和美國國家科學基金會支持的電子出版物,重點關注數字圖書館研究與開發,新技術的應用及其產生的經濟和社會效應等研究內容。同樣可以發現,被引次數較多的期刊依舊為圖情領域偏技術類的出版物和計算機領域的出版物。期刊共被引分析的可視化結果如圖5所示。從整個期刊的被引網絡上來看,以這兩種期刊為核心的為一般的LIS期刊陣營,其中大量的被引文獻包括知識組織與編目就;此外還有一個相對獨立的陣營是由醫學信息管理領域的期刊組成的,被引文獻大多數論述元數據在醫學信息管理中的應用兩部分的期刊主要通過JASIST聯系在一起,說明JASIST是整個共被引網絡的中心和銜接者,其研究內容廣泛而富有深度,對LIS領域元數據研究的發展做出了重要的支撐。

圖4 期刊共被引網絡
3.5引文路徑分析
被引是衡量文獻質量的重要依據。1743篇文獻中,被引次數最多的論文是由美國惠普實驗室的研究人員Golder SA和Huberman BA撰寫的名為《Usage patterns of collaborative tagging systems》的文章,文中詳細分析了目前已經比較廣泛的網絡資源合作標簽和分眾分類法問題,該文章到2015年9月已經被引590多次。被引次數最靠前的文獻所研究的主題相對多樣,但特點也比較明顯,2000年以前發表的論文大多數集中在圖書館資源組織領域元數據的應用,而2000年之后發表的文獻則更多關注網絡資源組織中的元數據應用。
進一步構建所有文獻的引文網絡后發現,1743篇文獻之間的引用網絡中,絕大多數文獻之間沒有引文關系,引文網絡中存在一個十分明顯的子網,說明在整個論文網絡中,存在明顯的研究核心論文群體,其他大多數則為零散的節點。利用社會網絡分析法中的main path analysis(MPA,主路徑分析),可以從由科學文獻所構成的引文網絡中計算每篇文章對于整個科學發展過程起到的貢獻,并進一步篩選其中最關鍵的文獻,描述主題發展的主干[6]。主路徑分析的基本思想是,將某個領域最早發表的論文當做知識源,這些知識源所包含的知識內容依據引文關系進行傳承,在從最初發表的文獻到最新發表的文獻所構成的引文鏈代表了知識傳承的通道,經過某個論文或引文關系的知識通道數量越多,那么這個文獻節點或引文關系對的重要程度就越大。主路徑分析的具體運算過程可參見相關文獻[7]。
主路徑分析運算結果如表4所示,權重位于0.0013-0.0097之間的引文關系占了總量的90.18%,即大多數引文對于整個知識體系而言意義不大。權重最大的為0.0685,位于0.0433-0.0517之間的引文有3個。將權重最高的引文及構成引文的節點連成一個主路徑結果如圖5所示。

表4 主路徑分析結果
根據圖5可以看出,1996年和1997年發表的大量文獻均是作為圖情領域元數據研究的知識源存在。根據文獻數量的時間分布,從1996年左右開始,圖情領域對元數據的研究逐步得到越來越多的重視,兩者結論較為一致。主路徑中最早的一篇文獻為Heery R于1996年發表的關于元數據格式的綜述性研究,該文章系統回顧了當時已經存在大量元數據記錄形式,為后來的研究提供了大量的參考資源[8]。主路徑上1997年發表的論文有5篇,美國羅格斯大學的Ng K B等學者分析了電子圖書館環境下的元數據schemes的控制與管理問題;美國俄亥俄州立大學的Yonger JA分析了數字時代的資源描述方式[9];加拿大學者DesaiB C則對虛擬圖書館中資源索引與檢索進行了分析,討論了Dublin核心元數據在其中的作用[10];Vellucci SL分析了多種元數據描述方式在數字資源組織與描述中的綜合利用[11];雪城大學的Sutton SA等學者則分析了在教育領域中如何利用元數據加強因特網環境下信息檢索效率,提升教育水平和教學能力的問題[12]。第36號文獻在整個主路徑上的銜接作用十分突出,它是由VellucciSL1998年在《美國信息科學與技術年度回顧》上發表的一篇關于元數據的綜述,該文系統總結了至1998年為止元數據的發展歷史和進展[13]。
銜接早期研究和2010年以后研究的文獻為第665號文獻,該文由Mohamed K A F發表于2006年的《Online Information Review》上,文中詳細分析了元數據在網絡資源發現中的作用,特別是元數據對網頁資源索引的作用[14]。Farajpahlou A H等學者在2011年發表的編號為1314的文獻中,系統研究了動態網絡環境下,類似于Google和Yahoo等通用搜索引擎對于包含Marc 21和Dublin核心元數據信息的XML資源的索引效率,并討論了搜索引擎對這類資源的排序效果問題,研究發現Google能夠很好的發現并排序這些資源[15]。出現在主路徑上的最新的兩篇文獻發表于2014年,均由伊朗學者Taheri SM團隊撰寫;編號為1648的文獻中,Taheri S M等利用數據島方法創建元數據記錄,并使之能夠被通用的網絡搜索引擎所索引;在編號為1702的文獻中,TaheiSM等學者進一步對搜索引擎、XML和元數據相關內容進行了研究,發現綜合性搜索引擎能有效索引XML格式資源的元數據標簽名[16]。從引文主路徑可以看出,圖情領域元數據研究的主題轉變相對明顯,相關研究從早期的初級問題如元數據描述格式、規范等內容進一步發展到對搜索引擎及知識組織的研究,逐步深入。

圖5 元數據研究的主干
筆者主要利用計量學的方法,從文獻發表時間、地區和機構分布、作者群體、出版載體和引文網絡的角度對目前圖書情報領域的元數據研究進行了分析。從文獻發表的時間來看,1996年開始,圖情領域對元數據的研究逐漸增多,到2007年達到高峰,其后研究逐漸走向成熟。從地區、機構和作者的角度來看,美國在相關研究中處于絕對領先地位,偏技術應用研究的團體為圖情領域研究的核心團體;出版物分析的結果進一步支撐了上述結論,大量相關的論文發表于技術傾向明顯或計算機類的出版物上。引文路徑分析的結果表明,圖書情報領域對元數據的早期研究主要針對元數據本身,以及傳統圖書館資源組織和數字圖書館中的應用;隨著研究的進一步深入,對于元數據的研究逐漸拓展到知識組織和信息檢索領域;整體上看,圖書情報領域元數據研究相對成熟,且內部的科學結構和發展主干十分清晰。
參考文獻:
[1] Bagley,Philip.Extension of programming language concepts[M].Philadelphia:University City Science Center,1968.
[2] NISO.Understanding Metadata[EB/OL].http://www.niso. org/standards/resources/UnderstandingMetadata.pdf.[2012 -06-20].
[3] National Archives of Australia.AGLSMetadata Element Set-Part 2:Usage Guide-A non-technical guide to using AGLSmetadata for describing resources[EB/OL]. http://www.naa.gov.au/Images/AGLS%20Metadata%20Stan dard%20Part%202%20%20Usage%20Guide_tcm16-47011.pdf.[2012-06-23].
[4]張曉林.元數據應用與研究[M].北京:北京圖書館出版社,2002.
[5] Web of Knowledge.http://webofknowledge.com/WOS[EB/ OL].[2012-06-23].
[6]董克,等.基于主路徑分析的HistCite結果改進研究[J].情報理論與實踐,2011(3):113-116.
[7]董克,劉德洪.基于HITS與MPA算法結合的關鍵文獻確定方法研究[J].圖書情報工作,2011(3):77-82.
[8] Heery R.Review Of Metadata Formats[J].Program Electronic Library&Information Systems,1996(4):345-373.
[9] Younger JA.Resources Description in the Digital Age.[J]. Library Trends,1997,45.
[10]Desai,B C.Supporting Discovery in Virtual Libraries.[J]. Journal of the American Society for Information Science,1997(3):190-204.
[11]Vellucci,SL.Options for Organizing Electronic Resources:The CoexistenceofMetadata[J].Bulletin of the American Society for Information Science&Technology,1997 (1):14-17.
[12]Sutton Stuart A,Oh Sam G.GEM:Using Metadata to Enhance Internet Retrieval by K-12 Teachers[J].Bulletin of the American Society for Information Science&Technology,1997(1):21-24.
[13]Vellucci,SL.Metadata[J].Annual Review of Information Science and Technology,1998(33):187-222.
[14]Mohamed K A F.The impactofmetadata in web resources discovering[J].Online Information Review,2000(2):155-167.
[15] Farajpahlou A H,Tabatabai F.How are XML-based Marc 21 and Dublin Core records indexed and ranked by generalsearchenginesindynam iconlineenvironments?[J]. Aslib Proceedings,2011(6):586-592.
[16]Taheri SM,HaririN,Fattahi SR.Does discarding XML declarations and changing file extensions improve the indexability and visibility of metadata tag names in web search engines?[J].Journalof Information Science,2014 (40):796-805.
陶艷女,1980年生。碩士,助理館員,研究方向:情報分析與信息計量。
董克男,1985年生。講師,博士后。研究方向:信息計量與科學計量。
[分類號]G350
收稿日期:(2016-03-14;責編:王天泥。)