顧東曉 盛東方



摘要:文章采用引文分析法,探究了圖書情報領域研究對學術深網資源(AIW資源)的利用情況與趨勢。文章首先界定學術深網資源的內涵與特征,爬取近五年出現在領域權威期刊中的學術深網資源引文作為研究樣本,進而從學術深網資源引文的總體情況、資源類型、和資源來源三個層面進行分析,最后對科研資源的聚合與服務建設發展提出了建議。
關鍵詞:學術深網資源;資源聚合;學科服務;引文分析法
中圖分類號:G250.73 文獻標識碼:A DOI:10.1 1968/tsyqb.1003-6938.2016039
1.引言
以開放存取運動(Open Access Movement)為代表的模式變革促使越來越多的學術資源數字化后呈現在網絡中,而搜索引擎的誕生極大地方便了科研工作者查找此類資源并由此改變了他們的信息搜索與利用行為。近年來國內外學者開始從網絡引文角度關注網絡學術資源的利用情況,多數聚焦于引文數量、域名分布、可追溯性等特征指標,鮮有對網絡引文資源類型的深層次挖掘。本文以學術深網資源為研究切人點,探索通過引文分析法研究“看不見”網站資源對圖書情報學科科研工作的價值,揭示本領域學者對此類資源的利用規律,以期為進一步開發和利用學術深網資源提供依據。
2.“看不見”的網站與學術深網資源
2.1“看不見”的網站與學術深網
“Invisible Web”最初產生于互聯網領域,類似的概念包括“Deep Web”、“Hidden Web”等,國內學者馬費成將其譯為“看不見”的網站。美國圖書館員和信息專家Chris sherman和GaryPrice將“看不見”的網站定義為:在互聯網上可獲得的,但傳統的搜索引擎由于技術限制不能,或者經過慎重考慮后不作索引的那些網頁、文件或其它高質量、權威的信息。而在學術工作中,由于“看不見”的網站的存在,搜索引擎的結果質量往往引發質疑?;诖?,德國學者Dirk Lewandowski與Philipp Mayr提出了學術深網(Academic Invisible Web,AIW)的概念,指包括所有數據庫在內的傳統搜索引擎無法檢索到的學術內容,并認為,學術深網涵蓋了文獻(如期刊論文、學位論文、報告、圖書)、數據(如調查數據)、電子內容(如開放存取文檔)等資源,對學術工作極具價值。美國數據整合與企業信息分析公司Bright Planet發布的白皮書進一步顯示,“看不見”的資源規模遠大于表面網(Surface Web)并持續高速增長,同時,信息質量與內容深度也遠高于表面網。
2.2學術深網資源類型
“看不見”的網站以關系數據庫fRelationalDatabase Files)內容為主,還包括未被鏈接的網頁(Unlinked Pages)、非HTML網頁(Non-html Pages)、特殊文件(Special Files)、實時或者流動文件(Realtime or Streaming Files)以及動態網頁(Dynamic Pages)等。國內學者陳紅勤在Sherman和Price工作的基礎上歸納出“看不見”的網站形成的原因主要有技術、經濟和知識產權三類。Lewandowski和Mayr認為,從圖書館的角度而言,學術深網資源(后文簡稱AIW資源)以諸如PDF、PPT、DOC格式的特殊文件為主。隨著技術的發展,一些AIW資源正逐漸變得可見,譬如使用“關鍵詞+filetvpe:pdf”的查詢語句可以檢索PDF格式的文件,又如谷歌與百度都新增了圖像搜索功能等。盡管如此,“一站式”檢索并未真正實現。因而,本文仍將上述類型資源劃歸為AIW資源。
3.數據來源與處理
國家標準化管理委員會于2005年發布的最新版《文后參考文獻著錄規則》(以下簡稱《規則》),規定了包括數據庫在內的網絡資源的標引格式。但根據《規則》識別AIW資源存在兩個困難:一是部分文獻尤其是年代較久的文獻并未嚴格按照《規則》進行標引:二是某些資源特征無法通過著錄符號識別與區分,如動態網頁與靜態網頁。為彌補以上不足,本文采用著錄符號與URL雙重特征識別方法抽取目標引文,AIW資源分類與特征見表1。
在數據來源上,為準確把握圖書情報領域AIW資源利用情況,在綜合考量數據的可獲取性、準確性和權威性等方面的基礎上,本文選取中文社會科學引文索引(CSSCI)公布的《CSSCI(2014-2015)來源期刊擬收錄目錄》中的《中國圖書館學報》、《大學圖書館學報》、《圖書情報工作》與《情報學報》①4種期刊2010年至2014年刊載的學術論文作為研究樣本獲取AIW引文。以往引文分析研究數據來源大多為CSSCI,但筆者經測試發現,從CSSCI中提取到的引文數據存在內容缺少或格式不規范等問題。比較后,本文選取萬方數據庫作為數據源,根據數據抽取規則編寫爬蟲程序獲得目標著錄信息。數據采集時間為2015年11月18日到11月22日,共得到含AIW引文論文1699篇,AIW引文4597條。
4.數據分析
4.1AIW引文總體描述
從期刊分布和年度分布兩個維度,通過AIW引文的統計分析可以間接地反映科研工作者對AIW資源的價值認識和依賴程度。從表2可以看出,含AIW引文論文在全部刊載論文中占比超過三分之一,而《中國圖書館學報》更是超過半數,其中,篇均AIW引文數為2.71,AIW引文數在網絡引文總數中占比達到30.22%。這表明AIW資源是網絡學術資源的重要組成部分,被圖書情報領域學者廣泛認可,并在其科研工作中發揮著重要價值。按時間順序縱向觀察(見表3)可以發現2010-2014五年間單篇論文引用的AIW資源條目不斷增加,引用AIW資源的論文比重也大致呈上升趨勢,尤其是2013、2014兩年,比重達到40%左右。這反映出圖書情報領域學者對AIW資源的認同度不斷提升,越來越重視AIW資源的利用。
4.2AIW資源類型分析
根據AIW資源分類與特征(表1)對樣本中AIW資源引文類型進行考察,需要說明的是,數據處理中發現大量數據庫類型引文未能嚴格按照數據庫文件的著錄規則進行標注,且數據庫文件的URL不具備統一的可識別特征,因而本部分主要從特殊文件和動態網頁兩個大類進行分析。
從表4可以看出,特殊文件中PDF文件的引用明顯多于其它類型,這與前人的研究結論吻合,且在AIW引文中占比逐年增多,2011年開始已超過半數,2014年更達到65.75%。PDF文件是一種通用的文件格式,具有跨平臺、易于傳輸與存儲等特性㈣,有研究表明,PDF格式的網絡學術資源與較高的學術價值存在關聯,這很大程度上解釋了PDF文件被持續大量引用的原因。Word文檔與PPT文件也多次出現在AIW引文中,此結果與一項基于Google搜索的網絡學術資源類型調查結論相符。除此之外,xls、zip、xar、.exe格式的資源也出現在引文中,但頻次很低。
而對于動態網頁來說,一方面URL特征中的,asp、.isp、.php等僅反映了資源網頁的開發語言,不代表其本身的某些特征屬性差異;另一方面,網址中的“?”符號表示網頁屬于動態網頁,經常會和其它URL特征一同出現,如“http://www.sciencenet.cn/m/user-content.asox?id=216844”,因而對這些不同特征符號之間的引文變化情況進行分析價值較小。故此處不再考察各特征動態網頁引文在AIW引文中的占比,而選擇將動態網頁作為一個整體,分析其歷年在網絡引文中占比的變化。從表5可以看出,2010-2014五年間動態網頁引文占網絡引文的比重呈現回落趨勢,從2010年的16.97%下降到2014年的9.24%,五年來合計占比為12.78%。國內學者丁敬達、楊思洛對2005-2010年間圖書情報領域權威期刊網絡引文進行分析發現,動態類網絡引文比例是逐年上升的,六年的合計占比為10.47%。將這兩組數據進行對比,發現盡管2010-2014年動態網頁引文量出現下降,總體上較五年前仍有增長。相信隨著用戶生成內容的進一步推廣及其價值逐漸被認可,動態網頁型資源還將越來越多的出現在學術研究過程中。
4.3AIW資源來源分析
通過對AIW引文的域名進行分析,可以了解此類資源的來源以及研究者的利用偏好,并間接衡量不同網站的學術價值。按照域名可以將常見學術相關網站分為7類:.com(工商企業)、.org(非營利組織)、.net(網絡機構)、.edu(教育)、.gov(政府)、.ac(學術)、.int(國際組織)。本文對AIW引文域名統計見圖1??梢钥闯觯霈F頻次較高的域名由高到低依次是.org、.edu、.com、.gov,這與國內一項對2010-2012年網絡引文來源域名的研究結果(.org>.com>.gov>.edu)有所區別,也與中國互聯網信息中心發布的《第36次中國互聯網絡發展狀況調查統計報告》中的中國域名分類統計結果(.com>.net>.ac>.org)有較大差異。
為進一步探究AIW資源來源,挖掘在圖書情報領域研究中發揮重要價值的網站,本文對各類型高被引網站進行了統計,結果見表6。可以看出,學術類機構協會、圖書館與數據庫等傳統學術資源提供方提供了大量的優質AIW資源,且受到研究者的高度關注與廣泛引用。而來源網站中多次出現的各類學術數據庫與搜索引擎如IEEE Xplore、CiteSeer、eLIS、e線圖情等,正印證了真正的深網內容以數據庫為主的論斷。從網站的內容來看,高被引網站主題以圖書情報為核心向相關學科和領域延伸,如面向法學與知識產權的北大法寶、世界知識產權組織。這反映出我國圖情學者的研究主題與學術知識來源的跨學科性。從地域分布和語種來看,以國際圖書館協會聯合會等機構協會為代表的英文類國際域名網站占了相當大的比重,除此之外,來源于美國與英國的資源也頗受關注??梢姡S著我國圖書情報學科國際化程度的持續提高,科研人員對國際上的學術資源越來越重視,尤其在相關非營利組織資源不斷豐富、教育資源與政府信息進一步開放的趨勢下,相信外文資源將會越來越多的出現在我國圖情領域的研究中。伴隨Web2.0產生的新型學術資源網站如社會科學研究網、讀寫網同樣值得關注。有學者指出,Web2.0能夠促進知識的交流共享,學術博客作為一種新的信息資源,包含大量前沿學術資源。統計結果表明,Web2.0下的新型網絡學術資源已被科研工作者認可并廣泛利用。另外,經濟合作與發展組織、中國互聯網信息中心等網站資源的廣泛引用,反映出我國圖情領域研究呈現出關注經濟發展,注重與產業界結合的趨勢,更表明科研工作者已不再局限于傳統學術資源,而是更多地利用“非學術”資源進行科學研究。
5.總結與討論
本文運用引文分析的方法,對近五年出現在圖書情報領域四種權威期刊上的AIW引文進行分析,探究AIW資源在本學科研究中的利用情況與趨勢。
(1)AIW資源大量出現在學術論文引文中,反映出我國圖情學者在科研過程中對學術資源的搜集與利用已不再局限于淺層的“表面網”,更加關注那些輕易“不可見”但價值量極高的深度資源,并且,AIW資源比重的持續加大也顯示了學者對其依賴程度的不斷提升。然而,持續的各種數字化工程雖然有力推動了資源的開放共享,但相對落后的搜索能力側面上加劇了學術資源的“不可見”。因而,旺盛的資源需求與有限的獲取能力和較高的搜索成本成為了AIW資源利用的一大突出矛盾。AIW概念的提出者Lewandowski與Mavr認為,針對這種現狀,以圖書館為代表的學科服務提供方有責任通過合作等方式努力使AIW的內容對科研工作者可見?;诖耍疚恼J為深度聚合圖書情報領域AIW資源,實現高質量科研信息導航與服務意義重大。
(2)從資源格式來看,以PDF文件為代表的非結構化文檔由于在AIW引文中占比極大應予以足夠重視。如前文所述,PDF格式的網絡資源往往具有較高的學術價值,但學術搜索引擎如Google Scholar的搜索范圍以結構化數據庫中正式發表的學術文獻為主,對非正式發表的學術文獻覆蓋率低,導致大量極具學術價值的PDF類型資源仍“不可見”。國內外學者為解決這一問題從鏈接、內容、文體等特征人手嘗試對PDF學術資源的識別和檢索加以改進并取得了一定成果。就本文研究結果而言,對PDF、DOC、PPT等格式文件的分析與處理仍是提升AIW資源利用效率的重點。另外,研究結果還表明,動態網頁型資源在學術研究中頗具價值,針對此類資源的獲取,有學者提出對特定“不可見”網站編寫腳本或程序進行查詢和提取是有效途徑。
我國圖情學者在科研工作中對AIW資源的利用呈現出來源網站與資源內容的跨學科、國際化、非傳統、新形式的趨勢。因而在進行學科知識聚合與服務中,也應突破固有思維,順應科研活動變化。從來源上,除傳統提供學術資源服務的數據庫、圖書館外,一方面向提供經濟、政策與行業等背景信息的非學術類工商企業、政府和非營利組織網站拓展;一方面重視Web2.0環境下各類非正式學術交流社區:從內容上,向圖書情報研究的相關支撐與交叉學科延伸:從區域上,打破地區與語言的限制,引入豐富的外文資源。依據以上原則篩選出重點信息源,結合上文提到的編寫特定腳本或程序進行查詢和提取的方式,對其AIW資源進行揭示。