〔摘 要〕本文直接通過網絡的各種特色功能的分析,從而以逆向工程的方式再現Web of Sciencereg;系統的數據結構情況和軟件架構特色,著重分析了WOS在個性化服務和引文分析方面的特色,從而給使用該數據庫的用戶和國內外的其它數據庫商提供一些新的認識,能為用戶提供更好的數據庫結構分折及功能應用,同時也為數據庫商能進一步完善現有數據庫系統提供借鑒。
〔關鍵詞〕SCI;數據庫;信息檢索;分析應用
〔中圖分類號〕G252.7 〔文獻標識碼〕B 〔文章編號〕1008-0821(2009)05-0117-04
On the Structural Analysis and Functional
Application of Web of Sciencereg; DatabaseYuan Haojie Chen Yaojun
(Library,Ningbo Polytechnic,Ningbo 315800,China)
〔Abstract〕Through the analysis of various characteristic functions on network,the thesis reproduced the digital structure and software structural features of Web of Sciencereg; system and stressed on the features of WOS in the aspect of individualized service and quotation analysis.All of these offered some new understanding for the customers and other suppliers of this database at home and abroad,better structural analysis and functional application of the database and provided references to database dealer to further perfect the current system.
〔Keywords〕SCI;database;information retrieval;software analysis
1 Web of Sciencereg;簡介
Web of Sciencereg;(簡寫為WOS)是湯姆森公司旗下湯姆森科技信息集團所推出的ISI Web of Knowledge平臺環境的核心。湯姆森公司(The Thomson Corporation,網址:http:∥www.thomson.com/about/)是全球專業信息服務和出版領域最大、最領先的跨國企業,為全球各領域130多個國家2 000多萬用戶提供服務。湯姆森科技信息集團(Thomson Scientific,網址:http:∥www.scientific.thomson.com)隸屬于湯姆森公司(The Thomson Corporation),所提供的信息資源與服務包括學術期刊、學術會議錄、發明專利、技術標準等,提供大量的學術數據庫。其中ISI Web of Knowledge就是其主打產品,該產品是一個基于Web而構建的整合的數字研究環境,通過強大的檢索技術和基于內容的連接能力,將高質量的信息資源、獨特的信息分析工具和專業的信息管理軟件無縫地整合在一起,兼具知識的檢索、提取、分析、評價、管理與發表等多項功能,從而大大擴展和加深了信息檢索的廣度與深度,加速科學發現與創新的進程。ISI Web of Knowledge以Web of Science為核心,憑藉獨特的引文檢索機制和強大的交叉檢索功能,有效地整合了各種學術信息資源等,各行業提多個領域中高質量、可信賴的學術信息;在功能上,ISI Web of Knowledge提供了強大的知識發現與管理工具幫助研究人員迅速深入地發現自己所需要的信息,把握研究發展的趨勢與方向。ISI Web of Knowledge擁有全球81個國家的2 000萬用戶,每天有超過15萬使用人次。作為ISI Web of Knowledge的核心Web of Sciencereg;數據庫收錄了9 000多種世界權威的、高影響力的學術期刊,內容涵蓋各個領域。包括Science Citaton Index Expandedreg;(1900年至今)、Social Sciences Citation Indexreg;(1956年至今)、Arts Humanities Citation Indexreg;(1975年至今)、Index Chemicusreg;(1993年至今)以及Current Chemical Reactionsreg;(1986年至今)5個數據庫。另外,Web of Sciencereg;還收錄了論文中所引用的參考文獻、并按照被引作者、出處和出版年代編制成索引。通過獨特的引文檢索,您可以用1篇文章、1個專利號、1篇會議文獻或者1本書的名字作為檢索詞,檢索這些文獻的被引用情況,了解引用這些文獻的論文所做的研究工作:您可以輕松的回溯某一研究文獻的起源與歷史,或者追蹤其最新的進展,即可以越查越舊,也可以越查越新,越查越深入。
2 Web of Sciencereg;功能特點和應用舉例
2.1 Web of Sciencereg;功能特點
(1)使用參考文獻回溯的方法,發現對作者工作產生重要影響的研究。
(2)在使用Times Cited時向前瀏覽,發現某篇論文或其它出版物對當前研究的影響。
(3)鏈接到重要文獻的全文。
(4)記錄可直接輸出到著名的學術信息管理程序EndNotereg;、Reference Managerreg;和ProCitereg;中。
(5)對檢索結果進行多角度、可視化的全景分析。
(6)定制引文跟蹤服務。
(7)查看相關文獻共有的參考文獻數以及這些共有參考文獻的內容。
(8)更有效地利用被引文獻檢索,可以找到如何有效使用被引文獻檢索這一功能的在線教程。
(9)方便地利用“導航字典”查找Web of Science中收錄的作者的姓名、團體作者、被引作者姓名、期刊名稱、被引期刊名稱。
(10)用戶在使用快速檢索功能時,系統會自動調出最近經常使用的檢索詞,用戶可以很快地看到關于這個檢索詞有沒有新的數據更新進來。
(11)根據自己的需要做靈活的個性設置。
(12)(Web of Science 7.0取消了原來對檢索結果只能看到前500條的限制。)
2.2 Web of Sciencereg;的應用舉例
(1)發現有誰在引用你的研究,以及你的工作對全球研究界的影響。
(2)找到某個重要理論或概念的開創性研究。
(3)衡量同事或競爭者工作的影響。
(4)跟隨當今最熱門的想法和概念的思路和方向。
(5)確定某個理論是否已被證實、更改或改進。
(6)找出一個基本概念是如何被應用的。
(7)在幾年間的研究文獻中追蹤某個題目。
(8)驗證參考文獻的準確性。
(9)找出在標題或主題檢索中遺漏的相關文章。
(10)利用論文間天然的引用與被引用關系,進行滾雪球式的檢索,不會遺漏重要的文獻。
(11)借助引文數據評估同事、競爭對手,以及自己的研究工作在行業內的影響力。
(12)查看某一個理論是否已經被證明、被肯定,甚至被修改。
(13)在全球范圍找到研究合作者。
以上所有的功能特點和應用舉例都取決于以下對WOS的基本數據架構,也就是說所有的功能特色都取決于以下所分析的內容。
3 Web of Sciencereg;基本框架分析
3.1 Web of Sciencereg;數據庫基本表及其字段屬性
從檢索結果詳細記錄(Full record),可以推出Web of Sciencereg;數據庫最基本表將包含以下字段:
(1)標題(Title):是論文的完整標題。
(2)作者(Author):包含作者的姓和不超過5位的名字的首字母。
(3)文獻標題(Source Title):是論文發表的期刊的名稱,同時含有卷、期和頁碼信息。
(4)參考文獻(Cited References):包含作者在其發表論文的參考文獻列表中列出的文獻目錄。
(5)被引次數(Times Cited):指該論文自發表以來被數據庫收錄的其他論文的引用次數。
(6)相關記錄(Related Records):指數據庫中的與您正在瀏覽的記錄共同引用了1篇或多篇相同參考文獻的那些文章。
(7)摘要(Abstracts):如果文章存在作者提供的英文摘要,則摘要被數據庫索引。
(8)作者關鍵詞(Author Keywords):指由作者提供的關鍵詞。
(9)擴展關鍵詞(Keywords Plus):指從文章的參考文獻的標題中提取的關鍵詞。
(10)作者地址(Address):所有的作者地址都被索引。文章責任人地址被列在最前面,隨后是研究人員地址。注意除文章責任人以外,其他作者姓名順序與作者地址不一一對應。
(11)作者郵件地址(Author Email Address):如果原文中則給出郵件地址。
(12)學科分類(Subject Category):指的是期刊的學科分類而不是文章的學科分類。這里所提供的學科分類與Journal Citation reports的分類完全相同。
(13)文檔類型(Document Type):文章的類型,SCI的全部文檔類型有:
Article;Abstract of Published Item;Art Exhibit Review;Bibliography;Biographical-Item;Book Review;Chronology;Correction;Correction,Addition;Dance Performance Review;Database Review;Discussion;Editorial Material;Excerpt;Fiction,Creative Prose;Film Review;Hardware Review;Item About an Individual;Letter;Meeting Abstract;Meeting Summary;Meeting-Abstract;Music Performance Review;Music Score;Music Score Review;News Item;Note;Poetry;Record Review;Reprint;Review;Script;Software Review;TV Review,Radio Review;TV Review Radio Review,Video;Theater Review
(14)文章所用語言(Language):原文是用什么語言寫的。
(15)IDS號(IDS Number):這是SCI為每篇文章或期刊編的號碼。SCI總共有49種語言的選擇范圍。
(16)ISSN號(ISSN)國際標準連續出版物號。
該數據表的關鍵屬性(關鍵字)要么在上面的字段中沒有體現,如果從以上的屬性里存在一個關鍵屬性,那么該關鍵字可能就是IDS Number。有了基本表和其它相關聯的表,數據庫的各種功能特性就可以根據這些表的字段進行開發。而通過關鍵字和各字段的關系進行論文和論文之間錯綜復雜的引用關系形成了整個WOS的特色,也正是這樣簡單的數據庫表就可以提供各種復雜的數據庫應用。
3.2 WOS的用戶結構分析
用戶數據是WOS各種個性化服務的基礎,包括對購買庫和追溯時間的限定,保存每個人獨立的搜索結果等等。WOS的用戶結構是分兩個層次的,第一是機構用戶,按IP地址段作為關鍵字屬性(或者與IP地址段惟一對應的關鍵字),Web of Science一般不直接對個人客戶開放,都中由機構購買,購買后將機構所對應的IP地址報給湯姆森科技,由湯姆森科技公司相關部門將相應的權限賦予相應的IP地址。用戶進入ISI Knowledge主頁后網站將自動根據IP地址來呈現所買的數據庫和可追溯時間。第二是機構內的個人用戶,個人用戶由使用者自行注冊,注冊完成后用戶可以選擇自動登錄。登錄后WOS根據個人用戶所登錄的信息提供完全個性化的服務。也就是說,您進入的每一個WOS頁面,WOS都是完全針對您的情況提供相應的服務的,根據用戶當前所處的頁面的位置針對性的提供相應的工具和鏈接選項。個人用戶在使用WOS,從主頁進入后即可以通過“register”注冊一個自己的用戶賬號,該賬號以電子郵件為關鍵字屬性。WOS的密碼結構也是比較特殊的:至少8個字符并且要包含至少1個數字和特殊字符(!@#D|S%^*()~`{}[]|\),這樣的密碼結構甚至比網上銀行要求還要嚴格得多,從而進一步保證使用的安全性和惟一性,為個性化服務打好基礎。該用戶表同ISI另外一個服務EndNote的用戶表是相通的,也就是說在EndNote上注冊的用戶可以無需注冊直接在WOS上使用。就像微軟提供的Passport服務(現又叫Windows Live Id)一樣,可以通過共用數據表或者采用分布式數據庫的方式實現。
從注冊表單里可以看出用戶表的基本屬性包括:
(1)名(First Name);
(2)姓(Last Name);
(3)Middle Initial;
(4)密碼(Password);
(5)電子郵件(E-mail Address);
(6)主要角色/頭銜(Primary Role/Title);
(7)學科領域(Subject Area);
(8)自動編參考文獻所用軟件(Bibliographic Software Use);
(9)其它可選項(Opt in/Opt out);
(10)是否自動登錄(Automatic Sign In)。
正是通過以上的注冊內容,WOS為個人用戶提供完全個性化的服務和特殊服務,如(引文通知,保存搜索結果,自定義起始頁等等)。WOS并沒有要求填寫非常多的字段,不像很多的數據庫商或網上應用那樣要求填寫很多的并不相干的內容,什么性別,住址,電話等等。WOS只需填寫必要的字段,提高用戶使用的友好性。這里需要說明的一點是,WOS的姓名我們中國人用起來會不大習慣,包括論文的作者,WOS是根據Last Name,即姓為主要的字段,這可以從它的Author Finder(按作者查找)里體現出來,而像中國同姓的人就實在太多,不便于查找。
3.3 WOS的作者、期刊及機構屬性
WOS對文章的作者,所屬的期刊以及作者所屬的機構是分別進行了索引的。從WOS新推出的功能“作者查找(Author Finder)”的4個步驟可以看出作者具有的字段性屬性包括:作者的姓(Last Name),作者名的第一個字母(First Initial),中間名最多3個字母(Middle Initials),作者研究的學科分類(Subject Category),作者所在機構(Institution)。作為作者表,還可以包含作者的地址,電子郵件等。“Last Name”作為必選項,所以姓是作者的主要字段。WOS對以上這些信息進行了索引,正是新推出功能“Author Finder”的基礎。WOS在從檢索結果里可以看出文章出處的期刊名稱,券號,期號,出版日期等信息,但在WOS里對具體的期刊索引沒并有體現出來,從湯姆森科技集團的另一個網站:http:∥scientific.thomson.com/mjl/可查到期刊的索引,這里對期刊的字段進行索引的有:期刊名稱,期刊出版周期,ISSN號,出版社名稱,出版社所在詳細地址。
3.4 Web of Science的主要搜索類型
Web of Science共有多種類型的搜索方式在所選的庫(如SCI-EXPANDED,SSCI,AHCI)和所選的時間段內進行搜索,所選的庫和可追溯時間根據購買情況決定。現對主要搜索類型分述如下:快速搜索,點擊“WELCOME”按鈕會進入快速搜索,只需在填入幾個關鍵詞即可以從所選的數據庫和相應的時間段內進行搜索。WOS有一個個性化的特性是可以把您的搜索結果保存起來,按鈕可以把以前保存的搜索結果打開。該搜索類型里的功能 “創建新的會話”的意思是將清除所有的以前保存的表單,標記列表和搜索歷史。普通搜索比快速搜索提供了更多的選項,可以通過主題(TOPIC),從文章標題,摘要和關鍵字中進行搜索,還可以使用布爾符號和通配符進行;也可只針對標題進行搜索(Title only);或通過作者(AUTHOR)查找,作者可以從專門編制的作者索引中查找,還可使用查找作者方式(Author Finder);可通過機構作者(GROUP AUTHOR)限定到指定機構作者中(WOS對機構作者也作了索引);還可限定來源,即期刊標題(SOURCE TITLE)進行查找,同時提供完整的期刊列表可供選擇;另外還可限定出版年份(PUBLICATION YEAR);或從作者地址(ADDRESS)中和限定文章的語言進行查找。在論文的領域里,人們比較關注的是該論文被哪里引用,從而看到該論文的各種拓展,這也是SCI引文索引最大的功能特色。在WOS里還可以通過被引作者(CITED AUTHOR)查找,或通過被引工作(CITED WORK)的期刊標題,專利號等來查,以及通過被引年份(CITED YEAR)來查看被引文獻情況。結構搜索,顯然WOS根據化學結構的特色建立了專門的結構化數據庫,通過瀏覽器插件的方式查看化學結構。本文對該種搜索方式不再作進一步的分析。高級搜索,它是通過標簽的形式以特定的語法進行搜索,這是對General Search的方式的擴展。WOS的全部標簽為:TS=Topic(主題),TI=Title(標題),AU=Author(作者),GP=Group Author(機構作者),SO=Source(來源),PY=Publication Year(出版年份),AD=Address(地址),OG=Organization(組織),SG=Suborganization(分組織),SA=Street Address(街道地址),CI=City(城市),PS=Province/State(省/州),CU=Country(國家)ZP=Zip/Postal Code(郵篇)。在高級搜索里可以使用布爾運算方式:全部的布爾運算符包括:AND,OR,NOT,SAME。在高級搜索中還包含,也就是說可以對自己的歷史搜索結果進行相應的整合,從而產生新的搜索式和新整合的搜索結果。
4 WOS對搜索結果處理的功能特點分析
4.1 對結果進行提煉
WOS可以根據主題類別(Subject Categories),期刊名稱(Source Titles),文檔類型(Document Types)、作者(Authors)、出版年份(Publication Years)、國家/區域(Countries/Territories),機構(Institutions)、語言(Languages)進一步提煉結果,縮小搜索范圍,快速找到想找的內容。以上者是與基本表相關的一些字段屬性,通過系統的的實現上,用SQLl表達式就可以快速的限定搜索范圍。
4.2 結果排序功能
對結果進行排序,可以根據日期(Latest date),被引次數(Times Cited),相關性(Relevance),第一作者(First author),期刊名稱(Source Title),出版年份(Publication Year)進行排序,這些數據也是在基本表中。用SQL表達式的Order By功能即可實現。
4.3 結果分析功能
對搜索到的結果按照相應的等級進行排列輸出,以圖表的方式,一目了然。分析的內容可以為作者(Author)、國家/地域(Country/Territory)、文檔類型(Document Type)機構名稱(Institution Name)、語言(Language)、出版年份(Publication Year)、期刊標題(Source Title)、主題類別(Subject Category),分析結果以圖表的形式顯示。從中又可以進一步的選擇相應的結果。它的分析是遞歸式的,對選出的結果可以重新進行分析,直到自己滿意為止。這種遞歸式的分析只要基本表和邏輯清淅即可,每一次遞歸都遵循同一個邏輯,對于計算機程序來說只是簡單的一次重復,實現上難度并不大,但在使用上卻大大的方便了使用者。
5 WOS主要的個性化服務體現和功能模式在國內的應用
以上的分析已經全面的涵蓋了整個WOS體現,WOS的各種應用都是從上面的特性出發,體現在個性化上的功能有:記錄標注(Marked Records),搜索時一眼就可以看到哪些是自己曾經標注過的,這些工作要是自己一條一條的收集記錄會增加非常多的工作量。保存搜索記錄(Saved Searches)對于要查找的內容經過幾次的遞歸得到一個滿意的結果,把搜索出來的這些結果保存起來,下次要用的話直接調出來即可。引文通知(Citation Alerts),文章被其它人引用時自動得到通知,這要是人工去做的話那就是經常性的徒勞無功。其實WOS也可以提供一個功能是搜索式通知,即同一搜索式出現新的文章時進行個性化通知的功能。
WOS的有些機構或使用者需要對本機構內或者某一范圍內論文是否被SCI索引進行研究分析,在期刊上也經常可以看到這種類型的論文。其實這種分析在WOS是比較容易實現的,根據實際需要出發,通過搜索經過幾次遞歸即可產生符合自己需要的搜索結果,保存這些搜索式結果或作上標記,還可用WOS自動的對論文進行分析,下一次還可以將保存的結果打開,分析的結果比用戶自己的統計還要精確。
由于SCI在有研究的選刊和期刊影響因子計算,遵循著科學論文的二八定律,高質量的科學引文索引是SCI各種應用的保證。中國的三大期刊全文數據庫萬方,中國知網和維普,除萬方的期刊質量稍好一些外,都沒有像SCI那樣有著高質量的選刊標準。高質量和高標準也意味著在數據的處理上有更多的規范可以遵循,有了相應的規范則數據的處理就會變得簡單。另外WOS里分析出來的結果的價值自然要比一般數據庫里分析出來的價值要高,這樣就有更多的用戶愿意使用其分析功能。因此,這些數據商如果要提供類似WOS的服務,首先要對期刊進行遴選,然后可以參考WOS提供分析和個性化服務。
借簽SCI的特色,中國科學院科學數據庫推出了“中國科學引文數據庫”,在期刊的遴選上作了一些工作,收錄了中英文科技核心期刊和優秀期刊近千種,提供了引文索引,被稱為“中國的SCI”。并于2002年開始提供網絡版,以“中國科學文獻數據庫服務系統”的形式提供統一服務。雖然在某些方面借簽了SCI的一些特色,但在分析功能上遠遠沒有達到WOS的程度。
參考文獻
[1]趙云亭.新一代學術信息資源整合體系——ISI Web of knowledge[J].現代情報,2004,(1):57-58,60.
[2]杜永莉,陳銳.Web of Science最新版檢索及其新功能介紹[J].現代情報,2005,(10):108-109.
[3]http:∥isiknowledge.com[EB].2007-06-04.