999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Google Scholar的數據整合研究

2010-12-31 00:00:00洪道廣
現代情報 2010年7期

[摘 要]Google Scholar對各種學術資源數據庫進行了有效而全面的集成,通過同一界面簡單查詢可以得到不同語種、各種來源的文獻。本文通過實例對Google Scholar整合的數據進行研究,結果顯示整合的中文數據主要來自維普與萬方期刊,英文數據來源廣泛。通過比較4個專利平臺和幾個常用全文數據庫,Google Scholar對美國專利和全文數據庫都有很好的覆蓋率。本文還討論了Google Scholar對于相同文獻不同來源的數據處理。

[關鍵詞]Google Scholar;數據整合;數據檢索

DOI:10.3969/j.issn.1008-0821.2010.07.011

[中圖分類號]G250.76;G255.2 [文獻標識碼]A [文章編號]1008-0821(2010)07-0039-03

Research on Data Integration of Google ScholarHong Daoguang

(Library,East China University of Science and Technology,Shanghai 200237,China)

[Abstract]Google Scholar gives an effective integration on academic resource databases.Different language and resource results with simple searching interface can be got.The article researched on data integration of Google Scholar by retrieval example.Google Scholar is mainly from VIP and Wanfang periodical databases in Chinese data and widely from various databases in English data. Comparing with four patent platforms and some usual full-text Databases,Google Scholar provided good coverage to American patent and these full-text Databases.It was also discussed that the same article with deferent sources was treated in Google Scholar.

[Keywords]Google Scholar;data integration;data retrieval

Google Scholar(以下簡稱GS)作為學術搜索引擎,具有數據來源廣泛、可以在線免費檢索、方便使用等特點而被越來越多的讀者使用,但到目前為止Google公司沒有明確地公布GS判斷學術資源的標準、收錄范圍與數據標引[1]。相比傳統的專業文獻數據庫一般有明確的收錄范圍及標準,因此通過GS與這些專業數據庫檢索結果對比,可以較好地對其進行評判[2-7]。本文通過實例從數據整合的角度對GS的數據來源、整合方法進行探討,以便讀者對GS的數據有更直接的了解,同時供同類數據整合建設時參考與比較。

1 研究方法

GS有不同語言的檢索界面,相比中文版(原地址http:∥scholar.google.cn/,現改為http:∥scholar.google.com.hk/),英文版GS(http:∥scholar.google.com/)提供了更多的條件選擇:可以根據需要選擇是否包含專利文獻,在高級檢索中還增加了學科分類,對中文數據GS沒有進行學科分類,因而查詢中文時不能再另選學科。本文比較時,選擇英文版作為查詢界面[8]。

GS結果界面一般包含學術文獻的標題,提供文獻的作者、年份、出處,對于來自網絡數據,還提供網絡來源及相應出處的超鏈接。直接的數據顯示有字符數的限制,如長標題的文獻是帶有省略號的題名。本文通過設置中的使用偏好(Scholar Preferences),將文獻的完整信息導出到.bib管理文件中,通過程序批量處理后導入數據庫,GS包含的其它信息如多復本的版本信息、數據出處的平臺站點信息也一同通過處理倒入數據庫。

為方便比較,選用高級檢索的題名檢索,檢索式如下表1所示的中文與英文文獻檢索:

上述檢索中,英文文獻實際廢水更多的是以Wastewater出現,這里只是考慮結果適中的數據利于比較,中文檢索“廢水”與“分析”的邏輯組合也只是出于結果數的考慮。

我校以理工為特色的綜合性大學,購買的中文全文文獻包括維普數據庫、萬方數據資源庫、中國知網數據庫等,外文全文數據庫有Elsevier、Springer、IEEE、Wiley、ACS等,本文側重比較這些數據庫及免費的專利數據庫與GS的檢索結果,分析GS對這些數據庫的整合情況。

2 數據整合結果分析

2.1 中文文獻的整合

GS收集的中文文獻主要是中文期刊文獻,按上述表1檢索條件,得到的文獻共526篇(2009年12月15日查詢結果)。檢索的結果按其數據庫平臺出處分布如下表2所示:

上表顯示的數據(結果數也可以通過查詢窗口中加對應的數據庫平臺地址得到,如維普數據在查詢欄中加site:cqvip.com)來自維普、萬方、中國知網數據庫的文獻共483篇,占全部數據量的91.5%。表中顯示的23篇其它鏈接為來自20個不同平臺的數據,另外有22篇無鏈接出處為均來自文獻引用的參考文獻。GS對重復的文獻數據只提供一個來源數據供查詢,其它來源只有點擊結果頁面上的文獻版本信息獲得。例如上述維普來源的數據,除了可以直接通過查詢得到349篇外,在萬方數據資源的45文的版本中查到14篇文獻有維普來源的信息,另外23篇其它鏈接資源的版本信息里中有16篇維普數據庫來源的數據,而這二部分的數據不能通過站點(site:cqvip.com)查到。事實上比對發現GS收錄了維普與萬方數據所有的期刊數據,只收錄了少量中國知網的期刊數據,而維普與萬方資源的期刊數據存在著大量重復(見表3),因而整合時存在著誰作為可查詢來源的數據的問題,從結果看,GS按以下順序選擇:

[全文數據]>維普數據>萬方數據>[引文]

7上述16篇其它鏈接的文獻均有全文,因而重復的維普來源放在版本信息中,大部分維普數據結果的版本中包含萬方數據來源,但也有少數萬方數據優于維普的情況。

中文期刊集中在維普、萬方、中國知網3個商業中文數據庫中,比較這3個數據庫的直接查詢及GS結果可以反映數據庫之間的重復率及GS的覆蓋率。結果如下表3所示:

表3顯示這3個數據庫得到的數據量相近,重復率高,中國知網期刊更新速度最快。不計2009年數據,維普數據庫檢中數據量最多,維普數據對萬方期刊重復率93.6%,對中國期刊數據的重復率為94.1%。GS包含了維普、萬方期刊的全部期刊數據,但GS直接收錄的知網期刊數據很少,表2中來自中國知網的46篇文獻中,來自知網中的會議論文(cpfd)27篇和碩士論文(cdmd)19篇,在版本信息中也基本上沒有見到知網的中文期刊來源。盡管如此,如果去除2009年數據,GS對知網中國期刊文獻覆蓋率為97.2%。

分析表明GS標引有許多錯誤,萬方學術數據庫(scholar.ilib.cn)平臺數據,實際上是萬方資源數據的另一個平臺,表1中,GS整合的43篇數據均是引用的文獻,顯示的結果中有12篇標題出錯,另外給出的作者也明顯與原文不對應,將正確的原文標題在GS進行重新查詢,結果顯示43文均可以直接在維普或萬方數據資源平臺來源的數據里查到,另外無鏈接的22篇文獻也同樣發現有16篇包含在維普數據中,由于格式、文字錯誤等原因作為獨立標引,按上述規則其正確的結果應該只能在版本信息中出現。

2.2 英文文獻的整合

GS整合的英文文獻來源廣泛,數據也作了進一步的分類與整合。按表1英文檢索例結果共945條結果記錄(2009年12月15日檢索數據),其中引文數據247條,引文數據中有許多標引錯誤,造成文獻重復顯示。這里只討論去除引文的結果,共有698篇,其中專利215篇,其它483篇,分布學科主要是環境、材料、化學、工程等學科。

2.2.1 專利文獻整合

GS查詢的專利數據共215篇,主要來自4個網絡平臺上的數據,如表4所示:

GS導出的文獻信息(.bib)文件中的專利信息十分簡單,包含的信息也不一致,在日期項中GOOGLE專利站點(www.google.com/patents)集成的未授權專利為申請日期(Filing date)、授權專利是授權日期(Issue date),而其它站點的數據選擇的是公開日期(Publication date)或公開的年份,上表來自2,4站點的GS數據只有發明者、標題信息、專利公開的年份信息。

GS的專利檢索數據來自GOOGLE專利平臺的結果,該平臺僅收錄美國專利,GS還包括歐洲專利與PCT專利,數據分別來自freepatentsonline.com平臺及世界知識產權組織(wipo.int)專利和歐洲專利局平臺(v3.espacenet.com),對于重復的數據,GS顯示的只是其中的一條,其余的可點擊版本(version)鏈接信息顯示同一篇專利不同站點來源鏈接,數據排列如下:

Google Patents>freepatentsonline.com>wipo.int>v3.espacenet.com>[引文]

即數據重復時,排在前面的數據作為GS第一頁面顯示,排列后面平臺的重復數據只出現在版本信息中,直接檢索時只檢出第一頁面來源的數據。如GS中檢出的freepatentsonline.com的56條數據中,有5條是GOOGLE專利還沒有收集的最新美國專利,其余的51條包含歐洲專利和WIPO專利,查詢多版本的重復數據發現其中歐洲專利局來源有40條,知識產權局13條,而這些數據沒有直接在GS相對應的站點檢索中檢出。

2.2.2 其它英文文獻的整合

除專利文獻外的,數據來源于112個平臺網站出處,大于10篇文獻的平臺出處有11家,涉及到具體的刊物近300種,合計不同版本的總數,共1 480次。其中前7個平臺如下表5:

表5中日本科技門戶數據為日本科技文獻的英文文摘,中國知網的英文數據主要是中文期刊中對應的英文題錄,說明英文文獻來源廣泛,而通過GS也可以了解所查詢課題的不同數據來源。

GS提供的鏈接為該文獻的原始數據出處,點擊文獻鏈接自動得到該文獻許可的相應權限,校園網訪問學校訂閱的外文全文數據庫時一般通過IP地址控制的,因此通過校園網進行GS查詢就可以直接訪問相應的數據全文。GS實際上整合了這些數據庫訪問的入口。以下是我校訂閱的主要外文期刊全文,及相對應的GS檢中結果。

表6GS直接查詢數指不包括在版本信息里的數據,數據庫查詢是指各數據庫平臺本身查詢的結果,文獻檢中數指所有GS數據覆蓋對應數據庫查詢的數據,上表中Wiley數據較多在版本信息中出現,所以直接查詢數據相差較大,其它數據基本相近,說明大部分數據GS作為可直接查詢數據,另外表中Elsevier中有6文只是編輯發布的消息,GS沒有包含這部分的數據,因而實際覆蓋率如果去除這6篇文獻應達到98.1%。

3 結 論

通過對GS的數據查詢得出如下結論:

(1)GS整合重復數據時,直接查詢時一般只能查詢出其中一個來源地址作為第一個頁面,其余的不同來源信息只有點擊版本(Version)信息后顯示,對于免費提供全文的文獻一般優先給出;

(2)GS的中文數據主要是中文學術期刊的文獻,數據主要來自維普及萬方的數據整合,對于重復的文獻維普較為優先作為可查詢來源地址;不同于外文全文數據庫,校園網用戶的IP地址沒有綁定在相應的服務器上,從GS查到的來自維普、萬方、中國知網數據庫的結果均無法通過校園網直接閱讀全文數據,中文數據庫的全文數據只能通過本地鏡像或數據商提供的專用地址上獲得,因而通過GS途徑調用全文顯得不便;

(3)GS整合的英文專利主要是美國專利也有一些WIPO、歐洲專利的英文數據,來源數據及排序優先選自Google專利(www.google.com/patents)及免費專利平臺(freepatentsonline.com),相比專利局提供的專利,這二個平臺讀取或下載全文數據更方便;

(4)GS整合的英文學術文獻數據來源廣,對于英文學術數據庫的網上數據庫資源如Elsevier、Springer、IEEE、Wiley等均有良好的覆蓋率,利用GS檢索可以直接通過校園網訪問這些有權限的文獻全文;

(5)GS根據文獻被引情況采取自動分析與抽取引文,考慮全文、作者、出版物及被引情況,按相關度排序,提供了很好的參考。但從檢索結果看通過文獻引文得出的數據,有許多錯誤,從而影響了其結果的準確性與完整性。

參考文獻

[1]Google學術搜索幫助[EB].http:∥scholar.google.com/intl/en/scholar/about.html

[2]Kayvan Kousha and Mike Thelwall,Google Scholar Citations and Google Web/Url Citations:A Multi-discipline Exploratory Analysis,Journal of the American Society for Information Science and Technology,2007,58(7):1055-1065.

[3]夏旭.基于Google學術搜索的引文檢索研究[J].情報理論與實踐,2006,29(6):697-701.

[4]John J.Meier and Thomas W.Conkling,Google Scholars Coverage of the Engineering Literature:An Empirical Study,The Journal of Academic Librarianship,2008,34(3):196-201.

[5]William H.Walters,Google Scholar coverage of a multidisciplinary field,Information Processing Management,2007,43(4):1121-1132.

[6]陳家翠,谷玉榮.Google學術搜索檢索性能的分析及評價[J].情報理論與實踐,2007,30(5):74-78.

[7]洪道廣.Google Scholar與工程索引的檢索比較[J].現代情報,2009,29(11):125-127,130.

[8]Google學術搜索中文版[EB].http:∥scholar.google.com.hk,2010-02-02.

[9]Google學術搜索英文版[EB].http:∥scholar.google.com,2010-02-02.

主站蜘蛛池模板: 伊人精品视频免费在线| 天堂网亚洲系列亚洲系列| 欧美福利在线播放| 在线人成精品免费视频| 国产色图在线观看| 黄色成年视频| 亚洲码在线中文在线观看| 欧美视频二区| www.youjizz.com久久| 久久久久亚洲精品成人网| 无码视频国产精品一区二区| Jizz国产色系免费| 亚洲第一区精品日韩在线播放| 综合色区亚洲熟妇在线| 国产肉感大码AV无码| 亚洲无码91视频| 国产流白浆视频| 亚洲色图狠狠干| 亚欧美国产综合| 无码区日韩专区免费系列| 欧美色视频日本| 久久人人妻人人爽人人卡片av| 亚洲第一天堂无码专区| 欧美成人亚洲综合精品欧美激情| 亚洲成年人网| 五月婷婷精品| 国产一级精品毛片基地| 欧美亚洲一二三区| 国产经典在线观看一区| 国产日韩丝袜一二三区| 欧美区国产区| 欧美一级色视频| 老司机精品一区在线视频| 在线欧美一区| 色偷偷综合网| 日韩精品免费在线视频| 亚洲精品波多野结衣| 国产激情第一页| 精品无码专区亚洲| 精品国产网| 热久久综合这里只有精品电影| 亚洲人成电影在线播放| 无码中文字幕精品推荐| 国产成人亚洲综合a∨婷婷| 综合色在线| 亚洲一级毛片在线观| 婷婷亚洲最大| 国产成人综合亚洲网址| 国产麻豆福利av在线播放| 国产午夜一级淫片| 国产亚洲欧美另类一区二区| 成人综合久久综合| 欧美视频免费一区二区三区 | 丁香婷婷久久| 亚洲色图欧美激情| 久久久精品国产亚洲AV日韩| 九九这里只有精品视频| 中文字幕一区二区视频| 亚洲国产精品无码AV| 国产亚洲高清在线精品99| 欧美激情视频一区二区三区免费| 无码精品国产VA在线观看DVD| 国产网站免费观看| 激情影院内射美女| 福利在线不卡| 精品视频一区在线观看| 男女性午夜福利网站| 国产精品免费入口视频| 国内精品小视频在线| 国产办公室秘书无码精品| 人妻21p大胆| 亚洲乱强伦| 在线观看国产精品第一区免费| а∨天堂一区中文字幕| 亚洲色欲色欲www在线观看| 久青草国产高清在线视频| 狠狠色噜噜狠狠狠狠色综合久 | 99久视频| 亚洲天堂网视频| 日本午夜三级| 午夜精品一区二区蜜桃| 亚洲天堂网视频|