999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

增強機構知識庫內容發現和利用影響的策略與方法實踐

2012-04-29 10:16:03盧利農祝忠明張旺強劉巍姚曉娜
圖書與情報 2012年5期

盧利農 祝忠明 張旺強 劉巍 姚曉娜

摘 要:文章以中國科學院機構知識庫CAS OpenIR為例,采用基于學術搜索引擎Google Scholar優化的策略和方法,如針對Google Scholar收錄原則、Google Scholar元數據體系、sitemaps、Robots協議等策略和方法進行分析和實踐,通過提升機構知識庫在Google Scholar中的收錄比率,進而增強機構知識庫中內容被發現引用的機率,以擴大IR利用影響力。

關鍵詞:機構知識庫 谷歌學術搜索 學術搜索引擎優化 中科院機構知識庫

中圖分類號: G252 G255.76文獻標識碼: A 文章編號: 1003-6938(2012)05-0085-05

1 引言

近年來機構知識庫(Institutional Repository,IR)快速穩步增長,已覆蓋了大部分知名高校和科研機構。目前在開放獲取機構資源庫OpenDOAR中注冊登記的IR已有2163家[1],除此以外還有相當一部分數量的IR未在OpenDOAR中注冊。IR做為支持開放獲取的一種重要形式,支持機構實施數字知識資產的長期保存和管理,提高機構及科研人員智力成果的發現幾率、傳播范圍和影響,是吸引機構及科研人員重視和參與IR建設的重要因素。相關的研究也表明,支持開放獲取的論文其引用影響可獲得25%~250%的提升[2]。 而Arlitsch等人[3]的調查結果顯示,當前IR內容被Google Scholar收錄的比率總體上維持在10%~30%的水平,甚至有0%的IR(見圖1)。也就是說,大部分IR的內容沒有得到充分的發現和利用,仍然局限在小范圍內進行交流傳播。

Google Scholar作為一項針對學者和科研人員的免費學術文獻搜索服務,現在已成為學者、研究人員和學生查找專業文獻資料的首選工具[4]。其搜索的范圍涵蓋了幾乎所有知識領域的高質量學術研究資料,包括論文、專業書籍以及技術報告等。Google Scholar不但可以過濾普通網絡搜索引擎中對學術人士無用的大量信息,通過與眾多學術文獻出版商的合作,還加入了許多普通搜索引擎無法搜索到的內容。目前,科研用戶通過網絡來獲取資源,第一選擇就是通過Google等搜索引擎進行大范圍搜索,其次考慮利用專業的學術數據庫,最后才會去翻閱學術期刊。這種檢索順序已經形成了一種社會習慣。

因此,如何解決IR被搜索引擎Google Scholar收錄,提升IR中學術文章被Google Scholar收錄的比率,已成為增強IR內容可發現性和可見性的關鍵。本文以中國科學院研究所IR平臺CAS OpenIR[5]為例,采用學術搜索引擎優化(Academic Search Engine Optimization,ASEO)的策略和方法,通過提升IR在Google Scholar中的索引比率,進而增強IR中內容被發現引用和利用影響力。

[圖1 IR被Google Scholar收錄情況調查表[3]]

2 ASEO策略和目的

ASEO建立在傳統的SEO[6]基礎之上,是從普通的SEO發展而來。由于學術搜索引擎Google Scholar與普通搜索引擎有著明確的定位區別,因此ASEO與SEO有著明顯的不同之處。

SEO指通過采用易于搜索引擎索引的合理技術手段和策略,使網站各項要素適合搜索引擎的檢索原則,從而更容易被搜索引擎收錄和優先排序。SEO基于網頁(Web Page),收錄過程較靈活和容易。IR屬于學術產出的數據庫平臺,有著自身的元數據元素集,其中的學術文章屬于“Academic Invisible Web”[7],不能被Google Scholar直接訪問和索引。因此,在被學術搜索引擎Google Scholar收錄前,需要對IR進行ASEO改造,使其符合Google Scholar索引標準,易于被Google Scholar收錄爬取。即:

(1) 使IR可以被搜索引擎Google Scholar更好地收錄和更新(包括IR的元數據和全文);

(2) 使搜索引擎在規則允許的范圍內進行索引,明確IR的哪些頁面可以被索引收錄,哪些頁面不能被索引收錄;

(3) 在用戶使用Google Scholar搜索時,可以排名靠前的呈現IR中的相關條目,起到推介IR的作用;

(4) 將IR中開放權限的全文納入Google Scholar的全文檢索中,增加IR中論文的可見性,提高論文的被引用率。

3 Google Scholar收錄原則和排名算法

Google Scholar針對學術性數據庫內容的收錄和索引,有明確的收錄原則[8],如:① 被收錄文章需要有唯一的URL;②匿名用戶可免費地通過原文URL進入閱讀被收錄文章;③數據庫服務的Robots.txt協議正確配置,明確允許及禁止Googlebot爬取的路徑及內容范圍;④數據記錄的Meta標簽符合Google Scholar Meta規則,并且必須包含DC.title,DC.creator,DCTERMS.issued三項描述元數據;⑤記錄除了題錄文摘信息外,被收錄記錄必須要有全文;⑥全文格式為PDF格式。

Google Scholar檢索排名繼承了普通Google檢索中應用的PageRank算法[9],即主要看某項學術內容、頁面被引用的情況,同時還將文章全文、作者和出版物等因素納入算法,從而保證檢索結果的高相關性,提高查準率。學術論文被引述的頻度越多,一般判斷這篇論文的權威性就越高,它的PageRank值就越高。

4 面向IR的ASEO策略與方法實現

根據學術搜索引擎Google Scholar收錄、排名的要約特點,本文中筆者將選取ASEO中的關鍵環節,就設計思路和實現的過程做一分析說明。

4.1 搜索引擎注冊

在傳統SEO過程中,網站管理員不用太擔心網站的收錄情況,在網站運行一定時間后搜索引擎的機器人會自動通過已被索引的外部鏈接發現該網站。而學術搜索引擎ASEO過程中,往往需要通過管理員在Google Scholar中對相關的服務進行注冊,來通知機器人將其納入爬取對象。有鑒于此,在研究所IR部署完成后:

(1)要求或者幫助研究所盡快在Google Scholar中完成其IR的注冊和發布。在Google Scholar注冊IR過程中,除了聲明Google Scholar要求的收錄原則外,還需要聲明IR所用軟件、論文數量、語種、訪問地址。

(2)由于Google Scholar的PageRank算法對網絡分類目錄尤為重視,如果網站被ODP(http://www.dmoz.org)、Yahoo! Directory(http://dir.yahoo.com)等網絡分類目錄收錄,則可大幅提升其PR值。因此,積極幫助研究所IR在重要網絡分類目錄中進行注冊。

(3)隨著OpenROAR(http://www.opendoar.org)、ROAR(http://roar.eprints.org)等開放知識庫注冊登記服務在知識庫服務領域日益產生重要影響和Google Scholar等搜索引擎的合作,我們也應積極引導和幫助研究所IR在這些專門性目錄服務中進行注冊,以加強和提升IR被搜索引擎發現和索引的幾率。

4.2 建立適合Google Scholar發現和索引的描述元標簽體系

Meta(網頁描述元標簽)為Google Scholar檢索結果的輸出格式提供了基于DC元數據標準的標題、作者、出版物名、出版年/期、摘要等內容描述信息。當用戶通過Google Scholar進行檢索時,Google Scholar自動辨識學術文章的格式與內容,取得描述信息,并針對論文指示的信息建立自動的引用分析。因此,描述元標簽及其描述信息十分重要。

要保證IR所有內容為Google Scholar成功索引,就必須為IR所有的記錄提供帶有Meta描述元標簽的頁面。為此,在CAS OpenIR中設計Meta標簽組為自動生成,不同論文記錄頁面中的Meta值自動從記錄對應的內部元數據字段中讀取。由于IR中條目元數據字段為內部元數據存儲字段,并不能直接用于Meta標簽,因此需要在使用前建立CAS OpenIR元數據字段與Meta之間的映射關系(見圖2)[10]。

4.3 構建IR動態網站地圖

由于目前大部分搜索引擎只跟蹤網站內有限數量的鏈接,例如Google并不會主動抓取網站的所有頁面,尤其是網址里帶有“?”的動態鏈接。因此,當網站較大時,例如IR會隨著學術產出的逐年不斷增長而頁面快速增多,就必須有有效的策略來保證IR中每一條記錄目頁面都可以被搜索引擎收錄。目前來看,通過生成和提供網站地圖(sitemap)已成為一種相對可靠的策略和方法。

在Google官方指南中可看到,網站生成SiteMap文件將有利于搜索引擎機器人的索引,會大大提高索引網站內容的效率和準確度。SiteMap主要有以下作用[11]:

*為搜索引擎機器人提供可以瀏覽整個網站的鏈接;

*為搜索引擎機器人提供一些鏈接,指向動態頁面或者采用其他方法比較難以到達的頁面;

*作為一種潛在的著陸頁面,可以為搜索流量進行優化;

*如果訪問者試圖訪問網站所在域內并不存在的URL,那么這個訪問者就會被轉到“無法找到文件”的錯誤頁面,而網站地圖可以作為該頁面的“準”內容。

目前sitemap地圖在網站應用中越來越受重視,但是人工制作sitemap地圖的難度隨著網站網頁數目的增多也變得越來越困難。因此,CAS OpenIR系統中設計增加了自動生成和發布SiteMap的功能,系統自動索引內部所有記錄頁面生成索引文件(SiteMap),不限制數量和深度。CAS OpenIR中SiteMap流程圖(見圖3)如下:

①SiteMap模塊觸發索引機制后生成sitemaps文件,一般會根據系統內頁面鏈接的數量生成1個主索引文件(索引文件的索引文件)和10~50個二級索引文件。

②在創建好站點地圖后,需要主動將其提交給搜索引擎,節省收錄時間。使用Google Webmaster Tools工具提交sitemaps后,會生成相應報表(見圖4),顯示已提交URLs數量、被收錄URLs數量、被搜索信息、URL錯誤信息等。

③使用rebots.txt文件中添加sitemap地址的來自動提交sitemap。

[圖3 CAS OpenIR中SiteMap流程圖]

[圖4 Google Webmaster Tools 中sitemaps反饋統計圖]

④編寫批處理腳本文件,以觸發時間節點的定時執行sitemap索引任務。

⑤通過Ping請求向google提示。Ping是基于XML_RPC標準協議的更新通告服務,用于內容更新快速通知給搜索引擎,以便搜索引擎及時進行抓取和更新。因此當IR中內容發生了改變,會生成不同的sitemap索引文件,此時需要通過Ping請求通知搜索引擎進行重新收錄。

4.4 其他ASEO策略和方法

在CAS OpenIR支持ASEO優化過程中,同時采用了以下多種輔助性的策略和方法來進一步豐富和完善其整體ASEO方法框架。

(1) 優化配置Robots協議文件。通過界定Robots搜索引擎收錄規則,告知Google Scholar機器人哪些頁面可以收錄,哪些頁面不能收錄。同時使用 Robots協議告知搜索引擎有關站點地圖SiteMap的信息。在robots.txt 文件中包含SiteMap鏈接的好處是,開發人員不用到搜索引擎的站點管理員頁面去提交自己的sitemap文件,搜索引擎的機器人會主動抓取robots.txt,讀取其中的sitemap路徑,接著進行相關頁面的抓取和索引。

(2) 動態URL優化。IR的一些頁面使用動態的URL,往往附帶有很多參數,并比較長,會不利于搜索引擎收錄和提升排名。因此,這對這一問題,主要通過URL重寫的方法[12]進行了優化調整,以獲得偽靜態和簡潔友好的URL網址。如IR動態生成的URL地址http://[IR域名]/profile?action=eperson-profile&unique_id=0-000343,通過重寫和優化后將成為 http://[IR域名]/ unique_id=0-000343。

(3) 英文場景SEO優化。解決英文場景下的Google Scholar對IR的收錄和索引。CAS OpenIR目前通過定制中英文字符集,提供中文、英文兩種字符描述,在英文環境下,欄目分類、導航、指引文字均為英文描述,并且頁面Meta標簽組包含有英文題名、英文關鍵詞、英文摘要,可以被搜索引擎英文狀態所搜索收錄。

5 ASEO實踐效果

CAS OpenIR在ASEO前,學術內容在Google、Google Scholar中被索引的情況較不理想。本文選擇未進行ASEO功能優化的中科院遙感所IR(http://ir.irsa.ac.cn)為例, 其中內容2906條,Google Scholar中被索引率為0(見圖5)。

[圖5 IRSA 在Google Scholar中搜索結果圖]

經過ASEO技術全面改進后,在Google Scholar中,筆者以中科院國家科學圖書館機構知識庫(http://ir.las.ac.cn)為例進行搜索,顯示“About 516 results (0.14 seconds)”。意即這516篇論文不僅題錄信息,其全文也納入了Google Scholar的全文檢索。

6 結語

增強IR內容發現和利用影響非朝夕工作,是一項系統工程,需要大量的積累和嘗試。其中ASEO過程已不僅是技術,而是一種思想,一種策略,許多技巧的組合。通過ASEO策略可以將機構知識庫收錄入學術搜索引擎中,在科研人員和學生使用搜索引擎科研過程中,無縫推介和曝光IR內容。下一步,我們會繼續提高CAS OpenIR學術內容在搜索引擎中的索引收錄率,使IR和其中的論文得以充分可見,積極提高IR內容發現和利用影響力。本文中基于SEO策略的增強知識內容發現和利用影響的實踐過程,對其他數字圖書館服務系統也有著積極的借鑒作用和意義。

參考文獻:

[1]OpenDOAR chart[EB/OL].[2012-06-18].http://opendoar.

org/find.php?format=charts.

[2]Brody, T. and Harnad,S. Comparing the Impact of Open Access (OA) vs. Non-OA Articles in the Same Journals[J/OL].[2012-07-10].http://eprints.ecs.soton.ac.uk/10207/.

[3]Arlitsch,K.and O'Brien P.Invisible institutional repositories: Addressing the low indexing ratios of IRs in Google Scholar [J].Library Hi Tech, 2012, 30(1):60-81.

[4]蘇悅,張文德.Google Scholar與現代圖書館[J].情報探索,2007,(11):10-12.

[5]祝忠明.中國科學院機構知識庫建設軟件[R].Post-Co

nference of Berlin 8 Open Access Conference,2010.

[6]Search Engine Optimization(SEO)[EB/OL].[2012-05-25].http://zh.wikipedia.org/wiki/SEO.

[7]Dirk Lewandowski,Philipp Mayr.Exploring the Academic Invisible Web[J].Library Hi Tech. 2006,24(4):529539.

[8]Google.Inclusion Guidelines for Webmasters[EB/OL]. [2012-06-18].http://scholar.google.com/intl/en/scholar/inclusion.html.

[9]Page,L.,Brin,S.,Motwani,R.andet al.The PageRank Citation Ranking: Bringing Order to the Web[EB/OL].[2012-06-18].http://citeseerxist psu.edu/viewdoc/summary?doi=10.1.1.31.1768.

[10]Dublin Core Collection Description Application Profile[EB/OL].[2012-05-10]. http://www.ukoln.ac.uk/meta

data/dcmi/collection-application-profile/.

[11]Sitemap[EB/OL].[2012-05-18].http://zh.wikipedia.org

/wiki/Sitemap.

[12]Rewrite engine[EB/OL].[2012-02-25].http://en.wikpe

dia.org/wiki/Mod_rewrite.

作者簡介:盧利農(1985-),男,中科院國家科學圖書館蘭州分館館員;祝忠明(1968-),男,中科院國家科學圖書館蘭州分館研究員;張旺強(1985-), 男,中科院國家科學圖書館蘭州分館館員;劉?。?980-),男,中科院國家科學圖書館蘭州分館館員;姚曉娜(1985-),女,中科院國家科學圖書館蘭州分館館員。

主站蜘蛛池模板: 小13箩利洗澡无码视频免费网站| 久久不卡精品| 欧美三級片黃色三級片黃色1| 青青青伊人色综合久久| 国产成人无码Av在线播放无广告| 国产高清无码第一十页在线观看| 波多野结衣一二三| 57pao国产成视频免费播放| 国产丰满成熟女性性满足视频| 国产一级毛片网站| 青青热久麻豆精品视频在线观看| 久久综合国产乱子免费| 无码视频国产精品一区二区| 免费在线国产一区二区三区精品| 少妇精品在线| 国产日韩欧美成人| 亚洲激情99| 亚洲av中文无码乱人伦在线r| 色综合激情网| 91久久国产成人免费观看| 欧美成人亚洲综合精品欧美激情| 亚洲无码高清免费视频亚洲| 精品国产中文一级毛片在线看| 99视频国产精品| 久久久久久尹人网香蕉| 99尹人香蕉国产免费天天拍| 免费va国产在线观看| 福利视频一区| 日韩免费无码人妻系列| 日韩在线视频网站| 波多野结衣无码视频在线观看| 人妻夜夜爽天天爽| a在线亚洲男人的天堂试看| 性激烈欧美三级在线播放| 粗大猛烈进出高潮视频无码| 午夜欧美在线| 国产美女人喷水在线观看| 东京热一区二区三区无码视频| 婷婷五月在线视频| 中文字幕亚洲精品2页| 国产高潮流白浆视频| 天天色综网| 亚洲人成成无码网WWW| 特级做a爰片毛片免费69| 亚洲,国产,日韩,综合一区 | 婷婷午夜天| 免费看久久精品99| 免费无遮挡AV| 国产精品亚洲一区二区三区在线观看| 国产亚洲精品精品精品| 国产成人91精品免费网址在线| 在线亚洲天堂| 最新国产你懂的在线网址| 欧美成人看片一区二区三区 | 国产成年女人特黄特色毛片免| 亚洲欧洲日本在线| 波多野结衣中文字幕久久| 影音先锋亚洲无码| 欧美翘臀一区二区三区| 日本人真淫视频一区二区三区| 91精品aⅴ无码中文字字幕蜜桃| 国产一级无码不卡视频| 日韩AV无码免费一二三区| 亚洲天堂首页| 97精品久久久大香线焦| 欧美日韩国产精品综合| 熟妇丰满人妻av无码区| 中文字幕自拍偷拍| 国产污视频在线观看| 青青草原国产一区二区| 午夜性刺激在线观看免费| 制服丝袜在线视频香蕉| 一区二区三区成人| 国产黄在线免费观看| AV熟女乱| 美女视频黄频a免费高清不卡| 尤物特级无码毛片免费| 99久久精品免费看国产电影| 国产免费a级片| 91免费国产在线观看尤物| 少妇人妻无码首页| 一本综合久久|