摘要:機構知識庫是大學或研究機構通過網絡來收集、保存、管理、檢索和利用其學術資源的數據庫,它具有知識保存、電子出版、知識管理、學術傳播、科研評價等功能。本文嘗試以NoteExpress為工具自國內外主要數據庫中采集數據導入Dspace平臺構建機構知識庫,并對數據合并、剔重等問題提出針對性解決方案。
關鍵詞:機構知識庫 NoteExpress 知識存儲
中圖分類號:G250.76文獻標識碼:A文章編號:1672-3791(2012)08(a)-0016-02
機構知識庫(Institutional、Repository,簡稱IR)是大學或研究機構通過網絡來收集、保存、管理、檢索和利用其學術資源的數據庫。機構知識庫作為新型學術交流方式和數字資源長期保存的模式,有助于提高科研成果的快速傳播和共享的效率,將有力地促進科學研究的交流和發展,因而受到越來越多的機構的重視[1]。
1 機構知識庫的作用與意義
機構知識庫作為一個大學或研究機構內部的知識和信息存儲與利用的樞紐,其主要功能有以下幾點。
1.1 知識保存
機構知識庫為大學或研究機構的知識、信息提供一個長期保存的安全場所,從而將散落于各部門或者研究者個人信息存儲終端中的信息歸集保存,回避了個人分散保存信息的弊端和風險。通過長期的積累,機構知識庫必將成為一個大學或研究機構的知識寶庫。
1.2 電子出版
機構知識庫將各種不同類型的知識和信息內容擷取,按照統一的格式(如PDF)發布,因而具有電子出版(ePublishing)的功能。通過機構知識庫,可以將原先無法進入正式出版途徑的大量知識信息得以發布交流。
1.3 知識管理
通過機構知識庫的集中式數字對象管理和相互鏈接,存儲其中的信息和知識可方便、快捷、高效地為用戶所利用。
1.4 學術傳播
機構知識庫的目標并不是取代學術出版,至少目前看起來還不成熟,它的價值在于將原來不作為正式出版的各種知識、信息如實驗中期數據、操作(手術)視頻等灰色文獻通過網絡發布,而且具有知識信息集成的功能。
1.5 促進教育
大學或科研機構的師生可以利用機構知識庫豐富的教學信息資源,提高教學效果。學生可通過機構知識庫的各類課件進行自主學習、作業和考試,教師可通過機構知識庫交流、完善教學課件和教學方法,科研人員可通過機構知識庫進行繼續教育和進修提高。
1.6 科研評價
機構知識庫可作為對教師和研究人員科研活動的評價工具,可以使大學或研究機構方便地了解他們的研究成果。
1.7 共享利用
機構知識庫是學術資源開放利用的重要工具。不同的大學和研究機構,通過建立共享利用機制,在權利義務平衡的前提下,相互開放學術資源,對于加強校際之間的學術交流、降低學術信息利用成本具有非常重要的作用。
1.8 提高聲望
機構知識庫是對外進行學術交流的重要窗口,可以展示一個大學或研究機構的學術成果,提高論著的被引用率,擴大在學術界的影響力。通過構建機構知識庫,圖書館可進一步發揮在學術傳播、信息存儲和知識服務中的作用,提升圖書館在大學和研究機構中的學術地位。
2 機構知識庫數據源的選擇
2.1 目標文獻形式
機構知識庫保存、管理與利用的數字化內容包括:研究人員和教師已被學術期刊錄用但未發表的論文預印本、已發表論文、技術報告、科研進展報告、碩博士論文、圖書或其章節、科研數據庫、會議錄、教學資料或課件、計算機軟件、其他灰色文獻等等[2]。上述數字化內容可以文本、圖像、音頻、視頻等不同格式在機構知識庫系統中保存與利用。
2.2 數據源的選擇
作者通過反復數次模擬實驗、調查研究發現本校師生的科研成果以國內外公開發行的期刊論文、會議論文、學位論文為主,而且其所發表的期刊論文在國內CNKI、萬方數據、維普資訊、CBM,或者外文商業數據庫如Pubmed、SCI、ISTP、EI、INSPEC、IEEE/IETEl 、ElsevierSD其中至少一個中能檢索到,故以以上中外文數據庫為元數據源進行數據采集。考慮到圖像、音頻、視頻數據的采集、收割、提交涉及更加復雜繁瑣的操作,本次初步實踐探索僅針對本校教師歷年來在公開期刊中發表的論文進行收集、整理。
3 機構知識庫平臺的選擇
DSpace是一個免費的開放源碼的機構知識庫構建軟件,由MIT和惠普公司聯合開發,具有很強的靈活性和可定制性。目前,DSpace聯盟的許多成員使用該軟件構建了本機構的機構知識庫,如M1T、Cambridge、Columbia等大學。DSpace的設計原則是易于使用,它具有基于Web的用戶界面,這個界面可以為特定機構或個別的院系定制[3]。
南安普頓大學開發的Eprint,其缺省配置是構建機構知識庫,具有高度的可定制性;BerkeleyPress開發的Electronic Bepress,亦具有很強的靈活性,可以對用戶的工作流和站點的設計進行定制。
此次實踐探索的選擇。目前國內外采用最多的平臺是Dspace,并且國內各高校、科研院所已建機構知識庫全部采用Dspace平臺,它具有提交收據方便、界面簡潔友好、檢索效率高、可自由擴展、開放源代碼、免費使用等優勢,所以我校機構知識庫亦選用此平臺,同時利于今后各機構知識庫聯盟間知識的傳播與共享。
4 元數據收割及工具選擇
由于機構數據庫的元數據非常龐大,僅僅以一所普通高等院校歷年在國內外期刊所發表論文計算均在1萬篇以上,如果加上會議論文、學位論文以及灰色文獻等其規模是非常可觀的,如果僅僅靠人工到各數據庫下載采集信息的話是非常費時、費力的工作,可以預見單純的人工采集方式已難于勝任繁重的元數據建立工作。為了保證元數據的正確性和效率,必須采取一種自動處理元數據的技術。
4.1 元數據及其質量
元數據是提供關于信息資源或數據的一種結構化的數據,是對信息資源的結構化的描述。對于機構知識庫中的文檔質量,主要從以下兩個方面加以評價:一是數據對象本身的質量,二是從數據對象中產生的元數據質量。Bruceand Hillmann列出了7個保證元數據質量的準則:即完全性、精確性、期望的一致性、邏輯一致性和相關性、時效性、可達性[2]。
4.2 元數據采集
(1)元數據采集工具的選擇。
本機構數據庫建設實踐中采用NoteExpress文獻管理軟件,它是北京愛琴海軟件公司開發的一款文獻檢索與管理系統,其核心功能涵蓋“知識采集、管理、應用、挖掘”,它具備文獻信息檢索與下