周 陽,常偉鵬
(中國藥科大學圖書與信息中心,江蘇 南京 211198)
學科知識庫從“Subject Knowledge Repository”或“Disciplinary Knowledge Repository”翻譯而來,是基于學科的開放存取倉儲,是對某一學科的各類資源進行收集、保存,并通過互聯網實現開放存取的知識庫[1]。學科知識庫聯盟是由同學科或某幾個學科內多個成員構成,專業性強且內容豐富。構建聯盟需要科研機構之間展開合作,合作機構如何尋找、選擇與優化,是本文研究的主要問題。當然,構建國際聯盟需要考慮資金、技術、資源、運營等諸多問題,但作為基于學科的開放存取倉儲聯盟,學科應為首要考慮因素。因此,本文以藥學學科為例,通過知識圖譜的分析來甄選科研機構,并根據各機構的實際情況選擇合適的構建途徑與聯盟模式,從而達到優化構建國際學科知識庫聯盟的目的。
本文利用文獻計量為基礎的知識圖譜分析方法,通過可視化圖譜直觀地展示出機構、年代、著者、研究熱點及其之間產生的復雜關系。目前知識圖譜繪制的軟件主要有Citespace、UCINet、Pajek、Netdraw、Netminer、Bibexcel、Wordsmith Tools等。本文將使用Citespace5.2.R2版(2018年3月26日更新)[2]對國家(地區)、機構、著者、關鍵詞等情況進行文獻計量及知識圖譜繪制。利用知識圖譜優化選擇聯盟構建的機構之后,再對優選的科研機構是否已構建學科知識庫或機構知識庫,以及運營、資金、技術、政策、資源、服務等方面進行調查,從而確立聯盟模式,并從運營方式、資金技術、存取政策、資源服務等方面詳細闡述國際藥學學科知識庫聯盟構建策略。
本文以“Web of Science核心合集”為檢索平臺,以主題字段限定為“pharmacy”或“pharmaceutical”,年份字段限定為“2008-2017”,10年基本可以反映出一個時代藥學發展的概況,得到檢索結果99 084篇,由于樣本數量過大,本文僅篩選“領域中高被引論文”1 491篇作為有效樣本文獻,數據采集日期為2018年6月6日。通過EndNote文件格式將1 491篇樣本文獻從文獻管理中心輸出。
將樣本數據導入Citespace軟件進行國家(地區)合作網絡分析,時間跨度設置為2008-2017,單個時間分區長度為1,節點類型為“國家(地區)”,調節相應的閾值得到樣本文獻所在國家(地區)的知識圖譜,見圖1。

圖1 樣本文獻所在國家(地區)分布的知識圖譜
如圖1所示,高被引論文量最大的是美國,中國、德國、英國、法國、西班牙、加拿大、印度緊隨其后,韓國、瑞典、澳大利亞、比利時、荷蘭、瑞士也是高被引論文較為集中的國家。當然,相較于高被引論文量,另一個學科衡量指標“中心性”也很重要,中心性是測試節點在網絡中的重要指標,證明該國文獻的重要性。由圖1生成中心性的報告顯示荷蘭的中心性最高,為0.15;并列第二的是美國和瑞典,為0.12;并列第三的是瑞士和愛爾蘭,為0.11;第五到第十名分別是英國、意大利、西班牙、捷克和德國。因此在高被引數量和中心性共同參考下,美國、荷蘭、瑞典、瑞士、英國、西班牙、德國是藥學學科發展既活躍又具權威性的國家,也應當是國際藥學學科知識庫聯盟的構建機構所在國。此外,由于本文的研究初衷是在優化構建國際藥學學科知識庫聯盟的同時,希望能夠給我國的藥學科研機構參與國際聯盟提供一些參考,因此中國的科研機構也會作為構建國際聯盟的研究對象。
通過WoS自帶篩選功能,筆者將發文機構高被引論文量前50位的機構與知識圖譜篩選出的國家進行匹配,50個機構中有38個來自篩選后的8個國家。其中22個來自美國:哈佛、加利福尼亞、密歇根、麻省、北卡羅來納、得克薩斯、華盛頓、麻州、約翰霍普金斯、賓夕法尼亞、杜克、耶魯、俄勒岡、斯坦福、佛羅里達州立大學,以及國立衛生研究院、波士頓醫療保健系統、輝瑞制藥、默克公司、強生公司、馬薩諸塞州總醫院、UTMD安德森癌癥中心;1個來自荷蘭:烏特列支大學;1個來自瑞典:卡羅林斯卡研究所;3個來自瑞士:諾華公司、羅氏控股、瑞士聯邦水產科學研究所;6個來自英國:倫敦、牛津大學,帝國理工、倫敦國王學院,葛蘭素史克公司、阿斯利康公司;3個來自西班牙:科學研究理事會(Consejo Superior de Investigaciones Cientificas)、巴塞羅那大學、愷撒醫療機構;1個來自德國:柏林自由大學;1個來自中國:中國科學院。
從年份上看,樣本中高被引論文量最少的是2008、2009年113篇,最多的是2017年184篇,每年變化不大,為進一步篩選和確認國際藥學學科知識庫聯盟的構建機構,筆者將2013-2017年近5年的833篇高被引論文發文機構,與前文篩選出的39個機構相匹配,剔除掉匹配結果為0篇或1篇的機構,剩余28個機構,其中17個來自美國:哈佛、加利福尼亞、密歇根、麻省、北卡羅來納、得克薩斯、華盛頓、約翰霍普金斯、賓夕法尼亞、杜克、耶魯、斯坦福大學,以及國立衛生研究院、波士頓醫療保健系統、輝瑞制藥、馬薩諸塞州總醫院、UTMD安德森癌癥中心;3個來自瑞士:諾華公司、羅氏控股、瑞士聯邦水產科學研究所;4個來自英國:倫敦、牛津大學,倫敦國王學院、阿斯利康公司;3個來自西班牙:科學研究理事會、巴塞羅那大學、愷撒醫療機構;1個來自中國:中國科學院。
將樣本數據導入Citespace軟件進行作者與機構分析,時間跨度設置為2008-2017,單個時間分區長度為1,節點類型為“作者”與“機構”,調節相應的閾值得到樣本文獻作者所在機構分布的知識圖譜,見圖2。

圖2 樣本文獻作者所在科研機構分布的知識圖譜
由圖2所生成的中心性報告顯示,所有樣本文獻的撰寫作者的所在機構發文的中心性前10名分別是:哈佛大學為0.15,華盛頓大學為0.10,多倫多大學為0.10,加利福尼亞大學為0.09,馬薩諸塞州總醫院為0.09;梅奧臨床研究中心為0.09;中國科學院為0.08;牛津大學為0.08;斯坦福大學為0.08;倫敦國王學院為0.08。與前文篩選出的28個藥學科研機構相匹配之后,可進一步優選出8個機構。加之圖2根據發文量顯示出的科研機構與前文篩選出的28個藥學科研機構相匹配之后,可進一步優選出4個機構。現優選出的國際藥學學科知識庫聯盟的構建機構有12個,其中9個來自美國:麻省理工學院、密歇根大學、杜克大學、耶魯大學、哈佛大學、華盛頓大學、加利福尼亞大學、斯坦福大學、馬薩諸塞州總醫院;2個來自英國:牛津大學、倫敦國王學院;1個來自中國:中國科學院。
再根據論文被引頻次對各機構高被引通訊著者進行分析,進一步優選構建機構,由于杜克大學、馬薩諸塞州總醫院、倫敦國王學院高被引著者不足5個,被篩掉,得出最終構建國際藥學學科知識庫聯盟的機構9個。
將樣本數據導入Citespace軟件進行研究熱點分析,時間跨度設置為2008-2017,單個時間分區長度為1,節點類型為“關鍵詞”,調節相應的閾值得到樣本文獻關鍵詞分布的知識圖譜,見圖3。

圖3 樣本文獻關鍵詞分布的知識圖譜
由圖3可見從樣本文獻中析出的高頻關鍵詞有:隨機對照試驗(randomized controlled trial)、活的有機體內(in vivo)、固體萃取(solid phase extraction)、串聯質量光譜分析(tandem mass spectrum)、藥物供給(drug delivery)、納米顆粒(nanoparticle)、廢水處理(waste water treatment)等。除此以外,由圖3生成的中心性報告中,從重要性角度提供的關鍵詞有:癌癥(cancer)、臨床試驗(clinical trial)、化學(chemistry)、有機合成(organic synthesis)、毒性(toxicity)、生物利用度(bioavailability)、內分泌干擾物(endocrine disrupting compound)、氧化作用(oxidation)、抗生素(antibiotics)、高效液相色譜法(performance liquid chromatography)、抗氧化活性(antioxidant activity)、水生環境(aquatic environment)等。分析研究熱點并不是為了篩選成員機構,而是聯盟構建后優化學科服務的方法之一,是為成員機構之間開展專題科研合作、尋找科研熱點與創新點做鋪墊。
利用知識圖譜優選出國際藥學學科知識庫聯盟的構建機構有9個:麻省理工學院、密歇根大學、耶魯大學、哈佛大學、華盛頓大學、加利福尼亞大學、斯坦福大學、牛津大學、中國科學院。
本文首先對優選出的聯盟構建機構是否已構建機構/學科知識庫進行調查,除了耶魯大學、哈佛大學(雖構建了The Harvard Depository,但僅限于內部存儲使用,不對外開放獲取)以外,其他均已構建機構知識庫,特別是由華盛頓大學醫學院創建的Digital Commons@Becker更接近于學科知識庫。這些機構知識庫的運營機構基本都是圖書情報機構,在系統軟件、存取政策方面也都較為完善,因此這9個機構完全具備構建國際藥學學科知識庫聯盟的能力與經驗。從學科資源上,雖然不是每個機構知識庫都可以準確的查詢到醫藥類學科的資源數量,但根據估算大概在幾千到幾萬級的水平,為國際藥學學科知識庫聯盟構建提供了豐富的學科資源。在學科服務上,每個機構知識庫提供學科服務的水平略顯參差,因此構建聯盟正是互補學科服務的好途徑。
學科知識庫聯盟的構建模式一般有三種:集中存儲模式、分布采集模式、層級構建模式[3]。集中存儲模式是由一個大型學術機構統一構建、運行及維護學科知識庫聯盟系統,其他成員機構將學科資源和對應的元數據上傳到這個系統中,不需要承擔構建及維護系統的任務,該模式適合學科內旗艦型學術機構帶領中小型學術機構共同建設;分布采集模式是成員機構分別構建和維護各自獨立的學科知識庫,元數據再被整合到一個集中的搜索數據庫中,聯盟構建統一的檢索平臺,該平臺內可搜索所有成員機構的學科資源。根據本文對各成員機構構建的機構知識庫調查,及對各機構醫藥學院的情況調查,這9個成員機構并沒有哪個機構在國際藥學學科知識庫聯盟構建上具備完全主導的能力,因此不適合集中存儲模式;其次,9個成員機構8個有構建機構知識庫的經驗,但只有1個機構構建的是近似藥學學科知識庫,因此分布采集的模式也不適合。
層級構建模式是一種分工明確的聯盟模式,由學術能力強、科研成果多、具備較高的管理水平的機構組成“管理級”,負責學科知識庫聯盟建設工作的整體安排、政策支持、資金來源、日常運營,并負責制定學科知識庫聯盟的發展規劃、存取政策以及各成員機構的具體分工;由成員機構中技術實力較強的兩三個學術機構組成“支撐級”,負責聯盟平臺的技術開發與維護、數據管理與質量控制;其他成員機構為“資源級”,主要負責聯盟學術資源的建設。這種“管理級+支撐級+資源級”的組織模式,分工明確、執行力強,也是最適合這9個成員機構實際情況的構建模式。9個成員機構中,加利福尼亞大學、斯坦福大學和中國科學院可以成為“管理級”。加利福尼亞大學構建的OAC,其資源由200多個機構捐助包括各種圖書館、檔案館等,并由加利福尼亞大學伯克利、洛杉磯等10個校區負責典藏和維護,可以說從資源和資金層面,OAC已經是一個聯盟,加之OAC是由加利福尼亞大學數字圖書館數字特別館藏項目專項管理運營,其管理運營的經驗豐富;中國科學院下設很多醫藥類相關的研究所,這些科研院所幾乎都有自己的機構知識庫和特色數據庫,這些機構知識庫學科特色鮮明,近似學科知識庫,因此中科院的學科資源豐富,再由文獻情報中心將這些學科資源分類篩選,就能整合出很好的藥學學科資源,且文獻情報中心已構建機構知識庫,在聯盟管理上既具備專業素養,又具備豐富經驗;斯坦福大學圖書館對Stanford Digital Repository的運營管理分工細致,明確設置了服務經理、保存專家、軟件工程師、系統管理員等職務,因此斯坦福大學也適合加入“管理級”。“支撐級”可由麻省理工學院、密歇根大學和牛津大學來完成,調研中機構知識庫構建系統使用最多的是DSpace,因此聯盟構建可以采用構建機構中使用的較為熟悉和廣泛的系統軟件DSpace,功能軟件則是牛津大學機構庫使用較為詳細,如提交軟件、免費下載網頁擴展軟件、版本工具包等,因此由這三所大學構建聯盟的“支撐級”較為合適。其他的機構,以及構建“管理級”與“支撐級”的機構都需要參與資源級的構建,其中“資源級”的主導構建機構可由華盛頓大學醫學院擔任,它具備構建學科知識庫的經驗,對于學科資源的篩選整合更擅長。
運營方式上,“管理級”機構可組建管理委員會負責聯盟的發展規劃、獲取主管部門的政策支持、多渠道獲取資助資金,并安排成員機構的具體分工。日常運營工作還需要組建一些具體事務部門,安排一些專職人員處理專業工作。此外還需組建學科委員會,主要從“管理級”機構甄選一些學科專家對聯盟平臺的學科資源做收集整理與質量控制工作。當然,隨著聯盟的發展擴大,還可以進一步吸納新的成員,當新成員機構達到一定之后,可以效仿arXiv構建成員咨詢委員會,更多地聽取成員機構的建議。同時學科咨詢委員會也可以吸納更多成員機構的學科專家來完成日漸增多的學科資源整合分析與質量控制工作。
“管理級”機構還需要解決聯盟資金來源的問題,資金來源主要有三個渠道:首先是來自成員機構,當成員機構達到一定之后,可效仿arXiv推出的根據成員機構下載資源量分級支付會員費的方法;其次與成員機構有項目合作的基金也可以為藥學學科知識庫聯盟提供資金支持,例如與斯坦福大學合作的Pivot基金[4];還可以與一些藥學學科知名資助基金或制藥企業合作,例如Wellcome基金、NOVO-NORDISK公司等。
可以作為聯盟系統架構的軟件很多,調研中涉及的系統軟件主要有DSpace、Samvera、CSpace,考慮到聯盟“支撐級”選擇了麻省理工學院、密歇根大學、牛津大學,所以選擇DSpace系統來架構聯盟系統平臺。DSpace是以內容管理發布為設計目標,遵循BSD協議的開放源代碼數字存儲系統,系統可以收集、存儲、索引、保存和重新發布任何數字格式、層次結構的永久標識符研究數據,其特點是基于存儲的資產管理、以事件觸發構建的工作流機制、以分級權限控制的管理體系。從DSpace5.0版開始,通過修改參數變量,開啟jena-fuseki服務,支持系統數據發布為RDF關聯數據,使其在支持OAI-PMH的基礎上,又增加一條分享內容的途徑,最新版本是DSpace6.2[5]。
除了系統平臺軟件之外,還有一些具體功能性軟件需要“支撐級”機構提供,例如搜索軟件Basic Local Alignment Search Tool,圖像存儲、編輯軟件如Blacklight,數字歸檔軟件如Think Check Submit,發送接收軟件如Frequency-weighted Link,閱讀軟件如Open Reading Frame Finder,知識管理與協同軟件如Atlassian Confluence 5.10.8,版本工具包軟件如Versions Tookit等。
根據調研中機構知識庫的存儲政策及國際其他學科知識庫或聯盟的存儲政策,綜合考慮,國際藥學學科知識庫聯盟存儲政策可以主要從以下幾個方面設定:(1)提交方式,可以是本人或版權持有者提交,也可以在版權持有者同意下由第三方提交,如科研論文可以由機構科研管理部門統一整理提交;(2)學科要求,既然是藥學學科知識庫,提交的學科內容必須與藥學相關;(3)內容要求,內容必須完整、正確,研究數據需要隨文檔一并上傳,隨文的圖表需要單獨提供,如果提交內容屬于一個研究合集,為確保用戶能夠全面了解提交內容的完整研究情況,需要提交整個合集;(4)格式要求,一般會根據系統平臺的實際情況注明提交文檔的支持格式,筆者比較認同密歇根大學機構知識庫提交格式的做法,密歇根大學機構知識庫對于提交內容的格式給予分級支持,例如TIFF(.TIFF,.TIF)是“1級”格式,系統可以完全支持,MS Word(.doc)是“2級”,由于宏這樣的特性可能無法在版本之間進行轉換,系統只能盡力支持,Windows Media Audio(.WMA)是“3級”,由于它與特定平臺的緊密聯系,系統建議使用mp3或wav格式,這種分級支持的方式清楚明晰地讓用戶知道哪些格式更容易與系統兼容,并且知道緣由;(5)空間要求,一般存儲空間值可由聯盟系統構建部門確定,根據調研,可在250MB到10GB之間,超過一般存儲空間,可與管理員聯系,可能需要繳納一些過量存儲費;(6)元數據要求,系統可以自動分配一些元數據,例如URL、存儲日期、存儲人姓名、文件格式等,還可以由存儲人提供存儲資源的其他元數據,如語種、標題、摘要等。
調研中共享政策主要涉及兩個許可證Non-Exclusive License[6]和Creative Commons license[7],即非排他性許可證與創作共用許可證。除此以外使用較多的還有創作共用署名許可證(CC BY)[8],以及該許可證下包含的次級許可,例如國際創作共用署名-相同方式共享許可證(CC BY-SA)[9]、國際創作共用署名-非商業許可證(CC BY-NC)[10]、國際創作共用署名-沒有衍生品許可證(CC BY-ND)[11]、國際創作共用署名-非商業沒有衍生品許可證(CC BY-NC-ND)[12]、國際創作共用署名-相同方式共享-非商業性授權許可證(CC BY-NC-SA)[13]等。可使用的許可協議還有Apache許可[14]、開放數據共享公共領域貢獻與許可協議(ODC PDDL)[15]、開放數據共享開放數據庫許可協議(ODC ODbL)[16]、BSD許可[17]、MIT許可[18]、GNU通用公共許可協議[19][20]等。每一種存儲的資源都要根據其具體版權狀態,與資源的提供機構或個人進行協商,在充分尊重版權的前提下,使用合適的許可協議,最大限度地對外開放。
藥學學科知識庫聯盟的資源建設主要限于藥學相關學科,建設途徑主要由聯盟學科委員會收集與學科用戶自存儲:收集的途徑例如從機構知識庫中整理出藥學相關資源如會議論文等,從醫學院藥學院教學秘書或科研管理部門搜集本機構科研產出的藥學學科資源如技術報告、工作文檔、學位論文、專利等,與出版社、期刊洽談發表后的學術資源的存儲與開放的方案;用戶自存儲途徑主要是依靠廣大師生、科研人員將自己的藥學學科相關資料,特別是一些灰色資源,例如課件、科研數據、手稿、圖像、視頻、音頻等存入聯盟平臺,當然對于用戶自存儲資源,聯盟的學科委員會需要對其學術質量做好把控,以確保學科知識庫聯盟中存儲與開放的學科資源的學術價值。此外,還可以將成員機構的一些特色自建數據庫納入聯盟,例如中科院武漢病毒研究所的中國病毒資源基礎數據庫等,可大大提升學科知識庫聯盟資源的學術水平。
一般性學科服務主要體現在點擊、下載等使用量的統計,科研數據保存與管理,郵件訂閱服務等個性化服務,以及有關學科的參考咨詢服務等。但藥學是一個動態的和跨學科的領域,既然構建了藥學學科知識庫聯盟,就要充分的利用聯盟來推出更具學術價值、更能體現學科特性的學科服務。聯盟在促進成員機構間科研合作上有很大的施展空間,如跨機構課題組的組建、課題組人員的招募、實驗室等各部門的人員招聘都可以利用聯盟平臺發布,以及科研項目周期內產生的科研數據、科研成果也可以在聯盟平臺實現共享,既可以節約科研成本,提高科研效率,又可以大大促進聯盟機構間的科研交流與人才置換。
除此以外,聯盟還可以對成員機構中主要科研人員的科研方向做分析,如麻省理工學院的Buchwald, Stephen L.和Trout, Bernhardt L.在有機化學、物理化學、藥理學、藥劑學等方面的研究較為擅長;密歇根大學的Schwendeman, Steven P.對藥理學、化學、制藥工程等方面的研究較為擅長;耶魯大學的Strittmatter, Stephen M.對細胞生物學、生物化學與分子生物學、神經科學都有研究。因此利用聯盟平臺,科研人員可以根據各自的研究方向和科研需求,組建跨機構的科研團隊,還可以根據前文2.4中提到的利用Citespace軟件篩選出的論文高頻關鍵詞探索新的研究熱點與創新點。同時也有利于想要跟隨這些導師做碩、博士的學生了解導師的研究方向與研究主題,或根據自己喜好的研究方向與研究主題選擇合適的導師,逐步將聯盟打造成一個藥學學科內學科交流的理想平臺。
本文以藥學學科為例,利用Citespace軟件構建知識圖譜,從發文國家、機構、年份、科研人員、研究熱點等方面進行知識挖掘,從而優選出構建國際藥學學科知識庫聯盟的機構。再根據軟件分析的結果,對優選出的機構是否已構建機構知識庫或學科知識庫的情況進行調研,并根據優選成員機構的實際情況確定國際藥學學科知識庫聯盟的聯盟模式、運營方式、資金來源、存儲政策、共享政策、資源建設與學科服務等具體構建策略。這種方法不僅適用于藥學學科,其他學科也可以借鑒使用。當然,本論文只是提供了一種優化學科知識庫聯盟構建的研究方法的初步探索,可能還存在一些缺陷與問題,本團隊也會對這些成員機構構建學科知識庫聯盟的實踐進行調研,探究聯盟構建過程中實際存在的阻滯因素和問題,不斷修正研究方法。