王軍輝 周 琴 石艷明 左 樂
(中國醫學科學院/北京協和醫學院醫學信息研究所/圖書館 北京 100005)
中國互聯網絡信息中心(China Internet Network Information Center,CNNIC)第44次《中國互聯網絡發展狀況統計報告》顯示,截至2019年6月中國手機網民數量達8.47億人[1]。移動互聯網的快速發展促使圖書館為讀者提供移動服務[2-3],如專門為適應移動設備訪問而設計的移動網站和應用程序,針對圖書館數據庫的移動訪問和以微博和微信公眾號為代表的社交媒體服務等。移動服務正逐漸成為圖書館服務常態。由于受到第3方數據庫提供商制約,出于知識產權保護和合理使用考慮,圖書館(尤其是學術型圖書館)所訂購商業數據庫資源只授權給特定互聯網協議(Internet Protocol Address,IP)地址范圍內的讀者使用。部分學術型圖書館自建專業數據庫資源也存在授權訪問控制需求。移動身份認證成為圖書館開展移動服務的重要前提和基礎。已有圖書館移動服務相關研究多在宏觀層面探討移動服務類型及效果。如Liu等[3]通過瀏覽圖書館網站和問卷調查,研究美國前100位大學圖書館的移動服務狀況。郭亞軍等[2]從移動服務類型、移動網站內容、移動參考咨詢服務、社交媒體以及移動預約服務等方面對中國137所“雙一流”大學和美國前100位大學圖書館進行對比分析。蘇明忠[4]以國家圖書館移動服務統計數據為基礎,分析移動服務用戶使用情況。目前針對圖書館移動認證服務的研究多聚焦于對利用特定技術或軟件搭建圖書館身份認證系統的探索或實踐[5-6],較少針對移動認證服務效果的研究。2020年新型冠狀病毒肺炎(COVID-19)疫情期間,延遲開學和網絡授課的現實需要使得科研人員、教師和學生對圖書館數據庫資源的移動訪問需求更加迫切,分析移動身份認證的服務效果更加具有現實意義。中國醫學科學院/北京協和醫學院(以下簡稱“院校”)圖書館(以下簡稱“醫科院圖書館”)作為學術型圖書館,兼有科研院所和高校圖書館兩種職能。本文以醫科院圖書館為例,分析其現有移動身份認證系統服務效果,以期對學術型圖書館開展移動訪問服務提供參考。
圖書館移動身份認證用于支持讀者在移動互聯網環境中,通過手機等移動終端設備獲取圖書館受保護資源(如購買的商業數據庫資源和自建資源)的訪問權限。依據具體實現原理不同,已有的移動身份認證技術大體可歸為兩類:基于IP轉換的方式和基于ID認證的方式。
2.2.1 早期技術 將物理IP許可范圍以外的用戶訪問轉換到許可范圍內,突破物理IP限制、支持用戶獲得受保護資源的訪問權限。早期IP轉換方式所利用技術主要涉及虛擬專用網絡(Virtual Private Network,VPN),代理服務器技術(Proxy Server)和統一資源定位符(Uniform Resource Locator,URL)重寫技術。其中,VPN通過在公用網絡中建立專用網絡,利用數據包加密和目標地址轉換實現遠程訪問;代理服務器技術基于代理服務器將物理IP范圍外的用戶訪問請求轉換為合法訪問請求;URL重寫技術采用預先配置完成的資源目標和代理服務器之間的映射關系,將用戶請求轉向代理服務器的請求。國外圖書館普遍采用的EZproxy、國內的易瑞授權訪問系統以及匯文電子資源讀者遠程訪問系統均采用URL重寫技術。
2.2.2 WebVPN技術 上述幾種方式在具體使用過程中通常需要用戶在本地安裝客戶端軟件或在瀏覽器安裝特定控件或插件等,由于移動終端操作系統和瀏覽器版本具有多樣性,因此在移動互聯網環境下系統兼容性較差,同時存在對圖書館知識發現系統支持不足、本地用戶信息難以有效集成等缺陷[5]。目前國內圖書館逐漸采用WebVPN技術,即基于Web的應用訪問控制,無需用戶進行任何本地配置即可直接在網頁上通過身份驗證訪問受保護資源,可兼容各種移動終端,較好地契合了圖書館移動訪問服務的應用需求。
2.3.1 概述 擺脫IP認證的技術路徑,支持用戶通過賬號(Identity Document,ID)直接訪問圖書館受保護資源。ID認證方式一般可全程網頁操作,無需下載應用程序或瀏覽器插件,具有較高友好性和易用性。已經出現的ID認證方式基本上均采用結構化信息標準促進組織(Organization for the Advancement of Structured Information Standards,OASIS)的安全聲明標記語言(Security Assertion Markup Language,SAML)架構。在SAML框架下圖書館為身份提供者(Identity Provider,IdP),數據庫商為服務提供者(Service Provider,SP),兩者之間通過協議實現用戶認證信息和資源訪問權限等相關信息的傳遞和共享。區別于傳統的由數據庫商管理各自用戶賬號信息的方式,ID認證支持圖書館對自身用戶賬號數據進行集中管理和維護。
2.3.2 典型代表 ID認證方式的典型代表為Shibboleth[7]和OpenAthens[8]。其中,Shibboleth起源于2000年美國Internet2組織[9]的一個網絡中間件項目,現在的系統是發布于2008年的Shibboleth2.0版本;OpenAthens起源于英國Eduserv公司開發的身份和訪問管理軟件Athens系統,于2007年整合SAML標準后更名為OpenAthens。兩者主要區別在于Shibboleth為開源項目,僅支持圖書館作為IdP在本地對自身用戶賬號數據進行管理,而OpenAthens為商業應用,其在支持圖書館本地用戶賬號管理的同時,還提供OpenAthens Cloud,支持圖書館用戶賬號的云端集中認證和管理。目前國內教育系統的中國教育和科研計算機網聯邦認證與資源共享基礎設施(CERNET Authentication and Resource Sharing Infrastructure,CARSI)服務項目和中國科學院系統的中國科技云(China Science & Technology Cloud,CSTCloud)認證服務項目均采取基于Shibboleth的認證方式[5,10-11]。另外始于2016年的21世紀資源獲取(Resource Access for 21st Century, RA21)[12]項目也是在SAML框架下致力于提升用戶認證體驗的最新探索。
醫科院圖書館是世界衛生組織(World Health Organization,WHO)衛生與生物醫學信息合作中心、國家級醫學信息資源保障與服務中心和國家科技圖書文獻中心(National Science and Technology Library,NSTL)醫學分中心,不僅服務于中國醫學科學院下屬18家二級科研院所、6家醫院和多個國家重點實驗室的科研和醫務人員,同時保障北京協和醫學院在校師生的文獻服務需求。目前醫科院圖書館提供3種認證方式支持院校科研人員和師生對所訂購各類數據庫資源的遠程訪問。
為醫科院圖書館于2012年基于易瑞授權訪問軟件搭建的遠程訪問系統,屬于傳統VPN應用,主要滿足院校系統內國家重點實驗室、知名專家學者、圖書館書評作者以及部分在校師生的校外文獻訪問需求,目前用戶規模在1 000人以上。出于安全考慮,絕大部分醫信通賬號均需憑借圖書館發放的USB Key進行登錄,因此醫信通不屬于移動身份認證系統,但對其使用數據的分析可為驗證移動身份認證系統服務效果提供參照。
為醫科院圖書館于2018年基于Shibboleth搭建的移動身份認證系統[5],加入中國科學院CSTCloud認證聯盟,在用戶信息集成方面對接院校系統內單位官方郵件賬號數據。院校科研人員和師生可以個人郵箱賬號為ID訪問圖書館所訂購的商業數據庫資源,目前注冊用戶1 700余人。部分二級科研院所并不為在讀學生開通單位郵箱賬號,在一定程度上限制了學生對協和移動身份認證的使用。
新型冠狀病毒肺炎疫情期間,為更好地滿足教師和學生對文獻資源的校外訪問需求,院校網絡信息中心于2020年2月1日上線WebVPN遠程訪問系統,支持一線教師通過工號、學生通過學號對圖書館訂購數據庫資源進行遠程訪問。截至2020年3月9日院校WebVPN用戶共4 204人,其中教師職工695人,學生3 509人。由于要優先滿足教學任務需求,未承擔教學任務的院校科研人員暫時沒有訪問權限。
以醫信通使用數據為參照,對比分析協和移動身份認證和院校WebVPN的用戶日志數據,以2020年2月的日志數據為樣本,重點分析疫情期間醫科院圖書館移動身份認證系統的服務效果和所接入各類數據庫利用情況。
4.2.1 對比分析 協和移動身份認證系統于2018年4月上線,當時國內中文數據庫均未提供基于Shibboleth的認證接口,中國知網(China National Knowledge Infrastructure,CNKI)于2019年11月提供接口,故所接入的均為醫科院圖書館訂購的外文數據庫資源。日志分析發現2019年9月-2020年2月協和移動身份認證累計2 322人次登錄,共訪問所接入外文數據庫8 264次,平均每位用戶登錄1次,訪問數據庫約4次;同一時間內醫信通累計688人次登錄,共訪問所接入中外文數據庫資源6 752次(中文數據庫資源4 281次,外文數據庫資源2 471次),平均每位用戶登錄1次,訪問數據庫約10次,見圖1。可見在滿足院校科研人員和師生的外文文獻需求方面協和移動身份認證明顯優于醫信通,且用戶利用協和移動身份認證查找文獻時的目的性和專指性更強。
4.2.2 用戶增長分析 按月份統計,在學期內(2019年9月-2020年1月)醫信通訪問人數基本保持平穩,協和移動身份認證訪問人數有小幅提升;疫情期間(2020年2月)兩種身份認證訪問人數均有提升,但協和移動身份認證上升趨勢更加明顯,見圖2。

圖1 協和移動身份認證和醫信通用戶訪問數據庫次數比較(2019年9月-2020年2月)

圖2 協和移動身份認證和醫信通訪問人數(2019年9月-2020年2月)
4.3.1 對比分析 分析2020年2月1日-29日的用戶日志發現,2月院校WebVPN累計23 859人次訪問(教師用戶1 565人次,平均每天約54人次;學生用戶22 294人次,平均每天約769人次)。同一時間區間內醫信通累計有459人次訪問,平均每天約16人次;協和移動身份認證累計1 521人次訪問,平均每天約52人次。2月用戶通過院校WebVPN累計訪問其所接入中外文數據庫資源78 220次(中文數據庫資源15 378次,外文數據庫資源62 842次),同一時間內醫信通和協和移動身份認證的數據庫訪問次數分別為2 092次和2 692次,見圖3。可見無論是訪問人數還是數據庫訪問次數,院校WebVPN均高于醫信通和協和移動身份認證。
4.3.2 用戶增長分析 對照3種身份認證系統每日訪問人數變化趨勢,可見醫信通、協和移動身份認證和院校WebVPN教師用戶訪問人數均在較小區間內波動,而院校WebVPN學生用戶訪問人數則呈現逐漸增加趨勢,尤其是進入2月中旬后,隨著網絡課堂逐步推進,通過院校WebVPN檢索數據庫的學生用戶增長趨勢更加顯著,見圖4。結合前述數據庫訪問次數的差異可知,院校WebVPN較好地滿足了在讀學生遠程/移動獲取圖書館訂購數據庫資源的需求。

圖3 3種身份認證用戶訪問數據庫次數比較(2020年2月)

圖4 3種身份認證系統訪問人數(2020年2月)
4.4.1 總體情況 對比2020年2月3種身份認證系統用戶訪問數據庫情況發現,其排名略有不同,CNKI和萬方數據均位于較靠前位次。其中醫信通數據庫訪問排名中CNKI和萬方數據分別占據第1和第2位,占訪問總次數42%(CNKI 28%,萬方數據14%);院校WebVPN中,CNKI和萬方數據分別位于第3和第4位次,見表1-表3。可見教學和科研對中文全文獲取需求均較強,這也是暫時未接入中文數據庫的協和移動身份認證系統使用受限的主要原因。
4.4.2 外訪數據庫訪問情況 PubMed作為生物醫學領域著名的免費二次文摘數據庫在訪問排名中具有特殊地位。其在醫信通數據庫中位列第3(占比11%),在院校WebVPN中位列第1(占比36%)。WebVPN全部外文數據庫訪問次數為62 842次, PubMed訪問次數為27 965次,占比約45%。PubMed作為檢索系統并不提供醫學文獻全文,只通過題錄信息提供獲取全文鏈接或商業出版商訪問路徑。但利用單點登錄功能WebVPN可支持用戶通過PubMed檢索后從多個商業數據庫分別獲取全文而無須多次登錄,提示身份認證系統接入知識發現系統必要性。

表1 醫信通用戶訪問數據庫前10位(2020年2月)

表2 協和移動身份認證用戶訪問數據庫前10位(2020年2月)

表3 WebVPN用戶訪問數據庫前10位(2020年2月)
以傳統VPN認證方式醫信通為參照,本文對比了中國醫學科學院圖書館的協和移動身份認證和WebVPN兩種身份認證的服務效果,重點分析了2020年2月份疫情期間用戶日志數據。總體而言上述3種身份認證方式均不盡完善,如醫信通由于載體限制并未對院校所有科研人員和師生開放;協和移動身份認證暫時未接入中文數據庫資源,同時由于郵箱限制導致部分學生無法使用;WebVPN只面向一線教師和在讀學生,無法服務于院校大部分科研人員。3種方式相互補充,共同支撐了疫情期間院校科研和教學任務對文獻數據庫的遠程訪問需求。綜合日志分析結果和文獻梳理對學術型圖書館建設移動身份認證系統提出建議。
5.2.1 優勢 WebVPN和基于ID認證的方式均不需要用戶安裝客戶端或瀏覽器插件等額外設置,支持用戶利用移動終端、通過網頁訪問圖書館訂購的數據庫資源,均能較好地契合移動互聯網環境身份認證應用需求。但和WebVPN相比ID認證方式在資源接入方面存在一定局限,盡管國際大型商業出版集團或數據庫商普遍同時支持Shibboleth和OpenAthens認證訪問,由于技術水平限制或出于資源安全性考慮,仍有部分小型商業數據庫或期刊并不支持此種認證方式,尤其是部分行業或領域內的特色數據庫資源。因此現階段學術圖書館單獨依靠ID認證方式提供移動認證服務會存在一定資源局限性。而WebVPN則可通過本地URL映射實現對所有授權許可資源的接入訪問。
5.2.2 局限 醫科院圖書館身份認證用戶日志分析表明,院校WebVPN認證服務效果高于醫信通和協和移動身份認證,較好地滿足了在讀學生疫情期間文獻訪問需求。需要注意的是,根據具體實現原理WebVPN同樣會受到服務器性能和網絡帶寬影響,并發用戶可能遭遇響應延遲問題,這也是疫情期間院校WebVPN優先開通一線教師訪問權限而未對院校所有科研人員開放權限的原因。
5.3.1 優勢 日志分析表明協和移動身份認證在滿足院校用戶,尤其是科研人員外文文獻需求方面明顯優于醫信通。由于擺脫了物理IP的限制,ID認證方式不受到代理服務器性能和網絡帶寬影響。國內圖書館領域實踐表明基于Shibboleth認證方式在速度和穩定性上優于VPN訪問模式[13]。另外國內基于Shibboleth的認證聯盟(包括教育系統的CARSI和科學院系統的CSTCloud)均成熟穩定,未來基于Shibboleth的ID認證可作為學術圖書館移動認證服務中對于WebVPN的有效補充。
5.3.2 適用于擁有自建資源的學術圖書館 學術型圖書館通常是商業數據庫購買者也是數據庫開發者,可開發出具有自主知識產權的特藏數據庫或領域特色數據庫(如醫科院圖書館自建的中國生物醫學文獻服務系統SinoMed)。目前學術圖書館通常基于統一元數據倉儲(本地和云端)的知識發現系統向讀者提供一站式集成檢索服務,讀者通過知識發現系統獲得的資源可能來自圖書館本地或訂購商業數據庫中的任何地方。基于Shibboleth的ID認證可通過聯邦式單點登錄支持讀者對本地和訂購商業數據庫的單點登錄訪問[5]。本地數據庫的接入可通過OAuth2.0調用實現,或開發專門Shibboleth認證接口,此種情況下圖書館既是IdP又是SP。另外配合本地數據庫的Shibboleth化,圖書館可實現對內部用戶(如圖書館讀者、校內師生)和外部用戶(自建數據庫的購買者)的集中管理。
5.4.1 必要性 導致協和移動身份認證和院校WebVPN服務效果差異重要原因之一是用戶認證ID選擇的差異。協和移動身份認證采用的ID為官方郵箱賬號,部分學生因沒有郵箱賬號而無法使用;院校WebVPN采用的ID為教師工號和學生學號,在讀學生可直接使用。目前CARSI聯盟各高校Shibboleth認證ID多為教師工號和學生學號,科學院系統CSTCloud聯盟認證ID多為郵箱賬號。為了不增加讀者負擔,利用已有讀者ID而非產生新的ID是圖書館在提供移動身份認證服務的基本要求。
5.4.2 圖書館主導、相關部門協調配合是有效保障 理想狀態下圖書館讀者可利用同一ID獲得圖書館所有受保護資源的相應訪問權限。在具體應用過程中學號、讀者證號、郵箱賬號、身份證號和手機號等均可作為身份認證ID。統一身份認證集成程度越高相應定制開發和技術改造難度越大。為達到統一認證目標,圖書館主導、相關部門協調配合是有效保障。協和移動身份認證和院校WebVPN之所以選擇不同認證ID,是因為其分別是由醫科院圖書館和院校網絡信息中心為主導而搭建的。中國科學院國家科學圖書館的Shibboleth認證ID和WebVPN認證ID均采用郵箱賬號,保持了系統內認證ID一致性。
5.5.1 可訪問資源是用戶選擇服務的首要因素 導致協和移動身份認證和院校WebVPN服務效果差異的最主要原因是資源范圍差異。協和移動身份認證系統上線時國內中文數據庫均未提供基于Shibboleth的認證接口,只接入醫科院圖書館訂購的外文數據庫資源,成為目前協和移動身份認證使用受限的主要原因。可訪問資源是決定用戶是否利用某種身份認證服務的首要因素,因此圖書館應在知識產權許可范圍內盡可能接入訂購的所有中外文數據庫資源。
5.5.2 提供知識發現系統 考慮到不同用戶文獻需求的多樣性,移動身份認證所接入資源不應局限于圖書館訂購的各類全文數據庫資源,還應包括具有集成檢索功能的知識發現系統或領域相關的檢索服務平臺等。如果讀者已明確所需文獻的來源數據庫,則登錄認證系統后將直接訪問相應數據庫,而院校WebVPN中PubMed高達36%的訪問量表明相當數量的讀者文獻需求并不具體,不清楚所需文獻數據庫來源。因此在移動身份認證服務中提供知識發現系統具有重要意義,單點登錄功能支持用戶通過知識發現系統檢索后分別從不同商業數據庫獲取全文,而不用多次登錄各個數據庫。移動身份認證、知識發現系統和單點登錄功能組合可更好地支撐學術圖書館移動訪問服務。