封 潔 司 莉
(1. 中南財經政法大學圖書館 武漢 430073;2. 武漢大學信息資源研究中心 武漢 430072)
大數據時代,科學研究向數據密集型范式發(fā)展。高校中的科研活動通常由個體科學家發(fā)起,產生的科研數據具有分布分散、類型復雜、格式多樣等特點,缺乏統(tǒng)一的標準與共享機制。這些小型科學研究需建立完善的數據保存、管理、維護和共享機制,構建科研數據機構庫。高校之間應建立合作,整合集成科研數據,提供統(tǒng)一的數字化服務,建立科研數據機構庫聯(lián)盟,支持科研數據交換與共享,從而使其在更大范圍內為研究者提供訪問和利用服務。
高校科研數據機構庫聯(lián)盟的構建和運行是一項復雜的系統(tǒng)工程,存在諸多不確定因素。聯(lián)盟形式可以使成員之間實現(xiàn)優(yōu)勢互補、資源利益共享、風險費用共擔,但同時也使成員面臨著個體組織風險之外的聯(lián)盟風險問題。聯(lián)盟在擁有眾多優(yōu)勢的同時,也存在著很高的失敗率。因此在高校科研數據機構庫聯(lián)盟尚未建立之前,預先對其組建和運行的各個流程進行分析,探究其可能面臨的風險,并進行有針對性的防范和預防,盡量將不確定性因素降至最低,將有利于高校科研數據機構庫聯(lián)盟的健康有序發(fā)展,也是聯(lián)盟構建和運行的堅實基礎。
高校科研數據機構庫聯(lián)盟面臨的潛在風險源于多方面,在其產生階段、作用階段和影響過程上均存在差異,因而可從不同角度對聯(lián)盟所面臨的風險進行劃分。從風險產生的層次來看,高校科研數據機構庫聯(lián)盟風險可分為外部風險和內部風險;從風險產生和作用的階段來看,高校科研數據機構庫聯(lián)盟風險可劃分為組建階段風險、運行階段風險以及解體階段風險[1]。本文僅著重討論高校科研數據機構庫運行階段的內部風險,暫不考慮外部環(huán)境因素以及組建和解體階段的風險因素。

圖1 高校科研數據機構庫聯(lián)盟運行風險大類
高校科研數據機構庫聯(lián)盟還未正式建成,本文主要采用流程圖法和專家調查法對風險進行識別。根據聯(lián)盟風險性質,首先將風險劃分為關系風險和績效風險[2]。關系風險可以進一步劃分為管理協(xié)調風險與成員合作風險,統(tǒng)稱為管理合作風險。績效風險主要指高校科研數據機構庫聯(lián)盟在實際工作流程中可能會出現(xiàn)的、影響聯(lián)盟目標實現(xiàn)的不確定因素。本文利用流程圖法,從高校科研數據機構庫聯(lián)盟的實際運行環(huán)節(jié)出發(fā),將聯(lián)盟運行環(huán)節(jié)分為四個階段,即數據采集階段、數據組織階段、數據存儲階段以及數據服務階段。再將每個環(huán)節(jié)的具體流程逐一分解、細化,探究每個流程可能發(fā)生的風險,將績效風險劃分為數據采集風險、數據組織風險、數據存儲風險及數據服務風險四大類,再加上關系風險對應的管理合作風險,共計五個風險大類,如圖1所示。
本文采用專家調查法,邀請相關領域的專家對高校科研數據機構庫聯(lián)盟在運行中可能存在的風險進行分析和預判。
問卷題目依據上文對風險大類的識別和劃分設計,同時參考風險管理理論中的風險判定方法,對風險的可能性和風險導致的后果嚴重程度進行1—5級的劃分,以可能性描述準則和后果描述準則為依據,編制量表。
問卷共分為三個部分,第一部分為基本信息,主要用于了解調查對象的單位、學歷和職稱。第二部分是對高校科研數據機構庫聯(lián)盟在運行中可能發(fā)生的具體風險進行調查,請專家學者對風險的詳細類目進行可能性評估。第三部分是對風險大類進行整體評估,包括每類風險導致的后果嚴重程度及風險發(fā)生概率,用以構建高校科研數據機構庫聯(lián)盟的風險矩陣。
本文選取的調查對象主要有兩類:①相關領域的專家學者,包括高校圖書館學領域的教師和博士生,以及在核心期刊上發(fā)表過機構庫、科學數據等相關文章的學者。②圖書館的領導和館員,重點選取建有科學數據共享平臺或機構庫的圖書館領導和館員為調查對象,如復旦大學、北京大學、武漢大學等高校的圖書館領導和館員。
問卷的發(fā)放采用紙質問卷調查和網絡問卷調查相結合的方式,問卷統(tǒng)計時間為2017年2月28日—2017年3月30日,共發(fā)放問卷185份,回收問卷112份,其中2份為無效問卷,有效問卷110份。
本文采用Cronbach Alpha系數、KMO指數與Barlett球形檢驗指標對問卷的信度和效度進行檢驗。問卷整體量表的Cronbach Alpha系數為0.946,問卷各部分量表的Cronbach Alpha系數均在0.7以上,說明問卷的信度較高。同時,問卷各量表的KMO值均在0.7以上,且Bartlett的球形度檢驗Sig.值為0.000,小于0.05,說明問卷的效度較好。
2.4.1 調查樣本分析
110位調查對象中,32位來自高校,以武漢大學、中山大學、南京大學等高校信息管理系的教師和博士生為主;78位來自各類型圖書館,其中47位來自高校圖書館,包括武漢大學、北京大學、復旦大學、上海交大等高校的圖書館領導和館員,22位來自公共圖書館,主要為國家圖書館、上海圖書館等館的領導和館員,9位來自科學圖書館、專業(yè)圖書館和信息中心,主要為中科院系統(tǒng)的館員和研究者以及CALIS管理中心的專家,詳見圖2。

圖2 調查對象所在機構類型
110名調查對象的學歷及職稱分布如圖3—4所示,絕大多數調查對象的學歷為碩士、博士及以上,占比96.87%,副教授及副研究館員以上職稱的調查對象為37人,占比34%。

圖3 調查對象學位分布圖
2.4.2 數據采集風險分析
專家學者對數據采集階段具體風險項的評分如表1所示,按可能性得分由高至低排列,排在第一位的風險項為“科研人員不愿共享科研數據,或愿意共享的數據有限”,平均得分為4.30。在訪談中,多位專家也表示,科研人員是否愿意將自己的科研數據進行共享是高校科研數據機構庫聯(lián)盟必然會遇到的問題。這說明專家學者普遍認為科研人員共享意愿問題是聯(lián)盟在數據采集階段面臨的最大難題,也是最有可能發(fā)生風險的環(huán)節(jié)。“采集的數據質量參差不齊”和“與科研團隊溝通中斷,無法獲取后續(xù)研究階段的科研數據”兩項風險的評分分別為4.17和4.08,風險發(fā)生的可能性等級較高,這表明科研數據的質量和完整性是專家學者關注的重點。高校科研數據機構庫聯(lián)盟需要兩所或多所高校之間共同合作,若在數據采集之前未制定統(tǒng)一而完善的采集標準和質量控制體系,則很有可能出現(xiàn)各高校提交的科研數據質量參差不齊的情況。“數據采集效率低,影響數據的時效性”和“數據提交流程復雜,系統(tǒng)易用性低”排在最后兩位,但風險可能性評分分別為3.93和3.83,接近高風險等級,也應引起數據采集人員的關注。

圖4 調查對象職稱分布圖

表1 數據采集風險可能性評分
2.4.3 數據組織風險分析
數據組織方面的具體風險項按專家評分高低排列,如表2所示,“元數據方案無法保證不同學科、不同用戶的元數據需求”這項風險的專家評分最高。高校科研數據機構庫聯(lián)盟在運行中必然會涉及不同學科的科研數據組織問題,由于各學科科研數據的特殊性,不同學科的科研數據元數據標準必然不同[3]。聯(lián)盟的特性要求元數據方案能夠有效支撐統(tǒng)一的數據檢索與服務,但科研數據具有一定的動態(tài)性,在整個科研生命周期中會經歷很多階段,各階段的科研數據特征也有可能存在差異,因而聯(lián)盟的元數據方案設計存在一定難度,需要引起聯(lián)盟工作者的高度重視。目前我國還沒有形成可以直接為聯(lián)盟所用的元數據方案,聯(lián)盟元數據方案的設計還需要領域內專家結合聯(lián)盟成員所覆蓋學科的特點和用戶需求來具體構建,這也是高校科研數據機構庫需要攻克的難點之一。

表2 數據組織風險可能性評分
“缺乏具有持續(xù)性和可擴展性的數據結構”是數據組織方面排名第二的風險項,風險發(fā)生的可能性較高。高校科研數據機構庫聯(lián)盟的數據結構會影響數據存儲及檢索效率,若不具有較好的可擴展性,會導致聯(lián)盟內科研數據難以長期組織和存儲,甚至造成數據流中斷。“數據標引不準確”風險項的評分為3.71,原因可能是元數據方案不準確,或工作人員專業(yè)知識不完備或工作疏忽。“對科研數據資源的保存年限和開放權限區(qū)分不明確”一項為3.65分,原因在于高校科研數據機構庫聯(lián)盟在實際運行過程中可能會忽視資源保存年限的區(qū)分問題,力求將所有科研數據進行長期保存。這種做法會使聯(lián)盟的工作量大幅增加,并導致存儲空間不足,統(tǒng)一將所有資源進行開放共享則會使研究者產生抵觸心理,不利于提高學者的共享意愿。莫納什大學科研數據倉儲允許研究者自行決定數據的開放程度和開放范圍,能夠滿足不同研究者的需求,值得我國的高校科研數據機構庫聯(lián)盟借鑒[4]。此外,“數據格式轉換復雜,數據兼容性低”也可能會影響研究者的共享意愿和利用積極性,高校科研數據機構庫聯(lián)盟在進行數據組織時,應注意不同高校科研數據之間的兼容性問題。“缺乏語義分析、挖掘技術和工具(如關聯(lián)數據)的應用”這一風險項的評分為3.59,訪談中有專家學者表示,科研數據如何與其他文獻實現(xiàn)關聯(lián)是聯(lián)盟工作者需要考慮的問題。
2.4.4 數據存儲風險分析
數據存儲風險項按評分高低排序,如表3所示,評分最高的風險項為“部分數據可能遭到破壞、更改、泄露或丟失”,風險可能性評分為3.85,說明專家學者普遍最關注聯(lián)盟內科研數據的安全問題。影響聯(lián)盟科研數據資源安全的因素既有自然災害、硬件設備等因素,也有計算機系統(tǒng)、管理維護等技術和人為因素。聯(lián)盟運行應確保科研數據的完整、保密和可用,注意在云存儲及數據遷移過程中可能造成的數據丟失和破壞,強化機構庫系統(tǒng)的安全保護功能,建立安全防護機制,防止遭到網絡黑客或惡意用戶的威脅。
機構庫在長期發(fā)展中可能會出現(xiàn)科研數據量增長迅猛與存儲空間有限的矛盾,專家學者認為存儲空間風險較高,發(fā)生的可能性為3.57。高校科研數據機構庫聯(lián)盟工作人員需要與科研人員進行溝通,控制所上傳科研數據的大小和數量。若科研數據量超過聯(lián)盟存儲限制,相關工作人員可對數據保存價值進行核實和篩選,將相對不太重要的科研數據暫時保存到臨時空間[5]。訪談中也有學者表示,高校科研數據機構庫聯(lián)盟應根據科研數據的價值靈活確定數據的保存期限、載體和場所,實施分級存儲措施,否則很有可能面臨存儲空間不足的風險。系統(tǒng)軟硬件設備、技術水平及后期維護問題也是高校科研數據機構庫聯(lián)盟在數據存儲階段可能面臨的風險,專家學者對這三項的評分分別為3.51、3.28和3.48,風險發(fā)生的可能性中等偏上。高校科研數據機構庫聯(lián)盟在選擇系統(tǒng)和軟件時,不僅要考慮其構建和維護成本,還需考慮系統(tǒng)功能和服務特性。建設高校科研數據機構庫聯(lián)盟可以使用一些開源軟件,但在使用過程中,應根據聯(lián)盟功能和目標對其進行修改和漢化,這一過程需要專業(yè)技術人員的參與。

表3 數據存儲風險可能性評分
2.4.5 數據服務風險分析
數據服務風險項按可能性評分高低排列,如表4所示。“缺乏有效的知識產權解決方案”和“存在隱私泄露風險”兩項得分最高,分別為3.96和3.95,說明專家學者認為知識產權風險和隱私泄露風險在聯(lián)盟的運行過程中很可能發(fā)生。科研數據資源的知識產權歸屬是高校科研數據機構庫聯(lián)盟在建設和運行階段不可回避的問題,也是制約其發(fā)展的瓶頸之一。此外,科研數據在存取和利用過程中,可能存在隱私泄露風險。一條數據在單維度情況下無法得到結論或者線索,但當多條數據資源聚集后,形成多維度的信息源,則很有可能會泄露研究者或客戶的隱私信息,這也是學者在共享數據時產生顧慮的緣由之一。
“成員間資源和服務共享性不足”風險評分為3.91,資源和服務共享是高校科研數據機構庫聯(lián)盟構建和運行的基礎,各成員高校由于學科分布、規(guī)模實力不同,擁有的科研數據資源和服務必然會存在差異。成員高校間的資源服務共享不僅需要統(tǒng)一的協(xié)調管理,還需要系統(tǒng)和技術的支撐,建立統(tǒng)一的共享平臺。“數據服務無法有效嵌入科研,數據監(jiān)護服務不到位”風險可能性評分為3.85。在實際工作中,由于缺少完善的數據監(jiān)護政策、細粒度的語義化描述不到位、缺乏專業(yè)的數據服務館員等原因,很容易出現(xiàn)數據服務不能有效嵌入科研,無法真正開展數據監(jiān)護服務的現(xiàn)象。“數據資源的可獲得性欠佳”風險評分為3.83,科研數據資源的可獲得性與科研數據資源的安全問題、長期保存問題及資源共享問題等因素息息相關。“成員間系統(tǒng)或數據服務平臺兼容性差”(3.79)、“數據服務平臺檢索效果差、響應時間長”(3.55)、“專業(yè)的科研數據管理人員數量不足”(3.76)這三個風險項也是數據資源可獲得性風險產生的誘因。

表4 數據服務風險可能性評分
2.4.6 管理合作風險分析
高校科研數據機構庫聯(lián)盟在管理合作方面可能發(fā)生的風險評分排序,如表5所示。“聯(lián)盟經費缺乏有效保障,經費不充足”風險評分最高,為3.92,說明經費問題是專家學者普遍關注的問題。資金保障是高校科研數據機構庫聯(lián)盟建設和運行的重要前提,聯(lián)盟的建設規(guī)劃、軟硬件配置、系統(tǒng)管理維護、數據服務提供等均需資金投入。高校科研數據機構庫聯(lián)盟需要明確的資金支持計劃來保證其建設和順利運行。
“聯(lián)盟成員間合作松散,合作動力不足”風險評分為3.90,發(fā)生的可能性較高,風險誘因可能是聯(lián)盟內缺乏有效的激勵和約束機制、成員收益和支出不對等、成員間信息溝通不暢、成員存在道德風險等,這些風險誘因也是風險的表現(xiàn)形式。“聯(lián)盟成員在聯(lián)盟信息共享中成本和收益不對等”(3.89)和 “聯(lián)盟成員間信息共享和溝通不順暢、效率低”(3.85)是導致聯(lián)盟合作風險的誘因,而“聯(lián)盟成員為了自身利益不按聯(lián)盟協(xié)議行事”(3.80)和“聯(lián)盟成員合作態(tài)度不積極”(3.78)則是聯(lián)盟成員存在道德風險的具體表現(xiàn)。高校科研數據機構庫聯(lián)盟是成員高校間自發(fā)形成的組織,各成員高校都是彼此獨立的機構,不存在行政隸屬關系,只能依靠契約合同來約束合作關系,對聯(lián)盟成員的道德要求較高。此外,“聯(lián)盟缺乏有效的管理機制,無法有效監(jiān)管成員工作”(3.78)、“聯(lián)盟協(xié)調管理復雜,運行成本不斷上升”(3.76)、“聯(lián)盟成員由于能力有限無法履行聯(lián)盟協(xié)議”(3.71)也是導致合作不佳的重要原因。同時,高校科研數據機構庫聯(lián)盟在運行中還有可能出現(xiàn)成員中途退出的風險,可能性評分為3.61。

表5 管理合作風險可能性評分
聯(lián)盟的風險評估可采用風險矩陣法、層次分析法、模糊理論等方法,本文選取風險矩陣法對高校科研數據機構庫聯(lián)盟的運行風險進行整體評估。風險矩陣(Risk Matrix)是一種常用的風險評估方法,通過風險后果和風險發(fā)生的可能性兩個維度來評估風險等級,揭示風險的重要程度。目前,最為常用的風險等級描述方法為用“乘”來表示后果和可能性的結合,表示某一風險或組合風險的大小或等級[6]。

表6 聯(lián)盟風險可能性描述準則

表7 聯(lián)盟風險后果描述準則
在使用風險矩陣前,需要對風險后果和可能性范圍進行定義,即制定后果和可能性的描述準則。本文參照常見的風險描述準則,制定高校科研數據機構庫聯(lián)盟的半定量風險描述準則,將風險可能性和后果劃分為五級,各等級對應的描述和內涵如表6、表7所示,風險等級描述如表8所示。

表8 聯(lián)盟風險等級重要性描述
通過專家調查問卷邀請110名專家學者對高校科研數據機構庫聯(lián)盟運行風險的可能性和后果進行整體判定,請專家根據自己的理論知識和實踐經驗,從聯(lián)盟運行風險的評估指標體系出發(fā),對聯(lián)盟的一級風險指標進行整體評判,統(tǒng)計結果的綜合平均得分,如表9所示。以風險可能性為橫坐標,風險的影響后果為縱坐標,依據表9的數據我們可以得到如圖5的風險矩陣,直觀看到高校科研數據機構庫聯(lián)盟的運行風險評估情況。

表9 風險評估結果

圖5 高校科研數據機構庫聯(lián)盟運行風險矩陣
評估結果顯示,五大類風險按發(fā)生可能性從高到低排序依次為:數據采集風險、管理合作風險、數據存儲風險、數據組織風險、數據服務風險;按風險發(fā)生后果的嚴重程度從高到低排序依次為:數據采集風險、數據存儲風險、管理合作風險、數據組織風險、數據服務風險,其中數據組織風險與數據服務風險評分均為3.65。專家學者認為數據采集風險為高校科研數據機構庫聯(lián)盟最值得關注的風險大類,其發(fā)生的可能性大小和嚴重程度高低,很大程度上取決于研究者的共享意愿。按可能性和后果的乘積進行評判,并參考風險重要性描述準則進行評估,五大類風險均屬于Ⅲ級重要風險,其中數據采集風險、管理合作風險、數據存儲風險的風險值取整均達到14.00,處于重要風險和災難性風險的臨界點,需要高校科研數據機構庫聯(lián)盟的管理者對其進行重點關注和防范。
(來稿時間:2018年4月)