周春雷 李彥博 孟麗慧


摘 ?要:探討國內外學術資源平臺中普遍存在的阻滯信息流動問題,分析其影響并探討破解之道。通過列舉各平臺存在的限制用戶利用數據、錯誤展示資源關系、隨機提供部分檢索結果等現象,歸納出信息幽禁問題并詳細闡述其表現與影響。本文認為,用戶需增強對信息幽禁問題的認識,提升應對能力; 數據庫商需加強數據質量控制工作, 提高信息服務能力;政府需完善學術資源管理制度,保障知識生產者合法權益。
關鍵詞:學術資源平臺;信息幽禁;代理風險;信息感知;信息權利
Abstract: This paper explores the common problem of blocking information flow in academic resource platforms in domestic and international, analyzes its impact and discusses the way to solve it. By enumerating the phenomena existing in various platforms, such as restricting researchers' use of data, wrongly displaying resource relationships, and randomly providing some retrieval results. This paper sums up the information confinement problem and elaborates its performance and influence in detail. As for the solution to information confinement, this paper holds that users need
to enhance their understanding of information confinement and enhance their coping ability; database vendors need to strengthen data quality control and improve information service ability; the government needs to improve the management system of academic resources to protect the legitimate rights and interests of knowledge producers.Keywords: Academic resource platform; Information confinement; agency risk; Information perception; Information rights
1 引言
本文通過梳理相關文獻[1-9],發現學術界對學術資源平臺阻滯信息流動的現象已有所認識,但尚未對該問題進行系統性研究。本文將該現象定義為“信息幽禁問題”并以實例闡述其影響及危害,然后從政府、數據庫商與用戶三個角度探討解決對策。
2 信息幽禁問題及其表現
2.1 信息幽禁問題。作為用戶,我們在接受國內外學術資源平臺提供的各種服務時,經常會遇到檢索結果與預期存在偏差、部分信息不可得的情況。通常,大多數人會善意地將其理解為自身的檢索策略問題或數據庫偶然出現的技術故障,而很少懷疑是由數據庫商設定的檢索環境造成的,更不用說系統反思用戶應有的信息權利與數據庫商采取的某些數據控制措施之間的矛盾。但事實上,當用戶將獲取學術資源的工作委托給數據庫平臺由其作為代理人檢索各種底層數據時,往往會出于對數據庫的信任而忽視其中的代理風險,并未察覺其所用信息可能不夠完整、準確。本文將那些因功能缺陷或數據質量問題導致正常用戶難以通過學術資源平臺所提供的信息服務順利提取其所允諾數據的現象稱為信息幽禁問題。
2.2 信息幽禁問題的表現
2.2.1 過度干預用戶獲取數據。數據庫商本身并不生產新的學術信息,但為學術成果的傳播與利用提供了平臺,其開發的各種學術資源庫為學術界的知識生產和消費活動提供了必要的基礎設施。雖然數據庫商和用戶在某些方面有著共同利益,但這并不意味著用戶可以自由取用數據庫中的資源。當用戶嘗試從數據庫中獲取信息時,會面臨諸多隱性限制。
表1總結了用戶從主流學術資源平臺批量下載題錄數據、引文數據時須遵守的規則。其中“是否需逐頁點擊”指用戶是否需要點擊“下一頁”等按鈕才能實現翻頁功能;“單頁最大顯示量”指同一頁面呈現的最大記錄條數;“單次最大導出量”指單個導出文件最多能接納的數量;“最大可獲取量”指單次檢索時能獲取的最大數據量。雖然用戶借助一定的技巧可以部分規避數據庫方的不合理限制,但某些情況下即使檢索經驗再豐富也不得不放棄對完整數據的追求。
2.2.2 隨機提供部分檢索結果。筆者在利用專業表達式批量檢索數據時遇到了一些令人困惑的問題:在不同時間使用相同的檢索表達式有可能得到不同的記錄。例如,筆者于2021年3月24日以“DO=10.1016/S0378-4371(02)00736-7”為專業檢索式在WoS中檢索時可以查到相應的論文,而以“DO=10.1007/s11192-009-0120-0orDO=10.1016/S0378-4371(02)00736-7”檢索時卻無法查到該文。但是,當2021年4月24日重復驗證時卻又完全正常了。此外,類似情況還有:檢索時明明選中了某些文獻卻無法導出,以及調整批量檢索語句的組合次序會出現不同的檢索結果等。在萬方數據庫中,筆者發現盡管選擇記錄總數可以大于500,但最多只能導出500條,且并不滿足前500或后500條這樣的規則。這些現象不僅會浪費用戶的時間和精力,也會讓人質疑相關數據庫的穩定性和數據質量。如上所述,數據庫商通常會有意或無意地在其產品中設置種種障礙,以限制數據自由流通、增加數據復用難度等手段來保障自身的商業利益,壓制潛在的競爭者。
2.2.3 錯誤展示文獻題錄信息。由于相關技術還不夠完善,各學術資源平臺在數據處理、加工及提供等方面均面臨不少難題,我們在獲取信息時也難免會遇到繁體字、外文、化學式等,但數據庫的處理結果往往不盡如人意,如CNKI將《青海藏族喪葬文化》的作者加工成“愫”,而其作者本名為“忞愫”。作者姓名為兩個字時,數據庫處理標準不一致,或是不做任何處理(直接著錄名字),或是在名字中間加空格,然而有些情況下,無論加不加空格均無法檢索出作者的發文或被引數據。此外,對于篇名中破折號前后的內容、主副標題等也會出現不同程度刪除處理現象。在著錄信息時,數據庫商的某些信息加工人員會由于粗心等原因造成一些錯誤。
2.2.4 錯誤展示文獻間的關系。WoS核心集中同樣存在文獻關系錯誤問題。表2展示了《SCIENTOMETRICS》上存在引用關系的三篇論文的具體信息,其不同視角的引用情況如圖1所示。
完全符合事實的正確引用關系為:B引用A,C同時引用A、B。但是,不同視角下的文獻關系卻讓這本應清晰明了的關系變得如同“羅生門”般復雜。圖1中的實線箭頭表示文獻間存在引用關系,如A→B表示文獻B引用文獻A,虛線箭頭表示文獻間存在錯引。由于C的原文參考文獻存在錯誤,故從正文體現的引用情況來看,三者間的關系為:B引用了A,C引用了B,C引用了A但存在錯引問題。這一錯誤引發了一連串的衍生問題:從WoS導出數據來看,CR字段“忠實”地記錄了原文的錯誤,沒有糾正文獻C與A之間的錯引,導致C與A之間的引文關系呈現斷裂狀態;從WoS平臺上的文獻鏈接情況來看,這三篇論文各自獨立,不存在引用或鏈接關系。
3 信息幽禁問題的影響
3.1 阻礙信息流動,干擾學術探索。在政府財政資助下產生的科學數據具有公共屬性,理應由社會公眾共享,而學術資源平臺中的信息來源于學術界,因此本文認為這些資源理應由學術界共享。自由獲取信息是用戶應享的信息權利,而該權利實行的效果與數據庫商釋放數據的程度息息相關。大數據時代下,人們對信息的獲取效率與擁有量成為科研產出的重要影響因素,同行之間的智力對抗逐漸演變為信息意識比拼。信息意識較低的群體獲取信息效率較低,對研究前沿的感知也落后于他人,而信息幽禁問題更是會拉開二者的差距??傊?,數據庫商的信息服務能力關系著學術成果的擴散,也在一定程度上影響著科研人員的學術熱情與科研創新深度。
3.2 妨礙展示真實的學術交流圖景。學術交流圖景是通過文獻間的引用關系呈現出來的,其中體現著學術界的智力償還與信息禮儀。通過分析學術交流圖景,我們不僅可以了解學科間的知識流動,發現其中存在的學緣關系,還可揭示學者的學術視野與學術偏好。但由于數據庫收錄范圍、加工技術等原因,使得原本應完整反映學術交流概況的數據割裂開來,且這些異域分布的數據多在字段結構、字段內容等方面有所差異。此外,部分加工錯誤的數據也在妨礙展示學術交流圖景,同時不利于學術評價結果的真實性。
4 信息幽禁問題解決對策
4.1 建議從國家層面完善學術資源管理制度。長期以來,學術文獻數據庫缺乏宏觀規劃與統一管理,不同數據庫商普遍存在重復收錄文獻、技術壁壘、各自為政等問題,相關方的知識產權界限較為模糊。收費不合理等問題也加劇了用戶對數據庫商的不滿情緒。
筆者認為,無論是促進科學發展還是完善管理機制,國家都應該制定一系列行業標準與規范,以法律法規的形式宏觀調控數據庫商的行為,以一系列學術資源管理措施指導實踐活動。數據庫商限制信息與數據流通的行為,多數可歸為知識產權問題,模糊的知識產權界限讓中介環節謀取了大量的利益。在數字環境下,如果默許數據庫商無限追求利益而罔顧公眾的信息權利,則會損害知識生產者的合法權益。
4.2 建議數據庫商不斷提升信息服務能力。要想讓數據和信息充分發揮促進知識生產作用,需要讓其在流通環節“活”起來,減少各種不合理的阻滯行為。我們不僅要考慮如何保障數據庫商的經濟利益,更應思考如何激發數據活力以提升社會效益。雖然學術數據庫商為展示學術界的成果提供了“上傳”“下載”“流通”的空間,但其中的絕大部分資源來源于學術界,具有明顯的公共屬性,其理應承擔一定的學術責任與社會責任,與包括學術界在內的各界人士合作,共同解決信息幽禁問題。首先,數據庫商應與高校及科研院所等方合作,共同更新各類詞表,完善網絡環境下文獻著錄與標引等工作的規則,針對呈現文獻量、檢索字段、閱讀途徑等共同制定工作流程與標準。其次,數據庫商可聯合業界人士形成團體,共同參與完善數據庫中的短缺技術,解決如部分生僻字與外文無法顯示、內容中有亂碼等問題。最后,還應與期刊社等相關方開發參考文獻檢測工具,解決學術資源間關系紊亂等問題和規避學術不端問題。
4.3 建議廣大用戶增強應對信息幽禁問題的能力。長期以來,學術界成員缺乏對信息幽禁問題的認知,深受數據庫商信息幽禁行為的困擾,忽視了自身應有的信息權利。我們在開展知識創新活動時,或不熟悉情報檢索語言,或不熟悉數據庫使用方法與技巧而遇到各種阻力,阻礙著我們的知識生產與消費。因此在數據庫商等方積極作為的同時,也應提高信息權利意識,增強信息幽禁問題認知并提升應對能力。
*基金項目:河南省哲學社會科學規劃項目“基于ESI的河南省優勢學科識別與人才評價研究”(項目編號:2019BZH005);鄭州大學教學改革研究與實踐項目“大學生信息空間適應能力提升機制研究”(項目編號:2020zzuJXLX184)。
參考文獻:
[1]蘇新寧,黃水清.學術資源庫建設重在促進學術研究[N].光明日報,2016-01-21.
[2]王啟云.關于數字資源計量問題[EB/OL].[2021-5-20].http://blog.sciencenet.cn/blog-213646-721092.html.
[3]蘇新寧.引文索引數據質量控制研究[J].中國圖書館學報,2001(02):76-78.
[4]張友誼,劉春.中文社會科學引文索引數據質量問題研究
[5]FRANCESCHINI F,MAISANO D,MASTROGIACOMO L.A novel approach for estimating the omitted-citation rate of bibliometric databases with an application to the field of bibliometrics[J].Journal of the American Society for Information Science and Technology,2013,64(10),2149-2156.
[6]FRANCESCHINI F,MAISANO D,MASTROGIACOMO L.Empirical analysis and classification of database errors in Scopus and Web of Science[J].Journal of Informetrics,2016,10(04):,933-953.
[7]張美琦,劉斐,姚蘭,等.查收查引質量控制關鍵環節——錯引判斷實踐及其效果評估[J].大學圖書館學報,2018,36(05):93-100.
[8]LIU WS.Accuracy of funding information in Scopus:a comparative case study[J].Scientometrics,2020,124(01):803-811.
[9]LIU WS,HUANG MT,WANG HF.Same journal but different numbers of published records indexed in Scopus and Web of Science Core Collection:causes,consequences,and solutions[J].Scientometrics,2021,126,4541-4550.
(作者單位:周春雷,鄭州大學信息管理學院,鄭州市數據科學研究中心;李彥博、孟麗慧,鄭州大學信息管理學院 來稿日期:2021-08-01)