錢雨菲 潘雪蓮 施 云 華薇娜
科學軟件在現代科學研究中發揮著重要作用,但其學術價值一直被低估甚至被忽略。直到近年來,隨著數據驅動研究范式的興起以及科學數據價值認可度的提高,一些學者開始關注與科學數據密切相關的科學軟件的學術價值。Anzt等[1]學者認為科學軟件已然成為科學研究的核心資產,其應當具備可獲得、可發現、可重用并且適應新需求的屬性。然而,很多科學軟件,特別是免費的科學軟件并未具備上述屬性,它們常常因缺少維護與更新而不可持續使用。因此一些學者開始意識到科學軟件可持續性的重要性,并開展相關研究、推動相關實踐,以便可用的科學軟件在未來也是可用的,并且將繼續得到改進和支持。國外學術界為提高科學軟件的可持續性,已經將軟件納入到科學家的有效研究成果、制定軟件引用原則、創建科學軟件服務平臺等諸多實踐活動的認定中,而我國學術界在科學軟件可持續性方面開展的實踐活動還非常少。在我國的科學資助機構和科研管理部門尚未將軟件認定為有效研究成果的今天,我們常常被國外軟件卡住了脖子,如哈爾濱工業大學等高校已于2020年6月被美國MathWorks公司禁用科學計算軟件MATLAB。在此背景下,本文對國內外科學軟件可持續性研究和實踐進展進行系統梳理,一方面可以全面揭示科學軟件的學術價值、加深人們對科學軟件重要性的理解,為有關部門將科學軟件納入科研評價體系提供決策依據,進而為科研評價與創新激勵提供一個新的維度,有助于鼓勵我國科研人員開發和維護科學軟件;另一方面可以厘清研究問題與研究方法、明晰實踐進展,為后續相關研究和實踐的開展提供有益參考,有助于提高科學軟件可持續性、促進科研資源的優化配置。
本文遵循Kitchenham和Charter的系統綜述指南[2]對科學軟件可持續性相關文獻進行檢索、選擇、評估、數據抽取與綜合的方法,全面系統地收集科學軟件可持續性研究和實踐進展相關文獻,同時參考Howison等[3]提出的科學系統中的軟件過程模型框架,從科學軟件使用、引用、影響力和可持續性四個方面收集文獻,其中涉及用于支持科學研究的各種軟件,涵蓋研究軟件、學術軟件、科研軟件等同義概念的軟件。
首先,本研究參考孫玉偉等[4]所采用的檢索策略來全面收集科學軟件可持續性研究和實踐進展相關文獻。分別選取Web of Science(WoS)核心合集、Scopus和CNKI、萬方、維普作為中英文文獻來源數據庫,并以research software、academic software、scientific software、citation、sustainability等檢索詞構建檢索式,在各數據庫的主題檢索字段進行檢索。檢索時間限定為每個數據庫建庫至2021年8月1日,文獻類型限定為期刊論文。之后,將初步檢索到的文獻題錄數據導入文獻管理工具Endnote,并用Endnote去除重復,得到1061篇論文。
其次,制定文獻納入標準,在此基礎上通過瀏覽文章標題及摘要和快速閱讀全文對文獻進行兩輪篩選。篩選后,共得到 35篇文獻。此外,在Google Scholar中對上述35篇文獻的參考文獻及其引證文獻進行滾雪球式的追蹤,以彌補上述有限檢索詞造成的漏檢。同時,還在英國軟件可持續性研究所等科學軟件研究機構網站收集相關文獻,以獲得更多的實踐活動相關文獻。最終一共獲得83篇相關文獻,其中實證性研究論文47篇,實踐類文獻36篇。
最后,本研究利用Glynn提出的圖情研究批判性評估工具[5]對入選的47篇實證研究質量進行評價來排除低質量研究,主要從樣本情況、數據收集、研究設計、結果四個方面進行評估。經過評判性評估,30個實證研究為有效研究,被納入后續研究。
此外,還考慮到實踐類文獻往往缺少研究設計或研究方法部分,且大部分沒有發表在學術期刊上,因此本文將來自知名組織機構、會議、出版機構且觀點鮮明、論證嚴謹、邏輯清晰的會議文獻納入后續研究。會議主辦機構限定為IEEE及ACM,出版機構限定為Elsevier、Springer等國際大型出版商。經過評估,36篇實踐類文獻中有14篇被納入后續研究。最終一共有44篇文獻被納入后續研究。
本文根據研究需要設計相應的數據抽取表,并據此從納入的44篇文獻中抽取出題名、出版年、國別、學科領域、文獻類型、研究對象、樣本數量、研究主題、研究方法等信息,并對所抽取的數據進行整理分析。
在這44篇納入文獻中,期刊論文34篇,會議論文10篇。這些文獻的出版年代分布為:2004—2009年2篇,2010—2015年13篇,2016—2021年29篇。由上述分布可知,該主題研究性和實踐性文獻總量呈現上升趨勢。從文獻語種來看,英文文獻數量較多,有38篇(86.4%),中文文獻數量較少,僅6篇(13.6%)。其中英文文獻由16個國家的研究者生產,其中美國貢獻最多,貢獻了71.1%的文獻,其次是英國(26.3%)、中國(15.8%)、德國和加拿大(13.2%)。學者們除關注多學科整體情況外,還較多地關注生物學(9篇)、圖書情報學(3篇)、地球物理學(2篇)領域的科學軟件使用和引用情況,同時也對天文學、生物醫學等領域進行了研究。
從文獻的研究方法來看,納入文獻較多地使用了問卷調查(6篇)和內容分析(12篇)方法,也有一些使用訪談、文獻計量、機器學習等方法。其中,機器學習方法被用于從文本數據中自動抽取出軟件實體,以減輕人工識別軟件實體的負擔,使得研究大規模多領域的軟件使用情況成為可能。但目前學者們提出的軟件實體自動識別算法性能仍有待提高。值得注意的是,有一定數量的研究(6篇)使用兩種或兩種以上研究方法。此外,納入文獻中僅有Howison等學者于2015年發表在Research Evaluation上的文獻[3]涉及理論模型框架,其他文獻均未涉及理論模型。同時,很多研究(18篇)是以學術論文為調查對象,也有相當多研究(11篇)是以科研人員為調查對象,還有一些研究直接以科學軟件為調查對象。這些研究的樣本量大多小于500(12項),樣本量在500~5000的研究有9項,樣本量大于5000的研究有8項。
長久以來,科學軟件常常被認為是科學研究的副產品,其對科學研究的貢獻一直被低估甚至被忽略,以致科學家沒有動力開發和維護科學軟件。因此,學者們從不同角度量化評價科學軟件對科學研究的影響,以加深人們對科學軟件重要性的理解,為有關部門肯定科學軟件并將其納入科研評價體系提供決策依據。
3.1.1 科學軟件對科學研究的重要性研究
綜合相關研究可以發現,學者們主要從科研人員對科學軟件的感知重要性、依賴程度、使用、開發等方面來探究科學軟件對科學研究的重要性。
在感知重要性方面,主要用“認為使用、開發科學軟件對自己、他人研究工作重要的科研人員占比”等指標來量化測度。Hannay等[6]對主要來自歐美的1972名科學家進行調查發現,分別有91.2%、84.3%的受訪者認為使用和開發科學軟件對自己的研究重要或非常重要;潘雪蓮等[7]對224位中國科研人員的調查發現,有86.6%的人認為科學軟件對自己的研究工作重要或非常重要。
在依賴程度方面,主要用“非常依賴、不太依賴科學軟件的科研人員占比”等指標來測度。Hettrick[8]的調查發現,69%的英國科研人員表示如果不使用科學軟件他們就無法進行研究工作,10%的受訪者表示不使用科學軟件對自己的研究工作沒有太大影響;美國的一項類似調查顯示,63%的美國博士后表示如果沒有科學軟件他們就無法進行研究工作,6%的受訪者表示不使用科學軟件對自己的研究工作沒有重要影響[9]。
在使用方面,主要用“使用科學軟件的科研人員及論文占比、提及科學軟件的論文占比、篇均論文提及軟件個數”等指標來測度。Nangia和Katz[9]的調查發現,95%的美國博士后使用科學軟件;Pan等[10]對發表在綜合性期刊PLOS ONE上的論文中的軟件使用情況進行調查發現,軟件使用存在學科差異,數學領域論文提及軟件比例最低(61%),農學領域論文提及軟件比例最高(86%);Nangia 和Katz[11]的調查發現,80%的Nature期刊論文提及了科學軟件,平均每篇論文提及7個軟件;Yang等[12]通過調查發現,分別有81%和91%的生物學中文期刊論文和英文期刊論文使用至少一種科學軟件;崔明等[13]和Pan等[14]的調查發現,圖情領域使用軟件的論文占比總體上均呈逐年上升趨勢,且我國圖情領域常用科學軟件中超過八成的軟件產自國外。另外一項對中國科研人員的調查發現,受訪者高頻使用的49種科學軟件都產自國外[7]。由此可見,我國科研人員研究較多依賴國外科學軟件。
在開發方面,主要用“開發科學軟件的科研人員占比、科研人員花費的科學軟件開發時間”等指標來測度。Hettrick[8]的調查發現有56%的英國科研人員開發自己的科學軟件,而一項對中國科研人員的調查顯示僅有8.5%的受訪者參與過科學軟件的開發[7]。Prabhu等[15]的調查發現,美國普林斯大學科研人員平均大約花費35%的研究時間在軟件開發上;Pinto等[16]的調查發現,受訪科學家平均大約花費30%的工作時間在科學軟件開發上,但有82%的受訪者認為他們比10年前花費更多的時間在科學軟件開發上。上述對科研人員開發科學軟件情況的調查,不僅揭示了科學軟件對科學研究的重要性,還發現了很多科研人員只接受了非正式的軟件開發培訓,甚至有相當高比例的科研人員并未接受過軟件開發培訓。例如,Hanny等[6]的調查發現,96.9%的受訪科學家表示自學對軟件開發非常重要。Nangia和Katz[9]的調查發現,54%的受訪美國博士后沒有接受過軟件開發培訓。未經充分軟件開發培訓的科研人員生產出來的科學軟件不大可能是可持續使用的[8]。
3.1.2 科學軟件的科學影響力評價研究
納入研究中有13項涉及科學軟件的科學影響力評價問題。綜合相關研究可以發現,學者們主要從學術論文中的科學軟件提及、使用、引用、擴散及科學軟件網站/存儲庫中的用戶注冊、評論、軟件下載、復用等角度探究科學軟件的科學影響力。
由于被引頻次被廣泛用于測度文獻的科學影響力,一些學者嘗試從引證視角研究科學軟件的科學影響力。然而,研究顯示科學軟件引用缺失嚴重且普遍存在。如:崔明等[17]對圖情領域中文期刊論文中的軟件引用情況進行調查發現,軟件引用缺失率高達84%;Park和Wolfram[18]對科睿唯安的數據引文索引(DCI)收錄的科學軟件的引用情況進行調查發現,很少科學軟件獲得引用,平均每個科學軟件被引0.1次。此外,研究還顯示科研人員的科學軟件引用行為并不規范,其對于引用對象的選擇各有偏好。如:Pan等[14]的研究發現,圖情領域期刊論文中的科學軟件引用中,64%引用的是軟件相關出版物,36%引用的是軟件項目名稱/網站;Li等[19]的研究發現,科研人員對R軟件包lme4的引用中,大約一半引用相關出版物,另外一半引用項目網站。科學軟件引用缺失嚴重以及科研人員不規范引用行為的普遍存在給用被引頻次評價軟件的科學影響力帶來很大障礙。鑒于科學軟件引用缺失嚴重,一些學者提出用學術論文全文中的科學軟件提及頻次、使用頻次、擴散廣度來測度軟件的科學影響力。
對科學軟件提及頻次和使用頻次的統計,有研究以句子為統計單位[20],也有研究以篇章為統計單位[17,21]。以句子、篇章為統計單位分別是指一個科學軟件在一個句子和一篇論文中無論是出現一次還是多次,其使用頻次都記為1。提及科學軟件與使用科學軟件的區別在于前者指論文中出現了科學軟件,后者指利用科學軟件進行了相關研究。
科學軟件擴散廣度包括論文擴散廣度、期刊擴散廣度、領域擴散廣度三個指標。論文擴散廣度是指使用該科學軟件的論文數量;期刊擴散廣度是指發表使用該科學軟件論文的期刊數量;領域擴散廣度是指使用該科學軟件論文的學科領域數量[22]。這三個基于學術論文全文的評價指標雖然能較好測度軟件科學影響力,但有三個前提條件:一是科研人員在學術論文中準確規范描述其研究中所使用的科學軟件;二是要有覆蓋廣泛的大規模論文全文數據庫;三是要有準確高效的科學軟件自動識別工具。事實上,目前上述三個條件并不能完全滿足。例如,Pan等[14]的研究發現,5%的圖書情報學期刊論文使用了科學軟件卻未在論文中提及軟件任何信息。此外,還有相當比例的科研人員甚至都不會在其論文中提及使用的科學軟件[7]。
除了上述評價指標外,學者們還對軟件下載量、復用次數、注冊用戶數、郵件列表訂閱人數、用戶評論數等其他可能用于測度軟件科學影響力的指標進行討論與研究[23],如Thelwall和Kousha[24]的研究發現,軟件在Google Code中的下載頻次與其在Scopus中的被引次數呈弱相關關系——下載頻次可以證明軟件有著更廣泛的非科學用途。Howison等[3]的研究也指出,科學軟件的多平臺分布、人際傳遞擴散、下載卻不用等問題的存在使得難以用下載量來準確評價軟件的科學影響力。注冊用戶數、郵件列表訂閱人數和用戶評論數同樣存在準確指標數據難以獲得的問題。
在44篇納入文獻中,有25篇涉及科學軟件可持續性影響因素。本文基于社會生態模型[25]和Howison等[26]提出的科學系統中的軟件過程模型框架將科學軟件可持續性的影響因素歸納為科學軟件質量因素、使用者因素、社會環境因素、技術平臺因素四類。
3.2.1 科學軟件質量因素
科學軟件本身質量對科學軟件可持續性具有重要影響。Venters等[27]認為軟件可持續性與軟件質量密切相關,可持續性軟件應具備可操作性、可維護性、可移植性、可重用性、可擴展性、可用性等屬性。然而,科研人員開發的科學軟件通常存在缺乏通用性、可擴展性、代碼注釋或文檔、難以與其他方法集成等“技術債務”問題[28-29]。究其原因在于很多科研人員并未接受過正式的軟件開發培訓,如Hwang等[30]調查發現,地球動力學基礎設施(CIG)社區中的大多數科研人員的科學軟件開發技能是通過非正式培訓習得的。生物大分子建模軟件Rosetta的RosettaCommons社區中同樣存在受過軟件開發正式培訓的科研人員數量明顯少于未經過正式培訓的科研人員數量的情況[31]。此外,Anzt等[1]指出,關于如何創建、維護和支持可持續科學軟件的專業知識仍較為缺乏,這可能導致科研人員設計出的軟件不能很好地滿足用戶需求,進而造成使用率低的情況。
3.2.2 使用者因素
科學軟件可持續性同時也受到用戶使用行為的影響。已有研究發現獲得學術聲譽是科研人員開發和維護科學軟件的一個主要動因,然而,目前有相當高比例的科研人員因缺乏軟件提及意識和引用意識而未在研究成果中提及或引用其所使用的科學軟件。如潘雪蓮等[7]的調查顯示,超過30%的受訪科研人員未在研究成果中提及其所使用的科學軟件;Howison 和Bullard[26]的調查發現,生物學期刊論文中56%的軟件未獲得正式引用。同時,科研人員的軟件使用和引用行為不規范現象普遍存在。科研人員的這些行為會導致科學軟件開發者不能獲得應有的學術聲譽,以致開發者沒有動力開發、共享和維護科學軟件[32],造成科學軟件不能持續可用。
3.2.3 社會環境因素
科學軟件的可持續性也受社會因素影響,如出版物驅動的科研評價體系、尚未被廣泛接受的軟件引用文化、未被統一規范的軟件引用標準等社會環境因素對科學軟件可持續性也有重要影響。目前主流的科研評價體系仍以傳統出版物為主,科學軟件往往被認為是科學研究的副產品,其對科學的貢獻一直處于被低估的狀態。魏瑞斌[33]認為中國圖情領域學者較多使用國外軟件與國內現有科研評價體系不重視科學軟件有著密切關系。Hong的研究發現,即使在嚴重依賴軟件的計算機科學等學科中也很少有英國學者將科學軟件列為其代表性研究成果。并且他認為英國的這種文化強化了編寫和發布代碼對研究人員沒有任何好處的觀念[34]。Anzt等[1]認為,缺乏對研究軟件工程師的長期資助是科學軟件可持續性差的另一個主要因素。同時,由于目前沒有實施強制性的軟件引用,現有的科研獎勵系統難以有效激勵科研人員創建和使用可持續科學軟件。Soito和Hwang[35]認為軟件引用文化的缺失使開發者難以獲得與其貢獻相匹配的學術聲譽。此外,潘雪蓮等[7]的調查發現,科研人員未正式引用科學軟件的一個重要原因是缺乏規范的軟件引用標準,不知如何引用。
3.2.4 技術平臺因素
技術平臺同樣影響著科學軟件可持續性。軟件歸納存儲平臺被認為可以促進科學軟件共享、增強科學軟件的長期可訪問性、幫助開發者了解其科學軟件的訪問及使用情況。大部分學者認為軟件歸納存儲平臺為科學軟件分配的永久數字標識符(如DOI等)可以提高科學軟件的可識別性、可追溯性、可引用性和可重用性,推薦使用DOI對科學軟件進行引用[36]。但也有學者持不同觀點,如White[37]認為,軟件引用形式應是靈活的,不應拘泥于引用軟件DOI,也可根據開發者需要相應地選擇引用軟件、軟件相關論文或軟件存儲庫,這樣才能更好地適應開發者需求。Park和Wolfram[18]的研究發現,永久數字標識符并未給科學軟件帶來更高的被引次數。與此同時,科學軟件影響力追蹤平臺被認為可以更好地揭示科學軟件的影響力及其開發者的科學貢獻[34]。此外,軟件引用格式生成工具也被認為可以減輕科研人員的軟件引用負擔、提高科研人員的軟件引用效率和準確度。
在44篇納入文獻中,有17篇涉及促進科學軟件可持續使用的實踐措施。綜合相關文獻發現,科學軟件可持續發展的促進措施主要有如下四類:提高科學軟件質量、規范科學軟件使用、增加資源與激勵、加大技術平臺支持。
3.3.1 提高科學軟件質量措施
很多科研人員需要開發科學軟件,但他們卻很少接受編程或軟件開發方面的正式培訓,這導致他們對科學軟件的可持續性認識不足,也導致他們所開發的科學軟件大多存在可持續性差的問題。因此,一些學術組織通過為科研人員提供軟件設計和可持續軟件開發方面的培訓、統一規范的編碼標準和軟件開發測試框架以及將研究軟件工程師加入研究小組等措施來提高科學軟件的質量和可持續性。例如,2010年成立的英國軟件可持續性研究所已對超過4000名的科研人員進行軟件開發培訓,幫助科研人員解決其所開發軟件中的技術債務積累問題,提高其所開發軟件的可持續性[28,38];RosettaCommons社區通過制定編碼規范和軟件測試框架、開展軟件開發培訓等措施來保證其所開發軟件的質量和可持續性[31]。然而,我國目前尚無專門的科學軟件可持續性組織機構為科研人員提供此類服務。
3.3.2 規范科學軟件使用措施
針對目前科學軟件使用和引用實踐缺乏一致性的現狀,一些學術組織、出版機構等通過制定軟件使用規范、引用標準和實施政策等措施來推動科學軟件的規范使用,提高科學軟件的可見性和可持續性。例如,Force11軟件引用工作組于2016年制定了重要性、信用和歸屬、唯一識別性、持久性、可訪問性、特異性六個軟件引用原則并給出了軟件引用相關用例[39]。該工作組建議軟件引用樣式包括軟件標簽[software]和版本信息(如Version 5.1),要求科研人員在論文的正文和參考文獻列表中規范引用其所使用的軟件,在引用時給出所使用軟件的名稱、作者名稱、版本號、發布/下載日期、位置/存儲庫、DOI號等信息。美國電氣與電子工程師學會(IEEE)要求論文作者遵循Force11軟件引用工作組提出的軟件引用原則[40]。美國心理學會(APA)在其第7版Publication Manual of the American Psychological Association中指出,需要對非常用軟件提供文本引用和參考列表條目[41]。而美國天文學會(AAS)在其2016年發布的軟件政策聲明中建議作者在論文中通過引用描述軟件的論文、軟件的DOI號來引用軟件,并提供指向軟件代碼存儲庫/索引的鏈接[42]。然而,我國最新的國家標準《信息與文獻 參考文獻著錄規則》中尚無明確的軟件著錄格式與示例。
除上述學會組織和出版機構制定出相應的軟件使用和引用標準外,一些軟件存儲平臺也制定了相應的軟件使用和引用指南(引用格式見表1)。例如,美國天體物理學源代碼庫(ASCL)給出了相關引用建議[43]。

表1 部分軟件引用標準
3.3.3 增加資源與激勵措施
目前,科學資助機構和學術組織主要通過肯定科學軟件價值、給予資源支持和學術聲譽等來激勵科研人員開發和維護科學軟件,提高科學軟件可持續性。在肯定科學軟件價值方面,美國國家科學基金會(NSF)和英國高等教育基金委員會已將軟件認定為科研人員的有效研究成果。在給予資源支持方面,NSF目前已經資助了近2萬項軟件相關項目,資助總額超過90億美元[1];英國工程與物理科學研究委員會(EPSRC)、NSF等資助英國軟件可持續性研究所、美國科學軟件可持續性研究所等專門組織機構的成立、運行以及相關主題會議的召開和專項活動的開展[28,44];EPSRC設立了一系列的獎學金用于支持研究軟件工程師的技能提升和職業發展[27,45]。在給予學術聲譽方面,ASPECT社區要求使用了其軟件的出版物引用軟件相關論文[46];美國公共慈善機構NumFOCUS、Elsevier出版集團等機構資助或創辦了專門的軟件期刊,如Journal of Open Source Software、SoftwareX等,以幫助軟件開發者獲得學術聲譽[47]。然而,我國目前尚未將科學軟件納入科研評價體系,且缺乏維護軟件的激勵措施和資源,也未成立專門的組織機構、創辦專門的軟件期刊。
3.3.4 加大技術平臺支持
目前,相關組織機構主要通過構建和完善軟件歸檔存儲平臺、軟件影響力追蹤平臺和軟件引用格式生成工具等來提高科學軟件可持續性。常用的綜合性軟件歸檔存儲平臺有GitHub、Google Code、Zenodo、Figshare、Dryad、PANGAEA,這些平臺提供了收藏量、下載量等統計數據,其中后四個平臺可以為上傳軟件提供DOI號和許可證。特定學科領域的軟件歸檔存儲平臺有天體物理學領域的ASCL、生物信息學領域的Bioconductor、結構生物學領域的SBGrid等。為了更好地測度科學軟件影響力,一些用于追蹤軟件影響力的平臺被創建出來,其中比較知名的有Clarivate的DCI、NSF資助開發的Depsy。如Depsy通過統計公共存儲庫中以R和Python兩種語言編寫的軟件在研究論文中的提及次數、軟件之間的復用次數、在CRAN和PyPI中的下載次數等來揭示軟件影響力[34]。此外,一些軟件引用格式生成工具被開發出來幫助科研人員更便捷地引用科學軟件。例如,SBGrid軟件聯盟創建的AppCiter可以為結構生物軟件提供詳盡的引文信息[48]。阿爾弗雷德·斯隆基金會資助創建的應用工具CiteAs可以根據用戶輸入的軟件DOI號、URL、名稱等信息生成六種格式的軟件引用條目[49]。較之國外,我國尚缺乏促進科學軟件可持續性的技術平臺支持。
本文采用系統綜述方法對科學軟件可持續性相關研究和實踐進展進行了細粒度的分析。結果顯示,科學軟件被廣泛應用于生物學、農學等諸多領域的科學研究,且在很多科研人員的研究工作中發揮著非常重要的作用。科學軟件的科學影響力評價主要從科學軟件下載、使用、提及、引用、擴散等維度進行,但科研人員軟件使用和引用行為不規范的普遍存在,以及軟件下載、使用等指標數據難以獲得問題的存在阻礙了科學軟件影響力評價工作的推進。科學軟件可持續性影響因素主要涉及科學軟件質量、使用者、社會環境和技術平臺四方面因素。此外,科學資助機構和學術組織主要通過提高科學軟件質量、規范科學軟件使用、增加資源與激勵、加大技術平臺支持等措施來提高科學軟件可持續性。結果還顯示,目前科學軟件實體自動抽取算法仍有待優化,科學軟件的科學影響力評價問題尚未得到充分研究,科學軟件可持續性的研究內容還不夠豐富,其基礎理論比較薄弱,并欠缺科學軟件可持續性實踐。針對國內外科學軟件可持續性研究存在的研究現狀,本文提出以下展望和建議,以豐富科學軟件可持續性研究內容、推動科學軟件可持續性實踐進展。
目前關于科學軟件可持續性的基礎理論研究很少,因此需要更多研究來發展新理論以解釋科學軟件可持續性相關問題,或檢驗現有理論對科學軟件可持續性的解釋性和適用性。此外,雖然有多位學者提及可能影響科學軟件可持續性的多個因素,但這些因素是否影響以及如何影響科學軟件可持續性尚未經過嚴格驗證,這些因素之間的關系也尚未厘清。同時,盡管現有研究中提出了多個評價軟件科學影響力的指標,但這些指標能在多大程度上反映軟件的科學影響力尚不清楚,這些指標之間的關系也尚未得到充分研究。因此,未來應加大科學軟件可持續性影響因素、影響力評價體系的構建及應用研究力度。針對我國對科學軟件可持續性的研究主題較為單一的問題,未來有必要進一步拓寬研究視角、豐富研究內容。
現有科學軟件可持續性研究主要采用問卷調查法、訪談法、內容分析法和文獻計量方法。問卷調查法和訪談法依賴于科研人員的感知和自我報告,而自我報告情況與實際行為可能有所出入。內容分析法和文獻計量方法依賴于科研人員在文獻中對其使用的科學軟件的明確表達,而目前很多科研人員缺乏科學軟件提及意識。因此,有必要進一步拓寬研究方法、綜合使用多種研究方法以彌補單一使用上述方法造成的不足,深化科學軟件可持續性研究。
針對我國尚未將科學軟件納入科研評價體系且我國科研人員較多依賴國外科學軟件、較少參與科學軟件開發的現狀,我國有必要將科學軟件納入科研評價體系、增加開發維護科學軟件的激勵措施并加大對科學軟件研發和教育投入力度、成立專門的組織機構開展推進科學軟件可持續性的實踐活動,以提高我國科學軟件可持續性、避免被國外軟件卡住脖子。
鑒于我國相當高比例的科研人員缺乏軟件提及和引用意識、不清楚軟件引用格式,我國學術組織及出版機構應給出明確的軟件使用和引用規范、高等教育機構應加大對科學軟件使用和引用規范的宣傳教育,以培養科研人員的軟件引用意識、推進科學軟件使用和引用規范化、促進科學軟件共享及復用。