
摘" "要:構(gòu)建面向人文社會(huì)科學(xué)領(lǐng)域的數(shù)據(jù)基礎(chǔ)設(shè)施,支持?jǐn)?shù)據(jù)的保存、獲取、使用、發(fā)布以實(shí)現(xiàn)數(shù)據(jù)的可復(fù)用、可關(guān)聯(lián)與可聚合,能有效助推人文社科研究的全面數(shù)字化轉(zhuǎn)型。文章以日本人文社會(huì)科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)項(xiàng)目為研究對象,從項(xiàng)目內(nèi)容、建設(shè)模式、項(xiàng)目優(yōu)勢等角度展開分析,發(fā)現(xiàn)該項(xiàng)目以研究者對研究數(shù)據(jù)的共享、使用流程為基礎(chǔ),力求在數(shù)據(jù)生產(chǎn)、數(shù)據(jù)處理、數(shù)據(jù)保存、數(shù)據(jù)再利用等全生命周期提供相應(yīng)的產(chǎn)品和服務(wù);且該項(xiàng)目具有協(xié)作主體有序分工、數(shù)據(jù)標(biāo)準(zhǔn)重開放兼容、數(shù)據(jù)使用重規(guī)范、文化形成重培育等特點(diǎn),能給我國的數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)提供實(shí)施統(tǒng)籌管理、發(fā)揮機(jī)構(gòu)聚合優(yōu)勢與完善數(shù)據(jù)標(biāo)準(zhǔn)等啟示。
關(guān)鍵詞:日本學(xué)術(shù)振興會(huì);人文社會(huì)科學(xué);數(shù)據(jù)基礎(chǔ)設(shè)施;構(gòu)建模式
中圖分類號:G356" "文獻(xiàn)標(biāo)識(shí)碼:A" "DOI:10.11968/tsyqb.1003-6938.2024006
Enlightenment and Construction Mode of Japan Data Infrastructure for the Humanities and Social Sciences Program
Abstract" Building a data infrastructure for the humanities and social sciences,supporting the data storage,access,use and release to achieve data reusability,association and aggregation,which can effectively promote the overall digital transformation of humanities and social sciences research. Taking the Japan Data Infrastructure for the Humanities and Social Sciences program as the research object,it analyzes from the perspectives of program content,construction mode and program strengths. The construction of the Japan Data Infrastructure for the Humanities and Social Sciences is based on the process of sharing and using research data by researchers,and provides corresponding products and services throughout the life cycle of data production,data processing,data storage,and data reuse. The program is characterized by an orderly division of labor among multi-subjects' collaboration,data standards that emphasize openness and compatibility,data use that emphasizes regulation,and culture formation that emphasizes cultivation,which can provide China's digital humanities research data infrastructure construction with enlightenment such as realizing coordinated management,giving full play to the advantages of organizational aggregation,and perfecting data standards.
Key words" Japan Society for the Promotion of Science; humanities and social sciences; data infrastructure; construction model
美國學(xué)者維爾蒙(Chad Wellmon)說,人文學(xué)科的繁榮發(fā)展歷經(jīng)多種形式,其發(fā)展離不開新方法、新實(shí)踐和新技術(shù)的應(yīng)用[1]。20世紀(jì)40年代中后期,被稱為數(shù)字人文實(shí)踐先驅(qū)的布薩(Roberto Busa)開始構(gòu)建神學(xué)者阿奎那(Thomas Aquinas)著作的電子資源庫,其后十余年,人文資料的數(shù)字化與網(wǎng)絡(luò)化進(jìn)展迅猛,人文學(xué)者或基于新材料的偶然發(fā)掘、或基于個(gè)人洞察的書齋式研究隨之發(fā)生巨變。在全面獲得、占有某一領(lǐng)域海量數(shù)據(jù)的基礎(chǔ)上,選用適當(dāng)?shù)姆治鐾诰蚬ぞ撸c跨學(xué)科團(tuán)隊(duì)進(jìn)行協(xié)作式研究成為人文學(xué)科研究的新模式。有學(xué)者斷言,數(shù)字人文能為傳統(tǒng)的人文研究提供新研究方法和工具,更能改變科研人員思考問題的角度,推動(dòng)人文研究向“第四范式”轉(zhuǎn)變[2]。
“研究范式”(Paradigm)的概念由美國學(xué)者庫恩(Thomas Kuhn)提出,美國計(jì)算機(jī)科學(xué)家格瑞(Jim Gray)做出如下總結(jié):人類科學(xué)至今經(jīng)歷了四種范式,最早是以記錄與描述自然現(xiàn)象為主的“實(shí)驗(yàn)科學(xué)”范式;其次是以模型歸納總結(jié)的“理論科學(xué)”范式;再次是伴隨著計(jì)算機(jī)技術(shù)出現(xiàn)的“計(jì)算科學(xué)”范式;如今則是借助計(jì)算機(jī)分析海量數(shù)據(jù),并發(fā)現(xiàn)規(guī)律的“數(shù)據(jù)密集型科學(xué)”(Data-Intensive Scientific Discovery)范式,即第四研究范式[3]。研究范式的轉(zhuǎn)變本質(zhì)是一場顛覆性革命,能否形成一種新的基礎(chǔ)設(shè)施是轉(zhuǎn)變的關(guān)鍵問題之一,因?yàn)樾碌幕A(chǔ)設(shè)施能固化新范式,并為之后的研究提供強(qiáng)有力的支撐。數(shù)字人文的研究依賴研究數(shù)據(jù)與方法,但人文數(shù)據(jù)源于人類表達(dá)、互動(dòng)、想象等行為所產(chǎn)生的原始素材,有多源異構(gòu)等特點(diǎn),通用的研究數(shù)據(jù)基礎(chǔ)設(shè)施(Research Data Infrastructures,RDI)難以直接匹配。因此,建立面向人文領(lǐng)域的數(shù)據(jù)基礎(chǔ)設(shè)施,保證人文數(shù)據(jù)的長期保存、共享與重復(fù)使用極為重要。對于何為數(shù)字人文基礎(chǔ)設(shè)施,中外學(xué)界尚未形成共識(shí)。有研究者將其定義為數(shù)字環(huán)境下開展人文研究的必備條件,包括全球范圍內(nèi)與研究主題相關(guān)的所有文獻(xiàn)、數(shù)據(jù)、軟件工具、學(xué)術(shù)交流和出版的公共設(shè)施及相關(guān)服務(wù)[4]。有研究者認(rèn)為數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施為數(shù)字人文數(shù)據(jù)、知識(shí)的生產(chǎn)與組織提供支撐,是位于“后臺(tái)”(信息基礎(chǔ)設(shè)施)和“前臺(tái)”(特定領(lǐng)域研究)之間的“數(shù)據(jù)中臺(tái)”[5]。以上研究具體表述雖有異,但核心并無沖突,可以說數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施是數(shù)字人文研究過程中所使用的系列工具、平臺(tái)、系統(tǒng)等的總稱,能支持?jǐn)?shù)據(jù)的保存、獲取、使用、發(fā)布以實(shí)現(xiàn)數(shù)據(jù)的可復(fù)用、可關(guān)聯(lián)與可聚合,有效助推數(shù)字人文研究者的創(chuàng)新研究。
2006年,世界首個(gè)以“數(shù)字人文”冠名的項(xiàng)目“數(shù)字人文先導(dǎo)計(jì)劃”(Digital Humanity Initiative)在美國啟動(dòng)。同年歐美先后發(fā)布《歐洲研究基礎(chǔ)設(shè)施建設(shè)路線圖》(the European Roadmap for Research Infrastructures)與《我們的文化共同體》(Our Cultural Common-wealth)報(bào)告,數(shù)字人文研究的基礎(chǔ)設(shè)施建設(shè)就此拉開帷幕。此后十余年間,伴隨著經(jīng)濟(jì)合作與開發(fā)組織(Organization for Economic Co-operation and Development,OECD)對“基于公共資金取得的研究數(shù)據(jù)應(yīng)廣泛共享”的持續(xù)呼吁,以及FAIR原則在數(shù)據(jù)研究世界中的不斷下滲,歐美等國啟動(dòng)了一系列大規(guī)模人文社科數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)項(xiàng)目。與建設(shè)實(shí)踐相呼應(yīng),研究者們也對人文社科基礎(chǔ)設(shè)施進(jìn)行了多角度研究。國外學(xué)者多注重解剖具體項(xiàng)目的架構(gòu)、技術(shù)設(shè)計(jì)與服務(wù)等,如對藝術(shù)與人文數(shù)字研究基礎(chǔ)設(shè)施(DARIAH)的可持續(xù)技術(shù)方案[6]、架構(gòu)[7]的探討;對面向人文數(shù)據(jù)集合的人文網(wǎng)絡(luò)基礎(chǔ)設(shè)施(HuNI)設(shè)計(jì)思路的分析[8];對CLARIN基于FAIR原則的技術(shù)設(shè)計(jì)、實(shí)現(xiàn)[9]研究等。國內(nèi)學(xué)者的研究多基于我國數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)實(shí)際,如金家琴和夏翠娟設(shè)計(jì)整套通用的、支持復(fù)用并考慮未來擴(kuò)展途徑的機(jī)構(gòu)知識(shí)本體模型和詞表[10];陳濤等以ECNU-DHRS為例分析數(shù)字人文研究的語義支撐平臺(tái)框架的建構(gòu)[11];顏佳等借助科學(xué)計(jì)量與可視化分析工具,探討未來圖像數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的發(fā)展方向[12]。也有學(xué)者選擇國外典型的數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施進(jìn)行研究,如周雷以德國國家文化遺產(chǎn)科研數(shù)據(jù)基礎(chǔ)設(shè)施項(xiàng)目NFDI4Culture為對象的個(gè)案分析[13]。不過,以上研究或聚焦本土,或關(guān)注歐美,針對其他地區(qū)數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的研究較為少見。以同處亞洲的日本為例,21世紀(jì)頭十年日本的人文社會(huì)科學(xué)數(shù)字化轉(zhuǎn)型進(jìn)展緩慢,日本學(xué)術(shù)振興會(huì)(Japan Society for the Promotion of Science,JSPS)于2018年啟動(dòng)大型項(xiàng)目“人文社會(huì)科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施構(gòu)筑推進(jìn)事業(yè)”(Program for Constructing Data Infrastructure for the Humanities and Social Sciences,以下簡稱人文社科數(shù)據(jù)基建項(xiàng)目),目標(biāo)為實(shí)現(xiàn)日本人文社科數(shù)據(jù)的跨國界、跨學(xué)科、跨領(lǐng)域共享共用。該項(xiàng)目為期5年,如今已近尾聲,所研發(fā)的數(shù)據(jù)目錄、在線數(shù)據(jù)分析系統(tǒng)等成果均已投入使用,但尚未出現(xiàn)對此項(xiàng)目的專門研究。本文擬從背景、內(nèi)容、建設(shè)模式等角度對該項(xiàng)目展開全面剖析,以期對我國的數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)有所啟示。
1" "日本人文社科數(shù)據(jù)基建項(xiàng)目概況
1.1" " 項(xiàng)目背景
2015年8月,日本科學(xué)技術(shù)·學(xué)術(shù)政策研究所(National Institute of Science and Technology Policy,NISTEP)通過與英、德等國對比,發(fā)現(xiàn)日本在基礎(chǔ)科學(xué)領(lǐng)域的論文增速趨零,且頂級論文占比下降,日本在國際學(xué)術(shù)界的影響力降低[14]。2017年4月,文部科學(xué)省總結(jié)本國學(xué)術(shù)研究存在“三大危機(jī)”并提出解決方案,其中包括強(qiáng)化能適配大數(shù)據(jù)流通的信息網(wǎng)絡(luò),充實(shí)能響應(yīng)多元化需求的計(jì)算基礎(chǔ)設(shè)施等[15]。具體到社會(huì)科學(xué)領(lǐng)域,則要以舉國體制(All Japan)構(gòu)筑數(shù)據(jù)平臺(tái)并強(qiáng)化功能,保證實(shí)現(xiàn)對社會(huì)科學(xué)各領(lǐng)域數(shù)據(jù)的綜合收集、保管、提供與利用。日本學(xué)術(shù)振興會(huì)隨后展開大規(guī)模“人文社科領(lǐng)域研究數(shù)據(jù)現(xiàn)狀調(diào)查”,調(diào)查顯示日本人文社科研究人員的數(shù)據(jù)共享意識(shí)較低,共享動(dòng)機(jī)缺乏[16],但對利用他人公開的數(shù)據(jù)較有熱情。不過,當(dāng)時(shí)日本沒有專門負(fù)責(zé)人文社科研究數(shù)據(jù)收集、保存和提供的組織或機(jī)構(gòu),數(shù)據(jù)多由研究者個(gè)體或所屬機(jī)構(gòu)自行保管,數(shù)據(jù)的完整性、準(zhǔn)確性難以保證,也沒有通用的數(shù)據(jù)共享政策或指南可供參考。鑒于此,日本學(xué)術(shù)振興會(huì)提出日本的人文社會(huì)科學(xué)研究已在開放科學(xué)大潮中落后,可能出現(xiàn)“日本失蹤”(日式造詞,Japan Missing)的危機(jī)。此外日本人文社科數(shù)據(jù)的多語言化進(jìn)程緩慢,從事亞洲相關(guān)研究的歐美研究者更傾向于與中國、韓國或新加坡等國的研究者合作,以致“日本漠視”(日式造詞,Japan Passing)的趨勢日益明顯[17]。日本學(xué)術(shù)振興會(huì)于2018年啟動(dòng)以實(shí)現(xiàn)人文社科數(shù)據(jù)跨國界、跨學(xué)科、跨領(lǐng)域共享共用為目標(biāo)的人文社科數(shù)據(jù)基建項(xiàng)目,一方面促進(jìn)人文社科數(shù)據(jù)的深度共享,推動(dòng)本國人文社科研究的全面數(shù)字化轉(zhuǎn)型(Digital Transformation);另一方面增加日本人文社科研究成果的“可見度”,提升日本人文社科研究的國際影響力。
1.2" " 項(xiàng)目內(nèi)容
在人文社科數(shù)據(jù)基建項(xiàng)目啟動(dòng)前,日本雖沒有能覆蓋人文社科各學(xué)科的國家級數(shù)據(jù)中心,但一些在特定學(xué)科研究水平較高、擁有豐富的數(shù)據(jù)資料的機(jī)構(gòu)曾被文部科學(xué)省認(rèn)證為“共同利用·共同研究基地”。如自2000年起主持日本版綜合社會(huì)調(diào)查(Japanese General Social Surveys,JGSS)的大阪商業(yè)大學(xué)JGSS研究中心、長年進(jìn)行日本家庭面板調(diào)查(Japan Household Panel Survey,JHPS)的慶應(yīng)義塾大學(xué)附屬經(jīng)濟(jì)研究所等。不過,這類機(jī)構(gòu)有數(shù)據(jù)保存管理經(jīng)驗(yàn),但對FAIR原則、OAI-PMH協(xié)議(Open Archives Initiative Protocol for Metadata Harvesting)等國際通用的數(shù)據(jù)共享標(biāo)準(zhǔn)規(guī)范認(rèn)知度不高,員工也普遍存在圖書情報(bào)學(xué)與信息科學(xué)知識(shí)不足的問題。所以日本學(xué)術(shù)振興會(huì)專門設(shè)立“人文社會(huì)科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施構(gòu)筑推進(jìn)中心”,并聯(lián)合國立情報(bào)學(xué)研究所(National Institute of Informatics,NII)共同作為日本人文社科數(shù)據(jù)基建項(xiàng)目的核心機(jī)構(gòu)。其后通過公開招募選定在數(shù)據(jù)生產(chǎn)、管理、共享上較有經(jīng)驗(yàn)的大阪商業(yè)大學(xué)(JGSS研究中心)、慶應(yīng)義塾大學(xué)(經(jīng)濟(jì)研究所)、東京大學(xué)(社會(huì)科學(xué)研究所)、一橋大學(xué)(經(jīng)濟(jì)研究所)與東京大學(xué)(史料編纂所)作為項(xiàng)目的基地機(jī)構(gòu),在核心機(jī)構(gòu)的領(lǐng)導(dǎo)下形成網(wǎng)絡(luò)型協(xié)作。核心機(jī)構(gòu)的任務(wù)為“構(gòu)筑數(shù)據(jù)使用系統(tǒng)”,具體業(yè)務(wù)為制定人文社科領(lǐng)域研究數(shù)據(jù)的共享基準(zhǔn),打造讓數(shù)據(jù)所有者和機(jī)構(gòu)能安心提供數(shù)據(jù)的環(huán)境,以及開發(fā)面向國際的、能集中搜索人文社會(huì)科學(xué)數(shù)據(jù)出處、所有者、數(shù)據(jù)類型等元數(shù)據(jù)的跨學(xué)科綜合數(shù)據(jù)目錄(Japan Data Catalog for the Humanities and Social Sciences,JDCat)與在線數(shù)據(jù)分析系統(tǒng)。基地機(jī)構(gòu)的任務(wù)為“構(gòu)筑數(shù)據(jù)共享基礎(chǔ)”,負(fù)責(zé)系統(tǒng)整理、規(guī)范本機(jī)構(gòu)的數(shù)據(jù)知識(shí)庫(Data Repository),并陸續(xù)接受外來研究者與機(jī)構(gòu)提供的數(shù)據(jù)。具體業(yè)務(wù)為強(qiáng)化數(shù)據(jù)檔案功能(數(shù)據(jù)“公開化”)、提升國際話語權(quán)與協(xié)作能力(數(shù)據(jù)“國際化”)以及構(gòu)建能連接大規(guī)模社會(huì)調(diào)查和官方統(tǒng)計(jì)數(shù)據(jù)的數(shù)據(jù)庫(數(shù)據(jù)“聯(lián)結(jié)化”)等[18]。核心機(jī)構(gòu)和基地機(jī)構(gòu)的業(yè)務(wù)各不相同,但都圍繞著構(gòu)筑跨學(xué)科、跨國界、跨領(lǐng)域的數(shù)據(jù)基礎(chǔ)設(shè)施進(jìn)行。除了技術(shù)層面,營造人文社科研究者共享數(shù)據(jù)的文化氛圍、促進(jìn)各學(xué)科展開國內(nèi)外共同研究等也屬于業(yè)務(wù)范圍。
2" "日本人文社科數(shù)據(jù)基建項(xiàng)目的建設(shè)模式
2.1" " 建設(shè)模式
日本人文社科數(shù)據(jù)基建項(xiàng)目以人文社科領(lǐng)域的研究者對研究數(shù)據(jù)的共享、使用流程為基礎(chǔ),參照數(shù)據(jù)的生命周期,力圖在數(shù)據(jù)生產(chǎn)、數(shù)據(jù)處理、數(shù)據(jù)保存、數(shù)據(jù)再利用等全生命周期提供相應(yīng)的產(chǎn)品和服務(wù)。研究者、核心機(jī)構(gòu)(信息技術(shù)機(jī)構(gòu))、基地機(jī)構(gòu)等主體各司其責(zé),能動(dòng)參與,具體環(huán)節(jié)如下:(1)人文社科領(lǐng)域的研究者在研究項(xiàng)目完成時(shí),對自有研究數(shù)據(jù)進(jìn)行選擇與整理,選定共享或有條件共享數(shù)據(jù)并提供給基地機(jī)構(gòu);(2)基地機(jī)構(gòu)的數(shù)據(jù)知識(shí)庫接收原始數(shù)據(jù)、進(jìn)行數(shù)據(jù)清洗,賦予元數(shù)據(jù),并以FAIR數(shù)據(jù)的形式保存與公開;(3)數(shù)據(jù)目錄JDCat收割基地?cái)?shù)據(jù)知識(shí)庫的元數(shù)據(jù),提供檢索服務(wù)。同時(shí),JDCat也與CiNii Research等學(xué)術(shù)檢索平臺(tái)實(shí)現(xiàn)了整合,CiNii Research等在提供論文、圖書、研究數(shù)據(jù)及研究人員、研究項(xiàng)目等信息檢索外,也可檢索JDCat所有內(nèi)容項(xiàng)目;(4)根據(jù)JDCat或CiNii Research的檢索結(jié)果,研究人員在相應(yīng)的基地機(jī)構(gòu)數(shù)據(jù)知識(shí)庫下載數(shù)據(jù)。此外,人文社科數(shù)據(jù)基建項(xiàng)目也會(huì)不斷擴(kuò)充基地機(jī)構(gòu)數(shù)量,力圖與更多機(jī)構(gòu)實(shí)現(xiàn)網(wǎng)絡(luò)型協(xié)作。可見日本人文社科數(shù)據(jù)基建項(xiàng)目的建設(shè)模式并不是簡單地匯集或提供數(shù)據(jù),而是要在數(shù)據(jù)提供方、數(shù)據(jù)使用方、數(shù)據(jù)管理者與信息技術(shù)機(jī)構(gòu)之間形成有機(jī)聯(lián)系,共同打造一種可持續(xù)的、具有彈性的人文社科科研生態(tài)系統(tǒng)。研究人員有需求時(shí),可通過JDCat、CiNii Research及知識(shí)庫獲取并利用數(shù)據(jù)展開研究,成為數(shù)據(jù)使用者。研究完成后,又能通過提供數(shù)據(jù)成為提供者。國立情報(bào)學(xué)研究所等信息技術(shù)機(jī)構(gòu)全過程供給技術(shù)、工具、軟件及服務(wù),為數(shù)據(jù)提供者、使用者帶來高效、便捷體驗(yàn)的同時(shí),也得以在人文社科科研生態(tài)系統(tǒng)中進(jìn)行多樣化的應(yīng)用場景試驗(yàn)。各基地機(jī)構(gòu)的數(shù)據(jù)知識(shí)庫也通過不間斷的數(shù)據(jù)存取實(shí)現(xiàn)“吐故納新”,在不斷擴(kuò)張數(shù)據(jù)資源的同時(shí)對現(xiàn)有數(shù)據(jù)進(jìn)行再整合(日本人文社科數(shù)據(jù)基建項(xiàng)目所打造的人文社科科研生態(tài)系統(tǒng)見圖1)。
2.2" " 模式特點(diǎn)
日本政府于2021年3月發(fā)布《第6期科學(xué)技術(shù)·創(chuàng)新基本計(jì)劃》,明確提出要通過研究的數(shù)字化轉(zhuǎn)型順應(yīng)數(shù)字化與開放科學(xué)的國際趨勢,并指出要進(jìn)一步強(qiáng)化人文社科研究數(shù)據(jù)平臺(tái)的功能[19]。值得注意的是,該計(jì)劃頒布3年前人文社科數(shù)據(jù)基建項(xiàng)目便已被日本學(xué)術(shù)振興會(huì)圈定為重點(diǎn)項(xiàng)目,可見其前瞻性。與其他數(shù)據(jù)基礎(chǔ)設(shè)施相比,日本人文社科數(shù)據(jù)基建項(xiàng)目的建設(shè)有分工明確、兼顧開放與標(biāo)準(zhǔn)、重視規(guī)范等特點(diǎn),具體如下:(1)主體協(xié)作有序分工。日本國內(nèi)各研究機(jī)構(gòu)、學(xué)/協(xié)會(huì)等圍繞不同的主題構(gòu)建了一些數(shù)據(jù)知識(shí)庫與平臺(tái),但它們整體上存在分散孤立、數(shù)據(jù)互操作困難等問題。數(shù)據(jù)使用者為獲取特定數(shù)據(jù)往往要登陸數(shù)個(gè)知識(shí)庫。日本人文社科數(shù)據(jù)基建項(xiàng)目的建設(shè)主體分為基地機(jī)構(gòu)與核心機(jī)構(gòu)兩類,基地機(jī)構(gòu)整合現(xiàn)有數(shù)據(jù),提升本機(jī)構(gòu)數(shù)據(jù)平臺(tái)、知識(shí)庫的功能,為核心機(jī)構(gòu)創(chuàng)建跨學(xué)科、跨平臺(tái)搜索的數(shù)據(jù)目錄JDCat筑牢基礎(chǔ);核心機(jī)構(gòu)中技術(shù)實(shí)力雄厚的國立情報(bào)學(xué)研究所研發(fā)能自動(dòng)收割基地機(jī)構(gòu)元數(shù)據(jù)的JDCat與在線數(shù)據(jù)分析工具,并通過與CiNii Research等成熟檢索平臺(tái)協(xié)作,為人文社科研究者構(gòu)筑便捷、安心地提供與使用研究數(shù)據(jù)的環(huán)境。基地機(jī)構(gòu)與核心機(jī)構(gòu)各司其責(zé),形成網(wǎng)狀合作關(guān)系,能充分利用現(xiàn)有數(shù)據(jù)基礎(chǔ)設(shè)施,避免重復(fù)建設(shè),實(shí)現(xiàn)既有資源的優(yōu)化整合。(2)數(shù)據(jù)標(biāo)準(zhǔn)重開放兼容。基地機(jī)構(gòu)數(shù)據(jù)知識(shí)庫的數(shù)據(jù)按FAIR原則處理,符合國際數(shù)據(jù)通行標(biāo)準(zhǔn)。同時(shí),JDCat的元數(shù)據(jù)模式基于“兼容第一”的理念開發(fā),關(guān)注完整性、可拓展性與靈活性。日本國內(nèi)使用日本開放獲取知識(shí)庫聯(lián)盟(Japan Consortium for Open Access Repositories,JPCOAR)的元數(shù)據(jù)標(biāo)準(zhǔn),研發(fā)人員引入國際通用的社會(huì)科學(xué)信息組織的元數(shù)據(jù)標(biāo)準(zhǔn)DDI(Data Documentation Initiative),通過映射既能覆蓋人文學(xué)科與社會(huì)科學(xué)學(xué)科數(shù)據(jù),又能實(shí)現(xiàn)國內(nèi)國際的互通運(yùn)用,盡可能滿足人文社科各學(xué)科科研人員數(shù)據(jù)共享、交換和整合的需求。值得注意的是,JDCat元數(shù)據(jù)采用CC0(Creative Commons Zero)發(fā)布,海內(nèi)外科研人員或機(jī)構(gòu)無需經(jīng)過日本學(xué)術(shù)振興會(huì)或基地機(jī)構(gòu)的許可,即可自由獲取與使用。(3)數(shù)據(jù)使用重規(guī)范。為了讓人文社會(huì)科學(xué)領(lǐng)域的科研人員在共享數(shù)據(jù)時(shí)有章可循,在保護(hù)數(shù)據(jù)所有者權(quán)益的同時(shí)避免敏感信息和隱私數(shù)據(jù)泄露造成傷害,人文社科數(shù)據(jù)基建項(xiàng)目的核心機(jī)構(gòu)系統(tǒng)研究了英國數(shù)據(jù)檔案(UK Data Archive,UKDA)、芬蘭社會(huì)科學(xué)數(shù)據(jù)檔案(Finnish Social Science Data Archive,F(xiàn)SD)等機(jī)構(gòu)的數(shù)據(jù)共享指南,其后面向包括博士、碩士研究生在內(nèi)的人文社科領(lǐng)域研究者編寫了日本首部人文社科數(shù)據(jù)共享指南,以規(guī)范其科研數(shù)據(jù)的管理和共享行為,切實(shí)促進(jìn)數(shù)據(jù)共享[20]。(4)文化形成重培育。日本學(xué)術(shù)振興會(huì)調(diào)查顯示,不少人文社科研究者對共享數(shù)據(jù)態(tài)度消極,因此人文社科數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)不僅要重視硬件,更要營造數(shù)據(jù)共享共用的氛圍。因此項(xiàng)目將“培育數(shù)據(jù)共享文化”作為業(yè)務(wù)之一,定期邀請人文社科各領(lǐng)域的專家學(xué)者與圖書情報(bào)學(xué)、信息科學(xué)專業(yè)人員召開交流會(huì),促進(jìn)研究數(shù)據(jù)共享學(xué)術(shù)社群的形成。核心機(jī)構(gòu)也專門設(shè)置“人文社會(huì)科學(xué)數(shù)據(jù)共享問題探討”小委員會(huì)作為學(xué)術(shù)社群的中核組織,所有對人文社科數(shù)據(jù)、數(shù)據(jù)檔案有興趣的科研人員、大學(xué)科研管理人員和圖書館館員均可加入。小委員會(huì)首先著手分享數(shù)據(jù)檔案案例,近期開始編寫數(shù)據(jù)共享問題集與教材。
3" "日本人文社科數(shù)據(jù)基建項(xiàng)目的優(yōu)勢分析
日本人文社科數(shù)據(jù)基建項(xiàng)目的目標(biāo)是實(shí)現(xiàn)人文社科數(shù)據(jù)的跨國界、跨學(xué)科、跨領(lǐng)域共享共用,因此項(xiàng)目既注重架構(gòu)的可擴(kuò)展性,以保障數(shù)據(jù)資源的持續(xù)連通與共享,又關(guān)注應(yīng)用功能的充實(shí),以滿足人文社科科研人員當(dāng)下的需求。具體而言,日本人文社科數(shù)據(jù)基建項(xiàng)目的突出優(yōu)勢可分為緊抓數(shù)據(jù)流通、提供豐富工具、關(guān)注協(xié)同擴(kuò)展和重視規(guī)范培養(yǎng)等。
3.1" " 促進(jìn)數(shù)據(jù)流通為主軸
日本人文社科數(shù)據(jù)基建項(xiàng)目的首要任務(wù)是標(biāo)準(zhǔn)化、系統(tǒng)化管理人文社科相關(guān)領(lǐng)域的科研數(shù)據(jù)。現(xiàn)有五個(gè)基地機(jī)構(gòu)都有成熟運(yùn)營的數(shù)據(jù)知識(shí)庫,但隨著現(xiàn)有基地機(jī)構(gòu)開放力度的加大,以及基地機(jī)構(gòu)數(shù)量的增加,數(shù)據(jù)資源將不斷擴(kuò)充。為保證現(xiàn)有和將來知識(shí)庫內(nèi)數(shù)據(jù)的可獲取、可發(fā)現(xiàn)、可復(fù)用,實(shí)現(xiàn)真正的互聯(lián)互通與數(shù)據(jù)共享,所有數(shù)據(jù)的采集、處理與交換都要標(biāo)準(zhǔn)化,一是保證數(shù)據(jù)具有可靠性、完整性與可用性,切實(shí)反映科研活動(dòng)所需信息的特征;二是保障數(shù)據(jù)能被檢索到,在準(zhǔn)確率、查準(zhǔn)率、查全率等各指標(biāo)上表現(xiàn)良好。日本人文社科數(shù)據(jù)基建項(xiàng)目的核心內(nèi)容因此分為兩個(gè)層次:(1)各基地機(jī)構(gòu)提升數(shù)據(jù)知識(shí)庫功能,如收集整理本機(jī)構(gòu)與外來數(shù)據(jù)、賦予元數(shù)據(jù)、實(shí)現(xiàn)日英雙語化等,為科研數(shù)據(jù)的廣泛共享打下基礎(chǔ)。在項(xiàng)目實(shí)施前的基地機(jī)構(gòu)選拔階段,有豐富的科研數(shù)據(jù)保存管理經(jīng)驗(yàn),且數(shù)據(jù)質(zhì)量和預(yù)期需求較高的機(jī)構(gòu)才能入選,五個(gè)基地機(jī)構(gòu)都是優(yōu)中選優(yōu)的結(jié)果。項(xiàng)目實(shí)施過程中五個(gè)基地機(jī)構(gòu)也表現(xiàn)優(yōu)異,如慶應(yīng)義塾大學(xué)附屬經(jīng)濟(jì)研究所在構(gòu)建日本家庭面板調(diào)查數(shù)據(jù)庫時(shí),專門編制使用手冊、提供變量創(chuàng)建程序、創(chuàng)建合成變量及插補(bǔ)數(shù)據(jù)以提升數(shù)據(jù)使用的便利性。(2)核心機(jī)構(gòu)負(fù)責(zé)科研數(shù)據(jù)共享的系統(tǒng)研發(fā),包括開發(fā)跨庫檢索JDCat、開發(fā)在線數(shù)據(jù)分析工具以及編寫共享指南等。核心機(jī)構(gòu)的JDCat開發(fā)體現(xiàn)出跨國界、跨學(xué)科與兼顧研究教學(xué)等三個(gè)面向。對于人文和社會(huì)科學(xué)數(shù)據(jù)的發(fā)現(xiàn)、獲取、傳播、保存而言,是否有良好的元數(shù)據(jù)至關(guān)重要。在跨國界面向上,支持日英雙語搜索的JDCat參考了國際通用的元數(shù)據(jù)模式,并結(jié)合人文社科數(shù)據(jù)特征選用了互操作性強(qiáng)的DDI-C,且推薦為數(shù)據(jù)賦予DOI以促進(jìn)數(shù)據(jù)識(shí)別,順應(yīng)了將數(shù)據(jù)列入?yún)⒖嘉墨I(xiàn)的國際學(xué)術(shù)寫作慣例[21];在跨學(xué)科面向上,JDCat通過引入通用標(biāo)準(zhǔn)、借助規(guī)范文件與專業(yè)詞匯表進(jìn)行關(guān)聯(lián),輔以語義技術(shù)提升查詢能力,以覆蓋社會(huì)調(diào)查數(shù)據(jù)、官方統(tǒng)計(jì)數(shù)據(jù)、面板調(diào)查數(shù)據(jù)及史料等來自人文社科各學(xué)科的數(shù)據(jù)。為避免漏檢與重復(fù)檢索,提升檢索效率,也在兼顧準(zhǔn)確與通用的基礎(chǔ)上制定了包括“主題”“目標(biāo)區(qū)域”“數(shù)據(jù)類型”“數(shù)據(jù)語言”等9項(xiàng)、12種類的受控詞表(Controlled Vocabularies,CVs)。“主題”項(xiàng)目參考了CESSDA TC(CESSDA Topic Classification),CESSDA TC難以覆蓋的人文學(xué)科主題援引日本十進(jìn)分類法(第10版)的第2次區(qū)分表和第3次區(qū)分表,政府統(tǒng)計(jì)匯總表沿用了《日本統(tǒng)計(jì)年鑒》的目錄信息。在“調(diào)查方法”和“抽樣方法”項(xiàng)目則參考了DDI受控詞表。在“數(shù)據(jù)類型”等項(xiàng)目,因分類需要?jiǎng)?chuàng)建了全新的受控詞表;在兼顧科研教學(xué)面向上,JDCat則通過整合注重可用性、定期更新的在線數(shù)據(jù)分析工具實(shí)現(xiàn)。
3.2" " 工具軟件提升體驗(yàn)
在數(shù)字人文研究領(lǐng)域,不少研究者分出寶貴的科研時(shí)間學(xué)習(xí)數(shù)據(jù)處理技術(shù),但使用時(shí)仍無法保證規(guī)范性[22]。若能基于人文社科研究者的需求研發(fā)出可用性強(qiáng)的專業(yè)工具軟件,并圍繞需求定期優(yōu)化,實(shí)現(xiàn)質(zhì)量與可持續(xù)的平衡,必將極大促進(jìn)人文社科各學(xué)科的研究活動(dòng)。包含了系列分析工具軟件的在線數(shù)據(jù)分析系統(tǒng)開發(fā)是日本人文社科數(shù)據(jù)基建項(xiàng)目的重要內(nèi)容之一,研發(fā)人員廣泛參考了GESIS Notebooks、MyBinder.org等知名平臺(tái)[23],也在對人文社科研究進(jìn)行全過程場景分析的基礎(chǔ)上突出了可用性(Usability),具體表現(xiàn)如下:(1)研發(fā)的工具軟件無需在本地環(huán)境下載安裝統(tǒng)計(jì)軟件,也無需下載數(shù)據(jù)即可創(chuàng)建和運(yùn)行R或Python程序進(jìn)行數(shù)據(jù)分析處理,Jupyter Notebook,JupyterLab,Rstudio等環(huán)境均可使用;(2)大學(xué)等認(rèn)證賬戶、以ac.jp或go.jp域名電郵地址注冊的OpenIdP賬戶均可直接登錄,每個(gè)賬號可有4個(gè)分析環(huán)境;(3)使用者可自由選擇、搭配分析工具;(4)使用者可將本地環(huán)境中的數(shù)據(jù)、程序上傳,CSV、PDF、JPG、AVI等各類格式文件均可;(5)上傳至分析工具的數(shù)據(jù)可保存、下載,使用者還可保存、下載分析程序與方案。在線分析工具不但對科研活動(dòng)友好,也兼顧教學(xué)需求。2020年關(guān)西大學(xué)、立教大學(xué)和東京大學(xué)等先后導(dǎo)入,用于《微觀政治數(shù)據(jù)分析》《情報(bào)處理應(yīng)用》等社會(huì)科學(xué)課程的教學(xué)實(shí)踐,2021年開始在人文學(xué)科教學(xué)中試用。在大學(xué)課堂教學(xué)和研討中,在線分析工具無需自行建構(gòu)數(shù)據(jù)分析環(huán)境即可使用,教師可通過與學(xué)生共享數(shù)據(jù)、程序進(jìn)行實(shí)時(shí)指導(dǎo),還可將包含了數(shù)據(jù)、程序等的分析環(huán)境保存在本地,以保證研究的可重復(fù)性和連續(xù)性,有效提升教學(xué)效果。
此外,在線分析工具既可依托GitHub使用,也和JDCat、科研數(shù)據(jù)管理平臺(tái)GakuNin RDM實(shí)現(xiàn)關(guān)聯(lián),可將公開數(shù)據(jù)一鍵上傳至分析工具直接分析。按照項(xiàng)目實(shí)施計(jì)劃,國立情報(bào)學(xué)研究所的JAIRO Cloud系統(tǒng)也將與在線分析工具關(guān)聯(lián)。該系統(tǒng)長期為日本國內(nèi)700余所大學(xué)及研究機(jī)構(gòu)的機(jī)構(gòu)知識(shí)庫(Institutional Repository,IR)提供云端服務(wù),關(guān)聯(lián)完成后系統(tǒng)內(nèi)的海量數(shù)據(jù)也可利用分析工具直接分析。
3.3" " 基于云端的便利協(xié)同
JAIRO Cloud是日本國立情報(bào)學(xué)研究所于2012年啟用、基于SaaS服務(wù)類型的機(jī)構(gòu)知識(shí)庫云端服務(wù)系統(tǒng),其應(yīng)用軟件為WEKO,2021年升級至WEKO3。JAIRO Cloud的創(chuàng)建宗旨是以國立情報(bào)學(xué)研究所的雄厚技術(shù)實(shí)力為支撐,為日本全國大學(xué)及其他教育研究機(jī)構(gòu)提供從建設(shè)到運(yùn)營機(jī)構(gòu)知識(shí)庫的全過程支持和服務(wù)。使用JAIRO Cloud的機(jī)構(gòu)只需在知識(shí)庫錄入并發(fā)布期刊論文、學(xué)位論文、會(huì)議論文等學(xué)術(shù)資源,知識(shí)庫的軟/硬件管理配置、OS管理與互聯(lián)網(wǎng)管理都由JAIRO Cloud負(fù)責(zé)。2016年日本開放獲取知識(shí)庫聯(lián)盟成立后與國立情報(bào)學(xué)研究所共同運(yùn)營JAIRO Cloud,自2020年10月開始,JAIRO Cloud也提供數(shù)據(jù)接收服務(wù)。
JAIRO Cloud所運(yùn)行的WEKO3有支持機(jī)構(gòu)知識(shí)庫以標(biāo)準(zhǔn)的OAI-PMH協(xié)議和ResourceSync提供元數(shù)據(jù)、為搜索引擎提供站點(diǎn)地圖、利用META標(biāo)簽鏈接至Google Scholar、以及通過社交媒體發(fā)布研究成果等功能。在五個(gè)基地機(jī)構(gòu)中,除東京大學(xué)史料編纂所使用自開發(fā)系統(tǒng)外,其余都是JAIRO Cloud用戶,因此JDCat的系統(tǒng)設(shè)計(jì)直接使用WEKO3以實(shí)現(xiàn)元數(shù)據(jù)的自動(dòng)收割,以O(shè)AI-PMH及Resource Sync保證從基地機(jī)構(gòu)數(shù)據(jù)知識(shí)庫收割元數(shù)據(jù)的完整性。而且東京大學(xué)史料編纂所的系統(tǒng)也只需增補(bǔ)OAI-PMH協(xié)議,無需進(jìn)行大規(guī)模調(diào)整。
JDCat的系統(tǒng)設(shè)計(jì)依托JAIRO Cloud,既避免了重復(fù)建設(shè),也有可持續(xù)性與開放性的考慮:(1)JAIRO Cloud為日本700余所大學(xué)與其他研究機(jī)構(gòu)提供云端服務(wù),JDCat不僅可自動(dòng)收割基地機(jī)構(gòu)元數(shù)據(jù),隨著JDCat的穩(wěn)定運(yùn)行和功能擴(kuò)張,其他機(jī)構(gòu)知識(shí)庫的同類數(shù)據(jù)與元數(shù)據(jù)也可通過瀏覽器單獨(dú)或分批次注冊;(2)JDCat使用可擴(kuò)展的元數(shù)據(jù)模式管理,可擴(kuò)展至DDI之外,如都柏林核心(Dublin Core,DC)等;(3)可將使用信息歸納統(tǒng)計(jì)形成實(shí)時(shí)報(bào)告。JDCat開發(fā)過程中也增補(bǔ)了一些功能,如強(qiáng)化了JAIRO Cloud既有的分面檢索(Faceted Search)和詳細(xì)檢索功能,并為DDI等專門領(lǐng)域元數(shù)據(jù)設(shè)置分面檢索和詳細(xì)檢索。JAIRO Cloud也將以上功能開放給日本全國使用JAIRO Cloud服務(wù)的教育、科研機(jī)構(gòu)。而且,因JDCat已與日本最大的學(xué)術(shù)信息檢索平臺(tái)CiNii Research實(shí)現(xiàn)關(guān)聯(lián),日本人文社科數(shù)據(jù)基建項(xiàng)目通過JDCat、JAIRO Cloud、機(jī)構(gòu)知識(shí)庫和其他機(jī)構(gòu)數(shù)據(jù)知識(shí)庫的協(xié)同可以全面覆蓋人文社科科研數(shù)據(jù)的檢索、下載、使用和提供等全過程。
3.4" " 著眼未來的規(guī)范化培養(yǎng)
2016年日本政府頒布《第5期科學(xué)技術(shù)基本計(jì)劃》,明確了全面推進(jìn)開放科學(xué)的方針。2018年頒布的“綜合創(chuàng)新戰(zhàn)略”又確定了具體推進(jìn)方法,其核心是以兼顧開放潮流與國家利益的Open And Close戰(zhàn)略為指導(dǎo),建構(gòu)能實(shí)現(xiàn)靈活管理、保存、共享數(shù)據(jù)的基礎(chǔ)設(shè)施[18]。作為回應(yīng),國立情報(bào)學(xué)研究所開發(fā)出以實(shí)施國際一流水平研究數(shù)據(jù)管理為目標(biāo)的NII研究數(shù)據(jù)云(NII Research Data Cloud,NII RDC);各大學(xué)與研究機(jī)構(gòu)也著手構(gòu)建能反映本機(jī)構(gòu)科研項(xiàng)目實(shí)施全過程的數(shù)據(jù)管理平臺(tái)(Data Management Platform,DMP)。但是,上述政策和項(xiàng)目多為政府主導(dǎo),少見科研人員個(gè)體或社群的自發(fā)參與。其實(shí),無論是研究范式轉(zhuǎn)移的實(shí)現(xiàn)、學(xué)術(shù)情報(bào)流通的開放抑或是研究評價(jià)體系的建構(gòu),研究者都是最重要的主體,理應(yīng)發(fā)揮能動(dòng)作用。在20世紀(jì)末,互聯(lián)網(wǎng)和數(shù)字技術(shù)的迅猛發(fā)展改變了人文知識(shí)的獲取、分析與共享路徑,但日本人文社科領(lǐng)域研究者對國際潮流反應(yīng)消極,對數(shù)據(jù)開放共享的遲疑態(tài)度正是突出表現(xiàn)之一。想切實(shí)推進(jìn)人文社科領(lǐng)域的數(shù)據(jù)共享,不僅要從技術(shù)架構(gòu)、模型等“硬建設(shè)”或是運(yùn)營機(jī)制、發(fā)展策略等“軟建設(shè)”的角度研究如何構(gòu)建更強(qiáng)大的數(shù)據(jù)基礎(chǔ)設(shè)施[24],更要推動(dòng)科研人員對數(shù)據(jù)共享的認(rèn)知與行為變化,并促成數(shù)據(jù)共享文化氛圍的形成。日本人文社科數(shù)據(jù)基建項(xiàng)目的核心機(jī)構(gòu)專門編寫數(shù)據(jù)共享指南,從元數(shù)據(jù)標(biāo)準(zhǔn)與格式、數(shù)據(jù)使用、公開的規(guī)則、匿名化處理與權(quán)益關(guān)系等角度對人文數(shù)據(jù)共享進(jìn)行全面講解。指南編寫的全過程與基地機(jī)構(gòu)的業(yè)務(wù)進(jìn)程相對應(yīng),先圍繞社會(huì)科學(xué)領(lǐng)域數(shù)據(jù)寫作,再針對人文學(xué)科的數(shù)據(jù)補(bǔ)充注釋和欄目。在社會(huì)科學(xué)領(lǐng)域,指南的重點(diǎn)對象為定量的社會(huì)調(diào)查數(shù)據(jù)和政府統(tǒng)計(jì)數(shù)據(jù)。個(gè)案研究和田野調(diào)查得來的定性數(shù)據(jù)因受時(shí)間和環(huán)境影響,其共享需要嚴(yán)格圈定范圍與條件。因此第一版指南只涉及數(shù)據(jù)共享的共通內(nèi)容,之后再根據(jù)數(shù)據(jù)提供者、使用者以及基地機(jī)構(gòu)的需求,針對不同數(shù)據(jù)(性質(zhì)、種類、格式等)補(bǔ)充相應(yīng)內(nèi)容。同時(shí),為在人文社科領(lǐng)域研究者中形成穩(wěn)定的數(shù)據(jù)共享文化,在組建學(xué)術(shù)社群外,核心機(jī)構(gòu)和基地機(jī)構(gòu)也通過頒布政策、制定規(guī)章、發(fā)布優(yōu)秀案例小冊子等方式規(guī)范、獎(jiǎng)勵(lì)數(shù)據(jù)共享行為,推動(dòng)數(shù)據(jù)共享成為人文社科學(xué)術(shù)圈的行為慣例。
4" "借鑒與啟示
我國的數(shù)字人文研究起步并不算晚,在2011年已有研究者提出必須大力建設(shè)包含科研信息和成果共享應(yīng)用平臺(tái)、文獻(xiàn)資源保障體系等的基礎(chǔ)設(shè)施,以促進(jìn)人文社會(huì)科學(xué)的繁榮發(fā)展[25]。到了今天,全國各地已建成不少面向人文社科研究的數(shù)據(jù)庫、知識(shí)庫與平臺(tái)等數(shù)據(jù)基礎(chǔ)設(shè)施,但不少設(shè)施的數(shù)據(jù)互操作困難,且在設(shè)計(jì)、實(shí)施等環(huán)節(jié)缺乏人文社科學(xué)者參與,與研究需求契合度不高。與歐洲等國相比,日本的人文社科數(shù)據(jù)共享起步較晚,但隨著人文社科數(shù)據(jù)基建項(xiàng)目的實(shí)施,以及《第6期科學(xué)技術(shù)·創(chuàng)新基本計(jì)劃》的推動(dòng),日本人文社科數(shù)據(jù)基礎(chǔ)設(shè)施的發(fā)展進(jìn)入快車道。該項(xiàng)目的成果從2020年起陸續(xù)投入運(yùn)用,距今時(shí)間尚短,難以全面驗(yàn)證對人文社會(huì)科學(xué)研究活動(dòng)的作用,但其建設(shè)經(jīng)驗(yàn)可提供一些有益的啟示。
4.1" " 實(shí)現(xiàn)統(tǒng)籌管理,完善數(shù)據(jù)政策體系
歐美等國政府對研究數(shù)據(jù)的保存、利用較為關(guān)注,如德國和荷蘭政府都設(shè)置了專管機(jī)構(gòu),有些國家雖未設(shè)機(jī)構(gòu),也有研究數(shù)據(jù)保存、利用的政府專門預(yù)算。開放科學(xué)的浪潮一日千里,政府強(qiáng)有力的參與才能促成研究數(shù)據(jù)基礎(chǔ)設(shè)施的重大重組與升級。具體到我國,國務(wù)院曾于2006年發(fā)布《國家中長期科學(xué)與技術(shù)發(fā)展規(guī)劃綱要(2006年-2020年)》,首次提出要通過建設(shè)數(shù)字平臺(tái)以促進(jìn)數(shù)據(jù)共享。其后國務(wù)院又于2015年、2018年先后印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》與《科學(xué)數(shù)據(jù)管理辦法》,提出發(fā)展科學(xué)大數(shù)據(jù)的具體行動(dòng),明確數(shù)據(jù)管理與共享的職責(zé),為科學(xué)數(shù)據(jù)的開放與共享奠定了基礎(chǔ)。但以上法律法規(guī)主要針對自然科學(xué)、工程技術(shù)科學(xué)的數(shù)據(jù)管理,人文社科領(lǐng)域數(shù)據(jù)資源的開放與共享仍沒有專門的規(guī)定和指引。同時(shí),我國各資助機(jī)構(gòu)、人文社科學(xué)術(shù)界、學(xué)/協(xié)會(huì)組織也未能制定針對個(gè)人、團(tuán)體、大學(xué)或其他科研機(jī)構(gòu)在創(chuàng)建、獲取、使用人文社科數(shù)據(jù)時(shí)的通用規(guī)范。政策、規(guī)章、制度的不明確乃至缺失使人文社科數(shù)據(jù)的開放共享處于“制度性承諾缺乏”[26]的狀態(tài),數(shù)據(jù)機(jī)構(gòu)、科研人員因擔(dān)心違規(guī)或利益受損而消極對待,數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)也難以推進(jìn)。此外,我國面向數(shù)字人文的數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)主要依賴單一的機(jī)構(gòu)或項(xiàng)目,雖有中國社會(huì)科學(xué)情報(bào)學(xué)會(huì)數(shù)字人文專委會(huì)等一些領(lǐng)域化、聯(lián)盟化的數(shù)字人文學(xué)術(shù)組織介入,但總體上建設(shè)的系統(tǒng)性、組織性不足,重復(fù)建設(shè)問題突出,建成的數(shù)據(jù)基礎(chǔ)設(shè)施獨(dú)立分散、共享程度低。日本的人文社科數(shù)據(jù)基建項(xiàng)目既有政府宏觀規(guī)劃《第6期科學(xué)技術(shù)·創(chuàng)新基本計(jì)劃》的強(qiáng)力支持,又吸納了學(xué)術(shù)界精英機(jī)構(gòu)“日本學(xué)術(shù)會(huì)議”(Science Council of Japan,SCJ)的意見,同時(shí)日本最權(quán)威的科研資助機(jī)構(gòu)“日本學(xué)術(shù)振興會(huì)”專門設(shè)立“人文社會(huì)科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施構(gòu)筑推進(jìn)中心”,并聯(lián)合日本頂尖水平的信息技術(shù)機(jī)構(gòu)國立情報(bào)學(xué)研究所共同作為項(xiàng)目核心機(jī)構(gòu),為項(xiàng)目實(shí)施營造了良好的政策環(huán)境、經(jīng)濟(jì)環(huán)境與技術(shù)環(huán)境。我國也應(yīng)在教育部等政府部門的指導(dǎo)下設(shè)立人文社科數(shù)據(jù)管理頂層機(jī)構(gòu),一方面綜合統(tǒng)籌不同領(lǐng)域、不同層次、不同方向的數(shù)據(jù)基礎(chǔ)設(shè)施項(xiàng)目,積極推進(jìn)互聯(lián)互通,避免重復(fù)建設(shè);另一方面推動(dòng)各級機(jī)構(gòu)按數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)傳輸、數(shù)據(jù)交換等過程頒布政策、完善制度,制定操作指南,使科研人員、研究機(jī)構(gòu)、信息機(jī)構(gòu)在生產(chǎn)、采集、保存、使用數(shù)據(jù)時(shí)有章可循。
4.2" " 優(yōu)化組織架構(gòu),發(fā)揮機(jī)構(gòu)聚合優(yōu)勢
兼具靈活性與穩(wěn)定性的組織架構(gòu)是人文社科數(shù)據(jù)基礎(chǔ)設(shè)施可持續(xù)運(yùn)行并不斷完善的基礎(chǔ)。目前我國已有不少由高校院系或研究機(jī)構(gòu)牽頭建成的數(shù)字人文平臺(tái)與數(shù)據(jù)庫,較知名的有上海圖書館的“家譜知識(shí)服務(wù)平臺(tái)”、上海師范大學(xué)圖書館的“民國時(shí)期文獻(xiàn)目錄數(shù)據(jù)平臺(tái)”以及復(fù)旦大學(xué)的“中國歷史地理信息系統(tǒng)”等。以上平臺(tái)通過整合數(shù)據(jù)資源有效提高數(shù)據(jù)使用價(jià)值,為人文社科領(lǐng)域的研究者獲取、利用數(shù)據(jù)開展多樣化研究帶來了極大的便利。不過,已建成的平臺(tái)或數(shù)據(jù)庫在資源建設(shè)、數(shù)據(jù)協(xié)同、數(shù)據(jù)服務(wù)等方面都或多或少存在不足[27],究其原因在于各建設(shè)主體存在“各自為政”或“資源保護(hù)”傾向,協(xié)同與開放意識(shí)不足。比起從頭建設(shè)一個(gè)無所不包的數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施,連接已建成的數(shù)字平臺(tái)、數(shù)據(jù)庫和機(jī)構(gòu)知識(shí)庫等分散的基礎(chǔ)設(shè)施,并以持續(xù)開放的姿態(tài)將來自學(xué)界、業(yè)界的利益相關(guān)者(Stakeholder)加入?yún)f(xié)作網(wǎng)絡(luò),在實(shí)現(xiàn)多方聚力、相互協(xié)同的基礎(chǔ)上打造開放包容的大型數(shù)據(jù)基礎(chǔ)設(shè)施是更經(jīng)濟(jì)、科學(xué)的建設(shè)方案。日本人文社科數(shù)據(jù)基建項(xiàng)目正是上述思路的具體實(shí)踐,項(xiàng)目選定了網(wǎng)絡(luò)型協(xié)作方式,除了現(xiàn)有的五個(gè)基地機(jī)構(gòu),對數(shù)據(jù)共享、利用有興趣的大學(xué)、科研機(jī)構(gòu)甚至是社會(huì)組織也被納入考察視野,作為基地機(jī)構(gòu)的備選,以實(shí)現(xiàn)網(wǎng)絡(luò)型協(xié)作的持續(xù)擴(kuò)張。我國的數(shù)字人文基礎(chǔ)設(shè)施建設(shè)可在人文社科數(shù)據(jù)管理頂層機(jī)構(gòu)的領(lǐng)導(dǎo)組織下積極推進(jìn)協(xié)作,如協(xié)調(diào)大學(xué)等科研機(jī)構(gòu)、博物館與圖書館等GLAM機(jī)構(gòu)、人文社科類行業(yè)協(xié)會(huì)以及相關(guān)企業(yè)設(shè)立聯(lián)絡(luò)中心,一方面推動(dòng)相似領(lǐng)域不同平臺(tái)、數(shù)據(jù)庫在人員、資金、管理等層面的有機(jī)整合與協(xié)作,為互相連通形成大型數(shù)據(jù)基礎(chǔ)設(shè)施奠定基礎(chǔ);另一方面著眼于數(shù)據(jù)基礎(chǔ)設(shè)施的可持續(xù)發(fā)展,積極推進(jìn)政府——企業(yè)——研究機(jī)構(gòu)之間的聯(lián)合,既促進(jìn)數(shù)字人文研究成果的轉(zhuǎn)化與市場應(yīng)用,又貼合人文社科研究領(lǐng)域第一線的需求,如此才能不斷擴(kuò)充數(shù)據(jù)池、人才池、資金池,實(shí)現(xiàn)數(shù)據(jù)基礎(chǔ)設(shè)施的持續(xù)運(yùn)行與完善。
4.3" " 完善數(shù)據(jù)標(biāo)準(zhǔn),提升數(shù)據(jù)服務(wù)水平
數(shù)據(jù)質(zhì)量是人文社科數(shù)據(jù)價(jià)值實(shí)現(xiàn)的關(guān)鍵。零散、單一、粗糙的低質(zhì)量數(shù)據(jù)會(huì)降低數(shù)據(jù)使用者的意愿,合格的平臺(tái)、數(shù)據(jù)庫所提供的數(shù)據(jù)資源應(yīng)符合主題明確、標(biāo)準(zhǔn)規(guī)范、易獲取等要求。有研究者指出,數(shù)字平臺(tái)雖已成為我國人文社科學(xué)者,尤其是傳統(tǒng)學(xué)術(shù)研究者檢索資料的主要途徑,但使用體驗(yàn)并不盡如人意。系統(tǒng)封閉、系統(tǒng)之間互不連通、數(shù)據(jù)準(zhǔn)確率低、使用便捷性差、缺乏分析工具等都是頗為突出的問題[28]。日本人文社科數(shù)據(jù)基建項(xiàng)目的目標(biāo)是實(shí)現(xiàn)人文社科數(shù)據(jù)的跨國界、跨學(xué)科、跨領(lǐng)域共享共用,因此重視數(shù)據(jù)的采集、處理與交換的標(biāo)準(zhǔn)化,也有針對性地導(dǎo)入語義網(wǎng)等技術(shù),促進(jìn)數(shù)據(jù)的可復(fù)用、可關(guān)聯(lián)與可聚合。此外通過新建數(shù)據(jù)目錄實(shí)現(xiàn)跨庫搜索、提供可用性強(qiáng)的在線工具進(jìn)行數(shù)據(jù)處理分析,保證了資源獲取和服務(wù)提供的互聯(lián)互通,也促進(jìn)了研究者個(gè)體與機(jī)構(gòu)間、機(jī)構(gòu)與機(jī)構(gòu)間的互惠互利與可持續(xù)發(fā)展。由此可見,我國的數(shù)字人文基礎(chǔ)設(shè)施也應(yīng)執(zhí)行全球通用的FAIR原則,圍繞“可發(fā)現(xiàn)”“可訪問”“互操作”“可復(fù)用”等標(biāo)準(zhǔn)創(chuàng)建規(guī)范統(tǒng)一的元數(shù)據(jù)模型與框架方案、采用通用元數(shù)據(jù)標(biāo)準(zhǔn)和協(xié)議、明確數(shù)據(jù)訪問和使用條件,以提升既有數(shù)字人文基礎(chǔ)設(shè)施的可靠性、適應(yīng)性和擴(kuò)展性,并逐步將各基礎(chǔ)設(shè)施聯(lián)通為分布式網(wǎng)絡(luò)服務(wù)。同時(shí),數(shù)字人文數(shù)據(jù)基建的首要消費(fèi)群體是人文社科領(lǐng)域的科研人員,具體學(xué)科范疇的需求眾口難調(diào),但可以提供可用性強(qiáng)的工具滿足其共同的科研需求,并不斷根據(jù)研究實(shí)踐的需求進(jìn)行工具升級及新工具開發(fā)。若只重視“數(shù)據(jù)基礎(chǔ)設(shè)施”而不能服務(wù)于數(shù)字人文研究,建成的數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)層面再先進(jìn),也難以成為數(shù)字人文研究的“使能者”。
參考文獻(xiàn):
[1]" Chad Wellmon.林太平,譯.忠實(shí)的工人和杰出的學(xué)者:大人文學(xué)科與知識(shí)倫理[J].澳門理工學(xué)報(bào)(人文社會(huì)科學(xué)版),2018(3):140-153.
[2]" 劉煒,葉鷹.數(shù)字人文的技術(shù)體系與理論結(jié)構(gòu)探討[J].中國圖書館學(xué)報(bào),2017,43(5):32-41.
[3]" 黃萃,陳靜,陳惠玲.第四研究范式:數(shù)據(jù)驅(qū)動(dòng)下的人文社科研究模式躍遷[J].中國高校科技,2021(10):10-14.
[4]" 劉煒,謝蓉,張磊,等.面向人文研究的國家數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)[J].中國圖書館學(xué)報(bào),2016,42(5):29-39.
[5]" 夏翠娟.面向人文研究的“數(shù)據(jù)基礎(chǔ)設(shè)施”建設(shè)——試論圖書館學(xué)對數(shù)字人文的方法論貢獻(xiàn)[J].中國圖書館學(xué)報(bào),2020,46(3):24-37.
[6]" Wloka B,Winiwarter W,Budin G.DASISH:an Initiative for a European Data Humanities Infrastructure[A].Proceedings of the 15th International Conference on Information Integration and Web-based Applications amp; Services[C].Association for Computing Machinery,2013:433-437.
[7]" Kálmán T,Tonne D,Schmitt O.Sustainable preservation for the arts and humanities[J].New Review of Information Networking,2015,20(1-2):123-136.
[8]" Burrowa T.A data-centred \"virtual laboratory\" for the humanities:Designing the Australian Humanities Networked Infrastructure(HuNI)service[J].Literary and Linguistic Computing,2013,28(4):576-581.
[9]" De Jong F,Maegaard B,De Smedt D F,et al.CLARIN:towards FAIR and responsible data science using language resources[A].Proceedings of the Eleventh International Conference on Language Resources and Evaluation(LREC 2018)[C].European Language Resources Association (ELRA),2018:3259-3264.
[10]" 金家琴,夏翠娟.數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)中機(jī)構(gòu)本體的構(gòu)建:研究和應(yīng)用[J].圖書館論壇,2020,40(4):30-39.
[11]" 陳濤,單蓉蓉,張永娟,等.數(shù)字人文研究的語義支撐平臺(tái)構(gòu)建研究——以ECNU-DHRS平臺(tái)為例[J].圖書館雜志,2021,40(3):69-77.
[12]" 顏佳,楊敏,彭梅.面向數(shù)字人文的圖像數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)研究——以我國圖博檔領(lǐng)域?yàn)橐暯牵跩].圖書館,2021(5):51-58.
[13]" 周雷.德國國家文化遺產(chǎn)科研數(shù)據(jù)基礎(chǔ)設(shè)施構(gòu)建模式研究及啟示[J].情報(bào)資料工作,2021,42(1):105-112.
[14]" 科學(xué)技術(shù)·學(xué)術(shù)政策研究所.科學(xué)技術(shù)指標(biāo)と科學(xué)研究のベンチマーキング2015[EB/OL].[2023-05-03].https://www.mext.go.jp/b_menu/shingi/gijyutu/gijyutu4/siryo/__icsFiles/afieldfile/2016/02/17/1367033_07.pdf.
[15]" 文部科學(xué)省.基礎(chǔ)科學(xué)力の強(qiáng)化に向けて[EB/OL].[2023-05-20].https://www.mext.go.jp/component/a_menu/science/detail/__icsFiles/afieldfile/2017/06/07/1384930_02_1.pdf.
[16]" 橋本雄太.人文學(xué)資料オープンデータの可能性と現(xiàn)狀[J].情報(bào)の科學(xué)と技術(shù),2015,65(12):525-530.
[17]" 內(nèi)閣府.國際的動(dòng)向を踏まえたオープンサイエンスに関する検討會(huì)報(bào)告書[EB/OL].[2023-05-15].http://www8.cao.go.jp/cstp/sonota/openscience/150330_openscience_1.pdf.
[18]" 內(nèi)閣府.統(tǒng)合イノベーション戦略[EB/OL].[2023-05-03].https://www8.cao.go.jp/cstp/togo_honbun.pdf.
[19]" 內(nèi)閣府.科學(xué)技術(shù)·イノベーション基本計(jì)畫[EB/OL].[2023-05-27].https://www8.cao.go.jp/cstp/kihonkeikaku/6honbun.pdf.
[20]" 日本學(xué)術(shù)振興會(huì).人文學(xué)·社會(huì)科學(xué)におけるデ一タ共有のための手引き[EB/OL].[2023-05-09].https://www.jsps.go.jp/j-di/data/guide/tebiki_p.pdf.
[21]" 朝岡誠,林正治.Data Documentation Initiative(DDI)の意義と利用:JDCatへの応用と今後の課題[J].社會(huì)と調(diào)查,2021,27(9):31-38.
[22]" 顏佳,姚嘯華.數(shù)字人文發(fā)展的“主導(dǎo)者”與“使能者”——2020數(shù)字人文年會(huì)“數(shù)字人文基礎(chǔ)設(shè)施建設(shè)”專家論辯綜述[J].數(shù)字人文,2021(1):124-134.
[23]" 藤原一毅,林正治,朝岡誠,等.オンライン分析システムの開発狀況と活用事例[EB/OL].[2023-05-12].https://www.jsps.go.jp/j-di/data/jigyo/4_fujiwara_happyo_2021.pdf.
[24]" 饒梓欣,鄧璐薌,許鑫.國際視野下面向人文研究的數(shù)據(jù)基礎(chǔ)設(shè)施分析與探討[J].圖書情報(bào)知識(shí),2022,39(5):31-41,11.
[25]" 肖瓏.人文社會(huì)科學(xué)繁榮發(fā)展的軟性基礎(chǔ)設(shè)施建設(shè)[J].圖書情報(bào)工作,2011,55(1):5-9.
[26]" 余文雯.數(shù)據(jù)驅(qū)動(dòng)下的高校圖書館數(shù)字人文服務(wù)研究[J].圖書與情報(bào),2017(5):114-119,148.
[27]" 張磊,夏翠娟.面向數(shù)字人文的圖書館開放數(shù)據(jù)服務(wù)研究——以上海圖書館開放數(shù)據(jù)應(yīng)用開發(fā)競賽為例[J].圖書館雜志,2018,37(3):33-38,48.
[28]" 劉圣嬰,王麗華,劉煒,等.數(shù)字人文的研究范式與平臺(tái)建設(shè)[J].圖書情報(bào)知識(shí),2022,39(1):6-29.
作者簡介:時(shí)晨,女,安徽財(cái)經(jīng)大學(xué)文學(xué)院副教授,早稻田大學(xué)政治經(jīng)濟(jì)學(xué)術(shù)院訪問研究員,研究方向:信息傳播與知識(shí)管理。
*本文系安徽省文旅科研項(xiàng)目“社會(huì)力量參與公共文化服務(wù)供給的機(jī)制與優(yōu)化路徑研究”(項(xiàng)目編號:WL2023YB05)研究成果之一。
收稿日期:2023-06-17;通訊作者:時(shí)晨(shinstar916@163.com);責(zé)任編輯:劉婷