●王麗華 章亦可 (上海大學 上海 200444)
1949年,羅伯特·布撒神父對《托馬斯·阿奎那文集》編制索引開創了人文計算的先河[1],而起源于人文計算的數字人文,是將數據可視化、信息檢索、數據挖掘、統計、文本挖掘等數字化和數字資源計算工具與傳統人文學科的方法以及社會科學相結合的交叉學科研究領域[2]。新文科背景下,數據科學與人文學科的交叉更加緊密,圍繞人文學科產生的各類數字資源越來越多,數字人文影響力不斷擴大。隨著數字人文研究的發展,各領域也逐漸展開對數字人文基礎設施的探討。
2009年1月美國前總統奧巴馬在就任當天提出開放數據這一概念,并簽署《透明與開放政府》(Transparency and Open Government)備忘錄,同年美國開放數據門戶網站啟動,自此開放數據的潮流在全世界掀起。2013年,麥肯錫咨詢公司發布的研究報告《開放數據:利用流動信息釋放創新和績效》(Open Data: Unlocking Innovation and Performance with Liquid Information)指出,每年因全球開放數據所創造的新價值以及可以節省的支出合起來已達到3萬億美元[3]。世界銀行的報告《開放數據助力經濟增長》(Open Data For Economic Growth)也同樣指出了開放數據有著巨大的經濟潛能。在全球數據開放浪潮的推動下,我國也進入公共數據開放行列。2015年國務院印發的《促進大數據發展行動綱要》(國發〔2015〕50號)明確提出要穩步推動公共數據資源開放[4]。2018年3月國務院辦公廳印發的《科學數據管理辦法》(國辦發〔2018〕17號)提出了“開放為常態,不開放為例外”的原則,并從職責、數據采集、保障措施等方面進行了規范[5],大力推動了我國開放數據的發展。
當前,越來越多的政府、機構和公眾參與到開放數據運動中,各種類型的開放數據競賽層出不窮,不斷釋放開放數據價值,推動開放數據的創新應用發展。
研究基礎設施是指研究人員在研究過程中可以使用的工具、平臺、系統、數據庫、檔案等各種資源,研究人員通過使用這些資源來挖掘新知識,開發新技術[6],研究基礎設施在科學技術發展中具有重要的地位。隨著數字人文研究的發展,學界展開了對數字人文基礎設施的探討。包弼德等指出網絡基礎設施是連接以下兩個方面的系統,一是計算、存儲、交流的基礎技術,二是軟件、服務、平臺和各種工具。隨著數字人文的發展,網絡基礎設施作為將研究領域不同的獨立數據庫相連接的橋梁,它的重要意義逐漸凸顯出來[7]。劉煒等將數字人文基礎設施定義為一種支持人文科研活動的基礎設施,具體是指在數字環境下為開展人文研究所必須具備的基本條件,包括全球范圍內與研究主題有關的所有文獻、數據、相關軟件工具、學術交流和出版的公用設施及相關服務等[8]。魯丹等指出支持人文研究的內容、數據、資料、工具、平臺、系統、軟件等是數字人文基礎設施中必不可少的部分,進而探討了基于API技術構建數字人文基礎設施的實現架構與實施路徑[6]。金家琴等探討了數字人文基礎設施中的數據基礎設施建設,嘗試設計了一套本體模型和詞表[9]。陳濤等提出構建數字人文語義發布基礎設施的方案,具體包括數據語義發布、本體語義發布和圖像語義發布,實現了不同數據集之間以及和圖像之間的語義組織與關聯[10]。上述研究成果不斷明確了數字人文基礎設施的概念內涵,而對于數字人文基礎設施的建設也在不斷探索中。
劉煒等將數字人文基礎設施分為核心層、中間層與外圍層。其中核心層是指文獻資源和其服務機構,主要為數字人文提供基本研究素材的保障;中間層包括基金會、資源庫、機構倉儲、計算設施、系統平臺、工具軟件、領域專家和數據科學家等,是數字人文研究活動的主體; 外圍層是指數字人文成果發布、與社會交互、產生社會影響的界面層,通常會通過門戶或平臺的形式呈現出來[8]。數字人文基礎的這三個層次中所包含的諸多要素相互影響作用,共同組成了數字人文基礎設施。
伴隨著數字人文研究的不斷開展與深入,良好的研究基礎設施在數字人文研究的可持續發展中起到的重要作用逐漸凸顯,數字人文研究需要一個內外部要素均衡協調的基礎設施作為支撐。目前在相關政府、機構的支持與規劃下,各類數字人文研究基礎設施的建設如火如荼,近些年來,全球尤其是歐洲建設了一批優秀的基礎設施。藝術與人文數字資源基礎設施(Digital Research Infrastructure for the Arts and Humanities,DARIAH)、標準語言資源和技術基礎設施(Common Language Resources and Technology Infrastructure,CLARIN)是歐洲兩個大型的人文科學數字基礎設施項目,都是由歐盟委員會和一些成員國共同資助的項目。DARIAH主要面向藝術與人文學科,其目標是促進對分布式數據存儲庫的訪問,并開發一套數字工具,逐步支持人文學科所有領域的研究工作,包括挖掘文本和圖像的應用、手稿的協作注釋、空間結構和運動的可視化等。CLARIN則聚焦于計算語言學,助力人文科學和社會科學研究,支持語言數據和工具的共享、使用和可持續性發展。而歐洲的帕耳忒諾斯項目(Pooling Activities, Resources and Tools for Heritage E-research Networking, Optimization and Synergies,PARTHENOS)由歐盟資助,是歐洲語言學、數字人文、歷史、文化遺產和考古學領域的主要研究基礎設施的聯合體。這個項目的工作重點是加強與數字人文研究的各學科合作,致力于改善人文和文化科學領域數字研究基礎設施的使用,在各個基礎設施之間建立橋梁,提高數據質量和互操作性[11],進而促進現有基礎設施提供服務支撐能力的提升。
德國有強大的人文計算項目基礎,例如,德國網格項目Deutschland Grid(簡稱D-Grid)致力于將網格計算應用于科學研究,其中應用于人文科學的網格項目TextGrid開發于2006年,為人文科學學者提供了能對大量文本語料進行訪問、存儲、注釋、編輯和分析的工具[12],是以e-Science環境下的科學研究方法為基礎的一個人文計算基礎設施[13]。
國內的數字人文基礎設施建設項目也在逐步推進,如上海圖書館的歷史人文大數據平臺、浙江大學的學術地圖發布平臺、安徽大學的中國古典文獻資源導航系統、首都師范大學牽頭的絲綢之路歷史地理信息開放平臺、阿里巴巴主導開發的漢典重光古籍數字化平臺以及中南民族大學的唐宋文學編年地圖項目等。這些數字人文基礎設施為相關學科領域的學者提供了支撐跨學科研究的資源、工具以及數據管理的通用解決方案,促進了數字人文的發展。目前全球數字人文基礎設施還在持續建設中。
為了更好地利用開放數據,通過借鑒已有的創新競賽、數據競賽等各種競賽類型,開放數據競賽這一新形式興起。據統計,2014年至2019年,全球范圍內由不同部門與機構開展的各類數據競賽已超過1 000余場[14]。2014年3月,馬云在北京大學發起“天池大數據競賽”[15],揭開了國內開放數據競賽的序幕。近年來國內所舉辦的開放數據競賽和參與者的數目持續增加。
開放數據競賽是主辦方以推動互聯網公共的開放數據的挖掘和使用為目的,收集某一領域網絡開放數據成功應用的案例的一種競賽形式[16]。通過競賽的形式吸引不同學科背景的研究人員與學生參與,推動了開放數據的創新應用。
國內外已經開展了多種多樣的開放數據競賽。
按照開放數據競賽的舉辦方以及開放的數據種類來劃分,目前國內的開放數據競賽主要有四種類型。
第一種是由省市開展的開放數據競賽。各省市擁有很多公共開放數據,通過向群眾提供這些豐富的數據資源,并組織各種數據競賽,以城市治理為主要目標,思考如何開發創意使用數據的應用,提升城市的管理水平。如SODA上海開放數據創新應用大賽以長三角地區豐富的開放數據資源和規模龐大的數據產業為基礎,競賽開放的數據涉及各個領域的政府開放數據和企業數據。
第二種是由公共文化服務機構舉辦的開放數據競賽。公共文化服務機構擁有多種多樣、結構化或尚未得到開發的數據,通過開展開放數據競賽,可以讓更多的用戶參與其中,對開放數據進行創新開發利用。如上海圖書館舉辦的上海圖書館開放數據競賽旨在更加充分地釋放平臺中開放數據的價值,最大限度地挖掘數據背后的應用潛力。這種由公共文化服務機構舉辦的開放數據競賽,在一定程度上推動了數字人文研究,可以稱之為數字人文類開放數據競賽。
第三種是由高校舉辦的開放數據競賽。高校擁有豐富的科研數據以及圖書館的數據資源。隨著數據密集型研究范式的到來,基于數據進行研究,對數據的再利用,已經是學術研究的新趨勢。各高校的師生們愿意創新性地運用新方法、新技術來分析發掘數據的潛在價值,助力學術研究。如復旦大學圖書館聯合全國部分高校圖書館發起的“慧源共享”全國高校開放數據創新研究大賽、北京大學舉辦的全國高校數據驅動創新研究大賽,都是面向高校、研究院(所)等在讀學生舉辦的開放數據競賽。
第四種是由協會、團體、研究機構等組織機構舉辦的開放數據競賽。如中國數字人文開放數據創新研究大賽就是中國數字人文第三屆年會的組成部分,由南京大學人文社會科學高級研究院與中國索引學會舉辦。組織機構舉辦的開放數據競賽更有主題針對性。
目前開放數據競賽所提交的作品形式主要有三種,分別為論文、研究方案與產品原型。如“慧源共享”全國高校開放數據創新研究大賽,參賽團隊最后通過提交研究論文來參與比賽,其中數據應用作品為選交內容。而LinkedUp Project中的Veni競賽,參賽者最后需要提交在教育領域應用開放數據的相關方案;SODA上海開放數據創新應用大賽參賽者在初賽階段需要提交針對問題需求的技術創意解決方案。上海圖書館開放數據競賽最后則需要提交優秀移動應用產品原型,以移動Web應用或 iOS、Android 等平臺上的App為主要表現形式;LinkedUp Project中的Vidi競賽,參賽者必須在比賽結束時提交他們自己開發設計的針對教育目的的App或者原型。
國外的開放數據競賽起步較早。1997年,第一屆國際知識發現和數據挖掘競賽(Knowledge Discovery and Data Mining Cup,KDD Cup)由ACM的數據挖掘及知識發現專委會所主辦,可以看作是開放數據競賽的開端。KDD Cup是數據挖掘領域最具影響力的賽事之一,到2021年已成功舉辦了25屆比賽[17]。此后,不同類型的開放數據競賽也開始出現,如面向教育的關聯網絡數據項目(LinkedUp Project)與Kaggle開放數據競賽等。
LinkedUp Project項目由歐盟資助,為促進更多的在線公共開放數據的利用,通過進行一系列公開比賽,收集在教育領域中使用開放網絡數據的成功案例[18]。LinkedUp將收集到的與教育相關的數據資源,公開透明地提供給對關聯教育數據有興趣的學生、研究人員、開發者甚至企業,吸引了很多用戶參與。挑戰賽分為Veni、Vedi、Veci三場比賽,每一場比賽都建立在前一場比賽的基礎之上。Kaggle是Google旗下的一個全球知名的數據科學競賽在線平臺,由Anthony Goldbloom和Ben Hamner于2010年在墨爾本創立。該平臺上展現的大部分的競賽都是由不同的企業或研究者發布,他們將自己需要解決的問題以及希望獲得什么樣的解決方案發布在競賽平臺上,并通過一定的獎勵方式來吸引更多的人向其提供解決問題的方案。通過競賽的開展,發布者可以快速篩選出自己需要的最有成效的方案。Kaggle比賽可以劃分為Getting Started、PlayGround、Research和Featured四類,難度不同,逐層遞進。參賽者在了解賽題內容、賽題數據,掌握一定基礎后,開始構建模型,并通過不斷更新來提高自己構建模型的精度。
到目前為止,國內涌現出很多不同主題、種類以及面向對象的開放數據競賽。如上海圖書館開放數據競賽、“慧源共享”全國高校開放數據創新研究大賽、SODA上海開放數據創新應用大賽、中國數字人文開放數據創新研究大賽等。
上海圖書館從2016年開始舉辦上海圖書館開放數據競賽(原上海圖書館開放數據應用開發競賽),迄今已經成功舉辦了6屆,第七屆比賽于2022年5月開始舉行,將于10月落下帷幕。競賽規模逐漸擴大,參與人數不斷增加,開放數據集逐步豐富。“慧源共享”全國高校開放數據創新研究大賽面向的對象是全國的高校師生,是為了推動和促進教育科研領域數據資源的匯聚流通和共享開放而舉辦的競賽,主要目的在于鼓勵高校師生運用各種不同的新技術開展開放數據的創新研究與應用,以期培養和提升高校大學生的數據素養[19]。SODA上海開放數據創新應用大賽是由上海市經濟和信息化委員會主辦的開放數據創新應用大賽,各個參賽的創新創業團隊主要圍繞開放數據創新應用方案展開交流與展示,大賽的理念為“數據眾籌,應用眾創,問題眾治”,希望可以調動全社會參與開放數據的開發利用,提升開放數據的價值[20]。中國數字人文開放數據創新研究大賽是“時代經緯:邁向新文科的數字人文”學術研討會即“中國數字人文”第三屆年會的組成部分,由南京大學人文社會科學高級研究院與中國索引學會舉辦[21]。這次會議首次設置開放數據競賽環節,面向全球征集開放數據集,集中在和鯨數據科學協同平臺進行發布,主辦方邀請全球數字人文研究者和愛好者參加競賽,并組織專家對競賽作品進行評選。大賽鼓勵海內外數字人文研究者及數據分析愛好者利用各種數字人文新技術對開放數據進行具備人文性的探索研究與應用。
本文將以數字人文基礎設施的核心、中間與外圍三個層次為基礎,討論開放數據競賽與數字人文基礎設施之間的關系。
數字人文基礎設施的核心層由文獻資源及其服務機構組成,它們為數字人文提供了基本研究素材的保障,是開放數據競賽的基石[8]。無論是從機構組織的角度,還是從數字人文文獻資源與數據的角度來說,開放數據競賽得以順利開展都離不開它們。
從高校、研究所、美術館、圖書館、檔案館、博物館等機構組織的角度來看,這些機構組織不僅是數字人文研究素材的保障,為開放數據競賽提供其所需的數據,同樣也是開放數據競賽的舉辦方與組織機構。圖檔博等文化機構擁有的豐富文獻資源很多都沒有得到開發與利用,數字人文研究的出現為處理海量的數據資源提供了可能,舉辦開放數據競賽可以吸引更多人對這些資源進行合理的創新利用與開發,釋放其內在的價值。
從文獻資源與數據的角度來看,開放數據競賽的開展依托于開放數據。開放數據競賽對開放數據的質量與可用性提出了一定的要求,開放數據競賽的數據也是吸引用戶參加競賽的重要原因之一。開放數據競賽組織者為了擴大參賽規模,開放不同用戶可能感興趣的不同種類數據,從而吸引不同領域的用戶參賽。如上海圖書館陸續開放了家譜元數據、盛宣懷檔案、古籍循證數據、紅色文獻書目數據、電影庫數據、僑批數據等多種數據供上海圖書館開放數據競賽的參賽者使用,隨著競賽規模的不斷擴大,開放數據的種類也越來越豐富。“慧源共享”全國高校開放數據創新研究大賽提供了大量教育科研領域的開放數據[19]。另外,在開放數據競賽中,競賽作品以及數字人文項目在開展過程中不斷涌現多種類型的數據,為競賽的開放數據添磚加瓦。如在上海圖書館開放數據競賽過程中,上海圖書館的數據資源進一步得到了擴充,2018年就有參賽團隊提供了兩萬余種藏印數據,上海圖書館的藏印知識庫也從800種增加至超過2萬種[22],這些由參賽者提供的數據會進入上海圖書館的信息資源庫,為參賽者提供服務。“慧源共享”全國高校開放數據創新研究大賽接受用戶使用自有數據,參賽團隊將自有數據自行采集、清洗、整理后,獲得了不存在版權問題的研究數據,并將這些數據上傳至慧源上海教育科研數據共享平臺[19],經競賽組委會審核后這些數據可用于大賽范圍內的共享,其他參賽團隊也可以使用,進一步豐富了該競賽的數據資源。
數字人文基礎設施的中間層由基金會、數據資源機構倉儲、計算設施、系統平臺、工具軟件、領域專家等構成,是數字人文研究活動的主體,也是開放數據競賽順利舉辦開展的保障[8]。
從領域專家(數據科學家)的角度來看,領域專家為開放數據競賽提供學術與技術保障。“慧源共享”全國高校開放數據創新研究大賽在競賽開始之前開展了面向全國高校師生的“數據悅讀”學術訓練營,通過邀請不同行業、不同領域的數據科學家,圍繞人工智能、區塊鏈、云計算、大數據、GIS地理信息等主題,開展了專題講座[19],形成提高數據素養的一系列課程,為參賽者順利完成作品打下基礎。同樣,上海圖書館學會2020年的圖書館前沿技術論壇(IT4L)聚焦“人文研究的技術之美”主題,將重點集中在數字人文技術應用的教學方面,邀請了國內外數字人文領域專家以及實踐者分享人文研究的相關技術應用[23]。它也是上海圖書館開放數據競賽的配套訓練營。通過這些領域專家的分享與教學,可以幫助開放數據參賽者進一步了解數字人文領域,通過學習激發其創新,也便于其更好地完成比賽作品。部分領域專家也會通過參加開放數據競賽,將自身的學術研究與開放數據競賽作品結合在一起,進行數字人文實踐研究,開展數字人文項目,一方面可以提高參賽作品水平,另一方面也推動數字人文研究的發展。
從系統平臺的角度來看,開放數據競賽的開展需要依托系統平臺。系統平臺可以作為開放數據競賽的數據存儲與調用平臺,也可以作為其作品的管理平臺,如自動監測學員的競賽過程,實時展示比賽題目及競賽成果。如中國數字人文開放數據創新研究大賽面向全球征集開放數據集后,將數據集中在和鯨數據科學協同平臺進行發布。和鯨數據科學協同平臺作為數據競賽平臺,已承接超200場賽事,具有可追溯的作品管理系統與完善的數據競賽支持系統[24]。開放數據平臺作為數字人文數據基礎設施的一部分,在開放數據競賽中不僅被使用,而且也在競賽過程中不斷被完善。如上海圖書館建立的開放數據平臺(http://data.library.sh.cn),該平臺公開發布了上海圖書館數字人文項目所用的基礎知識庫、文獻知識庫、本體詞表等數據,是上海圖書館開放數據競賽開展所依托的平臺,參賽者可以調用該平臺的關聯數據,參考相關研究資料來幫助團隊進行競賽作品的建設,從而促進數據的開發獲取、共享和重用。
從工具軟件的角度來看,在整個競賽進程中參賽者需使用工具軟件完成參賽作品,也會開發新的工具軟件供數字人文研究使用。數字人文以各種類型的文本數據、圖像資源等為研究對象,通常使用的工具軟件主要包括文本分析、圖像識別、知識圖譜、GIS等,很多開放數據競賽的作品都使用了這些工具。如上海圖書館開放數據競賽2018年的一等獎作品《尋蹤 遇見》是一個追蹤和探尋名家足跡的知識探索平臺,通過利用OCR識別、實體識別以及可視化技術關聯多個外部數據源,來解讀和呈現歷史人文知識。競賽過程中競賽舉辦方也會為參賽者提供各種數據清洗與轉換的工具,便于他們使用。
從數據資源機構倉儲的角度來看,數據基礎設施是數字人文基礎設施的一個重要部分。數據的質量決定了能夠提供何種程度的數字人文開放數據服務。目前的數字人文研究所依賴的數據已經具有一定規模,但分布還比較分散,項目產生的臨時性數據的處理標準也不完全相同。開放數據競賽對數據的形式與質量提出了一定要求,數據資源機構倉儲可以系統化、標準化地管理數據,提供長期的數據存儲與備份服務。
數字人文基礎設施的外圍層是數字人文成果發布、交流互動、產生社會影響的界面層,通常會通過網絡門戶或平臺的形式呈現,也是開放數據競賽的展示窗口[8]。
開放數據競賽產生了大量優秀的數字人文成果,通過競賽的宣傳,這些優秀的數字人文成果能獲得更多的關注,其影響力進一步得到提升。如上海圖書館開放數據競賽在其門戶網站上對歷年優秀作品進行展示,以吸引越來越多的人了解數字人文、數字人文項目與數字人文成果;在競賽過程中通過“人氣獎”的投票環節,讓參賽作品得到人們的初步了解;在競賽結束后通過優秀作品的交流分享,進一步擴大參賽作品的社會影響力。同樣,LinkedUp項目中競賽環節也采用開放投票系統進行“公眾選擇”,參賽者可以通過分享,邀請其他人為他們的競賽作品投票,在整個過程中也達到了宣傳作品的目的。競賽通過對參賽作品的后續關注與孵化,也可以進一步優化數字人文項目,如上海圖書館開放數據競賽大賽的優秀獲獎團隊有機會獲得SODA大賽提供的服務和孵化機會,進一步鞏固了數字人文成果。
一方面,高校、研究所、美術館、圖書館、檔案館、博物館等機構組織應注重數字人文的發展,積極參與數字人文研究。特別是圖書館在數字人文研究上具有得天獨厚的優勢,更應該積極參與,通過獨立或多機構合作開展開放數據競賽,推動開放數據競賽進一步發展。另一方面,數據為基,要進一步擴大數據的開放程度,GLAM等相關機構組織可以通過加快自身館藏資源及其他資料的數字化,將更多有用且高質量的開放數據應用到開放數據競賽中,夯實開放數據競賽基石。
吸引更多機構參與,加大資金投入。如美國國家人文基金會目前資助了4個數字人文獎項,其中就包括“數字人文進步獎(DHAG)”。但目前國內在這方面并不完善,所以在加大資金投入,通過獎金規模吸引用戶參與以及對于項目與產品原型的進一步孵化上有所欠缺。因此通過吸引更多機構的參與以及加大資金的投入,可以完善競賽相關服務,吸引參賽者參與,對于開放數據競賽規模的擴大有一定作用。
建設功能完善的系統平臺。系統平臺不僅是開放數據競賽的技術支持平臺,也同樣在競賽的推廣和擴大影響等方面起到重要作用。通過對系統平臺的建設、修改,其功能不斷完善,有利于提升開放數據競賽的影響力和用戶參與度;將資金投入構建開放數據平臺、數字人文平臺中,有利于開放數據競賽的開展。
吸引領域專家參與,提供制度保障。領域專家(數據科學家)無論是通過參與比賽,還是舉辦系列講座都能幫助參與者更好地開展研究。同時,制定有針對性的規章制度,為開放數據提供制度保障,定期對開放數據進行維護可以提高開放數據的安全性,更好地建設數據資源機構倉儲。
對研究成果進行深層次挖掘。參賽作品的提交并不意味著數字人文研究的結束,對參賽作品的進一步修改開發并利用,進行更深層次的挖掘,可以促進更多知識的創新以及新技術的產生,數字人文的研究也將進一步深入。參賽過程中產生的相關數字資源可以成為后續研究的數據來源和研究基礎,將研究成果進行一定程度的孵化也可以將參賽作品投入使用,推動數字人文的實踐。
搭建開放數據競賽展示的平臺,包括門戶網站、手機App等形式,不僅可以將數字人文開放數據競賽中產生的大量優秀的數字人文成果展示出來,吸引用戶參與開放數據競賽,擴大數字人文研究項目的影響力,而且可以拓寬宣傳渠道,通過微信公眾號等方式進一步擴大競賽在業界的影響力。通過平臺,還可以與用戶交流互動,積極聽取用戶意見,對開放數據競賽進行一定程度的改進。
隨著數字人文研究的不斷發展,對數字人文基礎設施的需求迫在眉睫,但到目前為止還沒有真正形成體系完整、標準統一、數據共享、跨學科領域的綜合數字人文研究基礎設施。開放數據競賽的開展既依靠于數字人文基礎設施,也將進一步推動數字人文基礎設施的建設與發展,兩者是互為促進的關系。通過完善數字人文基礎設施建設,一方面能為數字人文研究提供有力的支撐,另一方面也能夯實開放數據競賽的基石,提供更有力的開放數據競賽保障并搭建開放數據競賽展示平臺。而開放數據競賽的可持續性發展,也有助于開放數據的創新應用,從而進一步夯實數字人文基礎設施建設。