岑炅蓮 歐陽劍 曾輝



摘 ? 要:數據驅動研究成為人文學科研究的主流,數據是數字人文項目實施的基礎和核心之一。文章分析了新網絡環境下數字人文數據眾包的概念和現狀,從數據眾包發起者的角度出發論述了數據眾包項目的運作模式及任務,并針對性地提出數字人文數據眾包的實施方式、數據管理、質量管理、激勵政策、誠信問題和成果發布及版權等問題的應對策略。研究認為,數字人文數據眾包對人文數據的建設是有益的補充,數據眾包給數字人文工作提供了數據化的平臺和工具,數字人文數據眾包可以加深公眾對文化和歷史的理解。
關鍵詞:數字人文;數據眾包;人文數據;眾包策略
中圖分類號:G255 ? 文獻標識碼:A ? DOI:10.11968/tsyqb.1003-6938.2020090
Abstract Data-driven research becomes the mainstream of humanities research. And data is one of the foundation and core of digital humanities project implementation. This paper analyses the concept and status of data crowdsourcing in digital humanities research under new network environment. From the perspective of data crowdsourcing initiators, this paper analyses the operation mode and tasks of data crowdsourcing, and proposes the corresponding strategies for implementation methods, data management, quality management, incentive policies, integrity issues, achievement publication and copyright issues of digital humanities data crowdsourcing. Digital humanities data crowdsourcing is a useful supplement to the construction of humanities data. Data crowdsourcing provides data platform and tool for digital humanities work. Digital humanities data crowdsourcing deepens the public's understanding of culture and history.
Key words digital humanities; data crowdsourcing; humanities data; cowdsourcing strategies
1 ? 引言
數字人文是充分運用計算機技術開展的合作性、跨學科的研究、教學與出版的新型學術模型和組織形式[1]。數字人文最顯著的特點就是借助計算機進行量化分析,數據是數字人文項目實施的基礎和核心之一,數據驅動研究成為人文學科研究的主流。目前大部分人文數據由圖書館和數據供應商所擁有,由于人文數據建設需要花費大量的時間及經費,因此學者能自由使用的人文數據非常有限,人文數據匱乏已成為數字人文研究者的共識。面對人文數據匱乏的局面,近年來,數字人文研究者嘗試了多種人文數據建設的方式,數據眾包就是幫助數字人文研究者獲取人文數據的有效方式之一。
隨著信息技術的發展,新的網絡環境不斷演進,形成了一個分散式共享、合作和傳播的全球化、網絡化的世界。在新的網絡環境下,公眾通過社交互動、參與式的知識創造形式來表達他們的需求。然而,目前對于數字人文類眾包項目的研究側重于用戶參與數字人文眾包的意愿、績效影響因素、運作流程和平臺,缺少對人文數據特點的分析,數據眾包的整體運作策略研究較少,對數據眾包過程中負面問題的解決策略研究也相對匱乏。因此有必要對數字人文數據眾包的運作策略進行研究,了解新網絡環境下數字人文數據眾包的主要任務,分析數據眾包發起者如何選擇實施方式、實施平臺和任務發布方式,以及對運行管理、成果管理中可能遇到的問題提出應對策略,從而為今后的數字人文數據眾包項目提供一定的借鑒意義。
2 ? 數字人文數據眾包的概念和研究現狀
2.1 ? ?數字人文數據眾包的概念
杰夫·豪[2]于2006年6月在《連線》雜志的一篇文中首次正式提出“眾包”一詞,并指出眾包是一個公司或機構將過去由員工執行的工作任務以自由自愿的形式外包給非特定(通常是大型的)大眾網絡的做法。眾包是利用大型在線社區對特定任務進行創建內容或收集想法的實踐,它是互聯網技術關鍵文化轉變的產物,也適用于數字人文的數據眾包項目。
數字人文數據眾包是一種創新實踐活動,它根據數字人文項目的需要,采用大眾共建的方式,實現定制化的數據獲取與數據加工方案設計與執行服務,為數字人文項目提供標準化、結構化的可用數據,其中數據采集及數據標注的類型涵蓋文本、圖像、音頻、視頻、網頁等。數字人文項目的主要工作量消耗在數據處理上,僅僅依靠有限的項目人員無法完成大規模數據整理、加工及組織工作,因此有必要利用大眾智慧進行數據眾包來共同完成數字人文項目研究。
2.2 ? ?數字人文數據眾包的研究現狀
學術領域的眾包可以稱為公眾科學,目前公眾科學研究引起不少學者關注。而數字人文類眾包屬于公眾科學的一種,研究主要集中在四個方面:(1)用戶參與數字人文眾包的意愿和影響因素研究。如張軒慧等[3]通過S-O-R理論構建公眾參與數字人文類眾包動因的實證模型,提出志愿者的感知有用性、自我效能、娛樂享受和使命感是參與眾包的主要動機;Seitsonen和Oula[4]通過對芬蘭的文化遺產機構的眾包案例分析發現用戶的自我滿足感是主要參與動機;(2)數字人文眾包績效的影響因素研究。如韓文婷等[5]提出任務復雜度和領域知識水平是影響數字人文類眾包任務績效的主要原因;(3)數字人文眾包的運作流程研究。如趙宇翔[6]在傳統的眾包活動的三個主體(發包方、平臺和接包方)基礎上加入第三方組織機構,構建矩陣式項目管理機制,指出公眾科學項目運作基本流程包含八個行動;Oomen和Aroyo[7]利用數字內容生命周期模型提出了數字人文領域眾包的運行包括篩選、創造、管理、發現、使用和保存;(4)數字人文眾包平臺研究。如肖奕[8]以數字人文項目在線合作平臺DHCOMMONS為例,提出資助機構、學科領域、隸屬機構、合作類型與合作者類型影響數字人文項目合作平臺的發展。
綜上所述,目前學者對于數字人文類眾包研究主要集中在公眾參與意愿、績效影響因素、運作流程和平臺方面,然而缺少對于人文數據的分析,以及人文數據如何進行眾包,人文數據眾包過程中可能出現的數據管理、質量管理、激勵政策、誠信和版權等問題和障礙提出的應對策略研究較少。因此有必要對數字人文數據眾包的運作策略進行研究。
3 ? 數字人文數據眾包主要任務
數字人文項目中的人文數據具有的特點及人文學者研究對人文數據的需求構成了人文數據組織及重構的基本要素,其中主要有人文數據的完整性、可計算性、可用性及重用性、可發現及獲得性等[9]。數字人文項目對人文數據提出了獨特的要求,人文數據的構建很大程度上由學科規范和方法論所決定,人文數據的組織通常需要有人文素養的介入,即需要了解人文數據特點及符合人文學者研究的需求才能確保人文數據的有效性。
開展數字人文數據眾包,首先要從人文數據研究者的需要去界定任務類型,不同的數字人文研究者或研究機構有不同的數據眾包需求,Oomen和Aroyo[7]從文化遺產機構的大量眾包實踐中,提出了美術館、圖書館、檔案館及博物館(GLAMs)存在校正和轉錄任務、語境化、補充收藏、分類、聯合策展、眾籌等六種眾包類型。借助數據生命周期模型可以幫助我們更好地理解數字人文數據眾包不同階段的活動。典型的數據生命周期模型包括數據的創建/收集、描述、存儲、發現、分析和重用[10]。目前,在數字人文數據眾包實踐活動中,多數志愿者參與了人文數據的創建/收集和描述工作,其可以利用數字人文研究者提供的原始人文資料進行人文數據的創建,或者自行提供原始人文資料,并轉化為完整的人文數據,此外他們還積極利用Web2.0技術對一些人文資料進行標簽化或者評論,從而為數字人文項目提供元數據。這些工作可以分別對應轉錄校正型任務、補充收集型任務和標記分類型任務。而存儲、發現、分析和重用工作往往由數字人文數據眾包的發起者或平臺執行,隨著數字人文數據眾包實踐的不斷發展,未來志愿者可以參與更深層次的人文數據管理。
3.1 ? ?轉錄校正型任務
轉錄校正型任務是最受歡迎的數據眾包任務之一,它對已有的大量人文資料進行人工轉錄和校正,從而創建可供數字人文項目所需的集成化、細粒化、關聯化及可計算化的數據。雖然光學字符識別技術(Optical Character Recognition,OCR)可以通過電子設備檢查紙上打印的字符,然后將形狀翻譯成計算機文字[11]。但它只針對印刷體字符,對掃描的圖像有很高的質量要求,然而一些手稿、照片、古籍等無法通過OCR識別技術獲得準確率高的可計算文本數據。因此,可以將無法OCR識別或OCR識別準確率較低的圖像信息通過大量人工干預的方式轉錄、校正成數字人文項目所需的人文數據。邊沁手稿轉錄項目利用對手稿轉錄有興趣的志愿者對哲學家邊沁的手稿進行人工轉錄,建立可搜索的數據庫[12]。美國史密森尼轉錄中心為志愿者提供19個博物館和檔案館的材料進行轉錄[13]。上海圖書館歷史文獻眾包中心開展的盛宣懷檔案抄錄項目,選取盛宣懷檔案中與辛亥革命相關的信函、電報、公牘、奏折等若干,以供抄錄[14]。澳大利亞國家圖書館借助專門的數字資源呈現系統,招募志愿者對數字化了的1803-1954年間沒有版權的歷史報紙進行校正,以提高文本質量[15]。
3.2 ? ?補充收集型任務
補充收集型任務是在缺少現有人文資料的情況下,通過志愿者收集可參考的人文數據,一般志愿者可以在日常生活中獲取這些數據,從而保證項目數據的完備性。紐約公共圖書館開展“建筑檢查員”(Building Inspector)項目,利用公民在日常環境中尋找舊地圖所需的數據,并提交紐約公共圖書館的數據庫中[16]。上海圖書館家譜知識服務平臺支持用戶貢獻內容的形式,吸引眾多網絡用戶撰寫反饋家譜信息,平臺不斷更新,使數據在使用過程中增值[17]。
3.3 ? ?標記分類型任務
標記分類型任務要求志愿者利用元數據描述數字化信息資源的屬性,通過添加標簽、評論的方式,評價、追蹤資源,協助數據有效檢索。視頻是人文研究中較為復雜的資料,獲取它的內容信息較為困難。紐約公共圖書館引入用戶標簽系統,通過志愿者瀏覽口述歷史視頻,從菜單中選擇關鍵詞,將標簽映射到視頻中的時間碼,同時可以對缺失的字幕視頻進行標記,此外還可以將非英語視頻翻譯成英文字幕視頻[18]。英國國家檔案館開展“戰爭日記”項目,希望志愿者對第一次世界大戰英國士兵的日記進行標記和分類[19],志愿者可以從受控詞表中選擇關鍵詞進行標記。豆瓣網則允許用戶對圖書、電影、音樂等添加標簽、評分,從而獲得圖書、電影的關鍵詞信息,并用這些信息改善網站的推薦效果。
由于不同任務對于志愿者專業水平要求和限定完成時間不同,三種類型的數據眾包任務難易度不同(見表1)。其中,轉錄校正型任務通常要求轉錄者具有轉錄內容的背景知識,如“籍合網”招募校正古籍的志愿者時,要求志愿者實名注冊,具有文史哲相關專業及背景,并有古籍整理的經驗,這類轉錄校正任務通常消耗的時間較長。補充收集型任務雖然要求志愿者對某方面研究具有一定的了解,但通過項目發起者的培訓或者志愿者自我學習,可以較快掌握任務操作流程。而大多數標記分類型任務不需要志愿者具備專深的背景知識,他們可以注冊登錄,也可以匿名訪問,一般標記、分類和評論不會花費志愿者太長的時間。
4 ? 數字人文數據眾包策略
傳統的眾包運作流程包括3個階段:任務準備、任務執行和任務答案整合。其中任務準備階段包括:發起者設計任務、發布任務,志愿者選擇任務;任務執行階段包括:志愿者接收任務、解答任務、提交答案;任務答案整合階段包括:發起者接收/拒絕答案、整合答案[20]。數字人文領域數據眾包主要由數據眾包發起者、志愿者和平臺這三個主體組成,三個主體之間相互制約、相互影響,共同推動數據眾包的運行(見圖1)。從數據眾包發起者的角度來說,需要考慮發起者在數據眾包的前期、中期和后期的主要工作,將數據眾包的運作流程分為數據眾包設計、數據眾包運行管理、數據眾包成果管理[21]。其中,數據眾包設計包括界定任務類型,選擇任務實施方式、選擇平臺和發布任務;數據眾包運行管理則需解決數據管理、質量管理、激勵政策和誠信倫理等問題;數據眾包成果管理對版權和成果發布問題進行討論。
4.1 ? ?數字人文數據眾包實施方式選擇
傳統的眾包模式主要包括眾包競賽和協作社區兩種類型[22]。數據眾包項目的最終目的是為了解決數字人文項目的數據短缺問題,而解決問題可以有唯一最優解和無窮多最優解,分別對應著眾包競賽和協作社區。
眾包競賽以比賽競爭的形式對人文數據進行眾包,發起者根據不同參與者的解決方案,進行排名并對最佳解決方案發放獎勵,它強調解決方案的優選性,主要由外部動機即項目發起者所推動,采取自上而下的組織方式[23]。InnoCentive眾包創新平臺把需要解決的眾包任務標準化成一個或若干個競賽,并提出優勝的標準,每個項目的獎金額度為5000美元至100萬美元不等[24]。2018年南京大學信息管理學院和上海圖書館歷史文獻眾包中心聯合開展了文化遺產數字化競賽,參賽者選取盛宣懷檔案中進行抄錄,經過專家審核評分,共17個團隊獲獎[25]。
眾包協作社區則是在一個和諧的環境內允許志愿者提交的不同解決方案同時存在,它強調解決方案的聚合性,主要由內部動機即志愿者所推動,采取自下而上的組織方式[23],維基百科是利用協作社區進行數據眾包的典型例子。維基百科將多名貢獻者的成果進行編排,整合成一個連貫的整體,實現價值的創造,通過自動化流程來協調和整合大眾的編輯工作,跟蹤所有的改動,由于維基百科大眾規模龐大,任何一條詞條都需經過多重人員的審查,從而保障了內容質量,由此可見,協作社區最適用于解決編排相對簡單的項目,大眾協作依靠廣泛的任務模塊化、標準化程序和技術來實現合作的順暢。
因此,數字人文數據眾包任務發起者應該根據所需的數據解決方案而選擇合適的數據眾包實施方式(見表2),以獲取符合人文學者研究的人文數據。在數字人文的數據眾包中任務難度較大的轉錄校正型眾包任務可以通過眾包競賽的方式實施,獲取解決眾包任務的最優方案。而對于任務難度較小的標記分類型任務、補充收集型任務則適合采用協作社區的方法,一方面不必花費過多的精力設計專項眾包平臺,另一方面,協作社區以多元化的屬性,整合盡可能多的成果。
4.2 ? ?數字人文數據眾包平臺選擇及任務發布
眾包任務的發布和數據的收集是通過眾包平臺來完成的。數字人文數據眾包的平臺主要分為三大類[6,21]:一是項目發起者設計的專項平臺,這類數據眾包平臺雖然前期耗費一定的時間與精力設計,但是它能較好地保障項目的專業性和數據的完整性,有利于多維性數據的收集與數據之間關聯的建立;二是Facebook、Twitter、微博、校內論壇等社交媒體平臺,這類平臺收集到的人文數據雜亂且碎片化,但是可以節約項目經費,快速部署,對參與者的門檻較低,成果傳播范圍更廣;三是商用的眾包平臺,如國外的Amazon Mechanical Turk、CloudCrowd、InnoCentive等,國內的豬八戒、腦力庫、三打哈等,這類平臺有豐富的眾包經驗,可以縮短項目實施時間,優化項目管理效率。
本文提到的邊沁手稿轉錄項目、史密森尼轉錄項目、盛宣懷檔案抄錄項目、上海圖書館家譜知識服務項目等都是設立了專門的眾包平臺或系統;美國國會圖書館利用Flickr社區進行圖片標記分類,則吸引了眾多志愿者參與,傳播范圍較廣。因此數字人文數據眾包平臺的選擇需要根據發布者的需求來選擇,對數據專業性和數據的完整性有特殊要求、或眾包數據量較大的眾包項目可以自行設計自己的眾包平臺,不但能保證數據的完整性,而且有利于后續數據眾包的繼續開展,而對于數據要求不嚴格或眾包數據量不多的眾包項目則可以選擇第三方的數據眾包平臺。
4.3 ? ?數字人文數據眾包運行管理
4.3.1 ? 數據管理
數字人文項目進行數據眾包離不開對龐大的數據管理。數字人文數據眾包的啟動離不開大量的原始數據基礎,數字人文數據眾包實施過程中數據的管理直接關系到項目實施的效率和完成的質量,此外,成功的數字人文數據眾包也積累了大量的數據。因此數據的可持續發展問題值得我們思考,數據眾包項目需要考慮項目成果將在哪里進行存儲和維護?持續研究項目的資金如何解決?如果要進行長期持續開發,可能的資助來源有哪些?哪些機構長期備份或存儲項目的數據?與我們熟悉的商業活動眾包項目相比,數字人文領域的數據眾包在數據容量、數據種類、數據有效性及數據完整性上更加難以有效管理。因此,數字人文領域的數據眾包項目對數據質量管理有更高層次的需求。
趙宇翔[6]提出以往的公眾科學項目缺乏對數據的關注和深入挖掘,沒有將產生的科研數據作為一種資產進行有效管理和利用,同時提倡將元數據構建、關聯數據以及數據監護等圖書情報學科的理論和方法應用在數字人文平臺的管理中。數字人文數據眾包中的數據組織及重構方法包括數據化、數據融合、數據關聯及發布,首先,在OCR識別文本的基礎上,加強對文獻內容的重組,將文獻內容轉化為可制表分析的量化數據,滿足數字人文研究者對數據的屬性要求[26];其次,通過異構融合、多源融合、多模融合三種不同的形式對人文數據進行融合,形成有效的多視角分析數據集,從而進行多維度挖掘和分析,幫助人文學者發現新規律、新價值[27]。此外,利用數據關聯技術建立人文數據集。近年來上海圖書館家譜關聯數據服務平臺及歷史地理數據的開放方面應用關聯數據技術進行大量實踐研究,采用關聯數據從以圖書館為中心的知識組織系統向跨領域公開可用和易于訪問的知識圖譜轉變,可提高人文數據的可用性和重用性。
4.3.2 ? 質量管理
由于數字人文數據眾包項目的志愿者大多數是普通大眾而不是具備專深理論知識的研究者,高質量的成果往往數量不多。因此,數據眾包項目發起者應該均衡任務的成本、任務的質量、任務完成時間三者的關系,以提高項目質量。
首先,在數據眾包實施之前可以對志愿者進行相關知識調查和測試,這不僅可以過濾不符合工作要求的志愿者,還可以讓志愿者進一步了解工作任務,進而提高工作質量。如“籍合網”招募校正古籍的志愿者時,要求志愿者實名注冊,具有文史哲相關專業及背景。
其次,對通過測試的志愿者進行培訓,使志愿者更加熟悉任務,提高工作效率和工作質量。對于難度較大的轉錄校正型項目,如邊沁轉錄項目為志愿者提供了詳細的轉錄指南,并定期開展轉錄培訓。補充收集型項目由于難度不大,管理者可以適量提供一些工具類的培訓。如紐約公共圖書館“Building Inspector”項目開展計算機培訓,鼓勵參與者利用計算機軟件更方便地收集地理信息。對于分類標記型項目,管理者會提供一定的受控詞表,志愿者以此進行分類和標記,避免分類過大,提高項目質量。
最后,合理設計任務過期時間,使志愿者在適度的時間內完成任務。Ipeirotis[28]發現,大多數任務請求者都將任務的“過期時間”設置為12小時或7天,在12小時這個時間節點,只有大約50%的任務被完成,如果等到7天,大約90%的任務被完成。
4.3.3 ? 激勵政策
數據眾包的參與志愿者多樣化,因此任務發起者必須花費更多的精力來平衡志愿者的需求。完善的激勵政策才能保證數據眾包項目順利實施。目前,用戶參與的激勵政策分為物質金錢激勵方式和非物質金錢激勵方式。
其中,物質金錢激勵可以在短期內招募大量志愿者,但是很多數字人文項目屬于非營利性項目,長期采用物質金錢激勵方式不太現實。因此,數據眾包項目可以支付志愿者小部分工資,同時使數據眾包的志愿者對工作內容產生興趣或實現自我滿足。Mason和Watts[29]研究發現,只有合適的任務回報才能吸引志愿者參與數字人文眾包項目。偏高的回報導致吸引過多的參與者,從而降低了任務質量同時給發包商增加成本壓力;偏低的回報則會導致志愿者的興趣點下降,對眾包工作產生懈怠心理,導致任務時間周期較長。眾包競賽中經常利用物質金錢激勵志愿者參與項目,InnoCentive眾包平臺根據不同難度的眾包任務設置不同的獎勵,一般難度的項目要求志愿者提交方案的時間為1-2個月,獎金取決于完成情況,最高為數萬美元;中等難度的項目提交方案時間為2-3個月,獎金為數萬至數十萬美元;難度較大的項目提交方案的時間為3個月以上,獎金最高達100萬美元。
麥肯錫的研究表明,推動Web2.0用戶進行無條件構建知識的主要動力不是物質激勵,而是興趣和聲譽[30]。非物質金錢激勵方式主要包括積分制和排行榜公示。虛擬積分可以激發志愿者一定程度的興趣和積極性。排行榜公式激勵方式即在項目網站上公布參與用戶的貢獻度。同時進行貢獻度認證,各參與用戶需提供一份說明在各階段的作用和付出的時間。根據馬斯洛需求層次理論,排行榜公式方式正好滿足了參與用戶尊重需求和自我實現需求等高層次需求,同時排行榜能夠激發參與志愿者之間的競爭,這種競爭可以良性推動數據眾包工作的開展。邊沁手稿轉錄項目采用積分和排行榜公式的方式激勵志愿者,網站上公布了前五十名志愿者的積分,并根據積分將上榜者劃分不同稱號。盛宣懷檔案抄錄項目在平臺首頁右側清晰地展示了前十名的用戶名和積分。
此外,從外部激勵和內部激勵角度激發志愿者的積極性,數字人文數據眾包項目還應針對不同階段靈活采取不同的激勵政策。張軒慧[3,31]對數字人文類眾包項目初期和中后期公眾參與動因進行了探討,提出在眾包項目實施初期,應該增強平臺的易用性和社交性,提高任務的自主性、有趣性和情境性,從而激發參與者的感知有用性和使命感,從而吸引更多用戶參與數據眾包項目,保證項目的正常啟動。在眾包項目實施中后期,項目發起者應該將物質獎勵和精神獎勵有機結合,同時創建志愿者交流社區,將游戲化元素融入平臺,同時增加反饋和協助機制,增強志愿者參與信心;此外在任務設計方面,循序漸進的任務難度和不斷更新的任務種類,才能保持志愿者的持續執行動力,增加志愿者與項目的粘性,保障數據眾包項目的順利完成。
4.3.4 ? 倫理誠信
由于公眾參與眾包的方式包括匿名訪問、注冊登錄、實名參與。因此,一方面數據眾包平臺可能泄露參與用戶個人隱私。如“籍合網”在招募古籍校正志愿者時,要求志愿者填寫真實姓名、身份證號以及發放報酬用的銀行卡號等,此外,一些地理空間眾包工作任務可能會暴露志愿者的地理位置;另一方面,由于參與用戶可以直接接觸研究者的研究資料,因此可能會歪曲眾包的信息,或者將研究者的眾包信息泄露給其他研究者,阻礙數字人文眾包項目的有效實施。因此,眾包項目發起者應該與志愿者在實行任務前簽訂同意書和保密協議,避免知識產權糾紛,眾包發起者和志愿者自覺維護雙方權利,才能促進眾包項目的順利實施。
4.4 ? ?數字人文數據眾包成果管理
4.4.1 ? 成果宣傳
眾包成果可以分為階段性成果和最終成果。在眾包項目運行中,項目方通常會發布相關文章或報告,分享階段性成果,同時也起到項目宣傳的效果,吸引更多的志愿者參與。在項目結束后,除了發表相關文章,項目成果通常還有開放數據庫、開源工具等公開性成果。如邊沁手稿轉錄項目每個月都會在其網站上公布轉錄的進度和成果,并定期向學術界和公眾發布演講。“籍合網”對于完成轉錄校正的古籍,匯總成開放的古籍數據庫供大眾查閱,服務公眾和社會。上海圖書館家譜知識服務平臺將收集到的家譜信息集合成檔案供公眾瀏覽和搜索。
4.4.2 ? 版權管理
從某種角度上講,眾包模式推動了文化和歷史的傳播。為了加快知識的有效流傳,資源所有者應該積極樹立開放意識,主動推進人文學科資源的數據化工作。Cooper等[31]提出應該在志愿者參與科學研究的成果中清晰地標注“公眾科學”的字樣,這不僅可以認同公眾參與科學研究的積極作用,還能提醒未來學者歸納此領域的研究成果。數字人文項目人員逐漸從個體轉變為跨領域學者和志愿者合作團隊組成,數字人文的數據眾包成果也應該轉變著述模式,以“我”為核心的單一著述模式轉變為以“我們”為中心的合作性著述模式,打破傳統的以版權保護和專屬授權限制為中心的著作權理念,限制程度最低的共享與授權模式應該成為主流。邊沁手稿轉錄項目每月更新成果版本,上海圖書館家譜知識服務平臺實時對家譜目錄進行補充。以數字手段出版和發表的作品不再是最終版本,而是處于不斷迭代過程中的更新版,新的知識和發現可以隨時被補充進來。
5 ? 結語
本文從數字人文數據眾包發起者的角度論述了數據眾包運作策略,在數據眾包的設計、運行管理和成果管理三個階段中,具體介紹了轉錄校正型、標記分類型、補充收集型這三種任務,區分了眾包競賽和協作社區的實施方式和不同眾包平臺的特點,并對可能出現的數據管理、質量管理、激勵政策、誠信問題和成果發布與版權問題提出了應對策略。
目前,我國數字人文領域應用眾包形式的案例逐漸增多,我們應當積極吸取國外數字人文眾包項目的成功經驗,充分利用眾包的力量,加速人文數據的建設,推動數字人文研究。數字人文數據眾包對人文數據的建設是有益的補充,數據眾包給數字人文工作提供了數據化的平臺和工具,通過數字人文數據眾包活動,不僅幫助人文學者獲取研究所需的人文數據,還進一步加深公眾對文化和歷史的理解,達到了宣傳的效果[32]。我們在塑造平臺、工具和技術的同時,這些平臺、工具和技術也在塑造我們,由此形成了數字人文的社會生活。
參考文獻:
[1] ?(美)安妮·伯迪克,約翰娜·德魯克,彼得·倫恩費爾德,等.馬林青,韓若畫,譯.數字人文:改變知識創新與分享的游戲規則[M].北京:中國人民大學出版社,2018:121.
[2] ?HOWE J.The rise of crowdourcing[J].Wired,2006,14(6):176-183.
[3] ?張軒慧,趙宇翔,王曰芬.數字人文類公眾科學項目冷啟動階段的公眾參與動因研究[J].圖書與情報,2019(3):61-72.
[4] ?Seitsonen,Oula.Crowdsourcing Cultural Heritage:Public Participation and Conflict Legacy in Finland[J].Journal of Community Archaeology & Heritage,2017:1-19.
[5] ?韓文婷,宋士杰,趙宇翔,等.數字人文類眾包抄錄平臺中任務績效的影響因素研究——基于任務復雜度與領域知識視角[J].圖書與情報,2019(3):73-84.
[6] ?趙宇翔.科研眾包視角下公眾科學項目芻議:概念解析、模式探索及學科機遇[J].中國圖書館學報,2017,43(5):42-56.
[7] ?Oomen J,Aroyo L.Crowdsourcing in the cultural heritage domain:opportunities and challenges[C].International Conference on Communities and Technologies.ACM,2011:138-149.
[8] ?肖奕.數字人文項目合作平臺分析——以DHCOMMONS為例[J].知識管理論壇,2017,2(6):464-476.
[9] ?歐陽劍,彭松林,李臻.數字人文背景下圖書館人文數據組織與重構[J].圖書情報工作,2019,63 (11):15-24.
[10] ?DCC Curation Lifecycle Model[EB/OL].[2019-11-23].http://www.dcc.ac.uk/resources/curation-lifecycle-model.
[11] ?梁連高.淺析紙質文書檔案數字副本OCR識別方法[J].科技與創新,2018(4):129-130.
[12] ?邊沁手稿轉錄項目[EB/OL].[2019-03-20].https://blogs.ucl.ac.uk/transcribe-bentham/.
[13] ?史密森尼轉錄中心[EB/OL].[2019-03-20].https://transcription.si.edu/.
[14] ?盛宣懷檔案抄錄項目[EB/OL].[2019-03-20].http://zb.library.sh.cn/index.jhtml.
[15] ?澳大利亞國家圖書館數字報紙項目[EB/OL].[2019-03-20].http://www.nla.gov.au/content/newspaper-digitisation-program.
[16] ?紐約公共圖書館“建筑檢查員”項目[EB/OL].[2019-03-20].http://buildinginspector.nypl.org/.
[17] ?上海圖書館家譜知識服務平臺[EB/OL].[2019-03-20].http://search.library.sh.cn/jiapu/.
[18] ?紐約公共圖書館“社區口述歷史項目”[EB/OL].[2019-03-20].http://oralhistory.nypl.org/.
[19] ?英國國家檔案館“戰爭日記”項目[EB/OL].[2019-03-20].http://www.operationwardiary.org/.
[20] ?馮劍紅,李國良,馮建華.眾包技術研究綜述[J].計算機學報,2015,38(9):1713-1726.
[21] ?練靖雯,張軒慧,趙宇翔.國外數字人文領域公眾科學項目的案例分析及經驗啟示[J].情報資料工作,2018(5):32-40.
[22] ?邢文明,司莉.Web2.0環境下用戶參與圖書館信息組織的可行性分析——基于用戶接受的實證研究[J].圖書館建設,2012(4):31-35.
[23] ?喬健.美國眾包懸賞競賽創新模式剖析[J].全球科技經濟瞭望,2017,32(10):8-12.
[24] ?InnoCentive眾包創新平臺[EB/OL].[2019-03-20].https://www.innocentive.com/.
[25] ?南京大學信息管理學院主辦的文化遺產數字化競賽活動落幕[EB/OL].[2019-03-20].http://im.nju.edu.cn/content.do?mid=3&mmid=34&cid=7bf6abc0-1634-11e9-b5d3-40a8f01ece83.
[26] ?趙思淵.地方歷史文獻的數字化、數據化與文本挖掘:以《中國地方歷史文獻數據庫》為例[J].清史研究,2016(4):26-35.
[27] ?歐陽劍.面向數字人文研究的多源數據融合[R].第十三屆數字圖書館前沿問題高級研討班(ADLS2016),上海,2016.
[28] ?Ipeirotis P G.Analyzing the amazon mechanical turk marketplace[J].ACM Crossroads,2010,17(2):16-21.
[29] ?Mason W A,Watts D J.Financial incentives and the “performance of crowd”.Proceedings of the ACM SIGKDD Workshop on the Human Computation[J].Paris,France,2009:77-85.
[30] ?Michael Chui,Six ways to make Web 2.0 work[EB/OL].[2019-03-20].https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/six-ways-to-make-web-20-work.
[31] ?Cooper C B,Dickinson J,Phillips T,et al.Citizen Science as a tool for conservation in residential ecosystems[J].Ecology&Society,2007,12(2):375-386.
[32] ?S Schreibman,R Siemens,J Unsworth.Crowdsourcing in the Digital Humanities[M].John Wiley & Sons,Ltd,2015.
作者簡介:岑炅蓮,女,廣西民族大學管理學院碩士研究生;歐陽劍,男,上海外國語大學圖書館研究館員;曾輝,男,廣西民族大學管理學院碩士研究生。