田艷羅 陳建
摘 要:通過對荷蘭阿姆斯特丹檔案館“VeleHanden”(眾在參與)眾包案例的調研發現,其在館藏選擇、用戶激勵、平臺設計和質量控制方面有成熟完善的措施。我國檔案眾包實踐目前存在政策支持不明確、社會關注度不足、平臺管理不完善及檔案開放工作滯后等困境,可以充分借鑒荷蘭先進經驗,從制度規范、檔案開放、公眾參與、平臺建設、質量控制等方面著手進行改進,提高我國檔案眾包實踐質量和水平。
關鍵詞:荷蘭;阿姆斯特丹;眾在參與;檔案眾包;檔案數字化;質量控制;檔案開放
Abstract: The research on the case of 'VeleHanden' crowdsourcing in the Netherlands Amsterdam Archives showsthat it has mature and perfect measures in archival collection selection, user motivation, platform design and qualitycontrol. The current dilemmas of China's archival crowdsourcing practice include unclear policy support, insufficientsocial attention, imperfect platform management, and lagging archival openness. We can fully learn from theadvanced experience of the Netherlands and start to make improvement in terms of system regulation, archiveopening, public participation, platform construction and quality control to improve the quality and level of archivalcrowdsourcing practice in China.
Keywords: Netherlands; Amsterdam; Velehanden; Archival crowdsourcing; Archival digitization; Quality control;Archive opening
眾包即“一個公司或機構把過去由員工執行的工作任務,以自由自愿的形式外包給非特定的大眾網絡的做法”[1],眾包模式在檔案領域的應用也有著許多成功的例子,形成了良好的示范效應。綜合國內外學者的研究發現,對國外檔案眾包實踐的關注更多集中在英語語言國家。荷蘭的檔案眾包項目“VeleHanden”雖然具備開始時間早、參與人數多、平臺設計完善等特點,但是因為項目網站和檔案文字更多使用的是荷蘭語,受到語言的限制并沒有引起更多學者的注意。目前國內對于此項目的直接研究成果僅有一篇,即鄧成雯從檔案眾包的角度對VeleHanden的運行、組織、法律、激勵和質量控制機制進行了全面的介紹,也從規范、主體和客體3個層面提出了對我國開展檔案眾包的啟示,[2]但其研究僅局限于平臺本身,沒有參考足夠的外文文獻,對平臺的前期設計關注較少,并未分析我國檔案眾包的開展困境,其啟示缺乏針對性。
本文對荷蘭VeleHanden眾包項目進行研究,分別從檔案部門、眾包網站設計、眾包項目參與者等多個角度總結歸納出項目特點,尋找其項目開展及順利運行傳播的因素,在分析我國目前檔案眾包實踐及其阻礙因素的基礎上,根據項目研究及我國檔案眾包的現實情況提出更具針對性的啟示。
1 荷蘭“VeleHanden”項目的開展背景及內容分析
1.1 項目開展背景。阿姆斯特丹市檔案館成立于1848年,館藏的各類檔案材料排架長度超過55公里。阿姆斯特丹市的檔案數字化工作開始時間早,數字化程度高。檔案館自20世紀90年代推出網絡查檔系統,2005年為公眾提供按需掃描服務,截止到2020年,已經有3000萬次的掃描。從2023年4月起,檔案館開始提供下載服務,利用者可以根據需求以多種格式下載檔案。
“VeleHanden”的概念由阿姆斯特丹市檔案館首次提出,期望能夠創建一個可持續的眾包平臺,檔案館對平臺的不同部分應該以什么樣的方式開展工作提出構想,由Picturae公司的軟件工程師去具體完成。在項目準備期招募志愿者組建測試小組,提前參與檔案眾包的項目并提出反饋意見,[3]這也為之后吸引公眾參與,維持VeleHanden項目的持續良好運行奠定了基礎。
1.2 平臺簡介。VeleHanden眾包平臺歸Picturae公司所有,負責網站的創建、日常維護和進一步開發以及參與者論壇的管理,并將檔案館提供的檔案材料進行數字化后上傳網站供眾包參與者選擇和開展任務。除阿姆斯特丹市檔案館之外,VeleHanden眾包平臺也歡迎其他檔案機構參與進來,只需要支付一筆服務費[4]。檔案機構是某個具體眾包項目的所有者,提供館藏物品負責具體項目的創建、管理和整體實施[5]。
VeleHanden的網站平臺頁面簡潔,內容清晰明了,主要包括“首頁”“項目”“參與者”“新聞”“關于我們”“幫助”6個模塊。首頁展示了項目、新聞、參與者采訪的精選內容。項目模塊統計了VeleHanden平臺自2011 年創建以來所有的眾包項目,其中已完成(結束)項目98個,用戶還可參與的活躍項目19個。每個眾包項目都有項目信息介紹、參與者可獲得的獎勵、詳細的輸入和操作說明以及可視化的項目進度,并設置了交流論壇可供管理者與參與者和參與者之間的交流互動,方便公眾能夠更順暢地選擇和完成項目任務。新聞部分更新十分頻繁,是平臺發布的關于眾包項目的更新預告、平臺維護說明、重要節日祝福等新聞。截至2023年5月,VeleHanden已經有22367人注冊參與眾包項目,累計完成了1300余萬份掃描件的眾包工作。[6]
1.3 眾包任務分析。在VeleHanden眾包平臺上參與者需要完成的主要任務包括編制索引、著錄照片和添加標簽、校對人工智能的工作等。
為歷史檔案編制索引是平臺上絕大部分眾包項目的主要任務,檔案館館藏的歷史檔案在經過數字化掃描后上傳到平臺,參與者需對文件中的手寫文本進行識別并按要求輸入,這就需要志愿者有一定的古文字水平和必要的外文能力。
為方便更多的初學者參與此類眾包項目,檔案館提供了詳細的輸入說明和部分古代手寫文字與現代字母的對比。2011 年VeleHanden平臺建立之初的首個眾包項目“民兵登記冊1814—1941”是按姓名、出生日期和出生地編制民兵登記冊索引,共吸引了1397名志愿者參與,項目歷時三年多完成并于2022年12月存檔。
照片檔案是歷史畫面的生動寫照,但是由于年代久遠,照片背后的故事和人物信息已經隨時間消逝,為了使這些照片檔案被更方便地檢索到,需要眾包參與者對照片信息進行著錄和添加標記。例如“格羅寧根的形象:新聞攝影機構 D.van der Veen”項目,格羅寧根檔案館保留了新聞攝影機構拍攝的格羅寧根市二十世紀六七十年代大小事件的底片,為了這些圖片能夠更好地被查找和使用,需要參與者對這些圖片進行著錄,如果參與者曾居住在格羅寧根市,或者是格羅寧根足球俱樂部的體育迷,那么將會對著錄這些圖片有很大幫助,對照片中的信息描述得越具體越有利于對照片的檢索利用。
計算機通過深度學習能夠識別早年的手寫筆跡、可以對照片中的場景進行識別和簡單分類,然而計算機的轉錄與識別并不是十分準確,這就需要眾包參與者將原歷史檔案與計算機生成的文本進行比對并更正錯誤,經過糾正,計算機能夠重新獲得訓練提升轉錄的準確性。2022年的“布魯日奧爾德曼銀行檔案的證人證詞”是一個更正類型的眾包項目,參與者對計算機錯誤識別的文本進行更正并做好標記,能夠幫助計算機獲得廣泛的文本語料庫,為研究者提供十八世紀荷蘭南部日常生活的信息。“攝影記憶:訓練計算機”項目首次訓練人工智能應用于識別照片中的場景,參與者從計算機提供的五個類別中選擇出最合適的一個,人工的參與可以訓練計算機更精確地識別出照片的主要主題。
2 荷蘭“VeleHanden”眾包項目的特點
2.1 選擇合適的館藏檔案。所選擇用來參與眾包的檔案包括各種與公眾生活密切相關的信息登記冊,參與者有機會從中找到自己祖先的相關信息,激發了公眾的參與熱情。平臺上的眾包項目除了歷史、民政的類別,還涉及法律契約、證人證詞、地圖標記等,能夠吸引到文史、政法、地理等多領域的愛好者參與進來。
2.2 低門檻與便捷的進入通道。VeleHanden項目是低門檻的,歡迎荷蘭內外的所有人參與眾包。大部分的眾包任務簡單易做,公眾可以很容易地參與進來。除電子郵箱地址必須是真實信息,參與者的姓名、性別和地區等內容都可以虛構,充分尊重志愿者對個人隱私信息的公開權利。平臺在設計時遵循的三個原則是確保快速、簡單和盡可能地自動化,在參與者輸入字段的過程中,掃描圖像會自動定位到相應位置,方便用戶操作提高效率和體驗感。[7]
平臺使用OpenID技術,用戶可以通過Google、Facebook、Twitter等世界通用的社交媒體賬號直接登錄平臺,這也方便了世界上其他地區的用戶參與眾包項目。每周三下午,志愿者還可以到阿姆斯特丹市檔案館大樓的信息中心,在線下與小組成員一起參與轉錄和輸入數據。[8]
2.3 穩定的平臺功能與活躍的平臺氛圍。開發檔案眾包任務依托網絡平臺,因此平臺的穩定性和安全性至關重要。VeleHanden網站的開發商Picturae公司是荷蘭專業的大規模文化遺產數字化服務機構,提供長期在線存儲數字化藏品的服務,有成熟的軟件開發技術和平臺維護能力。為了在線用戶良好的參與體驗,平臺有明文規定的個人信息和隱私保護細則,使用先進的技術維護用戶在操作時的流暢性。
交流論壇和平臺發布的新聞有效地維持了網站的活躍度。平臺設計者很早就意識到溝通是平臺成功的關鍵因素,在每個項目都設了留言和討論區域,參與者可以在討論區發布問題并分享自己的經驗和發現,還可以就其他用戶的問題給出自己的解答。活躍的網站給用戶積極的反饋,使用戶有較高的參與感和獲得感,而不是像完成任務一樣孤零零地輸入數據,能夠有效地增強用戶黏性。
2.4 全過程的質量控制,保障眾包項目的質量。阿姆斯特丹市檔案館很注重眾包項目的質量,從前期設計、中期管理到后期審核做好了全過程的質量控制。
前期合理設計眾包平臺。“在沒有公眾的反饋下開發他們將要使用的工具是錯誤做法”,在VeleHanden眾包平臺的設計過程中,阿姆斯特丹市檔案館就招募志愿者組成測試小組[9],充分考慮參與用戶的意見,開發更適合參與者操作的平臺。在注冊前,公眾可以通過輸入“索引示例”來判斷自己能否勝任這份工作,平臺也能篩選出更適合的參與者。
中期規范參與者的輸入操作。平臺上發布的每個具體的眾包項目都有詳細的具體操作說明,項目介紹能夠讓參與者快速了解項目從而選擇自己感興趣的部分,示例視頻和PDF輸入說明幫助參與者學習如何輸入數據。在用戶第一次操作時,在數據輸入框下還會有自動的步驟引導。網站的自動檢查程序能夠對格式錯誤的輸入提出警告,參與者如果發現異常情況可以通過溝通按鈕直接向項目協調員發送郵件。[10]
后期的檢查審核。VeleHanden使用復式系統,將同一份掃描文件派發給兩個不同的人獨立輸入數據,完成后交由第三人進行審查,如果檢查員不能確定結果的正誤,可以提交給項目負責人進行處理。歷史檔案大部分為手寫文字并且年代久遠,檔案原件會出現手寫錯誤或模糊不清的情況,這給參與者的工作造成很大困擾,兩個參與者較多的輸入分歧也會影響檢查員的審查。為了維護檔案數據的真實性,學會與原始材料的錯誤與缺漏共處至關重要。民兵登記冊項目的搜索系統設計得十分巧妙,在克服原始數據本身存在的錯誤的情況下,能夠方便用戶很輕松地檢索到相應的信息。[11 ]
3 我國檔案眾包實踐困境分析
為更好開發檔案資源,我國已經進行了一些具有檔案眾包色彩的實踐,經過調研發現,目前已開展的項目有“我的北京記憶”項目、盛宣懷檔案抄錄項目、籍合網古籍整理眾包平臺等。這些項目吸引到一定數量的眾包參與者,能夠有效地幫助保護城市記憶、提高檔案轉錄和古籍出版效率,為我國檔案收集眾包、轉錄眾包提供了優秀范例。但是我國的檔案眾包實踐總體來說處于萌芽試點階段,開展數量稀少,公眾參與度低,社會影響較小,面臨著諸多困境。
3.1 制度環境方面:缺乏明確的政策指導。開展檔案眾包缺乏明確的政策支持。2020年新出臺的《中華人民共和國檔案法》第七條增加“國家鼓勵社會力量參與和支持檔案事業的發展”的表述,然而對于何種社會力量以什么樣的方式參與檔案事業并沒有具體的解釋。檔案眾包作為社會力量參與檔案事業的一種形式并沒有專門針對性的規章制度進行指導,從前期準備、平臺設計到參與雙方的權責都沒有統一的規范,只能依靠檔案眾包的發起方在實踐中摸索。
3.2 檔案開放方面:檔案資源開放較滯后。豐富有特色的館藏檔案資源是公眾積極參與檔案眾包的內在動機。然而《中國統計年鑒2022》的相關數據顯示,2001年至2021年,我國綜合檔案館的館藏檔案迅速增長,與之相比的開放檔案數量增速相對緩慢,利用檔案在開放檔案中所占的比例越來越低,這說明我國的檔案開放工作還有很大的提升空間,如表1所示[12]。而在檔案資源的開放過程中,檔案館還應關注到數字化副本的開放問題。近年來隨著檔案數字化項目的開展,極大地提高了館藏紙質檔案的數字化率,但是由于檔案專業人員有限,開放鑒定進程相對緩慢,數字化副本的開放速度滯后于數字化速度[13],影響了公眾對檔案的檢索利用。檔案未經開放也就不能上傳到網站供公眾瀏覽和參與眾包工作,難以吸引到更多的眾包參與者,影響檔案眾包的進程。
3.3公眾意識方面:社會總體關注度不足。自2006年眾包的概念被首次提出以來,眾包模式逐漸在各行各業被廣泛應用,但與營利性質的商業眾包相比,知識文化類眾包的關注度相對較低。此外,檔案眾包的特殊性也使其并沒有獲得足夠的關注。首先,檔案通常被封閉在昏暗的庫房中,在社會大眾的觀念里檔案是神秘嚴肅的。其次,檔案部門沒有很好地進行檔案宣傳。大多數檔案館官方公眾號與公眾的互動很少,對推文留言板塊的留言不予回應,這也消耗了公眾參與檔案事業的積極性。[14]最后,檔案相關信息的受眾有限,傳播范圍小,公眾在網絡上和實際生活中通常沒有機會接收到檔案信息。這些因素阻斷了公眾對檔案眾包的關注,也使得其難以轉化成檔案眾包參與者,為檔案資源的開發貢獻智慧。
3 . 4 平臺建設方面: 平臺管理不完善嚴密。與VeleHanden網站相比,我國現有的檔案眾包平臺缺乏參與者與項目管理者便捷的溝通渠道、眾包任務單一且未進行明確的難度分級、未能做好項目的全程管理。以盛宣懷檔案抄錄項目和古籍整理眾包平臺為例:第一,盛宣懷檔案抄錄項目和古籍整理眾包平臺均未設計交流區,用戶與項目管理者溝通只能通過上一級的上海市圖書館或籍合網平臺進行反饋,不能及時解決在參與眾包過程中遇到的問題,影響參與者的體驗。第二,盛宣懷檔案抄錄項目的任務是將手寫歷史檔案抄錄為現代漢語,對檔案材料中的文本進行識別有一定困難,即便是專業人員也要花費大量時間。第三,平臺的難度分級十分模糊,僅針對項目進行難度分級,而每個項目中的具體任務沒有明確的難度說明,使得參與者不能較快地找到適合自己的任務,影響眾包效率和參與者的積極性。第四,眾包平臺在全程管理方面有所欠缺,在已經截止的75個抄錄項目中僅有23個項目的完成度是百分之百,部分項目甚至沒有人參與抄錄。注冊的用戶可以隨意選擇認領和刪除認領抄錄任務,已經過期的任務仍在任務列表中并未刪除。隨意的項目和用戶管理會影響最終的檔案眾包結果,未及時更新的眾包任務影響了用戶的抄錄效率。
4 “VeleHanden”項目對我國開展檔案眾包的啟示
針對目前我國檔案眾包實踐面臨的困境, 借鑒VeleHanden項目的優秀經驗,我國可以從制度規范、檔案開放、公眾參與、平臺建設、質量控制等方面進行改進。4.1 完善相關制度規范。開展檔案眾包實踐,要政策先行。檔案眾包涉及檔案機構、平臺開發者和公眾等多方主體,流程復雜,運行管理有一定的難度,檔案主管部門應當制定統一的制度規范指導檔案眾包實踐更好地開展。在檔案眾包的開展過程中,需將檔案資源上傳到開放的網站平臺上供大家瀏覽,存在信息安全風險;用戶在眾包平臺上貢獻內容屬于個人的智慧勞動,涉及知識產權保護的問題[15];參與者在注冊時一般需要填寫較多的個人信息,關系到個人隱私的獲取與保護。為了充分尊重各方主體的權利,保障眾包項目的良好運行,VeleHanden平臺制定了專門的信息政策,嚴格遵守荷蘭的法律規范、歐盟的信息數據管理規定,明確了各參與主體的權責。我國也應當參考現有的網絡安全法、個人信息保護法等法律法規制定更適合檔案眾包的制度規范,保障檔案眾包各參與主體的合法權益。
4.2 做好檔案的鑒定開放。雖然我國的檔案開放數量在逐年增長,但因為檔案存量和增量巨大,檔案開放率還處于較低的水平[16],難以滿足開發檔案眾包項目的需求。此外,經過鑒定達到開放標準的檔案是否能上傳到眾包平臺供公眾查看和轉錄,也是實際工作中需要考慮的問題。2022年8月開始實施的《國家檔案館檔案開放辦法》在檔案開放主體和范圍、檔案開放程序和方式、開放檔案利用和保護、保障和監督方面提供了新的指導。
檔案館可以根據本館檔案的利用現狀,總結出用戶對館藏利用最多的內容,優先開展這類檔案的鑒定開放工作。大部分公眾首先對檔案館的館藏檔案感興趣,然后才會參與基于本館館藏開發的檔案眾包項目。隨著歷史上行政區劃的變遷,部分反映同一事件的歷史檔案分散保存在不同省市的檔案館,這時檔案部門之間可以進行溝通交流,合作開發同一個眾包項目。以長征檔案為例,主體收藏在中央檔案館,另一部分存留在中國第二歷史檔案館和云南、貴州、四川等省級檔案館,館際之間的合作能夠聚合更多的相關檔案,達到更好的眾包效果。
4.3 采取多種方式提高公眾參與度。用戶是檔案眾包的核心[17],為了吸引更多的眾包參與者,我國可以采用線上線下兩種方式進行針對性的宣傳,而不僅僅依賴于線上平臺。比如,可以在館內的電子閱覽室開設專門的檔案眾包工作區域,供來館的參觀者和查檔者注冊試用。再如,可在文化機構、學校等場所進行專題宣傳,吸引對歷史和文化感興趣的參與者。
此外,檔案眾包平臺可以適當添加中英雙語切換的功能,吸引對我國歷史檔案感興趣的外國人參與眾包。簡化注冊登錄方式,使公眾能夠較快地開始眾包任務,提高效率。建立眾包項目的互動討論區、制定積分兌換規則、組織參與者的線下活動等用戶激勵方式能夠有效地吸引新用戶,留住已有的參與者。我國可以從這些做法中借鑒優秀經驗,選擇更適合我國國情和公眾的激勵方式。
4.4 選擇合適的眾包平臺。眾包平臺的持續穩定是眾包項目順利運行的重要保障。VeleHanden自上線以來,已持續運行12年之久,這也說明了一個穩定長期的軟件合作公司的重要性。因此選擇合適可靠的軟件開發商共同開發檔案眾包平臺應當作為檔案眾包項目設計的首要任務,軟件開發商應當兼具專業能力與人文素養。一個成熟的眾包平臺還應當包括詳細的規則說明,對平臺開發者、發包方和參與者的權利和義務進行明確的規定。國外的數字人文眾包平臺對用戶個人的隱私保護十分重視,其關注點集中在信息內容、信息安全和信息存儲等七個主要類別[18],尊重眾包參與者的個人權利,同時也對用戶的行為進行約束和規范,以保障其他用戶和檔案資產的信息安全。
4.5 做好眾包全過程質量控制。對眾包結果的質量擔憂阻礙了部分檔案機構開發眾包項目的步伐,因此需要做好充分的準備,預防錯誤的發生。第一,在設計眾包項目時,綜合考慮本館實際需要和參與者的能力,選取恰當的檔案材料并按難易程度分類,便于參與者根據自身能力選擇項目。同時需要為項目編寫詳細的輸入說明和系統使用說明,必要時錄制教學視頻,為參與者的正確輸入做好保障。第二,在參與者錄入的過程中,設計自動程序識別錯誤格式并發出提醒,設置討論區供參與者交流遇到的問題與經驗體會,項目管理者通過討論平臺能夠了解參與情況并及時解決參與者的問題。第三,眾包任務完成后的審核過程,應對有經驗的眾包參與者進行審核培訓,審核結果由檔案員進行檢查,以確保檔案眾包成果的最終質量。
5 結語
荷蘭“VeleHanden”眾包項目幫助檔案館切實解決了檔案在線檢索利用的難題,滿足了用戶快速檢索檔案的需求。對其眾包平臺設計、項目選擇、用戶激勵和質量審核等方面進行分析探討,對我國開展檔案眾包實踐具有重要啟發借鑒意義,對于促進我國檔案信息資源開發利用模式轉型升級,提高檔案事業社會參與度具有重要參考價值。
*本文系2018年度國家社科基金青年項目──基于過程管理的歷史檔案開發利用眾包模式研究(項目編號:18CTQ039)資助成果;山東大學2022年度教育教學改革研究一般項目《檔案學概論》(項目編號:2022Y059)資助成果。
參考文獻:
[1]HOWE J.The Rise of Crowdsouring[J].Wired,2006(6):176-183.
[2]鄧成雯.荷蘭阿姆斯特丹檔案館“VeleHanden”眾包項目機制研究及啟示[J].檔案管理,2021(6):11 6-11 9.
[3][7][9] NEIIEKE,SIGNE.Participatorytranscription in Amsterdam and Copenhagen[C]//Edward Benoit III,Alexandra Eveleigh.ParticipatoryArchives:Theory and practice.London:FacetPublishing,2019:103-11 3.
[4][10][11 ] FLEURBAAY E,EVELEIGH A.Crowdsourcing:prone to error?[C]// International Council onArchives conference.2012.
[5]Gebruiksvoorwaarden VeleHanden.nl[EB/OL].[2023-05-01].https://velehanden.nl/Inhoud/paginas/index/id/gebruiksvoorwaarden
[6]VeleHanden.nl[EB/OL].[2023-05-01].https://velehanden.nl/.
[8]Ontdek de geheimen van het archief[EB/OL].[2023-05-01].https://www.amsterdam.nl/stadsarchief/agenda/vrijwilligers/
[12]中華人民共和國國家統計局.中國統計年鑒2022[M].北京:中國統計出版社,2022.
[13]馬雪雯.我國紙質檔案數字化工作研究[D].南京:南京大學,2020.
[14]馬志穎.社交媒體時代檔案領域公眾參與研究[D].蘇州:蘇州大學,2020.
[15]祝一,陳建.參與共治與開放共享:新加坡國家檔案館檔案眾包項目實踐及啟示[J].北京檔案,2022(10):43-47.
[16] 曲春梅,劉曉雨,王溶琨.檔案開放促發展 數據共享惠民生:2022年中國檔案利用體系建設發展報告[J].中國檔案,2023(3):26-27.
[17]丁越.開放融合與參與共贏:美國國家檔案與文件署的檔案眾包實踐及其啟示[J].檔案與建設,2022(12):48-52.
[18]徐孝娟,趙澤瑞,賈海洋,史如菊.國外數字人文眾包個人信息保護研究及啟示:以網站運營者“隱私政策”為視角[J].現代情報,2023,43(2):168-177.
(作者單位:山東大學歷史文化學院 田艷羅,碩士研究生;陳建,管理學博士,歷史學博士后,副教授,碩士生導師,澳大利亞莫納什大學訪問學者 來稿日期:2023-06-01)