徐孝娟 趙澤瑞 賈海洋 史如菊
(安徽大學管理學院,安徽 合肥 230039)
數字人文作為近幾年興起的交叉研究領域,因其研究工作量巨大、涉及內容較為分散、經費支持有限及要求研究人員學科背景多元等特點,結合眾包所具有的開放式創新和群體智慧理念,可有效幫助項目管理者從外部獲取更有效、更經濟、更優質的問題解決方案,使得眾包在數字人文環境下迅速發展,不斷涌現理論及實踐研究成果,主題已延伸到美術、圖書館、檔案、博物館和教育機構等領域[1-3]。如美國國會圖書館利用Flickr,邀請用戶對照片進行標簽和評論等;英國維多利亞和阿爾伯特博物館要求公眾評選最優照片;國內CADAL利用用戶定位描述不佳的圖書、修訂圖書的描述信息以及修訂期刊目次頁等;上海圖書館歷史文獻眾包平臺作為文本抄錄及元數據深度標引的平臺。然而,眾包用戶在參與過程中會留下大量的個人信息被眾包項目平臺及第三方采集等,尤其是數字人文眾包這一非商業情境下,存在諸如密碼泄露、位置跟蹤、會話竊取、用戶權利不明確等隱私侵權問題[4-5];同時,我國學者也指出,志愿者隱私泄露是數字人文眾包中個人信息風險的重要問題[6],且公眾隱私保障會顯著正向影響志愿者對公眾科學項目的信任[7]。
目前,有關眾包個人信息保護研究主要集中在個人數據保護、個人隱私和信息安全等主題[8-9],例如學者Yr A等和Meftah L等分別基于強化學習(PICRL)和軟件庫,在不影響數據集質量的情況下加強移動眾包應用程序對用戶信息的保護力度[10-11];Xia H等基于索洛夫的隱私分類法,對眾包中個人隱私的保護策略加以探討[12];Xiong P等和Lan Z等分別基于優化獎勵分配策略框架和購買數據集框架來保護用戶隱私[13-14]。不難看出,上述研究多側重于從計算機方法技術的角度對眾包用戶個人信息的保護進行探索。然而,對于眾包中隱私政策內容設置的規范性及系統性等方面的研究尚需要進一步完善。此外,隱私政策作為保障用戶個人信息權益和法律權益的重要一環[15-16],可以有效緩解用戶個人信息擔憂,優化隱私保護框架[17-18]。目前國內外學者已基于隱私政策在圖書館[19-21]、社交媒體APP[22-24]及移動健康[25-26]等領域對個人信息保護展開探索,結果發現,從隱私政策的角度可以幫助推進個人信息保護政策的研究及實踐開展。與此同時,從數字人文眾包情境開展個人信息保護方面的探索,可有效彌補非商業情境眾包理論及實踐應用的不足,增加用戶對數字人文眾包項目的信任度,進而提高參與度及忠誠度。綜上所述,本研究將以“隱私政策”為視角,對數字人文眾包平臺中個人信息保護展開探索。
美國是最早開展眾包項目的國家并取得了階段成果,自此澳大利亞、英國、新西蘭等國都相繼開展了數字人文眾包工作,并積累了豐富的理論及實踐經驗。與國外相比,國內數字人文眾包平臺的數量和質量仍存差距[27]。基于此,本研究將聚焦于國外代表性的數字人文眾包平臺,對各平臺中隱私政策文本內容進行深入剖析,歸納總結其可供借鑒的相關研究成果,以期為我國數字人文眾包個人信息保護相關實踐的發展提供借鑒。
筆者利用網絡調查法并結合數據的可獲得性,依據各國(地區)數字人文眾包項目的充實度和豐富性,從眾包項目影響力、資源類型的多樣性、地域分布的均衡性及公眾的完成度等層面進行比較和篩選,最終選取美國、英國、澳大利亞、新西蘭4個國家的典型性數字人文眾包項目共47個,按照圖書館、博物館、檔案館、第三方及其他類別進行分類[28],其中圖書館平臺發起的項目共計14項,博物館12項,檔案館10項,第三方及其他(如維基百科、麻省理工學院、書目研究中心及盈利性公司組織等)共計11項,具體如表1所示。數據收集截止時間為2021年10月15日,資料均來源于其官方網頁。與此同時,數字人文眾包因不同的項目類型的信息需求不同,在特定的任務信息需求下,對參與者個人隱私內容的要求存在差異。為此,本研究基于Oomen和Aroyo的數字人文類眾包分類體系,按照轉錄型、修訂型、分類型及補充收集型進行分類[29-30]。其中,轉錄型共計20項(圖書館4項、博物館5項、檔案館2項、第三方及其他9項);修訂型共計6項(圖書館4項、博物館1項、檔案館1項);分類型1項(檔案館1項);補充收集型20項(圖書館6項、博物館6項、檔案館6項、第三方及其他2項)。

表1 國外數字人文眾包項目概況
為了更好地探索國外數字人文眾包項目中隱私政策文本的內容及規律,提煉分析個人信息隱私政策的特征指標,從而指導個人信息保護的開展。本研究主要從以下4個方面開展:
1)首先對原始隱私政策資料進行可視化主題詞聚類分析,生成高頻詞云圖;其次采用LDA算法挖掘相關主題,一方面有助于快速了解隱私政策文本背后隱藏的主題思想;另一方面可為步驟2中主范疇的凝練、命名等提供客觀證據指導。
2)為保證研究的精準度和深度,采用扎根理論這一探索性研究方法,借助Nvivo12文本分析工具,對數字人文眾包項目中隱私保護政策的具體內容進行提煉和編碼,對關鍵節點進行梳理和總結,最終形成個人信息隱私政策的類目體系。
3)在計量統計和分析的基礎上,挖掘不同國家、不同項目平臺及不同項目類型對各特征維度的關注程度,比較分析其個人隱私政策建設狀況的共性建設經驗及個性差異化特征。
4)結合我國當前數字人文眾包項目隱私政策的制定現狀,為我國數字人文眾包個人信息保護提出意見與建議。
2.1.1 主題可視化
為探究國外數字人文眾包項目隱私政策的主題特征,本研究利用高頻關鍵詞云圖挖掘文本數據內容,并基于LDA算法中文本困惑度進行主題鑒別和主題詞抽取,其中困惑度越小則其泛化能力越強[31]。其中高頻關鍵詞字體越大、越靠近中心位置的詞匯被提及的頻率越高,且本研究主題數目為3時困惑度最低,因此最終抽取的主題數目為3,具體主題可視化分布如圖1所示。

主題主題詞特征Topic1信息 數據 提供 服務 個人信息 網站 收集 隱私 訪問 政策 第三方 電子郵件 用戶媒體 地址 共享圖書館 CookieTopic2個人信息 國家檔案館 信息 隱私 網站 記錄 訪問 收集 提供 圖書館 披露 投訴 政策 目的 用于 澳大利亞 App 數據Topic3網站 數據 信息 Cookie 研究 電子郵件 收集 訪問 頁面 用戶 選擇 隱私 注冊 地址 功能 項目 瀏覽器 政策主題—詞匯分布
由高頻關鍵詞和主題—詞匯分布可知:Topic 1的關鍵詞可將其歸納為“信息收集”,如收集渠道、機構等;Topic 2的關鍵詞可將其歸納為“信息安全”,如隱私、法律、保護及披露等;Topic 3的關鍵詞可將其歸納為用戶個人“信息內容”,如個人信息、身份、地址、國家(地區)及瀏覽器等。
2.1.2 國外數字人文眾包項目隱私政策框架
為進一步構建國外數字人文眾包項目個人信息隱私政策的范疇并形成類目體系,本文借助Nvivo12質性分析軟件對47個數字人文眾包項目網站所對應的隱私政策文本,按照扎根理論的流程,首先將初始資料標簽化、概念化,并將類似的概念聚類分析形成初始范疇;其次,對編碼所形成的初始范疇歸納分析,梳理隱私政策文本內容初始范疇之間的關系,形成主范疇[32]。為了確保研究結果的可信度,生成更多的新概念和范疇,本文邀請兩位研究者分別對文本內容進行獨立編碼,并對兩位工作人員的編碼結果進行一致性信度分析,其中相互度K=2M/(N1+N2)、信度R=n*K/(1+(n-1)*K),抽取結果一致性為0.89,大于0.8則說明研究可信[33],信度檢驗通過。與此同時,結合2.1.1得到的關鍵詞云圖和主題分布客觀證據,最終提煉出84個初始范疇,經過進一步的整合和凝練,本文將其歸納為7個主要類別,分別是:信息內容、信息安全、信息存儲、信息共享、信息使用、信息收集、用戶權利。基于此,國外數字人文眾包項目隱私政策框架具體如表2所示。

表2 國外數字人文眾包項目類目體系及其范疇
1)信息內容層面,主要指隱私政策中明確向參與者收集的信息。主要包括用戶姓名、出生日期、地址、電子郵件地址、電話號碼和性別等個人數據信息;使用項目服務或設施過程中以及與項目通信過程中提供的信息。
2)信息安全層面,主要指隱私政策中規定的對參與者個人信息的保護措施或手段以及對數字人文眾包項目中未成年參與者個人信息的處理規范。主要分為信息使用與披露和保護措施兩方面。信息使用與披露即如何采取合理措施保護個人信息免遭濫用、干擾、丟失、未經授權的訪問、修改或披露,以及對于未成年訪問措施等特殊信息的處理;保護措施即以實現信息安全為目的,具體使用某種特殊的軟件程序和技術去識別未經授權的上傳或更改信息的嘗試,以及對工作人員的培訓和相關工作準則的制定。
3)信息存儲層面,主要指隱私政策中明確對參與者的個人信息存儲保留,主要包括存儲方式、存儲時長及存儲位置。具體為:根據保留時間表對用戶的個人數據進行保留,規定個人信息按照物理格式保存在紙質文件中或是以電子形式保存在電子數據庫中,以及對無須再予以保留的個人信息數據將以何種方式安全刪除做出解釋。
4)信息共享層面,主要指隱私政策中明確參與者的個人信息在何種情況下會對外或對第三方轉讓、共享、公開披露、提供或傳輸。規定用戶共享信息的范圍、具體內容,依據法律要求或用戶授權所規定的共享條件,選擇內部團隊、外部合作伙伴或政府部門等具體的共享對象,以及共享個人信息時所采用的具體方式。
5)信息使用層面,主要指隱私政策中明確對參與者信息進行使用或加工的目的或方式。明確所處理收集的個人信息是何種用途,以及對為了達到某種目的所需的具體信息做出說明,同時闡明所收集的某項具體信息的合法依據。
6)信息收集層面,主要指隱私政策中明確信息收集的渠道、條件以及所采用的收集方式。具體包含收集方式、收集渠道、收集技術,即平臺通過何種方式來達到收集個人信息的目的。如平臺通過Cookie交互功能等技術或在用戶自動提供相關數據、記錄個人信息時收集。
7)用戶權利層面,主要指隱私政策中參與者對自己信息處置的權利。明確用戶在參與數字人文眾包項目過程中所享有的具體合法權益。筆者通過對上述47個眾包項目的分析,共提取出享受服務權、更正權、限制權、建議權、投訴權、知情權、咨詢權、訪問權、使用權、撤回同意權、反對權、刪除權及數據轉移權13個權利。
為了更好地探究不同發起平臺、國家(地區)、項目類型在數字人文眾包個人信息保護方面的差異,筆者基于所提取的7個指標,對47個數字人文眾包項目網站對應的隱私政策文本進行統計,如圖2所示。
2.2.1 整體性差異
指標上,“信息收集”“信息安全”“信息內容”3個指標的關注度都比較高,相對來說內容完備性較好,再次驗證了基本概況中主題可視化的“宏觀”結果。無論是不同發起平臺、不同國家(地區)還是不同項目類型,上述3個指標占比均達100%,其次分別為“信息共享”“信息使用”和“信息存儲”,在不同發起平臺層面平均占比分別為96.13%、93.18%和91.40%,國家(地區)層面平均占比分別為93.25%、93%和89.25%,不同項目類型平均占比分別為93.33%、96.25%和95%,分別有44、44和43個項目提及;對用戶權利的整體關注度較低,不同發起平臺對“用戶權利”的平均關注度僅有67.85%,不同國家的平均關注度為69.5%,不同項目類型的平均關注度為81.25%,僅有32個數字人文眾包項目提及,可以看出各國隱私政策對于“用戶權利”這一維度的關注度相對較低。
2.2.2 發起平臺的政策內容差異
不同發起平臺上,由檔案館、博物館所發起的指標完整度相對較高。檔案館除“用戶權利”,其他指標較為完備;圖書館更為關注“信息存儲”“信息共享”;博物館的“信息存儲”“信息共享”“用戶權利”3個指標關注度高于平均水平;第三方及其他發起的項目中,僅有“信息使用”占比高于平均水平。
進一步結合隱私政策文本,不同發起平臺所屬維度內容上的特征:①信息內容維度,各發起方均對所需收集的“個人信息數據”進行說明。此外,“訪問鏈接”“訪問日期”也是各發起方關注的重點。但檔案館與“第三方及其他”機構較重視對參與者“設備信息”的搜集,而圖書館、博物館更多提及參與者的“敏感信息”及“位置”,檔案館則關注參與者的“隸屬組織”;②信息存儲維度,博物館更側重于強調“存儲時長”,檔案館、圖書館則強調“存儲位置”;③信息共享維度,博物館側重說明“所需共享的內容”,圖書館、檔案館側重說明“共享對象”,第三方及其他更側重于說明“共享條件”;④信息使用維度,圖書館、檔案館及“第三方及其他”機構側重于網站內部的優化,如“產品與服務的改善”和“數據分析”。博物館則更側重于業務的拓展,如“營銷推廣”;⑤信息收集維度,各發起方均對所采用的“收集技術”進行說明,此外博物館的“收集方式”更具多樣性;⑥用戶權利維度,各發起平臺均較為關注“更正權”與“刪除權”,此外,圖書館會進一步關注“撤銷權”,檔案館進一步關注“知情權”;⑦信息安全維度,各發起平臺均對其平臺所采取的安全保護措施進行說明,圖書館和博物館開始關注未成年人信息安全。此外,僅有少部分博物館對信息安全用戶自身責任做出說明。
2.2.3 發起國家的政策內容差異
不同發起國家中,英國和新西蘭指標完整度較高,英國平均占比高達97.71%,新西蘭高達94.86%,澳大利亞和美國相對較低。除去“信息收集”“信息安全”和“信息內容”3個關注度較高的指標,新西蘭對于其余4個指標的關注程度均高于平均水平,英國對于“信息存儲”“信息共享”“用戶權利”3個指標的關注度較高,美國更側重于“信息使用”這一指標,澳大利亞僅有“用戶權利”這一指標高于平均水平。
基于隱私政策文本,所屬維度內容上特征:①信息內容維度,各發起國家均重視對“個人信息數據”的收集。此外,“瀏覽信息”也是美國關注的重點;②信息存儲維度,美國和英國較為關注“存儲時長”,澳大利亞和新西蘭更關注“存儲位置”;③信息共享維度,各國對“共享對象”的關注程度都比較高,然而對“共享條件”的關注程度比較低,值得注意的是,英國隱私政策還單獨提到了“疫情追蹤”,將共享條件與疫情防控聯系起來;④信息使用維度,各國均側重于網站內部的優化,其中英國這一指標的整體完整度較高。“網站數據統計”“記錄保存”“提供服務”這3項指標的提及次數較高;⑤信息收集維度,4個國家項目除了采用“Cookies”對用戶信息進行收集外,還會采用“Google Analytics”技術進行輔助收集。在“收集方式”這一維度,美國與英國占比較高,澳大利亞的收集方式更豐富多樣;⑥用戶權利維度,英國對用戶權利的重視程度較高,還單獨提出了“數據轉移權”。美國和英國所提及的用戶權利較為多樣;⑦信息安全維度,美國的指標完整度較高,各國均提及“訪問權限”和“安全措施審查”,說明這兩項措施更受隱私政策制定者青睞。
2.2.4 項目類型的政策內容差異
不同項目類型中,修訂型、補充收集型、分類型項目完整度較高,平均占比分別為97.62%、94.29%以及100%;轉錄型指標完整度相對較低,為88.57%。除去“信息收集”“信息安全”和“信息內容”3個關注度較高的指標,分類型指標覆蓋率均為100%;修訂型除“信息共享”這一指標,其余指標覆蓋率均為100%;補充收集型更關注“信息共享”;轉錄型其余4個指標均低于平均水平。
內容進一步細粒度挖掘如下:①信息內容維度,轉錄型側重于對“設備信息”的收集,修訂型、補充收集型更側重于對“個人信息數據”的收集;②信息存儲維度,轉錄型和修訂型更側重于強調“存儲位置”,補充收集型更側重于強調“存儲時長”;③信息共享維度,“共享對象”是各類型項目隱私政策關注的重點,補充收集型還進一步強調“共享內容”;④信息使用維度,各類型項目主要用于網站內部的優化,其中修訂型項目這一指標的整體完善度更高;⑤信息收集維度,“收集技術”是各個項目關注的重點,此外,轉錄型、補充收集型、分類型還側重于強調“收集時間”,修訂型還側重于強調“收集方式”;⑥用戶權利維度,修訂型與分類型所有項目隱私政策均對用戶權利進行說明。然而,轉錄型的20項中僅有11項對用戶權利進行說明。除關注度較高的“更正權”和“刪除權”,修訂型還進一步關注“訪問權”和“知情權”;⑦信息安全維度,各類型項目多聚焦于說明平臺所采取的保護措施。此外,對14歲以下青少年群體以及用戶自身責任的關注度提升。
3.1.1 國內數字人文眾包項目
目前,我國積極開展數字人文眾包項目,并取得了探索性的實踐成果,如上海數字人文眾包系列、Cadal眾包項目及北京記憶項目等,主要開設平臺聚焦為圖書館、博物館、檔案館以及其他第三方平臺(如高校、人文研究中心等聯合)。本文基于數據可獲得性選取代表性項目,具體發起方及工作內容如表3所示。截至2021年10月7日,“盛宣懷檔案抄錄項目”已發布75項共計656個任務,已完成431個[34];“古籍整理工作平臺”目前主要參與者有3 389位,整理成果4本,整理任務5 090個[35];“北京記憶項目”目前已添加2 271條記錄,1 041篇文集,8 683張圖片,444個視頻[36];“社會檔案人項目”目前已完成詞條編輯10個[37]。

表3 國內代表性數字人文眾包項目
3.1.2 國內數字人文眾包項目隱私政策
目前,我國所開展的數字人文眾包項目隱私政策如下:“北京記憶項目”在互動網站“我的北京記憶”中設置了隱私聲明[38];“盛宣懷檔案抄錄項目”在《上海圖書館網上注冊服務協議》中提到了隱私制度及保護措施[39];“古籍整理工作平臺”在《用戶注冊協議》中設置了隱私保護內容[40]。“盛宣懷檔案抄錄”“古籍整理工作平臺”與“社會檔案人”目前還沒有制訂具體的隱私政策。筆者借助Nvivo12質性分析軟件對國內數字人文眾包項目隱私政策的具體內容進行提煉和編碼研究,共得到“信息收集”“信息共享”和“信息安全”3個主范疇。具體內容如表4所示。

表4 我國數字人文眾包項目隱私文本內容
筆者通過對我國數字人文眾包項目指標體系的比較分析可知:第一,目前我國數字人文眾包項目平臺隱私政策在形式上仍處于摸索階段,具體表現為制訂缺失、無統一標準且尚未形成完整的政策體系。如“北京記憶項目”平臺制定了特定的《隱私聲明》,而“盛宣懷檔案抄錄”與“古籍整理工作平臺”兩者隱私保護內容位于“注冊協議”中。第二,文本內容覆蓋面相對較窄。隱私文本僅涉及“信息收集”“信息共享”“信息安全”3個指標。相較于國外形成的“信息內容”“信息安全”“信息存儲”“信息共享”“信息使用”“信息收集”“用戶權利”7個指標體系尚有不足之處。因此,研究國外數字人文眾包項目隱私政策的成功經驗,對我國探索與制定隱私政策具有較高的參考價值。
本研究以47個國外數字人文眾包項目為研究對象,整體上挖掘了隱私政策高頻關鍵詞圖譜、主題分布以及個人信息隱私保護政策的類目體系,并進一步剖析了發起平臺、國家(地區)及眾包項目類型間的差異,本研究在具有理論價值的同時,也具有較強的針對性和現實意義。
第一,本研究構建了國外數字人文眾包項目隱私政策框架,涉及信息內容、信息安全、信息存儲、信息共享、信息使用、信息收集及用戶權利7個維度,并明確了各指標具體內容,可以為我國個人信息保護隱私政策的設置提供框架及內容上的理論指導。雖然我國已從國家層面制定了《個人信息保護法》《網絡安全法》等保護個人信息的法律法規,但目前數字人文眾包類項目尚未制定統一的行業標準,因此,應在國家相關個人信息政策法規的基礎上,結合我國數字人文眾包項目個人信息的特點以及國外現有成果,明確眾包項目隱私政策中應包含的基本內容和關鍵條款,制定統一的、有實際執行意義的行業標準,加強行業自律。
第二,剖析發現不同發起平臺、不同國家(地區)及不同項目類型隱私政策文本側重點存在差異,如在信息存儲這一維度,博物館、美國和英國、補充收集型更側重于強調“存儲時長”,檔案館、澳大利亞和新西蘭、圖書館以及轉錄型、修訂型則強調“存儲位置”。由此,我國數字人文眾包項目應在充分結合我國個人信息保護法規的基礎上,有針對性地制定條款細則,可以根據發起平臺、任務類型的差異,“有的放矢”地參鑒上述研究成果。
第三,各機構、各國(地區)在“用戶權利”這一維度的關注度均相對較低,隨著我國網民對用戶權利的重視增加,特別是《個人信息保護法》中明確規定了個人信息權利包括知情權、決定權、查閱權、更正權、刪除權等,可見未來強化數字人文眾包項目中個人信息主體權利變得尤為重要。國外數字人文眾包隱私政策在更正權、刪除權、撤銷權、知情權、訪問權和知情權等進行的探索,可供我國參考。
第四,對于青少年群體的關注,已得到了國外的重視,應優化與完善我國數字人文眾包項目未成年人隱私保護政策。隱私政策的制定須權衡青少年個人信息保護,提升隱私政策的針對性,對未滿18周歲,特別是14周歲這個界定,重點突出對其個人信息的個性化保護條款,并采取有針對性的具體保護措施:如對所有14周歲以下青少年采用更低的同意年齡閾值;提供“家長控制”功能,在收集和利用未成年人個人信息時應做出明確的提示或征詢其父母(監護人)的同意等。