隨著互聯網軟硬件設施以及智能設備的普及,社交媒體在人類活動中得到越來越普遍的使用。社交媒體正形成海量信息,記錄人類形形色色的活動。為了保存人類活動的證據,留存社會記憶材料和信息資源,社交媒體歸檔獲得檔案領域的關注,美國、英國、澳大利亞、加拿大、中國、韓國等都開始在政策與數字檔案館的建設方面進行考慮,或已開展相應的行動。
然而,社交媒體歸檔從技術、社會、文化、法律等方面給予檔案領域管理挑戰,例如信息量大、互動性、超媒體、即時性造成的檔案化保存困難,所有權和隱私的鑒定與保護問題,缺乏和平臺服務提供商的合作以及無存檔機制等不利因素,但當前在理論或實踐上都沒有一套完善的方案。
本文一方面梳理全球社交媒體歸檔的主要進展,呈現各國成果和經驗;另一方面審視目前各國社交媒體歸檔面臨的主要問題,從中進一步探討社交媒體歸檔改進的關鍵點與未來的走向。
英國國家檔案館有著長久的網站歸檔歷史,業已形成龐大的網頁檔案庫,社交媒體信息也是其捕獲對象。它從2011年啟動針對社交媒體歸檔的兩年期項目,平臺為Twitter與YouTube,以賬戶為單位收集信息,收集對象僅限于英國核心政府機構,使用的是自主開發的、用于捕獲與提供利用社交媒體內容的自動化工具。英國國家檔案館的社交媒體歸檔確保了收集的賬戶即便原始賬戶消失,其形成的內容依然可用。
2014年,英國國家檔案館發布了第一批可在線利用的社交媒體檔案,包括幾千份原始視頻和超過65000的Twitter信息,主要內容包括:內閣辦公室、英國政府、國防部等51個政府機構Twitter賬戶發布的信息,2012年奧運會與殘奧會7類主題信息,38類政府機構的視頻庫,2個2012奧運會與殘奧會的視頻庫[1]。
2.2.1 聯邦政府機構
與英國國家檔案直接歸檔政府機構的社交媒體信息不同,NARA主要指導與監督形成信息的聯邦機構依據NARA和自身的規定歸檔,并發布了《社交媒體文件管理指南》,對捕獲、保管期限等做了相應規定[2]。
依據NARA發布的《社交媒體白皮書》,截至2013年5月,美國聯邦疾病控制中心、農業部、住建部、國務院、退伍軍人事務部、總務管理局、文件與檔案管理署、海軍、史密森學會、美國海岸警衛隊、環保部等10余個聯邦機構都各有其社交媒體歸檔政策,且已經在開展相應工作[3]。例如,美國聯邦疾病控制中心關于社交媒體信息的管理政策有《疾病控制中心社交媒體工具、指南和最佳實踐》《Twitter指南和最佳實踐》《Facebook 指南和最佳實踐》。
2.2.2 國會圖書館
與NARA主要關注聯邦政府機構不同,國會圖書館收集的對象更為廣泛,包括社會組織、機構、群體和個人所形成的信息,其目的主要是為未來的研究提供豐富的社會材料。2010年4月,美國國會圖書館和Twitter簽訂了一項協議,國會圖書館從協議生效起可獲得Twitter公司建立起即2006年到2010年4月的tweets檔案。國會圖書館起初的目標是:獲取與保存2006年至2010年的tweets檔案;建立安全與可續的流程來接收和保存直到當前的日常與持續的tweets流;建立迄今為止所有檔案的組織框架。到2013年1月,這些目標得以實現,國會圖書館擁有1700億條tweets,且持續增長[4]。
2.2.3 美國地方州
美國各州如亞利桑那、俄亥俄、紐約、北卡羅萊納、華盛頓、俄勒岡、德克薩斯、緬因、佛羅里達、馬薩諸塞也都在不同程度開展社交媒體歸檔項目,如,華盛頓州2011年頒布了《華盛頓州政府社交媒體應用指南與最佳實踐》,從隱私、利用、服務協議、內容的合法管理、安全、文檔保管等方面規范社交媒體賬戶的運營與維護;亞利桑那州在2012年發布的《公共機構電子通訊、社交網絡與網絡文檔通用保管期限表》中規定社交網絡與網絡文檔的類型、保管期限以及保管的起始時間。此外阿拉巴馬州的檔案與歷史部門從2006年起就開始收集阿拉巴馬州檔案機構的Facebook頁面、阿拉巴馬州的美國國會代表和參議院的twitter、州政府機構的YouTube視頻等。
澳大利亞國家檔案館同樣關注社交媒體歸檔,但目前政策比較簡單。澳大利亞國家檔案館認為社交媒體形成了新類型文件,各聯邦機構有義務管理好這些文件,并發布了《使用社交媒體工具過程中的文件管理事宜》,主要從如下方面提示聯邦機構應當注意的文件管理問題:如何管理存儲于第三方的信息、如何確保捕獲的是準確和真實的文件、機構與使用社交媒體的雇員捕獲社交媒體文件卻不能滿足于動態變化的社交媒體時有哪些職責、哪些互動類的信息需要捕獲、是否需要保存所有的活動信息[5]。同時,澳大利亞國家圖書館收集所有澳大利亞中央政府機構的網絡檔案(AGWA),社交媒體文件也是其中收集的對象。
社交媒體在中國有著極其廣泛的用戶群,政務微博與微信已建成當前中國最大的網絡議政廳。依據檔案事業發展“十三五”規劃,為了提升電子檔案管理水平,核心任務之一就是要研究制定重要網頁資源和社交媒體文件的歸檔管理辦法??梢钥闯?,中國的社交媒體歸檔也開始進入行動之中,亟待政策、技術、專業等方面的支持。
社會的營利或非營利的非官方機構同樣參與或協助收集網絡信息。Internet archive是典型代表,作為非營利機構,它一方面幫助留存社會信息資源與文化遺產,至2016年就建立20年的Internet archive已為網絡保存了4450億的網頁,總量達到23PB,社交媒體平臺Twitter、Facebook與YouTube的網頁抓取量是2015年最高的15個網站中的3個。另一方面,Internet archive也協助社會組織、機構、群體與個人歸檔保存所需網絡信息滿足個性化需求,開發了頗為廣泛的應用工具archive-it幫助個人與機構歸檔社交媒體[6]。
從當前全球的社交媒體歸檔行動來看,工作已經取得一定成效,具體來說:
第一,從內部的電子系統轉向更加開闊的互聯網平臺,拓展了檔案職業陣地。盡管互聯網歸檔已有20年左右的歷史,但各國檔案領域參與的深度與影響力有限,其他信息行業如圖書館、信息技術部門或是第三方機構都有更豐富的實踐。社交媒體是當前互聯網的主流應用之一,是主導互聯網的web 2.0技術與理念的典型代表,對社交媒體的歸檔可以說是從互聯網的核心開啟檔案領域的新工作,改變此前參與有限的被動狀態。
在互聯網的驅動下,人類社會正面臨數字轉型帶來的社會、文化、技術挑戰,從社交媒體入手,探索在開放、互動、動態、異構化、參與的環境中如何重塑數字文件形成、保存與開發利用流程,檔案領域管理對象、管理主體、管理方式等核心要素如何變化。具體來說,在社交媒體歸檔過程中,涉及歸檔范圍與標準、捕獲方式與技術、歸檔信息整合、歸檔信息長期保存與可信性維護,以及歸檔信息資源智能開發與利用等問題,這些問題的探討本質上就是在新的數字環境中推動檔案理論、方法論以及實踐的創新。
一方面,通過歸檔行動保管一定數量的社交媒體信息,為社會、組織與個人留存開展活動的證據與記憶材料,形成具有豐富價值的信息資源庫;另一方面,由此形成的一系列政策、指南與經驗報告,都可為后續的社交媒體歸檔行動乃至其他國家地區的實踐提供借鑒。例如,NARA基于十數個聯邦機構的社交媒體歸檔實踐經驗所發布的《社交媒體白皮書》,從政策、方法、工具與注意事項上提供了諸多可借鑒之處。
盡管全球的社交媒體歸檔有一定成果,但在對象、方式、主體,或是人文、管理與技術層面都還存在很多不確定性,歸結起來就是誰來管、管什么、怎么管以及如何落實這些構想的問題。
確定社交媒體歸檔收集范圍前,要明確兩個問題:第一,關于政府類社交媒體信息的互動類信息中,完整性如何界定,一份主體信息下的評論是否是完整信息的一部分?英國國家檔案館并不捕獲用戶評論;然而,不少機構或學者如澳大利亞國家檔案館認為互動類信息應當考慮歸檔。另一方面,如果考慮歸檔互動類信息,那么哪些要捕獲、有什么標準,是根據內容質量、主題還是形成者來判定?
第二,關于政府類社交媒體以外的其他組織、社區、個人等形成的信息。社交媒體為人類提供了即時記錄生活與工作的平臺,形成的是許多有價值的信息資源和反映人類社會的證據與記憶材料,有著歸檔的必要性。那么,這些信息由誰歸檔、政府是否有權歸檔、如何歸檔、如何管理?
行動的落實在很大程度上需要系統機制的保障。當前,社交媒體歸檔相關制度并不完善,法律、標準、政策、指南等的缺失現象較為嚴重,很多問題沒有妥善的預案予以解決,甚至無指導性的意見。即便是較早出臺社交媒體指南的NARA,在很多歸檔問題上并無定論。例如,在保管期限的設定上,NARA建議在現有保管期限表中查得的部分則依據現有規定,未能查得的部分則先設為永久,待新規定出臺后再重新設定[7]。
因此,為深入指導未來的社交媒體歸檔,需要建立系統的機制予以保障,主要包括:統籌全局的頂層設計,從戰略層面定位社交媒體歸檔的目標與其主要構件;社交媒體歸檔的行動計劃,指導實現目標的實施路徑,基于目標設定分目標,在每個分目標下分配所需行動及行動時間;配套相應的實施性指南,提供每個行動的指南和標準,從而保證每個管理流程有明確的制度可參照執行,包括收集范圍設計、捕獲、分類、保管期限設定、整合等一系列環節。
社交媒體歸檔往往要求不同主體協同合作完成,檔案館、圖書館、信息組織等記憶機構的協作,公眾的參與,社交媒體服務提供商的支持等都是協同合作的方式,因此社交媒體歸檔項目受任務量和復雜性的不同需要不同相關利益者的參與。社交媒體的信息往往是在開放與互動中形成,且是在形成主體之外的第三方平臺上,這些信息的歸屬權、管理權、處置權以及利用權都涉及不同的相關利益者。另外,這些信息的數量巨大,單獨某一類主體難以獨立完成歸檔及歸檔之后的長期保管與開發。因此,協同合作的參與模式理論上較為契合社交媒體歸檔需要。
然而,這種參與還需從理論設想到實踐中落地。目前,眾包在美國、英國、荷蘭等國對數字化資源的鑒定與著錄都有諸多實踐,但對數字原生信息的管理貢獻有限。從技術、管理、司法、人文等方面實現大眾參與尚有難度,例如,技術上如何實現群體的協同工作、管理上如何分配不同參與人員的權限與職責、司法上如何保障相關利益者的權益、人文上如何保證參與人員的社會性需求等。
社交媒體無論是信息的捕獲、有序整合還是技術鑒定都與技術息息相關,技術是將行動落實于實踐中的必然載體,也是當前社交媒體歸檔要攻克的主要方向。
當前,技術層面的問題主要涉及捕獲、整理以及開發利用。例如,在英國比較主流的方法是通過公共可獲取的API捕獲社交媒體信息,實現對內容的精確裁剪,以滿足版權限制與用戶利用需求,并可連同元數據一同捕獲。但這些方法對Facebook卻不那么適用,英國國家檔案館至今無法歸檔其中央政府在Facebook上發布的信息。且一旦歸檔范圍要包含用戶評論,現有的捕獲工具又會面臨自動化升級的挑戰。而這些信息的捕獲只是歸檔的第一步,歸檔要求的有序化組織信息意味著如何通過技術將信息整合,海量的半結構化信息的組織與語義挖掘則又是另一個技術難題,這也就是為什么國會圖書館在接收了千億條的信息后并不能提供這些信息的利用,原因就在于海量信息的整合存在困難。
在前端控制與全程管理的框架中,歸檔不是孤立的,還要為后續環節提供支持。作為過程性環節,它涉及收集、鑒定、整理等,鑒定為歸檔選定了對象,保管期限設定、分類方案等使信息得以有序化。而此后的長期保管、利用等都是以歸檔時形成的信息體系為基礎,無論是保管上的具體要求還是利用環節的管理,都將以歸檔時的分類體系或是背景信息作為參考。
因而,社交媒體歸檔要在前端設計好歸檔方案,在設計捕獲工具、捕獲對象、捕獲內容、捕獲方式、整合原則時考慮未來的長期保管和開發利用中可能面臨的需求和問題,從而在前端奠定管理流程中無縫鏈接的基礎。
總而言之,社交媒體歸檔還有長遠的探索路途,這為文件、檔案、信息等領域提供了極大的研究與實踐空間,有待各國與地區采取更多行動。當前全球的社交媒體歸檔已有一定成效,但還需進一步明晰管理要素、分辨面臨的挑戰和走向,從人文與技術層面構建優化管理體系。
注釋與參考文獻:
[1]Josh Gerstein. Feds stalled plan to vet visa applicants through social media[EB/OL]. [2016-03-09].http://www.politico.com/blogs/underthe-radar/2015/12/feds-considered-vettingvisa-applicants-on-social-media-216899.
[2][7]National Archives and Records Administration. Bulletin 2014-12: Guidance on Managing Social Media[DB/OL]. [2016-09-09].http://www.archives.gov/records-mgmt/bulletins/2014/2014-02.html.
[3]National Archives and Records Administration. National Archives and Records Administration White Paper on Best Practices for the Capture of Social Media Records[DB/OL].[2016-09-09].http://www.archives.gov/recordsmgmt/resources/socialmediacapture.pdf.
[4]Erin Allen. Update on the Twitter Archive at the Library of Congress[EB/OL]. [2016-09-09]. http://blogs.loc.gov/loc/2013/01/updateon-the-Twitter-archive-at-the-library-ofcongress/.
[5]NAA. Records management issues to consider when using social media tools [EB/OL].[2016-09-09].http://www.naa.gov.au/recordsmanagement/agency/digital/socialmedia/index.aspx.
[6]Kalev Leetaru. How Much Of The Internet Does The Wayback Machine Really Archive?[EB/OL]. [2016-09-09].
[7]http://www.forbes.com/sites/kalevleetaru/2015/11/16/how-much-of-theinternet-does-the-wayback-machine-reallyarchive/#2715e4857a0b4edc16de88d4.