基于數據敘事的重特大事件社交媒體檔案記憶構建

2025-09-10 00:00:00程媛吳穎詩湯舒寧董藍汐

檔案與建設 2025年8期

Abstract： Social media data isanimportant memoryresource inthedigital age，butits fragmentation，decentralization andothercharacteristics makeitdiffcult tofulldevelopitsmemoryvalue.Therefore，thisarticleproposesaframework for constructing social mediaarchivalmemoryofmajorandserious incidents basedondatanarative，andexplores ways toutilize social media data of major and serious incidents to construct archival memory with meaningful transmision and identity generation functions.Byselecting the majorand serious incidentsof“RainstormandFlood Disasterin the Northeastern China in EarlyAugust 2023^，， as a case，this article empirically examines the feasibility and effectiveness of the framework， and summarizes the appoaches of applying social mediadata narrative to the constructionof archival memoryof major and seriousicidentsfromthreeaspectsofcontent，methodofconstruction，ndefect.Thisstudyaims toprovideinsightsintothe theoreticalresearchandpractical explorationofnarativedevelopmentofsocial mediadataof majorandserious incidents asa native digital memoryresoure，andto broaden the research perspective ofarchival memoryconstructionin the digitalage.

Keywords： Social Media Data; Data Narative; Archival Memory; Major and Serious Incidents; Digital Memory

伴隨數字化與數據化浪潮的到來，海量的人類活動信息以數字代碼的形式被記錄、存儲、傳播。這些人類數字化生存產生的數據化印痕構成了數字時代的記憶。[]與此同時，新媒體技術的發展，使得以微博為代表的社交媒體平臺日漸興起，傳統上由官方或精英階層壟斷的記憶書寫權力被下放至公眾[2]，具有社會性、開放性和即時性的社交媒體能夠直接而強烈地介人社會記憶的構建。［3]圍繞社交媒體平臺上數量龐大卻缺乏管理組織的記憶資源，檔案學界已形成一定數量的理論研究與實踐成果。如黃新榮等根據社交媒體存檔目的不同，介紹并總結了“科研數據的保管與共享”“網絡信息資源保存”和“數字取證”三類社交媒體存檔活動及其開發利用方式[4]；周文泓等從參與主體、存檔信息、信息組織和產出成果四個方面，分析了現有的社交媒體檔案開發利用實踐的行動特征與局限[5]；高晨翔提出了檔案學視角下區域政務微博知識發現模型，并構建了以主題為導向的區域政務微博知識地圖[6]。但總體而言，當前研究大多聚焦“社交媒體信息如何成為檔案”，包括分析社交媒體存檔的制度政策[7-8]和社交媒體存檔的具體流程[9-10]等，關于社交媒體檔案如何開發和利用的研究則相對較少。在實踐方面，中國國家圖書館互聯網信息戰略保存項目于2019年啟動，超過2000億條公開發布的新浪微博信息被國家圖書館采集并保存[11]；美國國會圖書館于2010年啟動推特（Twitter）檔案館項目，其公布的數據顯示，國會圖書館在2013年就已存檔了約1700億條推文，且數量以每日5億條的速度增長。[12]然而，囿于資金、管理等問題，上述項目的存檔信息至今仍無法向公眾開放。大量社交媒體檔案被封存于數據存儲設備中而未能得到足夠的關注，因此也無法通過進一步的加工、展演及消費等環節，構建可供大眾獲取或吸收的檔案記憶。[13]

“要有意圖地用數字手段來構建數字時代的記憶”[14]，社交媒體檔案兼具數據資源與記憶資源的特性，其開發和利用工作需要深入數據層面，挖掘細粒度的記憶單元，揭示數據間的語義關聯[15]，在數據價值實現的基礎上構建檔案記憶。這一需求與“提升數據的可理解性、可記憶性及可體驗性”的數據敘事目標是相吻合的，通過以“故事敘述”的方式呈現“從數據中發現的洞察”[16]，數據敘事研究中提出的思路方法、構建的模型結構、運用的技術工具等對于社交媒體檔案記憶構建而言具有理論和實踐上的雙重價值。

重特大事件社交媒體數據是一類獨特且具有重要價值的記憶資源。2022年，中共中央辦公廳、國務院辦公廳印發了《關于加強重特大事件檔案工作的通知》，指出“重特大事件檔案”是“黨和國家組織應對自然災害、事故災難、公共衛生事件、社會安全事件等突發事件所形成的具有保存價值的歷史記錄”[17]，要求“重特大事件記錄不完整的，要通過媒體信息采集、口述信息采錄、社會征集等方式及時予以補充”［18]。其中，媒體信息采集正是指通過微博、抖音等社交媒體采集補充相關信息，明確了重特大事件相關的社交媒體數據是重特大事件檔案的重要組成部分。因此，本文以重特大事件社交媒體數據為研究對象，從檔案學與敘事學的交叉視角出發，提出基于數據敘事的重特大事件社交媒體檔案記憶構建框架（見圖1），探討如何在數據維度上，有效地開發和利用以重特大事件社交媒體數據為代表的原生數字記憶資源，使其成為具有意義傳遞和認同生成功能的檔案記憶。

1交叉視角下的重特大事件社交媒體檔案記憶構建

記憶的構建有賴于敘事發揮作用。數字時代，作為官方記憶機構的檔案部門，面對重特大事件發生期間碎片化、海量的社交媒體信息，有必要進行有意識的數據采集和保管，并在探索、理解數據內容與結構特征的基礎上，進行故事要素的提取、串聯和重新組合敘事，以構建具有意義傳遞與認同生成功能的數字時代檔案記憶。在此過程中，圍繞重特大事件社交媒體數據這一具有跨學科屬性的對象，既需要檔案學的理論知識錨定檔案記憶構建的目標，也需要敘事學的思路方法開拓檔案記憶構建的路徑。

圖1交叉視角下的重特大事件社交媒體檔案記憶構建

1.1檔案學視角下的重特大事件社交媒體檔案記憶構建

（1）重特大事件社交媒體數據參與檔案記憶構建的可行性

受20世紀末逐漸興起的檔案記憶觀影響，檔案工作者作為“詹金遜式的形成者遺留下來的文獻殘存的被動保管者”［19]的身份得到了重新審視，檔案被認為是建構集體記憶不可替代的要素。［20]在此認識下，檔案記憶的構成范圍不斷擴大，更多不同的社會群體的記錄進入其研究視野。與此同時，伴隨數字浪潮的席卷，生成主體多元、記錄內容多樣的社交媒體數據逐漸受到檔案學研究者的關注，大數據和新媒體時代數字記憶成為跨學科的研究熱點。[21]

作為一類具有突出記憶價值的社交媒體數據資源，重特大事件社交媒體數據參與檔案記憶構建具有可行性。一方面，在重特大事件發生期間，民間話語、精英話語與官方話語在社交媒體平臺上交織并相互影響，所形成的重特大事件社交媒體數據多維度記錄并展現了重特大事件的發展過程及人們應對事件的決心與舉措[22]，是構建檔案記憶的珍貴資源；另一方面，社交媒體平臺的“大眾書寫”模式，使得重特大事件社交媒體數據的生成主體涵括社會各類群體，為構建更為多元豐富的檔案記憶提供了可能，同時也與檔案記憶構建的社會屬性相契合。

（2）重特大事件社交媒體數據參與檔案記憶構建的內涵與需求

作為一類被明確納入檔案管理范圍的原生數字記憶資源，重特大事件社交媒體數據的開發和利用研究處于檔案記憶研究與數字記憶研究的交叉區域。

重特大事件社交媒體數據是有待檔案化的社會記憶存在形態，需要經由一系列的社會選擇和人為建構行為，方能構建長久留存、可供傳播與共享的檔案記憶。對于進入檔案管理流程的重特大事件社交媒體數據的開發和利用，其實質是一種“檔案記憶再生產”，包括對記憶對象的編碼、提取、重組、傳播、分享、利用和消費等構建行為。［23]在此意義下的檔案記憶構建過程可以參考記憶連續體模型。記憶連續體模型的提出基于文件連續體理論模型，包括“形成”“捕獲”“組織”“展演”“聚合”五個維度，但與后者相比，記憶連續體模型著重強調，要運用各種技術手段和工具對檔案所承載的信息及情感進行挖掘與呈現，通過檔案敘事喚起集體情感，構建集體記憶。［24]

廣義的數字記憶包括社交媒體數據在內、用數字代碼記錄的各類人類活動信息[25]，重特大事件社交媒體數據無疑是一類重要的數字記憶資源。數字記憶的構建從根本上依托于對新興數字技術的開發與應用，更為關注記憶資源的提取、知識的挖掘與利用技術化的體驗獲取記憶。26]同時，與數字人文技術的結合也是數字記憶構建的重要特征之一，圍繞數字記憶的敘事特性，將用于敘事的數字記憶資源進行結構化處理，并以故事敘述的方式重新組合與呈現，已成為數字記憶的新發展路徑。[27]

因此，以重特大事件社交媒體數據為記憶構建資源的開發和利用活動，具有檔案記憶構建與數字記憶構建的雙重屬性，本研究將其定義為數字時代的檔案記憶構建，既以“重特大事件”敘事為檔案記憶構建的核心，也圍繞“敘事”這一關鍵點吸收融合數字技術的應用方法。在具體實現上，首先需要盡可能完整全面地捕獲與重特大事件相關的社交媒體數據，提供以重特大事件為中心主題、來源廣泛的檔案記憶構建基礎；其次通過對社交媒體檔案進行組織，識別并維護其中圍繞重特大事件形成的有機聯系；再次是運用各種數字技術，挖掘社交媒體檔案中與重特大事件相關的信息，以故事敘述的形式，展演基于社交媒體的重特大事件故事；最后聚合呈現不同群體視角下的重特大事件故事，構建共生共促的重特大事件檔案記憶。

1.2敘事學視角下的重特大事件社交媒體檔案記憶構建

（1）基于“話語”和“故事”的重特大事件社交媒體檔案記憶構建思路

敘事的本質是敘述事情，即通過語言或其他媒介再現發生在特定時間和空間里的事情。在敘事學研究中，經典敘事學主張采用結構主義的方法來研究敘事，這一流派認為，若同一故事可由不同的媒介表達，且不隨話語形式的變化而變化，則證明故事具有相對獨立性，此時對敘事作品的分析可采用“故事”（包括事件、人物等敘述內容）和“話語”（包括各種敘述形式和技巧）的二元論區分。[28]

若將重特大事件社交媒體數據視為廣義上的敘事作品，以上述“故事”和“話語”的二元論對其進行審視，則由不同群體或個體以多種形式發布的重特大事件社交媒體數據都是關于同一故事的話語，其中散落著與重特大事件相關的人物、時間、地點、事件等故事元素，這些故事元素源于現實世界，是真實、明確且唯一的，但其在社交媒體上的敘述可能是形態多樣的，即呈現為多種話語形式。處理和分析重特大事件社交媒體數據以使其符合檔案記憶構建的要求，需要在眾多關于重特大事件的話語中識別出它們共同指向的故事，并在串聯與重組重特大事件的各類故事元素的基礎上，以新的話語形式提供利用。

（2）從數據到故事的重特大事件社交媒體檔案記憶構建方法

伴隨敘事學研究開始向后經典敘事學轉變，其研究范圍和研究對象也在不斷拓展。［29]在數字技術快速發展的背景下，數據敘事（datanarrative）的概念與方法也應運而生。［30]數據敘事以數據為原料，其本質是以“故事敘述”的方式呈現“從數據中發現的洞察”［31]。盡管數據敘事的研究對象并非傳統文本，但其實質仍是一種故事，無論是核心要素的數據提煉，還是敘述模式的數據化調整，都需要以遵循傳統故事模型為前提[32]，“故事”和“話語”等經典敘事學所確立的核心概念在從數據到故事的融合轉化中仍發揮著關鍵的支撐作用。

在從數據到故事的實現過程中，由創作者控制的數據故事化重塑是數據敘事活動的核心部分，包括數據洞察、敘事設計、可視化與情境化等關鍵環節。［33]從具體流程的角度，則可以劃分為理解數據、明確目的、了解受眾、識別關鍵數據、選擇故事模型與呈現方式、故事敘述六個基本活動[34]，數據由此“析出一重組一敘事”層層遞進實現故事敘述的有效呈現。［35]如果說經典敘事學的理論概念回答了“講什么”的問題，那么數據敘事研究所提供的從數據到故事、具有普適性的方法流程則回答了以數據為原料的敘事“怎么講”的問題。

因此，面對大量碎片式、非結構化的重特大事件社交數據，基于數據敘事的檔案記憶構建首先需要以數據處理和分析技術輔助探索數據的內在關系，同時結合創作者對特定重特大事件的認知基礎，形成對數據的認識和理解，并通過對數據進行組織，為識別數據中蘊含的故事要素提供基礎；其次，在完成數據的組織后，根據重特大事件社交媒體數據的結構和內容特征，以檔案記憶構建為目標的敘事設計要通過識別、析出數據中的關鍵故事要素，形成結構化的檔案記憶資源，即在明確記憶敘事框架的基礎上，進一步挖掘重特大事件的記憶節點及脈絡，構建記憶敘事邏輯，實現故事要素的提煉與重新組合，推動數據從無組織的雜亂狀態向可展演的敘事形態轉變；最后，通過各類可視化技術，隱藏于社交媒體數據中的重特大事件“故事”將以新的“話語”形式得到直觀清晰的呈現，構建為可利用性、可傳播性更強，且聚合多元群體聲音的重特大事件檔案記憶。

2基于數據敘事的重特大事件社交媒體檔案記憶構建框架

通過跨學科的交叉視角對重特大事件社交媒體檔案記憶構建進行審視，明確了重特大事件社交媒體數據參與檔案記憶構建的可行性、內涵及其需求，并圍繞“敘事”這一重特大事件社交媒體檔案開發利用的核心，借鑒敘事學領域的思路方法，厘清重特大事件社交媒體檔案記憶構建的實施路徑，形成圖2所示的“基于數據敘事的重特大事件社交媒體檔案記憶構建框架”

2.1重特大事件社交媒體數據捕獲

社交媒體數據捕獲是重特大事件社交媒體檔案記憶構建框架的起點，包括數據采集和數據質量優化兩項實施步驟，分別提供進行存檔的社交媒體數據與可進一步開發利用的社交媒體檔案副本。數據采集需圍繞特定的重特大事件這一中心主題，以事件的關鍵詞、中心人物等為采集依據，同時從數據類型、生成主體身份、采集時間范圍等多維度提升數據采集的全面性。數據質量優化則是在完成數據采集后，為滿足后續的敘事性開發需求，對原始捕獲數據的數字副本進行的系列數據處理，包括去除重復冗余、降低數據噪音等。

圖2基于數據敘事的重特大事件社交媒體檔案記憶構建框架

2.2重特大事件社交媒體檔案組織

盡管重特大事件社交媒體檔案中的數據均與重特大事件相關聯，但其中還蘊含著更多有待挖掘的細分主題。因此，社交媒體檔案組織的主要任務是識別并維護社交媒體檔案中以主題為聯結的數據間的有機聯系。同時，基于社交媒體檔案的數據敘事旨在識別隱藏于檔案數據中的故事，數據探索有利于更高效精準地識別和析出故事要素，包括對數據的理解分析和圍繞敘事需求進行的數據組織。社交媒體檔案組織與數據探索在內涵實質上具有一致性，均涵括數據特征分析與數據主題分類兩項實施步驟。數據特征分析旨在探明重特大事件社交媒體數據的內部脈絡關系，而社交媒體數據的內容與結構特征往往與其生成環境密切相關，在把握數據特征的基礎上，結合統計學等方法進行數據分析，有利于獲取清晰的“數據洞察”；數據主題分類需綜合數據的實際情況與敘事需求，確定圍繞重特大事件敘事的若干主題，并根據主題對社交媒體數據進行分類組織。

2.3重特大事件社交媒體檔案展演

檔案展演是激活與傳遞檔案中蘊藏的信息和情感、再現“過去”并使其被傳播共享，進而構建檔案記憶的重要途徑，其實質是一種檔案敘事。[36]重特大事件社交媒體檔案展演的敘事設計從故事要素的識別、析出和重新組合切入，分別選擇本體、知識圖譜和事理圖譜三項知識挖掘與組織的技術方法，支撐“記憶框架確定”（確定用于檔案記憶構建的框架）“記憶節點及脈絡挖掘”（挖掘用于檔案記憶構建的節點及脈絡）“記憶敘事邏輯發現”（發現用于檔案記憶構建的敘事邏輯）三個環節的實施及其可視化呈現。

記憶框架確定是通過構建重特大事件本體，針對重特大事件這一特定領域定義概念層次及其屬性，識別蘊含于重特大事件社交媒體檔案之中、以重特大事件為中心的故事要素及其關系網絡，為后續基于知識圖譜與事理圖譜進行數據敘事提供框架上的支持。記憶節點及脈絡挖掘是利用知識圖譜，實現依托重特大事件本體框架的事件、行為、相關人物或群體等實體的知識抽取和知識融合，從紛繁復雜的社交媒體檔案中析出可用于構建重特大事件檔案記憶的核心節點與各類關系脈絡，并以主題故事的形式完成對重特大事件的敘事化表征。記憶敘事邏輯發現聚焦于發現社交媒體上與重特大事件相關的輿情動態，通過事件及其關系抽取與事件同指消解等關鍵技術，以事理圖譜的形式揭示重特大事件及其輿情傳導鏈條，為構建以社交媒體數據為來源的重特大事件檔案記憶提供敘事邏輯上的支撐。

2.4重特大事件社交媒體檔案聚合

檔案聚合旨在通過聚合社會網絡中的各類共同體檔案，形成大的共同體檔案以進行檔案集合敘事[37]，構建互聯的檔案記憶。重特大事件社交媒體檔案中蘊含著來自各類社會群體的重特大事件記憶，通過將重特大事件下相同主題的知識圖譜與事理圖譜進行關聯，二者既可獨立呈現基于社交媒體的重特大事件的不同群體視角故事，也能相互印證、補充和完善同一主題事件的細節脈絡，形成共生共促，且融合理性宏觀的故事陳述與感性微觀的個體敘事的重特大事件檔案記憶。

3基于數據敘事的重特大事件社交媒體檔案記憶構建實證—一以“2023年8月初東北地區暴雨洪澇災害”事件為例

國家防災減災救災委員會辦公室、應急管理部發布的“2023年全國十大自然災害”報告顯示，2023年8月初，受第5號臺風“杜蘇芮”殘留云系北上和西風槽疊加影響，東北地區多地出現強降雨，造成大量房屋倒塌、農作物受損，黑龍江、吉林兩地119.4萬人不同程度受災。此次東北地區暴雨洪澇災害影響范圍廣，持續時間長，在以微博為代表的社交媒體平臺引發了較大規模的討論，各類用戶發布了大量相關主題的信息，不僅有對災情實時狀況的記錄，還展現了許多情感色彩濃厚、視角獨特的個體受災經歷，是構建重特大事件檔案記憶的重要原始資料。因此，本文以“2023年8月初東北地區暴雨洪澇災害”事件為例，選擇與此重特大自然災害事件相關的微博數據進行實證，分析并驗證所提出的重特大事件社交媒體檔案記憶構建框架的可行性和有效性。

3.1數據采集

作為檔案記憶構建的第一個階段，數據采集直接影響著后續數據敘事的效果，需要選擇具有代表性、凝聚大量事件關鍵信息的數據來源，并確保采集數據的真實性、完整性、可用性與安全性。本文以“東北”“吉林”“黑龍江”“暴雨”“洪水”“臺風”等關鍵詞組合，并參考“2023年8月初東北地區暴雨洪澇災害”事件的具體發生時間和微博平臺上相關主題數據量隨時間變化的狀態，將檢索時間范圍限定為2023年8月1日至8月13日，檢索并抓取包括微博文本內容、發布時間、用戶名、用戶身份類型等原生性信息，以及每條微博的轉發、評論數據等次生性信息。經去重、降噪等數據質量優化工作，共獲得27762條由各類主體發布的有效微博數據。

3.2數據探索

數據探索以洞見數據的隱藏價值為目的，涉及一系列旨在理解和分析數據的活動。［38]圍繞構建“2023年8月初東北地區暴雨洪澇災害”事件檔案記憶這一敘事目標，需對采集獲取的微博數據內容進行深人的分析和理解。本文以微博數據特有的“微博話題”為切入點，“微博話題”可視為用戶對于自身發布內容主題的描述和歸類，提示了相關聯的微博帖子的所屬細分主題。經數據統計發現，絕大部分所采集的微博數據均包含以“#”為標識的微博話題，且與微博內容具有較強的對應關系。因此，提取微博數據中的“#微博話題#”，并統計其中各種詞語的出現頻率，得到詞頻數排名前20的詞語（見表1）。

根據詞頻統計，“黑龍江”“吉林”“舒蘭”“五常”等地點名稱是本次重特大事件相關微博話題的重要組成部分。結合具體微博話題如“#黑龍江已有4條江河發生洪水#”“#五常市持續轉移群眾超4萬人#”，可以發現相關微博信息基本圍繞災害發生的地點生成，且不同地點相關的微博信息數量基本與其災情影響范圍、嚴重程度呈正相關，因而以地點為主題對數據進行分類具有合理性與可行性。基于數據分析結果與人工編碼，總結“2023年8月初東北地區暴雨洪澇災害”事件微博數據的10個主題（見表2）。

表1微博話題中詞頻數排名前20的詞語

表2微博數據中的10個主題

在明確數據分類的主題后，從總數據集中隨機選出2700條數據進行人工標注，并以總數據集10% 的數據作為訓練數據集。基于EasyDL開發平臺的文心大模型訓練適用于本次文本分類任務的模型，并調用該模型完成對剩余數據的主題分類，實現“2023年8月初東北地區暴雨洪澇災害”事件微博數據的10個敘事主題的分類組織。

3.3記憶框架確定

記憶框架確定是識別故事要素、初步勾勒其組合模式的關鍵步驟。通過構建重特大自然災害事件本體，描述微博數據中與重特大自然災害事件相關的核心概念及其聯系，確定后續基于知識圖譜與事理圖譜的數據敘事所需的故事要素及其關系網絡。由于“2023年8月初東北地區暴雨洪澇災害”事件在類型上屬于自然災害事件，其相關概念具有特定領域的專業性。本文以領域本體構建中應用廣泛、較為成熟的七步法為參考，進行重特大自然災害事件本體的構建，包括確定本體構建的領域和范圍、復用領域中現有的本體、參考自然災害事件領域的重要概念和專業術語構建概念術語表、定義本體中的核心概念及其層次結構、定義概念屬性、定義屬性的約束條件、創建案例檢驗本體適用性。基于對數據源的分析，本文選擇性復用通用事件語義模型ABC本體[39]、自然災害事件本體[40]都柏林核心元數據元素集，同時參考《中華人民共和國突發事件應對法》[41]《國家自然災害救助應急預案》[42]等權威資料中的重要術語，構建了圖3所示的重特大自然災害事件本體（CatastropheOntology，CataOnto）

本文構建的重特大自然災害事件本體（CataOnto）共定義了災害事件、災情狀況、災害應對、災害參與主體、災害信息來源5個核心類，以及災情狀況、災害應對與災害參與主體3個核心類下的30個子類。此外，針對類目間關系設置了19個對象屬性，以及各類目具有的共25個數據屬性，具體見表3、表4。

3.4記憶節點及其脈絡挖掘

重特大自然災害事件本體定義的記憶框架，為析出災害事件、災情狀況、災害應對措施和災害參與主體等核心故事要素及相互關系提供了前提條件，而知識抽取與知識融合將進一步挖掘“2023年8月初東北地區暴雨洪澇災害”事件中的關鍵節點及脈絡，并通過知識存儲與可視化實現對事件整體客觀的刻畫，呈現可用于檔案記憶構建的主題故事。

圖3用于社交媒體數據敘事的重特大自然災害事件本體（CataOnto）類及其層級結構點、時間、事件、人物等實體及其關系的共指消解，如“吉林省舒蘭市”與“舒蘭”應是同一地點。通過知識抽取與知識融合，形成描述各類實體及其關系的三元組數據，其存儲與圖譜的可視化利用Neo4j圖數據庫完成，“吉林省舒蘭市災情”這一主題的知識圖譜局部呈現見圖4。

表3重特大自然災害事件本體的對象屬性

表4重特大自然災害事件本體的數據屬性

3.5記憶敘事邏輯發現

服務于重特大事件社交媒體檔案記憶構建的敘事邏輯的本質是揭示與之相關的社交媒體輿情動態，通過發現輿情事件及其演化路徑，為數據敘事提供大眾視角下的敘事邏輯支撐。由于重特大自然災害事件具有高破壞性、涉及范圍廣泛性等特征，對

由于重特大事件社交媒體數據質量整體參差不齊以及存在大量信息噪音，為保證重特大自然災害事件知識圖譜構建的知識來源的真實與可靠，本文以上述“數據探索”環節中分類的主題數據為例，根據用戶的身份類型對“吉林省舒蘭市災情”主題數據集中2380條微博數據進行篩選，并人工比對賬號信息，保留了用戶身份類型為權威新聞媒體或官方組織機構的202條微博。同時，考慮到重特大自然災害事件社交媒體數據知識抽取的復雜程度高于傳統知識抽取中對人物、地點、時間等實體的抽取，因此主要通過分析數據內容結構，并根據上文所定義的重特大自然災害事件本體（CataOnto），采用模式匹配算法對災害事件、災情狀況、災害應對等類及其下設子類的數據實體、對象屬性和數據屬性進行抽取。知識融合則是對地于社交媒體用戶而言，無論是親身經歷抑或是緊密關注相關信息的“線上經歷”，都極易促使其進行記錄或發表觀點，并通過社交媒體平臺進行交流，形成復雜多元、走勢難測的網絡輿情。事理圖譜通過描述事件間關系揭示事件的演變邏輯，能夠展現大眾所共同關注并記憶的重特大自然災害事件。事理圖譜的構建重點在于事件及其關系的抽取，其最終將形成 lt; 事件1，關系，事件 2gt; 的三元組結構。在分析“吉林省舒蘭市災情”這一主題數據集的基礎上，本文構建了事件關系的抽取模板，其采用模式匹配方法進行因果事件對的抽取（見表5）。

基于上述規則模板，對“吉林省舒蘭市災情'主題數據集中的2380條微博數據進行匹配，共識別提取461組事件關系對，但其中有大量口語化和意義相近的表述，需要通過事件同指消解進行敘事上的統一。在這一方面，有學者提出動詞和名詞集合表示法，即在句子成分不完整的情況下，使用其中的動詞與名詞表示事件。[43]本文采用該種方法，利用Python中文分詞庫Jieba識別、抽取各事件對中的動詞與名詞，并綜合運用人工編碼的方式，參考重特大自然災害事件本體（CataOnto），將具體事件簡化為名詞與動詞的組合表述，進一步凝練為276組事件對。并利用Gephi軟件實現圖5所示的事理圖譜可視化，共包括64個節點，121條邊，其中節點的標簽是處理后的事件名稱，標簽字體越大代表事件的出現頻率越高，邊的指向為從因到果，邊越粗代表其權重越高，相應的發生頻率也越高。可視化的輿情事理圖譜反映了相關輿情事件被討論和記憶的范圍，有利于觀者了解重特大自然災害事件發生期間，社交媒體平臺上公眾廣泛討論、記錄和記憶的輿情事件及其演化邏輯。

圖4“吉林省舒蘭市災情”主題知識圖譜（局部）

表5因果事件對提取模板

3.6記憶敘事呈現

基于知識圖譜與事理圖譜聚合呈現的重特大自然災害事件敘事，通過對同一主題下相同事件的識別關聯，使得涵括事件關鍵節點及脈絡的知識圖譜與揭示事件輿情演化邏輯的事理圖譜可以進行相互補充、完善，構建既多元豐富，又有據可依、可感可信的重特大自然災害事件檔案記憶。以“吉林省舒蘭市災情”主題為例（見圖6），通過這一主題的知識圖譜可以了解到，當地的洪水災害導致四人失聯，且失聯四人為參與救災的公職人員。在災后處理工作中，中共吉林省委、吉林省人民政府追授了駱旭東等四名犧牲同志榮譽稱號并記功。結合該主題的網絡輿情事理圖譜，并根據事件相關的演化路徑可知，該事件引起了廣泛的關注與討論。一方面，人們表達了對人民公仆的敬佩以及對英雄犧牲的悲痛之情；另一方面，對當時災害信息缺少關注、微博熱門話題仍以各種明星動態為主的情況表達了不滿。透過知識圖譜與事理圖譜呈現的不同視角，重特大自然災害事件敘事的呈現不僅更為完整和全面，也在客觀事實的基礎上融入了來自大眾群體的情感色彩，有利于提高數據敘事的可記憶性。

4社交媒體數據敘事應用于重特大事件檔案記憶構建的策略

隨著數據生產與存儲能力的不斷提升，當代似乎是一個“全面回憶”的時代，但與此同時，“記錄卻并不記憶”也成為了常態，大量的數據以各種形式被保存，卻并未得到有效的開發利用，無法參與到記憶構建之中。“數字時代的失憶癥要用數字手段救治”［44]，本文針對重特大事件社交媒體數據如何開發利用以構建檔案記憶的問題，提出基于數據敘事的重特大事件社交媒體檔案記憶構建框架，從構建內容、構建方法、構建效果三個方面回答了上述問題。

構建內容方面，需圍繞數據敘事的需求，把握重特大事件社交媒體檔案完整性與真實性之間的平衡。一方面，“大數據”特性是社交媒體數據的突出價值所在，正是因為匯集了各種背景的普通用戶的聲音，社交媒體數據能夠代表最真實的公眾情緒，映射當下社會的發展情況。［45]因此，面對重特大事件發生期間爆發式涌現的大量社交媒體信息，社交媒體數據的采集應盡可能全面和完整，在“量”上有所保證，以兼顧個體微觀視角和集體宏觀視角，真正發揮社交媒體數據的價值。另一方面，對社交媒體數據可適當弱化其形式真實性與內容真實性方面的檔案鑒定。［46]考慮到社交媒體信息極易復制與分享傳播的特性，重特大事件社交媒體數據的采集應以完整性為優先，而不必苛求某一信息是否為“首發”或“原件”，且當社交媒體數據的“量”足夠大時，其中的謠言或虛假信息等不真實的信息反而能夠成為另一種“真實”的印記，揭示重特大事件發展的更多細節和輿情動態。

圖6“吉林省舒蘭市災情”主題記憶敘事示例

構建方法方面，需以“重特大事件”為敘事著力點，重點關注對重特大事件關鍵節點、脈絡及敘事邏輯的挖掘，將碎片化、主題模糊不清、可讀性低的社交媒體數據轉化為圍繞明確主題、以特定邏輯相互關聯、易于記憶和理解的可視化故事形態。其具體實現應以深入探索和理解數據為基礎前提，既要結合社交媒體平臺上不同類型的重特大事件敘事的特點，提煉關鍵敘事要素，形成清晰明確的故事框架，也應根據重特大事件社交媒體數據的內容結構，靈活選擇相適應的數據處理、分析和組織方法，綜合運用自然語言處理、社會網絡分析等技術，充分挖掘數據中蘊含的敘事價值。同時，圍繞檔案記憶構建的目標，重特大事件社交媒體數據敘事的流程方法需嵌人檔案管理的相關規范要求，如社交媒體檔案的開發應基于其數字副本進行，保證數據采集所獲取的原始版本的完整可用，并確保后續敘事開發成果能與其來源數據相關聯，關鍵敘事節點與情節脈絡有據可依，構建可感且可信的重特大事件檔案記憶。

構建效果方面，敘事是“敘”（敘事過程）與“事”（敘事內容）的統—[47]，需注重發揮數據敘事產出成果在提升信息吸引力、實現意義傳遞與情感共鳴等方面的傳播優勢，通過各類可視化技術，創建重特大事件的“故事化”語境，形成可供廣泛傳播與共享的重特大事件檔案記憶。盡管本研究僅以文本數據為例進行探討，但根據不同的重特大事件社交媒體數據類型，數據敘事可選擇更為多樣、相適應的數據處理和可視化技術，如結合地理信息系統，將文本、圖像、用戶信息等數據與地理位置數據相關聯，形成立體多維的數據地圖。同時，要重視優化數據敘事產出成果的人機交互體驗，既應允許用戶在系統范圍內自主探索重特大事件社交媒體檔案，也需提供人性化的引導和提示，帶領用戶進入精心打造的重特大事件故事情境，使曾產生于社交媒體平臺上的不同故事以新的形式再度浮現，在傳播、共享故事以連接個體與集體、過去與現在的同時，構建獨特的數字時代重特大事件檔案記憶。

總的來說，本文圍繞重特大事件社交媒體數據這一研究對象，提出了基于數據敘事的重特大事件社交媒體檔案記憶構建框架。這一框架不僅有助于豐富與深化人們對重特大事件社交媒體數據在檔案記憶構建中的價值和作用的理解，還為實際操作提供了一套系統的策略，有助于保障利用重特大事件社交媒體數據進行檔案記憶構建的完整性、多元性和深層次，是對以重特大事件社交媒體數據為代表的原生數字記憶資源參與構建數字時代檔案記憶的探索和思考。

作者貢獻說明

程媛：提出觀點，確定論文框架，審定、修改論文；吳穎詩：撰寫、修改論文，模型實證檢驗；

湯舒寧：修改論文，繪制圖表；董藍汐：撰寫、修改論文。

注釋與參考文獻

[1][26]周耀林，劉晗.數字記憶建構：緣起、理論與方法［J」.山東社會科學，2020（8）：50-59.

[2]丁華東，張燕.論新媒體傳播與檔案記憶的意義再生產[J」.檔案學通訊，2018（3）：62-67.

[3]孫洋洋.社交媒體在社會記憶建構中的介入機制探析［J].檔案與建設，2015（3）：4-7.

[6]高晨翔.檔案學視角下區域政務微博的知識發現模型研究［D」.西安：西北大學，2019

[4]黃新榮，高晨翔.國內外社交媒體存檔研究與實踐述評[J」.圖書情報工作，2019（4）：122-134.

[5]周文泓，李彥可，賀譚濤.社交媒體存檔信息開發利用的行動要素分析及其啟示J」.圖書館學研究，2021（1）：43-50.

[7」何思源.社交媒體文件管理保障體系研究基于多元主體協同參與的視角[J」.浙江檔案，2018（12）：18-20.

[8]高晨翔，黃新榮.我國社交媒體文件的歸檔政策研究［J].圖書館學研究，2017（7）：47-55.

[9」張衛東，黃新平.面向WebArchive的社交媒體信息采集—基于ARCOMEM項目的案例分析[J]：情報資料工作，2017（1）：94-99.

[10]曾薩，黃新榮.網頁歸檔項目對社交媒體文件歸檔的啟示[J].圖書館，2018（12）：22-27.

[11］2000億條！微博全將被國圖保存，網友：后人能懂我的梗嗎？［EB/OL].［2025-03-14]https：//baijiahao.baidu.com/s？id 1631383146220690688amp;wfr=spideramp;for=pc.

[12]Update on the Twitter Archive at the Library of Congress[EB/OL].[2025-03-14].https：//blogs. loc.gov/loc/2013/O1/update-on-the-twitter-archiveat-the-library-of-congress/.

[13」丁華東，張燕.論檔案記憶再生產的實踐特征與當代趨勢[J].檔案學通訊，2017（4）：4-8.

[14][25][44]馮惠玲.數字記憶：文化記憶的數字宮殿［J].中國圖書館學報，2020（3）：4-16.

[15]牛力，劉慧琳，曾靜怡，等.數字時代檔案資源開發利用的重新審視[J].檔案學研究，2019（5）：67-71.

[16][31][34]朝樂門，張晨.數據故事化：從數據感知到數據認知[J].中國圖書館學報，2019（5）：61-78.

［17］中共中央辦公廳國務院辦公廳印發《關于加強重特大事件檔案工作的通知》［EB/OL].［2025-03-14]. https：//www.gov.cn/xinwen/2022-12/12/content_5731572.htm.

[18]蔡盈芳.著力強化重特大事件檔案收集工作——《關于加強重特大事件檔案工作的通知》解讀之三[J].中國檔案，2023（3）：12-13.

[19]庫克.四個范式：歐洲檔案學的觀念和戰略的變化——1840年以來西方檔案觀念與戰略的變化[J].李音，譯.檔案學研究，2011（3）：81-87.

[20]馮惠玲.檔案記憶觀、資源觀與“中國記憶”數字資源建設［J」.檔案學通訊，2012（3）：4-8.

[21]丁華東，張燕.探尋意義：檔案記憶觀的學術脈絡與研究圖景[J」.檔案學研究，2018（1）：22-28

[22]李星玥，楊千.重大突發事件社交媒體信息歸檔與管理——基于新型冠狀病毒肺炎戰疫的思考[J].檔案與建設，2020（3）：23-26.

[23］丁華東.論檔案記憶研究思維的當代轉變[J].檔案與建設，2023（7）：8-13.

[24][36]［37]連志英.檔案與共同體記憶建構[J].中國人民大學學報，2023（2）：83-94.

[27]馮惠玲.數字人文視角下的數字記憶—兼議數字記憶的方法特點［J].數字人文研究，2021（1）：87-95.

[28］申丹，王麗亞.西方敘事學：經典與后經典[M」.北京：北京大學出版社， 2010：13-20

[29」譚君強.發展與共存：經典敘事學與后經典敘事學［J].江西社會科學，2007（2）：27-33.

[30」付雅明，張永娟，劉煒，等.數字敘事作為數字人文方法：現狀與可能[J」.圖書情報工作，2022（14）：10-19.

[32」張晨，孫智中，靳慶文.基于故事模型的“數據 + 故事”融合轉化機制[J」.現代情報，2023（7）：23-34.

[33]陳昱彤，丁家友.數據敘事的運行模型與關鍵問題[J].圖書館論壇，2023（4）：109-119.

[35]靳慶文.數據故事化方法：析出、重組與敘事[J].圖書情報工作，2024（13）：28-40.

[38]劉桂鋒，吳雅琪，劉瓊.數據故事化的研究進展：內涵、流程、模型與應用[J」.圖書情報工作，2023（19）：133-144.

[39 ]LAGOZE C，HUNTER J. The ABC ontologyand model[J] . Journal of Digital Information，2002，2（2）：1-18.

[40」杜志強，李鈺，張葉廷，等.自然災害應急知識圖譜構建方法研究J」.大學學報（信息科學版），2020（9）：1344-1355.

[41］中華人民共和國突發事件應對法[EB/ OL].[2025-05-06]. https：//www.gov.cn/yaowen/ liebiao/202406/content_6960130.htm.

[42］國家自然災害救助應急預案[EB/OL]，[2025-05-06]. https：//www.gov.cn/zhengce/zhengceku/202402/content_6930039.htm.

[43]ZHAO S，WANGQ，MASSUNG S，et al. Constructing and embedding abstract event causality networks from text snippets[C] // Proceedings of the Tenth ACM International Conference on Web Search and Data Mining. New York：Association for Computing Machinery，2017 ：335-344.

[45]王露露.中美圖書館社交媒體保存項目的比較與啟示[J].圖書館學研究，2019（19）：40-48.

[46］萬凱莉.論社交媒體信息的檔案化鑒定[J]，檔案學研究，2016（1）：62-66.

[47」閆靜，杜玉潔，李雪婷.文化強國背景下紅色檔案的數字敘事：要點、難點與切入點[J］.檔案與建設，2024（6）：12-19.

（責任編輯：陳騫）

檔案與建設2025年8期

檔案與建設的其它文章: 檔案數據安全治理：實踐檢視與優化路徑; 信息傳真; 時代需要是檔案學研究的奧卡姆剃刀; 面向未來：“數字世界”中檔案價值的解構與建構; 中小微企業區域性集約化建檔模式分析; 《電子檔案管理辦法》的效能困境與實施優化