陳忻 房小可 孫鳴蕾
(北京聯合大學應用文理學院 北京 100191)
習近平總書記指出,“紅色記憶引領中國夢”,“要把紅色資源運用好,把紅色基因傳承好”,“走得再遠、走到再光輝的未來,也不能忘記走過的過去,不能忘記為什么出發”。北京香山革命紀念館是設置基本陳列專門集中展示香山革命歷史的重要場館,是保護弘揚革命文化和首都紅色文化的重要抓手,是加強愛國主義教育和革命傳統教育的重要載體。北京香山革命紀念館虛擬展館于2020年4月23日正式上線,一段段紅色記憶通過互聯網傳遞給更多的瀏覽者。本文以北京香山革命紀念館網上展廳內容為研究對象,從潛在語義分析層面出發利用主題挖掘方法對其進行細粒度挖掘及語義關聯,實現紅色記憶的重構,為有序開展并深化紅色檔案的開發利用提供方法支持,從而提升紅色文化資源組織水平,更好地傳承紅色文化,構建紅色記憶。
國外“記憶工程”開始實施的時間較早,參與社會記憶挖掘主體豐富,圖書館、博物館、檔案館、學校等組織機構間展開廣泛合作,相關社會記憶挖掘顯有成效。美國、荷蘭、加拿大等諸多國家都對本國的歷史文化、突出民族特色的各類資源進行挖掘,從而構建出國家記憶[1]。針對事件性記憶的挖掘也有不少,如日本阪神大地震后,國家號召多方努力進行大規模社會調查并記錄形成史料,共同構建日本阪神地震記憶[2]。再如對美國的“911”國家紀念博物館,利用數字化技術將一手資料和死難者遺物在網站上進行數字展覽和專題呈現,以在人們心中構建難以忘卻的災難記憶[3]。
我國關于社會記憶挖掘的相關研究也有不少,從宏觀視角,即社會記憶挖掘策略角度看,劉云霞[4]認為這將推動“區域性”城鄉記憶工程建設。馬莉[5]認為檔案機構應發揮社會記憶構建主體地位,建立完整策略框架,為記憶的展現提供有力支撐。從中觀視角,即社會記憶挖掘路徑看,陳建等[6]認為依托多元主體即在政府的主導下進行多元共建可以形成一個多元化的運轉順暢的公共服務體系。鄒燕琴[7]認為這有利于維護社會記憶構建的完整性。通過記憶展覽形式構建,張向東、溫愛珍[8]認為這一路徑打破了時空的限制使檔案與先進信息技術有機融合。李云鵬[9]認為通過留存機制、維系機制、觸發機制及重構機制可以實現社會記憶構建。從微觀角度看,學者們根據承載社會記憶的檔案特點提出不同的社會記憶挖掘方式。如華林團隊[10][11]對根據蒙古族與云南省少數民族的民族檔案各自的特的色對民族檔案進行挖掘,從而構建民族記憶。依托細粒度的數字人文技術進行社會記憶構建方面,董聰穎[12]認為數字人文技術可使社會記憶構建更為多樣化,楊文[13]認為運用數字人文技術可加強對信息資源的挖掘、整合、開發、利用與分享。但針對數字人文技術研究尚且不足,需構建快速響應的信息技術支撐體系。
綜上,國內外參與社會記憶構建的主體呈現多元化,但各主體圍繞社會記憶構建更多的是宏觀理論上探討,文本挖掘技術在社會記憶構建上應用的不多。本研究將對北京香山革命紀念館網上展廳展示成果進行主題挖掘,在利用文本挖掘技術構建社會記憶方面進行一些補充。
主題挖掘是文本挖掘中的一種,該方法是通過文本集合中文本特征項之間的關聯關系的挖掘發現文本中的主題。隨著主題挖掘研究領域的不斷發展,越來越多的學者使用潛在語義分析的方法來進行該領域的研究,其中潛在狄利克雷分配模型((Latent Dirichlet Allocation,LDA)使用最為廣泛。該模型是于2003年D.M.blei等[14]學者提出的 “以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞”的方式得到主題分類模型。此技術的提出被國外學者運用于社交媒體中,M.Michelson等學者[15]利用LDA模型對Twitter用戶所關注的內容進行主題研究。Y.S.Hwang等學者[16]利用此模型進行意見領袖討論主題的規律和方法相關研究。傳統的LDA模型有時并不能滿足研究需要,因此,國外學者們在LDA模型的基礎上進行一些有益的改進如S.Moghaddam[17]等學者在LDA模型的基礎上添加了文本特征參數,提高了主題聚類的準確性,得到了ILDA模型。DTM[18]和OLDA[19]模型也是國外學者在LDA模型的基礎上進行的有效改進所得到的模型。
我國學者也將LDA模型應用于社交媒體上,如劉冠東[20]對微博用戶所關注內容進行主題挖掘,從而研究用戶興趣偏好;或是針對某一關注熱點的社交媒體數據進行主題挖掘,如向菲,馮思佳[21]針基于新浪微博數據對HPV疫苗的公眾關注熱點進行分析。關鵬、王曰芬[22]基于LDA模型對科學文獻等研究成果進行主題挖掘,從生命周期的角度尋求其主題演化的情況,從而達到對研究熱點和發展態勢的監測。特別的是,我國學者利用LDA模型對我國豐富的文化遺產進行挖掘,如何琳[23]等學者對《左傳》進行主題挖掘探索春秋時期的社會發展與變遷。魏扣,李子林及郝琦[24]將LDA應用于在檔案領域,對檔案知識聚合模式選擇進行研究。我國學者們在LDA模型的基礎上也有較多的有益改進,如陳陽等[25]學者針對短文本提出的UR-LDA模型,關注到短文本間語義稀疏及文本之間互相關聯的特點,避免其對主題挖掘結果的影響。楊磊[26]等學者對Q-LDA模型的提出則是為彌補LDA模型在數據挖掘中未考慮到信息質量的問題。
鑒于LDA主題模型的廣泛應用,并能較好地呈現主題挖掘效果,本研究將基于LDA模型進行紅色主題挖掘。
本文對香山紅色記憶進行細粒度挖掘,主要分為三個模塊,分別是文本預處理模塊、LDA主題挖掘模塊、本體構建模塊(如圖)。下文將對這三個模塊進行具體闡述。

圖1 “香山紅色記憶”細粒度挖掘整體流程
預處理過程是對所采集的資源進行加工的過程。首先,本研究采集來源于北京香山革命紀念館虛擬展館展示成果之一的講解語音作為原始資料(如圖2)。官網講解語音按時間發展順序共分為五個部分,分別是“進京趕考”、“進駐香山”、“繼續指揮解放全中國”、“新中國籌建”及“不忘初心,牢記使命,永遠奮斗”,每個部分下有若干單元。

圖2 北京香山革命紀念館虛擬展廳展示內容總覽
其次,本研究將每個部分視作一個篇章,使用人工智能語音引擎將這五個部分的講解語音轉化為五個文本以形成一個文本檔案集,按北京香山革命紀念館現有順序命名為篇章1~5。再次,由于停用詞的過濾可以有效處理文本的維度,剔除無用的詞匯。分詞則是文本處理的基礎。Jieba工具包可以同時對篇章進行分詞及去停用詞處理,本文將采用python環境下的jieba工具包對五個篇章進行去停用詞及分詞處理。最后,將五個篇章預處理后的語料分別轉化為五個詞(TF)矩陣,之后將五個詞頻(TF)矩陣分別轉化成五個逆文本詞頻(IDF)矩陣,最后將TF與IDF矩陣相乘得到TF-IDF矩陣,以供在LDA模型下進行主題挖掘[27],至此文本預處理過程完成。
首先,確定主題數量K。因目前普遍認為應用LDA最大的問題是無法確定最優主題數目,所以本研究中將基于python環境利用Gensim工具包,選取主題相似度與主題困惑度兩個指標,從定性與定量兩個角度對主題數量進行確定。定性地說,我們應該具有正在分析的數據的領域知識,并且能夠衡量數據將聚成群集的一般范圍。定量地說,一般主題相似性越低,表明潛在主題間的距離越大,模型效果就越好。[28]其次,對每個篇章進行主題挖掘。運行LDA模型后,會得到主題—特征詞矩陣、篇章—主題矩陣、篇章中的每個主題的概率分布及主題中每個特征詞的概率分布。最后,選取合適的特征詞數量q,根據每個篇章進行LDA主題挖掘后得到的topic(1~K)下的q個特征詞及相應的邏輯聯系對主題進行命名。從篇章1~5中任選一篇章S,進行上述主題挖掘流程后,可用主題——特征詞表的形式展現結果(如表1)。

表1 S篇章的主題-特征詞表
2.3.1 本體構建相關理論
本體(Ontology)的概念源于哲學領域的存在論,是對世界上各類客觀存在物及其關系的系統性描述,在信息科學領域當中用來描述面向特定領域信息應用的明確的、詳盡的、形式化的共享概念集[29]。北京香山紅色記憶本體是對北京香山革命紀念館編研成果中的元素給出的明確定義,實體是本體中元素所對應的實例,其本體構建概念模型如圖3所示。

圖3 本體構建概念模型
北京香山紅色記憶本體的元素包含概念、關系、屬性。首先,本研究中的概念主要描述北京香山紅色記中的類別,例如,篇章、主題、人物、事件、地點及時間,通過命名實體識別可對概念進行抽取。其次,關系是指不同元素之間的聯系,一個個獨立的實體連接起來形成了關系網絡。本研究中關系,利用命名實體識別、句法分析得到人物、事件、地點、時間之間的關系,如某人物在某時于某地觸發了某事件;主題之間的關系需要基于LDA主題挖掘進行主題相似度計算來關聯發現與抽取。由于主題是詞向量的混合分布,本文選擇余弦相似度(Cosine similarity)的方法,以兩個向量的內積空間的夾角余弦值作為衡量它們之間相似度的標準,其計算公式為[30]:

進行主題相似度計算的兩個主題可用向量α與β表示。分子α·β表示兩個向量的內積,分母α表示兩個向量長度的乘積。余弦相似度的值越大,向量間夾角越小,α與β兩個主題越相似。設定一個范圍,當similarity的值在規定范圍內時,則視兩個主題之間有關聯關系,反之,則視兩個主題之間沒有關聯關系。
值得說明的是,應先將篇章S中的kq個特征詞進行去重處理后得到W個特征詞,再需要進行計算的兩個主題的q個特征詞分別與W個特征詞按順序進行比對,若該主題的特征詞在W個特征詞中出現則記為1,若沒有則記為0,由此組成主題的向量。
屬性是每個實體特有的內容,屬性抽取即采集某個特定信息屬性,如某事發生的具體意義等,每個屬性只與其相對應的實體有連接,是對該實體更為詳細的內容補充。
2.3.2 本體構建可視化
研究選取斯坦福大學提出的七步法[31]進行本體構建方法對北京香山紅色記憶進行本體構建。第一步,本研究中,將對五個篇章進行LDA主題挖掘后得到的五個主題—特征詞表中的特征詞作為本體構建的來源。第二步,借鑒相似的本體可供復用,以減少本體構建的工作量。第三步,通過領域專家、領域詞典或者其他權威方式核心概念羅列出來。第四步,用自上而下、自下而上或者兩者結合的方法完善類的等級體系以定義類之間的層次關系。第五步,從術語資源表中獲取類的屬性。第六步,定義屬性的屬性值類型、屬性值個數、屬性值范圍等約束信息特征。第七步,利用本體構建工具對北京香山紅色記憶領域本體進行可視化呈現。研究選取Protégé工具進行本體構建,可將本體中的類及層次關系以樹形體系結構呈現,便于對本體中的類、屬性和實例等信息進行操作。研究對篇章一中的北平和平解放主題進行梳理,繪制出部分北京香山紅色記憶的本體結構圖(如圖4)。

圖4 部分北京香山紅色記憶本體
本研究基于LDA模型,對北京香山紅色檔案資源編研成果進行深度挖掘,得到其主題,并在此基礎上通過本體構建探尋篇章與主題的關系,揭示了特征詞的細粒度關聯關系。使北京香山紅色檔案編研成果中內在的紅色文化資源得以挖掘并有更好的呈現效果??偟膩碚f,細粒度層面的北京香山紅色記憶挖掘,有利于對北京香山紅色記憶進行重構。
從理論層面看,社會記憶挖掘是社會記憶構建的一種有效技術手段,當前學者們對社會記憶構建技術方面的研究并不多。本研究所使用的主題挖掘的理論方法對社會記憶挖掘技術進行了有效的補充,為后續研究提供了可行性參考,也對社會記憶構建提供了理論支撐。從應用層面看,通過該方法所挖掘出的細粒度關系有利于增強北京香山革命紀念館網上展廳瀏覽者對歷史聯系的理解和感悟,將北京香山紅色記憶通過網絡更好地傳遞并保留在人們心中。但本文對北京香山進行紅色記憶細粒度挖掘只提出了一種模型方法,并未對北京香山紅色記憶進行重構實證,后續將利用具體數據進一步證明該模型的有效性,并從細粒度角度對北京香山紅色記憶進行重構實證以供借鑒,以至形成類似檔案資源紅色記憶構建的推廣。