楊寒淋, 周婭鵑, 趙 豐, 徐 蓉, 安薇竹, 翁正秋, 寧靈艦, 金 宇
(1.中國絲綢博物館 國際交流部,杭州 310002; 2.溫州職業技術學院 人工智能學院,浙江 溫州 325006;3.浙江理工大學 紡織科學與工程(國際絲綢學院),杭州 310018; 4.同方知網(北京)技術有限公司 浙江分公司,杭州 310018)
絲綢是絲綢之路的原動力,在跨文化傳播中發揮著重要作用;絲綢之路是溝通中國與世界其他地區的交通路線,為世界文明的發展做出了巨大貢獻。廣義上的絲綢之路東達韓國、日本,西至地中海各國,通過海路途徑柬埔寨、泰國,連通意大利、埃及等國家。2019年,在第二屆“一帶一路”國際合作高峰論壇上,習近平總書記提出要積極架設不同文明互學互鑒的橋梁,深入開展各領域人文合作,形成多元互動的人文交流格局。鑒于此,深入研究絲路文化遺產,弘揚絲路文化精神,能夠更好地促進各國各地的文化、政治和經濟交流。然而,現有絲路文化遺產呈現多源異構特征——地域廣泛化、語言多元化、成果多樣化,在互聯網上表現為數據大量膨脹、分布極為零散、語言繁雜多樣,使得當前文博領域利用傳統的研究技術手段無法適應海量絲路文化遺產數據的智能研究,故利用人工智能手段挖掘絲路文化遺產愈發重要??傮w而言,要對絲路文化遺產數據進行全面細致的統計和分析,面臨著如下挑戰:
1) 數據采集。需要采集的絲路文化遺產數據往往有不同的來源和模態,各數據之間的語言組成、平臺架構、文檔結構等因素,導致數據的格式差別巨大,呈現多源異構的特性,對數據采集效率和覆蓋率都是極大的挑戰。
2) 信息挖掘。在多源異構的復雜數據中,對爬取到的文本內容手動進行文章的語義提取與分類是不切實際的,需要智能化地進行自動標引、提取文摘與文本分類。
3) 數據清洗。由于挖掘得到的數據中含有大量相似的成分,冗余的信息會使得提取數據分析的精度和效率大幅降低。此外,部分文本內容僅提到了絲路,實質內容卻與絲路無關,使得該部分信息作為噪聲去除時極為困難。
針對上述挑戰,本文提出面向多源異構絲路文化遺產數據的智能挖掘技術。首先,構建高覆蓋率與高效的數據采集系統。其次,設計針對多源異構絲路文化遺產數據的自動標引、自動文摘與數據分類方法。然后,采用多維度融合聚類的數據清洗方法去除冗余和噪聲數據。最后,整合所提出的關鍵技術形成《絲綢之路文化遺產年報》并進行開源發布(https://github.com/CarolineYeung/SilkRoadReport/)。本成果旨在向公眾宣揚絲路文化遺產價值,激發大眾對絲綢之路的關注度和興趣,喚醒全社會對文化遺產的保護理念與意識,并有望為多源異構絲路文化遺產數據的智能挖掘提供理論與技術支撐。
對于絲路文化遺產數據有效信息的獲取,現有的采集策略可分為以下3種:人工采集、文博機構提供和基于互聯網的大數據信息采集。
人工采集是有目的地對相關領域信息進行手動查詢,并從中獲得參考數據和研究數據的方式。絲路文化遺產信息根據存儲形態,可分為數字化信息與非數字化信息。對于可檢索的數字化信息,一般會從搜索主題詞、關鍵詞入手,按照研究問題的操作化指標對收集到的相關信息進行人工錄入標注、摘錄,并建立表格進行數據管理。對于非數字化的信息,采集者首先從相關領域資料入手,利用滾雪球的方法,逐步積累、深化和細化。龍博等[1]結合歷史文獻人工調研和民間調查對多綜提花裝置的發展過程、提花原理和社會地位進行了綜合詳盡的分析。張曉斌等[2]利用互聯網手動提取廣東海上絲綢之路的時間架構,并在文化層面對廣東海上絲綢之路的整體價值做出評估。程金城等[3]人工采集并分析“基質”“斑塊”和“廊道”等景觀生態學的數據,對絲路文化遺產中文學要素進行再發現。劉運娟等[4]采用人工田野調查法和傳世實物分析法對泉州金蒼繡進行了研究,為增強海上絲綢之路沿線國家的文化認同感做出了貢獻。雖然人工采集數據在一定程度上可以獲取到絲路文化遺產數據,但它只能獲取極其有限的信息數量,其信息有效性和專業性仍有待考證,并且會耗費大量時間。在當今互聯網信息的時代下,人工采集的方式或許過于保守,且缺乏數據信息的完整性與多樣性。
文博機構提供相關信息資源是獲取絲路文化遺產數據的另一種渠道,博物館、圖書館、科研所、研究中心等機構通過建立合作交流平臺[5-8]的方式提供領域相關數據,由研究人員對這些數據進行梳理與整合[9-12]。于鳳靜等[9]聯合博物館和研究中心,探索中國海洋文化理念里的中國傳統文化精髓,實現與絲路精神的相契相合。馬建春等[10]通過與文博機構的合作,建設相應的文化創新區與數據庫,挖掘海上絲綢之路歷史資源,梳理文化遺產。吳婭妮[11]是在絲綢之路背景下,探索圖文傳播與雕版印刷之間的關系及對社會文化發展起到的推動作用,其中引用了諸多博物館中的記載文獻。柴冬冬[12]則是列舉相關文博領域中的文獻資料,通過文化間性的置入,探究絲路文化在時間和空間的多維認同度。相較于傳統人工采集的模式,上述方法能更加有效地獲取專業信息。然而,此類多渠道多途徑匯總的原始數據量龐大,并且有較高的重復率,增加了后續分析的困難度。此外,特定文博機構提供的絲路文化遺產數據在廣度與深度上也有局限,不能保證覆蓋所有的信息。
盡管人工采集與相關文博機構提供的方式對數據獲取有所幫助,但無法確保其完整性和有效性,故亟須利用大數據技術從多源異構數據中提取關鍵信息。然而,目前的相關工作僅利用大數據技術來進行絲綢文化變遷的相關研究,缺少對自動高效獲取準確絲路文化遺產數據方面的探討。例如,王鏡等[13]研究了絲綢之路與重游意愿影響關系,通過大數據查詢來獲取旅游地區歷年游客數量,并將其設置為調節變量進行分析。海波[14]則是以絲綢之路為視閾,研究河西走廊附近的佛教文化,其中應用到了基于互聯網的數據采集技術。若要全面采集并分析絲路文化遺產領域的專業資訊信息,需要結合數據挖掘技術,主動發掘相似數據之間的內在聯系,并做出快速精準的響應。本文利用數據挖掘技術對絲路文化遺產數據進行自動化搜索和采集,并對其進行分類、排重、去噪等挖掘處理,確保數據采集的完整性和數據分析的高效性。
本文提出的研究方法有別于文化領域的傳統研究方法。它通過數據采集、數據整理方面具體技術的應用,實現更全面的數據研究;同時依靠大數據智能分析技術,實現對過去一年絲路文化遺產數據的統計和多維度分析。流程主要分為3部分:數據采集、信息挖掘分析,以及數據清洗與數據審核,如圖1所示。

圖1 面向多源異構絲路文化遺產數據的智能挖掘技術流程Fig.1 Intelligent mining technology process for multi-source heterogeneous Silk Roads cultural heritage data
在數據采集方面,本文提出一個集網絡數據采集、分析、存儲、管理功能于一體的網絡信息資源整合系統——垂直搜索引擎系統。通過預先設定的站點及可變的關鍵詞進行定向數據采集,目的是收集網絡上分散的ppt、word、pdf等各類形式的文檔。利用垂直搜索引擎對各種文獻、資訊進行閱讀,并理解其基本涵義,然后進行核心知識點摘取,保存為統一格式的摘要數據后轉存至數據庫中,其過程共包含以下4個步驟。
2.2.1 智能代理系統建設
本文采用集成多種智能信息處理算法,基于先進的語義規則技術進行淺層語義分析,從信息海洋中準確、及時地篩選出研究者所需的信息,并自動分類;運用自定義分類體系,為研究者提供多種方式定制所需的主題。
2.2.2 自動多線程高效采集
為了快速、全面、準確地從Internet及專業數據庫中獲取數據,本文對所有腳本進行多線程并行采集,實時動態監控特定目標,靈活定制采集策略,確保信息全面采集。對于采集規模較大的時間段,采用集群式蜘蛛[15]來抓取,確保抓取速度。同時為了實現各個模塊的解耦合、子模塊的獨立性,在本系統中使用了蜘蛛集群與智能代理集群,同時對服務器進行智能調度,從而子系統可以隨時斷開與連接,且不會影響到整個系統運行。
2.2.3 海量數據存儲和全文檢索
建設支持海量非結構化數據存儲管理的系統,以及成熟的全文檢索技術。與此同時,運用智能相似檢索系統,以百萬級文獻量毫秒級響應速度實施數據檢索工作。
2.2.4 主流中文編碼識別和跨國語言支持
對主流中文編碼進行精準識別,系統在不同編碼之間自動轉換,持續運行;同時支持中文、英文、俄文、法文、日文5國語言。由應用服務器、蜘蛛、智能代理、轉存器、發布系統、規則編輯器、圖片Web服務器組成的7個分布式子系統,能夠同時各自獨立運行數據處理工作。
2.3.1 自動標引
利用詞頻-逆向文件頻率(TF-IDF)[16]從文本中自動抽取能夠高度有效表達文本主題和內容的詞匯。主要過程如下:1) 統計分析文本標題、摘要、正文等部分;2) 對照禁用詞表或者統計的詞分布規律表,刪除高頻的語法功能詞和低頻詞匯;3) 對保留候選詞匯進行加工,英文詞匯要去掉后綴(或前綴),將每個詞還原到其詞根;4) 利用TF-IDF計算候選詞匯的權重;5) 選擇權值大于特定閾值的詞作為標引的關鍵詞。
2.3.2 自動文摘
根據目前國際前沿的自然語言處理思想,通常將詞的線性序列組成句子,將句子的線性序列組成文本。其中具體流程分4個步驟進行:1) 計算詞的權值;2) 計算句子的權值;3) 對所有句子按權值高低降序排列,權值最高的若干句子被確定為文摘句;4) 將文摘句按照它們在原文中的出現順序輸出。計算權值的依據是文本的6種特征:詞頻、標題、位置、句法結構、線索詞和指示詞短語。
2.3.3 數據分類
數據分類的關鍵在于在向量空間中找到一個具有最大邊界的決策平面,這個決策平面能夠在某種評價指標上最好地分割兩個類別的數據點。決策平面可以寫作g(x)=ω·x+b=0,其中x是要分類的任意數據點,ω和常數b通過訓練獲得。支持向量機(SVM)[17]可以在高維空間找到離各類別數據距離最大的決策面,本文采用SVM來進行數據的分類。
2.4.1 數據清洗
利用文本聚類技術對數據內容進行自動分類和指紋索引,通過基于數據內容的相似度計算(Profile模板差異計算方法[18]),將相似度超過臨界值的內容進行自動刪除,僅保留路徑初始版本或權威來源版本,并根據聚類得到的離群點進行二次分析,以便去除無關的噪聲文本。
2.4.2 數據審核
在專家指導下,對全部數據進行審核,確保數據關鍵要素(時間、地點、參與人、摘要)的正確性。審核完成后進行數據發布。
本文從絲路文化遺產入手,以中國知網海量與“絲路文化遺產”相關文獻為樣本進行文本挖掘,按照陳列展覽、考古發現、文化事件、學術成果4個維度,利用數據智能挖掘技術、機器學習技術和數據清洗技術,進行數據的深層次搜集和處理。將采集到的13.4萬條絲路文化遺產機器數據作為實驗測試樣本,進行分類、排重、去噪及整理。
3.2.1 關鍵詞梳理
本文利用文本挖掘技術,在中國知網海量文獻庫中分析與絲路文化遺產相關文獻,以文獻中與絲路文化遺產相關關鍵詞出現的“頻次”“突現率”“節點度”和“中心度”等維度智能推薦關鍵詞,并輔助以人工對關鍵詞進行篩選,共形成關鍵詞346個(每個關鍵詞包含中、英、俄、法、日5國語言)。將各個關鍵詞進行不同組合,利用布爾檢索關系的檢索式,對互聯網和數據庫進行信息搜索。截取部分關鍵詞,如表1所示。

表1 “絲路文化遺產”關鍵詞表部分截取Tab.1 Partial interception of the keyword table of “Silk Roads Cultural Heritage”
3.2.2 站點搜集及整理
通過互聯網信息采集軟件分析出與“絲路文化遺產”高度相關的網站(包括國內和國外),并對這些站點進行統一資源定位器分析,形成初始信息來源網站清單,由相關領域專家人工補充并完善與“絲路文化遺產”相關信息的網站,形成包含漢語、英語、俄語、法語、日語5種語言的信息來源網站清單。最終整理得到符合本文檢索范圍的網站站點,主要有:聯合國教科文組織絲綢之路網站、世界十大博物館網站、絲路沿線全部國家的國家博物館網站、中國全部省級及以上級別博物館網站、中國全部省級及以上文物局網站、SCI數據庫、中國知網數據庫、百度搜索、谷歌搜索等知名公共搜索引擎等,包括368個中文站點,373個外文站點,共計741個站點。截取部分網站站點數據來源,如表2所示。

表2 網站站點數據來源部分截取Tab.2 Partial interception of the website data source
3.2.3 互聯網信息定向抓取與分類
本文利用表2所示網站站點頻道信息,以及事先設置的關鍵詞(表1),結合智能代理、自動多線程、海量數據存儲和編碼識別等方式對網站站點進行定向信息抓取。隨后,將篩選得到的數據通過自動標引、自動文摘得到某報道/文獻的摘要,最后利用機器學習技術(SVM)對文摘進行自動分類,分為陳列展覽、考古發現、文化事件、學術成果4大類。在SVM中,訓練樣本為1 000條人工標注的4大類文摘(其中800條用于訓練,200條用于測試,模型準確度達到99%),訓練好的模型能夠自動對剩余的數據進行分類。
對本次741個站點進行數據采集,共采集絲路文化遺產相關數據13.40萬條,機器對采集得到的全文進行分類,共得到:“絲綢之路陳列展覽”數據約4.10萬條,“絲綢之路考古發現”數據約0.40萬條,“絲綢之路文化事件”數據約7.40萬條,“絲綢之路學術成果”數據約1.50萬條。
本次數據采集工作網站配置與數據采集共耗時約15 d,采集數據大小約為110 GB。
3.2.4 數據整理
對采集和分類后的數據進行整理,包括數據清洗與數據審核。為確保質量,數據整理工作通過人機結合的方式實施,對打上分類標簽的數據進行人工篩選審核,將篩選后的數據規范化,并提供中英2種語言的評審材料,以確保信息的準確度,即不能出現任何絲綢之路相關事件發生日期、發生地點、主要內容的錯誤。對于專業程度較高的工作內容,由本專業領域的專家指導完成。
數據挖掘結果如表3所示,顯示的所有數據條數均為相關步驟處理完成之后的數量。由前文分析可知,在經過數據采集和機器學習分類之后,共得到絲路文化遺產相關數據13.40萬條。由于分類后的數據中會包含重復數據和噪聲數據,需要對其進行清洗:包括數據排重,即對全文內容重復率高于90%的條目進行去重,僅保留最早發布的文章;去噪,即剔除與絲綢之路文化不相關數據。清洗后剩余數據約1.10萬條,其中:“絲綢之路陳列展覽”相關數據約0.30萬條,“絲綢之路考古發現”相關數據約0.10萬條,“絲綢之路文化事件”相關數據約0.60萬條,“絲綢之路學術成果”相關數據約0.10萬條。在數據清洗之后,需要利用人工對摘要內容進行審核以進一步去除無關的信息、并修改誤分類的內容所屬標簽及摘要內容,處理完成后得到數據約0.37萬條,其中:“絲綢之路陳列展覽”相關數據約0.11萬條,“絲綢之路考古發現”相關數據約0.08萬條,“絲綢之路文化事件”相關數據約0.09萬條,“絲綢之路學術成果”相關數據約0.09萬條。

表3 絲綢之路相關的數據挖掘結果Tab.3 Data mining results related to the Silk Roads piece
人工校驗審核之后的數據已經較為純凈,為提高數據質量,邀請聯合國教科文組織世界遺產中心、中國古代史研究中心、中國社會科學院考古研究所等領域專家進行篩選,如表4所示。篩選完成后剩余數據426條,其中:“絲綢之路陳列展覽”相關數據100條,“絲綢之路考古發現”相關數據100條,“絲綢之路文化事件”相關數據125條,“絲綢之路學術成果”相關數據101條。

表4 領域專家篩選與投票Tab.4 Domain expert screening and voting piece
最后,特邀文博、考古、歷史等領域的40位國內外權威專家分別對陳列展覽、考古發現、文化事件、學術成果中的“十大”進行投票,形成《絲綢之路文化遺產年報》1份,年報內容包括:“絲路文化遺產十大陳列展覽”“絲路文化遺產十大考古發現”“絲路文化遺產十大文化事件”和“絲路文化遺產十大學術成果”。
本文采用數據挖掘、機器學習、數據清洗等技術對多源異構絲路文化遺產數據進行智能分析和處理。在數據采集方面,使用智能代理、自動多線程、海量數據存儲和編碼識別構建高覆蓋率與高效的數據采集系統;在信息挖掘方面,使用自動標引、自動文摘和支持向量機快速、精確地完成文本分類工作;在數據清洗方面,采用數據篩選、數據校對和專家審核對數據信息進行去重、去噪等清洗作業。最后,整合這些研究成果形成《絲綢之路文化遺產年報》并進行開源發布。實驗結果表明,利用人工智能數據挖掘技術進行絲路文化遺產的數據研究能夠有效保證數據的全面性、多維性和高效性,其成果對弘揚和傳播絲路文化有著重要的現實意義與理論價值。

《絲綢》官網下載

中國知網下載