陶晨 白琳琳 金姝 徐蓉蓉 楊劍平
摘要: 針對絲綢文化演變的數字化觀測問題,文章探析大數據中的絲綢文化情感特征與構成,透視新時期絲綢文化的內涵升級。利用主題網絡爬蟲技術采集得到絲綢文化情感的大數據,對情感詞詞頻的統計展示了絲綢文化正、負情感在“一帶一路”倡議影響下的總體走向;對歷年絲綢文化情感來源的構成分析,發現了物質性來源的下降趨勢、社會性和精神性來源的上升趨勢,揭示了“一帶一路”影響下絲綢文化主導形態的轉變和升級。研究結果表明,對于新時期絲綢文化發展狀態的評估、文化政策制定具有重要參考價值。
關鍵詞: 絲綢;情感;大數據;文化計算;“一帶一路”倡議;詞頻
Abstract: Around the digital observation of silk culture evolution, this study is intended to explore the characteristics and composition of silk cultural emotions in big data, and reflect connotational upgrade of silk culture in the new era. Big data of silk cultural emotion was collected with topic-focused crawler technology, and emotional word frequency was counted to reflect the general trend of positive and negative silk cultural emotions under the impact of the Belt and Road initiative. Analysis was made on the composition of silk cultural emotion source over the years to reveal the decline of material sources and the rise of social and mental sources, as well as the transformation and upgrade of the dominant type of silk culture under the impact of the Belt and Road initiative. The findings have an important reference value for estimation and policy-making in the domain of silk culture in the new era.
Key words: silk; emotion; big data; culture computation; "the Belt and Road" initiative; word frequency
中國絲綢古往今來傳承數千年,品種與技藝繁多,同時也承載了勞動人民豐富的情感與信念,深刻地影響了民族個性和民族心理的形成。近年來“一帶一路”倡議的推行,賦予絲綢文化新的時代內涵和發展動力,由此引發的絲綢文化情感的涌動和翻新,成為考察新時期絲綢文化演進和升級的獨特窗口。國內已有許多學者探討新時期絲綢文化的演變和適應性發展,如討論絲綢文化的復興[1]、新時期文化共同體的形成[2]、新絲路歷史文化遺產的保護策略[3]、新時代背景下絲綢文化產業融合發展策略[4]等。該類研究采取社會調查、資料整理和觀點討論的傳統方法,主要成果形式為提出愿景或對策,而鮮有對絲綢文化現實狀態的數據實證。另一方面,隨著大數據技術應用的不斷深入,跨學科的“文化計算”應運而生,成為利用數據挖掘和文本處理進行文化與社會科學量化分析的前沿性領域[5]。文化計算源起哈佛大學的Aiden等[6]對谷歌數字圖書數據進行的研究,其通過海量文本中單詞或人名隨時間變化的頻率,推導出了一些重要歷史文化事件和趨勢,證明了利用大數據處理手段提取文化特征并進行量化分析的可行性;中國學者邵培仁等[7]對詞頻方法用于文化基因的提取做了探索,提出了利用文化計算方法進行中華文化基因庫建設的構想;龔為綱等[8]通過大數據詞頻分析,結合關系網絡與語義情感,考察了海上絲綢之路中絲綢產品的貿易格局和文化影響力;陶晨等[9]在詞頻統計基礎上分析了絲綢文化的特征分布及其背后的新時代內涵,展示了絲綢文化在“一帶一路”倡議影響下的演化過程;Correia等[10]考察不同語言中各種動物名稱的頻率分布,通過實時監測物種文化可見度的變化,揭示了公眾環保意識的縱深演化;Kozlowski等[11]利用詞向量模型研究社會階級結構,發現了社會階級的形成與轉化隨宏觀經濟波動而周期性改變的規律。本研究將文化計算方法用于絲綢文化大數據中情感要素的挖掘和量化分析,透過情感變化觀照文化的演變,新時期絲綢文化的內涵升級可見一斑。
1 數據采集與處理
文化即人的生存方式,絲綢文化是中國勞動人民養蠶、制絲、織綢的生活方式及在此之上衍生和沉淀的社會傳統、禮節習俗、民族情感、思維模式等。絲綢文化相關的文本可以通過人工方式從書籍、報紙、電視、網絡等媒體上搜集,當積累的數據達到一定的規模,能夠基本覆蓋人們在這一對象上產生的所有言論或觀點,即形成了絲綢文化的大數據。但人工采集方式耗時耗力,且難以保證數據的時效性,近年來逐漸讓位于自動化采集方式。
當今世界,互聯網已成為全球第一大媒體,特別是社交網絡的不斷滲透,人們日常生活與工作的所見所聞所想,幾乎立刻就會出現在互聯網上。互聯網不遺巨細地映射了人們社會生活的點滴,因此其蘊含的海量信息資源對于一定的社會文化對象具有解釋力。在基于互聯網的自動化采集方式中,以主題網絡爬蟲技術[12]的使用最為廣泛,可在短時間內實現高效的數據采集。
本研究將“蠶絲”“絲織”“絲綢”等詞語作為關鍵詞,以百度網站的搜索結果頁面作為入口,利用主題網絡爬蟲進行多線程大規模文本采集,將網頁時間戳賦予相應文本對象的時間屬性,共爬取20 943個網站的570 120個有效網頁,獲取文本74 985 KB,時間上涵蓋2010—2019年共十年。這些文本涵蓋了絲綢文化的各方面,可認為是絲綢文化的大數據,如圖1所示。
絲綢文化的文本大數據需要進行預處理,以便得到情感詞的序列。預處理的過程主要包括分詞、停用詞過濾和情感詞標記[13]三個步驟。分詞是中文文本處理的特有技術,通過分詞進行中文詞語的分割,將文本轉變為詞語序列。此時序列中含有一定數量的量詞、連詞、介詞、語氣詞等意義不大的非實體詞語(稱為“停用詞”),借助中文停用詞表對詞語序列進行過濾,以析出實體詞。進一步地,通過調用中國知網Hownet情感詞庫,對序列中實體詞的情感色彩進行識別和標記。Hownet情感詞庫是目前使用最多的中文情感分類工具,包含中文正、負面情感詞8 000多個,其優點是分類明確、檢索方便,能夠滿足絲綢文化應用的需要。經過情感標記后,文本中的正、負面情感詞分別用記號P、N指示。
2 情感對象特征分析
利用詞語序列的時間標簽,可將文化大數據切分成一系列子集對應不同時間段。本研究將絲綢文化大數據劃分成十個子集,對應2010—2019年。對這十個子集分別進行詞頻統計,得到最近十年間正、負面情感詞在絲綢文化大數據中出現的頻率,其總體走向如圖2所示。
由圖2可見,近十年間絲綢文化中正面情感詞出現的頻率(以下簡稱“正面詞頻”)總體呈上升趨勢,負面情感詞頻率(以下簡稱“負面詞頻”)總體呈下降趨勢。在2013、2014年左右,正面詞頻與負面詞頻同時發生了一次大幅跳變(正面詞頻上升約30%、負面詞頻下降約23%),該時間點與“一帶一路”倡議提出的時間節點(2013年9月)基本吻合。可見“一帶一路”倡議的提出,有力地推動了絲綢文化中正面情感的發揚,這對強化確立絲綢文化在中國優秀傳統文化中的地位具有重要的作用。進一步,本研究考察絲綢文化情感對象的性質,列出了歷年頻率排名前五的情感詞,如表1所示。
根據有關“文化階層”的觀點[14],文化要素可分為物質性要素(絲綢產品、技藝、工具等)、社會性要素(絲綢服飾的禮俗意義、絲綢貿易與絲綢產業的格局、新絲路上的國際政治角力等)、精神性要素(物質性和社會性實踐中升華而來的理念和個性,如務實、友好等)三大類。三大類之下亦可再作細分,如社會性要素可細分為禮俗性要素、經濟性要素、政治性要素等。
這里的情感對象是指情感所針對的絲綢文化要素。基于對絲綢文化一定的理解,可通過情感詞來判斷情感對象。如情感詞“高貴”“華麗”“舒適”“典雅”等一般是針對絲綢產品及其性能(即物質性要素),故其情感對象具有物質性,這類修飾詞占據了2010—2013年正面情感詞的大部分。相較之,2014—2019年正面情感詞中“復興”“包容”“合作”“共贏”之類的動詞比例攀升,這類動詞主要針對新時代背景下的社會政策和國際格局(即社會性要素),其情感對象具有社會相關性。這表明,絲綢文化正面情感對象有從物質相關向社會相關轉變的趨勢。
負面情感詞的演變過程存在類似的分段特點。2010—2013年負面情感詞中“低端”“落后”“奢侈”“蕭條”等大多數針對絲綢產業和絲綢貿易(即社會性要素中的經濟性要素),其情感對象具有經濟相關性。而2014—2019年負面情感詞中“動蕩”“極端”“恐怖”“非法”等詞語比例攀升,主要針對新絲路上各種國際政治不利因素(即社會性要素中的政治性要素),其情感對象具有政治特征。這表明,絲綢文化負面情感對象有從經濟相關向政治相關演變的趨勢。
3 情感來源構成分析
本研究發現,情感詞的詞頻分布具有集中性特點。以2014年為例,其典型形式如圖3所示。
為析取高頻情感詞從而進行更有針對的分析,本研究將詞頻由小到大、間隔均勻地分為10個等級。圖2中,正、負面情感詞詞頻區間分別為0~0.31、0~0.09,故正、負面詞頻等級間隔分別為0.031、0.009。為統計每個等級上出現的情感詞數量,圖3給出了2014年絲綢文化情感詞的詞頻分布情況。可以看出,正、負面情感詞的詞頻分布都具有指數分布的特征,即較高頻段為少數詞占據,絕大多數情感詞集中在較低頻段。將10個詞頻等級按照其容納的情感詞數量進行聚類與分類,可將情感詞劃分為高頻、中頻和低頻,如圖4所示。
圖4給出對2014年正面情感詞詞頻等級聚類的結果,可見在圖中虛線位置上存在自然三分類,可據此將正面情感詞劃分為低頻(對應詞頻等級1,共284個詞語)、中頻(對應等級2,共105個詞語)和高頻(對應等級3~10,共182個詞語)。對于負面情感詞,亦可作類似的分類。
基于情感詞詞頻的集中分布特點,對其進行頻段的劃分后,可藉由部分高頻詞把握絲綢文化情感的主要來源。在絲綢文化大數據中定位高頻詞的位置,分析其上下文,可辨識其情感對象;通過對情感對象的梳理與整合,提取絲綢文化情感的來源,過程如圖5所示。
本研究對2010—2019年絲綢文化高頻情感詞(其中正面詞182個、涉及上下文142 672條,負面詞67個,涉及上下文35 362條)按照圖5步驟進行人工辨析、整合和匯總,總結正面情感來源項13條、負面情感來源項8條,如表2所示。
表2中,將情感來源按其對象性質分為物質性來源、社會性來源和精神性來源三種,正面情感來源包含上述三種,負面情感來源包含前二種(其在高頻區上不涉及精神性情感對象)。各情感來源項在絲綢文化情感中所占比重,可用其背后支撐的上下文條目數量(經歸一化處理后)表征。進一步考察時間軸上絲綢文化各情感來源項的比重變化,如圖6所示。
圖6(a)為近十年絲綢文化正面情感來源的構成變化。總體上,物質性來源的比重呈下降趨勢,社會性、精神性來源比重呈上升趨勢;物質性來源內部,僅PM04(現代絲綢產品的健康、綠色、環保特性)保持穩定、略有上升,其余項均下降;社會性來源內部,PS10(新時期絲綢文化的時代內涵、感召力、活力、動力等)增幅最大,是推動社會性來源比重上升的主要因素;精神性來源項中,PP12(絲綢之路的和平、友好、開放、包容精神)增幅最大,是推動精神性來源比重上升的主要因素。
“絲綢”的本意昭示其物質性,幾千年來中國勞動人民養蠶、剝繭、抽絲、紡紗、織綢,創造了豐富的物質性文化;這種物質性文化在生產實踐中培育了特定的社會群體(如蠶農、綢商)及相應社會生活方式(如耕織、衣錦),給絲綢文化賦以社會性特征。從圖6(a)來看,2014年之前絲綢文化正面情感以物質性來源為主導,絲綢文化主要表現為一種物質性文化;2014年之后,社會性來源的比重逐年攀升,至2016年超越物質性來源比重,此后維持在相對穩定水平,這喻示了“一帶一路”倡議推動下絲綢文化由物質性主導向社會性主導的轉變。
圖6(b)為近十年絲綢文化負面情感來源變化的情況。總體上,物質性來源的比重逐年下降,社會性來源比重呈逐年上升趨勢;社會性來源項目中,NS08(對新絲路上貿易保護主義、單邊主義、零和思維、極端勢力、恐怖主義的憂慮)增幅最大,是推動社會性來源比重上升的主要因素。值得注意的是,近幾年來情感來源項NS08的凸顯,表明當今國際政治環境中的各種不利因素已成為新時期絲綢文化傳播、發揚和演進的主要障礙。
4 結 論
本研究在絲綢文化大數據上開展的統計與分析,展現了近十年絲綢文化中情感特征與構成,包括:絲綢文化中正面情感上升、負面情感下降的總趨勢;正面情感對象的社會性傾向和負面情感對象的政治性傾向;具體的絲綢文化正、負情感來源項共21條;絲綢文化情感來源中物質性下降、社會性和精神性的上升的現象。這些發現反映了新時期絲綢文化在“一帶一路”倡議影響下的演變、升級及面臨的挑戰,包括:絲綢文化主導形態的轉變,即從物質性文化向社會性文化的升級;新時期絲綢文化發展和演進的主要障礙,來自國際政治中的貿易保護主義、單邊主義、零和思維等。
參考文獻:
[1]李希光. “一帶一路”文化建設與絲綢之路文化復興[J]. 新聞與傳播, 2015(6): 24-26.
LI Xiguang. Cultural construction and cultural revival of the silk road under "the Belt and Road" initiative[J]. Journalism & Communication, 2015(6): 24-26.
[2]江晉, 李潔. “一帶一路”背景下基于Wiki平臺絲綢文化學習共同體的構建[J]. 新西部, 2018(2): 40, 50.
JIANG Jin, LI Jie. Construction of silk cultural learning community based on Wiki platform under the background of "the Belt and Road"[J]. New West, 2018(2): 40, 50.
[3]李丕宇. “一帶一路”背景下“絲綢之路”歷史文化遺產研究的雙向視域[J]. 齊魯藝苑, 2017(2): 4-8.
LI Piyu. The bi-directional perspective for historical and cultural research on the heritage of the silk road under the background of "the Belt and Road" initiative[J]. Qilu Realm of Arts, 2017(2): 4-8.
[4]王俊鵬, 韓斌. 新時期“一帶一路”對民族文化傳播的影響及啟示[J]. 貴州民族研究, 2019, 40(1): 49-52.
WANG Junpeng, HAN Bin. "The Road and Belt" initiative in the new period of national culture dissemination and the influence of the enlightenment[J]. Guizhou Ethnic Studies, 2019, 40(1): 49-52.
[5]趙海英, 賈耕云, 潘志庚. 文化計算方法與應用綜述[J]. 計算機系統應用, 2016, 25(6): 1-8.
ZHAO Haiying, JIA Gengyun, PAN Zhigeng. Review on the methods and applications in cultural computing[J]. Computer System Application, 2016, 25(6): 1-8.
[6]MICHEL J B, SHEN Y K, AIDEN A P, et al. Quantitative analysis of culture using millions of digitized books[J]. Science, 2011, 331(6014): 176-182.
[7]邵培仁, 林群. 中華文化基因抽取與特征建模探索[J]. 江蘇師范大學學報: 哲學社會科學版, 2012, 38(2): 107-111.
SHAO Peiren, LIN Qun. Exploration of extracting chinese cultural genes and modeling its characteristics[J]. Journal of Jiangsu Normal University: Philosophy and Social Science Edition, 2012, 38(2): 107-111.
[8]龔為綱, 羅教講. 大數據視野下的19 世紀“海上絲綢之路”: 以絲綢、瓷器與茶葉的文化影響力為中心[J]. 學術論壇, 2015, 38(12): 82-91.
GONG Weigang, LUO Jiaojiang. The 19th century "maritime silk road" from the perspective of big data: centering on the cultural influence of silk, porcelain and tea[J]. Academic Forum, 2015, 38(12): 82-91.
[9]陶晨, 魯佳亮, 蘇淼, 等. 新時期絲綢文化演變的大數據解讀[J]. 絲綢, 2020, 57(12): 74-79.
TAO Chen, LU Jialiang, SU Miao, et al. Interpreting silk culture evolution in the new era with big data[J]. Journal of Silk, 2020, 57(12): 74-79.
[10]CORREIA R A, JEPSON P, MALLHADO A C M, et al. Internet scientific name frequency as an indicator of cultural salience of biodiversity[J]. Ecological Indicators, 2017(78): 549-555.
[11]KOZLOWSKI A C, TADDY M, EVANS J A. The geometry of culture: analyzing the meanings of class through word embeddings[J]. American Sociological Review, 2019, 84(5): 905-949.
[12]于娟, 劉強. 主題網絡爬蟲研究綜述[J]. 計算機工程與科學, 2015, 37(2): 231-237.
YU Juan, LIU Qiang. An overview of thematic web crawler[J]. Computer Engineering and Science, 2015, 37(2): 231-237.
[13]苗奪謙, 衛志華, 張志飛. 中文信息處理原理及應用[M]. 北京: 清華大學出版社, 2015.
MIAO Duoqian, WEI Zhihua, ZHANG Zhifei. The Theory and Applications of Chinese Information Processing[M]. Beijing: Tsinghua University Press, 2015.
[14]錢穆. 文化學大義[M]. 北京: 九州出版社, 2011.
QIAN Mu. The Basics of Culture[M]. Beijing: Jiuzhou Press, 2011.