何琳 艾毓茜 劉建斌 彭秋茹



摘要:[目的/意義]數字遠讀視角下分析歷史典籍,將特定時期社會通過可視化等綜合技術展現給研究者,以幫助研究者量化史學研究。[方法/過程]以社會發展過程中產生的文本數據為基礎,借鑒用戶畫像概念,提出社會畫像的構建方法。根據各發展分面內在邏輯數據構建社會畫像描述框架,利用多種文本挖掘技術抽取不同維度的特征標簽,形成社會畫像,并以先秦時期為例進行實證研究。[結果/結論]借助基于史實的社會畫像,能夠全景化呈現社會發展狀況,可以為研究者快速獲得古代社會概貌提供支持,具有一定的實踐意義和價值。
關鍵詞:社會畫像;數字遠讀;用戶畫像;文本挖掘;社會發展
DOI:10.3969/j.issn.1008-0821.2022.07.002
〔中圖分類號〕G203〔文獻標識碼〕A〔文章編號〕1008-0821(2022)07-0022-09
Research on Construction Methods of Social Portraits on Digital HumanitiesHe LinAi YuxiLiu JianbinPeng Qiuru
(1.College of Information Management,Nanjing Agricultural University,Nanjing 210095,China;
2.Center for Humanity and Social Computation,Nanjing Agricultural University,Nanjing 210095,China)
Abstract:[Purpose/Significance]It is helpful to analyze historical classics from the perspective of distant reading by using visualization and other comprehensive technologies to show the society of a specific period to help researchers quantify historical research.[Method/Process]Drawing on the concept of user portraits,this article proposed a method for constructing social portraits based on the text data generated in the process of social development.The social portrait description framework was constructed based on the internal logic data of each social development facet,and used a variety of text mining techniques to extract feature labels of different dimensions to describe the social portrait,and took the pre-Qin period as an example for empirical research.[Results/Conclusion]With the help of social portraits based on historical facts,the social development situation can be presented in a panoramic way,which can provide support for researchers to quickly obtain an overview of the ancient society.
Key words:social portrait;distant reading;user portrait;text mining;social development
2010年,莫萊蒂引入遠讀概念將數字技術應用于人文學科,形成跨學科的數字人文研究[1]。在沒有理論假設的前提下,文本內容挖掘及可視化分析利用數據挖掘、文本聚類、分類等方法,可以從海量數據中發現知識,尋找隱藏在數據中的模式、趨勢和相關性,揭示事物現象和發展規律,是對數字人文的可視化展示,為數字文本提供全局圖景,可以很好地應用于史實的研究[2]。但目前的研究多集中于對大規模歷史資料進行單一領域的定量分析,如歷史地理信息可視化[3]、領域知識組織[4]、社會網絡分析[5]和主題挖掘[6]等。而日益蓬勃發展的用戶畫像技術,以大量具有時效性的真實用戶數據為數據基礎,抽取其中的屬性、行為等特征形成用戶模型,具有全面性、時效性、真實性、動態性以及代表性等特征[7]。畫像技術有助于在數字遠讀處理中,進一步細分分析的顆粒度。
用戶畫像技術及數字遠讀技術的蓬勃發展,為文本進行多維度社會畫像分析提供了堅實的技術基礎,本文嘗試面向典籍,基于文本挖掘視角試圖為研究者提供不同歷史時期社會的“放大鏡”。借鑒用戶畫像概念,本文采用“社會畫像”一詞,借以描述從文本角度構建的不同歷史時期多維度的社會畫像描述框架,然后結合歷史中的相關人物、事件、物體等數據,建立古代社會畫像標簽體系,利用定性與定量相結合的方法,從不同角度、不同層面對古代社會進行分析展示,試圖形成當時的社會畫像。以先秦時期為例進行實證研究,結果表明,本文提出的社會畫像構建技術,能夠有效形成面向文本的社會概貌描述,對于提升大規模文本的快速有效分析具有一定的實踐意義和價值。5E9B229B-E087-48AE-95C9-8A895CDF36E6
1相關研究
1.1用戶畫像
用戶畫像研究最初由交互設計之父Cooper A[8]提出,他認為用戶畫像是“基于用戶真實數據的虛擬代表”。用戶畫像根據用戶信息來提取典型的用戶特征,如用戶的基本屬性特征、行為特征、社交特征等[9]。在基于VSM的用戶畫像研究中,研究者用加權的VSM模型來表示用戶畫像,VSM模型主要用于關鍵詞的獲取和賦權,通過獲取用戶行為數據、內容數據、互動數據和情景數據等使用數據[10],從中抽取關鍵詞構成用戶畫像的標簽數據,常使用布爾值、詞頻或詞頻—逆文檔頻率用以賦權值。其核心思想是將文本看作一個詞袋模型,用向量集合來表示文檔,每個向量由特征詞與權值組成,權值反映特征詞對表示文本的重要程度。用戶被表示為從用戶使用數據中抽取的關鍵詞及相應權重組成的向量,通過計算歐幾里得距離、曼哈頓距離、閔科夫斯基距離、余弦距離來測量用戶間的相似度[11-13]。
用戶畫像的標簽數據主要有兩種來源,一種是通過人工添加標簽,因其需要大量的人力物力,較少被使用;另一種是對大量文本語料進行文本挖掘抽取特征詞進行標簽表示。文本挖掘技術多用于用戶畫像的標簽數據獲取,如圖書館基于知識挖掘的智慧推薦服務[14]。大多數用戶畫像的標簽數據通過對用戶使用數據進行關鍵詞抽取,挖掘相關信息的屬性特征,如從數字圖書館使用數據中獲取學術用戶的研究興趣[15],通過對用戶的訪問頻率、檢索習慣、檢索內容等和信息行為相關的數據進行分析,實現與用戶興趣相關的文獻推薦。
1.2數字遠讀
“遠讀”的概念最早由莫萊蒂于2000年提出,利用定量分析的方法聚焦于眾多文本單位之間的關聯,從中發現規律,以獲得宏觀視野[16]。2005年,他又提出利用表圖、地圖和樹圖3種抽象模型,收集和解釋數據,進行實證化探索研究[17]。實質上,莫萊蒂提出的遠讀是通過分析數據,利用實證性模型驗證人文學者的相關研究,從宏觀角度研究人文學的發展。大規模文本集合上的遠讀,主要分為宏觀統計描述和內在結構特征揭示兩種,其結果都是文本的宏觀抽象表達,需要進一步解讀[1]。通過宏觀的分析,利用計算機技術量化描述文本特征,幫助學者深入解讀文本潛在規律,對于歷史學者而言,可以獲得全新的視角來觀察超長歷史時間段的文化現象。
可視化作為遠讀的重要呈現手段,在實際研究中多使用標簽云、網絡圖、結構圖、熱力圖、地圖、時間線圖6種可視化方法。其中,標簽云用以展示高頻詞匯,網絡圖可以反映文本內或文本間信息的相互關系,結構圖可以展現語料庫或單個文檔的層級結構,時間線圖則可以反映歷史數據隨時間的演化。因此,可以認為遠讀是數字文本的可視化形式,用以描述文檔集合的全局特征,幫助學者獲得整體認知,方便研究人員更快發現文檔內部的潛在關聯,快速選擇研究角度深入分析。
綜上,本文在數字遠讀研究的基礎上,結合用戶畫像研究,提出“社會畫像”這一概念。社會畫像即社會發展概貌,由特定時期社會發展描述的基本維度匯聚而成。通過抽取每個維度的描述概念構成社會特征標簽,使用社會特征標簽構建社會畫像并進行可視化展示。基于社會特征標簽,利用定性與定量相結合的方法,從不同角度、不同層面對社會發展維度進行分析,可快速、清楚地了解該時期社會發展的主要特征。社會畫像具有以下特征:
1)結構化:建立社會描述文本分析框架,縮小文本分析的顆粒度。
2)自動化:利用文本分析技術,抽取社會畫像特征標簽,自動構建社會畫像。
3)可視化:在文本計算的基礎上,幫助研究者形成快速的多維度分析結果。
2基于數字遠讀技術的社會畫像構建流程
基于數字遠讀技術的社會畫像可用于驗證或輔助歷史學科的相關研究,為研究者快速獲得古代社會概貌及各方面發展特征提供支持,同時幫助構建更符合現代人閱讀習慣的古漢語數字產品。社會畫像的構建主要包括兩個部分:社會畫像描述框架和社會畫像標簽體系。其中,社會畫像描述框架是社會畫像構建的基礎,而社會畫像標簽體系是社會畫像呈現的具體數據來源,可以更細致地反映特定時期社會各分面發展狀況,并較為全面地呈現該時期主要發展特征。利用標簽體系抽取社會特征標簽并進行可視化處理,綜合展示社會畫像的效果。具體實證設計流程如圖1所示。
2.1社會畫像分面描述框架的構建
在社會評價指標方面,國家發改委和國家統計局聯合制(修)訂的《社會發展水平綜合評價方案》提出四大維度,涉及人口發展、生活水平、公共服務以及社會和諧;聯合國使用人文發展指數,由健康指數、文化指數、生活水平指數復合組成。相關研究方面,王文博等[18]提出社會發展水平評價的6個板塊,分別為人口發展、人民生活質量、經濟發展、社會公平與協調、安全與政治進步和生態環境;代金輝等[19]構建了社會發展水平統計模型,包括經濟、人民生活、教育、科技、精神文化、醫療衛生6個要素層;張艷豐等[20]在應用層面提出智慧城市數據畫像分析框架,包括智慧治理、智慧民生、智慧經濟、智慧環境、創新驅動5個維度。
綜上,社會畫像分面描述框架需要涵蓋與社會發展相關的政務、生活、經濟、教育、環境以及創新等領域。本研究試圖通過文本統計方法借以描述特定歷史時期內社會發展的總體狀況。前期對歷史典籍進行了文本聚類[21-22],因此,本文綜合考量社會相關評價指標及前期研究文獻,擬從政治、經濟、文化、社會、軍事5個層面構建社會畫像描述框架SD(Social Development):
SD={α1PF,α2EE,α3CF,α4SC,α5MF}(1)
其中,PF(Political Factors)表示政治發展狀況,體現政府行政效能和服務,具體包括國家外交、律法及治理模式等多個方面。EE(Economical Efficiency)表示經濟發展狀況,具體包括農業、工業、商業、手工業、養殖業等。CF(Cultural Factor)表示文化發展狀況,具體包括教育、建筑、天文、歷算、醫學、文學等方面。SC(Social Customs)特指社會習俗方面發展狀況,具體包括婚喪嫁娶、祭祀、風俗習慣、生育等方面。MF(Military Force)表示軍事發展狀況,具體包括軍隊、軍備、戰爭等方面。αi為每個自變量與因變量之間的關聯系數,表示每個因素對社會整體情況的影響大小,即對應的權重。5E9B229B-E087-48AE-95C9-8A895CDF36E6
2.2社會畫像候選標簽的獲取
社會畫像描述框架是構建畫像的基礎,在此基礎上需要從相關文本中獲取語義相關的詞匯用于描述框架中的每個分面,借以形成以詞匯為基礎的社會畫像。候選標簽的獲取工作便是從古漢語文本數據中,抽取出社會畫像描述框架SD中的具體事實信息稱為概念實體,如人名、地名、時間、物品及事件等。
通常情況下,某一時期社會發展中越有影響力的事件,在這一時期的社會文本中記敘的篇幅越長、內容越多。因此,本文利用社會畫像標簽體系構建用戶詞典,在只考慮詞頻的情況下對語料庫進行抽詞,通過計算候選標簽在數據集中的總詞頻與該詞在數據集中覆蓋程度之間的乘積,得到候選標簽及其初始權值。具體公式如式(2):
SEAi=tfi×log N/dfi(2)
其中,tfi指第i個詞在社會文本語料庫中的總詞頻,dfi表示含有第i個詞的文本數量,社會文本語料庫中的總文本數量用N進行表示,SEAi表示第i個詞可以反映語料庫主題的能力大小。在總文本數量N一定的情況下,如果一個詞在語料庫中的詞頻越高,且包含該詞的文本越多,那么這個詞的SEAi值越高,即這個詞越能反映該時期社會的發展特征。如“師”“使”等在語料庫多篇文本中出現,同時在某一篇文本中的詞頻也比較高,即可認為“師”“使”等在語料庫中具有較高的文本主題表現能力。最終篩選SEAi值在前50%,同時至少在兩篇文本中出現的字、詞作為古代社會候選標簽進行特征加權。
2.3社會畫像特征標簽加權計算
為進一步區分候選標簽的重要程度、加強特征標簽與社會發展分面之間的映射關系,更好地區分抽取出的特征候選詞的重要程度。本文利用改進的社會發展向量模型對已抽取社會特征候選詞的權重進行修正,修正后的特征候選詞權重為該詞的初始權重SEAi值與該詞所屬類別的成分得分系數的乘積[23]。
本研究針對春秋時期歷史典籍語料數據,通過分別統計抽取的候選標簽所表征的事件種類和個數,以春秋三傳中時間劃分為文本組織標準,形成了255個觀測數據樣本。利用主成分分析法進行降維因子分析,并利用KMO和Bartlett球形度檢驗定量的檢驗變量之間是否具有相關性。
通過表1和表2可以發現,各影響因素之間的相關系數均大于0.3,存在較好的線性相關性。根據相關性檢驗結果,KMO值大于0.8,且Bartlett球形度檢驗P值小于0.001,此時主成分分析的結果具有較好的實用性,可以進行因子分析。
如表3所示,根據最終計算得到的成分得分系數矩陣,得到最終改進的社會發展評價模型的表達式:
SD={0.229×PF,0.193×EE,0.227×CF,0.228×SC,0.209×MF}(3)
2.4社會畫像可視化
抽取權重超過閾值的特征標簽,得到社會特征向量F(v),定義社會畫像H為特征向量F(v)中的所有的特征及其權重:
H={(w1,t1),(w2,t2),……,(wn,tn)},ti∈F(v)(4)
其中,ti表示第i個特征標簽;wi表示第i個特征標簽的權重,n表示共有n個特征標簽,權重越大的特征在社會畫像中的標簽越大。本文抽取加權后權重前50的特征標簽進行社會畫像可視化處理,具體實現過程如下所示:
1)選擇各社會分面中權重最高的特征標簽作為核心節點。
2)計算特征標簽間的映射距離。若兩個詞在標簽體系中存在關系,則這兩個詞之間存在一條邊,否則沒有邊,邊的長度S即為特征標簽間的映射距離:
S(i,j)=β×L(i,j)(5)
其中,L(i,j)表示特征標簽i與特征標簽j在社會畫像標簽體系中的最短路徑長度,β表示兩個特征標簽之間的關聯系數。
3)確定最短映射距離閾值,依次將各特征標簽劃分至最近的核心節點的類別中。
4)畫像可視化。根據預先選擇的核心節點個數,以核心節點所表示的特征標簽為中心生成畫像,使最終抽取的社會特征標簽分布于不同核心節點的周圍。
3社會畫像構建實證分析
為驗證本文提出的社會畫像構建方法的有效性,本文選取先秦時期進行社會畫像構建的實證分析。先秦時期作為中國歷史上重要階段,學者們研究較為深入,相關研究成果能夠支撐本文實證效果的驗證。《左傳》作為先秦時期重要典籍,保留了大量先秦春秋時期政治、經濟、文化、軍事等各方面的信息。因此,本文以已進行人工分詞和詞性標注的《左傳》語料[24]為代表,作為春秋時期社會畫像的重要文本來源。
3.1以《左傳》文本為例的社會畫像構建
首先,本文利用《春秋左傳詞典》《漢語大詞典》構建春秋時期社會畫像描述框架;其次,本文抽取《左傳》中與社會發展相關的客觀描述性文本,構建春秋時期社會語料庫,利用社會畫像標簽體系構建用戶詞典進行社會標簽抽取。
選擇計算SEAi結果排名前50%且出現在兩篇以上文檔中的詞作為春秋社會特征,共篩選得到311個候選標簽,因古漢語多使用單字且語義多樣,因此,同現代漢語相比,抽取難度較大。使用改進的社會發展向量模型對已抽取候選標簽進行加權,并做歸一化處理,篩選后得到的春秋社會特征標簽及其對應權重如表4所示。
由表4可知,大多數特征標簽權重較低,僅少數特征標簽的權重大于0.6。因此,可認為權重高的特征標簽是《左傳》描述的春秋社會的主要特征,關注高權重特征標簽可以幫助發現春秋社會的顯著特點。計算特征標簽在春秋社會畫像標簽體系中的映射距離及關聯系數,根據特征標簽關聯系數及其權重繪制春秋時期的社會畫像,如圖2所示。5E9B229B-E087-48AE-95C9-8A895CDF36E6
由圖2可知,總體上春秋時期社會特征標簽主要被分為四大類,具體為“政治”“社會”“文化”“軍事”,其中與“政治”“軍事”相關的特征標簽最多,“文化”類特征標簽次之,“社會”類特征標簽最少。在《左傳》中記敘與經濟發展相關的事件描述非常少,因此,特征值排名前50的詞中沒有經濟相關的特征標簽。
3.2以《左傳》文本為例的社會畫像分析
3.2.1社會畫像維度分析
根據已構建的社會畫像描述框架,對構建的社會畫像進行不同維度的描述。其中,基本信息維度通過對文本原始數據進行定量分析來描述,物質文
化維度和非物質文化維度通過對春秋時期社會畫像的標簽數據進行定量分析來描述。
1)基本信息維度。用于描述某一時期社會的基本信息的特征標簽,如社會中的諸侯國、氏族、部落、主要人物及其相關的地理位置等信息。圖3春秋時期社會基本信息維度
從基本信息維度進行分析,如圖3所示。《左傳》所記歷史共254年(公元前722—公元前468年),涉及東周王朝君王共17位,包含8個主要諸侯國:齊、宋、晉、秦、楚、吳、越、鄭,記載約113個氏族、47個部落,以戎、狄、皋落氏為主要代表,整個春秋時期的主要人物包括秦穆公、晉文公、齊桓公、宋襄公、楚莊公等。
2)物質文化維度。描述社會物質類的特征標簽,包括實體類信息,如具體的器物、建筑、景觀、宮殿等,以及對實體起描述作用的描述性信息。
由圖4可知,《左傳》所記敘的春秋社會物質文化維度具體包括器具、建筑類型、宮殿、宗廟和生產材料等方面。其中,器具根據用途分為刑具、農用器具、工業器具、祭祀用具、禮器、兵器和日常用具;建筑類型專指古建筑類型,包括宗廟、宮殿、門、亭臺等;在經濟生產材料方面,工業材料主要為鐵、銅等,手工業材料主要為絲、布、麻、毛等。整體來看,春秋時期的物質文化多以祭祀需要和軍事防御為主要目的,同時由于《左傳》中經濟相關記敘較少,抽取出的經濟生產材料相對較少。圖4春秋時期社會物質文化維度
3)非物質文化維度。用于描述社會非物質類的特征標簽,包括具體的民俗、文化相關人物等實體類信息,以及對應的描述性信息。圖5春秋時期社會非物質文化維度
由圖5可知,《左傳》所記敘的春秋社會非物質文化維度具體包括律法、文化、藝術以及思想等方面。律法主要為徭役、賦稅、基本刑法及對應刑罰、訴訟法和具體的法典;文化包括天文、歷算、醫學和文學書籍等,其中天文和歷算多用作占卜、祭祀等活動的信息;藝術以樂曲、舞蹈為主,多用于祭祀與宴席活動中;民俗活動以婚、喪、祭祀等為主。
3.2.2社會標簽相關性
圖2對《左傳》所記敘的春秋時期社會的特點進行了整體畫像描述。利用社會畫像標簽體系,進一步繪制春秋時期社會4個發展分面的社會畫像,如圖6所示。
由圖6可知,春秋時期在政治分面中主要涉及政權更迭、外交、律法3個方面,其中,與外交相關的標簽最多,多表征諸侯國間的外交事件,如小國、附屬國朝見大國、派使節出使他國、尋求同盟等。畫像反映出春秋時期外交類政治事件頻繁。
在春秋時期軍事分面的社會畫像中,權重較高的特征標簽有“師”“將”“奔”“帥”等,分析發現軍事分面的特征標簽多為軍隊、軍職,如“將”“卒”,以及戰爭相關的描述動詞包括“帥”“奔”“伐”等,而對具體作戰策略描述很少。
社會風俗和文化分面的特征標簽多為由外交類、圖6春秋時期社會4個發展分面社會畫像
戰爭類事件引起的相關事件。具體觀察圖6中的社會風俗分面,發現與當時動蕩不安的社會背景相符,婚喪嫁娶、生老病死等相關的社會標簽權重較高,如“取”(同“娶”)“聘”“殺”“死”“生”等。而在文化分面中,“禮”“享”“食”等標簽多為外交宴請相關禮樂文化的描述,同時,春秋時期注重占卜、天象等,如卜卦、周易等相關事件的特征標簽“師”的權重較高。
3.3結果分析
現有的數字遠讀分析主要集中于高頻詞分析、主題聚類及情感分析等。本文提出的社會畫像分析主要針對歷史文本,建立社會發展描述分析框架,將詞頻分析在一定程度上提升為語義類別的分析,通過抽取相關語義類別的概念進行可視化描述。從本質上說是基于統計手段為人文學者文本深度分析提供了一種數字化處理的手段。從定性評價的角度,春秋社會畫像將這段歷史時期從軍事、政治、社會及文化4個層面,通過對重要的人物、地點、事件、物件進行分析與統計,較難用量化方法準確衡量每個維度的描述準確性。
《春秋大事表》是清代研究《春秋》經傳的一部重要著作,作者顧棟高對春秋及其三傳做了分類整理和實證研究[25]。本文將研究結果與《春秋大事表》進行對比,本文的量化統計結果較為吻合。由于本文語料來源的限制,經濟類別未涵蓋在統計結果中。部分詞類活用的詞匯未能準確反映類別特征。總體而言,驗證了本文提出的社會畫像方法能夠在一定程度上實現對文本的結構化和語義化分析。
4結論
對典籍數據進行社會畫像的主要目的是將古代社會發展過程中的描述文本通過可視化技術進行分析展示。本文在相關理論研究的支持下,借鑒用戶畫像概念,提出社會畫像及社會畫像描述框架,利用社會畫像標簽體系抽取特征標簽來表示社會特征,并構建該時期的社會畫像。為驗證本文提出方法的有效性,針對先秦典籍文本,構建了春秋時期社會畫像,主要包括政治、軍事、文化及社會4個發展分面,主要特點為外交類政治事件頻繁、戰爭頻發、注重禮樂文化。畫像結果與相關歷史研究結論相符,表明本文提出的社會畫像構建方法可以為研究者快速獲得古代社會概貌提供支持,具有一定的實踐意義。
本文的春秋社會畫像構建研究還存在許多不足。首先,需要完善社會畫像描述框架,需要更多的數據來豐富框架內容;其次,在基于社會畫像標簽體系的特征標簽抽取算法中,需要進一步考慮詞與詞之間豐富的關系,拓展現有的詞間關系;最后,由于分析的社會語料較為單一,沒有實現對不同時期的社會畫像進行比較和分析,這對深入探索古代社會尤其是先秦時期社會的發展變遷也很重要。以上不足需要在后續研究工作中繼續改進和優化。5E9B229B-E087-48AE-95C9-8A895CDF36E6
參考文獻
[1]王軍.從人文計算到可視化——數字人文的發展脈絡梳理[J].文藝理論與批評,2020,(2):18-23.
[2]歐陽劍.面向數字人文研究的大規模古籍文本可視化分析與挖掘[J].中國圖書館學報,2016,42(2):66-80.
[3]潘威.“數字人文”背景下歷史地理信息化的應對——走進歷史地理信息化2.0時代[J].云南大學學報:社會科學版,2018,17(6):80-87.
[4]鄧君,鐘楚依,王阮,等.清代職官知識組織與關聯分析——以《長春縣志·長春職官考釋表》為例[J].圖書情報工作,2020,64(17):18-26.
[5]宋雪雁,崔浩男,梁穎,等.數字人文視角下名人日記資源知識發現研究——以王世杰日記為例[J/OL].情報理論與實踐:1-10[2021-01-20].http://kns.cnki.net/kcms/detail/11.1762.G3.20210116.1400.004.html.
[6]何琳,喬粵,劉雪琪.春秋時期社會發展的主題挖掘與演變分析——以《左傳》為例[J].圖書情報工作,2020,64(7):30-38.
[7]汪倩,徐勇,張心蕊,等.用戶畫像研究進展綜述[J].現代計算機,2020,(24):60-63
[8]Cooper A.The Inmates are Running the Asylum:Why High-Tech Products Drive Us Crazy and How to Restore the Sanity[M].Sams Publishing,2004.
[9]徐璐瑤,姜增祺,黃婷婷,等.基于大數據的用戶畫像系統概述[J].電子世界,2018,(2):64-65.
[10]孫守強.基于用戶畫像的智慧圖書館個性化服務研究[J].圖書館工作與研究,2019,(7):60-65.
[11]Chen J,Nairn R,Nelson L,et al.Short and Tweet:Experiments on Recommending Content from Information Streams[C]//International Conference on Human Factors in Computing Systems,Atlanta,Georgia,USA,2010:1185-1194.
[12]Lee W J,Oh K J,Lim C G,et al.User Profile Extraction from Twitter for Personalized News Recommendation[C]//International Conference on Advanced Communication Technology,Pyeongchang,Korea(South),2014:779-783.
[13]畢達天,王福,許鵬程.基于VSM的移動圖書館用戶畫像及場景推薦[J].數據分析與知識發現,2018,2(9):100-108.
[14]Kurashima T,Iwata T,Hoshide T,et al.Geo Topic Model:Joint Modeling of Users Activity Area and Interests for Location Recommendation[C]//The 6th ACM International Conference on Web Search & Data Mining,Rome,Italy,2013:375-384.
[15]王穎純,董雪敏,劉燕權.基于知識挖掘的圖書館智慧推薦服務模式[J].圖書館學研究,2018,(9):37-43.
[16]都嵐嵐.論莫萊蒂的遠讀及其影響[J].中國比較文學,2020,(3):179-193.
[17]趙薇.從概念模型到計算批評:數字時代的“世界文學”研究[J].中國比較文學,2019,(4):48-66.
[18]王文博,竇彩蘭,張欣.中國社會發展水平綜合評價研究[J].統計與信息論壇,2006,(1):26-30,41.
[19]代金輝,馬樹才,劉宏巖.社會發展水平統計指標體系的構建與評價[J].統計與決策,2018,34(1):30-33.
[20]張艷豐,鄒凱,彭麗徽,等.數字空間視角下智慧城市全景數據畫像實證研究[J].情報學報,2020,39(12):1330-1339.
[21]何琳,喬粵,劉雪琪.春秋時期社會發展的主題挖掘與演變分析——以《左傳》為例[J].圖書情報工作,2020,64(7):30-38
[22]何琳,喬粵,孟凱.基于典籍的春秋社會時間序列演變分析方法初探[J].情報理論與實踐,2021,44(2):33-40
[23]艾毓茜.古代社會畫像構建及其應用研究[D].南京:南京農業大學,2021.
[24]陳小荷,李斌,馮敏萱,等.先秦《左傳》語料庫[EB/OL].https://catalog.ldc.upenn.edu/LDC2017T14,2019-05-05.
[25]顧棟高.春秋大事表[M].北京:中華書局,1993.
(責任編輯:陳媛)5E9B229B-E087-48AE-95C9-8A895CDF36E6