999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

區域政務微博知識圖譜構建及可視化研究

2020-12-17 03:31:33高晨翔黃新榮
現代情報 2020年12期

高晨翔 黃新榮

收稿日期:2020-04-23

基金項目:國家社會科學基金項目“社交媒體文件的歸檔與管理標準體系研究”(項目編號:16BTQ093)。

作者簡介:高晨翔(1994-),男,博士研究生,研究方向:數字信息資源管理、數字記憶。黃新榮(1967-),男,教授,博士,碩士生導師,研究方向:信息資源管理、電子文件管理。

摘? 要:[目的/意義]借助知識圖譜對區域政務微博內容進行知識組織與可視化展示,能夠提升用戶的知識閱讀及獲取效率。[方法/過程]首先,基于LDA模型對區域政務微博進行主題建模,通過依存句法分析對微博內容進行語義三元組抽取。其次,構建了區域政務微博知識模型,形成了知識圖譜的語義架構。最后,借助圖數據庫Neo4j及D3.js插件實現了區域政務微博的知識圖譜可視化及關聯化保存。[結果/結論]經理論構型與實際驗證,本研究構建了基于主題劃分的區域政務微博知識圖譜,為社交媒體內容的知識圖譜構建提供了一定的思路及方法。

關鍵詞:區域政務微博;知識圖譜;知識組織;知識可視化

DOI:10.3969/j.issn.1008-0821.2020.12.010

〔中圖分類號〕D035-39? 〔文獻標識碼〕A? 〔文章編號〕1008-0821(2020)12-0090-10

Knowledge Graph Construction and Visualization of

Regional Government Microblog

Gao Chenxiang1? Huang Xinrong2

(1.School of Information Resource Management,Renmin University of China,Beijing 100872,China;

2.School of Public Management,Northwest University,Xian 710127,China)

Abstract:[Purpose/Significance]Regional government microblog can record and reveal some hot events closely related to the public.This paper builds the knowledge graph of regional government microblog to improve users knowledge acquisition efficiency.[Method/Process]First,this paper captured contents of government microblogs and built a topic modeling using LDA.At the same time,we extracted the semantic triples from aforementioned contents by LTP.Second,the applied ontology of regional government microblog wes built to form the semantic structure of knowledge graph.Ultimately,Neo4j and D3.js were used to constructing,preserving and visualizing the knowledge graph.[Result/Conclusion]Based on the theoretical and practical research,we built knowledge graphs of regional government microblog,combing the semantic relations between organizations,figures and terms in microblogs contents.This paper provides thoughts and methods for the construction of knowledge graph in social media field.

Key words:regional government microblog;knowledge graph;knowledge organization;knowledge visualization

社交媒體(Social Media)已成為新一代互聯網服務體系中最具發展潛力和增長空間的服務模式之一[1]。利用社交媒體實現社會信息的發布、接收與傳播,已經成為各類社會組織和個人在工作與生活中的常態行為。在我國,政務微博是國家機關利用社交媒體創新政務信息服務的重要形式,是我國公民在線獲取政務信息資源的關鍵渠道。據《2019年上半年人民日報·政務指數微博影響力報告》顯示,截至2019年6月,我國經新浪官方平臺認證的政務機構微博數量已達173 569個[2],通過政務微博發布或轉發權威信息、處理相關業務、傾聽社情民意是政務微博的核心功能。政務微博信息源于微博管理者在特定的社會關系框架下對某一事件的理性判斷與直接記錄,這一過程賦予了政務微博信息的基本價值。

然而,社交媒體帶來的信息過載問題也給政務機構、社會公民的信息活動造成了困擾。一方面,政務微博的更新發布頻率和信息疊加速度與微博用戶的線性瀏覽能力形成了矛盾,影響了用戶閱讀、吸收信息的效率;另一方面,受政務機構的科層模式與職能分工影響,政務微博的信息發布往往具有地域性、重復性和分散性特征[3]。內容相近卻又相互孤立的碎片化政務微博信息對政務信息資源管理、開發及利用均造成負面影響。因此,實現政務微博的知識組織,確保用戶高效地吸收外界政務信息資源,是政務微博信息資源開發利用的核心要務。

當前,知識圖譜已成為圖書情報學界的研究熱點,并在歷史資料、文學名著以及其他人文資料的組織、檢索與知化方面得到了有效應用[4]。本研究立足于特定的行政區域,借助知識組織與知識可視化技術,實現區域政務微博的知識圖譜構建,挖掘海量政務微博信息的知識內涵,促進政務微博的知識顯化,為特定區域內政務微博的知識組織、知識發現與知識可視化研究提供一定的參考。

1? 研究基礎

1.1? 概念界定

區域政務微博是本文的核心研究對象,涉及區域政務微博賬號及微博文本內容兩部分。從節點視角看,區域政務微博賬號是區域內某一具體的政務機構存在于微博平臺上固定的身份表征,其在微博平臺上的信息發布、評論、轉發、關注及點贊等活動可以視為是機構意志的具體體現。從內容視角看,“區域”概念是促使政務微博主題集聚的原因之一,區域內的政務機構以各自職能為基礎,利用微博發布的信息帶有明確的“區域性”特征。

在我國的區域政務微博體系中,某區域最受關注的綜合性政務微博“××發布”在區域政務微博網絡中居于核心地位,環繞其周圍的各類職能機構政務微博則重點發布諸如城市旅游、社會安全、氣候環境等專門性信息,二者相結合形成區域內模塊化的網絡結構。微博平臺內的主題組織功能則在客觀上為區域內政務微博提供了信息集聚的空間,不同的政務微博借助特定區域所發生事件的主題標簽發布、轉發或評論有關同一事件主題的信息內容,這些內容因事由而相互關聯,均是從不同側面對區域內發生事件基本情況的反映。主體與內容相統一的“區域政務微博”概念為政務微博的知識組織與知識圖譜構建提供了可行的概念基礎與操作范圍。

1.2? 相關研究

Moniz N等[5]收集了葡萄牙國內19個政府機構共776位公務人員的社交媒體數據,利用社會網絡分析對葡萄牙政府社會網絡的基本特征進行了度量,形成了政府社交媒體知識圖譜,衡量了該國政府社會網絡的穩定性。Rong Y H等[6]以“參與式預算”為主題構建了中國部分地區政府機構及工作人員官方微博在事件處理與評論中組成的社交圖譜,發現政務微博網絡在結構方面具有小世界效應。Yarosh S等[7]構建了基于GIS和知識圖譜技術的交互式網站,能夠處理政府和公民的Twitter數據并進行事件識別、地理編碼、關系構建等功能。Kalloubi F等[8]將圖中心算法與開放關聯數據相結合,探究了Twitter數據的命名實體鏈接與語義消歧問題,形成了基于Twitter關聯數據的知識圖譜。

國內方面,蹇潔等[9]主要從度、聚類系數和平均路徑長度3個維度對重慶市917個政務微博賬號間的關聯關系進行分析,形成了微博賬號間的關系圖譜。崔金棟等[10]選取江蘇省和吉林省的政務微博進行“核心-邊緣”分析及“凝聚子群”分析,通過知識圖譜構建發現我國發達和欠發達地區的政務微博均沒有明顯的集中趨勢。杜亞軍等[11]對微博知識圖譜構建方法進行了綜述,認為微博知識圖譜應包括人物、事物、地點、事件和話題5類實體及實體間的多維語義關系。孫馳[12]基于尋徑網絡算法,在抓取微博熱點話題的基礎上構建了以人物實體為核心節點、以人物相關實體為輔助節點的知識圖譜。

綜上可見,國內外以政務社交媒體為對象的知識圖譜構建研究多采用社會網絡分析方法,形成的

圖譜類型應為“知識地圖”而非“知識圖譜”,尚未構建反映節點與內容間語義關系的知識圖譜,也沒有將本體、關聯數據等基于開放域的知識組織技術融入研究中,這為本文提供了一定的研究與探索空間。

2? 區域政務微博知識圖譜的構建方法

2.1? 研究框架

本文提出了如圖1所示自底向上的知識圖譜構建框架。數據層面,本研究通過數據采集、預處理與分詞得到區域政務微博語料集;借助主題建模算法形成具有“文檔-主題”以及“主題-關鍵詞”分布形式的微博聚類集合。在知識挖掘與可視化層面,實現了政務微博內容的詞性標注、命名實體識別及依存句法分析并完成微博語義三元組的提取。此外,本文在復用FOAF、DC Terms及Event等本體的基礎上結合自定義類目構建區域政務微博的輕量級本體,對所得的微博語義三元組進行規范關聯,最終借助圖數據庫Neo4j及其內置的D3.js插件實現區域政務微博知識圖譜的構建、保存及檢索。

2.2? 數據聚合:區域政務微博主題建模

2.2.1? 數據準備

本文選擇陜西省西安市作為區域實例,構建西安地區政務微博在特定主題下的知識圖譜。為確保實證研究的科學性和完整性,本文采用了成熟的網絡爬蟲工具集搜客,以新浪微博話題廣場為單位對區域政務微博數據進行抓取。

經過內容比較與分析,本文選取了“第三屆中法文化論壇”和“創新創業在西安”兩個熱點話題,兩個話題均帶有HashTag(#),話題內文本數量較為充裕且主題特征明顯。具體而言,我們共抓取了246條微博文本,其中“第三屆中法文化論壇”專題共171條,“創新創業在西安”專題共75條,采集時段為2019年6月15日至6月20日。通過定題采集,能夠將某一話題內各類博文的博主名、博主ID、文本內容、發布時間及源網址等核心字段依對應關系進行保存,為其后的數據分析、挖掘與可視化實驗建立了數據基礎。

2.2.2? 基于LDA的區域政務微博主題建模

既有的領域知識圖譜構建研究通常采用實體識別及模板匹配的形式[13]對所得語料直接進行實體及關系抽取,這樣獲得的[實體1,關系,實體2(屬性)]三元組涵蓋了一次實驗所需的全部語料,適用于專業領域的知識圖譜構建。與語料相應,本文擬構建的區域政務微博知識圖譜涉及不同話題需要以主題為實現知識圖譜的精細化展示,因此提出一種基于主題模型的知識圖譜構建方案。

目前,LDA模型在微博等中文短文本的主題建模與聚類任務中具有廣泛應用,且效果良好[14]。LDA模型由Blei D M等學者[15]于2003年正式提出,該模型基于詞袋假設(Bag of Words),其核心理念可表示為:一篇文檔(Document)是由多個主題(Topic)混合而成的,而每一個主題都是詞匯(Word)上的概率分布,文章中的每個詞都由一個固定的主題生成,其數學表達式如下:

P(w|d)=∑tP(w|t)P(t|d)(1)

其中變量w、t、d分別代表詞匯、主題及文檔,即“文檔-詞匯”的概率分布能夠表示為“文檔-主題”與“主題-詞匯”的聯合概率分布。“文檔-詞匯”分布通過詞頻統計算法可以得出,以此為基礎通過Gibbs采樣算法估計d(文檔中主題的概率分布)與k(主題中特征詞的概率分布)兩個參數。結合所得的區域政務微博語料,“第三屆中法文化論壇”與“創新創業在西安”兩個話題的主題建模過程及結果相對明確,但話題本身依時間推移而演化出不同的子話題,本文將其命名為“事件”,以“事件”為單位的主題建模是本文LDA模型應用的重點。

定義θ=[θ1,θ2,…,θd]為包含兩個主題的文檔全集,經過第一輪主題建模與劃分(即主題數T=2)后,“第三屆中法文化論壇”與“創新創業在西安”兩個主題下的“文檔-主題”采樣集合分別為θi=[θi1,θi2,…,θis](1≤s

θd,k=(nd,k+αk)/∑Ki=1(nd,i+αi)(2)

φk,w=(nk,w+βw)/∑Ki=1(nk,i+βi)(3)

其中,θd,k表示在第k個主題與文檔d形成的采樣向量,體現了文檔d中主題k的概率,φk,w代表主題k中特征詞w的概率,K為潛在主題數,α和β均為隱含狄利克雷分布超參數。在模型參數的設置方面,本文采用專家咨詢法結合困惑度判斷法,設定主題數K=4,Gibbs抽樣迭代次數i=500對模型進行訓練,最終抽取各個主題及事件中TF-IDF值排名前10的特征詞項,如表1所示。

經過LDA主題建模的區域政務微博語料以特征詞項為主要表現形式,該方法將此前原始的非結構化文本轉換為承載句子及語篇語義信息的詞項集合。一方面,經過聚類計算得到的特征詞項為區域政務微博知識圖譜的主題劃分與分步構建奠定了基礎;另一方面,主題建模形成的特征詞項能夠作為命名實體以及相應的實體標志詞,提升領域實體識別的準確率。

2.3? 知識挖掘:區域政務微博實體及關系抽取

2.3.1? 政務微博文本依存句法分析及其規則定義

依存句法分析(Dependency Parsing)旨在根據詞性及詞間位置特征來判斷句中詞語之間的語法依存關系。具有依存關系的兩個詞組成一個依存對,其中一個詞是起支配作用的核心詞;另一個是起修飾作用的從屬詞。圖2以本研究采集的語料為例展示基于LTP的政務微博文本依存句法分析過程[17]。

圖2中,“宣布”這一謂語動詞被模型識別為“根詞項(Root)”,其余詞項間以依存弧為紐帶結成了不同的語法關系。在應用依存句法分析時,通常以“鍵值對”的形式表現詞間關系,如圖2識別出的“陜西省”“省長”及“宣布”3詞按照規則可分別表示為{2:‘ATT,3:‘SBV,0:‘HED}。LTP的依存句法分析模型共定義了包括“主謂關系(SBV)”“動賓關系(VOB)”等在內的14種語法關系,而“鍵值對”的表現形式使得本研究能夠以字典為存儲和管理容器、以索引和依存關系為基礎實現詞項定位,通過相關規則的設置抽取語義三元組,其中抽取規則如表2所示。

2.3.2? 基于命名實體識別的三元組輔助抽取

基于依存句法分析的實體關系抽取規則依賴于句中存在的謂詞及介詞,當以謂詞為代表的關系表述中含有“論元”時[18](關系表述左右兩邊最近的兩個名詞或短語),借助依存句法分析往往能夠比較明確地提取出語義三元組;當關系表述中不存在論元或關系表述本身不明確時,基于依存句法分析的三元組抽取往往會遺漏相應的實體及其關系。因此,本研究通過命名實體識別輔助抽取區域政務微博三元組。

本文關注的政務微博內容以區域內熱點事件為主題,其中涉及的人名、地名與機構名是構成知識圖譜的基本實體。LTP平臺在命名實體識別中采用了“B-I-E-S-O”標注體系,基于該體系的符號表達能夠對人名(Nh)、地名(Ns)和機構名(Ni)等命名實體進行標注。在模型的訓練及應用方面,本文通過人工標注的形式,將主題建模部分所得的特征詞構建外部字典并嵌入LTP命名實體識別模型中,以提升命名實體識別的準確度。經過依存句法分析及命名實體識別抽取出的區域政務微博文本三元組如圖3所示。

抽取所得的區域政務微博語義三元組表現為“(實體,關系,實體)”這一形式。對于抽取的三元組結果,本研究對其中表義模糊的實體進行了查找剔除,最終得到102個實體及其關聯的51種語義關系,我們將所得實體及其語義關系由最初的txt格式轉換保存為“(頭實體,尾實體,關系)”的csv格式,以便在本體建模完成后將實例批量導入本體。

2.4? 知識組織:基于本體的區域政務微博數據關聯

經過抽取得到的區域政務微博語義三元組在形式與內容的規范性方面還有所不足。其一,同類或同義謂詞出現次數較多,為后續的知識增量與知識融合帶來不便;其二,三元組實體的對象及數據屬性可以進一步擴充,以完善知識圖譜的內容;其三,純文本格式的三元組直接發布形成的知識圖譜不具備較強的數據交換與復用能力,無法融入開放知識域或關聯數據集。

基于此,我們構建了復合型的區域政務微博輕量級本體。本文復用了DCMI Terms[19]、FOAF[20]、CIDOC Conceptual Reference Model[21]以及Event[22]等已在圖書情報學界得到廣泛應用的本體,借鑒其部分概念及屬性。為了在細粒度環境下闡釋區域政務微博實體間的語義關系,本文還對部分概念及屬性進行了自定義,最終得到的實體類目結構如表3所示。

區域政務微博本體模型包括8個類目和9個對象屬性,其中“區域”(Region)及“行為言論”(Behavior & Opinion)兩個實體為自定義類目。本文借助Protégé本體建模工具實現了區域政務微博本體結構的可視化,如圖4所示。通過將前文得到的微博語義三元組及捕獲的其他屬性信息批量導入本體,使其成為實體概念的實例或屬性的數值即形成了特定主題下區域政務微博的知識圖譜。

3? 區域政務微博知識圖譜可視化

在知識可視化環節,本研究利用Neo4j數據庫內置的D3.js可視化插件及Cypher查詢語言實現微博知識圖譜的呈現與檢索,所得知識圖譜能夠從宏觀結構及微觀涵義層面綜合反映特定區域內政務信息資源主體、事件及文本內容間的語義關系。

圖5從宏觀角度切入,展示了采集數據中包含的區域政務微博賬戶、主題、事件、地點等實體間的關聯關系。圖中紅色節點分別代表“第三屆中法文化論壇”與“創新創業在西安”兩個區域政務微博主題,“主題-事件”之間的“包含(隸屬)”關系及事件之間的“相關”關系借助相應的有向邊予以表示。藍色節點代表政務微博賬戶,其相互之間的“關注”及政務信息的“發布”關系均包含在圖譜內。最后,灰色節點“西安”以“發生地”這一關系同既有主題及事件相連,體現了政務微博信息在經過知識化“萃取”后仍保有地域聚合特征。

微觀視角下的區域政務微博知識圖譜著重關注微博內容及其中包含的命名實體間的關系,尤其是以主題或事件為導向的人物及其行為關系。圖6體現了“創新創業在西安”這一主題之下的各類人物及行為活動,包括行政官員的調研活動以及微博中提及的每一位創業者的具體創業事跡,從而將不同微博賬戶發布的離散文本聚合在同一張圖譜中,集中反映某一主題或事件的核心內涵。相應地,圖7對政務微博數據中的另一主題——“第三屆中法文化論壇”的相關內容進行了可視化揭示,該圖譜有效展示了位于不同時段、隸屬不同事件但均參與了“第三屆中法文化論壇”活動的相關人物及其言論。

與此同時,結合Neo4j數據庫內置的Cypher語言,以圖譜節點及其相應的語義關系為紐帶可以實現政務微博知識圖譜的查詢檢索。如要檢索法國前總理讓·皮埃爾·拉法蘭在“第三屆中法文化論壇”中的相關言論及活動,則輸入相應的Cypher查詢語句進行匹配,圖8顯示了拉法蘭參與“第三屆中法文化論壇”的所有活動及發表的言論。

總體而言,構建區域政務微博知識圖譜能夠將特定時空范圍內相互關聯的微博內容聚焦于簡單生動的可視化圖形中。從用戶視角看,區域政務微博知識圖譜方便用戶以“遙讀(Distant Reading)”形式把握所在區域的某一熱點話題及事件的核心要

素,無需用戶在不同政務微博賬戶之間不斷切換,提升了用戶對網絡政務信息資源的知識利用效率。從政務微博管理者視角看,區域政務微博知識圖譜是其發布各類政務信息的主題化、知識化凝練,較為清晰地反映了主題事件的發展與演化態勢,為管理者后續的信息發布、輿論引導與關鍵數據保存等工作提供了一定借鑒。

4? 結? 語

本研究采用自底向上的知識圖譜構建方案,經過數據獲取、數據聚合、知識挖掘及知識可視化等過程實現了區域政務微博知識圖譜,同時對圖譜的呈現與檢索形式進行了實證與討論,借此對以政務微博為代表的網絡政務信息資源開發利用模式進行了探索。本次研究及實驗使得隸屬于特定行政區域、反映區域內熱點話題及事件的政務微博內容完成了以“離散化數據—結構化信息—可視化知識”為主線的上升與轉變,從而將主題模糊、相關性弱的文本數據逐步轉化為主題清晰、關聯性強的知識內容,實現了相關主題內的知識聚合[23]。

與此同時,本研究在兩個方面還存在較大的提升空間。首先,本次研究及實驗利用了主題建模、依存句法分析、本體等自然語言處理及知識組織技術實現了區域政務微博知識圖譜,但尚未將以上技術進行有機整合,在今后的研究中,筆者將進一步探索構建集成式的政務微博知識圖譜服務平臺[24];其次,本文構建的區域政務微博知識圖譜仍處于探索與實驗階段,在數據量與數據類型方面尚較為單一。政務微博除文本內容之外,其附屬的圖像、視頻以及相應的用戶評論等數據內容也具有一定的信息價值。因此,本研究將進一步提升區域政務微博知識圖譜的表現力、數據關聯與知識定位能力,從而實現基于政務微博大數據的知識挖掘、知識推理及語義檢索,提升區域政務微博知識圖譜的利用價值。

參考文獻

[1]Obar J A,Wildman S.Social Media Definition and the Governance Challenge:An Introduction to the Special Issue[J].Telecommunications Policy,2015,(39):745-750.

[2]人民網.2019年上半年人民日報·政務指數微博影響力報告[EB/OL].http://yuqing.people.com.cn/NMediaFile/2019/0812/MAIN201908121245000526967515030.pdf,2020-05-17.

[3]黃新平.政府網站信息資源多維語義知識融合研究[D].長春:吉林大學,2017.

[4]劉煒,葉鷹.數字人文的技術體系與理論結構探討[J].中國圖書館學報,2017,(5):32-41.

[5]Moniz N,Louca F,Oliveira M,et al.Empirical Analysis of the Portuguese Governments Social Network[J].Social Network Analysis and Mining,2016,6(1):1-19.

[6]Rong Y H,Song J.Mining a Government Affairs Microblog Network on Sina Weibo with Social Network Analysis[C]//10th International Conference on Fuzzy Systems and Knowledge Discovery(FSKD).Yantai:IEEE,2013:515-519.

主站蜘蛛池模板: 国产偷倩视频| 亚洲成年人片| 中国美女**毛片录像在线| 国产精品熟女亚洲AV麻豆| 毛片久久网站小视频| 在线欧美国产| julia中文字幕久久亚洲| 女人爽到高潮免费视频大全| 国产精品永久不卡免费视频| 91综合色区亚洲熟妇p| 最新国产麻豆aⅴ精品无| 97se亚洲综合不卡| 沈阳少妇高潮在线| 欧美人人干| 色丁丁毛片在线观看| 亚洲色图欧美在线| 欧美a在线视频| 2020精品极品国产色在线观看| 久久久91人妻无码精品蜜桃HD| 欧美国产日韩在线| 五月婷婷亚洲综合| 色妞永久免费视频| 日本不卡免费高清视频| 欧美97欧美综合色伦图| 精品视频免费在线| 无码高潮喷水在线观看| 99久久人妻精品免费二区| 亚洲区一区| 久久黄色毛片| 国产日韩欧美中文| 精品国产成人高清在线| 激情综合网址| 午夜精品影院| 在线视频一区二区三区不卡| 亚洲精品无码抽插日韩| 多人乱p欧美在线观看| 一本一道波多野结衣av黑人在线| 六月婷婷激情综合| 国产福利一区在线| 中文字幕欧美日韩高清| 久草视频一区| 亚洲国产91人成在线| 国产精品成人一区二区| 亚洲性影院| 国产精品思思热在线| 欧美成人手机在线视频| 99热这里只有精品5| 九九这里只有精品视频| 久热re国产手机在线观看| 一区二区无码在线视频| 国产高清在线观看| 尤物国产在线| 91免费精品国偷自产在线在线| 国产91高清视频| 成人一级免费视频| 中国一级特黄大片在线观看| 91po国产在线精品免费观看| 波多野结衣视频一区二区 | 播五月综合| 夜夜操国产| 色综合网址| 97se亚洲综合在线| 亚洲欧美日韩中文字幕在线| 91小视频在线播放| 粗大猛烈进出高潮视频无码| 国产无码高清视频不卡| 欧美国产精品不卡在线观看| 免费人成视网站在线不卡| 911亚洲精品| 深爱婷婷激情网| 熟妇丰满人妻av无码区| 成人免费视频一区二区三区| 国产精品毛片一区| 亚洲区视频在线观看| 秋霞午夜国产精品成人片| 亚洲视屏在线观看| 国产精品尤物在线| 国产一二视频| 情侣午夜国产在线一区无码| 四虎影视永久在线精品| 理论片一区| 青青操国产|