






摘 要:社交網絡是社會公眾表達自身訴求的新渠道,也是我國霧霾輿情的重災區。文章以語料庫與主要研究方法,從數據角度上剖析了語義標注技術在我國霧霾輿情監控中的應用價值。由于社交媒體的信息質量層次不齊,文章還考察了相關用戶影響力評價指標及數據清洗規則。
關鍵詞:霧霾;社交網絡;語料庫;構建模式
近年來互聯網新媒體技術的不斷發展,不僅使網絡傳播模式發生了深刻的變化,也使網絡輿情的形態發生了重大的改變。新媒體技術的不斷發展,使網民具備了越來越多自由使用互聯網信息的能力。在自由交互的網絡環境中,網絡輿情的產生、積聚、爆發以及對現實空間產生影響和引導社會輿論的過程中,網民發揮出來的影響力越來越重要。
社交網絡已成為健康信息的重要傳播媒介,特別是近年來關于霧霾這一話題的研究引起了學界較大關注。目前存在的主要問題有:
(1)社交媒體成為了霧霾輿情的重災區,極易引發民眾恐慌,如何辨別相關信息真偽成為亟待解決的一大難題。
(2)社交網絡信息質量參差不齊,內容更是五花八門,如何獲取公眾對霧霾危害的健康信息表達也是霧霾輿情監控的重要研究內容。針對以上問題,文章提出以語料庫構建為基礎,構建能夠從多個數據維度反映霧霾信息的知識庫模型。在信息質量評價上,借鑒科學計量學相關指標對社交媒體中用戶行為的影響力進行正確評價。
一、用戶影響力研究及數據選擇
1.用戶影響力指標研究現狀
用戶影響力的傳統指標包括粉絲數、關注數、是否實名認證、是否有個人頭像等,行為指標主要由發帖、回復和轉發。
趙倩雯以霧霾事件為例,對微博用戶的行為進行了深入挖掘,探討微博如何對社會輿論進行引導,從而轉移公眾的關注點;王晰巍使用Gephi社會網絡軟件及數理統計分析工具繪制了霧霾用戶傳播可視化圖譜;王禎駿等學者設計了基于時間模型的潛在影響力傳播模型 ;汪明艷等從加強政府輿情治理的可控性角度,對社交媒體網絡輿情傳播影響力的指標進行了深入探討;廖海涵等從新浪微博采集到的用戶發布數、評論數、轉發數等信息特征入手,借助數據的相關分析、偏相關分析、回歸分析等方法研究用戶行為關系;原福永等學者以新浪微博為研究對象,提出微博用戶的用戶影響力指數模型 ;張昊等根據用戶自身特征與用戶粉絲情況得出其計算公式,綜合考慮用戶在微博中的所有信息并計算用戶影響力。
2.用戶影響力數據來源
文章通過北京拓爾思公司海貝大數據管理系統,獲取了66萬條霧霾相關信息,在考慮用戶行為時,只運用回復、轉發等有效用戶行為,考察相關指標的用戶影響力分布。文章統計了相關用戶的轉載量排序分布、回復數排序分布,并利用齊普夫定律對其進行圖像考察,如下圖1、2所示。
從轉載量、評論量圖像,不難看出對于霧霾輿情用戶行為,從統計學角度符合齊普夫定律,這意味著少量用戶的發帖引發了多數的評論、轉載。因而,這部分用戶就是霧霾輿情主要的發布者或轉發者。具體來看,轉發和回復第一的均是“頭條新聞”網絡媒體。但網絡媒體用戶一般較少關注并與其他用戶互動,那么實名認證信息則有助于排出此類用戶。
3.用戶影響力指標設計
除了自身發帖行為以外,社交媒體用戶影響力主要體現在回復數、轉發數這兩個能夠體現用戶及用戶互動行為的指標上。在此基礎上,借鑒科學計量學中計量科學家影響力的指標H指數,文章提出了社交網絡中回復H指數、轉載H指數指標。一個博主的回復H指數是指其發帖中有h篇被回復h次以上,相對的一個博主的轉載H指數是指其發帖中有h篇被轉載h次以上。H指數的引入與實名認證個人用戶相結合,即可以獲得較高質量的微博用戶信息源。
二、數據清洗和信息過濾規則
由于微博的迅速發展,言論可以隨意發布,并且發布不需要非常復雜的驗證,導致了非常多的虛假廣告出現以及傳播。具體體現為文本中經常夾雜著生僻的漢字、數字、表情符號、火星文或者英文等形式,以此來蒙混過關。這樣的行為對微博用戶的體驗造成了非常嚴重的影響,同時對用戶獲取正常信息造成了困擾,對于短文本信息的過濾研究則非常有實用價值。
于然等人分析了中文微博信息的特點,提出了基于多視角特征融合的檢測中文垃圾微博的方法;張磊等人使用了正則表達式來匹配過濾樣本,建立停用詞表作為文本過濾的特征項;劉陸陽提出了一種微博信息過濾處理的框架,結合用戶可信度,檢測垃圾微博并對其進行過濾;楊赫采用統計機器學習的方法,提取、分析和對比新浪微博平臺上的正常賬號和垃圾賬號的社交關系行為的特征和微博內容的特征。
文章考察了部分霧霾輿情信息,并對其中信息質量較差的數據進行了規則分析,如下:
此外,對于部分長度過短的信息,其用戶意圖并不明顯,因此在長度限制上以13個漢字為主要界限進行長度約束。
三、 語義信息自動標注類型
通過有效過濾后的微博信息,即可對其中的語義知識進行標注。在小規模標注基礎上,文章列出了主要的語義信息類型及樣例,如下表2所示:
通過考察相關數據,時間、地點、數量、健康表達這4個主要分類是社交網絡中霧霾輿情里價值量較高的信息。除了這4類信息外,對于霧霾的吐槽、觀點也是常見輿情,如“艾瑪 頭一回在霧霾繚繞的仙境中開車 真是太刺激了”,相關可提取價值量不大,多為公眾吐槽。詳細考察時間、地點、數量、健康表達,又可以對其數據進行進一步細分,如下表3-5。
從地點信息來看,移動端用戶發送時,有較為明顯的特征“我在: ”。此外,認證實名用戶注冊地點也是公開可以獲取的知識。在用于地域性研究中,這些知識具有一定統計學意義。從數據分布來看,對于我國霧霾輿情的發布主要集中在北方省市,尤其是北京。以江蘇及相關城市作為檢索,發現江蘇省霧霾實名認證用戶發帖僅為171條。移動端地理信息仍存在較為詳細這一問題,有些地址必須與地理信息系統相結合才能獲取其所在城市位置。
從健康信息總量上來看,在所有發帖中所占比例極小,但這部分信息顯示了公眾對霧霾危害的親身體驗,因此具有較高可信度和分析價值。在分析中,可以結合細粒度分析技術,對這些健康表達的語言學特征進行統計,并通過機器學習模型實現自動標注。
四、結語
文章以新浪微博為數據源,通過用戶影響力評價指標、垃圾信息過濾規則的探討,為獲取高質量的霧霾輿情信息源提供思路。在小規模標注基礎上,利用語料庫技術,探討了霧霾輿情在社會網絡環境下,具有潛在挖掘價值的語義知識類型,為構建基于語料庫技術的霧霾輿情知識庫提供支撐。
參考文獻:
[1]趙倩雯.從霧霾事件分析微博在社會輿論中的博弈[J].今傳媒,2014,22(7):57-59.
[2]王晰巍,邢云菲,趙 丹,等.基于社會網絡分析的移動環境下網絡輿情信息傳播研究——以新浪微博“霧霾”話題為例[J].圖書情報工作,2015,59(7):14-22.
[3]王禎駿,王樹徽,張維剛,等.基于社交內容的潛在影響力傳播模型[J].計算機學報,2016,39(8):1528-1540.
[4]汪明艷,陳 梅.社交媒體網絡輿情傳播影響力研究綜述[J].情報科學,2017,35(5):171-176.
[5]廖海涵,靳嘉林,王曰芬.網絡輿情事件中微博用戶行為特征和關系分析——以新浪微博“霧霾調查:穹頂之下”為例[J].情報資料工作,2016(3):12-18.
[6]原福永,馮 靜,符茜茜.微博用戶的影響力指數模型[J].現代圖書情報技術,2012(6):60-64.
[7]張 昊,劉功申,蘇 波.一種微博用戶影響力的計算方法[J].計算機應用與軟件,2015,32(3):41-44.
[8]TRS Hybase 海貝大數據管理系統[EB/OL]. http://www.trs.com.cn/cphfw/Hybase/. [2019.4.20]
[9]于 然,劉春陽,靳小龍,王元卓,程學旗.基于多視角特征融合的中文垃圾微博過濾[J]. 山東大學學報(理學版),2013,48(11):53-58.
[10]張 磊.虛擬社區不良信息過濾技術研究[D].昆明:昆明理工大學,2011.
[11]劉陸陽. 基于博文質量評估的微博過濾研究[D].北京:北京工業大學,2016.
[12]楊 赫.垃圾微博信息過濾技術的研究[D].哈爾濱:哈爾濱理工大學,2015.
[13]王玉新.大數據背景下的高校教學檔案信息化建設[J].蘭臺內外,2018(04):57-58.
[14]車向清.高校檔案數字化管理芻議[J].蘭臺世界,2019(S1):98.
[15]閆虹娟.大數據時代人社檔案管理初探[J].蘭臺世界,2019(S1):76.
[16]蔡金玲,王小超,王文姣.氣象專業技術人才隊伍建設與發展的思考[J].管理觀察,2019(08):65-66+69.
基金項目:江蘇省社會科學基金“大數據下基于微博語料庫的江蘇省霧霾輿情監控機制研究”(15TQC002)階段性成果之一。
作者簡介:謝靖(1981- ),男,江蘇徐州人,南京中醫藥大學衛生經濟管理學院副教授,博士,研究方向:基于智能信息技術的情報分析與評價。