王星 何慧
摘 要:計算機和互聯網技術的快速發展,在給人類提供極大便利的同時,也給人類社會的政治、經濟和文化生活等方面帶來了巨大的沖擊和負面影響,并由此產生了傳統社會沒有的、新型的社會問題——網絡社會問題。網絡社會問題在全世界范圍內都是廣泛存在的,它的復雜性和多樣性等特點解決起來也是一個不小的世界性的難題。因此通過對網絡進行監控,對網絡輿論導向進行分析,并智能的做出回應,對于正確引導輿論走向是有必要的。本文對網絡輿情引導理論和技術方面進行研究,采用基于馬爾科夫邏輯網絡模型進行輿論引導,通過對已有知識庫的學習,推斷未知知識庫,即需要引導的輿情領域相關引導的參數,達到輿情引導的效果。
關鍵詞:網絡輿情引導;協作分類;馬爾科夫邏輯網
中圖分類號:TP391.41 文獻標識號:A 文章編號:2095-2163(2015)03-
Network Public Opinion Guiding based on Markov Logic Networks
WANG Xing, HE Hui
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: As the rapid development of Internet, the network media has more important influence in many areas, so analysis of network public opinion is critical. The existing network public opinion research uses the network information, retrieval, clustering and other aspects of the underlying technology, but often overlook users comment on the emotional factors tendency. The paper builds a system based on the Markov logic network model to guide public opinion. The system uses the existing knowledge to infer the unknown knowledge, therefore guides the public opinion.
Keywords: Network Public Opinion Guiding; Collective Classification; Markov Logic Network
0 引 言
隨著Web2.0的蓬勃發展,互聯網逐漸倡導“以用戶為中心,用戶合作參與”的開放式架構理念。與之相應地,互聯網用戶則由單純的“讀”網頁而開始向“寫”網頁、和“網絡聯合共建”發展,另一方面也由被動地接收互聯網信息向信息的主動創造方面做出了推進和轉變。
在網絡中,由于個人身份的匿名化,網民敢于表達與自身利益息息相關或自己所關心的各種公共事務(如決策公信、社會熱點、突發事件等)的真實觀點。這種個人觀點可以依靠網絡進行傳播,引起效應共鳴,形成網絡輿情。
所謂網絡輿情,就是通過互聯網表達和傳播的各種不同情緒、態度和意見交錯的總和。目前,網絡輿情多以文字的形式出現,主要來源于現實,只是表達和傳播輿情的場所或渠道被人們拓展到了互聯網上。而網絡輿情情感傾向性分析則主要是對網民所表達的情感信息進行分析,并綜合所有情感信息得到網民對話題的整體情感傾向,從而為相關部門及時掌握社情民意、做出科學決策提供全面、有效支持。
長期以來,要了解民眾對某個社會問題所持的態度如何(正面或者反面、積極或是消極),往往需要借助于專門的咨詢調查機構。這些機構仔細收集并閱讀關于該類問題的所有民眾意見,綜合后得到整體反饋。上述的咨詢調查過程不僅耗費大量人力,其實現過程也相當緩慢。而利用計算機完成情感傾向的自動分析則能夠保證處理的時效性,并且能夠匯集全國范圍內的民眾意見。
目前國內外對網絡輿情引導技術研究較少,大部分是進行仿真研究[1-4]。在引導方法方面,大部分是基于政治學以及社會學對輿情的產生,發展,調控進行理論研究。因此,網絡輿論引導技術的研究,對政府觀察社會事件的發生演變過程,了解民情民意,維護社會穩定有著重要的意義,同時也對國家的持續、穩定、快速發展具有重大的現實作用與價值。
1 馬爾科夫邏輯網
馬爾科夫邏輯網結合了一階邏輯和 Markov 網。其基本思想是放寬對一階知識庫的一些硬限制:當一個事件違反知識庫中的一個公式,其發生概率小,但未必為 0。一個事件違反的公式越少,發生的概率越大。用公式的權值來表示公式限制強度的大小:權值越高,滿足該公式事件的發生概率與不滿足該公式事件的發生概率之間的差就越大。基于如上基本思想,馬爾科夫邏輯網定義如下[5-6]:
馬爾科夫邏輯網 是( , )對的集合, 代表一階邏輯規則, 是一個實數, 為有限的常數集合,馬爾科夫網 可做如下的(1)、(2)定義:
(1) 中每個謂詞的每種可能在 中都有一個二元節點,如果所代表的原子公式為真,節點的值就等于1,否則為0。
(2) 中每個規則 的每種可能在 中有一個特征值,為真時等于1,否則等于0,特征值的權重為 對應的 。
直觀上看,馬爾科夫邏輯網就是其中每個準則都有權重的一階邏輯知識庫,且是構建高階馬爾科夫邏輯網的模板。從概率的視角看,馬爾科夫邏輯網提供一種簡潔的語言來定義大型 Markov 網,能模塊化地與大量知識靈活實現合并[7-9]。而從一階邏輯的觀點來看,馬爾科夫邏輯網提供了健全處理不確定性、容許有瑕疵甚至矛盾的知識庫,由此降低了過程的脆弱性。有許多統計關系學習領域的重要任務,如集合分類、連接預測、連接聚合、社會網絡建模和對象識別,都自然而然地成為運用馬爾科夫邏輯網推理和學習的現實范例。
2網絡輿情引導框架
基于馬爾科夫邏輯網,研究設計了一個網絡輿情引導的框架。總體框架分別為信息預處理模塊,詞語情感分析模塊,謂詞、子句設計模塊,馬爾科夫邏輯網結構學習模塊,馬爾科夫邏輯網推理模塊以及實驗結果推理驗證模塊,具體如圖1所示。
圖1 總體框架
Fig.1 Framework
2.1 數據預處理模塊
預處理模塊中則可細分為三個子模塊,對其內容可做如下描述:
(1)語料預處理。首先,讀入論壇待引導語料庫中的語料,使用分詞工具對其進行處理,就可以得到語料中每個詞的編號、名稱、原形、詞性等屬性。然后將預處理結果進行精煉,刪去冠詞、連詞等,從而得到精煉后的分詞結果并將其以一定格式輸出。
(2)詞語情感分析。查閱情感詞典,得到每個詞的情感值,將每句所包含詞的情感值加權求和,從而得到該句的情感;同樣地,對每篇文章句子的情感值進一步加權求和,由此將得到該文章對應的情感。
(3)設計模塊。根據每個詞的屬性,可以設計一些基本的謂詞,通過情感分析,即可進一步完善謂詞以及設計一些子句有待其后模塊的加工使用。
經由上述過程模塊,就可得到輿情領域的一些數據(Data Base,DB)文件送入后續的結構學習進行處理及使用。
2.2 馬爾科夫邏輯網學習模塊
預處理的功能完成實現后,就可以得到結構學習所需的謂詞文件和數據文件。基于此,則可通過馬爾科夫邏輯網的結構學習,學習獲得相應的模型。
學習得到的馬爾科夫邏輯網絡里,包含系統設計謂詞的權重,以及自建子句和系統自身學習所得子句的權重。通過設計適當的謂詞,可以得到本系統需要的輿情調控方式,文本感情色彩等值的權重,這些則將用于指導顯示環境中的輿情調控。
2.3 推斷驗證模塊
由圖1可知,驗證模塊又可分為推斷和計算AUC(Area Under the precision-recall Curve,查全率和查準率曲線之間的面積)以及CLL(Conditional Log-Likelihood,條件對數似然值)值兩部分。
(1)推斷部分,是將學習的結果應用到對其他數據集的各個謂詞的推斷中,Alchemy支持兩種基本類型的推理,分別是Probabilistic 和 MAP/MPE。具體實現則包含四個概率推理算法。推斷時,使用的是Alchemy軟件包中的Infer可執行文件。
(2)學習得到的事馬爾科夫邏輯網,以及要進行推斷的測試數據,這里的DB文件,是專門缺少某一謂詞的數據集,每個謂詞都會輸出一個結果文件,以利于下一步計算。
(3)對推理的結果進行準確度衡量,即計算CLL和AUC。
3 實驗結果與結論分析
3.1調控效果數據集構建
數據集構建分為兩部分,具體地就是,理想狀態下,即所有實驗條件客觀可控的狀態;以及部分不可控環境,即接近于真實網絡輿情環境的環境。
理想狀態下的調控方式簡述如下:在實驗環境中,擬自搭建論壇平臺,選取若干實驗者,擇取一個主題,實驗者將在平臺中進行討論,系統不進行輿論引導,經過固定的時間,評價論壇輿論情況。另一組對比試驗,選取與第一組不同的實驗者,但擇取同樣的主題,實驗者也在平臺中進行討論,完成調控后,又經過同樣固定時間,對引導情況進行評價。若條件允許,可設置多組對比試驗,如此即會令試驗調控效果更加精準。
在現實網絡輿情環境下,研究在不同的論壇選擇兩個相似或者相同的主題,同樣地,將兩個主題分別用于試驗組與對照組進行試驗。一方面,實驗組中,研究者選擇一個主題,不施調控,經過固定的時間,查看論壇回帖效果。而另一方面的對照組中,研究者首先對實驗組的主題進行調控,同時對另一個相似的主題也進行調控,經過相同的時間,分別對實驗組與對照組的主題再施以評估,相應地將對照組中兩個主題的調控效果也給予綜合評估。如果條件允許,可設置多組對比試驗,這樣會令實驗調控效果分析更加準確。實驗對比情況如圖2所示。
圖2對比試驗
Fig.2 Experiments comparing
3.2實驗流程
系統將設計后的謂詞以及自建的若干子句與采集到并經過轉化為DB的訓練數據集一同送入Alchemy軟件進行馬爾科夫邏輯網絡結構學習,得出結果后,檢視結果是否理想,如果不理想,則修改對應的謂詞與子句,并重新進行學習;如果結果理想,則將該結果應用于測試數據集進行推斷,得出推斷結果之后,計算該結果的CLL以及AUC值,其后對該值展開分析,從而評價試驗的結果。綜上,實驗整體流程如圖3所示。
圖3試驗流程
Fig.3 Experiments flow
3.3實驗結果
研究將構建的馬爾科夫邏輯網應用到測試數據集中,并利用馬爾科夫邏輯網的推斷功能進行四個謂詞的權重推斷。最終,則將得到的推斷結果進行對比,得出CLL以及AUC的值如圖4~圖7所示。
圖4情感分析CLL值 圖5 情感分析AUC值
Fig.4 The CLL of sentiment analysis Fig.5 The AUC of sentiment analysis
圖6調控CLL值 圖7調控AUC值
Fig.6 The CLL of opinion guidance Fig.7 The AUC of opinion guidance
三組實驗的區別為MLN文件中的子句不同。實驗1中子句為若干情感分析與調控的子句,實驗2中沒有子句,實驗3中不僅包含實驗1中的所有子句,還包含了各謂詞間的相互關系。
由推理可知,CLL和AUC的值越大,就表明實驗結果越精確。由上圖4~圖7可以看出,實驗1的各項謂詞的CLL和AUC值效果最好,實驗2的CLL和AUC值最差,實驗3的CLL和AUC值效果則介于兩者之間。這說明實驗1的結果得出的謂詞概率分布質量最好,推斷的結果準確率較高。而實驗3的效果次于實驗1,其原因可能在于實驗3的子句增多,關系增多導致出現了過擬合,使得泛化的性能不佳;實驗2的結果最差,原因則在于其中沒有自建的子句,僅依靠系統自身推斷學習,從而導致系統學習獲得的若干子句效果較差,達不到實際調控的目的。
以上實驗分析結果在局部上有一定變化,但是總體來說,基本達到了預測要求。CLL以及AUC的值都在正常要求范圍內,即通過對訓練集的馬爾科夫網絡學習,并運用該學習結果對測試集進行推斷,基本達到了需要調控的效果。綜上所述,實驗結果表明,基于語義和馬爾科夫邏輯網的模型在網絡輿情引導中現實可行,并可取得一定的良好有利效果。
4 結束語
本文主要針對當前對網絡輿情引導分析中,很多的研究方法和技術手段都僅限于人工調控,或者對上下文回帖的關聯度切合不夠,以及當前的研究都處于較淺的層次的問題。為此由上述問題引發,本文即可、嘗試對網絡輿情引導理論和技術方面進行深入研究,通過基于語義和馬爾科夫邏輯網的結構學習,設計并實現了網絡輿情傾向性分析系統,從而對網絡輿情引導做出較為正確的分析。本文的主要貢獻如下:
(1)在解決問題的過程中,引入了馬爾科夫邏輯網絡與協定分類相結合的研究方式。協定分類可以便捷處理數據與數據之間的關系,適應于輿情域上下文相關這一特性。馬爾科夫邏輯網絡則提供了一系列結構學習以及推理模型,因而有利于對數據集結果的學習與推理。
(2)基于前文的理論研究,設計并實現了網絡輿情引導分析系統。系統首先采集一定的輿情數據以及相應的引導方式作為訓練集,供系統進行馬爾科夫邏輯網絡結構學習,得出學習結果之后,將結果運用于另一未知輿情調控方式數據集進行推斷,推斷出該測試機輿情域相應的調控結果,最后對實驗結果進行分析比對,判斷實驗效果。 通過實驗的驗證,驗證了模型的優越性,解決了輿情引導的問題。
盡管如此,模型也存在著很多不足的地方,比如模型不夠完善,實驗效果并不明顯,實驗規模較小以及跨域遷移較復雜等問題,都有待后續的進一步研究。
參考文獻:
[1] 孫曉茜,林思明,劉悅,等. 媒體輿論引導仿真[J]. 智能系統學報,2010(2):106-111.
[2] 楊玲,方勇,張恒,等. 輿論引導的元胞自動機模型研究[J]. 成都信息工程學院學報,2008(1):30-33.
[3] 孟慶濤,王勇勝,劉桂玲,等. 高校網絡BBS輿論引導工作的幾點思考[J]. 科技信息,2007(4):113.
[4] 孫曉茜,林思明,劉悅,等. 基于Multi-Agent的媒體輿論引導仿真[C]//第五屆全國信息檢索學術會議論文集,上海:中國中文信息學會信息檢索與內容安全專業委員會,2009:10-14.
[5] TASKAR B, ABBEEL P, KOLLER D. Discriminative probabilistic models for relational data[C]// Proceedings of the Annual Conference on Uncertainty in Artificial Intelligence(2002), Alberta, Canada : DARWICHE A, FRIEDMAN N (eds.) ,2002:381-387
[6] DOMINGOS P, SINGLA P. Markov Logic in infinite domains[C]//Proceedings of the Twenty-Third Conference on Uncertainty in Artificial Intelligence. Vancouver, Canada:AUAI Press,2007:368-375.
[7] WANG J, DOMINGOS P. Hybrid Markov Logic Networks[C]//Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence, Chicago:AAAI Press:2008.1106-1111.
[8] M Richardson, P Domingos. Markov Logic Networks [D]. Seattle, Washington, USA: Department of Computer Science and Engineering, University of Washington, 2004:118-136
[9] SHAVLIK J W, NATARAJAN S. Speeding up inference in Markov Logic Networks by preprocessing to reduce the size of the resulting grounded network[C]//Proceedings of the Twenty-first International Joint Conference on Artificial Intelligence, Pasadena, CA.:2009:1951-1956.