徐 春, 王 昭, 孫 彬
(新疆財經大學 信息管理學院, 烏魯木齊 830011)
在自媒體新技術日益進步發展的形勢下,網絡空間治理問題已受全球各地廣泛矚目.網民行為及心智傾向的鏈路預測問題成為推進網絡空間共同體建設的重要內容.在網絡新技術形勢下,網民交互行為與心智傾向檢測涉及到網絡輿情鏈路預測、網民交互行為密度測算、網絡資源密度聚類和分布式架構等多個技術層面.當前輿情檢測及鏈路預測方案較多依賴“網絡流量異常”和“文本關鍵字比較”等檢測技術,檢測指標單一、適用面窄、效率不高,有預測滯后和結論不準確等缺陷.隨著大數據聚類和人工智能等技術的發展,網絡輿情形勢越來越復雜,傳統輿情監管及網民行為傾向的預測方法呈現許多適用性不足的問題.
網絡輿情檢測與異常網絡活動、網絡資源聚類特征緊密關聯.現有的典型研究有:1)基于輿情信息、輿情主體、輿情傳播、網民行為的網絡輿情演化機制.例如:基于輿情主題、輿情內容、傳播過程、傳播媒介及輿情受眾等建構指標體系和輿情演化機制[1];基于在線檢測與自動識別實現網絡檢測的動態聚合機制[2];一種集識別、監控、預測、評級、治理于一體的網絡集群行為的監測及預警模型[3];利用LDA(latent dirichlet allocation)方法構建研究模型,挖掘出輿情傳播的主題結構、觀點脈絡和特征[4];在人群密集場景中,通過標注真實圖譜的方法,實現有效的網民密度監督等[5].2)應用網絡輿情監測來反映網民交互行為與心智變化的傾向,輿情密度聚類算法被廣泛應用.例如基于網絡活動敏感密度的輿情評價方法[6]、基于不同時空窗口對網民行為密度進行量化監測[7]、網民復雜交互情境下的輿情博弈分析[8]等.3)利用大數據輿情聚類算法提取聚簇中心與聚類效率.例如基于K近鄰的多類合并密度峰值聚類算法[9]、基于平均差異度的輿情聚類算法與信息熵聚簇中心選取模型[10]、不設定聚類個數的大規模數據聚簇中心算法[11]和簡易提取密度峰值聚類中心算法[12]等.4)輿情聚類采用分布式架構進行研究.例如基于R+Hadoop的微信平臺輿情挖掘框架[13]、分布式K-menus聚類算法與Spark并行架構的大數據聚類[14]和分布式網絡協同的并行聚類模型[15]等.
通過上述梳理可知,網民行為及心智傾向監測方法存在較大技術瓶頸,亟需改良輿情信息聚類算法.主要表現在:1)提升網民行為及心智傾向的鏈路檢測實效;2)提升輿情數據密度聚類的適用性和聚類質量;3)進一步探究快速定位輿情聚簇中心的有效辦法,升級輿情網絡的鏈路檢測效率.
基于網民行為傾向的關鍵特征,設計傾向集指標,實現適用性輿情密度聚類架構,助力自媒體網絡的新觀念、新苗頭預測工作.
基于體驗式交互風格的自媒體空間,形成了眾多網民行為指標.在不同軟件空間和不同地域環境下,人們所關注的輿情指標差異性較大,許多網民行為指標未被充分重視.
1) 關鍵指標與檢測圖.抽取關鍵部分的輿情信息指標,形成輿情監測的關鍵測算指標覆蓋.通過關鍵子集的飽和度檢測,把控全局輿情信息可靠度,圍繞網民行為傾向的核心指標,以具體的交互端“軟件應用操作”為“觀測節點”,以用戶行為異常傳播為“觀測邊”、以用戶流量為“觀測權重”構建網狀的輿情監測有向圖.基于輿情監測有向圖的鏈路檢測過程,要求約簡次要指標,形成關鍵要素子集,以提升鏈路預測的實效.
2) 傾向度.在網民行為傾向的有向圖中,基于多項關鍵性輿情監測目標,構建傾向度參量.輿情信息集有向圖描述為T={Gij},其中,Gij表示第j個軟件應用系統的第i個網民行為(發帖、舉贊、時長、頻率和敏感文本等觀察指標).有向圖節點Gij正常活動發生量為vij,而實際發生量為uij,定義傾向度的計算公式為
(1)
一系列網民行為的傾向度描述構成網民心智傾向的有向圖描述.在網民行為有向圖中,將效能邊上的n種網絡行為進行傾向度的負載合計,即
(2)
式中,ci為流量權重系數,∑ci=1.
3) 輿情分布.對一個具體軟件系統而言,聚合在該軟件系統上的網民,可以實現自由度較大的信息傳播活動.對第j種應用軟件系統而言,一條輿情傳播鏈路可表示為xj,該傳播鏈路相對于m種應用軟件系統的輿情分布.
對輿情信息有向圖中的任意兩個輿情鏈路(x,y),可以分別計算其輿情分布:P(x)、P(y)和P(x,y).基于輿情數據集T,可計算信息熵損失量為
(3)
參量SM能體現出兩條輿情鏈路聯合分布的關聯性.當鏈路x和鏈路y的輿情相互獨立(無相關性)時,SM將為0.使用SM能高效估計鏈路x和鏈路y之間熵值差異.根據最大熵原理啟示,一個網絡節點上各種應用軟件系統的輿情傾向熵值較大,則標志著各種軟件系統之間的傳播狀態接近,發生群體觀念極化的可能性較低;相反,各種軟件系統之間的傾向熵值較小,標志著各個鏈路的行為觀念差異較大,輿情異常傳播(群體極化)的可能較大.使用“輿情傾向熵”能分析出輿情鏈路的群體觀念差異性,用dxy表示網民心智觀念的傾向距離為
dxy=|SMT-{y}(x,y)-SMT-{x}(x,y)|
(4)
式中:T-{y}為去除鏈路y后的輿情數據集;T-{x}為去除鏈路x后的輿情數據集.
4) 輿情密度.在自媒體網絡環境下,網民行為數據稀疏性較大,需要約簡數據集.一方面,通過密度指標來約簡輿情監測的指標數量;另一方面,通過密度來保障輿情動向的全覆蓋,以便捕捉量小而行為特征典型的輿情監測指標.設傾向觀念距離的閾值參量為dc,統計輿情數據集中超越預定閾值的鏈路數量.定義輿情鏈路的密度ρx為
(5)
(6)
式中:k為輿情鏈路總數;E為判別函數.輿情密度ρx表征與鏈路x同類的鏈路數量,密度值越大,所聚集的鏈路數就越多.
5) 聚簇中心.具有密度極大值的節點,即為該類的聚簇中心.在密度聚類過程中,閾值參量dc取值過小,會造成聚簇中心太多的情況;閾值參量dc過大,會造成中心捕捉失敗、聚類失敗.針對閾值參量dc往往需要較多的實驗來確定的情況,通過對2 427條輿情鏈路的密度測算,對已有鏈路的傾向距離升序排列,結果如圖1所示.觀察適用聚簇中心所處的閾值參量定位發現dc取6.6%~6.7%位序處所對應的距離數值、準確率指數和蘭德指數均達到較好的狀態,準確率達到94.2%.

圖1 距離參量效用Fig.1 Distance parameter utility
6) 疑似強度與權值參量.為快速完成輿情聚類,區分聚簇中心鏈路與一般輿情鏈路的密度差別,構建疑似強度參量.如果一個輿情鏈路的密度高于預定鏈路的密度,則認為聚簇中心的疑似強度較大.定義δx為聚簇中心疑似強度,即
(7)
式中,參量max(ρ)為局域的密度極值.
聚簇中心疑似強度標識出一個輿情鏈路x與其他多條輿情鏈路y的密度差距.通過對1 948條交互軟件鏈路進行嫌疑強度比較,結果如圖2所示.圖2的結果表明,δx具有較好的聚簇中心(局部中心)甄別作用.
為進一步提升聚簇中心的甄別效率,設置輿情鏈路的權值參量為
ξx=ρxδx
(8)
通過對1 846條鏈路數據實測發現權值參量ξx具有高效甄別聚簇中心的作用,權值參量曲線如圖3所示.

圖2 密度與嫌疑度分布關系Fig.2 Distribution relationship between density and suspicion

圖3 權值參量曲線Fig.3 Weight parameter curve
在自媒體網絡環境下,網民行為傾向數據集規模龐大,需要構建分布式聚類架構,克服單機聚類的困境.分布式架構的關鍵問題是將龐大數據計算任務負載均衡地劃分為并行子任務.通常情況下,需要實現合理的數據塊分布,基于數據耦合,保障各個數據塊的負載均衡性,以便發揮出分布式計算的優勢.面對網民行為傾向數據集,分布式聚類架構包括數據塊劃分、耦合設計和聚簇流存儲等3個主要部分.
1) 數據塊劃分.圍繞網絡流量特征,可以把網民行為數據集T分解為N個子集si,并要求每個數據塊子集消耗的網絡傳輸流量基本相當,以均衡負載各個子集的計算任務.在數據塊劃分中,每個數據項需要保持獨立性,即任意一個數據鏈路項只能屬于1個實際的數據塊.
2) 耦合設計.每個計算單元均由兩個“數據塊”耦合而成,數據塊Si和Sj耦合成計算單元Wij,記為Wij=〈Si,Sj〉.將計算單元的組合映射過程和聚簇中心參量的匯聚過程組合,形成分布式MapReduce架構,數據塊耦合過程如圖4所示.
分布式耦合計算過程為:將每個計算單元Wij優化布局到不同服務器Map,并完成所屬塊內的密度聚簇任務;基于計算單元Wij獲得本域輿情密度序列ρij和疑似中心強度序列δij;用f(Si)流存儲匯集計算單元內數據塊Si的各個聚簇結果和權值參量序列ξx;將各個數據塊Si的聚簇中心參量ξx整合,形成全局性密度聚簇中心的權值參量序列;最后依據聚簇中心權值參量序列,實現網民行為傾向的密度聚類.

圖4 數據塊耦合Fig.4 Data block coupling process
3) 聚簇流存儲.為提高聚簇運算實際效能,設計聚簇流存儲機制,以降低網絡傳輸的開銷.在計算單元完成各自的聚簇中心鑒別任務后,將各個數據塊所涉及的聚簇參量進行存儲地址規劃,有序地實現高效率全局性匯聚.聚簇流存儲以鍵值對〈Key,Value〉結構來快速檢索聚簇節點密度序列ρx和疑似中心強度序列δx,其中,Key是計算單元Wij的聚簇地址Idij,Value是對應的權值參量ξx.計算單元聚簇地址為
(9)
式中:i和j分別為Wij耦合數據塊編號(i 依據聚簇流存儲結構,能高效完成各個數據塊的權值參量序列ξx的全局性合并,為輿情數據的高效歸集奠定基礎. 本文利用虛擬網民行為來仿真信息傳播鏈路,實現鏈路預測效用.鏈路預測的實際目標就是鑒別輿情新動向和新苗頭.仿真網民行為、仿真輿情鏈路的主要過程是:在某些網民活動相對集中的軟件系統中,提取典型網民行為(或網絡節點),加載到傾向密度較低的輿情鏈路中,估算輿情密度的變化情況;或者虛擬構建一種軟件交互場景,吸引特殊嗜好的網民進行蜜罐監護,測試新輿情類別產生的可能性.由此,通過虛擬輿情鏈路或虛擬網民行為仿真出新輿情事件的發生過程,為面對輿情新動向、新苗頭及早制定預案. 在自媒體網絡環境中,網民行為復雜、輿情鏈路多變.以網絡社區個體網民為調查對象,采集相關性網民活動內容,包括微信交互、今日頭條、QQ群、微博交互、朋友圈、網站貼吧和熱文評論等交互端活動,并涉及異常流量、評價、敏感文本、發帖、跟帖、贊和刪帖等行為特征.在輿情網絡有向圖中,形成200多萬個網民活動節點.為保障輿情密度聚類運算需要,集群服務器部署Hadoop 2.7.18和Spark 2.11.8系統,通過Standalone配置,實現1個主節點和9個從節點的集群架構,共為集群服務器分配720 GB內存和1 000 Mb/s連接速度.追蹤調查網民52 685人,形成大規模的網民行為與心智傾向數據集,完成分布式網民行為與心智傾向的分布式密度聚類與仿真實驗分析. 1) 分布式聚類效率分析.實驗中,按照可信傳播流量的硬件條件,將網民數據集劃分成4~10個數據塊進行網民行為傾向的密度聚類.通過權值參量強化聚簇實效,獲得輿情中心節點26~233個.對比不同聚簇中心數的單機聚類的運算效果,分布式算法的效率明顯升高,結果對比如表1所示.當輿情數據集不斷擴大時,分布式運算的優勢越顯著,分布式密度聚類的準確度也越高,而單機聚類的劣勢比較明顯. 2) 輿情鏈路聚類效果分析.在網民行為傾向的聚類分析過程中,結合仿真性鏈路檢測技術,檢驗預測輿情新動向和新苗頭.在10個數據塊的聚類規模情景下,面對網民自媒體交互行為,檢測出輿情鏈路5.2萬多條.虛擬增加或刪除部分網民行為和部分網絡節點,輿情聚類結果變化顯著,聚類結果如表2所示. 通過分布式密度聚類計算和虛擬仿真過程,目標網絡的輿情動向得到掌控.測試結果表明:①輿情鏈路數量與聚簇中心數量沒有線性關系,仿真網絡新節點或網民交互行為有利于輿情新動向、新苗頭的發現.②對于自媒體下的輿情鏈路而言,網民行為傾向的密度極值越大,發生群體觀念極化的可能性越大,產生負向消極影響的可能性也越大.③輿情鏈路數量較少的網絡,不意味著群體觀念極化的可能性低.④潛在的輿情新苗頭、新動向數量與聚簇的極大密度類值有近似正向線性關系. 3) 運算效能比較.將聚類準確度限定在85%以上的水平,比較分布式密度聚類、單機密度聚類、DisAP近鄰傳播聚類和PK-Means聚類等算法的實效,效能對比情況如圖5所示.總體上看,分布式架構的網民行為傾向密度聚類,對網民輿情數據集密度聚類的適用性最好. 隨著輿情數據集的擴大,各種聚類算法耗用時間均呈現較快攀升態勢.在限定1萬個節點的規模下,分布式架構與單機架構的耗用時間大體相當;在限定2萬個節點的規模條件下,分布式架構的耗用時間是單機架構的1/3;在限定2.5萬個節點的規模條件下,分布式架構的耗用時間增加量不大,但單機架構耗用時間遠遠超出適用的范圍.由于PK-Means聚類算法迭代運算特點,在節點規模超過2萬個以上時,才能呈現出分布式的優勢,而DisAP聚類算法在節點規模超過2萬個以上時,已經不具備適用性,耗時超出可用范圍.在大規模數據集情境下,分布式密度聚類的實效強于PK-Means聚類.單機密度算法及傳統DisAP聚類算法均不適用于大規模數據集的聚類任務.分布式密度聚類算法的優勢在于高效提取聚簇中心,而PK-Means聚類算法的優勢是數據歸集,有充分融合的優化潛力. 分布式密度聚類架構具有時耗優化的優勢,能保障自媒體網絡下的網民行為與心智傾向的大規模聚類和輿情鏈路預測任務,能發現潛在的輿情新動向和新苗頭.與傳統聚類方法相比,基于網民行為與心智傾向的分布式密集聚類算法表現出提取聚簇中心快速和模擬仿真節點靈活等優點.面對網民行為傾向性的分布式密度聚類和針對網民行為的仿真實驗,豐富了自媒體網絡情境下輿情鏈路預測技術的探究視角.1.3 鏈路檢測
2 實踐結果分析
3 結 論