傅熙雯
(云南大學,云南 昆明 650091)
隨著科學技術的不斷發展,在線社交平臺不斷增多,如微博、微信等,其不僅具有傳統媒體的“時空偏向”特征,同時還可實現信息傳播主體多元化、內容碎片化,為人們提供多樣化選擇,滿足人們的個性化需求。
為促進復雜網絡以及系統科學領域不斷發展,需對在線社交網絡信息傳播機制進行深入探究,提升互聯網治理水平。因此,亟需對在線社交網絡信息傳播進行建模分析,并進行轉發預測。
機器學習模型種類較多,常見的機器學習模型主要包括決策樹、支持向量機和樸素貝葉斯等,不同模型均有一定的應用優勢和弊端,本次在線分析社交網絡信息傳播建模中采用隨機森林模型。
對隨機森林本質進行分析發現,其屬于決策樹組合,是一種集成了bagging和具有隨機性特征分裂方法的組合分類器,對于輸入數量無需進行預處理,在建模前無需進行特征選擇,在模型運行中,通過對變量的重要性進行選擇,分析不同輸入變量對模型的重要程度。
另外,在實際應用隨機森林模型時,泛化誤差率較低,數據集中可包含異常值和噪聲,即使數據確實,依然保持較高的預測準確性,可有效提升預測結果準確性,并且能夠平衡誤差,預測性能較好。除此以外,在模型中,各個決策樹均相互獨立,能夠避免過擬合問題產生[1]。
在數據分析過程中,需應用多種度量指標,在本次建模分析中采用召回率(recall)和精確度(precision),可準確反映出稀類分類實際情況。
對于兩分類問題,可用混淆矩陣表示,{+,-}指正負類的標簽集合,“+”代表正類,“-”代表負類。根據給定分類模型,即可準確計算測試機,共包含4種分類。
f++(TP)為真正類,樣本預測類別為正,真實類別為正;f+-(TP)為假負類,樣本預測類別為負,真實類別為正;f-+(TP)為假正類,樣本預測類別為正,真實類別為負;f--(TP)為真負類,樣本預測類別為負,真實類別為負。
根據混淆矩陣,即可對召回率(R)以及精確度(P)進行計算:

在模型分類效果評估中,還可采用F1度量這一指標,F1為召回率和精確度的平均值,如果R和P均最大,則F1即可最大化,三者之間的關系如下:

受試者工作特征曲線即ROC曲線,在模型評估完成后,對于評估所得結果,可繪制成曲線,即可對不同分類模型的差異進行對比分析。在曲線二維平面中,橫軸和縱軸分別為假正率及真正率,長度均為1。在ROC曲線評估模型的實際應用中,可采用以下2種分析方式:對ROC曲線的偏向進行觀察,如果ROC曲線偏向左上角,則模型分類性能較好;對ROC曲線下面積(AUC)進行觀察,如果AUC較大,則模型分類效果較好[2]。
ROC曲線繪制流程如圖1所示,其中a為樣本,如果閾值為C,則a為正類;如果閾值小于等于C,則a為正類。

圖1 ROC繪制流程
在本次在線分析社交網絡信息傳播建模中,采用隨機森林模型,對于模型參數可采用用戶特征關鍵詞權重,據此創建興趣加權隨機森林模型(WRF)。在無加權RF模型中,對于各個用戶的特征變量,可采用一個權重參數,其能夠對權重進行調節,充分展現出各個用戶特征變量的差異。對興趣差異進行分析發現,主要體現在興趣數量和興趣程度2個方面。各個用戶輸入變量的特征加權值計算方式如下:

式(1)中:weight(f)為特征f的最終權重;index(f)為該特征某用戶的興趣權重;index(f)mean為該特征權重值的平均值。
在本次研究中,計算模型的關鍵步驟如下:①清洗數據集,數據集主要分布在多個文本中,因此,通過對數據集進行合并和去重處理,即可有效清洗數據集;②在數據集清洗完成后,可利用轉發屬性以及非轉發屬性,將數據集分為2種類型,再對各個數據集上各項指標的累積度分布情況進行計算,然后繪制CDF曲線;③創建轉發行為預測指標體系,并根據式(1)對各個應用戶的興趣加權參數進行計算,然后再對各個特征進行加權計算;④將原始特征變量以及特征變量輸入隨機森林模型中,對R、P以及F1進行計算,然后在此基礎上繪制ROC曲線,對各個指標在模型中的重要性進行對比分析;⑤以多種用戶屬性作為基礎,并進行分類預測,對各個屬性分類效果進行比較[3]。
在模型分析前,在獲得原始數據后,需對所有數據進行清洗,在此過程中,可利用Python編程語言中的Numpy以及Pandas工具包,對數據進行拆分、合并處理,同時還可對缺失值進行有效處理。在數據清洗完成后,即可利用R語言界面友好的“rattle”數據挖掘工具包對模型進行計算分析。
在隨機森林模型計算中,決策樹數量的影響較大,在隨機森林模型計算分析中,一般默認決策樹數量,但是在具體的計算過程中,為了對模型進行優化處理,要求合理定義最佳參數。隨機森林模型計算誤差和決策樹之間的關系如圖2所示,分析圖2發現,OBB指模型的泛化誤差,“0”指否定結論的誤判率,“1”指肯定結論的誤判率。比如選擇微博平臺作為研究對象,在用戶轉發行為預測分析中,可對多個模型進行對比。

圖2 決策樹數量與模型誤差關系
在預測分析中,可利用改進后的隨機森林模型(WRF)與經典森林模型RF和Logistic回歸模型相比,各項性能指標均比較好,精度更高,同時召回率指標和F1分值也有所提升。由此可見,在對用戶興趣加權進行調整后,通過利用WRF,可對用戶轉發微博信息的行為進行準確預測。
為了能夠對不同模型中用戶轉發行為預測性能進行對比,需對ROC曲線進行繪制和分析,并對ROC曲線下方面積(AUC)進行計算,據此對各個模型的性能進行對比。當AUC在1.0~0.5之間時,如果AUC接近1,則模型分類效果較好,如果AUC在0.9以上,則分類準確性較高;當AUC在0.7~0.9之間時,分類準確性較高;當AUC在0.5~0.7之間時,準確性較低;如果AUC為1,則模型最完美;當AUC為0.5時,模型效果最差[4]。
確定模型指標重要性程度,可選擇2個度量標準,即精度平均減少值(Mean Decrease Accuracy)和節點不純度平均減少值(Mean Decrease Gini),如果2個值較大,則指標重要性也較高。在2種度量標準下,各個指標的排名差異較大,其中,轉發性以及轉發活躍度對于WRF分類效果的影響最大,而用戶分類關鍵詞數量以及性別對于模型分類的重要性最小。
在對模型分類預測性能進行評估后,即可確定不同指標的重要程度,為了能夠對用戶轉發行為進行預測,可選擇3個屬性進行分析,包括特征屬性、行為屬性及興趣屬性。
3類用戶屬性預測結果差異較大,其中,行為屬性預測結果準確性較高,而用戶興趣屬性預測結果準確性較低。另外,在3類指標中,特征屬性的召回率較高,興趣屬性預測召回率和特征屬性預測召回率相近,行為屬性召回率最低。
通過對F1分值進行對比發現,行為屬性效果最好,興趣屬性得分最低。數據集具有不平衡特征,因此,在對模型分類能力進行分析時,需對精確度指標以及召回率指標進行分析,通過對F1度量結果進行對比分析發現,用戶行為屬性分類效果最好,由此可見,用戶的轉發行為、評論等會對轉發行為產生較大影響,另外,不同用戶粉絲屬性以及關注人屬性等會對用戶信息轉發行為產生較大影響,用戶興趣處于不斷變化中,對于用戶信息轉發行為的影響比較小。
在繪制ROC曲線后,通過對ROC曲線進行分析,可發現用戶行為屬性的分類效果較好,對用戶轉發預測的影響較大。用戶3類屬性的ROC曲線如圖3所示,行為屬性ROC曲線最靠近左上角,因此,AUC值最大,由此可見,行為屬性對于用戶轉發行為的影響較大,其次為用戶特征屬性,最后為用戶興趣屬性。

圖3 3類屬性的ROC曲線
綜上所述,本文主要對在線社交網絡信息傳播建模方法以及用戶轉發行為預測方式進行了詳細探究。在在線社交網絡平臺運行中,在信息傳播方面,用戶行為驅動為十分重要的內在影響機制。在本次研究中,創建用戶興趣加權的隨機森林模型,在用戶轉發行為預測中選擇3個屬性,分別為特征屬性、行為屬性和興趣屬性,通過將隨機森林模型(WRF)與傳統森林模型以及Logistic回歸模型進行對比發現,WRF模型的分類性能比較好。另外,在WRF模型的基礎上,對各項屬性評分以及ROC曲線進行對比,確定行為屬性預測效果較好,能夠反映出用戶行為習慣對在線社交網絡平臺運營中信息傳播的影響。