曹奕萱, 賈海楠, 張衛強
(西北大學現代學院,電影學院,陜西,西安 710000)
融媒體本身擁有多種形態(視頻、音頻、文字以及圖像等)可采用不同的媒介進行傳播[1]。同時,它可以將信息內容以極快的速度發布出去,還可以實時更新消息。相比國內的融媒體行業,國外媒體在數據的視覺化以及圖表互動化等方面值得我們借鑒,且對于不同的媒體之間是怎么打破傳統的觀念完成信息轉發,同樣也值得我們學習。為此,有學者設計了基于生態系統的媒體智庫傳播模型[2]和網絡群體傳播效果實證研究述評與整合模型[3]。但在應用中發現,上述傳統模型的效果還需進一步提高。對此,本文提出一種基于用戶行為特征的融媒體傳播信息轉發模型,通過分析自身的屬性、用戶之間關系屬性以及融媒體屬性的增益率,設置轉發閾值,最終完成轉發建模。
用戶期望完成任務的時間以及任務提交概率分布情況是影響融媒體傳播計算資源分配的主要影響因子,因此,劃分融媒體傳播服務時間,變成若干等長的時間片T1,T2,T3,…,Ti,…,Tn,dt代表單任務平均的執行時間長度,其計算公式為
(1)
式中,Task(Ti)是一種任務函數,能夠創建具有給定優先級的任務。通過采樣各種用戶提交任務處于各個時間片段Ti中分布的情況,且按照在所有Ti中的任務個數,對用戶的工作進行劃分,分為非常繁忙、較為繁忙、一般、較為空閑、非常空閑等5種[4]。負載狀態的劃分規則是在單位時間片段中,通過融媒體傳播占據整體計算資源的比例劃分的。所有狀態比例的范圍能夠通過各種系統自行設置,具體公式為
(2)
式中,Ti代表第i個時間片段,taski,j代表在時間片段i中所進行的第j個任務,Call代表所有資源的總和[5]。
用戶任務的期望完成時間,可以通過查詢服務的返回結果獲得。按照查詢的頻率值把TS中的用戶QoS(Quality of Service)劃分成3個優先級,且采用綠、黃以及紅色來表示。其中,綠色代表用戶的查詢頻率比平均頻率小,黃色代表用戶的查詢頻率與平均頻率基本相等,紅色代表用戶的查詢頻率比平均頻率大。具體公式為
Qi=F(Ti,Ni)
(3)
式中,Ti代表第i個時間片段,Ni代表時間片段i中查詢的頻率。
融媒體的計算資源分配情況和用戶行為分析情況能夠利用四象限法則進行表述。
在第一象限內,用戶工作情況處于空閑狀態,提交任務的間隔時間比較長,即QoS優先級的要求是紅色,希望以最快的速度將計算結果返還回來[6]。這時適當采用融媒體資源分配的策略進行實時處理,同時按照最小完成時間(MCT)來分配融媒體的資源,使其局部達到最佳分配效果[7]。
在第二象限內,用戶的工作情況處于空閑狀態,任務提交間隔的時間較長,即QoS優先級的要求是黃色或者綠色,對于計算時間沒有過多要求。這時適當采用分配策略進行實時處理,同時,按照目前任務需要的最小資源對融媒體資源進行分配,從而獲得局部資源的最大化利用率。
在第三象限內,用戶的工作情況處于繁忙狀態,提交任務的間隔時間比較短,即QoS優先級的要求是紅色。這時要采用最短的時間優化策略分配融媒體,從而得到整體最佳的配置。
在第四象限內,用戶的工作情況處于繁忙狀態,即QoS優先級的要求是黃色或者綠色,用戶對于計算的時間長度沒有太多要求,所以能夠采用最大化的利用率(MMKT)策略來分配融媒體的資源,從而得到整體最佳的配置。
在互聯網內,用戶發布一條融媒體信息,其關注者會按一定概率將其轉發出去[8]。在發布一條融媒體以后,其轉發個數和傳播廣度、深度不能夠預測,不過能夠從上述構建的用戶行為特征中預測一條融媒體的傳播以及轉發個數。
融媒體傳播結構關系如圖1所示。

圖1 融媒體傳播結構關系圖
圖1中,u、v、w代表3個節點,v轉發了u的融媒體m,w轉發了v融媒體m′,w代表二級轉發節點,其中的虛線代表w同樣可以直接轉發u融媒體。
融媒體傳播過程主要是依賴用戶轉發,而影響用戶轉發的行為方式有很多,具體如下。
(1) 用戶自身屬性
獲取單位時間段內用戶的原創融媒體數據以及轉發的融媒體,其時間段的長度采用O代表。
總融媒體個數是原創的融媒體以及轉發融媒體個數之和[9],采用O代表,可以得到公式為
O=r1+r2
(4)
式中,r1代表原創的融媒體個數,r2代表轉發的融媒體個數。
融媒體非原創率通過轉發融媒體和總融媒體的比值獲得,采用RR代表,具體公式為
RR=r2
(5)
融媒體平均轉發的個數是在時間T中,用戶融媒體轉發個數平均值,采用RA代表,具體公式為
(6)
(2) 用戶之間的關系
各個用戶之間的關系主要對轉發級別以及轉發比例進行考慮。各個用戶之間的轉發比例是時間T中用戶u轉發用戶v融媒體個數以及用戶v所發布融媒體個數比值,采用de代表,其中,T時間中用戶u轉發v的融媒體個數采用r′代表,在T時間中用戶v發布融媒體個數采用post代表,具體公式為
(7)
融媒體轉發的級別代表用戶轉發原融媒體方式,采用數值1代表直接轉發,數值2代表間接轉發。
兩個用戶互相關注,數值0代表用戶u僅關注用戶v,數值1代表相互關注。
(3) 融媒體屬性
圖片數代表一條融媒體內包含的圖像數量,采用pic代表。鏈接數代表一條融媒體內包含的鏈接數量,采用link代表。融媒體長度代表源融媒體的文本長度以及轉發之后融媒體文本長度和,采用l代表,若直接轉發源融媒體,那么l僅代表源融媒體的長度。
把融媒體的轉發結果當成類表示屬性,其中,0代表轉發,1代表不轉發。以此計算所有屬性的增益率。
數據信息增益即為原本信息需求和全新需求間的差,令GA代表A的信息增益采用Gain(A)代表,具體公式為
GA=IA-SA
(8)
式中,IA表示原本的信息需求,SA表示新的信息需求,具體公式為
(9)

(10)
在計算屬性增益率后,按照順序進行排名,再與訓練集進行結合,獲得對類標記屬性不會造成影響的屬性,將其刪除。
設X={Xi|i∈[1,n]}為代表選擇的屬性集合,Xi屬于第i種代表屬性的個數,n代表屬性數量。將微博轉發的結果當成因變量,數值1代表轉發,數值0代表不轉發,構建n個屬性二分類的邏輯回歸方程L,具體公式為
L=β0+β1X1+β2X2+…+βnXn
(11)
式中,βi代表回歸系數。融媒體轉發的概率P具體公式為
(12)
式中,L代表回歸方程結果。計算結果的閾值設置為0.5,若P>0.5,則可以認為融媒體被轉發。
在某網絡論壇上提取4000名用戶的16萬條數據作為實驗數據,從中收集用戶的收藏信息個數、評論個數、發表個數、標簽列表、話題列表收聽個數等基本信息。然后利用動態屬性,來構建用戶處于不同屬性下的關系網絡,從而實現測試流程。
該次實驗所用到的評論指標有2種:Topic(主題)檢驗方法以及Tag(標簽)檢驗方法。其中:Topic檢驗方法憑借用戶前一段時間所關注的主題,從而對用戶分類,同時轉發結果對比;Tag檢驗方法是憑借用戶所設定的個人標簽,從而對用戶分類,同時轉發結果對比,包含召回率和轉發成功率指標。
二者驗證方法具體公式為

(13)

(14)
式中,I代表轉發源用戶利用矩陣乘轉發模型所得到的結果,在Topic檢驗方法內Rt代表融媒體信息轉發源用戶關注主題一樣與類似用戶的集合,而在Tag檢驗方法內Rt代表融媒體信息轉發源用戶所設定的個人標簽一樣與類似用戶的集合。
分析每個節點相應的轉發結果集合,將4000名用戶每50名為1組,組內包含2000條信息,共分為80組,數據代入本文所提模型中,分析不同檢驗方法下模型計算出的信息轉發成功率,結果如圖2所示。
由圖2可知,無論是主題還是標簽驗證,本文所提模型轉發成功預測曲線隨著用戶增加而逐漸降低,這說明并不是轉發節點越多相應的轉發結果集合成功率就越高。這是因為隨著實驗用戶增加,相對應的轉發信息也呈指數增長,海量干擾信息影響模型轉發計算精度,導致輸入55組用戶時,模型的雙驗證轉發精度都下滑,但完成全部80組后成功率保持在80%以上,依舊能夠滿足網絡預測需要。
Topic檢驗方法與Tag檢驗方法的召回率對比如圖3所示。

圖3 Topic檢驗以及Tag檢驗的召回率曲線分布
觀察圖3能夠看出,二者檢測曲線都隨著用戶組數的提升而降低,最后趨于平穩在80%以上,并且不再因為數據量的增加降低召回率值,且Topic檢驗和Tag檢驗結果曲線趨勢基本一致,沒有出現較大差距,能夠證明本文所提模型不會受到主題或標簽因子限制,影響召回結果。上述結果能夠證明本文所建模型魯棒性優秀。
為進一步突出本文模型的有效性,將傳統的基于生態系統的媒體智庫傳播模型和網絡群體傳播效果實證研究述評與整合模型作為對比,從轉發成功率的角度與本文模型共同完成性能驗證,結果如表1所示。

表1 不同模型信息轉發成功率對比
分析表1可知,盡管所有模型的轉發成功率均可達到90%以上,但相比之下,本文模型的信息轉發成功率更高,說明本文模型更有效。
本文通過分析用戶行為特征發現用戶關注人數越多,那么認定此用戶人際關系越好,即融媒體被轉發概率也就越大。此外,活躍度越高的用戶,融媒體被轉發的概率也會越高。基于此,本研究設定了轉發閾值完成對轉發模型的構建。