徐瑾輝 馬超
【摘要】在各類社交網站是信息傳播的有利平臺這一現實條件下,我們利用該實際問題與傳染病傳播模型的相似性,以及其本身傳播方式與樹狀圖的共性,結合以常微分方程為主體算式的計算方法,對這一問題進行了深入探討。因此,本文建立了以傳染病傳播模型為基礎,以實際應用問題為背景的模型改良。通過運用以上改良的模型,我們建立起了一套完整計算“從第一人發布信息起,在有限日的時間內,獲取消息的人數”的算法。
【關鍵詞】傳播速度;結點;傳染病傳播模型;數據背景;印象度
1.問題的引入與分析
為了更合理的描述這個問題,我們引入一個例子,并以此為例提出解決方案。我們假設一家企業想利用社交網絡在奧運會期間進行企業宣傳,假設現在距離奧運會開幕還有100 天,一個社交網絡的專業推廣者平均每天可以新增500個粉絲,這些粉絲會把推廣者發布的和奧運會相關的所有信息都分享給自己的粉絲們,普通網絡用戶平均每天可以新增20個粉絲。
根據以上條件預測奧運會開始后,一條含有企業廣告的奧運會新聞可以被多少人觀看到?
2.基本假設
為了切入的方便,我們特提出如下假設,其中的部分假設會在模型檢驗的步驟中加以去除。
(1)消息的傳播不會經過一層就斷掉(也就是說,在社交網絡專業推廣者以下的各層直接或間接粉絲中,接收消息的人可以成為傳播消息的人)
(2)粉絲的重復問題,由于重復的粉絲數在巨大的網絡下很小,所以重復率很低,暫不考慮。
(3)從收到消息到傳播消息中間的時間忽略不計。
(4)傳播信息的過程中不考慮傳播者傳播的主觀因素。
(5)假設在該社交平臺上專業推廣者(即網絡推手)只有1人,且其個人社交平臺的實際運營時間為0,粉絲基數為0。
(6)假設該社交網站所有用戶每天所發布的信息都會在當天被其粉絲看到。7、該社交網站在所有時間段的平均人流量均相等。
(7)本文中所指的社交網站以推特網(Twi-tter)為例子,假定總用戶人數為5億人。(見參考文獻[1])
(8)假設若A是B的粉絲,則B所發布的消息必然會被A看到,而A看到后必然會轉發給A的粉絲。
備注:可能會存在死亡節點與爆炸性節點的問題。死亡結點指該消息傳到某粉絲處時停止傳播(如僵尸粉);爆炸性結點指該消息傳播到某粉絲處時,由于該粉絲的傳播立即得到極大規模粉絲的傳播,造成了極大地影響力(如名人)。
3.符號約定
N:該社交網站平臺擁有的用戶總人數(以Twitter為例子,其中N=5億[1])
t: 傳播時間
s(t):未了解該消息的各層粉絲所占該社交網絡平臺所有用戶數目的比例
i(t):已經知道該消息的人所占該社交網絡平臺所有用戶數目的比例
a(t):專業的社交推廣者所占該社交網絡平臺所有用戶數目的比例
b(t):其他知道該信息的粉絲所占該社交網絡平臺所有用戶數目的比例
V:該模型整體的傳播速度
E:總影響力
n:該連接網絡上級與下級所構成的單向傳遞方式連接數目的總和
ρ:該連接網絡上級與下級所構成的單向傳遞方式的強度大小
4.原理與模型
4.1 概念的引入
在這里,我們引入一個新的概念:體傳播速度,我們用v來表示。我們給他下一個定義:個體傳播速度指一條消息在兩個用戶間傳播的快慢。有了傳播速度的制約,這樣一來,就避免了信息在瞬間覆蓋整個社交網站的無限傳播狀況。制約個體傳播速度的因素有以下三點:
(1)原材料的屬性。各種不同的消息有著不同的屬性。原材料的屬性決定著傳播速度。在普羅大眾的這一角度,由于消息只有一則,則原材料的屬性的數值是不變化的,可以看作一個常數。
(2)該連接網絡上級與下級所構成的單向傳遞方式連接數目的總和,簡稱連接數目。符號為n。在這個“樹狀圖-核裂變反應模式”模型中,作用類似于“樹枝”的連接數目也起著至關重要的作用。在上層,假設斷了一支,則傳播相同消息給相同的人數需要遠多于之前的時間,且這一時間隨著層數的遞減呈指數爆炸形的增長。
(3)該連接網絡上級與下級所構成的單向傳遞方式的強度大小,簡稱連接強度。符號為ρ(0≤ρ<1)。定義如下:它指的是下一層粉絲的實際影響力。也就是說,下一層粉絲所構成的一個影響直接導致了連接強度。我們將n在強度ρ下的加權稱為該用戶的總影響力E,即:
為第j條連接的強度。
通過以上幾點,我們容易知道,V有穩定性,不變性的特點,且根據我們的分析,V最終只由E決定,且與E呈正相關趨勢。這樣我們可以得到一個函數v=f(E)。不過我們并不需要計算出f具體的表達式。我們僅僅需要f的這樣一條性質:f在R+上是連續的,且是嚴格增函數。這樣,我們所引入f的全部力量,則是為了下一個概念的引入:整體傳播速度V。
根據之前的假設與符號約定,我們定義整體傳播速度為:
當v=f(E)中的f具有我們之前所討論的性質之時,顯然有存在且有意義。這其中的理論證明將不再贅述。
4.2 構造模型所需要的函數
其實我們容易發現,該模型的傳遞方式類似于傳染病的傳播方式,廣告的傳遞者可以看為病人,而沒有看到廣告的用戶可以看作是健康人。同時,廣告的傳遞者每天新增的粉絲數可以看作是病人每天有效接觸的人數。因此,廣告在社交網絡中的傳播可以看作是一種傳染病的傳播模型(SI模型,見參考文獻[2]):
假設:
(1)區分感染者(病人)與未感染者(健康人),其占總體的比例分別為i(t)與s(t)。
(2)總人數為N且不變。
(3)每個病人每天有效接觸人數為λ,且使健康人致病。
那么可以列出方程:
其中:
進一步,令,則有:
與傳統的傳染病數學模型不同的是,原論題中存在著兩種相當于“病人”的角色:(1)專業推廣者;(2)看到消息的普通用戶。因此一種很自然的想法是,將病人比例函數i(t)分為兩個部分:專業推廣者比例函數a(t)以及看到消息的普通用戶的比例函數b(t).所以,我們可以列出以下微分方程算式,進行求解。
(1)
(2)
(3)
(4)
(5)
(6)
求解,得到這樣一條微分方程:
(7)
其中a=-20, b= 19.99999904,c=0.00000096
與傳統的傳染病數學模型的另一點不同是,原論題中并沒有對傳播速度加以限定。但通過上一節中對于消息傳播速度的定義以及其詳盡討論,我們可以保證微分方程(7)左端的存在且有意義。這樣一來,本題就轉化為了對于方程(7)的求解。
4.3 模型的求解
我們首先對方程(7)中的i(t)進行求解。應用MATLAB進行求解的最終表達式為:
i(t)=-(b-tan(((t+(2atan((a/250000000+b)/(4ac-b2)0.5))/(4ac-b2)0.5)*(4ac-b2)0.5) /2)*(4ac- b2)0.5)/(2a) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(8)
這樣,問題即劃歸為求解i(100)的數值;
進一步修改方程(1)為:
(9)
同時根據我們之前的假設,Twitter總用戶人數為5億人,那么理論上只要覆蓋這5億人中的百分之四十,即可覆蓋2億的潛在用戶中的百分之四十。
4.4 模型的數學分析
我們通過MATLAB對進行計算,得出一個驚人結論:。即:在第100天到來時,幾乎整個Twitter上的用戶都可以看到該公司的廣告。這說明,在不限制速度的條件下,第二天所有該社交網絡上的客戶就可以看到該信息。現在我們加入一些限定條件,在下一節對模型進行進一步修改。
4.5 模型的檢驗與修正
通過對模型的檢驗,我們發現在實際問題中,存在一些與假設所矛盾的條件。通過一定的計算,現在對模型進行一定的修改。
(1)引入“粉絲基數”的概念
我們引入新的概念“粉絲基數”,并為它下個定義:粉絲基數指傳播消息的個人用戶在傳播消息之前本來擁有的粉絲數目。我們可以把粉絲基數分為兩大類:第一類指的是推廣者的粉絲基數,這就意味著推廣者在推廣之前存在著一定的粉絲數目,這個粉絲數目與其個人社交平臺的實際運營時間呈現正相關的關系。由于推廣者的影響力很大,所以其基數應該在平均值之上;第二類指的是被推廣者的粉絲基數。這類被推廣者的條件絕大部分都符合一般個人用戶所擁有的條件,其粉絲基數應在總平均值上下取整浮動,且絕大部分都集中在中間的區間內。這就類似于正態分布“中間高,兩頭低”的分布效果。
當然,在具體的數學處理手法上,引入“粉絲基數”并不會實質性改變模型的結構,因為修改后的模型可以看作是:
當t=1時參數λ取粉絲基數;
當t>1時直接利用“粉絲基數=0”的模型。
(2)引入“有效用戶”以及“有效率”的概念
由于里面存在一些非惡意的注冊,一些用戶可能因為某種特殊原因關注了一些自己關注的人之后,就沒有進行登錄。或者在中間曾經登錄,但是在消息傳播的這100天中沒有登錄。當然,他們也有一定的粉絲數目。這是他們與僵尸粉的本質區別。但是,由于他們無法對信息進行一定的傳遞,所以與之相反的,所有可以接收消息并對進行對消息下一層傳遞的個人用戶,我們稱為“有效用戶”。所以,當我們對一個個人用戶的粉絲進行分類時,可以分為僵尸粉和正常粉兩類。正常粉中又可以分成有效用戶與無效用戶兩類。那么在這里同樣引入“有效率”的概念:即有效人數占其粉絲總數的百分比。在正常的信息傳遞中,有效用戶及有效率這兩個概念是不可忽略的,他們決定著信息是否可以通過正常的方式進行傳播。當然,在數據中也有一些“空值”,但是很明顯的是,這些空值的數量非常非常小,所以對數據分析并不造成任何決定性的影響。
(3)具有影響力的個人賬戶的運營時間
由于這些個人社交網站(如:Twitter)從成立到如今的運營時間并不長,很明顯,名人的注冊時間距離現在也并不會遙遠。當然,因為有了名人的注冊效應,在某種程度上才會吸引大批草根網民進行注冊。所以所有名人的平均個人社交運營時間應該在該網站產生大量注冊的時間點稍微往前一點到傳播該奧運會新聞的時間。當然,名人注冊的多了,網站就會進行名人的“實名認證”服務。在推出這項服務的時候,我們有理由相信已經有名人開始注冊。所以它的實際運營時間應該就在該時間段。以Twitter為例,根據資料,開始名人實名認證的時間應該在2009年6月[3]。所以這基本確定了該具有影響力的個人社交平臺的實際運營時間。到倫敦奧運會距離約3年。
(4)粉絲類型的分層
按照我們開始的假設,所有粉絲是平均分布的。但是,在實際情況下,這是不科學的,因為在實際情況中,就我們自己而言,我們認識的普通朋友多,名人少。且極少情況與名人產生互粉效應。所以得知粉絲類型的分層以及比例對了解新聞的傳播有著至關重要的作用。
參考文獻
[1]“統計稱Twitter人數已突破五億大關”[OL].http://www.199it.com/archives/tag/twitter%E6%B3%A8%E5%86%8C%E7%94%A8%E6%88%B7%E6%95%B0,2012-02-25.
[2]姜啟源,謝金星,葉俊.數學模型(第四版)[M].北京:高等教育出版社,2011.P136-P144.
[3]互聯網“Twitter推出名人賬號驗證服務”[OL].http://www.cnii.com.cn/20080623/ca558675.html.2009-06-08.