仇建平
(太原科技大學計算機科學與技術學院,山西太原030024)
在虛擬的互聯網世界中,實體經濟中的“消費者”轉換為虛擬經濟中的“用戶”.“用戶”是一個主動的概念[2],瀏覽網頁、聽音樂、看視頻、下載軟件等行為都是用戶根據自己的興趣主動做出的,是一種自由意志支配下的消費行為[3-4].隨著這些行為數據的爆發性增長,新的模型不斷涌現.一般的建模方法是從某些假設出發,引入變量,借助某些原理、定律,導出數學模型,再用數據來檢驗其正確性,有了數學模型,系統控制的問題就變成了變量和參數的控制.但要建立這樣的數學模型有時非常困難,主要表現在:1)互聯網結構復雜:節點數目巨大,網絡結構呈現多種不同特征;2)互聯網的進化:節點或鏈路會隨著時間的變化而產生或消失;3)互聯網鏈接的多樣性:節點之間的鏈路權重存在差異,且有可能存在方向性;4)多重復雜性融合:即以上多重復雜性相互影響,導致更為難以預料的結果.實際的網絡會受到多種因素的影響和作用,各種網絡之間密切的聯系也會使它們相互產生影響,從而加大對網絡分析的難度.
為了解決這些問題,人們轉換視角:把人看作是傳播的內容,把信息資源看作是對象.同生態系統依賴能量流動,經濟系統依賴貨幣流動一樣,互聯網依賴關注力流動.互聯網上用戶的點擊行為實際上體現為關注力的流動,其中節點是信息資源,有權重的鏈路則指示著關注力的流動.這樣,從信息在用戶間的流動,轉換為用戶在信息間的流動,即把原來網絡的節點變成了鏈路,原來的鏈路變成了節點.這一轉換的好處在于:1)網絡中的信息量是無限的,不易測量,而關注力相對于信息量來說卻是有限的,易測量;2)由于信息資源可以被無限地復制,同一類信息資源不同內容與不同類信息資源,都是網絡上不同的節點;3)用戶的關注力是一個嚴格的守恒量.總的關注力是稀缺的,可變的就是其在信息資源上的分配和流動.在這種思路下,互聯網可以被看作是一個人類集體關注力在信息資源之間分配和流動的網絡,即關注力流網絡.關注力流按生成內容可分為:1)UGC(user generated content)用戶生成內容,生成網狀關注力流;2)non-UGC網站生成內容,生成樹狀關注力流.無論是樹形結構還是網狀結構,如果計算互聯網用戶關注力的分布,最后都會得到長尾分布[5-6].如圖1所示,消費者的關注力在不同的區域相差很大,關注力集中的程度隨著顏色的加深而增加.

圖1 關注力區域的分布Fig.1 Distribution area of attention
1998 年 Watts[7]和 Strogatz[8]提出了小世界網絡模型.他們分析了具有“小世界特征”的社會網絡的演化過程,對小世界網絡的聚類系數和最短路長度等進行了探討,發現小世界網絡模型的聚類系數比隨機圖模型要大得多,同時具有較小的平均最短路長度.2013 年 Barabasi[9]研究表明,目前互聯網大約有1萬億個文件,包括140億個頁面及其附帶的圖片、視頻和其他文件,但其中絕大多數與其他頁面或文件之間的聯系并不緊密,而互聯網中搜索引擎、門戶網站等少數網頁(主導節點)具有非常大的鏈接數.這些少數主導節點成為整個互聯網相互聯系的橋梁,從而使得用戶最多只需19次點擊即可到達任何一個網頁.Barabasi認為,互聯網的這種“小世界”特性源于人性,即無論是在現實生活還是虛擬世界中,人類都喜歡群居.Barabasi從多種水平對網絡進行了分析后發現,無論規模有多大,“19次點擊”的規則仍然適用于互聯網.
根據2011年底的CNNIC數據[10],我國互聯網用戶平均每周上網時間為18 h,平均每天上網時間為2.67 h,互聯網用戶在信息生產、交易和消費的所有環節都留下了數據記錄,而且90%的互聯網用戶僅僅訪問網站,從不貢獻內容,9%的互聯網用戶偶爾參與,只有1%的互聯網用戶生產絕大多數內容,因此用戶關注力相對于信息量來說是稀缺、可跟蹤、可分析的.
本文中把互聯網用戶的關注力定義為關注某網站、同時忽略其他網站的選擇性關注.一個互聯網用戶的關注力X取決于網站內容n,并隨著網站內容n 線性變化,如式(1)所示[11].

式中:a是正的常量系數,Y是均值為1的噪聲.
如果互聯網用戶的關注力超過了閾值θ,那么互聯網用戶將繼續關注該網站,θ為反映互聯網用戶個性化喜好的閾值,與網站內容給互聯網用戶帶來的愉悅感、理想主義、歸屬感、增進自己的社會地位等因素相關.如果互聯網用戶的關注力小于θ,則互聯網用戶的關注力轉移到其他網站,其概率Pn如式(2)所示.
其中mA、mB代表兩個是三角形的頂點,PA、PB代表兩者的質心位置,min(mB-mA)·(PB-PA)指兩者頂點相距最小值在相對位置上的投影‖dt·(PB-PA)指兩者速度在相對位置上的投影。作為碰撞檢測時間范圍的回退信息處理,返回每一個回退點的位置信息和三角形面片信息,遍歷完所有的碰撞集合,分析比較每個相交信息中的碰撞檢測時間集合,最小值為該次檢測時間段內的碰撞檢測時間,記為tc。

式中:aY/θ的累積分布函數為F,則網站最終獲得的關注力如式(3)所示:

式中:F'(0)為一常數.
通過簡化和省略高次項后,式(3)可重寫為

取極限則可得式(4):

根據式(4)可得:

式中:Pn滿足長尾分布,可得:

式中:k>1,生成內容越多,互聯網用戶的關注力轉移到其他網站的概率越低.用戶關注力轉移網絡如圖2所示.

圖2 關注力轉移網絡Fig.2 Network of transporting attention
圖2中實線圓環代表網站1到網站5,邊代表用戶關注力流,箭頭指向代表關注力流動方向,邊的權重(邊上的數字)為從某網站轉移到另一網站的人數,其轉移矩陣為

用戶的關注力在網絡上流動,由于關注力的守恒性,在模型中加入虛線圓環代表源節點和宿節點,使每個節點的關注力的進出相等,其用戶轉移矩陣擴充為

設mij為用戶關注力由i站點流向j站點的概率,

式中:Xij為由i站點轉移到j站點的用戶關注力,在本文中簡化為轉移人數,可得轉移概率矩陣:

網站i的流量Ai為


圖2對應的uij為

以圖2網絡為例,運算結果如圖3所示,圖中黑點為節點2的流量A2=60,關注力G2=125,通過最小二乘法獲得γ=1.45>1.

圖3 運算結果Fig.3 Operation results
實驗用到的數據是通過使用一個Python語言編寫的網絡爬蟲程序,從谷歌廣告計劃(Google ad planner)[12]上獲得世界排名前1 000的網站名單,使用Alexa分析這些網站間的關注流并構建網絡,調用AlchemyAPI偵測網站類型.通過該方法獲得的數據集比通過其他方法獲得的數據集更稠密,如圖4 所示[12].

圖4 相關數據Fig.4 Related data
圖5展示了世界流量排名前1 000的網站構成的“關注力流”網絡,其中圓形點代表網站,點的大小反映了取對數值后網站的日流量,點到中心的距離代表關注力的大小,即越靠近中心,則該點代表的網站受到的關注力越大.灰色圓形點表示Web 2.0站點,黑色圓形點表示Web 1.0站點.箭頭表示用戶的“關注力”在網站間的流動方向,一共12 888條,從圖5可知,Web 2.0站點更受關注.

圖5 世界流量排名前1 000的網站構成的“關注力流”網絡Fig.5 Attention network of the 1 000 most-visited sites on the web
如圖6所示,橫軸是取對數值后的網站流量Ai,縱軸為取對數值后的關注力Gi,γ=0.92,γ小于1表明用戶對網站的關注力增長小于流量增長,存在著“規模不經濟”的現象.

圖6 世界流量排名前1 000的網站流量分布Fig.6 Attention stream of the 1 000 most-visited sites on the web
從流量來源來看,如圖7所示,縱軸表示來源網站的類型,分別是廣告網絡(Ad network)、垂直網絡(vertical niche)、門戶網站(portal)、搜索引擎(search engine)、廣告聯盟(affiliate network);橫軸表示某個流量來源關注力的變動比例.黑色條塊越往右表示某種流量來源關注力的提升,反之則表示關注力越低,黑色條塊中的白線表示中位數.從圖7中可以看出,搜索引擎和廣告聯盟所受的關注力較低,而廣告網絡和垂直網絡則較高.

圖7 流量來源分析Fig.7 Source analysis of stream
社會網絡的快速發展帶來了理論研究和實際應用上的巨大挑戰,數據產生、組織和流通方式產生了革命性的變化,這些數據背后潛藏著巨大的商業機會.本文針對互聯網的新發展,通過搜集互聯網用戶行為數據,推導了基于互聯網的關注力動力模型,并通過實驗進行了驗證分析.本文作為一個探索性工作,初步勾勒了全球互聯網用戶“關注力流”的概貌,為更深入地探討“虛擬經濟”奠定了基礎.
[1]蘇萌,柏林森,周濤.個性化:商業的未來[M].北京:機械工業出版社,2012:1-20.
[2]PAN W,AHARONYM N,PENTLAND A S.Composite social network for predicting mobile apps installation[C]//Proceedings of the 25th AAAI Conference on Artificial Intelligence.Cambridge,USA,2011:821-827.
[3]ZHANG C J,ZENG A.Behavior patterns of online users and the effect on information filtering[J].Physica A,2012,391:1822-1830.
[4]GUO S,WANG M,LESKOVEC J.The role of social networks in online shopping:information passing,price of trust,and consumer choice[C]//Proceedings of the 12th ACM Conference on Electronic Commerce.New York,USA,2011:157-166.
[5]HUBERMAN A,PIROLLI P L,PITKOW J E,et al.Strong regularities in world wide web surfing[J].Science,1998,280(5360):95-96.
[6]DENNIS M.WILKINSON.Strong regularities in online peer production[C]//Proceedings of the 9th ACM Conference on Electronic Commerce.Chicago,USA,2008:302-309.
[7]WATTS D.Network,dynamics,and the small-world phenomenon[J].Sociol,1999,105:2063-2064.
[8]STROGATZ S.The emerging science of spontaneous order[M].New York,USA:Hyperion press,2003:312-319.
[9]BARABASI A L.Network science[J].Philosophical Transactions of the Royal Society A,2013,371:1471-2962.
[10]孟凡新.互聯網時代的眼球經濟:中國網民注意力聚焦何處?[EB/OL].[2012-10-25].http://www.cnnic.cn/research/fxszl/fxswz/201207/t20120719_32346.html.
[11]ROBERTS J,HANN I H,SLAUGHTER S.Understanding the motivations,participation and performance of open source software developers:a longitudinal study of the apache projects[J].Management Science,2006,52(7):984-999.
[12]Google.The 1000 most-visited sites on the web[EB/OL].[2012-10-25].http://www.google.com/adplanner/static/top1000.