趙禮強,姜 崇,靖 可
(沈陽航空航天大學 經濟與管理學院,遼寧 沈陽 110000)
隨著網絡信息的海量爆發,受限于互聯網服務器本身網絡帶寬處理能力,面對海量信息傳輸與分享,需要多次網絡轉發,導致傳輸延時高且不穩定,降低響應速度。內容分發網絡(content delivery network,CDN)就是為了有效解決此類問題,在現有的互聯網基礎上通過放置節點服務器于網絡各處,從而構成一層智能虛擬網絡架構。CDN系統通過分布式緩存/復制、負載均衡、流量控制及客戶端重定向等技術[1],當用戶對業務內容發起請求時,將請求重新導向距離用戶最近的服務節點上,更快、更精準地觸發信息和觸達每一位用戶,為用戶帶來更優越的使用體驗。CDN在保障信息連續性的前提下,盡可能減少資源的轉發、傳輸、鏈路抖動等操作,有效解決網絡傳輸擁堵和用戶訪問延遲的問題,在流媒體與動態內容傳輸方面得到了廣泛應用。
當對CDN進行內容副本部署時,過多的副本部署會增大空間占有率,降低空間有效利用率,過少的部署則會降低服務質量。只有部署流行度更高的內容副本時,才能提高系統效率[2]。內容副本部署策略不佳而進行的后期服務器調整會增加I/O負擔,耗費周期長,缺乏經濟性[3]。因此合理優化內容副本部署策略是實現CDN優質服務的前提[4]。從用戶角度分析內容接收者的特征規律是一種優化內容部署策略的研究思路。例如,借助信任度將信任機制引入對用戶的內容推送模型中,實現推策略[5]。以往的研究多是從用戶興趣的角度出發,將用戶興趣與內容內外部流行度結合,對用戶群體有針對性地進行推送服務[6]。相關研究采用聚類的方式挖掘用戶之間的關系,向用戶推送相似內容[7],或通過挖掘節點隨機運動中隱藏的用戶社交特征和興趣特征,結合信息需求量,實現最大效用的內容推送[8]。這種基于用戶興趣來挖掘用戶關系和相似性從而實現內容推送的策略在微博的內容部署[9]和新聞內容部署[10]中都得到了應用。
在流媒體服務器的內容分發策略部署中,針對視頻持續時間長、文件大等特點,芮蘭蘭等人[11]結合內容流行度和節點中心度的緩存策略解決了緩存冗余的問題,合理分配資源,提高了整體效用。但研究的重點集中在緩存的技術層面,對內容流行度的判別及與排名匹配標準的研究不足。熊慶昌等人通過研究用戶訪問規律,根據內容內外部流行度的分布情況而提出影片生存期的緩存技術,對內容分發策略的部署具有很好的參考價值[12];在楊傳棟等人的研究中同樣指出,由于流媒體內部流行度差距巨大,而提出采用不同的分段方法對流行度不同的內容進行部分推送策略[13]。綜上可以發現,雖然對用戶興趣研究的角度不同,但最終落腳點依舊是內容的流行度,說明內容的流行度才是內容分發部署策略的關鍵。一方面,推技術雖然更適合內容請求集中的多媒體熱度內容,但由于缺乏對內容的預測機制,當用戶請求沒有被預分發內容命中,請求遠端源服務器時產生的網絡堵塞現象勢必會對用戶體驗造成負面影響[14]。另一方面,雖然流媒體服務器的研究對網絡小說服務器的內容分發有啟示作用,但針對流媒體持續時間長、文件大等特點提出的緩存策略并不適用于網絡小說。因此,從網絡小說熱度作為切入點研究內容分發策略就顯得更加適用和重要。目前通過結合微博[15]與網絡搜索[16]對電影票房和電視劇點播量進行預測,并挖掘票房和點播量影響因素的研究較多,但針對網絡小說熱度的研究以定性研究為主,缺乏科學的熱度評價標準,更缺乏針對網絡小說服務器內容分發策略而對網絡小說熱度進行預測的研究。
本文通過定義網絡小說熱度概念,建立網絡小說熱度評價標準,采用分類算法對網絡小說熱度進行預測,旨在為高熱度網絡小說副本以合理優化的策略部署到CDN系統中提供依據[17],減少后期對內容副本的調整,減輕I/O負擔,降低訪問延遲,提高CDN系統服務質量。
起點中文網隸屬于國內最大的數字內容綜合平臺——閱文集團,是國內最大文學閱讀與寫作平臺之一,也是目前國內領先的原創文學門戶網站,樹立了行業領導地位,具有很高的影響力。
起點中文網包含大量擁有龐大閱讀基群的優質網絡小說,又囊括了眾多處在成長期的新生網絡小說,個例樣本鮮明,整體樣本題材豐富,使數據更全面充分,因此本文選擇起點中文網作為數據來源。
本文選擇起點中文網作為網絡小說數據獲取源網站,采用八爪魚數據采集器作為數據采集工具。起點中文網網絡小說頁面的數據主要分為兩種,一種是不進行周期清零,從網絡小說創作開始,數據值隨著每天的增長而不斷的累積,如總點擊量、總推薦量等特征。另一種是積累一定周期后清零,新周期內重新統計的數據。如月票數以月為周期,月統計數據在月末清零,周打賞人數、周會員點擊、周推薦量等特征則是以周為周期,周統計數據在每周末清零。
針對起點中文網的這一規律,本文選擇2017年6月30日作為采集數據的時間節點對網絡小說頁面數據進行抓取,旨在得到六月份網絡小說月票的月統計數,同時該時間節點恰好作為六月份最后一周的周末,從而得到周打賞人數、周會員點擊、周推薦等特征的周統計數據。當一部網絡小說進入成熟期時,粉絲群體相對穩定,周期數據增長量應當保持相對穩定,而能夠保持穩定增長的網絡小說熱度更持久,在網絡分發內容策略中需要被替換的概率更低。由于本文對網絡小說熱度的預測是一個狀態預測,因此選用結合歷史累積的數據特征和能反映常態的周期統計數據特征作為網絡小說抓取的對象,因為不考慮特定時間段而抓取的數據更能真實反映日常網絡小說的熱度情況。對起點中文網原創風云榜的501部網絡小說排名信息及網頁數據進行抓取,作為網絡小說熱度預測的初始知識庫。同時抓取5 649部有人氣排名但缺乏熱度評價的網絡小說作為熱度預測數據庫。
網絡小說作為文學作品,具有文學價值但難以衡量轉化為數值信息的特征,因此很難通過網絡小說本身的內容分析而獲得量化信息。但通過讀者對網絡小說點擊量、推薦量、打賞、評論等特征以及作者創作網絡小說的相關信息則可以從側面反映網絡小說的受歡迎程度[18],即網絡小說的熱度。本文根據先驗知識與相關文獻參考,針對影響網絡小說熱度的特征在各個維度上進行選擇[19],具體變量選擇及數據描述如表1所示。

表1 變量定義與數據描述
續表

熱度是一個虛擬概念,也是一個綜合性的評價指標,用來衡量作品的受歡迎程度或銷售情況等。熱度概念在電影、電視劇的預測問題研究中較為普遍。電影熱度一般以票房作為表征進行分析預測,電視劇熱度一般以單集電視劇點播量作為表征進行分析預測。電影更傾向于一次性消費,通過設定票價與銷售票數的積累來獲得收益,電視劇則更傾向于一段時間內的持續消費,周期性播放的電視劇吸引的流量表現在點播量的積累上,從而獲得相應收益。比較之下,網絡小說則是綜合了電影、電視劇的雙重特點,同時具有區別于電影和電視劇的特殊特征。
一方面,當網絡小說達到上架要求,從章節免費閱讀升級為章節VIP閱讀后,將會對網絡小說每一章節進行定價銷售,通過點擊量和單章節的定價來獲得當天網絡小說更新章節的銷售收益。因此,某一天某一章節的故事情節決定了當天章節銷售收益的高低,這一點與電影票房的概念相似。另一方面,網絡小說的章節更新周期是以日為單位,且一本網絡小說的完本一般需要持續更新至少一年以上,是一個持續性的消費,每天的點擊量積累形成總點擊量,大量的點擊代表網絡小說吸引的人氣和閱讀基礎,這一點與電視劇的點播量概念相似。最后,網絡小說擁有顯著區別于電影、電視劇的打賞投票機制。讀者可以根據個人意愿,以打賞、投月票、投推薦票的方式表達個人對網絡小說的喜愛和支持,打賞與月票的收益是與章節銷售收益獨立區分的收益。值得一提的是,雖然屬于個別現象,但不可否認個別網絡小說存在刷票、刷點擊的行為,造成諸如點擊量數據極高、推薦票等其他變量數據極低的畸形現象,如果單一從點擊量或其他某個單一變量來反映熱度概念,將不可避免受到人為或其他外部因素的干擾。
綜合上述分析,本文認為用單一維度來衡量網絡小說熱度缺乏足夠的信服力,具有片面性。因此本文結合相關文獻以及網絡小說本身的特點進行了變量選擇,綜合定義網絡小說熱度,具體如下:
(1) 閱讀基群維度。由總點擊量、總推薦量、周會員點擊量構成。點擊量和推薦量能夠直觀反映網絡小說的讀者總基群,周會員點擊量則反映一周內選擇VIP閱讀的讀者基群。
(2) 閱讀收益維度。由月票、周打賞人數和周推薦票數構成。起點中文網采用周清和月清兩種方式更新網絡小說數據,月票每月月末統計清零,周打賞人數和周推薦票數每周周末統計清零。由于打賞和月票收益與章節銷售獨立區別,閱讀收益反映的是讀者在購閱章節之后對網絡小說的額外支持度。
(3) 閱讀討論維度。閱讀討論數的多少反映的是讀者在閱讀網絡小說后的感受反饋,也影響著新讀者選擇閱讀的意向。閱讀討論維度體現了網絡小說的話題討論參與熱度。
本文根據原創風云榜501部排名網絡小說建立初始知識庫,采用1~4分評分制對每一部網絡小說(P)在選擇的維度(N、S、D)上進行熱度評分,加和得到每一部小說的綜合熱度評分HP。使用符號來標注信息:
(1) 閱讀基群(N)、總點擊量(N1)、總推薦量(N2)、周會員點擊量(N3),i取值范圍為1,2,3。網絡小說(P)的閱讀基群熱度評分,如式(1)所示。

(1)
(2) 閱讀收益(S)、月票(S1)、周打賞人數(S2)、周推薦票(S3),j取值范圍為1,2,3。網絡小說(P)的閱讀收益熱度評分,如式(2)所示。

(2)
(3) 閱讀討論(D)。閱讀討論熱度評分,如式(3)所示。
H(DP)
(3)
(4) 熱度評分(H)。一部網絡小說的綜合熱度評分由三個維度的評分加和獲得,如式(4)所示。

(4)
熱度評分數量級如表2所示。

表2 熱度評分數量級
經過數據預處理及統計分析發現,初始知識庫中原創風云榜501部網絡小說的綜合熱度評分HP取值范圍為[7,28]。由于缺乏綜合熱度評分與熱度等級之間的對應關系,無法確定網絡小說熱度等級的取值規律。受到電影影片熱度通常符合Zipf分布的啟發[20],本文將501部網絡小說的人氣排名與綜合熱度評分分別采用傅里葉函數、有理函數、冪律分布、樣條插值平滑進行數據擬合。數據擬合分布圖如圖1~4所示。

圖1 傅里葉數據擬合圖像

圖2 有理函數數據擬合圖像

圖3 樣條插值平滑數據擬合圖像

圖4 冪律分布數據擬合圖像
冪律分布函數為,如式(5)所示。
Y=cX-r
(5)
其中X,Y是正的隨機變量,c,r均為大于零的常數。
對比四種數據擬合圖像,樣條插值平滑數據擬合存在過擬合現象,偏差較大,不予考慮。比較有理函數數據擬合和傅里葉數據擬合,冪律分布數據擬合效果更優。同時冪律分布數據擬合中確定系數為0.692 2(確定系數R-square,該值越接近1代表擬合程度越好),傅里葉數據擬合確定系數為0.405,有理函數數據擬合確定系數為0.426 6。
根據數據擬合顯示,網絡小說綜合熱度評分與人氣排名的數據分布符合冪律分布,滿足帕累托定則,說明網絡小說80%的人氣集中在20%的熱度網絡小說之上,這一點符合當前網絡小說的現實認知。
根據數據擬合挖掘出的數據分布規律,按照二八定律劃分網絡小說綜合熱度評分HP,將綜合熱度評分與冷、一般、熱、非常熱四級熱度等級對應。按照熱度評價標準,將抓取到5 649部只有人氣排名而沒有熱度評價的網絡小說進行分類。具體的熱度評價標準及網絡小說作品數的分類情況如表3所示。

表3 網絡小說熱度評價標準
為了去除冗余特征,根據網絡小說的數據類型,使用對數據分布條件要求更寬松的Spearman秩相關系數來驗證熱度等級特征與其余特征之間的相關關系,Spearman秩相關系數公式,如式(6)所示。
(6)
其中N為樣本數,di=Xi-Yi。
將秩相關系數R的絕對值與Spearman秩相關系數統計表中的臨界值Wp進行比較,當|R|>Wp時則表明變化趨勢有顯著意義,當|R|<=Wp則表明變化趨勢沒有顯著意義。本文樣本數N為5649,數值較大,統計表中沒有給出具體WP,但是在同一顯著水平下,隨著樣本數的增大,臨界值減少。當n=30時,α=0.05的置信水平上,查表得:R=0.306。因此判斷,當R值高于0.306時,認為相關關系顯著。具體網絡小說熱度等級特征與其他特征秩相關系數見表4。

表4 熱度相關性斯皮爾曼秩相關系數表

續表
根據表4特征判斷結果,去除相關關系不顯著的特征,剩余與網絡小說熱度等級特征有顯著相關的特征共有12個,據此建立預測網絡小說熱度等級的數學模型。
(1) 單獨依靠熱度評價標準判斷熱度的滯后性。由于內容分發網絡的分發策略是以預分發在服務器上的內容來命中用戶對內容的請求,減少用戶因無法從邊緣網絡獲得內容而需要請求源服務器的情況,需要提前預見用戶可能訪問的內容并命中,同時進行熱度內容的推送。而在數據生成后的熱度評價將很難對預分發內容的部署提供參考和指導,同時也無法根據內容的熱度變化情況提前預見并及時調整分發策略。
(2) 通過預測機制的應用。首先,可以降低熱度評價標準中可能存在的人為因素影響。雖然人為刷票的行為在網站監督和個人自覺的情況下被禁止,但這種行為仍然不可避免。由于無法從數據中判斷熱度評價標準中選取的七個特征變量是否存在刷票行為,因此借助作者創作字數、連載狀態等更多維度的綜合衡量,可以有效識別網絡小說真實熱度等級。其次,本文構建熱度評價標準時對網絡小說熱度等級的分值對照是依照初始知識庫中501部網絡小說的數據擬合得到的,這個標準對5 649部網絡小說的適用情況是需要通過機器學習來進一步更新特征權重和規律來獲得更準確的預測模型。
因此,熱度評價標準是作為預測機制應用下的基礎構建,是為了實現對網絡小說熱度預測,從而為預分發內容的判斷進行的必要過程,對網絡小說內容分發策略的部署提供有效參考和指導。
鑒于以上分析,當新獲取網絡小說信息時,根據相關性檢驗,選取作者號召力、評論數、累計創作字數、連載狀態、月票數量、作者創作作品數、周推薦數、總點擊量、總推薦數、總字數、總打賞人數、會員周點擊數共12個特征對網絡小說熱度等級建立預測模型。
由于本文是針對網絡小說熱度四個等級進行預測,屬于分類預測,因此選擇貝葉斯網絡、邏輯回歸、隨機森林共三種典型分類算法。在WEKA數據挖掘平臺進行十折交叉驗證預測對比研究,旨在選擇更適用CDN的算法。[21]
貝葉斯網絡通過學習尋找最佳樹結構,可以用來表示和推理不確定條件,同時貝葉斯網絡在概括樸素貝葉斯分類器的概率分布效果很好,能清晰地反映獨立性,作為機器學習工具有很好的分類優勢[22]。基于貝葉斯網絡建立的網絡小說熱度預測模型如圖5所示。

圖5 貝葉斯網絡
在根據票房劃分成功電影的預測中,邏輯回歸有很好的應用[23],因此在這里選擇了邏輯回歸作為對比算法建立模型,邏輯回歸是一種廣義線性回歸,通過函數L將w*x+b對應一個隱狀態p,p=L(w*x+b),然后根據p與1-p的大小決定因變量的值。其本質是為了改變取值區間的矛盾和因變量、自變量之間關系而進行對數變換。實踐表明,變換后的因變量與自變量之間一般呈線性關系,從根本上是為解決因變量不是連續變量的約束問題。基于邏輯回歸建立的網絡小說熱度預測模型如表5所示。

表5 邏輯回歸模型
邏輯回歸模型中,Coefficients代表在Class分類下的變量對administration=1的系數。Odds Ratios代表在Class分類下的變量對administration=1的勝率。系數b與Odds Ratios的關系式,如式(7)所示。
Odds Ratios=eCoefficients
(7)
Class=1代表熱度等級為冷,Class=2代表熱度等級為一般,Class=3代表熱度等級為熱,其余樣本認為熱度等級為非常熱。以Total clicks變量Class=3的Odds Ratios的值為8.410 3為例解釋邏輯回歸模型: 在其余變量都相同的條件下,總點擊量每提高一個單位,網絡小說熱度分類為熱的幾率提高841.03%。說明在其他條件都相同的情況下,點擊量越多,網絡小說熱度等級越高,符合實際情況。通過對邏輯回歸模型的觀察可以發現,要判斷Class=3,即網絡小說熱度等級為熱時,影響熱度等級判斷的變量數比判斷Class=1和Class=2的變量數更多,說明判斷網絡小說熱度等級越高,需要考慮的變量越多,這與本文對熱度是一個綜合性指標的判斷相吻合。
隨機森林是結合Bagging方法和決策樹方法建立的多功能機器學習算法[24],在隨機森林中,不同于CART模型只生成唯一的樹,而是生成很多決策樹,當基于某種屬性對對象進行分類判別時,隨機森林中的每一棵決策樹都會做出自我的分類選擇,進行“投票”,輸出結果取決于投票結果,分類選項的票數多者勝出,輸出該分類選項。
隨機森林對變量(列)和數據(行)的隨機化使用可以避免過擬合現象,擁有較強的抗噪聲能力,無須對數據集進行規范化,可以大量處理高維數據,針對本文網絡小說擁有12個特征類型數據有著很好的降維效果,同時輸出相關屬性的重要程度。本文通過隨機森林算法建立了100棵決策樹模型,每一棵樹帶有四個隨機特征,oob錯誤率為0.029,由于隨機森林無法顯示全部決策樹,在此不以展示。
由于在這些特征中包括數值特征與布爾型特征,總點擊量和總推薦量等數值特征數值過大,會影響布爾型特征在模型中的權重比例,因此對數值較大的特征進行MathExpression-E(A-MIN)/(MAX-MIN)數據預處理,將數值轉化到0至1之間。通過貝葉斯網絡、Logistic回歸、隨機森林三種算法對抓取到的5 649部網絡小說數據的熱度預測結果顯示如表6所示。

表6 網絡小說熱度預測結果對比
對比預測結果可以看出,隨機森林算法在分類正確率及錯誤率上明顯優于貝葉斯網絡與邏輯回歸,其中Kappa檢驗是評價一致性的測量值,其大小是用一個由漸進及標準誤差構成的t統計量決定,當Kappa>0.75表示好的一致性(Kappa最大值為1),隨機森林算法的Kappa值達到0.952 2,說明兩次判斷的一致性很好。在其余誤差檢驗中,隨機森林算法都有著較好的顯示效果。
這樣的預測結果雖然讓人欣喜,但這個結果是否令人足夠信服?本文從隨機森林算法原理對預測結果進行分析判斷,認為這樣一個結果是科學可信的,依據有以下幾點。
(1) 隨機森林算法通過自助法(bootstrap)重采樣技術,使用決策樹作為弱學習器。從節點上所有的N個樣本特征中有放回地隨機選擇節點上的一部分樣本特征,這個數字小于N,假設為Nsub,生成多個決策樹組成隨機森林。這種有放回的隨機性選擇樣本的方法提高了模型的泛化能力,很好地降低了模型的方差。
(2) 隨機森林的模型輸出采用投票法,對每一棵決策樹的分類結果進行統計,得到最多票數的類別或類別之一作為最終模型輸出,由于每一棵決策樹的左右子樹劃分都是根據最優特征劃分,因此投票法輸出的結果更優,且在訓練后,可以給出各個特征對輸出的重要性。
(3) 由于在建立每一棵決策樹的過程中,訓練樣本的采集采用了有放回的隨機性采集,保證了隨機性的需求,因此就算沒有進行剪枝,也不會出現過擬合情況。
綜上所述,可以認為隨機森林算法對網絡小說的熱度預測結果是科學有效的。隨機森林算法對網絡小說熱度的預測結果相比Logistic回歸和貝葉斯網絡算法更優。
根據實驗結果,本文選擇分類正確率達到97.079 1%的隨機森林算法作為網絡小說熱度預測及探尋網絡小說在CDN中的分布方法。如表7所示,為隨機森林預測參數,其中TP Rate是真正率,代表被預測模型預測為正的正樣本,FP Rate是假正率,代表被預測模型預測為正的負樣本。分類器的分類效果越好,TP值越高,FP值越低。在四種熱度預測中,TP值均遠大于FP值,分類效果較好。將系統檢索到的相關文檔數為A,系統檢索到不相關文檔為B,相關但系統沒有檢索到的文檔為C,精度(Precision)=A/(A+B),召回率(Recall)=A/(A+C),F值(F-Measure)為精度與召回率的調和平均數。精度、召回率與F值是對分類器分類效果的度量值,值越大,代表結果質量越好,最高為1。
從表7中可以看出,三種衡量指標值均很高,說明采用隨機森林算法對網絡小說熱度進行預測結果較好。ROC曲線又稱為感受性曲線,它是一個綜合性指標,用于反映連續變量的敏感性和特異性,通過構圖顯示敏感性與特異性的相互關系。曲線下面積越大,代表準確性越高,在表7中,四種熱度預測的ROC曲線面積反映了建立模型的分類器的分類準確性較高。

表7 隨機森林分類參數
通過混淆矩陣可以更直觀地看出隨機森林分類器對5 649部網絡小說的熱度分類情況,對角線代表分類正確的樣本,分類越集中在對角線,代表分類效果越好,具體的顯示結果如表8所示。

表8 網絡小說熱度預測混淆矩陣
預測模型對樣本的預測與樣本真實值匹配度高,分類效果好,具有很好的應用推廣性。
在CDN系統推(Push)策略中存在由于缺乏網絡小說熱度判斷科學標準,主要依靠管理員的主觀經驗判斷而存在預分發內容頻繁替換的現象。因此造成內容邊緣命中率低、用戶啟動延遲長、內容分發網絡服務器負擔重而嚴重影響服務質量的問題。基于上述問題,考慮到預分發內容的熱度是直接決定邊緣命中率和用戶啟動延遲的因素,同時考慮到流媒體服務器的緩存策略并不適用于網絡小說服務器的前提下,將研究重點放在對網絡小說熱度的準確預測和判斷的問題上,為預分發內容的策略部署提供有效的參考和指導。通過建立網絡小說熱度評價標準,采用分類算法對網絡小說進行熱度預測。對比貝葉斯網絡、Logistic回歸與隨機森林三種分類方法對網絡小說熱度預測結果,顯示隨機森林算法預測準確率達到97.079%,有很好的預測效果,更適用于CDN系統對網絡小說熱度的預測。結果表明,表征網絡小說熱度的變量選擇有很好的解釋性,借助本文建立的網絡小說熱度評價標準,采用隨機森林算法對網絡小說進行熱度預測,可以為管理員對預分發內容熱度的判斷提供科學有效的判斷依據,提前預判并及時調整最優部署策略,提高CDN系統服務質量與運作效率。