單曙兵 戴炳榮
(1.中匯信息技術(shù)(上海)有限公司 上海市 201203 2.上海計(jì)算機(jī)軟件技術(shù)開發(fā)中心 上海市 201112)
線性預(yù)測是一種常用的預(yù)測方法,它主要考慮自變量和因變量之間的線性變化,由于其可解釋性較強(qiáng),對許多預(yù)測問題有著較好的準(zhǔn)確性[1]。王茜基于線性預(yù)測的原理提出了連續(xù)四點(diǎn)線性預(yù)測模型的頻率估計(jì)算法,以及基于單位約束最小二乘的任意時(shí)間間隔的線性預(yù)測模型的頻率估計(jì)算法,通過實(shí)驗(yàn)分析,提出的算法擁有更高的預(yù)測精度[2]。田金鵬等提出了一種基于自適應(yīng)線性預(yù)測的卡爾曼濾波恢復(fù)算法,基于前后窗信號(hào)之間的相關(guān)性并利用自適應(yīng)線性預(yù)測方法,建立前后窗口信號(hào)的狀態(tài)轉(zhuǎn)移方程,與修正后的觀測方程共同構(gòu)成系統(tǒng)狀態(tài)空間模型,算法擁有更高的精確度和抗噪性能[3]。樊學(xué)平等基于趨勢性和隨機(jī)性的解耦極值應(yīng)力時(shí)間序列數(shù)據(jù),通過動(dòng)態(tài)耦合性線性模型的概率遞推,實(shí)現(xiàn)橋梁極值應(yīng)力的動(dòng)態(tài)預(yù)測[4]。陳治國等采用不同長度的數(shù)據(jù)樣本建立預(yù)測模型,分析數(shù)據(jù)樣本長度和預(yù)測階數(shù)對預(yù)測結(jié)果的影響,進(jìn)而引入基于順序迭代法的數(shù)據(jù)調(diào)整機(jī)制,提高模型系數(shù)計(jì)算的準(zhǔn)確性,并通過正交函數(shù)和最小均方誤差求解線性預(yù)測系數(shù)[5]。段華瓊等提出多個(gè)不同尺度的線性模型來組合預(yù)測網(wǎng)絡(luò)數(shù)據(jù)流量[6]。上述線性模型雖然解決一定場景的預(yù)測問題,但是仍然面臨兩個(gè)挑戰(zhàn):一是線性模型的各個(gè)影響因素在預(yù)測中,沒有考慮到因素間相互作用的問題,而是假設(shè)各個(gè)因素是獨(dú)立的;二是線性模型的預(yù)測準(zhǔn)確性有待進(jìn)一步提升。但是線性模型本身存在可解釋性強(qiáng),便于建模的優(yōu)勢,因此針對上述挑戰(zhàn),本文提出一種基于引力模型的線性預(yù)測算法。
引力模型可以表達(dá)因素間的相互關(guān)系,并且適用的場景更為廣泛。何蓉蓉基于歷史旅游客流量和影響因素,通過引力模型對未來的旅游客流量進(jìn)行了預(yù)測[7]。Sayed 等通過引力模型預(yù)測了孟加拉國首都達(dá)卡市的交通用堵情況[8]。Kristin 等開發(fā)了引力模型,以根據(jù)社會(huì)經(jīng)濟(jì)因素預(yù)測全球4435 個(gè)定居點(diǎn)之間2042年的城市間航空乘客需求[9]。Ramos 等分析過去1960年至2010年之間27 個(gè)國家/地區(qū)的移民流動(dòng),并使用引力模型預(yù)測歐盟和歐盟鄰國雙邊移民關(guān)系的未來趨勢[10]。因此,基于引力模型優(yōu)勢,本文提出了一種基于引力模型的線性預(yù)測算法GP,用來預(yù)測平臺(tái)流量。本文第2 節(jié)介紹GP 算法,第三節(jié)對GP 算法預(yù)測的結(jié)果與其他常見線性模型進(jìn)行對比分析。最后是全文的總結(jié)。

表1:常見的3 個(gè)預(yù)測模型

表2:實(shí)驗(yàn)中的訓(xùn)練集和測試集比例

表 3:GP 和其它3 個(gè)線性模型的方差
由于引力模型適合解決各個(gè)因素之間有影響關(guān)系的預(yù)測問題,具有良好的擴(kuò)展性,只需要適當(dāng)調(diào)整參數(shù)和變量即可[11][12]。 因此可以修改引力模型,例如貿(mào)易引力模型,用于預(yù)測平臺(tái)流量。

公式(1)是用于預(yù)測的貿(mào)易引力模型兩個(gè)區(qū)域之間的進(jìn)口量[13]。參數(shù)在公式(1)中的是:
· y:進(jìn)口數(shù)量,
· x:可能影響貿(mào)易的影響因素,例如GDP,
· Z:特殊事件因素,例如交易數(shù)量
兩個(gè)地區(qū)的天數(shù)或資費(fèi)天數(shù)增加,
· d:兩個(gè)區(qū)域之間的距離,
· a 和b:系數(shù)。
平臺(tái)網(wǎng)絡(luò)流量受到許多因素影響,以及一段時(shí)間內(nèi)的平臺(tái)流量時(shí)間的差異中可以得出在兩個(gè)時(shí)間點(diǎn)。如果將不同的時(shí)間點(diǎn)視為時(shí)間上的不同“位置”,以及平臺(tái)流量被視為一種流的變化,上述差異反映不同位置之間的流量變化。因此,可以通過引力模型確定平臺(tái)網(wǎng)絡(luò)流量,即等式(1)進(jìn)行適當(dāng)?shù)男薷摹?/p>

公式(2)中表示了網(wǎng)絡(luò)流量引力模型關(guān)聯(lián)的參數(shù)如下:
· E:平臺(tái)流量,
· x:影響平臺(tái)流量的影響因素,例如平均會(huì)話時(shí)間,
· Z:特殊事件因素,例如平臺(tái)推出活動(dòng)天數(shù)等
· n:因素?cái)?shù)

圖1:GP 與基準(zhǔn)模型準(zhǔn)確度對比

圖2:GP 模型與其它模型的可擴(kuò)展性驗(yàn)證
· m:特殊事件的數(shù)量,
· a,b,c:系數(shù)
· d:兩個(gè)時(shí)間點(diǎn)之間的持續(xù)時(shí)間(小時(shí))
公式(2)表示的流量會(huì)隨影響因素而變化,并且所占比例這些變化可能有所不同。 如果E 的分散隨著增加(減少)逐漸增加(減少),則收集的數(shù)據(jù)是異方差的[14]。 為了檢測收集到的異方差數(shù)據(jù)集,本文提取了一個(gè)子集,其中包括8月31 天的744 小時(shí)的平均會(huì)話時(shí)間和流量。為便于觀察,本文對744 小時(shí)進(jìn)行了排序平均會(huì)話時(shí)間和流量數(shù)據(jù)將相應(yīng)地重新排序。 隨著平均會(huì)話時(shí)間的提升從平均22 分鐘到30 分鐘,流量的分散度逐漸增加。當(dāng)平均會(huì)話時(shí)間上升時(shí)(從33 分鐘或更多時(shí)間),流量分散迅速減少。 這充分說明了收集的數(shù)據(jù)是異方差的,而異方差數(shù)據(jù)會(huì)導(dǎo)致預(yù)測準(zhǔn)確性下降。針對這個(gè)問題,對數(shù)變換是降低異方差的有效手段之一[15]。 所以,為了減輕數(shù)據(jù)集中的異方差效應(yīng),本文在等式(2)的兩邊取對數(shù),獲得對數(shù)平臺(tái)流量引力模型如公式(3)所示,稱為GP。公式(3)中的參數(shù)含義與公式(2)中的相同,并且影響因素是退出率、點(diǎn)擊密度、平均會(huì)話時(shí)間,假設(shè)沒有發(fā)生特殊事件,替代將這些相關(guān)的影響因素輸入公式(3),本文將得到公式(4)。在公式(4)中,xt,xh和xs為退出率、點(diǎn)擊密度、平均會(huì)話時(shí)間。 是一個(gè)常數(shù)。


本文收集了一年的平臺(tái)訪問流量數(shù)據(jù)。對于平臺(tái)來說,退出率、點(diǎn)擊密度、平均會(huì)話時(shí)間是影響平臺(tái)流量的主要因素,因?yàn)樗鼤?huì)影響平臺(tái)的流量。因此,本文獲得了同一時(shí)間段內(nèi)的退出率、點(diǎn)擊密度、平均會(huì)話。為了解決這些數(shù)據(jù)集中的不同測量單位,請進(jìn)行歸一化被使用。然后將預(yù)處理的數(shù)據(jù)集分為訓(xùn)練和測試集。
為了評估預(yù)測結(jié)果的質(zhì)量,本文利用等式(5)所示的MAPE(平均絕對百分比誤差)[16],其中At 為實(shí)際值,F(xiàn)t 為預(yù)測值。

在計(jì)算實(shí)驗(yàn)中,本文采用3 種常用的預(yù)測模型(如表1 所示)作為基準(zhǔn)。這些模型的某些應(yīng)用可以在文獻(xiàn)17 中找到。它們代表常見的線性預(yù)測的模型,包括普通最小二乘回歸,貝葉斯嶺回歸,隨機(jī)梯度下降回歸[17]。
使用提出的GP 模型和表1 的3 個(gè)模型預(yù)測平臺(tái)訪問流量,現(xiàn)已有1年的平臺(tái)流量數(shù)據(jù),并得知因素退出率、點(diǎn)擊密度、平均會(huì)話時(shí)間影響平臺(tái)的訪問流量,并將上述數(shù)據(jù)劃分為如表2 所示的訓(xùn)練集和測試集進(jìn)行實(shí)驗(yàn),在實(shí)驗(yàn)中,訓(xùn)練集從90%逐步減少到60%,測試集從10%逐漸增加到40%。其預(yù)測結(jié)果如圖1 所示。
從圖2 中可以看出,隨著訓(xùn)練集的減少,各個(gè)模型的預(yù)測精度逐漸降低。GP 模型的預(yù)測精度在4 個(gè)實(shí)驗(yàn)中的3 個(gè)實(shí)驗(yàn)都是最好的。雖然在訓(xùn)練集90%時(shí)預(yù)測精度并非第一,但與精度第二名OLSR相差并不很多,僅為不到0.3%的差異。并且隨著訓(xùn)練集的減少,其預(yù)測精度下降最少。SGDR 與BRR 的準(zhǔn)確性接近,并且都略遜于OLSR。
此外,本文還使用方差來評估所有模型的預(yù)測結(jié)果,這可以說明預(yù)測結(jié)果的穩(wěn)定性。表3 顯示了GP 與其它3 個(gè)基準(zhǔn)的預(yù)測結(jié)果的平均方差。GP 在方差方面表現(xiàn)最佳,這表明GP 不僅具有較好的精確性,還具有很好的穩(wěn)定性。
本文第三節(jié)使用了MAPE 和方差來評價(jià)GP 和其它三種模型,從而得知GP 在預(yù)測精度和穩(wěn)定性方面表現(xiàn)最好。但是否可以推廣,泛化性是評價(jià)這種能力的指標(biāo)。因此本節(jié)使用另一個(gè)平臺(tái)的歷史流量數(shù)據(jù)以及相同的指標(biāo)即退出率、點(diǎn)擊密度、平均會(huì)話時(shí)間來評價(jià)GP 模型的泛化性。
從圖2 中可以看出,隨著訓(xùn)練集的減少,各個(gè)模型的預(yù)測精確度逐漸降低。但是GP 模型較其它3 個(gè)線性模型依舊表現(xiàn)很好,當(dāng)訓(xùn)練集逐漸減少后,盡管預(yù)測精度也是逐漸減低狀態(tài),但卻是各個(gè)實(shí)驗(yàn)中預(yù)測效果最好的。這說明GP 模型更具有更好的準(zhǔn)確性。
本文針對傳統(tǒng)線性模型的缺點(diǎn)即影響因素必須互相獨(dú)立,無法考慮因素間的互相影響,而引入了一種引力模型,并通過修改模型因子來實(shí)現(xiàn)線性引力模型的預(yù)測。提出的全新線性引力模型GP 可以將因素之間的互相影響關(guān)系代入到預(yù)測模型中,從而提升預(yù)測的準(zhǔn)確性。從實(shí)驗(yàn)結(jié)果來看,GP 模型在準(zhǔn)確性、穩(wěn)定性和泛化性方面都優(yōu)于其它常見的線性模型。在未來的研究中,為了充分驗(yàn)證GP 模型在上述準(zhǔn)確性、穩(wěn)定性和泛化性方面的優(yōu)勢,會(huì)引入更多的影響因子,并增加更多種類的平臺(tái)的數(shù)據(jù)量。