陳秋怡,崔妮,湯景泰
(1.暨南大學新聞與傳播學院,廣州 510632;2.暨南大學理工學院,廣州 510632;3.復旦大學新聞學院,上海 200433)
時間序列是一組按照時間發生先后順序進行排列的數據點序列。通常一組時間序列的時間間隔為一恒定值,因此時間序列可以作為離散時間數據進行分析處理。時間序列分析方法目前廣泛應用于涉及到時間數據測量的應用科學與工程學領域。傳播學中有關影響力(influence)與傳播效果(effect)的研究也早已涉及時間維度。許多經典理論,如涵化理論、議程設置、創新擴散等,也都將傳播看作一個動態過程。但是相較于對時間序列進行精細研究的學科,傳播學對于時間維度的研究,無論是在理論上還是在經驗上,并沒有取得很好的進展[1]。其中大部分研究缺乏對于時間因素的觀察,主要集中于變量之間即時的或短期的關系研究,沒有突破橫斷性研究的局限[1]。實際上,諸多傳播學研究都需要引入時間維度。例如,單變量序列隨著時間變化的模式是怎樣的?兩個或者多個時間序列之間存在什么關系?對于某變量的干預效果如何?這些問題都需要引入時間序列分析方法來展開研究[2]。
非參與式觀察、永遠在線、帶有時間戳的數字痕跡(digital trace)都很適合用于時間序列分析。這些數字痕跡以新聞報道、社交媒體文本、用戶響應行為等形式散布在互聯網與電子設備中,為研究傳播行為及其過程提供了機會[3]。預測趨勢是時間序列分析的基本應用。在實踐層面,時間序列預測具有很大的商業價值,可以有效推動業務規劃和生產活動,時間序列的預測方法也多源于經濟學。預測的基礎是回歸分析,探索一個(或多個)變量X解釋和預測另一個變量Y是最樸素的回歸分析(如公式(1),y是被預測變量,x是預測因子,β是回歸線的斜率,α是截距,?是隨機誤差)。選擇和擬合模型、利用各種方法和指標測試與評價模型,實際上也是建立并驗證科學理論的過程。在基于各種變量關系及其規律的研究方面,建立模型進行預測,基于預測結果改進模型,循環往復推動理論發展,從而實現研究閉環是基于數據/證據的研究最主要的目標。
在傳播研究中,預測法可以通過數據挖掘來發現時間序列所反映的傳播現象的發展過程和規律,并預測其發展趨勢。致力于預測的各種時間序列分析建模方法在傳媒經濟學相關的研究中比較常用。特別是在探討有關經濟新聞傳播效果的系列研究中,經濟新聞報道(如主題、議程[4][5]、框架[6]、基調[7][8]等內容變量)與經濟發展預期之間的關系備受關注。例如,有研究對經濟新聞進行內容分析,并結合全國月度消費者信息數據、經濟指標進行時間序列分析,證實新聞報道中的不確定性降低了消費者信心,助長了悲觀情緒[9]。還有研究進一步透視了經濟新聞報道基調對于讀者的閱讀興趣、讀者對國民經濟評價的影響[10]。另一部分研究則關注經濟新聞報道、公眾關注等因素對股票市場的影響[11][12]。例如,有研究利用向量自回歸模型分析了美國股票市場與經濟新聞之間的相互關系[13]。有研究結合議程設置理論,分析新聞媒體和公共議程對于企業財務績效的影響,發現媒體的關注度與公眾關注度會對企業的股票市場評級產生影響[14]。還有研究建立了向量自回歸模型,分析了荷蘭新聞報道的情感基調對于股票開盤價的影響,以及新聞中的情感詞匯對于股市走勢的預測作用[15]。
基于時間序列的預測研究主要有以下五個步驟。一是對問題進行準確定義。二是收集所需要的數據和信息。這兩步是前期研究設計的關鍵。三是需要進行數據的探索性分析,通過可視化時序數據觀察其是否存在確定的模式,如趨勢、季節性、周期等;探索可分析的變量間有無相關性、以及相關性有多大。對于非平穩時間序列,需要先進行平穩性處理,以避免產生虛假回歸(spurious regression)的問題[16]。例如,兩個呈現單調上升的時序盡管沒有任何關系,但也會產生很高的模型擬合度(如,R2很高),同時殘差的自相關性也很高。四是結合數據特征與分析目的選擇合適的模型,特別是了解模型的前提假設、參數的意義。例如,如果僅用時間序列的歷史值預測未來值,則是單變量時間序列預測(如公式(3),Yt+1是待預測的未來值,Yt…Yt-n是時間序列的歷史值)。最簡單的單變量預測方法就是利用(一定窗口長度的)歷史平均值、或者上一個歷史值來預測未來值。這是指數平滑模型(exponential smoothing methods)的方法[17]。如果時間序列非平穩但不具備季節性,可以考慮使用ARIMA模型,若具有明顯的季節性則可以考慮采用SARIMA模型。在SARIMA模型的基礎上中加入外部預測因子(即外生變量),則是SARIMAX模型。使用外生變量還需要知道該變量在預測期間的值。本文主要介紹常用的單變量序列分析方法ARIMA,以及考慮季節影響的SARIMA。單變量序列的分析方法往往只考慮了時序本身的趨勢和季節性因素,但沒有考慮其他外生的變量,而多變量時間序列預測還加入了外生的預測因子(如公式(4),分別加入了情感、主題、用戶類型等預測因子)。在多變量時序預測方面,本文將介紹動態回歸模型(dynamic regression models)的使用。

五是模型的預測與評價。首先,模型預測的關鍵之一在于選擇最佳的預測因子。這就需要通過赤池信息準則(Akaike's Information Criterion,AIC)、交叉驗證法(Cross Validation,CV)等指標選擇預測因子。其次,評價模型預測準確度的誤區之一是追求高R2。但實際上R2評價的是模型的擬合優度,模型的擬合優度并不代表預測的準測度,過高的擬合度可能意味著模型是過擬合的,反而不利于對未來值的預測。相對而言更可靠的方法是利用測試集數據測試預測效果。最后,線性回歸對于殘差有明確的假設:(1)零均值,以防止預測是系統性偏差;(2)非自相關,否則意味著還有可利用的相關信息沒有提取成功,預測可能是失敗的;(3)與預測因子無關,殘差是獨立的,否則意味著還有可以納入預測模型的信息沒有提取成功;(4)呈正態分布的方差恒定產生的預測區間才是可靠的。因此,對于基于線性關系的預測模型(ARIMA、SARIMA、動態回歸模型),在最后都需要檢查殘差的性質。本文將具體對比三種經典的時間序列預測模型,并分析它們在傳播學研究中的意義和價值。
在進行ARIMA預測之前,需要理解自回歸(autoregressive,AR)與移動平均(Moving Average,MA)的概念。在多元線性回歸中,研究者用不同的預測因子的線性組合去預測感興趣的變量,而時間序列的特殊性質在于其具有自相關性,研究者可以利用其過去值來預測未來值,自回歸則是變量對自身的回歸。換言之,研究者是利用同一變量的不同時刻的值來構建模型。p階的自回歸模型如公式(5)所示,其中β1…βp是估計系數,?t是白噪音序列(即隨機的殘差),α是一個常數。移動平均則是利用過去值的預測誤差構建模型,每一個Yt是過去幾次預測誤差的加權移動平均(公式6)。AR和MA是基于平穩序列的,因此系數β都有條件約束。

ARIMA(Autoregressive integrated moving average)模型,被稱為差分整合移動平均自回歸模型、整合移動平均自回歸模型、或求和移動平均自回歸模型。看名字的成分可以理解到,ARIMA其實結合了AR和MA,即用自身的過去值以及過去值的預測誤差來解釋給定的時序、預測未來值。因此,ARIMA本質上仍然是線性關系的擬合,而使用ARIMA之前,(非平穩)時序至少進行了一次差分使其平穩。非隨機白噪音、非季節性的時間序列可以考慮利用ARIMA建模。進行了一次差分的ARIMA模型可表達為以下方程式:

ARIMA有三個特征項:p,d,q。p是AR項的階數,即Y作為預測因子(即Yt-1到Yt-p)的滯后數;q則是MA項的階數,即納入模型的滯后預測誤差(即?t-1到?t-q)的數量,而d則是使時序變平穩所需的差分次數。ARIMA模型的三個特征項也可以幫助研究者理解時序存在的特征模式,分析具有相似時序特征的傳播行為(如表1所示)。

表1 ARIMA模型的特例
進行建模預測的關鍵之一是選擇預測因子,那么應該如何確定p,d,q的數值呢?
(1)如何確定階數
首先是確定d值,也就是使序列平穩所需的差分次數。需要注意不要過度差分,進而影響模型的參數選擇。例如,可以利用ADF(Augmented Dickey Fuller)或 KPSS(Kwiatkowski-Phillips-Schmidt-Shin)等方法來進行單位根檢驗。單位根的數量與所需要的差分的數量有關。本文使用“COVID-19”的谷歌檢索趨勢數據測試差分次數。具體而言,首先通過python包pytrends直接調取2019年12月1日到2021年3月6日期間“COVID-19”的谷歌檢索趨勢;接著,利用pmdarima包進行ADF檢驗,結果為1。因此,該時序數據需要進行一次差分處理使其平穩。
差分使時序變平穩后,時序的數值會在均值附近波動,且自相關函數(Autocorrelation Functions,ACF)圖的曲線迅速靠近零值。如果ACF的曲線在多個滯后上仍然是正的,則意味著還需要進行差分;但如果相關系數往負方向的絕對值過大,則可能過度差分了。借助ACF圖,研究者可以判斷d值。由圖1可知,經過一次差分之后,自相關函數圖中的絕對值已迅速靠近零值,所以d值為1更合適。MA是滯后預測的誤差,換言之從ACF圖可以判斷需要多少項MA能夠消除平穩序列中的任何自相關性。從圖1可知,一次差分之后就沒有滯后的系數超過顯著性極限,因此q值為0。

圖1 利用ACF函數判斷差分次數
偏自相關函數(partial autocorrelation functions,PACF)表示了序列與滯后之間的直接相關性。那么,從PACF圖可以判斷所需要的AR項(即所需要的滯后數)。從圖2的偏自相關圖可以發現前面并沒有滯后項超出顯著性極限,即滯后的相關性不強,用于預測效果可能不佳。因此,此時的P值為0。

圖2 利用PACF判斷所需的滯后數
綜上,本文可以得出 p,d,q的值分別是0,1,0。因此,適合示例數據的是ARIMA(0,1,0),這是一個隨機游走模型。
(2)如何訓練和評價模型
直接觀察特征具有較大的主觀性,一些評價模型預測準確度的指標可以幫助測試模型并選擇最佳的預測因子及其數量。
以普通的線性回歸模型為例,通常會利用CV、AIC、修正的赤池信息準則(Corrected Akaike's Information Criterion,AICc)、施瓦茨的貝葉斯信息準則(Schwarz's Bayesian Information Criterion,BIC)、調整的R方(adjusted R2)來評價預測的準確度[18]。R2用來評價模型對歷史數據的擬合程度,而不是對于未來數值預測的準確度。因為R2沒有考慮自由度,這會導致即使預測因子與被預測值的相關性很低,但增加預測因子的數量依然會使得R2變大。如果僅用R2判斷會導致模型過擬合,就應該使用調整的R方。類似的指標還有誤差平方和(Sum of Squares for Error,SSE)。尋求最大的R2相當于尋求最小的SSE,都會導致模型過擬合,而不是預測最準確。應該選擇CV最小的模型,即預測誤差平均值最小的模型。與CV思想相似的還有AIC,即用需要估計的參數的數量來懲罰模型的擬合,AIC最小的模型預測最佳。另一個相似的指標BIC比AIC進行了更嚴重的懲罰。但在觀測值數量小情況下,AIC存在導向預測因子較多的模型問題,AICc可以解決這一問題。相比較而言,調整的R方雖然使用廣泛但會導向預測因子數量更多的模型,而BIC則傾向于選擇更少的預測因子,可能會導致參數估計不準確。因此,更推薦使用AICc、AIC、或CV[18]。pmdarima包提供了auto_arima函數,可以逐步搜索p、d、q參數的多個組合,并選擇AIC最小的模型作為訓練的最佳模型。本文繼續使用相同的COVID-19谷歌檢索趨勢,對其依據AIC自動尋找最佳的ARIMA模型。其中參數設置為:利用ADF確定d值,p、q的最大值為3。
結果如圖3(a)所示,最佳的模型依然是ARIMA(0,1,0),其AIC值最小。檢查模型的殘差分布、自相關等性質,結果如圖3(b)顯示:標準殘差(standardized residual)靠近零均值,但存在一些極值;標準殘差的直方圖和估計密度(Histogram plus estimated density)顯示中心值為0,但標準分位圖(Normal Q-Q plot)中兩端數值分布偏離參考線,顯示數據比預期的正態分布有更多的極值;相關圖(Correlogram)顯示的值在零附近波動,殘差無自相關性。

圖3 ARIMA模型結果與殘差的性質
進一步將數據集劃分為訓練集和測試集,來檢查模型的預測準確度。如圖4所示,預測值與實際值走向一致,平均絕對百分比誤差(MAPE)約為0.27,即預測準確度約為73%。最后,對未來值進行預測(如圖5所示)。可以發現,隨機游走模型可對短期趨勢進行預測,但長期方差會越來越大,預測區間也會很大,對長期預測的準確性不高。

圖4 ARIMA預測值與現實值對比

圖5 ARIMA對未來值的預測
對于具有季節性的序列,ARIMA模型的預測效果并不好,需要使用季節性差分的SARIMA模型。該模型定義為SARIMA(p,d,q)x(P,D,Q),其中P是季節差分的AR階數、D是季節差分數,Q是季節差分的MA項的階數。pmdarima的auto_arima函數依據AIC選擇階數,構建SARIMA模型。本文直接調用了statsmodel包中的實驗數據“co2”,該數據集具有明顯的季節性;接著設置模型參數seasonal為True,設置頻率m為12(12個月),并設置季節差分階數D為1(模型結果如表2所示)。殘差結果如圖6所示,殘差在零均值附近波動,呈正態分布,沒有自相關性。預測結果和預測區間如圖7所示,預測結果符合季節性特點。

圖7 SARIMA預測結果

表2 SARIMA模型的系數
ARIMA模型、SARIMA模型納入了時間序列的歷史觀察值,但不包括其它可能相關的信息,特別是那些有助于解釋歷史變化的其它外生變量。相比較而言,一般的回歸模型可以包含與被預測變量相關的其它變量,但沒有引入時序動態。動態回歸模型(dynamic regression model)是ARIMA模型的擴展,結合了以上兩者的特點,在引入時序動態的同時考慮了相關的外生變量。
一般的時序回歸模型中的誤差項是隨機的白噪音,不具有自相關性,但動態回歸模型允許誤差項存在自相關。動態回歸模型中存在兩個殘差項,分別是回歸誤差(存在自相關性),以及ARIMA誤差(應該為白噪音)。在估計模型參數時,需要最小化誤差平方和,使得估計的系數及其檢驗是有效的。在對回歸模型進行參數估計之前,所有變量必須是平穩的,若存在非平穩序列應該對所有變量進行差分,然后再構建ARIMA誤差的回歸模型[18]。在具體操作上可以利用R的auto.arima函數,設置xreg的參數指定模型包含的預測變量,該函數會根據AICc最小原則選擇最佳的預測模型。
在進行預測時,需要將線性回歸和ARIMA模型兩個結果結合起來,才能得到最后的預測結果。在普通回歸模型中,要變量X預測變量Y,則先要預測X的未來值。X的未來值已知則很容易得到Y的預測值,但如果是未知的,則需要對X(或多個X)分別進行建模預測[18]。當數據存在明顯的季節性時,包含傅里葉項的諧波回歸方法表現會更好,該方法假設季節性是固定的。本文在利用auto.arima函數建模時,通過設置fourier的K值來逐步增加傅里葉項,并選擇最小的AICc值的模型進行預測。除了季節性影響,變量還可能存在滯后效應,一個變量對另一個變量的影響并不是立刻顯現的,而會滯后一段時間。對于這種情況,需要在模型中引入預測變量的滯后項來建模預測[18]。
在傳播學研究中,動態回歸模型有助于探究輿論演化的動態過程,特別是分析不同輿論主體間的聯系[19]、信息內蘊含的情感對于線下運動的影響等問題。例如,對虛假信息進行情感分析[20],獲取隨著時間變化的虛假信息情感序列,以及行動暴力程度的時間分布(數據預處理的詳細說明可參見文獻[20])。以虛假信息的情感序列為預測因子,進行動態回歸分析,結果如圖8所示:殘差不具備自相關性,而且厭惡(disgust)和恐懼(fear)的系數具有顯著性(P<0.05)。因此,虛假信息中的厭惡、恐懼情感可以作為預測暴力活動發生的變量。

圖8 動態回歸模型結果
綜上所述,引入時間序列分析方法能夠對所研究變量的動態變化、生成機制進行更好地理解與解釋,甚至還可以對時間序列的未來值進行預測。傳播是一個動態的過程,采用時序分析方法可以實現縱向研究的三個目標:特征描述、變量預測與因果分析。在三種不同的分析目標下,數據的采集、預處理以及統計與建模方法的選擇是不同的。本文具體研究了經典的時間序列預測方法在傳播學中的應用,包括ARIMA、SARIMA和動態回歸模型,并總結了實現預測分析的基礎過程與原則。ARIMA模型用于單變量非平穩時間序列的預測,但在實際應用中容易受到極值的影響,需要經過一定的數值轉化處理。SARIMA則考慮了季節性因素,對具有季節變化的單變量時間序列的預測更準確。在實際研究中,由于影響變量的因子更為復雜,單變量時間序列的模型難以滿足要求,但可以幫助研究者觀察各類傳播行為的時序特征。相比之下,動態回歸模型不僅考慮了時序因素,還可以加入各種外生的預測因子,從而提高了對于復雜現象的預測能力,也為動態地研究傳播行為提供了更多的可能性。除了經典的時序分析方法,未來基于時間維度的傳播學量化研究可以進一步加強對前沿的多變量時間序列神經網絡技術(如LSTM)的探索與應用。