張方紅,李浩,張明輝
(中國傳媒大學 理學院,北京 100024)
?
基于時間序列模型的收視率研究
張方紅,李浩,張明輝
(中國傳媒大學 理學院,北京 100024)
摘要:收視率是指在某個時段收看某個節目的目標觀眾人數占總目標人群的比重,以百分比表示。收視率的高低能夠反映出節目的觀眾喜愛程度以及節目所具有的社會影響力。本文采用2006年中國電視收視年鑒中的全國收視數據,以工作日及節假日收視率為研究對象,利用SAS統計軟件做時間序列分析,并進行預測。結果顯示,節假日收視率數據能夠較好的擬合ARIMA(1,2,(1,4))模型,工作日收視率數據則利用ARIMA(1,2,(1,4))模型和AR(1,4)模型擬合結果都較好,但是相對而言ARIMA(1,2,(1,4))擬合效果最好。
關鍵詞:目標觀眾;收視率;時間序列;SAS軟件
1引言
收視率是衡量節目質量好壞的重要指標,現在一般由第三方數據調查公司,通過電話,問卷調查或其他方式抽樣調查來得到收視率。通過對收視率高低的分析可以衡量一檔節目的觀眾喜愛程度以及所造成的社會影響力大小。除此之外,電視節目的廣告收入是一個無可替代的角色,而收視率是商品廠商付給電視臺廣告費用的重要依據,收視率越高的節目和時段廣告費用越高,反之亦然。近年來,隨著電視觀眾的日益成熟和日益挑剔的眼光,電視媒體競爭更加激烈的挑戰,電視收視率存在被不斷分流的局面,收視率已確實成為電視媒體生死存亡的生命線。由于收視率一般為時間序列數據,故本文考慮采用2006年中國電視收視年鑒中的全國收視數據,以工作日及節假日收視率為研究對象,利用SAS統計軟件做時間序列分析。首先對各時段收視率的趨勢進行分析,從總體上研究工作日及節假日收視率的特點。其次,建立時間序列模型,并進行預測。
2數據來源
本文數據來源于2006年中國電視收視年鑒中全國收視數據的全國樣本市(縣)收視率。
3研究方法
3.1AR模型
具有如下結構的模型稱為p階自回歸模型,簡記為AR(p):
中心化AR(p)模型:xt=φ1xt-1+φ1xt-1+…+φ1xt-1+εt,引進延遲算子,中心化AR(p)模型又可以簡記為Ф(B)xt=εt,式中Ф(B)=1-φ1B-φ1B2-…-φpBp,稱為p階自回歸系數多項式。
3.2MA模型
具有如下結構的模型稱為q階移動平均模型,簡記為MA(q):
中心化MA(q)模型:xt=εt-θ1εt-1-θ2εt-2-…-θpεt-p,引進延遲算子,中心化MA(q)模型又可以簡記為,xt=Θ(B)εt,式中Θ(B)=1-θ1B-…θ2B2-…-θqBq,稱為q階移動平均系數多項式。
3.3ARMA模型
把具有如下結構的模型稱為自回歸移動平均模型,簡記為ARMA(p,q):
中心化ARMA(p,q)模型可以簡寫為:xt=φ1xt-1+…+φpxt-p+εt-θ1εt-1-…-θqεt-q
引進延遲算子,ARMA(p,q)模型可以簡記為:Ф(B)xt=Θ(B)εt,式中Ф(B)=1-φ1B-…-φpBp,為p階自回歸系數多項式,Θ(B)=1-θ1B-…-θqBq為q階移動平均系數多項式。
3.4ARIMA模型
ARIMA(p,d,q)模型稱為求和自回歸移動平均模型,實質是經過d階差分運算后的序列建立的ARMA(p,q)模型。
3.5疏系數模型
ARIMA(p,d,q)模型是指d階差分后自相關最高階數為p,移動平均最高階數為q的模型,通常它包括p+q個獨立的未知系數φ1…φp,θ1…θq。如果該模型中有部分自相關系數或部分移動平均系數為零,即原ARIMA(p,d,q)中有部分系數缺省了,那么該模型稱為疏系數模型。
4時間序列分析
以2006年全國樣本市電視觀眾周一至周日凌晨2:00到第二天凌晨2:00的24個小時各時段收視率的數據為例做趨勢圖如圖1所示。
從圖1中可以看出,一周中每天的收視率走勢基本相同,但是周六周日07:30到18:00這一時段的收視率明顯高于工作日,且周日最高。這說明周六周日白天是收視率高峰階段,這是因為周六周日大部分人都會休息,故收視率自然上升。因此,對工作日與節假日收視率分別進行研究。下面以周一和周日的收視率數據為例進行時間序列分析。
4.1工作日收視率時間序列分析
4.1.1白噪聲檢驗
對周一收視率序列進行白噪聲檢驗,結果如表1所示。

圖1 各時段收視率趨勢圖
結果顯示,延遲6階、12階、18階的χ2統計量的P值均小于0.05,因此原序列為非白噪聲序列。

表1 序列白噪聲檢驗
4.1.2平穩性判斷
首先繪制時序圖如下:

圖2 周一收視率時序圖
時序圖顯示,序列是非平穩的,考慮差分后平穩,經過嘗試后發現二階差分后長期趨勢信息被充分提取,時序圖如圖3所示。

圖3 周一收視率2階差分后時序圖
4.1.3模型定階
為了確定模型的階數,考察自相關和偏自相關圖,如圖4、圖5所示。

圖4 序列自相關圖

圖5 序列偏自相關圖
根據自相關和偏自相關圖,有如下考慮和選擇,如表2所示。

表2 模型選擇
上述結果顯示AR模型和ARIMA模型的殘差均通過了白噪聲檢驗,因此利用SBC準則和AIC準則對模型進行優化,比較兩模型的AIC和SBC的值如表3所示:

表3 SBC和AIC值比較
從比較結果中可以發現,ARIMA模型的SBC和AIC的值均小于AR模型,故選擇ARIMA(1,2,4)模型對序列進行擬合。但是由于擬合的參數過多,有部分參數不顯著,故刪除不顯著的參數θ2,θ3,優化模型,得到疏系數模型ARIMA(1,2,(1,4))
根據模型定階過程可以發現,該模型順利通過殘差白噪聲檢驗和參數顯著性檢驗,擬合結果較好。
4.2節假日收視率時間序列分析
對周日收視率數據進行白噪聲檢驗,結果如表4所示:

表4 序列白噪聲檢驗
結果顯示,延遲6階、12階、18階的χ2統計量的P值均小于0.05,因此原序列為非白噪聲序列。通過上述分析發現周日的收視率走勢與周一類似,因此序列同樣為非平穩序列。經過一系列嘗試發現,二階差分后對原序列趨勢信息提取最充分。因此,對二階差分后的序列做自相關及偏自相關圖,結果如圖6、圖7所示:

圖6 偏自相關圖

圖7 序列自相關圖
根據自相關和偏自相關圖,有如下考慮及選擇,如表5所示。
通過上述結果可以發現,只有ARIMA(1,2,4)模型的殘差通過了白噪聲檢驗,只是擬合的參數過多,有部分參數不顯著。刪除不顯著的參數θ2,θ3,優化模型,得到疏系數模型ARIMA(1,2,(1,4)):

表5
根據模型的定階過程可以發現,疏系數模型ARIMA(1,2,(1,4))能夠通過殘差白噪聲檢驗以及參數顯著性檢驗,擬合效果較好。
5結論
綜合上述分析發現,對于工作日收視率來說疏系數AR(1,4)模型和疏系數ARIMA(1,2,(1,4))模型都具有較好的擬合效果,但是通過AIC準則和SBC準則判斷發現,疏系數模型ARIMA(1,2,(1,4))的擬合效果最好;而對于節假日收視率而言,只有一個模型的擬合效果最佳,即疏系數模型ARIMA(1,2,(1,4)),從而可以發現,利用時間序列進行分析的優勢在于可以利用較少的數據信息得到較好的擬合模型。
參考文獻
[1]姚芳.基于時間序列模型的全國30家電臺收視率分析[J].數學的實踐與認識,2011(13).
[2]陸海英.基于線性回歸的電視節目收視率預測模型[J].CONTEMPORARY TV,2012(11).
[3]涂娟娟、劉同明.基于決策樹的電視節目收視率預測模型[J].軟件時空,2007(9-3).
[4]張晶,白冰,蘇勇.基于貝葉斯網絡的電視節目收視率研究[J].科學技術與工程,2007(19).
[5]王燕.應用時間序列分析[M].北京:中國人民大學出版社,2012.
[6]中國電視收視年鑒2006[M].北京:中國傳媒大學出版社,2006.
(責任編輯:宋金寶)
Study on the Ratings Based on Time Sequence Model
ZHANG Fang-hong,LI Hao,ZHANG Ming-hui
(School of Science,Communication University of China,Beijing 100024)
Abstract:Ratings refers to the proportion of target audience in total population,when they watch a show in a certain period of time,expressed by percentage.The level of ratings can refect the degree of audience avorite and the social influence of the program.Based on the rating number of the whole country,in “2006 chinese television viewers yearbook”,this paper analysed the ratings of working days and holidays,using the SAS system software.The results show that time sequence model ARIMA(1,2,(1,4)) fits the holiday ratings data very well,ARIMA(1,2,(1,4))model and AR(1,4)model fit the working days ratings data both very well.By contrast,the ARIMA(1,2,(1,4)) model is best.
Keywords:target audience;ratings;time sequence;SAS system software
作者簡介:張方紅(1990-),女(漢族),山東青島人,中國傳媒大學碩士研究生.E-mail:fanghong412@163.com
收稿日期:2015-03-30
中圖分類號:F064.1
文獻標識碼:A
文章編號:1673-4793(2015)03-0035-05