陳嘉,鐘宇霆,魏志剛,陳昕
(深圳廣播電影電視集團深圳廣信網絡傳媒有限公司,深圳 518055)
近十年是中國IPTV從無到有并快速發展的時期。截止2014年底,中國 IPTV用戶已經達到3363.6萬戶(數據來源:工信部網站發布的數據)。IPTV所采用的各項新技術為電視行業帶來了諸多的發展變化,這其中之一便是開拓了利用IPTV大數據進行收視分析的全新領域。
對于電視臺、廣告公司等業界機構和人士來說,收視率不是單一的收視數據,而是他們對于如何更好地利用收視率數據去進行收視市場分析、節目編排和調整、節目評估以及廣告投放決策等的重要參考指標。
傳統收視率定義:指在某一時段內收看某一節目的人數(或家戶數)占電視觀眾總人數(或家戶數)的百分比[1]。一般來說,在實踐中的收視率指個人收視率。
收視率調查的流程分為樣本抽取、數據采集和數據處理三大環節。
作為收視率調查的第一個環節,所選樣本點與電視觀眾總體是否具有代表性,對能否保證收視率數據的準確具有十分重要的意義。樣本抽取包含確定調查總體、確定樣本容量和抽取樣本三個環節。
1)確定調查總體
調查總體一般被界定為目標區域內所有4歲及以上的電視家庭人口。
2)確定樣本容量
根據調查推斷指標的不同,抽樣調查可以分為兩類,一類是平均數抽樣調查,另一類是成數(比率)抽樣調查。而傳統收視率調查采用的是后者,樣本量的計算公式為:

其中,n為樣本量,P為收視率,M為允許誤差,t為概率度。
在收視率調查樣本容量的計算中,收視率P一般取50%,概率度t一般取1.96,因此,樣本量n的多少取決于允許誤差M的大小,隨著允許誤差降低,所需樣本量增大。
3)樣本抽取方法
目前常用的樣本抽取方法主要有日記卡法和測量儀法。
前面提到的樣本抽取方法中,日記卡法是指由樣本戶中所有4歲及以上的家庭成員,將每天收看電視的頻道、時間段隨時記錄在日記卡上,以此來獲取電視觀眾收視信息;而測量儀法是指用測量儀(測量儀主機或手控器)來詳細記錄樣本戶中所有4歲及以上的家庭成員收看電視的情況。
1)原始數據輸入計算機并進行數據的凈化(僅針對日記卡法)。
2)收視數據加權
加權是收視數據處理過程中的核心環節。目的在于對樣本結構與總體結構的偏差進行校正,使總體收視數據更加準確。通過加權變量,可以得到相應的權值表,例如,省網A的特定人口的權值表(千人)如表格1。

表1 省網A中各種特定人口的權值表(千人)
如7.4103意味著:在該省網中,樣本中一個年齡在15-24歲、住在城域的男性在總體中代表7.4103千人。
3)收視率的計算
例如,根據省網A的收視監測記錄(如表格2),在某一特定時段內收看某一節目的4歲及以上的樣本人數為191人,這191人中的每一個人總可以在權值表中找到對應的位置,通過乘以權值,可以得到在總體中收看了節目的各類觀眾人數。假如在收看節目的191人中有25人是住在城域、15-24歲的男性,則在總體中共有7.4103千人×25=185.26千人收看了該節目,以此類推計算總體中收看節目的各類人數并匯總,就得到總體中收看該節目的人數,可以計算得出加權后的收看人數為8119千人,用8119千人除以總體中4歲及以上觀眾總人數55312千人,得出該節目收視率為14.7%。

表2 省網A某節目收視率計算表
傳統電視收視分析所采用的日記法和測量儀法在當時的廣播電視環境下,只有采用這種方法才能將收視監測研究拓展到中國100多個城市,并且建立省網監測,在中國70多個城市以及17個省份建立研究樣本,以監測城區及鄉鎮居民的收視習慣,是電視分析的必要手段。
IPTV與傳統廣播電視的技術架構不同,是基于IP網絡的數字視頻服務。互動性和實時性是IPTV最大的特點。當IPTV用戶需要觀看某一個節目時,必須向服務器發送請求命令,服務器在接收到命令后才會向用戶推送節目流。利用這一特點,通過數據采集系統,可以獲取到IPTV全量的、實實在在的收視數據。因此IPTV的收視分析將會是基于全網用戶的收視數據,其結果具有客觀性和準確性。
IPTV的收視分析分為數據采集、數據過濾、數據處理三個環節。
IPTV收視數據可以通過探針技術來采集。當用戶進入直播界面,相關參數(用戶賬號、進入直播方式以及直播頻道名稱等)都將會被記錄下來;同樣,當用戶退出直播,相關參數也會被記錄下來,這樣用戶的觀看日志最終會被完整的記錄下來。因此IPTV收視數據能夠記錄到全網用戶的觀看行為,可以做全量數據的分析。直播探針可以捕獲到以下幾個關鍵性的字段:UserID(用戶賬號)、Starttime(用戶開始觀看時間)、EndTime(用戶觀看結束時間)、Channalcode(頻道編號)、ChannalName(頻道名稱)[2]。系統采集到的日志如圖1所示:

圖1 IPTV直播數據采集日志
IPTV采集到的是全網收視數據,但同樣也有噪聲數據,例如用戶換臺、關閉電視但未關必機頂盒等行為所產生的收視數據。凡是不符合正常觀看行為規律的數據都應該做過濾處理。過濾的基本原則是:保留符合正常用戶觀看規律的記錄,去除無實際觀看意義的數據。典型需要過濾處理的記錄如下:1)單條觀看時長超過6小時的記錄;2)單次觀看時長低于5秒的觀看記錄;3、少量的結束時間小于開始時間的錯誤記錄。
將采集到的收視日志放到數據庫中做處理,值得注意的是,數據分析并不要求必須建立數據倉庫。可先將數據經過處理存貯到數據庫中,他們包含了數據分析需要的所有數據(簡稱為原始數據庫),然后根據過濾的具體需要,靈活的通過腳本從原始數據庫中提取需要分析的數據即可。
1)收視率的定義
行業對收視率的定義為:收視率=收視時長/(時間段時長*推及人口)。這里以計算某衛視頻道的日收視率為例,如果要計算該頻道的日收視率,我們需要獲取到這個頻道當日的總收視時長、IPTV當日的推及人口。
2)收視時長的計算
由于在原始數據庫里已經存貯了當天全網的收視日志,通過腳本對噪聲數據做過濾處理,然后將收視數據按照頻道作分類和聚合處理,通過聚合函數對收視時長做疊加,最終獲取到各個頻道在當日的收視總時長。
3)推及人口的計算
推及人口即為有條件觀看電視的用戶數。與傳統收視調查不同,IPTV不需要做抽樣處理,當天的實際用戶數就是精準的推及人口數據。
有了以上數據,就可以方便的計算出IPTV平臺上的節目收視率。通過IPTV進行收視分析,避免了抽樣帶來的誤差問題,直接反映了用戶的真實收視情況。結合現有大數據技術,能夠“好、快、省”的得到真實、客觀、準確的電視收視情況。
IPTV收視分析的優勢在于數據源大而全,能夠深度挖掘數據含義,更客觀、更及時、更精細、更準確地反映用戶的行為。
在用戶使用IPTV業務的過程中,用戶的每一個使用動作每一個行為都會被系統自動記錄下來,無需額外的人工記錄,避免了人工干預的不確定性,在原始數據上最大程度的保證了用戶產生數據的客觀性。另一方面,IPTV采用的是全樣本分析,無須復雜的樣本抽取,使得每一份數據本身都具有說話的能力,從而使相應的統計分析都站在所有數據的基礎上,真實、客觀的反映收視結果。
傳統收視調查有一部分采用日記卡的方式記錄收視行為,相應的收視數據要事后才能錄入統計系統,這就使得分析結果有一定的滯后性。而IPTV不僅能實時采集用戶的收視行為,還能實時傳回用戶收視行為數據,這使得數據的分析和反饋更及時、更快速。另一方面,傳統數據分析在處理大量數據時,都需要確立明確的對應關系,非常依賴模型、算法以及服務器性能。而IPTV收視分析可以采用大數據分布式運算技術,徹底改變了對于建模和算法的依賴,能夠根據數據實時性的需要,實時取得分析結果,節省了大量的時間消耗和資源投入,大大地增強了IPTV收視數據處理的時效性。
得益于IT系統的優勢,IPTV收視分析能夠將數據采集精確到秒。從圖1的收視日志信息中可以看出,用戶觀看的信息精確到秒級,每一次換臺操作都記錄了下來。有了秒級的數據,就可以做出精細到秒級的收視分析。這帶來的好處顯而易見,顆粒度精細到秒級的數據分析對節目制作、編排、播出、影響力等的研究都將帶來革命性的成果。
收視分析的樣本量一向是衡量準確度的首要條件,IPTV收視數據得益于龐大的樣本量,通過這些客觀真實的數據可以準確的分析出用戶的收視行為趨勢。當數據越來越大時,無需精準的算法,只要擁有無限多的樣本量,就能將偏離值的影響降到最低,得到最為接近事實的結論。個別用戶或者小部分用戶的特殊收視行為,由于數量級小,難以對整體收視趨勢產生影響,所以IPTV大數據更適合于收視率統計這一類整體收視情況的計算,所得出的結果也更準確更接近于事實。
雖然IPTV大數據應用于收視分析具有諸多先天優勢,但是在電視收視分析領域,還需要進一步發展,以解決以下問題:
目前的IPTV行為數據,采集的是機頂盒端的使用操作記錄,只能具體到戶,不能具體到人。也就是說,目前的技術可以采集到一家人使用IPTV機頂盒的所有數據,但是暫時無法區分某一時間拿著遙控的是長輩、年輕人還是兒童。這種用戶身份數據的缺失會影響受眾分析,導致缺乏合適的數據源支撐精準的受眾分析[3]。
這是目前IPTV大數據收視分析所面臨的主要問題之一。當然在技術上是有辦法解決的,只要解決用戶資料收集和用戶身份識別這兩個方面的問題,用戶的身份數據及其對應的行為數據就能夠準確的獲取,加上龐大的用戶數據量及準確到秒級的使用記錄,將能夠做出更加準確、更加精細的受眾分析。
用戶資料收集有主動及被動兩種方式:主動方式采取用戶主動填寫資料的方式,可以在裝機時填寫也可以在使用的過程中通過在線調查問卷的方式填寫提交;而被動方式則可以通過收集用戶使用數據,智能分析用戶的使用行為進而對用戶進行畫像,將用戶的身份數據不斷具象化。當然主動方式準確率高但操作繁瑣,被動方式用戶無感知但準確率有待提高,可以采用主被動相結合的方式取得最好的效果。在另一個問題上:用戶身份識別,也可以采用主動及被動兩種技術手段來解決:主動方式由用戶自主創建賬號主動登錄來確認用戶身份;被動方式可以采用智能識別手段來識別用戶身份,比如利用機頂盒攝像頭進行人臉識別、遙控器加感應器進行指紋識別以及通過用戶使用行為進行推導識別[4]等等。隨著技術的進步,海量用戶的具象化問題將很快能夠解決。
中國IPTV這幾年發展迅猛,用戶數已突破3000萬,但用戶群體集中在三網融合試點地區,也就是在廣電企業及電信網絡相對較發達的地區,并未全國覆蓋。所以,目前中國IPTV的用戶群體相對較為集中,尚不具備地域上的廣泛的電視收視的代表性。也就是說,IPTV的收視分析不能代表全國所有觀眾的收視習慣,只能客觀的反應IPTV這一終端用戶群體的真實收視習慣,這既是IPTV收視分析的局限性,也是IPTV收視分析的精準性。當然,中國IPTV仍處在高速發展期。2015年是國家三網融合政策從試點走向全國推廣的重要時期,按照目前的發展趨勢,未來中國IPTV不管在用戶規模上、覆蓋地區上都將迅速發展,從而推動IPTV收視分析的影響力不斷擴大。
區別于傳統的收視率調查方式及收視分析方式,IPTV基于大數據的技術特點,意味著IPTV的收視率不完全等同于傳統抽樣調查收視率。用傳統的收視率等指標定義來套用,會限制IPTV收視分析的效果及范圍。這個時候需要根據大數據的數據特點,定義新的指標體系,來更全面的評估節目收視效果、分析用戶收視行為。比如,結合時移、回放、快進、快退等互動特點,定義節目到達率、收看完整度、跳出率等新的指標,以達到多維度全方位的分析評估節目收視效果[5]。這需要電視業界的共同努力,引入新的指標,才能更客觀更全面的評價節目收視效果,為電視廣告、電視節目制作帶來更全面的參考指標。
IPTV因其基于IP網絡的特點,天生具有雙向互動的優勢,能夠采集到所有用戶的行為數據。基于這些數據源基礎上形成的IPTV大數據收視分析,相比傳統的收視統計手段,具有更客觀、更準確、更及時、更精細等特點,同時得益于更豐富的數據源,可以分析出更多維度的收視指標。目前,IPTV大數據技術雖有優勢,但也存在不足,由其特性所決定,其產生的收視分析結果不能完全替代傳統的收視分析結果,而是提供了新的參照系、新的指標,并且隨著技術的進步,IPTV大數據分析將能做出更具有針對性、更加準確的分析結果。如能利用好IPTV大數據收視分析的特點及優勢,將能更好地為節目制作、播出效果分析服務,這項技術的應用前景一片光明。
[1]王蘭柱.收視率調查與應用手冊[M].北京:中國傳媒大學出版社,2012.
[2]魏凱.IPTV國際標準化綜述[J].電信網技術,2010,3(3).
[3]王欣.基于生活形態的IPTV用戶使用行為研究[D].上海:華東師范大學,2010.
[4]艾丹祥.基于數據挖掘的客戶智能研究[D].湖北:武漢大學,2007.
[5]趙靚.IPTV的運營模式分析及研究[D].北京:北京郵電大學,2007.