薛松+宋向東
[提要] 視頻消費已經是用戶日常生活娛樂的一種普遍方式,市場上視頻網站較多,驅動用戶選擇視頻網站的因素是什么,本文通過多元回歸的特征選擇方法分析驅動用戶選擇視頻網站的因素,得到內容方面是主要因素,其次是品牌和功能體驗,進而根據具體指標給出建議。
關鍵詞:視頻網站;多元回歸;特征選擇;罰函數
中圖分類號:F713.5 文獻標識碼:A
收錄日期:2017年9月26日
一、研究背景
目前,在線視頻用戶總規模超過8個億,移動互聯網用戶中有80%都是視頻用戶,可見視頻行業在網民中的滲透很高,目前視頻市場格局已經形成三巨頭形式(愛奇藝、騰訊、優酷),它們背靠BAT占據市場份額超過90%,但是各個視頻網絡之間并不是和平相處的,而是大力發展IP劇、自制內容、獨播內容等,吸引更多的用戶使用自己的產品。為了更加清楚地了解用戶選擇不同視頻網站看重的因素有哪些,我們從品牌、功能體驗、內容三個方面進行了研究,并通過建模得到最終結果。
二、選擇視頻網站影響因素分析
(一)模型說明。對于線性回歸模型Yi=?茁0+?茁1x1i+…+?茁pxpi=?茁0+Xi'?茁+?著i(i=1,…,n),回歸系數?茁0和?茁的估計主要使用最小二乘估計(OLS),其原理是最小化模型的殘差平方和RSS=(Yi-?茁0-Xi'?茁)2。收縮罰的特征選擇方法則是在OLS估計的基礎上,進一步對回歸系數的絕對值?茁j進行壓縮,其目標函數是最小化RSS+p?姿(?茁j),這里p?姿(?茁j)是對?茁j回歸系數的懲罰函數,作用就是對?茁j進行壓縮。若某個回歸系數?茁j被壓縮為0,對應的自變量Xj就被剔除。這里?姿是控制懲罰函數強度的一個調整參數,進行特征選擇時需要選擇合適的?姿,實際應用中一般通過交叉驗證方法來選擇。
不同的懲罰函數對應不同的特征選擇方法,例如單一罰函數的Ridge(即嶺回歸)、Lasso、MCP及復合罰函數的Elastic Net、Group Lasso、Group MCP、Composite MCP、Sparse Group Lasso等。
以Lasso為例,其目標函數是最小化:
這里?姿就是調整參數。Lasso問題等價于如下帶約束的最優化問題:
也即在OLS估計的基礎上,進一步對的值加以限制。這里s與?姿一一對應,當s較小時,回歸系數相比于OLS估計就被壓縮。
值得注意的是,通常,合適的調整參數?姿的選擇是依靠交叉驗證來進行的。K折交叉驗證即將原始樣本隨機分成K個子樣本,一個單獨的子樣本被保留作為驗證模型的數據,其他K-1個子樣本作為訓練集。交叉驗證重復K次,每個子樣本驗證一次,平均K次的結果(即預測誤差),選擇出最小的預測誤差所對應的λ的估計結果。由于交叉驗證的隨機性,可能會使得每次的估計結果略有差異。為減小差異,可適當增加交叉驗證的折數,比如可以考慮從5折交叉驗證變為10折交叉驗證。該模型具有以下優勢:(1)利用“收縮罰”的方法,更加科學地選擇對研究指標有顯著影響的變量,并對其進行排序;(2)能夠較好地處理自變量之間的多重共線性;(3)可以科學處理變量之間存在分組關系的情況。
(二)數據準備。將用戶對視頻客戶端的繼續使用意愿打分定義為被解釋變量即Y,將用戶對各個視頻客戶端的在品牌、內容、功能體驗三個方面各個語句的打分定義為解釋變量即X。由于一個樣本可能選到多個視頻客戶端,因此可能對多個視頻客戶端的推薦意愿打分和各個視頻客戶端在品牌、內容、功能體驗上各個語句打分,為了保證數據的完整性,我們將各個視頻客戶端的推薦意愿打分和在品牌、內容、功能體驗三方面的評價對應整理,最后將所有品牌的數據累堆起來進行分析。比如說有甲乙丙三人,分別選的客戶端數是2、1、3,那么最后整理的數據有6條。
對于視頻客戶端具體評價語句,多條語句可能表達的是同一個意思,這時候我們一般把用戶在這幾條語句上的評分取均值記為一個指標,相應語句的打分就會刪除,將所有語句類似處理,最后得到要分析的數據整理結果。
(三)建模結果及說明。我們將整理好的數據代入模型,得到影響用戶繼續使用視頻客戶端的最主要指標是內容指標,其次是品牌和功能體驗指標。(圖1)
在實際生活中,用戶對某些指標可能不是很關心,如果單純看驅動系數大小可能會誤導企業的發力方向,因此我們結合用戶的需求來分析,將用戶對這些品牌、內容、功能體驗方面的直接需求程度與驅動系數做二維圖,需求高驅動系數大我們稱之為核心需求,需求低驅動系數大的我們稱之為增值需求,需求高驅動系數小的我們稱之為基礎需求,需求低驅動系數小的我們不關心,保持監控即可。
從上面結果可以看出:核心需求中主要集中在功能體驗方面,具體體現在廣告少、界面、導視推薦和布局上,同時還有品牌方面值得信賴的,內容方面持續有優質內容;增值需求中有品牌指標上的用戶口碑、個性喜好、親和/陪伴感,內容指標上的內容覆蓋廣,功能體驗方面的分享。
三、結論
2016年以來,各大視頻網站大力布局自制內容、獨播內容等,對用戶選擇視頻網站還有一定的驅動作用,但是在2017年結果發現并沒有驅動作用,這個可能是因為各大視頻網站都在此上面大肆發力,想形成自己差異化內容,結果消費者選擇疲勞,所以在形成自己獨特的內容差異化時,滿足劇目數量的同時也要保證內容的質量,這樣才能吸引更多的用戶使用自己的產品。同時,視頻劇目界面要做得美觀,重點突出。要根據用戶自己的喜好推送相關內容,實現精準的差異化戰略,視頻在高速消費的同時,如果可以增加一些人文情懷的附加屬性,會更加受到用戶的青睞。
主要參考文獻:
[1]陳希孺.數理統計學教程[M].中國科學技術大學出版社,2009.
[2]王丹.我國視頻網站的傳播特征研究[J].中國出版,2017.1.
[3]戴禮蓉.網絡自制劇的價值鏈研究[D].安徽大學,2017.
[4]柯鄧林.Lasso及其相關分析方法在多元線性回歸模型中的應用[D].北京交通大學,2011.endprint