■ 喻國明 段澤寧 孫 琳
隨著互聯網發展進入“下半場”,人口紅利下的規模化市場已漸瓜分完畢,包括內容付費產品在內的一系列高技術含量、細分化市場的產品和服務形式漸趨成勢。
眾所周知,并不是任何內容服務都可以以用戶直接付費的形式來實現的。有人說,只要是有用的、重要的知識服務,就是人們愿意為之付費的服務。這是不對的。君不見,空氣之于人類和生命是何等的重要和有用啊,它甚至可以用須臾不可或缺來形容它的重要和有用。但你何曾見過人們在正常情況下為獲得空氣來付費的嗎?只有當新鮮、干凈的空氣成為一種稀缺的東西的時候,售賣潔凈的空氣才成為一個生意。對,就是稀缺性,這是內容付費產品的第一品性。只有稀缺的,才是市場所追逐的。可以像空氣一樣隨時隨地獲得的東西,哪怕再重要也不會有人為它付費。那么,什么樣的內容是稀缺的呢?
知識和內容被使用頻度越高,其社會的供應量就越大、社會的普及程度就越高、稀缺性就越低。而某些新興的領域、較少有人觸及的專門領域、專門知識,其社會的供應量不多,社會的普及度較低,如果加上人們對這個領域、這類知識的興趣和需求恰好在上升,這類知識就會成為人們愿意付費的對象。
我們這個世界在越來越細分化,知識和知識之間的鴻溝也在日益擴大,有一種說法:今天連數學家和數學家之間都難以溝通、聽懂對方的話語了。可見現代文明的發展,形成了一道又一道認知和溝通的障礙。但人們面對的世界又往往是由多種多樣的復雜性事物和變量糾結在一起發生作用的,因此,跨界的知識和能力便成為當下人們把握機遇把握現實的核心能力。能夠提升人們這種能力的內容服務,當然有人愿意為它付費。
降低或減省人們獲得知識的時間付出、精力付出以及增強人們理解力的知識服務也是人們愿意為之付費的知識服務。在一個信息泛濫、良莠難辨、人們的時間精力短缺的時代,人的社會行動能力的提升、生活效率提升的關鍵就在于獲得和理解知識的能力的提升。因此,這類知識服務雖然形式上不具備稀缺性的特征,但是,當它以一種簡約、有效、可理解的方式提供知識服務時,人們會因為它對于人們時間精力的減省而付費,比如:學位論文中的文獻綜述服務,邏輯思維中的代人讀書選書等。
主要包括有借鑒意義的個體體驗性內容,以及個性化量身定制的知識服務。內容和知識如果按照從場景的仿真度(即從抽象概念到具體場景)來劃分,概念的傳遞是較為容易的,但場景的帶入及有針對性的多維度分析、判斷則是較為稀缺的。人們在生活和社會實踐中所遇到的具體問題是由復雜的必然因素、偶然因素和個體因素交織在一起造成的,必然性的因素可以通過通常的專門知識的自學或檢索獲得,但偶然的、個體性的因素所造成的影響并不是通識性的知識或一般的專門知識可以解決和把握的,因此,必須由具有經驗豐富的專業人士幫助做出量身定制的診斷和對策,譬如咨詢公司和律師類的服務就是這樣一種服務。在介于咨詢公司和律師的服務與通識性的知識之間的那種內容和知識服務,如果能夠以比較減省的價格提供的話,也會有相當多的用戶支持。
以上便是內容付費服務的主要內容類型。但是,與這種日漸成勢的市場崛起形成強烈反差的是,這一領域內對于低頻度內容、高跨界度內容、高精粹度內容以及高場景度內容等方面的深入扎實的研究卻幾近闕如。毫無疑問,傳統研究范式已經難以支撐起復雜多維度的研究任務,這類多維復雜問題必須借助于大數據與智能化的新興技術與研究范式來加以認識和把握。而計算社會科學恰恰是其中的一種重要的研究手段和研究范式。
什么是“計算社會科學”?計算社會科學是采用互聯網大數據、機器學習等計算技術來研究社會科學問題的新思潮和新方法。①計算社會科學從誕生伊始,就擁有“跨學科基因”,來自不同學科背景的學者們共同參與這一領域的討論。譬如,2007年,沃特在《自然》雜志上發題為《21世紀科學》(ATwenty-firstCenturyScience)的文章,開篇頗為前瞻地提出:如果我們處理得當,互聯網中的傳播與互動數據將改變我們對人類集群行為的認知②;2009年,來自不同學科的15位作者聯合署名,在《科學》雜志上發表了一篇題目為《計算社會科學》(ComputationalSocialScience)的論文,指出了計算社會科學是以提升數據收集分析能力為要義,與多門學科相輔相成的一種新范式③,這篇文章也被認為是計算社會科學的宣言奠基之作;2013年,擁有生物社會學科研究背景的尼古拉斯在紐約時報專欄上發表《顛覆社會學科》(Let’sShakeupSocialScience)一文,直指傳統的社會學科設置需要得到調整④;次年,香港城市大學的祝建華等華人學者發表了《計算社會科學在新聞傳播研究中的應用》一文,使計算社會科學全面介入新聞傳播研究中,分門別類地介紹了計算社會科學在經典“5W”領域“誰(傳播者),通過什么(渠道),對誰(受眾),說了什么(內容),并產生了什么(效果)”中的主要應用案例,并討論了計算思維和計算技術手段對這些研究領域的主要貢獻、發展方向以及存在的問題與局限。顯然,對移動互聯網內容付費產業相關問題的研究恰是這種跨學科的復雜范式與研究方法的適用對象。
什么是“移動互聯網內容付費研究”,顧名思義,即對移動互聯網內容付費產業相關問題的研究,譬如內容消費者的付費意愿影響因素研究、內容提供者的最適營銷渠道研究等。新聞內容生產者對在線內容付費變革最為敏感,2011年3月紐約時報率先提出“付費墻(paywall)”概念,希望借由用戶有償訂閱來平衡不斷下滑的廣告收入,同時也減少對廣告的依賴。內容付費是內容生產者對于人們新聞消費結構性轉變的應對措施⑤,它絕非是對傳統訂閱制的簡單模仿,而是逐步發展出了自身的邏輯邊界。從付費本身來看,內容生產者可以基于特定內容(content-based),也可以基于內容供給頻率(frequency-based)來對用戶收費,前者考量用戶消費了哪些特定的內容,后者則具體考量用戶消費內容的多少與頻次;⑥從盈利模式來看,關于內容付費盈利(pay-for-contentmodel)、廣告主盈利(advertising revenuemodel)和混合盈利(hybridrevenuemodel)哪種模式最適用于移動互聯網內容付費產業尚無定論,當前研究者們普遍認為內容付費和廣告主付費相結合的混合盈利模式是更優解⑦,但兩者在其中的主輔關系依舊爭論不明。⑧
國內外學者們對內容付費的研究興趣點稍有不同,但主要集中在幾個方面:一是關注人們對于在線內容的付費意愿以及影響因素的研究;⑨二是關注內容付費的不同商業模式比較和未來趨勢的研判;⑩三是關注內容付費帶來的隱私保護、法律規制和行業迭代或社會變革等影響的探討。
隨著人們對于新聞、娛樂、知識等內容的消費場景持續向移動互聯網轉移,新的問題隨之出現。我們發現依然可以借用傳統的“5W”邏輯模型去思考移動互聯網中的內容付費問題(如圖1)。從研究便利的角度出發,我們將內容付費研究分割為5個領域(下文分4部分討論),分別是“用戶研究”“營銷研究”“效果研究”和“平臺研究”,其中將對生產者的研究并入營銷研究部分(因為兩者往往共存),同時我們也應清晰認識到這幾部分存在高度關聯性。我們也將在下面討論計算社會科學是如何“通過非介入的行為數據,比傳統的自報告方式更快地找到并描述付費用戶的特征”等一系列問題,以及在處理相關問題時,計算社會科學先天的優勢與不足。因受篇幅限制,我們將根據各分支采用計算科學的程度進行詳略不同的論述。

圖1 內容付費產品研究的常模
1.描摹用戶畫像
用戶研究的一個常規重點就是用戶畫像。對于內容提供方(生產者與營銷者)以及廣告主而言,最為關鍵的是要知道用戶,尤其是具有付費能力及意愿的用戶特征與用戶構成。用戶特征主要包含性別、年齡、教育程度、職業、收入等人口統計學信息,用戶構成主要指的是用戶之間的關系信息,如關系屬性(親友、同學、同事等)、關系強弱、互動頻次、個人權威性等。前者通過爬蟲工具、后臺數據庫、個人檔案檢索等方式可以獲取,但考慮到網絡匿名問題,會出現一定偏差,視個人數據實際收集情況而定;后者通過用戶的網絡痕跡(internet footprint)可以實現高度還原。
Punj通過傳統問卷方法獲得755位互聯網用戶的數據,并試圖對那些愿意付費的用戶進行畫像,以評估用戶的付費能力以及與用戶付費決策相關的變量。研究發現:用戶的付費數額取決于用戶的收入和教育程度,用戶的付費意愿取決于用戶的年齡和性別,并且付費意愿與付費數額之間呈反比關系。傳統問卷方法常常受到質疑的地方在于,數據獲得時無法避免用戶回應的“霍桑效應”,采用計算社會科學的方法能有三個好處:首先是非介入式的數據爬取能有效避免用戶的失實回應;其次是能獲得更大規模的數據,具有更強的解釋力;最后是能夠更好地實現對變量因果關系的判斷。通過對時間序列上用戶網絡痕跡的分析可還原網絡拓撲的演化過程。
還有哪些因素共同決定了用戶對付費內容的關注、傳播以及付費決策,也是一個重要的問題。Song在研究用戶對博客內容的關注與轉發時提出了4個潛在的因素:用戶的權威性、活動性、偏好以及社會關系。用戶的權威性可以通過HITS算法計算出,活動性則根據用戶的發帖、轉發和評論的數量來評估,偏好指的是用戶的興趣與內容之間的相似性以及內容生產者與用戶之間興趣的相似性。社會關系指的是用戶與內容生產者之間的關注(或互動)關系。盡管Song關注的是用戶對博客內容的關注與轉發問題,但研究思路依然為我們研究用戶對付費內容的關注、傳播以及付費決策提供了相當的啟發。
而通過還原用戶的社交聯系的網絡結構,并對具體節點的特征值如度中心度等的計算,是可以回應一系列重要問題的,如哪些節點用戶在付費內容傳播、討論中扮演“意見領袖”的作用,擁有付費好友是否會正向促進自身的付費意愿等等。
2.篩選用戶分類
用戶研究的重點之二是對用戶的篩選分類。越來越多的證據表明,行為和情緒可以通過人際關系在社會網絡中傳播并“感染”,這種傳播及“感染”會導致社會網絡中好友之間行為和情緒的相似性。通過付費行為和感知情緒的差異來對用戶進行分類是一種新的分析與把握用戶的手段。這種分析主要分為三個層次進行:第一層次是通過付費行為進行用戶分類,如根據用戶的付費數額、付費次數多少和付費時長等標準進行歸類。第二層次是借力移動互聯網接入設備對于定位服務的普遍支持,用戶的地理位移信息也成為了極為重要的分類標準。第三層次則是研究者們搜集用戶間關于付費內容的討論評價文本信息進行文本分析,進而研究用戶對付費內容的感知情緒、情緒波動、用戶情緒之間的相互作用以及情緒沿著網絡關系擴散等問題。
除卻工作、睡眠、季節和天氣等發生晝夜或周期性變化的影響外,來自社會關系網絡中的好友情緒亦會影響用戶情感。有研究發現,社會關系網絡中好友之間的情緒具有很強的正相關性,好友之間的幸福感表現出同配特性,并且,不同的關系類型對個人情緒的影響程度也不一致。以上結論可通過對網絡中不同子樣本采用廣義估計方程logit模型得以檢驗。有研究發現,現實關系親密度和地理位置鄰近度會顯著影響用戶情緒。因此,根據不同時段、不同環境下的情緒差異,將用戶的付費意愿進行可視化處理,可以發現用戶在何時何處何種情景下更具正面付費情緒,這對實際內容營銷具有極高的策略指導價值。
在線內容從免費開放到付費提供的轉變,意味著付費內容不再是公共產品(public good),而是俱樂部商品(club good),對于內容生產(營銷)者而言,采用何種營銷手段,實現在線內容的盈利是最為緊迫的問題。
2002年,皮尤的一項“互聯網與美國人生活”(Pew Internet & American Life Project)的調研結果顯示,僅有12%的用戶愿意為內容付費,50%的用戶會選擇其他替代性的免費內容,36%的用戶則會斷絕與付費網站的再聯系。十幾年來,人們對于互聯網內容的付費意識并沒有得到較大改觀。2014年的一篇文章顯示,人們依然拒絕為過去免費的互聯網內容付費,同年路透社的一項針對在線新聞報道內容付費的調查也得出同樣“悲觀”的結果——只有平均11%的用戶有付費意愿,這一比例在與過去相比并沒有明顯的波動。顯而易見,能否保證付費內容的盈利空間關鍵在于能否留存住付費意愿波動的人群(占比最大)。
通過將波動人群可能選擇的免費同類競爭內容與付費內容進行語義聚類分析與對比,發現兩類內容之間的相似與差異,從而提升付費內容的異質性和服務質量,可以有效地降低用戶的流失。就一般程序而言,進行語義分析的步驟如下:首先對文本進行分詞、去除停用詞、還原詞根(一般適用于英文文本,在中文中可采用等價同義詞)以及構建矩陣;然后將矩陣中的文本轉換為數值;最后進行后續的文本語義分析,例如根據語義相似度進行聚類分析、利用樸素貝葉斯模型、決策樹或PageRank等提取關鍵詞進行運算。但這種方法只適用于文字型文本,對于音頻、視頻或其他類型的增值服務就需要用其他的方法和手段進行分析了。
學者們從計算社會科學的角度,提出了三種常見方法以提高付費內容推送的精準度,即基于用戶行為的定向、基于社會關系的定向以及基于用戶自創內容的定向。其中,基于用戶行為的定向是通過機器學習等方式,將用戶的屬性、行為等特征變成可供計算和售賣的屬性,并將用戶行為與付費內容進行匹配,實現內容的定位推送,較為典型的案例是今日頭條的推薦算法,它基于用戶的新聞點擊和頁面停留時長等用戶行為來進行新聞的匹配與推送。相比于以上這種較為成熟的方法,后兩種——基于用戶的社會關系和自創內容的定向——則更能體現移動互聯網社會化媒體的優勢。基于社會關系的受眾定向,是一種允許內容提供者將內容發送至有關用戶的在線網絡關系中(如論壇好友、微博粉絲等)的定向推送方法,其優勢在于彌補了傳統客戶數據的缺陷,更快地尋找相似潛在用戶并增強了內容的到達率和點擊率;基于用戶自創內容的受眾定向,指的是通過機器學習和自然語言處理等方法,對社會化媒體中用戶自創內容文本挖掘并識別用戶的顯隱性興趣,來進行最適內容匹配的方法。其中的技術難處在于解決數據稀疏性問題,現實生活中并非所有用戶都會發布與其自身興趣相關的內容,因此,將后兩者方法結合使用,通過對活躍用戶的興趣識別來推斷與其相連的非活躍用戶的興趣,從而有效解決數據稀疏性問題。與傳統的自報告數據(self-reportdata)獲得方式相比,采用計算方法往往能采用一種無干涉的方法來觀察、計算和解決內容付費問題,這一點是傳統社會定量方法無法做到的。
比鼓吹“內容為王”更重要的是如何預測出那些注定會成為具有主流性的稀缺內容。學者思嘉瓦在一項針對3家挪威在線新聞報紙內容的縱向定量比較研究中也發現:并不是所有類型的內容都能成功貨幣化,也不是所有類型的內容都有能力推動用戶進行付費。因此問題在于,什么樣的內容更能獲得喜愛?
上文中談到的用戶的互聯網痕跡(也稱“數字化痕跡(digital traces)”),我們可以理解為用戶的“注意力半徑”,指公眾思考某些議題時投入的時間和認知資源,這也是一個重要的社會化媒體內容。近年來,研究者開始利用網民在搜索引擎提交的關鍵詞來測量公眾注意力。一個經典的案例是Ginsberg等人發表在《自然》雜志上的一篇題為《通過搜索引擎問題查詢數據來監測流感爆發》的文章,他們利用45個與流感有關的關鍵詞,來測量公眾對流感的關注程度,并通過網民對這些關鍵詞的檢索趨勢實現了對美國流感爆發的成功預測。盡管文章細節受到其他學者質詢(譬如研究者們對文章中的45個關鍵詞的選定方式存疑),但無法否認的是,這種依靠用戶在搜索引擎中的貢獻內容進行預測推斷的思路值得我們學習。
既然搜索詞能被運用于測量現實世界中公眾對于疾病、社會議題的注意力,那么同理,搜索詞和諸如此類的用戶貢獻文本是否也能用于測量公眾對于特定付費內容的喜好預判?答案是肯定的。通過對搜索引擎、論壇帖區、社會化媒體等的用戶檢索、討論文本進行分析,并在時間序列中進行觀察,可以推斷出未來一段時期用戶對于付費內容的喜好與需求,未來的內容生產完全可以實行“一邊預測,一邊生產”的模式。譬如,對于一些非紀實、娛樂性的文字內容生產而言,可以通過無監督機器學習方式來訓練機器寫作,實現非人工化的內容生產。其中要注意,過度迎合受眾喜好或將導致網絡巴爾干化加劇等社會問題的出現,因此需兼顧受眾滿足與媒體教化之間的平衡。
在傳統研究文獻中,也有一些是關于付費內容自身特質的討論。譬如Alexandre等人通過392名高校學生問卷數據分析影響用戶內容付費行為的潛在因素,發現內容的期待感知利好(expected benefits)是主要的影響變量;也有學者研究指出,越來越多的用戶付費行為是為了滿足社交需要。對于這些問題,我們或許可以再作一些延伸研究,比如比較研究用戶在付費前后的社交狀態,看付費行為是否如其所愿,滿足且擴大了用戶社交關系的強度和黏度。
在這一維度上,將更多著眼于平臺所構建出的社群(譬如豆瓣小組以及諸多的影音會員討論群組等),在何種程度上對用戶付費意愿與行為產生影響。
社群因素會影響內容消費者的付費意愿和行為決策。過去的研究多關注于用戶的內容消費體驗(consumption experience),學者Oestreicher-Singer則關注消費者加入在線社群前后付費意愿的改變。研究者首先隨機抓取了150000名音頻網站的用戶信息,并按照付費訂閱與否對用戶數據做了二次處理,然后再次抓取了新訂閱用戶信息,通過數據比對發現,加入在線社群后,用戶付費意愿增高,并且在社群互動中的程度高低與用戶付費意愿高度呈正相關關系,研究者認為原因在于:一是社群擴大了信息的傳達,二是社群中的人們感受到了同伴壓力。因此研究者也建議內容營銷者應擴大社群建設和推廣社群服務。
“物以類聚,人以群分”是好友趨同性的體現,在社會學中,一個重要的觀察結果就是好友間的趨同性推動個體形成自我網絡,并對網絡中的他人施加了不同程度的影響。在以付費內容為中心的社群中,人們對于內容的評價以及對內容的付費決策是否會受到其他人的影響等問題均可以用計算社會科學的方法去回答。有一些基本概念如級聯率、決策閾值等,都可以用來直觀、簡要地表達社群中的用戶受到他人影響而改變自身行為決策的臨界值。其中,級聯率(Cascade Ratio,CR)刻畫了一位用戶影響他的好友的程度,可以用該用戶節點進行內容付費之后他的朋友也進行內容付費的頻次進行衡量;決策閾值則可以定義為,當一個用戶決定進行內容付費時,他已知他的朋友當中已進行內容付費的數量,基于決策閾值,可以為社群中的用戶進行付費決策建立動力學模型。
俗話說“萬變不離其宗”,內容付費的問題從線下轉移至線上,雖然其形態、方式和策略均有新變化,但仍然“改頭換面,不離舊時”。盡管我們非常清楚在當下的一些移動互聯網應用場景中(比如說分答),一些本應是內容消費端的人轉而成為了內容的生產者,但這種轉變既已形成,就將回歸到“內容生產—營銷—消費—反饋”的經典線性邏輯之中。所以,我們在上文中也按照這種思路,將移動互聯網中的內容付費問題拆解成四個部分,并分別討論了計算社會科學參與其中的革新與局限。
在用戶研究方面,我們主要討論了如何通過計算的手段去對用戶進行畫像描述和篩選分類。由于方法工具自身的非介入性特點,我們只能依賴用戶在網絡中的主動暴露,無法像傳統問卷法、訪談法甚至是實驗法那樣輕易獲得用戶的個人屬性,但另一方面,我們卻能比傳統工具更快更具信度地獲得用戶的關系數據,從關系視角去對用戶進行畫像和歸類應成為使用計算社會科學的本衷。
在營銷效果研究方面,我們主要討論了兩點:如何通過語義對照提升付費內容的異質性以及如何精準地推送付費內容。目前的工具和方法都已能成熟實現,未來研究者可以關注如何用計算手段測量不同階段中的營銷效果(如短中長期效果測量),以及如何使用計算手段實時反饋營銷效果等問題。
在內容研究方面,我們討論了內容生產預測的方向性問題以及機器生產的趨勢性。在過去,以新聞寫作為代表的內容生產更多地受到來自政府、企業財團和廣告主的控制,如果實現了全面的內容付費,雖然內容生產者能在某種程度上從上述桎梏中松綁,但無疑又墜入另一種控制中,即為具有付費能力的用戶群體所左右。無論在哪種情況下,內容生產都依然被精英階層所控制著。計算社會科學作為一種純粹的工具手段,盡管無法改變這種現狀,但卻能通過數據畫像比過去更為有效地告訴人們——誰在左右著內容生產。
在平臺研究方面,我們主要討論了社群如何影響人們的內容付費意愿或行為。未來的研究可以關注現實社群中對付費內容的討論和基于付費內容而形成的在線社群討論之間的差異,兩者是截然不同的視角與思路。
計算社會科學是在數據(online/digital data)和計算方法(computational methods)兩大條件成熟后出現的。顯而易見,我們將其引入內容付費研究中能為我們帶來新視野,掌握新的有效工具,其優勢在于:第一,數據的價值優勢以及對海量數據的處理優勢;第二,這是一種從觀察出發,全面總結的自下而上的歸納推理;第三,研究的非介入性,盡管它同樣面臨信度問題,但不失為自報告數據分析方法的有效補充。
當前關于內容付費研究的局限在于:其一,研究案例以在線文字內容付費為主,關于音樂、視頻以及其他增值內容服務付費的案例較少;其二,對于移動互聯網中的內容付費問題尚缺少框架性把握,一方面與相關研究不夠深入有關,另一方面也與當前業界內容付費嘗試尚未窮盡,不斷發展亦有關系。
當前計算社會科學在內容付費研究中應用并不普及,因此本文旨在為未來研究提出潛在假設與發展方向,以供后續探討。
注釋:
② Watts,D.J..ATwenty-FirstCenturyCcience.Nature,445(7127),2007.p.489.
③ Lazar,D.,Pentland,A.S.,Adamic,L.,Aral,S.,Barabasi,A.L.,Brewer,D.D.,Christakis,N.A.,Contractor,N.,Fowler,J.H.,Gutman,M.P.,Jebara,T.,King,G.,Macy,M.,Van Alstyne,M..ComputationalSocialScience.Science,323(5915),2009.pp.721-723.
④ Christakis,N.A..Let’sShakeUptheSocialSciences,The New York Times,http://www.nytimes.com/2013/07/21/opinion/sunday/lets-shake-up-the-social-sciences.html,published in July,2013,achieved in December,2017.
⑥ Chiou,L.,& Tucker,C..PaywallsandtheDemandforNews.Information Economics & Policy,25(2),2013.pp.61-69.
⑦ Li,Z.,& Cheng,Y..FromFreetoFee:ExploringtheAntecedentsofConsumerIntentiontoSwitchtoPaidOnlineContent.Journal of Electronic Commerce Research,15(4),2014.pp.281-299.
⑧ Macnamara,J..RemodelingMedia:TheUrgentSearchforNewMediaBusinessModels.Media International Australia,32(1),2010.pp.20-35.
⑨ Kvalheim,Nina.NewsBehindtheWall:AnAnalysisoftheRelationshipbetweentheImplementationofaPaywallandNewsValues.Nordicom Review,34,2013.pp.25-41.
(作者喻國明系教育部“長江學者”特聘教授,北京師范大學新聞傳播學院執行院長、教授、博士生導師,中國人民大學新聞與社會發展研究中心主任;段澤寧、孫琳系北京師范大學新聞傳播學院碩士研究生)