杜志剛
媒體在大數據來源上具有優勢,隨著數據規模的持續增大,如何將數據資源轉化為顯性價值是媒體經營發展的重要課題。
目前國內為數不多的關于大數據理論研究和分析文章中,對大數據對媒體尤其是中國媒體的沖擊形成了一致觀點,大多數認為媒體應當面對挑戰,進行戰略性轉型或變革。如上海交通大學新媒體與社會研究中心主任謝耘耕教授認為,大數據時代帶來了挑戰,媒體不僅需要考慮如何處理海量數據,從中獲取有價值的信息,必須同時考慮加強大數據技術研發,以搶占時代發展前沿。也有學者認為,“大數據”對傳統媒體的經營管理方式構成巨大沖擊。媒體經營管理需要在新聞生產、受眾調查、效果研究等方面進行創新,以應對“大數據”的挑戰[1]。但也有學者認為新聞媒體在大數據中應當緩行。如新華社新聞研究所新媒體研究中心王武彬就認為,大數據并不一定適合媒體,在“大數據”浪潮中,屬于媒體業的想象空間并不多,“大數據”對媒體的價值非常有限,大多數媒體機構在大數據領域并不具備顛覆創新和業務轉型的條件[2]。
那么,大數據時代媒體何去何從?首先要明確大數據的內涵和特點,并在此基礎上對大數據支持和反對中的疑問進行分析,才可能理解媒體在大數據沖擊中該如何應對。
一、大數據的內涵及特點
根據維基百科和MBA智庫的界定,所謂大數據(Big data),是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。通常,大數據本質上是指大數據(處理)技術,是指從各種各樣類型的數據中,快速獲得有價值信息的能力。大數據或者大數據時代的特征通常可以用4個V(即Volume、Variety、Value、Velocity)來概括:
第一個特征是數據體量巨大(Volume)。21世紀前,人類全部印刷材料的數據量經過折算,約是200PB(1PB=1024TB),而當前個人計算機硬盤的標配容量就為TB(1TB=1024GB)量級;同時人類歷史上全部語言話語的數據量折算約為5EB(1EB=1024PB),而像谷歌、寶潔等大型公司僅公司內部數據量就基本達到EB量級。數據總量的增長速率遠超過去。
第二個特征是數據類型多樣(Variety)。大數據技術使得巨量的多種類型的非結構化數據,如網絡bbs、音視頻、多媒體以及物聯網等來源的數據,成為可分析、可利用的數據,這使得可處理數據無論是總量上還是類型上,遠遠超出普通技術可處理的以文本為主的傳統結構化數據。
第三個特征是價值開發性大(Value)。雖然大數據因其體量巨大,單位數據價值密度低,如一部一小時的視頻內容里有價值的數據可能只有一二秒,但通過合適的機器算法進行“提純”后的價值總量仍然頗為可觀。
第四個特征是處理速度快(Velocity)。大數據通常是實時數據,大多數還需要快速處理,因此, “快數據”是大數據區分傳統數據挖掘的最顯著特征。
二、反對媒體應用大數據的疑慮分析
疑慮之一:大數據還只是炒作
目前媒體行業對“大數據”的理解存在誤讀和迷思,很多時候偷換了概念,談的是 “數據”或“大數據時代”,而非“大數據”。同時,很多報道和討論中所引用的大數據案例,其實也并非真正的大數據案例。
事實上,從政府到大型企業,如美國政府的大數據發展與研究的國家戰略計劃,Google、Facebook、YouTube、HP等公司,早已開始研發和全球布局,并已開始對外提供大數據分析業務,而前兩年的云技術和數據挖掘技術等早已為大數據應用提供技術基礎。雖然目前大數據僅僅處于早期階段,有概念炒作的成分,新概念層出不窮,但是我們非常確定不抓新概念肯定不會成功。
疑慮之二:大數據成本高
首先,大數據技術確實需要較高的成本,不僅對人力成本有極高要求,需要高薪聘請懂得如何使用Hadoop等工具的相關人才,而且實施流程上還要投入昂貴的設備購買費用。但正如OBrien指出,“我并不是說新興企業就一定不該使用Hadoop,但就我所經歷的眾多項目來看,小規模公司最好先從MySQL開始——畢竟大部分用戶的有價值數據也就在GB級別”。
其次,在大數據領域,Hadoop的低成本和高擴展性是其關鍵因素。如一個處理PB級規模數據的Hadoop集群(125到250節點)的費用大約為100萬美元,而每個節點每年的費用為4000美元。這對于企業級數據倉庫的花費(1000萬~1億美元)來說只是一小部分。目前全球最大的科技公司都需要和PB級規模的數據打交道。然而,SAP的研究表明,95%的企業通常只需要使用0.5TB~40TB的數據。如果大家只有10TB甚至更少的數據需要加以分析,那么Postgres或其他一些典型處理系統就完全能夠搞定[3]。
最后,大部分數據可能并不花錢或者花錢很少,絕大部分數據是企業自身運營過程中產生的數據,還有相當一部分數據將通過政府開放數據庫共享得到。而數據的儲存則可以很容易地放在云空間里。
疑慮之三:媒體業掌握的數據資源有限
第一,媒體自身就生產大量的信息,同時也是各類信息傳播的主要媒介。媒體在長期運營過程中,無論是記者的大量采訪文本、訪談錄音或是視頻影像資料,還是編輯處理來自記者和一般公眾的印刷或數字資料,其中大多數都是非結構化數據,在應用大數據處理技術之前,這些只能封存在資料室作為備案而已。而在大數據時代,我們可隨時對此進行數據挖掘,從而體現價值。如媒體通過對財經類新聞的文本和視頻數據進行處理,挖掘出具有規律性的信息出售給相關企業,從而實現新聞信息價值的增值。
第二,媒體的數據更為客觀,可信賴性和價值開發程度高。大數據時代數據體量巨大,同時由于網絡、手機等的媒介賦權,人人都可成為公共媒體,人人都可生產和發布內容,媒介主體泛化明顯,信息源無限大量化,各類謠言、謊言、虛言、偏見的信息滿布社會化網絡,依據此類不準確信息所作的大數據分析顯然沒有什么可信度。在這種環境中,專業媒體,尤其是具有廣泛公眾基礎、長期經營的傳統媒體,由于恪守新聞職業道德和媒體從業規范,其所產生的信息和數據在準確性、可信度上自然較高,相應的開發價值也就越大。
第三,大數據的意思并不是要搜集窮盡所有數據,仍然只是要搜集那些重要的、相關的數據。對于獨特或獨占的數據才有單獨掌握和儲存的必要,對于大多數一般的、共享性數據,完全可以放在公共云服務器中。毫無疑問,傳統大眾媒體掌握著大量的一手數據和信息,尤其是其中的深度調查和專題采訪等,往往蘊含著重要、獨占性信息,這成為媒體的一項重要核心優勢。
疑慮之四:媒體業缺乏處理“大數據”的能力,缺乏軟件開發和運營維護人才
一方面,面對任何新的技術,人才和能力總是缺乏的。根據麥肯錫報告,僅美國市場上,近兩年數據挖掘的人才需求缺口就達到14萬~16萬,這正需要提前做好準備。另一方面,目前已有大型專業公司提供大數據處理業務,只要媒體提供數據,分析業務就可外包出去。當然長遠來看,媒體需要培養熟悉媒介新聞信息傳播的專門數據分析人才。通過市場的倒逼,近兩年才興起的云技術和數據挖掘技術的火熱將會導致人才市場上培養出適合的人才。
三、支持媒體應用大數據的要素分析
1. 大數據的數據質量問題
在大數據時代,信息的搜集和數字化處理日益集中化,傳統的隨機抽樣方法被“全部數據的集合——大數據”所取代。以往隨機抽樣中的一些重要屬性,如抽樣的有效性、合理性和推理判斷能力變得不那么重要,而集合全部數據,依據大數據技術進行分析和研究才是關鍵所在。概而言之,傳統抽樣方法進行的數據分析要搞清楚“為什么”才能進行決策判斷,而在大數據時代,則可以直接根據“是什么”來下結論。這樣的結論是根據全體數據分析而得出,因此不受抽樣準確性、個體特征等干擾因素的影響,精確性和預見性將更好。如媒體在作形勢趨勢報道和媒介評論時,顯然大數據分析頗有價值。然而,大數據的準確性完全依賴于數據的匯集,因此,一旦數據來源有缺陷,在“只問會怎么樣,不問為什么”的模式下,就很可能造成重大問題。
在社會化媒體時代,公民新聞和UGC的數量已遠遠超過傳統媒體所提供的新聞信息量,而前者中又往往充斥著各種虛假的、臆造的或甚至是故意誤導的信息。這些龐大蕪雜的信息一方面加大了數據處理工作量,另一方面又極大影響數據分析得出的結論,用錯誤數據得出的決策建議必然導致可怕的后果。此外,大數據的運用可以使得媒體能夠通過機器自動生產新聞,如當大量個體對某種文化產品迅速產生興趣時,數據分析可以敏銳地監測到這種趨勢。
2. 數據所有權和隱私權
首先,數據所有權競爭將嚴重影響國際傳播新秩序和媒體自身利益。基于國家競爭層面,數據所有權對國家信息安全至關重要。“斯若登棱鏡門”事件表明,雅虎、蘋果、美國在線、微軟等國外互聯網公司或網絡媒體早已搜集和擁有全球用戶的相關數據,而美國政府只不過是其中較為高端和特殊的數據用戶而已。從媒體全球競爭角度來看,國外媒體組織在利用這些數據上無疑比中國媒體具有更高優勢,而中國最大的一些網絡媒體公司,所擁有的數據絕大多數只是中國國內數據,這必然影響中國各類媒體組織的國際傳播實力。由于大數據分析技術并非特別核心和關鍵的技術,因此,未來的競爭可能主要集中在數據源的爭奪上。
其次,隱私權和新聞道德也為大數據時代媒體經營提出了更大挑戰。2013年6月爆發的彭博社“窺探門”丑聞事件,從新聞業務運營模式說來,具有重要的教訓和借鑒意義。作為國際金融信息服務業的明星組織,彭博社媒體公司近年來日益發展壯大,其主要運作模式在于融合商用數據與新聞業務。然而,很多時候,彭博社記者與編輯常常在保持新聞業務職業道德和與自己關聯的大客戶相關新聞報道時難以秉持客觀立場,使得媒體人突破新聞道德的束縛。丑聞中所凸顯的個人隱私保護、數據信息安全(尤其是國家金融信息安全)問題,也是日益引發民眾擔憂、各級媒體需要警醒和應對的重要課題。真實是新聞的生命線,大眾知情權和個體隱私權也是新聞報道一個難以平衡的矛盾,但用誠信手段獲取新聞同樣是新聞的生命線。因此,新聞媒體應當準確掌握新聞道德和新聞創造之間的度量。
四、媒體應對與發展前瞻
以上分析表明,媒體在大數據來源上具有優勢,隨著數據規模的持續增大,如何將數據資源轉化為顯性價值是媒體經營發展的重要課題。這主要包含兩個重要環節,一是如何將原始數據分析加工形成對媒體生態產業發展有意義的產品,二是如何將數據產品與媒體生態產業鏈內各個環節與組織相匹配。實現了這兩個環節,媒體組織的大數據戰略才能體現意義。
部分媒體組織(主要是網絡媒體以及部分正在數字化轉型的傳統媒體)正在利用新興技術來開發和利用新的數據源,媒體組織需要積極提升自己的數據管理能力,并且靈活地根據自身所涉及的數據活動生命周期制定流程和開發功能軟件。在此之前,媒體組織應當明確如何開展數據戰略,具體來說,要搞清楚媒體組織對于期望利用這些數據來執行什么任務,以及數據質量和精度處于何種級別。隨著組織大數據戰略項目的日趨成熟,考慮建立一套按照數據質量或精確度分類的方法,這對進行客戶的商業化數據開發很有必要。媒體組織應當開始逐漸采用大數據技術來處理非結構化數據,并在基于合法、道德的規范下進行恰當的描述和管理,以便盡可能最有效地利用這些數據。
大數據對數字化生存的企業造成的沖擊是非常巨大的,新聞傳媒作為信息傳播的前沿行業,其所面臨的沖擊和挑戰也必然存在。對于正面臨數字化轉型的媒體來說,如何應對這次沖擊,需要均衡正反多方面的意見,進行理性決策。面對大數據時代的沖擊,中國媒體需要結合自身特色,積極進行轉型和創新發展思路,走出一條符合中國國情、符合傳播規律、符合社會所需的發展道路,這個過程中存在諸多機會,也面臨許多挑戰。然而,不同于印刷革命,中國媒體沒有幾個世紀的時間去適應,能夠有的時間或許只有幾年。
(作者單位:天津商業大學公共管理學院,本文系天津哲學社會科學規劃項目“新媒介事件與轉型期政府公信力提升研究”的階段性成果,項目編號:TJXC12-005)
參考文獻
[1]曾凡斌.大數據對媒體經營管理的影響及應對分析[J],出版發行研究,2013(2).
[2]王武彬.關于大數據的誤區與迷思[N]. 傳媒,2013-06-09.
[3]Forbes,福布斯:大數據帶來高成本 Hadoop需繼續完善[EB/OL]. http://www.csdn.net/article/2012-04-23/2804943, 2012-04-23.