劉元生
(安徽新聞出版職業技術學院新聞傳播系,合肥 230601)
信息技術的發展催生了海量數據,數據來源的渠道不僅包括網絡內容,還包括社交媒體。而將海量數據快速加以歸納、計算和分析,得出商業價值高的信息,這就是大數據。大數據技術將會是出版業下一個前沿技術競爭力的主要應用。
科技的發展從來不以人的意志為轉移。網絡傳播和數字技術給全球出版業帶來了新業態與新格局,告別“鉛與火”、迎來“光與電”的傳統出版業已經邁入了數字全媒體出版時代。數字出版是將傳統出版內容通過計算機、網絡與多媒體、存儲與顯示以及傳播技術,使其出版過程及產品形態數字化,融合并超越了傳統出版。伴隨移動互聯網的興起,移動出版實現了傳統出版在數字生產和移動傳播方面的突破,將數字出版的內容通過智能移動設備和移動網絡進行傳播,成為數字出版的一種潮流。而在社會自媒體的強力推動下,電子自出版平臺的蓬勃興起,使自出版挑戰傳統出版規則,開始獨領風騷,甚至可能顛覆傳統出版業。
總之,通過互聯網、移動網絡以及社交媒體、云計算發展的數字形式出版,因其產品內容的數字化、產品形態的數字化、生產流程的數字化、產品傳播的數字化以及閱讀與學習形式的數字化,使其成為出版業大數據采集的重要來源和參考依據。
傳統出版行業的數據來源于選題數量、印刷數量、發行數量、重印數量和銷售數量等。而數字出版需要借助計算機或終端設備將所有的出版內容信息都轉換成0和1的代碼,不僅包括數字化出版內容、數字化編輯過程、數字化復制掃描,還包括數字化發行銷售以及數字閱讀消費化等,所有這些數字化的信息均存儲于光、磁介質中。比如,以文字為起點的閱讀,在數字技術的支撐下,一本純文字小說書的數據、帶有圖片的相關學習資料,甚至一段帶有聲音、視頻、動畫等多媒體作品的讀物,所占空間都不算大。因此,傳統數字出版產品形態的典型特點是“小數據”生產與制作。
知識的碎片化、讀者的興趣點以及豐富多彩的閱讀體驗是數字出版帶給讀者的直接感受。閱讀內容和興趣的深度挖掘、知識的重新發現與內容組織,乃至閱讀信息本身的智能型分析與匹配、數據關系的智能服務等,正是出版業所要解決與處理的大數據。大數據具有“4V”特征,即Volume Big(數據容量大)、Variable Type(數據類型多)、Velocity Fast(數據處理速度快)以及Value High(數據價值高)。
互聯網由Web2.0發展到Web3.0,互聯網上的大數據主要有基于用戶消費的數據、基于用戶行為的數據、基于地理位置的數據和基于社交網絡的數據等。大數據生成主要來自PGC(專業生成內容)、UGC(用戶生成內容)、OGC(職業生產內容)和DGC(設備生成內容)。出版業的大數據主要來自企業管理數據、作者的寫作過程數據、發表的作品內容數據、讀者的閱讀行為習慣數據以及其他衍生數據。其中,企業管理數據主要包括出版系統、發行管理系統以及作者管理系統數據,如生產記錄、財務記錄、管理記錄、資源統計等;過程數據主要包括作者的選題、思維過程以及對作品的修改記錄等;發表的作品內容包括用戶發表的網絡文學,博客、微博、QQ、微信等實時交流的內容;讀者的行為數據指用戶圍繞作品而執行瀏覽、點擊、閱讀、搜索、購買行為等;閱讀的衍生數據主要是對作品的評價、閱讀交流以及后期分享等。
大數據從數據結構上主要分為:結構化數據(數據結構字段含義確定、清晰)、半結構化數據(具有一定結構,但語義不夠確定)和非結構化數據(雜亂無章、很難按照一個概念去進行抽取、無規律性)。出版領域的結構化數據通過關系數據庫來存儲,主要包括出版社的ERP、財務系統、作者、讀者、書籍等作品的基礎信息。半結構數據主要通過關系數據庫或半結構原生數據庫來存儲,包括郵件、報表、出版的內容、版式的設計以及相關的元數據等文件。非結構數據通常使用關系數據庫中的特定數據類型或文件夾進行存儲,主要包括音頻、視頻、圖像、動畫等文件。
大數據不僅是一種資源,也是一種生產工具。利用大數據進行數據分析,可以判斷出版業的發展趨勢,進而進行商業業態的創新和商業價值的開發。
不同來源、不同結構的大數據經過提取、整合、分析、解釋、理解、挖掘處理等操作,對于出版業將會產生巨大的影響。處理分析挖掘后的大數據應用主要體現在以下幾個方面:
智能預測是大數據應用的重要功能之一。出版商可以通過對用戶瀏覽記錄、支付記錄、消費者評論、評價等海量用戶行為數據的挖掘和分析,準確把握受眾的興趣,并將當前熱點話題作為可選擇的內容主題,取權威數字,以焦點人物和流行人物為作者候選人,準確定位目標受眾群體,細分個性化市場,估計市場容量,準確傳遞內容,提醒用戶路過的商店是否有相應的產品正在促銷,以此擊中暢銷書的“金礦”。例如,經典神劇《紙牌屋》在這方面就成功演繹了大數據的神話,出品方兼播放平臺Netflix在搜集用戶3000萬條播放記錄、300萬次的主題搜索、400萬條評論的大數據中,選擇人氣最高的大衛·芬奇和著名影星凱文·斯派西擔任該劇的導演和主演,一個季度就使得美國市場新增用戶達到3342萬,收入增長了500%。
美國沃爾瑪“啤酒與尿布”購物籃分析法就是對超市一年多原始交易的數據進行詳細分析,總結得出,美國的年輕媽媽們總會讓爸爸在下班后去購買嬰兒尿布,而爸爸選擇尿布后總是附帶上自己喜愛的啤酒。因此,超市就干脆將啤酒與尿布捆綁在一起銷售,并獲得了很好的銷售業績,“啤酒與尿布”也因此成為營銷界的一個神話。出版機構的大數據,不僅可以用于選題策劃,還可以根據大數據分析的結果進行內容的個性定制。在數字閱讀時代,出版業可以憑借大數據技術精準捕獲用戶的瀏覽和消費行為,包括何時、何地、看了哪些書等信息。讀者的閱讀偏好和瀏覽趨勢是出版業必須獲取的重要資源,再加上大數據分析技術來有效把握讀者的需求,并以自己的專業能力影響、引導讀者的興趣,凝聚他們的創意、提煉他們的思想,出版者就可以將個性化的內容推送給特定用戶,實現真正的個性定制和按需出版。
未來,大眾化的數字產品都可以歸結為一種“游戲”。數字出版物在全媒體時代是豐富多彩的,包括圖片、音效、音樂和動畫。最典型的例子就是可穿戴電子產品的開發,其可以通過指尖滑動、眼睛旋轉或手臂擺動來獲得信息和無與倫比的樂趣。并且一旦經歷之后,就會想把這些信息分享給大家。關注、交流和分享,會引發人們更多的互動內容,引導信息和知識的自我生成和自我組織。出版者通過數字內容智能分析工具對數字內容閱讀平臺進行智能分析,可以實時挖掘受眾最為真實的在線消費體驗和閱讀需求,從而對數字出版的效果給予科學的評估。例如,中國太平洋保險在國內首次推出“大數據客戶體驗”報告,并在每年的國際消費者權益日深度推行大數據客戶體驗報告,旨在反映客戶體驗的痛點,接受客戶和公眾的監督。
大數據不僅改變了人們的閱讀習慣和閱讀方式,也改變了用戶的預期。最明顯的特點是,網民與消費者之間的界限正在逐漸消失,他們更希望企業能夠了解他們,了解他們的偏好和需求,并與他們保持個性化的聯系。作為內容提供商的主體,出版者必須完成從內容提供商到服務提供商的定位轉換,這就意味著出版者需重新認識和定位數字出版,不再將發展數字出版僅僅停留在數字化內容的建設上,而是開始從消費服務的模式來建構內容產業,讓個性化、精準化的智能服務成為現實。