祖成浩
[摘 要] 隨著技術的發展,出版的產品形態越來越豐富。文章研究了大數據在出版業上的應用,通過大數據技術分析讀者群體的閱讀喜好,可以更加有效的確定產品的形態,最大程度的滿足讀者的期望,在營銷和發行環節,利用大數據技術還可以做到精準的營銷。
[關鍵詞] 出版;大數據;讀者畫像
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 19. 033
[中圖分類號] F270.7 [文獻標識碼] A [文章編號] 1673 - 0194(2017)19- 0079- 03
1 國內外出版大數據現狀
隨著數字出版的快速發展,越來越多的讀者開始在數字化的環境中閱讀、學習,如使用手機、平板電腦進行看書、學習、分享、互動等。與傳統的紙質圖書閱讀相比,數字化的閱讀環境中更容易捕捉和記錄閱讀和學習的數據,比如某個知識點的點擊次數,知識點的分布情況,知識點的分享頻度等。
各行各業都在利用大數據技術改善和推動行業變化,如交通、快消、電商等領域應用大數據技術實現信息精準推送,提升信息傳達的效率,出版行業也不例外,國外大型出版企業很早就注意到利用大數據技術提升用戶體驗。美國書呆網利用大數據技術分析讀者的閱讀愛好、興趣類別、知識需要,從而向讀者精準推薦最感興趣的圖書,改善了圖書推薦的用戶體驗,提升了圖書購買的效率。培生公司利用學習平臺記錄讀者在某個知識點的停留時間、點擊次數、該知識點相關內容點擊情況,運用大數據技術分析讀者對知識點的理解和掌握情況,從而為老師和學生總結學習重點和難點,進而推薦更有效的學習工具和學習內容。
我國出版行業也越來越重視大數據的應用,當當網利用每天產生的幾千萬條數據,重塑創作過程,并為小說改編為影視劇提供大數據支撐。初次之外,當當網通過圖書試讀收集數據,通過大數據分析預測圖書銷量,為圖書零庫存提供數據依據。
2 出版業大數據來源及類型
我國目前每年出版圖書品種約40多萬種,總印數80多億冊,2015年我國人均閱讀紙書4.58本,電子書3.26本。如此多的圖書、期刊、論文被10多億人閱讀,在數字化的閱讀環境中將產生海量的數據。除了閱讀產生的數據外,在圖書內容生產過程中、營銷過程中、傳播過程中也會產生大量的數據。總體而言,這些數據可以分為圖書信息數據、作者信息數據、圖書營銷數據、網絡評價數據、閱讀行為數據、讀者畫像數據等。
除了與圖書直接相關的數據外,還有更多的與讀者閱讀有關的數據,如微信閱讀、微博閱讀、圖片瀏覽、視頻瀏覽等數據,這些數據經過大數據分析后,對于圖書選題分析、圖書宣傳策劃、圖書營銷等都會產生很大的價值。
3 出版業中大數據的運用
在出版行業,庫存是每個出版社都面臨的需要解決問題,2013年我國圖書營收約770億元,而庫存已達800億元,如此大的庫存量說明在圖書印量方面存在市場估計的不準確性。如何科學有效的評估市場對圖書印量的需求,需要轉換思路,加強圖書發行環節的銷售數量預測,也可以利用大數據加強圖書預期銷售的評估分析。
圖書在選題策劃之初,編輯根據以往的經驗和自己的市場判斷,基本確定了圖書的版式設計、紙張選擇、封面設計、開本設計、市場宣傳設計等,但圖書上市之后,往往與圖書選題策劃時候的評估存在一定的偏差。這種情況下可以利用大數據技術對圖書針對的用戶群體做針對性的分析,通過用戶畫像了解用戶購買的動因,從而修正和完善圖書的設計與內容策劃。
每一個編輯都希望自己的圖書選題能夠與讀者的期望、社會的發展相契合,從而做出深受讀者喜愛的暢銷書或長銷書。如何準確的找到特定讀者群體關注的熱點,以及如何判斷這樣的熱點將會延續多長時間,就成為確定選題的重點。以往大多數來源于編輯的直覺,以及非系統性的數據積累,而通過大數據技術實現對不同領域熱點的分析,建立相應的分析模型,評估熱度及趨勢,將會有助于編輯實現熱點選題的判斷和篩選。
在內容編纂環節,可以利用大數據技術評估哪些章節讀者比較關注,那些章節讀者不太關注,從而對圖書章節的設置做出調整,對讀者比較關注的章節進行重點編纂,在內容呈現形態上選擇文字為主,還是文字圖片多媒體加上交互為主。
在最終的產品形態上,以往紙質圖書或原版原式電子書大多是最終的產品。隨著交互技術的發展,以及AR/VR的研發與應用,出版的產品形態越來越豐富,也越來越符合閱讀和學習的需要。通過大數據技術分析讀者群體的閱讀喜好,如閱讀終端、閱讀環境、閱讀時長等,可以更加有效的確定產品的形態,最大程度的滿足讀者的期望。
在出版物評價方式上,在業內專家評價、營銷收據評價之外,還可以利用大數據技術對圖書的市場效應、社會效應進行分析和評估,進而做出科學合理完整的圖書畫像,豐富圖書評價的內涵。
在營銷和發行環節,利用大數據技術可以做到精準的營銷。首先通過大數據技術確定用戶畫像,如用戶年齡分布、學歷分布、地域分布、喜好分布、購買力分布、獲取信息途徑分布等等,依據用戶畫像確定圖書營銷方案,從而達到最有效和精準的營銷。
4 出版業大數據技術解決方案
出版業大數據技術解決方案由元數據采集、數據處理、數據分析與挖掘、業務應用四部分組成。其技術架構圖如圖1所示。
4.1 元數據采集
元數據采集主要實現網絡信息的采集,如微博、微信數據的采集,特定網站欄目和頻道數據的采集,特定論壇頻道的數據采集,以及電商平臺數據的采集等。元數據采集一般需要根據業務的應用范圍設定相應的數據源,并根據數據源制定數據采集模板。
4.2 數據處理
數據處理是對采集到的元數據進行去重、去噪、結構化等處理。一般情況下,不同的數據源存在數據重復或數據部分重復,因此需要對數據進行去重處理,以提高數據的有效性。另外還需要對數據進行去噪處理,有些數據是垃圾數據或無效數據,因此需要建立相應的算法和模型,對垃圾數據進行甄別,并進行剔除。去重去噪后的數據按照數據類別進行存儲和管理,并按照一定的規則自動設定相應的數據標簽。
4.3 數據分析與挖掘
對于已經清晰過的數據,運用語義分析技術、情感分析技術等進行數據分析和挖掘,并根據業務場景的需要建立數據分析和挖掘模型,運用不同的算法對數據進行計算,并利用可視化技術對數據結果進行圖形化的呈現。
4.4 業務應用
數據分析和挖掘的結果可以面向不同的人員和角色提供服務,也可以按照選題優化、內容設計、產品形態設計、產品營銷等應用場景提供服務。
5 結 語
出版業大數據的應用目前還處在探索階段,隨著大數據技術的不斷發展,出版業應用的需求越來越清晰,以及對出版業應用的宣發和模型不斷優化,大數據技術將會在出版業發揮越來越大的作用。
主要參考文獻
[1]毛文思.大數據與出版業[J].出版參考,2014(2).
[2]李兵,漆詠德.大數據時代出版企業的商業模式構建[J].出版發行研究,2013(8):37-40.
[3]周煜.大數據時代出版行業發展趨勢分析[J].中國出版,2014(7):19-22.
[4]石佳靚.大數據:出版產業的機遇與實踐[J].中國出版,2014(11):44-47.endprint