王紅丹 潘莉
摘 要:大數據時代背景下,傳統紙媒圖書出版行業面臨新的機遇和挑戰。本文擬對淘寶網上銷售的圖書數據進行數據可視化分析,在閱讀和總結以往的數據可視化分析基礎上,結合相關的圖書出版業文獻資料,運用數據可視化平臺SaCa DataViz對搜集到的淘寶網上圖書的銷售數據進行可視化分析,得到圖書銷售的現狀,根據研究結果,為出版編輯提供更多的出版方向,以促進我國圖書出版業進一步健康發展。
關鍵詞:數據可視化分析;圖書銷售;SaCa DataViz
1引言
圖書出版業數據可視化分析旨在從龐大復雜、混亂無序的圖書銷售數據中,利用圖形圖像的處理方法與技術對其進行視覺呈現,充分挖掘出有價值的內容,給出版編輯提供信息,做出決策,為出版社提供更多的出版方向,對作者的創作信心起積極作用。有利于我國圖書出版業經濟發展,有利于為出版業理念的轉變找到方向。
2研究方法與內容
本文為了對我國圖書出版業圖書的銷售情況進行分析,通過SaCa DataViz平臺工具,對數據進行了可視化分析。以期得到出版業未來的發展方向。
研究的具體內容如下:首先,介紹了眾多的數據可視化分析工具和平臺,選擇了對更適合本文研究的數據可視化平臺SaCa DataViz。然后,在對眾多能反映我國圖書出版業銷售現狀的數據指標中篩選出了最適合的6個指標。其次,對淘寶網上的圖書總銷售量、總銷售額、購買者信息等指標進行SaCa DataViz數據可視化實例分析和研究,得到銷售現狀。最后,根據得到的研究結果,結合資料,給出版社以及銷售商一定的發展建議。
3圖書出版業大數據可視化分析實證
出版社獲得的圖書銷售數據很多,基礎的數據是銷售量、銷售額等,錯綜復雜,數據的準確率較低,分析效率不高。現今,我國圖書的銷售渠道主要包括線上銷售、線下銷售以及統一采購這幾種,在網絡如此發達的社會,網絡信息便利的時代,人們越來越依賴于網絡,所以,在圖書的銷售上,線上銷售數據具有一定的代表性。并且像當今比較受歡迎的銷售書店,類似磨鐵、中南圖書、文軒等,都選擇在淘寶網上進行銷售,所以本文以2019年4月在淘寶網上銷售的圖書數據為例講解圖書出版業大數據可視化分析。
3.1行業數據的選擇與搜集
數據的搜集上,本文篩選2019年4月在淘寶網上圖書銷售的詳細數據,從中選擇了本文研究所需的可以體現出發展現狀以及購買者分布的數據指標,即銷售量、銷售額、購買者人群畫像(包括性別、年齡、職業、購買者地址)這6個數據指標進行研究。
3.2數據預處理
1)數據整理:將原始數據從網站上抓取下來,經過整理,得到淘寶網上銷售圖書總銷售量、總銷售額、性別、年齡分布、職業、地理位置等,共6列數據,總共1625條數據。
2)數據去噪:在選擇出來的所有數據中,將存在缺失數據的指標進行刪除,通過篩選,剩余數據1622個。
3)數據集成:將整理好的數據按照研究目的的不同,需要的數據指標不同,將其分類整理。
3.3數據可視化分析
3.3.1分類圖書銷量與銷售額占比情況
(一)二級類目
本文中,將二級圖書分類為:兒童讀物/教輔、進口原版書、社會科學、文學、小說和自我實現/勵志這6大類。
在二級類目的圖書銷量中,根據圖1看出,我國的兒童讀物/教輔這類圖書占總銷售量的比例最大,多達71.69%,銷售量達1087萬余本。其次是自我實現/勵志類圖書,出售200多萬本,占總量的13.2%。其他各類圖書的占比就比較小了,例如進口原本書只占1%。
(二)三級類目
在二級類目圖書分類下,再將圖書分類細化,得到三級類目圖書為:中國現當代隨筆、中國古詩詞、中國兒童文學、演講/口才、心靈與修養、心靈學、現代/當代文學、外國小說、世界名著、青春小說、勵志、繪畫/漫畫、兒童讀物原版書、成功這14類。
在細分后的分類圖書銷量中,我國的中國兒童文學這類圖書銷量占總銷售量的比例最大,基本占一半,多達52.73%,銷售量達799萬余本。其次是繪畫/漫畫類圖書,出售264萬本,占總量的17.39%。其他各類圖書的占比就比較小了,基本都有占到5%左右,例如世界名著和現代/當代文學都只有4%。
3.3.2購買者人群畫像分布
(一)性別比例
在性別這一分類下,女性占60%,男性占比40%,女性人數是男性購買人數的1.5倍。
(二)年齡占比
在年齡的分類中,本文將其分為最具代表的5類:18-24,25-29,30-39,40-49,50及以上。看圖6可知,18-24歲的人數最多,有4.5萬人,占總數的約32%,年齡在50及以上的人數占比最少,只有6.5%。其余三個年齡段人數大約都在3萬左右,占比20%左右。
(三)職業比例
在職業分類中,本文簡單的將購買者分為個體經營/服務人員、公務員、公司職員、學生這4類。看圖7可以知道,在我國,圖書購買者為公司職員的人數最多,有3.7萬左右,學生有3.2萬,最少的是公務員,有1.2萬左右。
3.3.3購買地分布
在研究購買者所屬地區分布時,本文選擇了全國圖書銷售排前7的省份,以及這7個省份的省會的銷售量。綜合省份與省會兩個指標,人數最多的是廣東省,其次是江蘇省。
4結論與建議
綜合實證研究所得結果,為了增加圖書出版業的經濟收入以及未來發展方向,給出版社提出了以下建議:1)應重視少兒圖書出版2)細分圖書市場3)謹慎選擇線下銷售選址。
在本文撰寫過程中,仍存在著如數據獲取不夠全面,數據挖掘深度及可視化設計深度不夠,運用可視化研究方法單一等問題。在今后的研究中,可從圖書定價、紙張質量、封面設計等角度做更加詳細的可視化分析;呈現更為直觀的三維圖展示;運用多種可視化方法進行研究。
作者簡介:
1.王紅丹,成都信息工程大學統計學院學生