康寶中 林海
近年來,隨著圖書銷售數(shù)據(jù)管理的規(guī)范化、信息化,圖書選題策劃人員面對(duì)書城近期銷售排行榜、銷售月報(bào)以及《開卷圖書調(diào)查報(bào)告》等眾多報(bào)表,對(duì)其進(jìn)行深度研究與定量分析,獲得的結(jié)果無疑極有價(jià)值,也是未來圖書市場(chǎng)調(diào)查研究的趨勢(shì)。圖書選題作為圖書出版的最初環(huán)節(jié),歷來被出版單位所重視。圖書選題策劃的基本流程包括信息篩選、選題設(shè)計(jì)、選題論證、選題優(yōu)化等,圖書銷售數(shù)據(jù)能夠直觀反應(yīng)市場(chǎng)規(guī)律與用戶消費(fèi)傾向,對(duì)選題策劃有著重要的影響。但出版單位對(duì)于確定圖書選題類別以及確定印刷量顯得力不從心。
鑒于圖書市場(chǎng)具有短期的波動(dòng)性與中長(zhǎng)期的周期性、銷售數(shù)量巨大與銷售品種繁多并存等特點(diǎn),給出版單位選題策劃帶來很大困難。根據(jù)圖書市場(chǎng)短期波動(dòng)性特點(diǎn),提出了使用改進(jìn)神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)圖書印刷量,可為出版單位確定各地域的指定圖書選題印刷量提供參考。
一、基于神經(jīng)網(wǎng)絡(luò)模型的銷售預(yù)測(cè)分析
人工神經(jīng)網(wǎng)絡(luò)的思想源自仿效生物學(xué)神經(jīng)網(wǎng)絡(luò),當(dāng)今地球上所有生命體的大腦均由神經(jīng)網(wǎng)絡(luò)組成。現(xiàn)代神經(jīng)網(wǎng)絡(luò)項(xiàng)目通常有幾千個(gè)到幾百萬個(gè)神經(jīng)單位和上百萬個(gè)連接,這幾個(gè)數(shù)量級(jí)雖然遠(yuǎn)不如人腦復(fù)雜,但已經(jīng)接近蠕蟲的計(jì)算能力。
(一)神經(jīng)網(wǎng)絡(luò)算法簡(jiǎn)介
反向傳播BP(Back Propagation)學(xué)習(xí)算法的前饋型神經(jīng)網(wǎng)絡(luò)簡(jiǎn)稱BP神經(jīng)網(wǎng)絡(luò)(BPNN)。BP神經(jīng)網(wǎng)絡(luò)主要特點(diǎn)是信號(hào)從輸入層通過隱含層直至輸出層整個(gè)過程保持前向傳遞,依次經(jīng)過隱含層,其中隱含層可能有多層,通過逐層神經(jīng)元后,最后從輸出層輸出神經(jīng)網(wǎng)絡(luò)處理結(jié)果。其中,上一層神經(jīng)元的結(jié)果只影響下一層神經(jīng)元的操作。如果輸出層的輸出值達(dá)不到預(yù)期目標(biāo),則神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)入誤差的反向傳播過程,根據(jù)預(yù)測(cè)誤差不斷調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值,再進(jìn)行信號(hào)的前向傳遞,反復(fù)迭代,使神經(jīng)網(wǎng)絡(luò)的輸出值不斷逼近目標(biāo)輸出值。神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)如圖1-1所示:

由圖1-2可知,整個(gè)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)流程分為三個(gè)主要部分:第一部分為數(shù)據(jù)的清洗準(zhǔn)備階段;第二部分為訓(xùn)練集訓(xùn)練階段,通過驗(yàn)證增加作者與內(nèi)容熱度模型較普通模型獲得更好的熱點(diǎn)事件預(yù)測(cè)效果,當(dāng)RMSE基本不變時(shí),最終確定預(yù)測(cè)模型;第三部分為測(cè)試集預(yù)測(cè)階段,將測(cè)試集數(shù)據(jù)裝載入預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。
1. 數(shù)據(jù)準(zhǔn)備階段
首先,將圖書銷售數(shù)據(jù)與書號(hào)實(shí)名申領(lǐng)系統(tǒng)數(shù)據(jù)通過ISBN碼進(jìn)行關(guān)聯(lián),解決圖書銷售數(shù)據(jù)、作者信息殘缺等問題,然后按地域進(jìn)行分組。其中對(duì)分類項(xiàng)采用獨(dú)熱編碼處理,將離散特征取值按一定的映射規(guī)則,擴(kuò)展至歐式空間,在歐式空間中離散特征的某個(gè)取值就對(duì)應(yīng)一個(gè)點(diǎn)。在機(jī)器學(xué)習(xí)算法中,會(huì)比較頻繁的計(jì)算特征之間距離或相似度,在具體的過程中常用的距離或相似度計(jì)算正是基于歐式空間。完成以上步驟即完成數(shù)據(jù)準(zhǔn)備階段。
2. 確定預(yù)測(cè)模型
通過預(yù)測(cè)模型反復(fù)的訓(xùn)練,直至RMSE趨于穩(wěn)定值。通過比對(duì)預(yù)測(cè)值與實(shí)際值,提出了采用微博熱搜數(shù)據(jù)對(duì)作者加權(quán)的改進(jìn)方案,通過網(wǎng)絡(luò)爬取熱搜信息,引入作者熱度因子,進(jìn)而改進(jìn)預(yù)測(cè)模型。通過對(duì)改進(jìn)模型進(jìn)行反復(fù)迭代,經(jīng)對(duì)比分析后,改進(jìn)后的模型對(duì)熱門事件預(yù)測(cè)能力顯著提高,進(jìn)而最終確定基于神經(jīng)網(wǎng)絡(luò)的圖書選題預(yù)測(cè)模型。
3. 預(yù)測(cè)短期內(nèi)圖書銷量
通過改進(jìn)的預(yù)測(cè)模型,按地域劃分對(duì)選題印刷量進(jìn)行預(yù)測(cè),利于出版單位工作人員合理確定各地域印刷量,最終將預(yù)測(cè)結(jié)果持久化至數(shù)據(jù)庫。
(三)數(shù)據(jù)清洗
以《開卷圖書銷售報(bào)告》(2013-2016)為例,該數(shù)據(jù)覆蓋全國(guó)2000余家實(shí)體書店門市,20余家獨(dú)立網(wǎng)店及天貓書城,具有良好的連續(xù)性、代表性和完整性。采用2012-2013連續(xù)2年的圖書零售市場(chǎng)逐月觀測(cè)數(shù)據(jù)作為訓(xùn)練集,2014-2015年為測(cè)試集。同時(shí),分?jǐn)?shù)據(jù)采用書號(hào)實(shí)名申領(lǐng)數(shù)據(jù),書號(hào)實(shí)名申領(lǐng)系統(tǒng)作為中國(guó)圖書出版的基礎(chǔ)性建設(shè),涵蓋全國(guó)范圍內(nèi)發(fā)行的圖書選題所有數(shù)據(jù),具有權(quán)威性。
首先,將圖書銷售數(shù)據(jù)與書號(hào)實(shí)名申領(lǐng)系統(tǒng)數(shù)據(jù)通過ISBN碼進(jìn)行關(guān)聯(lián),采用書號(hào)系統(tǒng)數(shù)據(jù)填補(bǔ)等措施,解決如銷售數(shù)據(jù)、作者信息殘缺等數(shù)據(jù)問題;手動(dòng)清洗部分出版方式、地域等填寫不規(guī)范或數(shù)據(jù)殘缺問題;保留規(guī)范和有效的數(shù)據(jù),如書名、作者、售價(jià)、時(shí)間、銷量、中圖分類1級(jí)、中圖分類2級(jí)、中圖分類3級(jí)、選題類型、語言類別、裝訂類型(平裝、精裝等)、頁數(shù)、字?jǐn)?shù)、內(nèi)容簡(jiǎn)介、內(nèi)容類型(新書、重印、再版)、版次、印次、讀者對(duì)象、地區(qū)、出版方式(常規(guī)出版、合作出版、引進(jìn)出版等)、作者產(chǎn)量頻度、出版單位產(chǎn)量頻度等字段;然后按地域分組,采用獨(dú)熱編碼來處理離散型特征。
(四)確定預(yù)測(cè)模型及改進(jìn)
模型通過8000次訓(xùn)練,RMSE基本趨于穩(wěn)定值,測(cè)試集預(yù)測(cè)結(jié)果均已輸出,如圖1-3所示:
預(yù)測(cè)樣例的預(yù)測(cè)值與實(shí)際值如圖1-4所示,可以看出預(yù)測(cè)誤差范圍基本在可接受范圍之內(nèi)。
通過分析可知上述模型對(duì)于類似“諾獎(jiǎng)事件”的熱門、熱點(diǎn)事件無法做到準(zhǔn)確預(yù)測(cè),原因在于圖書銷售數(shù)據(jù)與書號(hào)實(shí)名申領(lǐng)系統(tǒng)數(shù)據(jù)無法關(guān)聯(lián)熱點(diǎn)時(shí)事,同時(shí)不存在反應(yīng)作者的熱門指標(biāo)。綜上所述,模型改進(jìn)上需增加對(duì)于作者熱度的權(quán)值信息與選題內(nèi)容的權(quán)值信息,通過比對(duì)是否含有熱搜、作者信息加權(quán),而對(duì)于選題內(nèi)容加權(quán)來說,通過對(duì)選題內(nèi)容分詞后,判斷否包含熱搜詞語來對(duì)選題內(nèi)容加權(quán)。
對(duì)于新浪微博熱搜詞與熱搜名人信息的搜集,通過采用網(wǎng)絡(luò)爬取的形式,通過Jsoup框架將兩部分?jǐn)?shù)據(jù)中的排名、關(guān)鍵詞、搜索指數(shù)等信息按一定頻率進(jìn)行爬取,解析處理后保存至數(shù)據(jù)庫中,為銷售數(shù)據(jù)的作者加權(quán)及選題內(nèi)容加權(quán)作為數(shù)據(jù)支撐。
增加作者熱度與內(nèi)容熱度兩個(gè)維度,模擬熱搜數(shù)據(jù)通過將一條數(shù)據(jù)修改為熱搜作者或?qū)D書選題內(nèi)容簡(jiǎn)介中增加微博熱搜詞信息。
對(duì)模型進(jìn)行改進(jìn)后,以固定頻率爬取新浪微博熱搜數(shù)據(jù),采用模擬方式以及對(duì)比歷史數(shù)據(jù)的方式可以明顯提高預(yù)測(cè)準(zhǔn)確度。如圖1-5所示:
隨著“諾貝爾獎(jiǎng)?lì)C獎(jiǎng)”揭曉時(shí)刻的遠(yuǎn)去,虛構(gòu)類榜單的“莫言熱”也逐漸降溫,不過在2013年1月的榜單中莫言依然是入榜品種數(shù)最多的作者,《蛙》再次蟬聯(lián)榜單首位;同樣隨著網(wǎng)絡(luò)連續(xù)劇《盜墓筆記》的熱播和同名電影《盜墓筆記》的上映,南派三叔的《盜墓筆記》和《藏?;ā返染憩F(xiàn)出強(qiáng)勢(shì)的銷售熱潮,本次選取莫言的代表作品《蛙》以及南派三叔代表作品《盜墓筆記》作為預(yù)測(cè)樣例。
首先,我們以前三個(gè)月的數(shù)據(jù)為基礎(chǔ),預(yù)測(cè)下一個(gè)月的銷售數(shù)量,并與實(shí)際銷售數(shù)量進(jìn)行比較。從上圖看出,預(yù)測(cè)偏差基本在可控范圍之內(nèi),表明增加了作者熱度與選題熱度的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法,對(duì)熱點(diǎn)事件帶來的圖書印刷量激增的情形具有較好的預(yù)測(cè)擬合效果。
二、實(shí)驗(yàn)結(jié)果及應(yīng)用
根據(jù)預(yù)測(cè)數(shù)據(jù),用戶可通過在選題預(yù)測(cè)公眾號(hào)中輸入“map”,將各選題的預(yù)測(cè)結(jié)果以各省、自治區(qū)、直轄市、特別行政區(qū)的形式展示。本次預(yù)測(cè)選題選定中圖分類法兒童類,包含二級(jí)分類卡通/漫畫/繪本、少兒英語、少兒國(guó)學(xué)經(jīng)典、少兒藝術(shù)、少兒文學(xué)、少兒科普百科、低幼啟蒙、幼兒園教材、卡片掛圖、游戲益智、青少年心理自助11個(gè)子類,三級(jí)分類少兒卡通、少兒英語、少兒國(guó)學(xué)經(jīng)典、少兒美術(shù)、少兒藝術(shù)綜合、少兒游戲、少兒繪本、幼兒園教師用書、少兒卡片、少兒小說、少兒漫畫、少兒科普百科、少兒掛圖、連環(huán)畫、少兒文學(xué)名著、低幼啟蒙、青春漫畫、少兒文學(xué)其他、少兒手工、少兒音樂、少兒故事、幼兒教材、青少年心理自助共23個(gè)子類。
預(yù)測(cè)的圖書銷量按各省、自治區(qū)、直轄市、特別行政區(qū)以顏色深淺區(qū)分,顏色越深表示銷售量越大;通過左下角標(biāo)尺可以調(diào)節(jié)印量單位值,給出更為直觀的展示,合理安排不同地域的圖書印刷量,可以減少不必要的人、財(cái)、物的消耗,同樣在減少運(yùn)輸成本與庫存積壓及銷售供給方面具有巨大優(yōu)勢(shì)。
通過雙擊地圖中的省、自治區(qū)、直轄市、特別行政區(qū),可以進(jìn)入選題預(yù)測(cè)詳情頁面,展示該地域下一個(gè)月的印量預(yù)測(cè)信息,為出版單位工作人員指定下一個(gè)月的銷售計(jì)劃提供決策參考。
通過以上分析,從數(shù)據(jù)層面保障了選題預(yù)測(cè)的可靠性,對(duì)印刷數(shù)量給出直觀展示,并在地域上給予出版單位較為準(zhǔn)確的印刷量預(yù)測(cè),為出版單位印刷量確定與地域投放提供了科學(xué)依據(jù)。由此,使用以上方法可以建立一整套以圖書銷售數(shù)據(jù)整合當(dāng)前熱門、熱點(diǎn)信息為基礎(chǔ)的圖書選題預(yù)測(cè)應(yīng)用系統(tǒng),為圖書出版行業(yè)進(jìn)行更大規(guī)模的數(shù)據(jù)分析應(yīng)用奠定基礎(chǔ)。
以上運(yùn)用神經(jīng)網(wǎng)絡(luò)的方法,基于圖書銷售數(shù)據(jù)、書號(hào)實(shí)名申領(lǐng)系統(tǒng)數(shù)據(jù)及新浪微博熱搜數(shù)據(jù),采用數(shù)據(jù)挖掘的分析方法,預(yù)測(cè)出各地域下圖書的印刷量信息,進(jìn)而為出版單位提供各地域的選題銷售分派等工作奠定了良好的基礎(chǔ),為實(shí)現(xiàn)出版單位收益最大化提供了良好的保障。