999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經(jīng)網(wǎng)絡(luò)的出版選題預(yù)測(cè)模型

2018-12-25 17:59:50康寶中林海
中國(guó)信息化 2018年12期
關(guān)鍵詞:銷售模型

康寶中 林海

近年來,隨著圖書銷售數(shù)據(jù)管理的規(guī)范化、信息化,圖書選題策劃人員面對(duì)書城近期銷售排行榜、銷售月報(bào)以及《開卷圖書調(diào)查報(bào)告》等眾多報(bào)表,對(duì)其進(jìn)行深度研究與定量分析,獲得的結(jié)果無疑極有價(jià)值,也是未來圖書市場(chǎng)調(diào)查研究的趨勢(shì)。圖書選題作為圖書出版的最初環(huán)節(jié),歷來被出版單位所重視。圖書選題策劃的基本流程包括信息篩選、選題設(shè)計(jì)、選題論證、選題優(yōu)化等,圖書銷售數(shù)據(jù)能夠直觀反應(yīng)市場(chǎng)規(guī)律與用戶消費(fèi)傾向,對(duì)選題策劃有著重要的影響。但出版單位對(duì)于確定圖書選題類別以及確定印刷量顯得力不從心。

鑒于圖書市場(chǎng)具有短期的波動(dòng)性與中長(zhǎng)期的周期性、銷售數(shù)量巨大與銷售品種繁多并存等特點(diǎn),給出版單位選題策劃帶來很大困難。根據(jù)圖書市場(chǎng)短期波動(dòng)性特點(diǎn),提出了使用改進(jìn)神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)圖書印刷量,可為出版單位確定各地域的指定圖書選題印刷量提供參考。

一、基于神經(jīng)網(wǎng)絡(luò)模型的銷售預(yù)測(cè)分析

人工神經(jīng)網(wǎng)絡(luò)的思想源自仿效生物學(xué)神經(jīng)網(wǎng)絡(luò),當(dāng)今地球上所有生命體的大腦均由神經(jīng)網(wǎng)絡(luò)組成。現(xiàn)代神經(jīng)網(wǎng)絡(luò)項(xiàng)目通常有幾千個(gè)到幾百萬個(gè)神經(jīng)單位和上百萬個(gè)連接,這幾個(gè)數(shù)量級(jí)雖然遠(yuǎn)不如人腦復(fù)雜,但已經(jīng)接近蠕蟲的計(jì)算能力。

(一)神經(jīng)網(wǎng)絡(luò)算法簡(jiǎn)介

反向傳播BP(Back Propagation)學(xué)習(xí)算法的前饋型神經(jīng)網(wǎng)絡(luò)簡(jiǎn)稱BP神經(jīng)網(wǎng)絡(luò)(BPNN)。BP神經(jīng)網(wǎng)絡(luò)主要特點(diǎn)是信號(hào)從輸入層通過隱含層直至輸出層整個(gè)過程保持前向傳遞,依次經(jīng)過隱含層,其中隱含層可能有多層,通過逐層神經(jīng)元后,最后從輸出層輸出神經(jīng)網(wǎng)絡(luò)處理結(jié)果。其中,上一層神經(jīng)元的結(jié)果只影響下一層神經(jīng)元的操作。如果輸出層的輸出值達(dá)不到預(yù)期目標(biāo),則神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)入誤差的反向傳播過程,根據(jù)預(yù)測(cè)誤差不斷調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值,再進(jìn)行信號(hào)的前向傳遞,反復(fù)迭代,使神經(jīng)網(wǎng)絡(luò)的輸出值不斷逼近目標(biāo)輸出值。神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)如圖1-1所示:

由圖1-2可知,整個(gè)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)流程分為三個(gè)主要部分:第一部分為數(shù)據(jù)的清洗準(zhǔn)備階段;第二部分為訓(xùn)練集訓(xùn)練階段,通過驗(yàn)證增加作者與內(nèi)容熱度模型較普通模型獲得更好的熱點(diǎn)事件預(yù)測(cè)效果,當(dāng)RMSE基本不變時(shí),最終確定預(yù)測(cè)模型;第三部分為測(cè)試集預(yù)測(cè)階段,將測(cè)試集數(shù)據(jù)裝載入預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。

1. 數(shù)據(jù)準(zhǔn)備階段

首先,將圖書銷售數(shù)據(jù)與書號(hào)實(shí)名申領(lǐng)系統(tǒng)數(shù)據(jù)通過ISBN碼進(jìn)行關(guān)聯(lián),解決圖書銷售數(shù)據(jù)、作者信息殘缺等問題,然后按地域進(jìn)行分組。其中對(duì)分類項(xiàng)采用獨(dú)熱編碼處理,將離散特征取值按一定的映射規(guī)則,擴(kuò)展至歐式空間,在歐式空間中離散特征的某個(gè)取值就對(duì)應(yīng)一個(gè)點(diǎn)。在機(jī)器學(xué)習(xí)算法中,會(huì)比較頻繁的計(jì)算特征之間距離或相似度,在具體的過程中常用的距離或相似度計(jì)算正是基于歐式空間。完成以上步驟即完成數(shù)據(jù)準(zhǔn)備階段。

2. 確定預(yù)測(cè)模型

通過預(yù)測(cè)模型反復(fù)的訓(xùn)練,直至RMSE趨于穩(wěn)定值。通過比對(duì)預(yù)測(cè)值與實(shí)際值,提出了采用微博熱搜數(shù)據(jù)對(duì)作者加權(quán)的改進(jìn)方案,通過網(wǎng)絡(luò)爬取熱搜信息,引入作者熱度因子,進(jìn)而改進(jìn)預(yù)測(cè)模型。通過對(duì)改進(jìn)模型進(jìn)行反復(fù)迭代,經(jīng)對(duì)比分析后,改進(jìn)后的模型對(duì)熱門事件預(yù)測(cè)能力顯著提高,進(jìn)而最終確定基于神經(jīng)網(wǎng)絡(luò)的圖書選題預(yù)測(cè)模型。

3. 預(yù)測(cè)短期內(nèi)圖書銷量

通過改進(jìn)的預(yù)測(cè)模型,按地域劃分對(duì)選題印刷量進(jìn)行預(yù)測(cè),利于出版單位工作人員合理確定各地域印刷量,最終將預(yù)測(cè)結(jié)果持久化至數(shù)據(jù)庫。

(三)數(shù)據(jù)清洗

以《開卷圖書銷售報(bào)告》(2013-2016)為例,該數(shù)據(jù)覆蓋全國(guó)2000余家實(shí)體書店門市,20余家獨(dú)立網(wǎng)店及天貓書城,具有良好的連續(xù)性、代表性和完整性。采用2012-2013連續(xù)2年的圖書零售市場(chǎng)逐月觀測(cè)數(shù)據(jù)作為訓(xùn)練集,2014-2015年為測(cè)試集。同時(shí),分?jǐn)?shù)據(jù)采用書號(hào)實(shí)名申領(lǐng)數(shù)據(jù),書號(hào)實(shí)名申領(lǐng)系統(tǒng)作為中國(guó)圖書出版的基礎(chǔ)性建設(shè),涵蓋全國(guó)范圍內(nèi)發(fā)行的圖書選題所有數(shù)據(jù),具有權(quán)威性。

首先,將圖書銷售數(shù)據(jù)與書號(hào)實(shí)名申領(lǐng)系統(tǒng)數(shù)據(jù)通過ISBN碼進(jìn)行關(guān)聯(lián),采用書號(hào)系統(tǒng)數(shù)據(jù)填補(bǔ)等措施,解決如銷售數(shù)據(jù)、作者信息殘缺等數(shù)據(jù)問題;手動(dòng)清洗部分出版方式、地域等填寫不規(guī)范或數(shù)據(jù)殘缺問題;保留規(guī)范和有效的數(shù)據(jù),如書名、作者、售價(jià)、時(shí)間、銷量、中圖分類1級(jí)、中圖分類2級(jí)、中圖分類3級(jí)、選題類型、語言類別、裝訂類型(平裝、精裝等)、頁數(shù)、字?jǐn)?shù)、內(nèi)容簡(jiǎn)介、內(nèi)容類型(新書、重印、再版)、版次、印次、讀者對(duì)象、地區(qū)、出版方式(常規(guī)出版、合作出版、引進(jìn)出版等)、作者產(chǎn)量頻度、出版單位產(chǎn)量頻度等字段;然后按地域分組,采用獨(dú)熱編碼來處理離散型特征。

(四)確定預(yù)測(cè)模型及改進(jìn)

模型通過8000次訓(xùn)練,RMSE基本趨于穩(wěn)定值,測(cè)試集預(yù)測(cè)結(jié)果均已輸出,如圖1-3所示:

預(yù)測(cè)樣例的預(yù)測(cè)值與實(shí)際值如圖1-4所示,可以看出預(yù)測(cè)誤差范圍基本在可接受范圍之內(nèi)。

通過分析可知上述模型對(duì)于類似“諾獎(jiǎng)事件”的熱門、熱點(diǎn)事件無法做到準(zhǔn)確預(yù)測(cè),原因在于圖書銷售數(shù)據(jù)與書號(hào)實(shí)名申領(lǐng)系統(tǒng)數(shù)據(jù)無法關(guān)聯(lián)熱點(diǎn)時(shí)事,同時(shí)不存在反應(yīng)作者的熱門指標(biāo)。綜上所述,模型改進(jìn)上需增加對(duì)于作者熱度的權(quán)值信息與選題內(nèi)容的權(quán)值信息,通過比對(duì)是否含有熱搜、作者信息加權(quán),而對(duì)于選題內(nèi)容加權(quán)來說,通過對(duì)選題內(nèi)容分詞后,判斷否包含熱搜詞語來對(duì)選題內(nèi)容加權(quán)。

對(duì)于新浪微博熱搜詞與熱搜名人信息的搜集,通過采用網(wǎng)絡(luò)爬取的形式,通過Jsoup框架將兩部分?jǐn)?shù)據(jù)中的排名、關(guān)鍵詞、搜索指數(shù)等信息按一定頻率進(jìn)行爬取,解析處理后保存至數(shù)據(jù)庫中,為銷售數(shù)據(jù)的作者加權(quán)及選題內(nèi)容加權(quán)作為數(shù)據(jù)支撐。

增加作者熱度與內(nèi)容熱度兩個(gè)維度,模擬熱搜數(shù)據(jù)通過將一條數(shù)據(jù)修改為熱搜作者或?qū)D書選題內(nèi)容簡(jiǎn)介中增加微博熱搜詞信息。

對(duì)模型進(jìn)行改進(jìn)后,以固定頻率爬取新浪微博熱搜數(shù)據(jù),采用模擬方式以及對(duì)比歷史數(shù)據(jù)的方式可以明顯提高預(yù)測(cè)準(zhǔn)確度。如圖1-5所示:

隨著“諾貝爾獎(jiǎng)?lì)C獎(jiǎng)”揭曉時(shí)刻的遠(yuǎn)去,虛構(gòu)類榜單的“莫言熱”也逐漸降溫,不過在2013年1月的榜單中莫言依然是入榜品種數(shù)最多的作者,《蛙》再次蟬聯(lián)榜單首位;同樣隨著網(wǎng)絡(luò)連續(xù)劇《盜墓筆記》的熱播和同名電影《盜墓筆記》的上映,南派三叔的《盜墓筆記》和《藏?;ā返染憩F(xiàn)出強(qiáng)勢(shì)的銷售熱潮,本次選取莫言的代表作品《蛙》以及南派三叔代表作品《盜墓筆記》作為預(yù)測(cè)樣例。

首先,我們以前三個(gè)月的數(shù)據(jù)為基礎(chǔ),預(yù)測(cè)下一個(gè)月的銷售數(shù)量,并與實(shí)際銷售數(shù)量進(jìn)行比較。從上圖看出,預(yù)測(cè)偏差基本在可控范圍之內(nèi),表明增加了作者熱度與選題熱度的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法,對(duì)熱點(diǎn)事件帶來的圖書印刷量激增的情形具有較好的預(yù)測(cè)擬合效果。

二、實(shí)驗(yàn)結(jié)果及應(yīng)用

根據(jù)預(yù)測(cè)數(shù)據(jù),用戶可通過在選題預(yù)測(cè)公眾號(hào)中輸入“map”,將各選題的預(yù)測(cè)結(jié)果以各省、自治區(qū)、直轄市、特別行政區(qū)的形式展示。本次預(yù)測(cè)選題選定中圖分類法兒童類,包含二級(jí)分類卡通/漫畫/繪本、少兒英語、少兒國(guó)學(xué)經(jīng)典、少兒藝術(shù)、少兒文學(xué)、少兒科普百科、低幼啟蒙、幼兒園教材、卡片掛圖、游戲益智、青少年心理自助11個(gè)子類,三級(jí)分類少兒卡通、少兒英語、少兒國(guó)學(xué)經(jīng)典、少兒美術(shù)、少兒藝術(shù)綜合、少兒游戲、少兒繪本、幼兒園教師用書、少兒卡片、少兒小說、少兒漫畫、少兒科普百科、少兒掛圖、連環(huán)畫、少兒文學(xué)名著、低幼啟蒙、青春漫畫、少兒文學(xué)其他、少兒手工、少兒音樂、少兒故事、幼兒教材、青少年心理自助共23個(gè)子類。

預(yù)測(cè)的圖書銷量按各省、自治區(qū)、直轄市、特別行政區(qū)以顏色深淺區(qū)分,顏色越深表示銷售量越大;通過左下角標(biāo)尺可以調(diào)節(jié)印量單位值,給出更為直觀的展示,合理安排不同地域的圖書印刷量,可以減少不必要的人、財(cái)、物的消耗,同樣在減少運(yùn)輸成本與庫存積壓及銷售供給方面具有巨大優(yōu)勢(shì)。

通過雙擊地圖中的省、自治區(qū)、直轄市、特別行政區(qū),可以進(jìn)入選題預(yù)測(cè)詳情頁面,展示該地域下一個(gè)月的印量預(yù)測(cè)信息,為出版單位工作人員指定下一個(gè)月的銷售計(jì)劃提供決策參考。

通過以上分析,從數(shù)據(jù)層面保障了選題預(yù)測(cè)的可靠性,對(duì)印刷數(shù)量給出直觀展示,并在地域上給予出版單位較為準(zhǔn)確的印刷量預(yù)測(cè),為出版單位印刷量確定與地域投放提供了科學(xué)依據(jù)。由此,使用以上方法可以建立一整套以圖書銷售數(shù)據(jù)整合當(dāng)前熱門、熱點(diǎn)信息為基礎(chǔ)的圖書選題預(yù)測(cè)應(yīng)用系統(tǒng),為圖書出版行業(yè)進(jìn)行更大規(guī)模的數(shù)據(jù)分析應(yīng)用奠定基礎(chǔ)。

以上運(yùn)用神經(jīng)網(wǎng)絡(luò)的方法,基于圖書銷售數(shù)據(jù)、書號(hào)實(shí)名申領(lǐng)系統(tǒng)數(shù)據(jù)及新浪微博熱搜數(shù)據(jù),采用數(shù)據(jù)挖掘的分析方法,預(yù)測(cè)出各地域下圖書的印刷量信息,進(jìn)而為出版單位提供各地域的選題銷售分派等工作奠定了良好的基礎(chǔ),為實(shí)現(xiàn)出版單位收益最大化提供了良好的保障。

猜你喜歡
銷售模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
這四個(gè)字決定銷售成敗
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
一個(gè)相似模型的應(yīng)用
銷售統(tǒng)計(jì)
銷售統(tǒng)計(jì)
銷售統(tǒng)計(jì)
主站蜘蛛池模板: 综合色在线| 91日本在线观看亚洲精品| 91免费片| 男人天堂亚洲天堂| 日韩国产黄色网站| 视频一本大道香蕉久在线播放 | 久久国产精品麻豆系列| 四虎国产永久在线观看| 欧美a级在线| 亚洲无码免费黄色网址| 999精品免费视频| 午夜少妇精品视频小电影| 成人午夜天| 91麻豆精品国产高清在线| 日韩欧美国产另类| 高清免费毛片| 午夜综合网| 国产第三区| 国产精品成| 亚洲六月丁香六月婷婷蜜芽| 成人免费午间影院在线观看| 国产交换配偶在线视频| 日本国产在线| 成人年鲁鲁在线观看视频| 国产另类视频| 国产三级国产精品国产普男人| 国产国模一区二区三区四区| 在线色综合| 国内精品视频| 超级碰免费视频91| 无码日韩人妻精品久久蜜桃| 久久精品丝袜| 热久久这里是精品6免费观看| 国产精品专区第1页| 亚洲五月激情网| 欧美在线网| 欧美性久久久久| 亚洲日韩高清无码| 99er精品视频| 亚洲日韩第九十九页| 日日碰狠狠添天天爽| 国产精品 欧美激情 在线播放 | www中文字幕在线观看| 毛片一区二区在线看| 精品国产自在在线在线观看| 国产乱子伦无码精品小说| 有专无码视频| 国产剧情国内精品原创| 日韩无码黄色| 国产亚洲精品精品精品| 看国产毛片| www.99在线观看| 亚洲第一国产综合| 国产男女免费视频| 亚洲国产日韩视频观看| 久久精品人人做人人综合试看| 日韩AV无码一区| 亚洲欧洲日韩综合| 一本一道波多野结衣av黑人在线| 毛片手机在线看| 丁香六月综合网| 无码中文AⅤ在线观看| 国产极品粉嫩小泬免费看| 又爽又大又黄a级毛片在线视频| 色综合中文字幕| 国产成人精品一区二区| 日本免费a视频| 少妇露出福利视频| 精品国产免费观看一区| 国产无码性爱一区二区三区| 欧美日韩亚洲综合在线观看| 国产精品美女免费视频大全| 亚洲a免费| 国产精品专区第1页| 亚洲AV无码乱码在线观看代蜜桃 | 色婷婷在线影院| 红杏AV在线无码| 亚洲综合中文字幕国产精品欧美| 91九色最新地址| 人妻无码中文字幕一区二区三区| 真人高潮娇喘嗯啊在线观看 | 在线精品自拍|