劉萬年
(北京體育大學出版社,北京 100000)
全球經濟正在迅猛發展,人們進入了大數據時代。面對龐大的圖書市場,圖書可選信息越發繁雜,圖書編輯如何從其中篩選出符合市場需求的信息是極為重要的工作。[1]因為一旦圖書編輯沒有了解到市場的真實需求,就會導致所策劃的圖書無法得到市場認可,從而對銷量產生巨大影響,直接威脅著圖書企業的生存發展。圖書編輯作為一個肩負著傳播知識的歷史使命的傳統行業從業者,在此大環境下同樣面臨著大數據時代帶來的新挑戰。[2]當前,我國出版業面臨著圖書消費需求增長變緩,圖書成本提高、庫存加重等問題,造成圖書行業面臨很大的發展困境。因此圖書行業迫切需要深化改革,其中圖書選題的進一步優化是改革重點之一,選題策劃是圖書編輯進行決策的關鍵步驟,一本圖書的成功發行,離不開準確有效的選題策劃。
圖書編輯可以根據出版社的選題方向、市場需求、讀者體驗等大數據分析結果進行具體分析規劃。在圖書的多樣化、個性化、社會化的特征基礎上,準確了解大眾的閱讀傾向和閱讀需求,分析出圖書消費市場的風向動態,及時搜集整理圖書市場的熱點信息,最大限度地判斷圖書市場的趨勢,有效掌握公眾反饋信息,為選題決策提供依據。
圖書市場的價格趨勢,讀者購買量和閱讀習慣,圖書各渠道銷售情況的收集、處理和分析均來自圖書市場的反饋,這其中蘊含著很多機遇,進而形成新的圖書選題策劃。[3]圖書編輯要對市場趨勢、消費者反饋、競品圖書、推廣方式、盈利能力等信息進行了解,需要保證圖書信息的準確。在當前的圖書市場中,圖書信息在各大購物網站上分布廣泛,圖書銷售的數據量大、增長速度快,數據獲取隨之增加。要想迅速識別圖書市場的有用信息,利用大數據技術開展圖書市場需求的分析就可以高效達成,且能進一步保證數據的精準度。基于此,本文使用大數據背景下的Hive數據管理技術,對圖書數據進行管理,完整的模塊信息如下圖1所示。

圖1 基于大數據的圖書選題策劃信息模塊
如圖1所示,在大數據的應用下,圖書選題策劃數據驅動模塊可以分為圖書數據提取模塊、圖書數據存儲模塊、圖書元數據模塊、選題策劃模塊四部分,每個模塊的特征向量均會存在不同的權重。由于圖書購買用戶不同,根據用戶信息可以分析出用戶的需求書籍類型,在圖書買賣過程中,會出現不同瀏覽行為,通過圖書翻閱次數、圖書購買次數、圖書評價等信息,可以指導圖書的選題策劃方向。[4]此外,本文設計的圖書選題策劃方法,會根據圖書近期銷售進行預測,如果對用戶的預測成功,則說明策劃方案是成功的;如果失敗,則需要進一步分析圖書購買需求,完善選題策劃的多樣性與豐富性。在使用大數據技術過程中,需要對用戶的圖書購買特征進行分析,去除從眾因素,保證圖書數據的真實性。根據大數據分析結果對圖書市場需求進行精準把控。
在大數據時代,人們的需求開始透明化,通過大數據的使用,將用戶對圖書的購買行為進行分析,了解圖書市場的動態變化。在圖書編輯領域,選題工作不僅要充分利用大數據,還要對圖書購買需求進行預測,擴展數據所反映的圖書價值。
大數據的影響越來越廣泛,已經逐漸滲透到人們生活的方方面面。[5]大數據正在改變著人們的生活方式,其數據信息處理的結果,有可能比業內資深人士預測得更加準確。傳統的選題信息采集工作,局限于策劃者的信息收集,高度依賴于優秀編輯的經驗判斷。有些時候,圖書編輯人員會出現錯失良機的現象,導致圖書信息采集不準確,對同期的圖書銷售造成影響。而本文基于大數據對圖書選題信息進行采集,通過數據的全面收集和分析,讓數據說話,準確地預測圖書銷量信息與受歡迎程度。[1]
在此預測環境下,可以增強圖書信息的選題準確性,并滿足讀者需求。大數據的采集工作,主要通過對圖書市場的精準分析,完整地把控圖書市場需求,同時反向運作也同樣適用,如通過對不同年齡段的喜好,進行書籍的推送。以青少年為例,可以推送一些具有豐富科學知識的小說,不僅可以增加閱讀興趣,還可以學習到相關知識。對中老年人來說,多推送一些她們年輕時代的故事,可以使其回憶起年輕的生活,并對未來的道路充滿希望。我國目前有500多家出版社以及相當數量的民營圖書策劃公司,圖書編輯隊伍龐大,但是圖書選題的主題相對歐美國家要少,每年暢銷書數量與整體行業銷售量不成正比。本文認為,主要是因為圖書編輯沒有對市場的需求形成正確的理解把握,獲取到的信息不能夠支撐編輯團隊的真正成長。大數據時代的到來,為圖書編輯指明了方向,那就是利用數據支撐,收集有效準確的選題信息,切實策劃符合市場需求的圖書產品,并提高選題質量,促進圖書市場的繁榮與發展。
從市場層面分析,教育類圖書的編輯主題與內容框架,可以通過篩選教育數據,將其進行供應需求的分析。由于我國對教育行業的重視程度,圖書市場中教育類圖書所占比重較大,在龐大的教育圖書中,圖書編輯必須提前解決選題內容框架,減少潛在的競爭。因此,對教育類的圖書選題策劃過程中,符合市場要求與競爭的有效資源信息方面至關重要。從供給層面分析,需要圖書編輯參與圖書數據庫的搭建。[6]并利用專業化的指導和時效性的數據,對教育類圖書的選題進行調研,并利用優秀編輯相關教育圖書方面的編輯經驗,對選題內容進行初步規劃,再利用大數據深度挖掘圖書信息,真正意義上滿足圖書市場的發展需求。此外,大數據的應用經過多年積累,可以稱其為大數據智能平臺,通過大數據對用戶的購買行為來獲取數據情報,得到圖書的有效價值信息。使用大數據的后臺技術,對相關用戶的圖書購買行為進行記錄,收集用戶的搜索關鍵字,使圖書選題策劃在行業領域內擁有領先優勢。任何產業的發展,都會結合最新的尖端技術,圖書行業也不例外,通過大數據的融合,可以將圖書數據精準地把控,得出準確的數據基礎,保證圖書選題策劃的精準性,對圖書行業的發展創造潛力條件。綜上所述,本文設計的圖書選題策劃方法,通過大數據的介入,為圖書編輯提供一個接地氣的、強有力的、具有真實市場指導意義的輔助工具。
為了實現數據驅動的選題策劃模式,本文設計了在數據挖掘下的數據庫,如下表1所示。

表1 核心數據庫
如表1所示,為本文設計的核心數據庫,根據此數據庫的設計,可以提取圖書相關信息,通過圖書ID,建立圖書鏈接,從而得到相關數據的屬性信息。
功能數據庫設計如下表2所示。

表2 功能數據庫
表2所示為功能數據庫的設計,通過搜索圖書URL,得出相關圖書的信息數據。
數據存儲庫的設計如下表3所示。

表3 數據存儲庫
通過此數據庫的設計,可以實現選題策劃的信息讀取、更新、刪除,以及增加等操作,保證圖書數據的豐富性。
為了驗證本文設計方法是否具有實效性,在此對其展開實驗,實驗的過程及結果如下。
由于圖書市場環境較為復雜,本文利用分布式將圖書信息集群分為5個節點,使用Master與CentOS為主要操作系統,以Linux為主要服務器,CPU主頻保持在3.5GHz,信息數據存儲為8G,存儲空間為1T,由此得出的集群參數如下表4所示。

表4 圖書集群參數表
如表4所示,在此參數下,對圖書數據進行可行性評估。為了提高實驗的精準度,本文從圖書數據量的100萬行至1000萬行之間的圖書進行數據分析,在大數據背景下,得出圖書信息集群的5個節點圖書選題受歡迎程度如下圖2所示。

圖2 圖書信息集群的5個節點圖書選題受歡迎程度
如圖2所示,在5個節點中,隨著數據量的增加,圖書選題受歡迎程度也隨之增加,可以滿足選題需求。
在以上環境下,對傳統選題策劃方法圖書選題受歡迎程度,與本文設計選題策劃方法圖書選題受歡迎程度做對比,結果如表5所示,兩種方法圖書選題受歡迎程度均會隨著數據量的增加而增加。傳統選題策劃方法圖書選題受歡迎程度始終在60%以下,受歡迎程度較低,無法適應大數據環境;本文設計的選題策劃方法圖書選題受歡迎程度在數據量為1000時,理論上受歡迎程度達到了100%,可以適應大數據環境,保證選題的精確性。符合本文研究目的。

表5 實驗結果
近年來,在大數據的背景下,各行各業得到了空前的發展,為我國經濟進步創造了條件。圖書編輯作為人們學習知識的鋪路者,對推動人類精神文明的建設起到了相當重要的作用。傳統圖書選題策劃較為主觀化,其選題受歡迎程度平均水平較低,目前已經不再適應圖書傳播需求,無法鞏固社會經濟效益。基于此,本文以大數據為前提,設計選題策劃方法,摒棄傳統方法的缺點,通過與大數據的融合,對圖書選題進行可行性分析,科學指導市場圖書選題策劃方向,提高選題受歡迎程度,以期為今后圖書行業的深化改革與建設添磚加瓦。