◎黃水飛
(江西高校出版社,江西 南昌 330000)
21世紀是數字經濟時代,也是知識經濟時代,中國出版行業在新的時代背景下正在逐漸改革升級,由傳統單一的發展環境,逐漸步入多元化、開放化、創新化的發展格局,尤其是各類信息技術和新媒體技術的出現,新的讀者群體對于出版業有了全新的要求,更加青睞于個性化、便攜化、社交化的閱讀體驗。在這一進程中,出版業如果缺少對于新讀者群體的需求分析,仍然是憑借傳統經驗或者是小面積問卷調查的方式了解讀者需求、確定圖書主題,就會導致出版風險增加,所出版的書籍不符合讀者真實需要,提高了庫存壓力,導致投資失敗。另外,新生代讀者群體生長在網絡環境中,對于傳統的出版業營銷手段并不熟悉,傳統的圖書選題策劃也無法精準高效地傳達給新生代讀者,營銷效果越來越不明顯,出版業發展將面臨全新的挑戰壓力。在這樣的背景下,我國出版業應利用全新的技術手段,精準把握讀者的關注需求,強化選題分析和優化能力,根據讀者實際喜好精準高效地選擇圖書主題,提高營銷效益,因此,大數據技術的出現對于我國出版業而言有著十分重要的意義。
本文討論的大數據技術思維邏輯是指將大數據技術應用到圖書選題策劃時所采取的運用邏輯,應用大數據技術參與圖書選題策劃需要貫穿于圖書出版、制作始終,隨著我國現代文明建設的日益發達,社會各界對于文化知識的需求量也在逐漸增加,圖書市場迎來了全新的發展機遇,也將面臨更為激烈的市場競爭,出版業必須積極強化創新與改革,通過打造全新的業態格局來滿足新的市場需要。利用大數據技術進行圖書選題策劃,需要從圖書的組稿、編輯、設計、宣傳、銷售等一系列流程環節中融入大數據思維,以此來提高圖書選題策劃的效益與創造力。同時也要積極發揮大數據優勢強化出版業與市場、與社會的溝通能力,結合市場發展趨勢及時調整出版業圖書選題策劃能力,最大限度的規避新興市場所存在的潛在風險與損失威脅,而這也是大數據技術應用時的底層邏輯[1]。
圖書選題策劃是圖書出版前必須要進行的重要工作,將直接關系到圖書出版后的成功與否,圖書選題需要制定詳細的計劃方案,很多出版社會將圖書選題視為一項特殊的系統性工作,會貫穿于圖書出版的始終,對于全體出版社工作人員而言都將是一項重要的工作挑戰,需要深度考量。具體而言,圖書選題策劃至少包含五個思維邏輯:
一是收集信息。由于圖書選題工作是一項系統化的工作,也需要工作人員投入思想與創意,所以在工作之初需要收集大量的創意性信息,收集信息時也要充分注意到所收集到的信息價值和未來用途,既要體現出圖書編輯的采編能力,也要強化出版社對于圖書市場的敏感度。
二是明確立題。圖書選題策劃的過程中,立題將直接代表出版圖書的主題思想,需要建立在大量信息基礎之上,同時要有明確的出版目標,以此來確保圖書選題工作的準確性[2]。立題時需要注意的是:首先,要能夠體現出出版社的特色,爭取打造個性化市場;其次,如果是策劃大眾讀物,應該打開視野,挖掘市場大多數讀者的閱讀興趣;最后,一定要抓緊時代發展先機,明確圖書定位,找準立意的切入點。
三是市場調查。選題的過程中需要經過市場調查,以此來確保出版社投資的效益。當選題和投資項目基本確定后,出版社需要認真調查分析圖書市場和社會反應,了解市場中一切與圖書選題相關的知識領域以及相關專業行業的動態變化,在這其中挖掘圖書出版后能夠獲得的競爭優勢,為圖書銷售創造有利條件。
四是市場定位。當圖書選題已經確定,且市場調查結束后,就需要開展市場定位設計工作,該工作的重點是根據市場調查結果確定圖書規格、用材、風格、頁碼、定價等,根據不同的目標讀者對圖書進行細致化的設計,以此來瞄定市場走向[3]。后期將進入到生產制作層面,此時意味著項目投資已經開始,出版社在這一階段的工作關注點是對圖書印刷質量的控制。
五是營銷策劃。營銷策劃作為圖書選題策劃的最后一個環節,主要的實施步驟是:首先,圖書出版之前進行預熱式營銷宣傳,為圖書出版造勢,保障良好的宣傳效果;其次,圖書出版后的營銷策略,在當前的技術背景下,需要開展線上宣傳銷售和線下宣傳銷售兩方面的工作。為避免侵權事件的出現,面對目標讀者時要積極引導讀者閱讀和購買,要保持圖書銷售長時間的熱度,才能夠使圖書能夠在一段時間內維持穩定的銷量。
以我國某大型圖書購物網站為例,該網站的每一個圖書商品頁面都會列明記載圖書相關咨詢、圖書屬性、主題和賣點等。利用大數據抽取技術可以對網站上的數據信息進行挖掘和分析,并最終納入到圖書檢索信息資源庫中,為以后的圖書選題策劃提供原始數據支撐[4]。在大數據技術環境下,使用網頁抓取技術,能夠使圖書的實體信息與市場需求信息同時被捕獲到,并且可以容納到同一個數據庫之中,具體而言,大數據技術在圖書網站上的數據獲取過程如下:
一是提取圖書ISBN號,并在圖書信息中附加上“銷量排名”“檢索排名”“點贊排名”“猜你喜歡”等標簽,這些都可以成為圖書的銷售推薦數據,也可以成為圖書未來選題策劃的切入點,網站需要將這些數據歸納和運用起來,將其拼接成圖書網站的高級搜索標簽。
二是模擬HYTP請求功能。在檢索框中抽取圖書鏈接,能夠最后獲得該購物網站中圖書的真實網址和產品的ID。
三是根據上一步所獲得的圖書商品網址,利用HTTP請求來獲得商品詳情頁和相關數據信息,利用大數據技術對其中的詳細數據進行獲取,數據將成為出版社圖書信息資源庫內的重要選題策劃資料。
四是根據第三步所獲得的圖書ID,并根據互聯網中的圖書信息拼接成圖書評價頁面URL,提取讀者評價,并將其納入到圖書選題策劃市場動態信息數據資源庫。
進行圖書選題策劃所需要的數據資源,在挖掘的過程中,需要關注兩點要求,分別是淺度挖掘和深度挖掘,以某一金融類圖書為例,對該書進行選題策劃時,數據淺度挖掘和深度挖掘數據的具體開展方法是:
首先,進行數據淺度挖掘。此時會對圖書相關的各類基本數據信息與市場需求信息進行比對,建立其市場數據統計分析系統,在淺層次上對該書的內在有利信息進行挖掘[5]。比如,可以挖掘讀者在線閱讀時的評價和熱度等,根據這些數據信息對圖書的選題策劃進行數據基礎建設。
其次,進行數據深度挖掘。此項工作較為復雜,需要根據圖書選題策劃信息進行篩選,利用貝葉斯算法以及大數據技術進行結果分析。貝葉斯算法使用流程可以分三個階段來進行,一是準備階段,利用網站中的大數據技術對圖書選題策劃數據進行收集整理,并生成相應的應用數據,可以為第二部的分類規則提供數據參考;二是建模階段,網站后臺系統會自動根據客戶需求生成新的應用數據,并計算其中各個數據類別,對每個被計算過的圖書屬性進行信息分辨,按照屬性類別提供圖書選題策劃數據信息,并且可以對下次檢索時同類圖書信息再次出現的情況進行預估驗證,建立貝葉斯模型;三是分類階段,系統會按照第二步數據信息建立起貝葉斯模型,對圖書選題策略進行樣本計算,推測圖書選題策劃樣本屬性,并且獲得選題策劃后的數據信息[6]。
1.需求分析
出版社需要根據當前圖書市場的走勢、讀者需求、閱讀情況反饋以及相關媒體報道、圖書盈利走勢來試試獲取輿情發展信息。利用大數據技術,對各個生產經營環節進行信息化建設,并將其與互聯網及相關網站進行融合建設,提供完善的數據信息量,提高數據獲取和收集的效率,為圖書選題策劃工作提供源源不斷的數據信息支持。同時,出版社為了能夠滿足讀者的閱讀需要,需要在大數據技術系統中建立起具備選題策劃功能的工作模塊,利用大數據技術挖掘圖書選題策劃工作中的資源,并建立不同的工作模塊。本文討論的是可以建立起四大工作模塊,包括圖書屬性數據與市場情況分析模塊、圖書市場信息管控模塊、圖書市場信息存儲模塊以及圖書選題策劃數據挖掘模塊。利用Jsoup等軟件,對系統內的數據進行提取和分析,結合Hadoop文件系統來對這些數據進行管理和存儲,這些數據都將成為圖書選題策劃的基礎。利用大數據技術進行圖書選題,模塊設計和操作流程如下圖:

2.功能設計
利用Jsoup軟件對圖書選題策劃數據進行篩選和使用,需要基于Hadoop生態系統來進行開展,對本時期圖書市場營銷熱度等信息進行挖掘,以供圖書與選題策劃使用。主要涉及到的功能設計包括:
首先,需要對圖書屬性數據和市場反饋信息進行收集。該項功能可以基于購物網站上的HTTP模擬技術來開展,可以直接獲得網站上圖書詳情信息,并利用超文本文件分析技術篩選出無效信息,獲取網頁中的市場信息、用戶行為信息、書記屬性信息數據等,這些數據的提取將成為出版社數據庫建立的重要資源。
其次,需要發揮數據挖掘功能。數據挖掘功能的發揮依靠的是淺度數據挖掘和深度數據挖掘兩個方式,對于圖書相關的海量信息而言,恰當地選擇和分類才能夠使數據挖掘工作更有效率和價值,可以使出版社的圖書選題策劃形成明確的功能分類,并且利于后期的深入選題工作。
最后,信息反饋功能。利用分析結果中所涉及到的圖書制作日志來建立數據挖掘方案,使信息反饋結果能夠發揮作用,幫助出版社建立完善的圖書選題決策。
在準備階段主要是對信息進行積極的收集,作為預備環節,信息來源可以從以下幾個渠道獲得:編輯自有數據庫、傳統媒體數據庫、網絡新媒體數據庫、門戶網站數據庫等等。以門戶網站數據庫為例,可以是國家官方媒體、中央網站等。在這些網站內搜索符合主流思想意識的,有利于實現社會效益和經濟效益的重要價值信息,為后期的圖書選題奠定基礎。準備階段需要使用專業數據挖掘技術和輿情分析軟件,通過建立專業的領袖數據庫來打通圖書選題數據源頭,領袖數據庫將包含編輯身份信息、讀者數量信息、發表文字數量等等。新媒體技術的發展已經頗具規模,自媒體的研究也日益成熟,利用大數據技術結合新媒體技術,對網絡資源進行軟件開發,具體而言,在進行信息掃描和詞頻統計時,可以使用ROST News Analysis Tool,在進行網頁信息收集時,可以使用ROST Detail Miner技術軟件。另外,在對新媒體進行研究和數據應用時,隨著科學技術的進步,能夠選擇使用的軟件技術將會越來越多,所以應用時可以進行更加精細的劃分,比如,針對微博中的知微等大數據分析技術。
圖書選題策劃階段主要是編輯需要進行選題設計,提出投資的出版物題目、編輯的意圖、內容走向、寫作規劃、編輯進度、截稿時間、作者和目標讀者等,升級傳統工作做法。本文討論了利用大數據技術進行數據收集后,具體如何利用信息挖掘和輿情分析,來確定圖書的題目、作者和讀者,同時對選題進行輔助性的論證。
1.題目選擇
圖書題目目前可以從四個渠道來進行信息的篩選,網絡媒體與新媒體可以使用特殊的大數據技術軟件來協助信息挖掘工作,如果利用詞頻分析軟件來對網絡媒體與新媒體中的文本信息進行篩選,得到關鍵詞列表,剔除無價值詞匯后,按照詞頻的程度進行排序,排名靠前的詞匯,來輔助圖書命題工作,設計出有創新性的題目,在編制題目的過程中,可以利用語義軟件,對題目詞語進行多樣化的設計和選擇。
2.作者確定
在信息搜索階段可以獲悉在網絡上一些熱門作者信息、標簽信息等基礎信息,同時也能夠獲得作者作品信息數據庫,比如,作者有哪些著作、讀者口碑如何、市場銷售情況如何等等,甚至還包括作者的文風、個人品格、興趣愛好等信息,不僅可以分類分析,也可以進行總結性分析。同時,通過獲取平臺中的同類和異類作者的互動關系網絡圖,幫助出版社制定優秀作者名冊。
3.目標讀者
利用大數據技術手段獲取讀者信息是為了更為全面地去了解讀者市場,找出潛在選題,以此保障出版社可以出版符合市場需要的圖書。這一過程中,編輯必須積極關注讀者的閱讀體驗,無論是個人亦或是群體,都要進行細致的分析,討論讀者的閱讀體驗和精神層面需求。目標讀者的規劃、分析、篩選應該與作者的選擇步驟相匹配,這些也需要基于讀者信息來進行,包括身份認證、標簽劃分、總結分析等,之后再針對不同類型的讀者進行文本信息分析。
4.選題論證
圖書題目的選擇可以來自于網絡各個渠道所獲得的信息資源,而在大數據時代下,利用大數據技術可以充分發揮出網絡媒體和新媒體的資源優勢,利用特定的軟件對各類信息進行深度挖掘。比如,可以使用詞頻分析軟件,對網絡媒體和新媒體中的文本信息進行篩選,得出關鍵詞列表,剔除沒有價值的信息后,需要對已經制定好的選題計劃進行論證,論證邏輯思想是:對于背景類信息分析需要包含政策法規與行業發展;對于輿情類信息進行分析,則需要對目標選題是否符合國家要求,是否存在變動情況以及未來走勢進行分析;對于原則類信息進行分析,主要需要針對出版社領導所制訂的選題計劃進行;對于同類選題進行比較分析,需要根據語義網絡圖再對選題進行論證時參考同類選題,一方面是對未出版的同類選題進行對比分析,判斷是否有更大的可選性以及是否存在重復性問題,另一方面則需要對市面上已經出版過的同類選題進行對比分析,考證同類選題的市場銷售情況,以此來預測該選題未來的市場價值。
利用大數據技術進行圖書選題策劃工作有著明顯的優勢,可以促進出版社更好地適應現代化的時代,提高圖書編輯與選題策劃的效率,降低編輯工作壓力,但是也存在著一定的缺陷。比如,技術應用專業性更強,容易出現偏差等等。所以未來出版社的發展水平將直接取決于大數據技術的使用能力,值得廣大業界人士予以關注。