朱建麗
2012年,美國政府發布的《大數據研發倡議》使得大數據(Big Data)成為研究熱點。最初,大數據的概念是指需要處理的信息量過大,已經超過了一般計算機在處理數據時所能使用的內存量[1]。大數據技術是指對大數據的收集、分析、使用的相關技術,大數據技術日漸成為炙手可熱的技術。從大數據的生命周期來看,大數據技術包含大數據采集、大數據預處理、大數據存儲、大數據分析,共同組成了大數據生命周期里最核心的技術。其中,大數據采集包括數據庫采集、網絡數據采集、文件采集;大數據預處理包括數據清理、數據集成、數據轉換、數據規約;大數據存儲包括基于MPP架構的新型數據庫集群、基于Hadoop的技術擴展和封裝、大數據一體機;大數據挖掘包括可視化分析、數據挖掘算法、預測性分析、語義引擎、數據質量管理。
選題策劃是編輯工作的基礎,是編輯工作的首要環節,也是編輯工作的依據。大數據技術可以幫助出版社對大量數據進行分類、分析,這些信息包括國家有關政策和專業領域有關政策、媒體信息、教育信息、作譯者信息、同類產品的市場信息[2]。大數據技術為編輯提供可靠的數據分析,使得編輯在組稿等環節更具針對性,從而達到精準策劃的目的,如利用數據挖掘等技術,全面、快速、準確地采集信息;利用語義網絡圖等技術在同類選題中進行優劣分析;利用聚類分析來尋找合適的作者。
1)編輯加工。編輯加工的內容包括消滅差錯,潤飾提高,規范統一,核對引文,查對資料,校訂譯文,推敲標題,撰寫和規范輔文等。(1)體例的檢查,如稿件的大綱結構檢查,圖序、表序、公式序號等序號檢查,標點、符號檢查,千分位檢查,全半角檢查,單位間隙檢查等,此類檢查可以幫助編輯在預審階段處理稿件,以節省編輯的時間;(2)內容方面的檢查,如上下文查重,易錯詞檢查,敏感詞檢查,異體字檢查,繁體字檢查、不規范名詞檢查,歷史紀年檢查,領導人檢查等,此檢查可以幫助編輯在審稿階段把關稿件質量。上下文查重舉例如圖1所示。

圖1 上下文查重舉例
由圖1可知,通過對全書的檢查,發現了幾處重復的段落。特別是,當重復段落頁碼相距比較遠的時,容易被編輯和作者忽視。
敏感詞檢查舉例如圖2所示。

圖2 敏感詞檢查舉例
由圖2可知,通過對敏感詞檢查這個功能,實現了在黨政制度、領土主權、港澳臺問題、民族、宗教、歷史敏感事件、外交政策、國際關系等方面的檢查,有效地幫助編輯避免政治上的“觸雷”。
2)生產數量的確定。過高的圖書庫存一直都是困擾編輯的大問題。傳統的模式下圖書生產數量由編輯進行估計,這取決于編輯的經驗:如果估計過于保守,會造成反復小批量的重印,而導致成本的提高;如果估計過于激進,超出銷售的部分就轉化為庫存,庫存就會增加,同樣也會導致成本的提高。通過對大數據技術的應用,分析同類圖書銷售數據、圖書作者受歡迎程度、圖書選題在市場關注程度等,可以更準確地預測圖書生產數量[3]。
3)定價的確定。圖書定價的高低是消費者選擇購買圖書時考慮的重要因素之一。圖書價格的制定,受成本、利潤、生產數量、市場需求、同類圖書價格狀況、消費者心理和品牌等因素的影響。應用大數據技術,分析同類圖書價格狀況、消費者心理等影響因素,來更好地定價,以達到銷售目標、品牌目標、利潤目標。
傳統營銷模式下,很難吸引讀者的注意力,也缺乏針對性,營銷效率不高。大數據技術的應用,給圖書營銷帶來新的營銷技術、手段和營銷創新的實現路徑[4],使得圖書營銷的精準化、網絡化、全過程化成為可能,并實現了圖書出版業務的低成本和高效益[5],從而達到精準營銷的目的。例如,通過對男性用戶進行大數據頁面的營銷推廣,使得《大衛·貝克漢姆》一書取得了很好的銷售業績,這為傳統營銷模式開拓了新思路[6]。
目前,我國尚缺乏全國性圖書發行平臺,這就導致了長期存在圖書銷售數據不明的情況。如果想獲得相關圖書的銷售數據,必須依賴發行人員在某個地區的部分銷售數據,這將花費大量的人力、物力和時間。民營出版社“經典文化”基于大數據技術,建立了“私有云”平臺,以改變圖書銷售信息不明的現狀。該平臺的建立,不僅有助于出版社全面了解圖書銷售信息,而且還能幫助其更加準確地預測圖書市場需求[7]。
為推動數字出版的快速、健康發展,大數據時代,如何將大數據技術應用到數字出版中?劉鯤翔等人[8]提出利用大數據技術在數字出版中實現精準策劃、精準營銷、優化研發和生產過程、評估用戶體驗和產品效果,并且大數據技術應用于數字教育模式的研究中,從而為老師和學生提供個性化的數字教育服務。
目前,大數據技術在圖書出版中尚有一些局限性[3],具體如下。
1)在全國尚未形成一體化的大數據出版中心,即各個出版社之間存在數據壁壘現象,基于此現狀,可以采用小數據的處理方式。
2)部分專業圖書,由于其數字化程度不高及其超前性,限制了大數據在此領域圖書出版的應用。
3)國家推出的《GB∕T 30330-2013 中國出版物在線信息交換 圖書產品信息格式規范》等標準雖然推動了大數據的采集、存儲、分析和應用等工作,但在數據服務平臺、數據分析、數據應用等產品和服務的標準尚未建立,這些限制了大數據技術在圖書出版的應用。
4)若要實現大數據技術在圖書出版中的應用,必須有懂得大數據技術方面的人才,而這方面的人才在圖書出版行業目前還是比較匱乏的。
大數據技術的應用在圖書出版行業的地位越來越重要,圖書編輯要改變細想,拓展視野,突破傳統圖書出版的局限性,充分利用大數據技術,促進圖書出版的進一步發展。