蔣芳
摘要:目前,出版行業正處在傳統出版與數字出版融合發展的階段,大數據技術在出版體系中的應用加速了融合發展的步伐。通過大數據技術,對用戶的消費數據、行為數據進行分析,可以為出版體系提供支持,在信息分析、選題策劃、市場需求、精準營銷等過程中提供助力,更好地促進我國新時代出版事業的跨越式發展。
關鍵詞:大數據;出版;數字出版;傳統出版;融合發展;知識服務
中圖分類號:TP393? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)27-0003-03
Abstract:At present, the publishing industry is in the stage of integration development between traditional publishing and digital publishing. The application of big data technology in the publishing system accelerates the pace of integration development. Through big data technology, the analysis of user's consumption data and behavior data can provide support for the publishing system, and help in the process of information analysis, topic planning, market demand, precision marketing, so as to better promote the leap-forward development of publishing industry in the new era in China.
Key words:big data;publishing;digital publishing;traditional publishing;integration and development;knowledge service
1 大數據技術及其應用流程
1.1核心概念
關于大數據,至今尚未出現廣為接受的統一適用定義。學術界比較認可的是2012年由Gartner機構對大數據進行的定義:大數據是指需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的數量大、高增長率和多樣化的信息資產。通常認為大數據具有規模性、多樣性、高速性和價值性的特點。而大數據技術,則是指從各種類型的數據中快速獲得有價值信息的技術。目前,大數據技術應用廣泛,在各行各業中得到了實際的應用,為行業的決策提供了科學指導,推動了行業的發展。
1.2應用流程
大數據的應用流程一般分為數據采集、數據預處理、數據分析和數據挖掘四個階段。
1.2.1數據采集
隨著互聯網的快速發展,特別是移動互聯網的普及,人們通過網絡可以進行發布、瀏覽、查詢信息等操作,每天網絡上都會產生海量的數據。數據采集就是通過合理的方法快速、高效地獲取有效的數據,并且能夠對數據進行處理操作。傳感器的出現,實現了自動化系統的采集,可以不用人工控制全天候自動地獲取需要的數據。對于出版產業來說,可以采集圖書、讀者、作者等多方面的信息,用以指導出版工作的開展。
1.2.2數據預處理
采集的數據量龐大,往往種類多樣、結構復雜,不但包括有效的數據,還會有錯誤的、無效的數據。數據預處理就需要從這些數據中排除錯誤的、無效的數據,提取有效的數據。數據預處理,要盡可能做好數據清洗工作,它將會直接影響到挖掘到的有效信息。在出版工作中,同樣需要重視數據預處理,比如,對于獲取的作者信息,哪些特征數據是需要保留的,并對數據進行分類處理。
1.2.3數據分析
單純的大量數據并沒有實際的意義,只有通過數據分析,將數據轉化成有效的信息,才能夠體現數據的價值。大數據的特點之一就是數據量大,并且數據是不斷更新的,隨著時間的推移,數據量不斷增加變化。借助計算機技術,對大數據進行分析,就需要找到數據之間的相關性,發現事物發生的規律,來指導人們的實踐。在出版體系中,數據分析就是通過出版方面的數據,找到隱藏在數據后面的市場空白或市場需求,指導選題策劃及市場營銷工作。
1.2.4數據挖掘
數據挖掘主要是指通過設計的各種算法,進行高級別的數據分析。數據挖掘一般涉及的數據量和計算量都非常大,設計的算法也很復雜。在出版體系中,數據挖掘,需要打通作者、讀者、編輯之間的信息屏障,找到各自的需求點并進行滿足,從而更好地服務出版產業。
2 出版體系中的大數據來源
出版體系中涉及的數據很多,有來自出版內部的數據,也有來自出版外部的數據。在整個出版流程中,如選題策劃、內容編校、印刷發行、售后服務等各個環節,都會產生大量的數據,其主要來源于內容、讀者、平臺三個方面。出版外部的數據,有來自行業數據機構的數據,還有來自政府、企業、個人的調研數據。這里主要從內容、讀者、平臺三個方面闡述。
2.1 內容
在“內容為王”的時代,無論是對于傳統出版,還是數字出版,內容都是出版公司的核心競爭力。出版是將作品編輯加工后,經過復制向公眾發行,這之中本身就會產生大量的數據。人類從印刷術發明以來,經歷幾千年積累下來的各種圖書、期刊、報紙等,涵蓋科學、人文、藝術等各個方面,是大數據的重要來源。目前,我國每年出版的圖書超過30萬種,并且數量每年還在遞增,這些都是人類優秀科技文化成果的集結,包含豐富的數據信息。