羅健(甘肅省科學技術情報研究所,甘肅蘭州730000)
?
淺析“大數據”背景下的出版變革
羅健
(甘肅省科學技術情報研究所,甘肅蘭州730000)
摘要:大數據時代已經來臨,大量化、多樣性、快速化、大價值這四大特點賦予了“大數據”無與倫比的研究價值。新的數據環境必然對出版工作帶來巨大影響,出版企業獲取市場信息的途徑、營銷工作的重心、營銷廣告的模式都將發生變化,基于“大數據”的出版業也必將加速其科學化的進程。
關鍵詞:大數據;出版變革;知識服務
當今時代,伴隨著網絡技術的發展,數據已如一股洪流注入了世界經濟的各個領域,“大數據”已成為新的時代主題詞。“大數據”被喻為“未來的新石油”,它即將或已經在各個領域產生巨大影響。當前,大數據已滲透到社會各個行業和業務領域,逐漸成為重要的生產要素,對整個社會產生巨大影響。2013年新聞出版總署1號文件的主題就是“科技與出版融合”,其中包括出版的信息化建設和數字出版兩個方面[1]。大數據時代下的出版行業將緊緊契合1號文件精神,開展基于大數據的出版技術、出版流程、出版理念、出版市場變革,出版行業將呈現嶄新模式。
隨著物聯網、云計算、電子商務等技術的深入發展,互聯網上數以億記的用戶時刻在產生著巨量的交互數據,移動終端、無線傳感器、RFID等設備無所不在,這些設備每分每秒都在產生數據,金融、交通、通信等行業的數據量很大而且與日俱增,其實,全球的信息量以每年至少59%的速度劇烈激增,據互聯網數據中心IDC預測,到2020年世界上的數據存儲總量將達到35ZB(相當于35000000PB),是2010年的30倍。而且這些數據不僅包含數字和文字等結構化數據,還包括圖片、音頻、視頻、鏈接等半結構化數據甚至非結構化數據。根據互聯網中心的數據判斷,目前非結構化數據占全球數據總量的80%以上[2]。由此可見,人類已經步入大數據時代。
2.1大數據的概念
2011年5月,全球最著名的管理咨詢公司麥肯錫(Mckinsey and Company)發布了關于大數據的研究報告《大數據:創新、競爭和生產力的下一個前沿領域》,在報告中提出了大數據的概念,他認為大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行抓取、管理和處理的數據集合。
2.2大數據的特點
關于大數據的特點,相關學者提出過很多種說法,比較具有代表性的是2001年Gartner研究副總裁DougLaney最早提出的“3V”模型(即數量大Volume、速度大Velocity和種類多Variety)。之后,好多學者還在3V的基礎上增加了第四個特征,但關于第四個“V”的說法也很多,IBM認為大數據應該還具有真實性(即Veracity),而IDC認為應該具有價值性(即Value),相較于傳統數據,大數據的價值呈現出稀疏性的特點。如今,業內人士已經將大數據的特點擴展到了11個V,包括可見性、有效性等,但各行業比較認可的說法還是“4V”模型特征[3]。
1.2.1數據量大
截至目前,人類生產的所有印刷材料的數據總量是200PB(1PB=210TB),而歷史上全人類說過的話的數據總量約是5EB(1EB=210PB),據IDC預測,到2020年世界上的數據存儲總量將達到35ZB(相當于35000000PB),相當于2010年的30倍。當前,典型個人PC硬盤的容量為TB級,而一些大企業的數據量已經接近EB兩級。由此可見,大數據時代的數據體積的巨大的。
1.2.2數據種類多
大數據時代的數據除了文本、數字等結構化數據外,更多的是圖像、視頻、音頻、鏈接、地理位置信息等半結構化甚至于非結構化的數據,如此種類繁多的資源也激發了大學生移動學習的動機,但是面對如此繁多的數據種類和復雜的數據結構,需要的是更強大的數據處理能力[4]。
1.2.3數據處理速度快
數據處理速度快是大數據區別于傳統數據挖掘的最顯著特征。從種類繁多、體積巨大、結構復雜的海量數據中挖掘出有價值的信息,勢必需要極大的數據處理速度。對于通信、銀行等企業來說,在海量的數據中,數據處理的效率高低關乎著企業的生命線,為了幫助用戶了解正在發生或者預測即將發生的情況,要求按需提供交互式、實時的數據分析。
1.2.4數據價值密度低
數據的價值密度與數據總量成反比,數據的總量越大,其價值密度越低。一部1h的視頻,在連續不間斷的監控中,有用數據可能僅有1~2s。如此海量的數據,其有價值的信息其實是有限的,目前大數據背景下亟待解決的難題將是如何利用強大的算法快速的完成價值的“提純”。
大數據時代,數據即是“寶藏”。出版行業產生的海量數據可以創造無法估量的價值。如何利用好這些數據對出版行業有著重要的意義。大數據技術的發展給傳統出版模式帶來革命性的改變,通過對出版市場預測、分析、策劃以及營銷等活動的展開,利用大數據技術強化數據采集、分析和整合能力,是出版行業新的盈利增長點和核心競爭力之所在[5]。
3.1大數據促進精準營銷
隨著Web2.0概念的普及和發展,用戶數據已成為一種新興的網絡信息資源創作與組織模式[6]。在網絡上,用戶行為不斷被記錄、不斷聚集,而傳統出版機構不擅研究用戶的行為,便顯得殊為可惜。
大數據背景下,通過對用戶生成內容及其相互關系的深度挖掘和應用,可以探索用戶需求,充分了解用戶的個體、群體特征,分析其閱讀興趣,也能進一步獲得作品內容特征、發布頻率和閱讀、傳播狀況等規律,從而制定有針對性的產品組合和營銷策略,從本質提高最終購買率,實現精準營銷。
3.2大數據驅動出版運營
傳統出版行業往往從選題策劃開始出版運營,而市場需求是進行圖書選題策劃的基礎和先導。傳統模式是通過采取個別訪問、參加學術會議、座談會或小范圍開展問卷調查等方式了解分析市場需求,但這種方式成本高、效率低,數據量有限、時效性差、缺乏全面性和典型性,很難真正把握市場需求。
大數據背景下的出版行業,可以借力大數據開展選題策劃,驅動出版運營。通過分析與自身出版方向相關的數據,以及其他相關出版機構的出書品種、數量和市場占有率等數據,較為科學準確地把握市場潛在需求和發展趨勢,優化選題策略。另外,大數據還可結合云平臺,貫通用戶數據和運營數據,在出版各個環節中,全流程實施大數據監控,及時開展大數據分析,揭示海量數據中隱藏的寶貴信息,促進出版流程優化,有效引導出版運營。
3.3大數據構建知識服務
隨著移動終端的興起和人們生活節奏的加快,數字內容消費領域存在著日益“碎片化”的趨勢,靜態圖書的知識服務方式受到了嚴重挑戰,閱讀內容和消費時間的“碎片化”是一種不可避免的發展趨勢。
大數據時代,出版行業將順應“碎片化”趨勢,改變傳統以書、文獻等為單位的粗放型生產模式,轉而形成以知識要素為單位的數據化生產模式。出版行業將內容資源碎片化、數據化,在此基礎上將其加工成不可切分的知識元,形成網絡化的知識元塊,然后基于消費者個性化需求,以動態方式排版、重組、出版知識碎片。這種動態碎片化出版方式將大大節約人們的閱讀時間,有效提高人們對知識獲取和創新的速度,這將成為知識服務的新市場。
參考文獻:
[1]大數據背景下創新政府互聯網治理[N].光明日報,2013 (3):22-23.
[2]李勇輝.大數據概念辨析及應對措施[J].互聯網天地,2014 (1):11-12.
[3]杜明明.大數據的內涵、特點與趨勢——關于潘云鶴院士“大數據”觀點的分享[J].浙江教育技術,2013(6):58-59.
[4]葉曜坤.暢想大數據時代[R].人民郵電,2013-03-15.
[5]孫玉玲.大數據時代數字出版產業的發展趨勢[J].出版發行研究,2013(4):5-6.
[6]劉燦姣,葉翠.基于云計算的出版企業大數據服務研究[J].出版發行研究,2013(11):59-60.
中圖分類號:G358