喻發勝 張加俊
[摘 要] 首先從歷史角度考察紙質出版,認為就具體形態而言是以紙為媒介“鐫著于版”“印行于世”的行為,其本質是“信息生產與傳播”行為。其次指出互聯網時代,紙質出版的價值猶在,但基于數據的生產與傳播為大勢所趨:數據庫是面向特定主題,集成的、相對穩定的、具有統一格式的、能反映歷史變化的數據集合,數據庫建設是將“孤立、靜態和碎片化”的文本數據轉化為“關聯、動態和整體性”的結構化數據工程。最后,以自然災害類突發事件中的旱災數據庫建設為例,探討數據庫建設的意義,介紹數據庫建設的基本步驟,以期為出版業的轉型提供新思路。
[關鍵詞] 紙質出版 數據庫建設 大數據 出版業轉型
[中圖分類號] G237 [文獻標識碼] A [文章編號] 1009-5853 (2016) 06-0090-04
[Abstract] Paper-based publication uses paper as a medium to “engrave in the wood block for printing” and to “publish to the world”. Its essence lies in the process of information production and communication. In the era of the Internet, the value of paper-based publishing remains apparent, yet the production and communication based on data has become a trend. A database is a data set established for a specific topic, and it integrates relatively stable data in a unified format and reflects certain historical changes. Database development is the attempt to translate the “isolated, static and fragmented” text-data into “related, dynamic and integral” structured data. Using “Natural Disasters: Drought” database as an example, this paper discusses the significance of database establishing, and introduces the basic steps of database setup. In doing so, it provides fresh ideas for the possible transformation approaches for the publishing industry.
[Key words] Paper-based publication Database development Big data Transformation of publishing industry
傳統的紙質出版,主要是將文字或圖表印刷在紙介質上并向公眾發行,其生產方式是“物化”復制的過程,其發行方式是實體印刷品基于物理空間的位移過程。隨著互聯網與大數據時代的到來,紙質出版的價值猶在,但基于數據的生產與傳播已是大勢所趨。對出版業來說,當下不僅要提升傳統的編輯能力和印刷能力,還應大力提升對大數據的處理能力。出版企業大都擁有一筆寶貴的財富,即多年經編輯加工而成的圖書或音像制品。它們中的大多數作為非結構化、半結構化的數據“沉睡”在那里,如果仍以“物化”復制的方式重新刊印,未必能獲取足夠的市場價值;但若將這些數據基于特定主題建設數據庫,則可能使其“蘇醒”且價值倍增。本文以“自然災害·旱災(2001—2010年)數據庫”建設為例,介紹如何對非結構化、半結構化數據進行結構化處理,以期為傳統出版業的轉型提供新思路。
1 “出版”的本質是“信息的生產與傳播”
隨著以互聯網為代表的新媒體技術的廣泛普及,傳統出版業面臨的困境及轉型策略一直是學界與業界關注的焦點。探究出路往往需溯本求源,反思何為“出版”?
“出版”一詞起源何時目前尚無定論。朱光暄認為“出版”一詞最早出現于光緒二十八年(公元1902)梁啟超的《敬告我同業諸君》一文中[1];林穗芳認為“出版”一詞19世紀末借自日語[2];吉少甫認為“出版”一詞最早是在梁啟超1899年8月發表的《自由書》一文中使用的[3];王益認為1879年黃遵憲與日本學者龜谷省軒的“筆談”中最先使用此詞[4];王振鐸認為“出版”一詞最早出現在1833年8月1日創辦于廣州的《東西洋考每月統記傳》的編輯序言中[5],等等。盡管“出版”一詞在漢語中的歷史并不悠久,但漢語中表示出版行為的詞匯卻早已有之,如唐宋年間即有“上梓”“梓行”“刊行”“開板”“板印”之說[6]?!掇o源》中表示出版行為的用語有“刊行”“板本”“印板”“鐫印”“雕版”“刊刻”等[7]。分析上述文獻,可以發現“鐫著于版”“印行問世”[8]大體表征“出版”之義。
此外,一些法律條文對何為“出版”也進行了界定。日本明治20年(1887年)的《出版條例》規定:“凡以機械、化學或任何其他方法印刷之文書圖畫予以發售或散布者,均為出版”[9]?!妒澜绨鏅喙s》將“出版”界定為“作品以有形形式復制,并把復制件向公眾發行,使作品能供閱讀或觀賞”[10]。我國北洋政府制定的《出版法》規定:“用機械或印版及其他化學材料印刷之文書圖畫出售或散布者,均為出版”[11]。我國現行《出版管理條例》規定:“本條例所稱出版活動,包括出版物的出版、印刷或者復制、進口、發行”[12]等。上述法規對“出版”的界定雖表述不一,但“印刷”和“發行”是其共有的特征,二者分別對應的是出版過程的生產環節與流通環節,缺其一不能稱之為出版。
綜上,我們認為將文字與圖表印刷在紙媒介上并加以發行只是紙質出版的具體形態。究其本質,出版是“信息的生產與傳播”行為。在不同的歷史時期、不同的技術條件下,出版的具體形態各異,但生產信息、傳播信息的本質不變。
互聯網技術對傳統的信息生產與信息傳播方式所帶來的變化是顛覆性的?,F今時代對出版企業而言,提升對數據信息的生產能力與處理能力是其轉型的重要趨勢之一。其中,需要厘清的一個重要問題是出版業的“數字化”轉型并不等于“數據化”轉型?!皵底只笔菍⒃瓉砘谟∷⒌壬a行為生成的符號轉換成用“0”和“1”表示的二進制碼[13];或者說,是將模擬數據變成計算機可讀的數據,從而在傳播介質上擺脫了對紙、光盤等有形之物的依賴。而“數據化”是“一種把現象轉變為可制表分析的量化形式的過程”[14]。通俗地講,就是“讓數據發聲”的過程。二者有本質的區別。因此,對于出版業轉型來說,只是將原有出版資源轉變為計算機可讀的數據(這些數據大多為非結構化、半結構化的)遠遠不夠,還必須在此基礎上對這些海量數據進行結構化處理與深度挖掘。這也正是建設數據庫的意義和價值所在。
2 數據庫建設的意義
數據庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合[15]。它可以形象地理解為一種格式一致的多元數據存儲中心。其數據可以來自出版系統、也可以來自媒體報道和政府部門通報等;可以按統一定義的格式被提取出來,再通過清洗、轉換、集成,最后百川歸海,加載進入數據庫[16]。對出版企業而言,加強數據庫的建設主要有以下幾個方面的意義。
一是重新定義出版行業的核心競爭力。對于傳統出版行業而言,其核心競爭力可能是編輯水平、印制能力和發行能力,但未來出版企業的核心競爭力之一主要體現在對大數據的利用水平上。對大數據的利用需要有兩個基本條件:一是擁有龐大的數據規模;二是掌握豐富的數據處理資源(包括專業人才、資金、平臺、數據搜集高權限等)。兩者缺一不可。一般的自媒體和非專業媒體機構很難同時具備這兩個條件。因此在大數據時代傳統出版企業依然具備巨大的發展潛能,也就是可以通過大數據重構自身作為專業信息生產與傳播機構的核心競爭力。
二是更新出版行業的資源整合方式。過去出版行業主要是按書名或書籍涉及的領域進行資源整合。這種整合方式是表層的,主要作用是易于檢索,無法對資源進行深層次利用。數據庫建設則是按照不同主題制定統一的數據指標,對所有相關的非結構化、半結構化的數據進行結構化處理。以 “突發事件數據庫·自然災害·旱災”(以下簡稱“旱災數據庫”)為例,就是以“干旱”為主題的數據庫,需要采集相應時空條件下所有關于干旱的數據,并制定統一的數據處理標準。例如,對干旱的發生時間、持續時間、發生地點、波及地域、對人員生命財產造成的損失等數據進行結構化處理,并將這些數據存儲到數據庫中,以實現數據資源的持續利用,在數據層面實現信息資源的“完全燃燒”。
三是創新出版行業的服務方式。出版企業搜集數年來關于某類主題的數據建立數據庫,通過大數據挖掘可以清楚地了解到某類事件發生的地域分布、時間分布、演化過程等總體趨勢,可以與其他數據“疊加”進行相關性分析等,并以此為基礎為用戶提供大數據服務。用戶通過對旱災數據進行挖掘分析,得出來的結論不僅可以為相關部門的災害應對提供決策依據,而且可以為廣大農民、涉農企業的生產經營提供數據支持。
3 數據庫建設的步驟
數據庫的建設主要包括數據采集、數據清洗、數據結構化處理、數據存儲、數據挖據、可視化呈現等步驟。下面以“旱災數據庫(2001—2010年)”的建設為例作具體介紹。
數據采集。設計網絡爬蟲程序,按照設定的關鍵詞,自動抓取互聯網上相關主題的所有數據信息,并按照一定的規則儲存。就“旱災數據庫”而言,主要是通過設定關鍵詞的方式,對目標站點的數據信息自動進行抓取,并將采集后的數據按照相應的規則存儲。
數據清洗。對網絡爬蟲程序采集到的數據“去雜”的過程,也就是將與數據采集規則不符的數據盡可能去除。對旱災來說,凡不屬于對災害本體進行描述的數據、超出事先規定區域之外的數據等都應去除。
數據處理。這是對采集的非結構化或半結構化數據進行結構化處理的過程。此步驟為數據庫建設的關鍵步驟,直接影響數據挖掘的精確性和數據庫價值的大小。具體到“旱災數據庫”,主要由“本體要素表”“影響損失表”“應對措施表”“輿情應對表”4個部分構成,且各部分都有自己特定的填寫格式。對干旱災害的數據處理,即將所有的關于干旱災害的時間、地點、等級、影響、應急措施、輿情應對等根據各表格的填寫格式,按統一的數據指標分別填寫到對應的表格中。
數據存儲。將結構化數據加載入庫的過程。對干旱災害而言,即統一集成各部分的結構化數據表格,搭建“旱災數據庫”的過程。
數據挖掘。曾一度被稱為“基于數據庫的知識發現”(Knowledge discovery in database),是指“有組織有目的地收集數據,通過分析數據使之成為信息,從而在大量數據中尋找潛在規律以形成規則或知識的技術”[17]。對于出版行業而言,大數據挖掘的最主要應用就是對于不同主題數據庫的聯機分析和相關關系分析[18]。具體到“旱災數據庫”的數據挖掘,一方面要對干旱災害的關鍵要素進行處理、呈現;另一方面要對災害發生時伴隨發生的其他現象進行相關性分析。此舉不僅可以使用戶從微觀上把握某一具體災害,而且可以從宏觀上對干旱災害的時空分布規律進行準確把握。香港科技大學龔啟圣教授曾經收集過去2000余年中原省份的氣候數據,包括每年降雨量、旱災、水災,以及北方游牧民族攻打中原的時間和次數等,并根據這些數據進行深入挖掘,結果發現:任何十年里,多一年旱災會使游牧民族在那十年里攻打中原的概率增加26%[19]。
本課題組采集了2001—2010年10年間我國旱災的全部數據,通過大數據分析,我們發現干旱災害發生后往往引發相應的自然類衍生災害、公共衛生類衍生災害和社會安全類衍生災害。自然類衍生災害主要包括水庫干涸、河流斷流、森林火災、蟲災、沙塵暴、草場退化、濕地生態破壞、咸潮和藍藻等。公共衛生類衍生災害包括腸道傳染病、呼吸道疾病、皮膚病等,其中干旱災害與腸道傳染病集中爆發的相關性不易為人們的直觀經驗所發覺。大數據挖掘顯示出的相關性,其背后往往存在因果性——干旱災害往往會造成河流斷流和水庫干涸,使飲用水源過于集中,一旦水源受污染,便極易造成腸道傳染病的爆發。此外旱災還會引發社會安全類衍生災害,如農村村民因搶水械斗、群體上訪和圍攻水管單位等。
可視化呈現??梢暬尸F是指“以圖形、圖像、地圖、動畫等更為生動、易于理解的方式來展現數據的大小,詮釋數據之間的關系和發展的趨勢,以期更好地理解使用數據分析的結果”[20]。就“旱災數據庫”而言,其可視化呈現至少有3種途徑可資參考:一是時間線,用以展現干旱災害在時間維度上的演變;二是數據地圖,用以展現干旱災情基于地理位置的分布;三是交互性圖表,用以展現干旱災害本體及其影響之間的關聯性。通過數據的可視化呈現,能夠使受眾在腦海中迅速形成關于災害及其相關性的直觀印象,提高人們對干旱災害的認識能力和預測預警能力,將干旱災害帶來的損失降到最低程度。
對傳統出版行業來說,從紙質印刷到數據庫建設,就信息生產方式而言是一次顛覆性的變革,但這種“顛覆性”會產生巨大的價值。不同專業背景的出版社可根據自身的特點,建設不同主題的數據庫。例如,衛生行業的出版社可與醫療行業聯合建設若干涉及人體健康的數據庫,教育行業的出版社可與各類教育機構聯合建設若干關于教育的數據庫,如此等等,只要深入挖掘,可謂資源無限、潛力無窮。正如維克托·邁爾-舍恩伯格教授所說,“數據就像一個神奇的鉆石礦……它的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,絕大部分都隱藏在表面之下?!盵21]
注 釋
[1]朱光暄, 薛鐘英, 王益. “出版”探源[J]. 出版發行研究, 1988(5): 51-53
[2][6][9] 林惠芳. 明確“出版”概念 加強出版學研究[J]. 出版發行研究, 1990(6): 13-20
[3]吉少甫. “出版”考(續)[J]. 出版發行研究, 1991(5): 62-62
[4]王益. “出版”再探源[J].出版發行研究,1999(6): 8-9
[5][8]王振鐸.“出版”史論[J].出版發行研究,2006(10): 26-29
[7][10][11]胡國祥.“出版”概念考辨[J]. 武漢大學學報(哲學社會科學版),2008(3): 437-442
[12]徐力.“出版”概念及其在數字化網絡環境下的再認識[J]. 出版發行研究,2012(7): 55-57
[13][14][21]維克托·邁爾一舍恩伯格,等. 大數據時代[M]. 杭州:浙江人民出版社,2013 : 104-127
[15][16][20]涂子沛. 大數據:正在到來的數據革命[M].桂林:廣西師范大學出版社,2012:86-99
[17]譚磊.New Internet:大數據挖掘[M].北京:電子工業出版社,2013 : 23
[18]張振宇,周莉.“大數據出版”的理念、方法及發展路徑[J].出版發行研究, 2015(1): 14-17
[19]陳志武.量化歷史研究告訴我們什么? [EB/OL].[2013-09-17]. http://www.21ccom.net/articles/sdbb/2013/0914/91965.html
(收稿日期:2016-09-24)