簡東
(鄭州大學文學院,河南鄭州450000)
大數據時代的中文之美
——解析大數據在中文閱讀與寫作中的意義
簡東
(鄭州大學文學院,河南鄭州450000)
我們已經進入了“大數據”的時代,在這樣的一個數字化的時代,其背后起巨大支撐作用的就是“大數據”。作為我們母語體系的中文,如何在“大數據”的時代再次迸發出燦爛多姿的魅力,如何實現“大數據”與中文閱讀、寫作的結合,正是本文所要討論的問題。
大數據;中文之美;閱讀寫作;數據庫
提到“大數據”,可能還有部分人對其準確含義不甚了解,究竟什么是“大數據”?它的含義是否就可以等同于“數字化”“電子化”“信息化”?其實不然。
大數據(bigdata),又叫巨量資料,指的是這樣的一種信息和資訊:它可以幫助學術研究、企業經營、經濟市場分析、政府決策,但其所涉資料規模量巨大,以至于通過目前主流軟件工具也無法在合理時間內完成對其的擷取、整理和管理。而在維克托·邁爾·舍恩伯格及肯尼思·庫克耶編寫的《大數據時代》中,大數據指采用所有數據而不用抽樣調查等隨機分析的捷徑的方法。而且大數據具有“4V”特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)??梢姟按髷祿边@種海量、高增長率和多樣化的信息資產,正是憑借新處理模式才擁有了更強的決策力、洞察力,才更便于分析研究與流程優化。需要明確的還有數據與信息、知識是不同的——數據僅是信息與知識的根據和基礎,而大數據技術的戰略意義就在于對這些富有意義的數據進行專業化處理,而非僅僅是對龐大數據的掌握。換言之,如果大數據是一種產業,該產業欲圖盈利,則其關鍵在于提高加工數據的能力,通過“加工”實現“增值”。大數據“增值”的核心手段就在于將海量數據進行存儲、闡釋和分析。較其他的現有技術來說,大數據之“廉價、優化、迅速”三方面的綜合成本是最理想的。
明白了大數據的確切含義,那么接下來我們所要做的工作就是讓它更好地服務于新時代下的中文閱讀與寫作。
進入大數據的時代后,我們在日常生活中接觸最多的就是這類數據以及對這些數據科技化、精確化的分析。各類的指標均以量化的形式出現,使我們感覺到精密如尖端儀表一般。誠然,數據分析和指標量化為人們在學習、工作、生產、生活上最大程度地實現其目的計劃提供了堅實的依據,但如若過分依賴于其,人類勢必有異化之感。例如,通過大量的實例,科學家總結出了最科學的學習作息時間,何時最適宜進行什么樣的學習等,每一項安排背后都有詳實的數據支撐。這種類似的科學解釋在生產中也很多見。如果我們嚴格遵循它們,我們就被高度機械化了。
這樣,“大數據”便取代了一切,海德格爾“詩意棲居”的人文精神將何從談起?人的行為完全被數據所束縛,在獲得科學性和行為慣性便利的同時,人類也喪失了部分的自主性。因此,維克托·邁爾·舍恩伯格在《大數據時代》最后一部分中也點明了大數據的風險:當數據主宰一切時的隱憂。大數據會帶來作偽和隱私的威脅,造成機械化和繁雜化。
由此我們在接受和利用大數據的時候,也應對其持一定的批判態度,切莫陷入“唯數據主義”的泥淖。人類最具有自由性的思維便是感性思維,也被稱作詩性思維。這正是人類思想和創造力的精靈。數據及其分析本身不是終極意義,它們不足以闡明世間所有;中文則是有靈性的文字,即使是在大數據即將一統天下的時代,中文也不應喪失其獨特的地位。例如詩歌的創作,在唐代所取得的獨一無二的輝煌成就,今人是難望其項背的。中文在大數據中不應淪陷!如何使大數據與中文相得益彰,繼而弘揚文字的魅力,是我們當代不斷著力研究的課題。
中文,充滿靈感的象形文字,自其創作伊始便具有了非凡的美感。它是古代中國先人們實踐和智慧的結晶,更是全人類共同的財富。在大數據時代的話語權方面,中文與漢語理應占有較為可觀的一席之地。從現有中文類數字化學術期刊的狀況看,幾乎所有的出版編輯單位都不同程度地針對傳統學術期刊開展了數字出版工作,如加入了中國知網、萬方、中文科技期刊等大型期刊數據庫,有的還建有自己獨立的網站。一批以中文數字化學術期刊為經營核心的企業所建立的數據庫已經形成了一定的市場規模,其數據庫平臺功能強大,使讀者能十分方便地獲取相關信息。中文大數據的話語權初步得到了強化。但是我們必須看到,中文類學術期刊數字化進程雖然初見成效,但我國大多數中文學術期刊出版編輯單位的數字化工作,只是簡單地將傳統中文學術期刊的紙質版內容不加改動地交給了大型數據庫,由其統一制作、全文上網。即使是建有獨立網站的學術期刊,也大多格局雷同,僅僅是將“千刊一面”的中文傳統紙質媒體置換成了“千網一面”的數字媒體,實質是在網絡空間里依舊無法延續傳統品牌的效力。況且,各大型中文學術期刊數據庫也尚未達到用戶在“大數據”時代獲取信息的要求。由此看來,離“大數據”時代的基本要求尚且還相差很遠,更何談中文與大數據的完美結合以超越“唯大數據”的局限性呢?
鑒于此,還必須加強使“大數據”有效服務于中文學術創作的技術研究。在“大數據”背景下,嚴謹的中文學術創作不僅是理念上的要求,還需要技術的支持。探索如何在“大數據”平臺上精細設計中文學術研究數據庫平臺,并深層次地探討其構建過程中涉及的關鍵技術。同時,還要以需求為指引,以信息技術與人文精神融合為重點,結合“大數據”學術平臺服務模式的內涵和特征,研究中文“大數據”學術平臺的基礎框架體系、交互體系、處理體系、過程管理體系、分析與決策體系等。
讓數據和數據分析服務于中文最直接的運用就是其在閱讀和寫作領域發揮的價值。但是數據庫的龐大足以使我們在參考、使用時有“眩暈”之感。我們所暈非其“大”,而是其“雜”。大數據是個魚龍混雜的地方,常常使我們在材料選擇與行為指引方面感覺手足無措。這里面最關鍵的原因就是真偽難辨。例如,當我們在寫作中需要從某個時代的背景出發去展現人物的行為與心理時,關于這樣的時代背景的界定就成為了首先要考慮的問題。而我們在進行界定時,時代背景的資料是可以通過一系列的的數據與數據分析進行萃取的。那么,我們可以提煉當時GDP水平、CPI指數等等背后的原因。這些提供出來的原因是完全客觀的嗎?不但不是,而且還有著獲取方式的差異性、主體的絕對在場性。能不能信、該怎么信等問題是我們不得不思考以及無法逃避的。在閱讀方面更是如此。
閱讀作為一種社會行為,其對象、性質、形式的變化每次都會受到媒體語境變遷和傳播技術革新的深刻影響,處于大數據、新媒體環境下的中文閱讀更是如此。除傳統紙質閱讀外,現階段的閱讀還包括網絡在線閱讀、電子閱讀器閱讀、手機閱讀等多種方式。這些方式給中文閱讀帶來了沖擊,產生了一些新問題。受當下閱讀消費性、閱讀時空隨意性的影響,事實上出現了泛閱讀、淺閱讀、偽閱讀、娛樂性閱讀、功利性閱讀、非導向性閱讀、重圖輕文等問題,中文閱讀自然也不可幸免。閱讀本身是人從圖文符號中獲取意義的一種心理過程和社會實踐活動,閱讀方式的改變并不一定就導致閱讀理解的困難或閱讀心理的退化。無論讀者選擇何種媒介進行閱讀,都面臨著一個選擇閱讀內容的問題——可信度甄別、閱讀側重點和引用思考。面對中文閱讀的嬗變,我們作為接受者,應能建設性地整合、梳理各類信息、知識,對閱讀內容進行“二次提煉”以達到科學地建構與評估,來改善并促進中文閱讀。
由此可知,對大數據進行具有彈性深度的“二次提煉”是十分必要的。同時,還由于主體的絕對在場性,追求所謂的“絕對真實性”與“冷靜客觀性”其實是不切實際的。這里所說的“真”是指在閱讀或寫作的某一具體情境中能夠最準確、最完整、最大化地展現中文之美的要求。這也是要讓大數據服務于中文的閱讀與寫作的應有之義。準確說來,中文中有很多多義性、委婉性的語言或文字現象,故當中文遭遇條分縷析的大數據時很有尷尬之感。中文更多的是感性的世界,象形文字背后跳躍著更多的是靈感和靈性,而數據所能提供的信息看似豐富、多樣、高速,實則干癟而缺乏靈動。然而“大數據”就是以科學又極具理性的形式出現,它的整體詳實而有真實依據感沖擊著人們的思維和判斷力。若完全以大數據來支撐中文的閱讀與寫作的話,則必使文字材料僵硬、冗雜而少美感和靈氣。表現力的降低反而造成了對“內蘊真實”的削弱。
但從另一方面而言,通過本文第一部分對“大數據”真實含義的把握,我們不難發現它也是新時代下技術美的鮮明體現。它將中文閱讀與寫作變得多媒體化,它的4V特征、“廉價、迅速、優化”的成本,以及對事物本質、內在規律性盡力地揭示,反映出了科學實驗美和技術事實美。這樣的一種美符合人類對高效便利理想生活的共同期望與共同情感,使我們印象深刻。如若能夠正確地加以利用,它必然使我們的操作性體驗充滿愉悅,從而得心應手。
于是,在對大數據的“真”進行了上述兩方面的“拷問”,并對其技術美進行發掘后,我們對其在閱讀與寫作上的應用就要“去偽而存真”,凸顯其技術之美了。這樣,大數據的技術美方能服務于中文之美。在這一領域內,中文與大數據是可以相得益彰的。在閱讀之中,我們不能盲目,不能迷信數據和數據分析,要發揮思維的積極主動性,要有存疑的精神。就這一點而言,“大膽假設,小心求證”對于大數據也是通用的。不僅如此,在我們思考的過程中應進行“二度提煉”,讓數據靈動起來,統籌文字和數字兩種思維模式。在寫作時,就更要服務于主觀真實,在理性依據的基礎上展開靈動感性的文字,共同致力于中文之美的綻放。
[1](英)維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013: 9,167.
[2]李晨暉,崔建明,陳超泉.大數據知識服務平臺構建關鍵技術研究[J].情報資料工作,2013(2):29-34.
[3]吳斌.產業重構時代的出版與閱讀——大數據背景下出版業應深度思考的五個關鍵命題[J].出版廣角,2013(12):35.
I206
A
1673-0046(2015)7-0186-02