劉軍華
(西安財經學院統計學院 西安 710100)
·專題研究·
國民閱讀統計轉型及大數據融合的方法邏輯*
——基于閱讀焦慮下數據錯覺思考
劉軍華
(西安財經學院統計學院 西安 710100)
文章認為外部信息誘因、內部統計缺陷、調查主體差異及核心數據缺失是構成認知錯覺引發(fā)閱讀焦慮的主要因素,在大數據上升到國家戰(zhàn)略情勢下,實現閱讀統計轉型與大數據融合是消除閱讀焦慮、化解數據錯覺的科學途徑,基于理論前提、業(yè)務方向、邏輯內涵、轉型路徑研究,提出深度閱讀大數據概念與方法邏輯,認為在技術復雜性與信息敏感性需求下的相關理論、技術、體制與人才研究不僅是圖書館學方向之一,也是國家閱讀管理需要關注的重要課題。
閱讀統計 轉型 大數據 方法邏輯
每年“4·23”(世界讀書日)總有許多閱讀數據見諸網絡與媒體,基于數據新聞分析、個體感覺和數值理解成為社會認知閱讀的主要信息來源,縱觀2010-2014年我國閱讀統計數據,不論是國民圖書閱讀率還是媒介綜合閱讀率以及數字化閱讀方式接觸率等,主要指標數值時有波動,總體依然呈上升趨勢[1]。這些數據雖然勾勒出國民閱讀持續(xù)增長的感性圖譜,但是從2014年閱讀評價調查來看,認為數量較多的為10.20%,數量較少的則占44.10%[2],而對閱讀現狀滿意的僅25.80%[3]。調查結果顯示數據緩慢增長距離公眾閱讀期望尚存一定差距,而數量少和總體滿意度低卻已成公眾閱讀認知潛意識,也正是這潛意識不僅觸發(fā)了國人對閱讀現狀和未來的焦慮,也讓反思“不讀書”成為“世界讀書日”另類主題[4]。需要注意的是2014年我國人均紙質圖書閱讀量為4.56本,較上年下跌0.21本[5],這一國民閱讀統計主流指標在趨勢拐點位置的敏感波動也成為加劇閱讀焦慮的數據痛點。
2.1 數據錯覺
雖然抽象的數據概括和遮蔽了閱讀形態(tài)多樣性與內涵復雜性,但閱讀焦慮不僅反映了數據疊加后混合傳播中信息化消解與誤區(qū)以及由此造成的數據錯覺,也折射出數據自身的局限與問題[6]。顯然對于閱讀數據“低水平”認知與其科學性思考和能否反映現狀或者閱讀是否合理計量以及被現有數據低估的各種質疑[7]成為數據錯覺的主要內涵,而剖析其現有來源與傳播過程中的信息誘因以及數據機理層面的方法缺陷則成為國民閱讀統計轉型研究的切入點。
2.2 數據錯覺來源解析
2.2.1 外部信息誘因
數據錯覺主要表征為閱讀數據增長與社會感覺的背離,而閱讀數據不當應用造成的此類問題較為突出。首先是媒體視角,主要表現閱讀數據橫向國際比較多以美、歐西方發(fā)達國家為參照,且習慣于仰視思維,缺乏客觀全面分析;縱向國內比較一般只與上年度對比,缺少必要的連續(xù)數據引導,造成數據敏感度與趨勢特征缺失。其次報道境外數據引用不實與忽略國情基礎則助漲國民閱讀道德性數據期望攀升,由此引發(fā)數據認知落差擴大。因此數據不當應用和國情現狀的客觀存在與傳播視角偏差以及數據自身不嚴謹等成為傳播層面誘發(fā)數據錯覺的主要外部信息誘因[8]。
2.2.2 內部統計缺陷
在目前數據來源仍以統計調查為主的前提下,從機理層面分析數據低水平產生的首要因素在于計量缺陷,或者說計量不足。現有閱讀統計主要以時間和書本為計量載體,在統計上基于紙質閱讀的正統性[9]調查以存量即傳統閱讀為計量主體,對增量部分即數字化閱讀不論范圍還是程度均涉及不深。而傳統閱讀正處于從主流走向常態(tài)的轉折關口,顯然閱讀統計范疇局限已成為計量層面數據低水平的主要基礎性因素。其次是指標與方法問題。現有數據來源指標包括:人均每天互聯網接觸時間、國民綜合閱讀率、人均紙質圖書年閱讀量、國民人均閱讀電子書、人均藏書量、人均購書量、人均讀書時間等,從名稱可以看出這些多屬于宏觀統計平均范疇。在數據獲取主要依靠抽樣調查的現狀下,由于受地域屬性、人口特征、空間性質以及樣本選擇的數量差異和方法制約,所采集到的數據信息有限。而維度分散、指標雷同等技術缺陷不僅造成國內閱讀數據現狀的繁雜與混亂,也讓數據總體上缺乏統計學層面的系統性和閱讀趨勢特征的針對性,顯然指標簡單、實踐滯后以及方法所限等成為閱讀數據錯覺形成的主要內部統計缺陷。
2.2.3 調查主體差異與核心數據缺失
現有的全國性閱讀統計包括中國新聞出版研究院連續(xù)十二次的《國民閱讀調查報告》和央視新聞頻道與人民日報聯合百度、新浪、京東、亞馬遜、零點研究咨詢等發(fā)布的所謂“國民閱讀大數據”。區(qū)域性方面具有代表性的有國家統計局成都調查隊進行的“2014年成都市國際通識閱讀指數調查”[10]以及上海市新聞出版局《上海市民閱讀狀況調查報告(2015)》等。從這些可以看到閱讀調查主體組成正在從少數產業(yè)研究、行業(yè)管理向媒體和企業(yè)甚至政府統計部門演變,雖然這標志著閱讀統計的多元化、網絡化、專業(yè)化推進,但是閱讀統計中調查主體對數據影響亦不可忽視,不同數據來源由于統計視角、方法與技術差異以及行業(yè)背景不同,相應的統計結果與信息解讀形成了對閱讀現狀的不同認知和判斷。這種差異在提升數據對比性同時也讓噪聲增加造成某種程度數據認知度降低,而與國民閱讀密切相關的圖書館行業(yè)和教育部門系統性閱讀統計數據缺失則成為關鍵缺陷,因此調查主體差異與核心數據缺失成為數據錯覺構造中不可忽視的現實因素。
外部信息誘因、內部統計缺陷、調查主體差異與核心數據缺失三方面是構成國民閱讀數據錯覺的主要因素,而大數據背景下消除閱讀焦慮、化解數據錯覺的根本途徑在于國民閱讀統計轉型與數據方法創(chuàng)新。
3.1 閱讀統計轉型理論前提
數據化演變正在重構閱讀的社會技術形態(tài)與信息內涵,現有數據邏輯是基于傳統閱讀范疇與統計方法對閱讀形態(tài)進行簡單性宏觀評估。雖然目前國民閱讀在信息層面數量增加是確定的,問題在于其是否符合閱讀相關定義要素,而這關系到閱讀測量數據邊界的確定,從現有閱讀理論思考,其中很大部分尚不能歸入閱讀統計范疇。而美國已將“聽書”等新生閱讀類型納入統計體系,如果我國閱讀測量中將數字化閱讀(主要包括網絡、微博、微信、有聲閱讀)等全面納入的話,國人的閱讀數據也不會這么低[11]。因此測量對象主體從傳統靜態(tài)物理性閱讀向網絡動態(tài)數字化閱讀擴展成為轉型起點,而這不僅關系到閱讀統計指標體系與方法的重構,也必然涉及閱讀內涵界定以及信息空間融通與聚變下閱讀如何定義。因此閱讀理論創(chuàng)新由此產生的計量主體重構、指標性質改變與數據方法工具選擇成為閱讀統計轉型的理論前提[12]。
3.2 閱讀統計轉型業(yè)務方向
面對數據洪流,目前主要依靠統計抽樣的國民閱讀統計不論方法還是數據技術能力都顯滯后,雖然目前大數據正處于探索過程與趨勢層面,但閱讀統計亦處在變革的十字路口,數據化正沖擊著其現有的業(yè)務模式和調查體系,受此影響閱讀統計正在發(fā)生著深刻的漸進性改變[13],如2014年國民閱讀調查中的有效樣本量為49802,比往年增加一倍[14],而自2013年開始的包括央視和人民日報以及百度、騰訊、當當網、亞馬遜等新聞媒體與互聯網企業(yè)發(fā)布的所謂閱讀大數據也是在抽樣基礎上對線上與線下數據整合處理,二者卻都以增大統計樣本量為共同點,而從 “大樣本”到“大數據”的轉變不僅意味著國民閱讀數據處理從樣本調查向總體測量的遷移與統計方法的演變,也標志著閱讀統計轉型的業(yè)務方向。
3.3 閱讀統計轉型邏輯內涵
閱讀統計在于通過數據解決“讀多少、怎么讀、讀什么”問題,不論是國民閱讀調查報告還是網絡媒體所謂閱讀大數據,都是基于圖書銷售或者出版產業(yè)相關數據來確定閱讀的基本數量,通過閱讀載體的間接數據回答“讀多少”問題。雖然現有數據基本完成了“讀多少”的統計目標,少部分兼顧到“怎么讀”以及簡單“讀什么”,但是關于“讀什么”的信息內涵有限,其最多也就測量到中圖法基本大類如文學、經濟等,這些數據由于資源結構限制與管理水平差異,尚不能全面揭示閱讀內容的信息特征。由此看到現有國民閱讀統計邏輯在于間接測量載體數據以此推斷閱讀數量,但并未系統涉及閱讀內容的信息屬性。而目前閱讀數據“低水平”包括兩方面:一是閱讀數量低水平,二是閱讀質量低水平[15]。因此化解數據錯覺的關鍵在于實現統計內涵的轉變,而對現有閱讀測量維度的大數據拓展成為統計轉型的潛在邏輯,其主要包括:首先實現閱讀統計對象從存量傳統物理性閱讀為主向增量數字化閱讀覆蓋,統計維度從數量向質量延伸,數據內涵從“讀多少”載體數量向“讀什么”內容與質量信息屬性數據轉換;其次是數據視角與統計性質的轉變,即國民閱讀數據視角從宏觀向微觀、統計性質從定點低頻結果性測量向動態(tài)隨機過程性測量轉變;其三閱讀數據采集從傳統有限人工抽樣向數據化生態(tài)下閱讀平臺大數據收割轉變,以上幾方面構成閱讀統計轉型邏輯內涵。
4.1 閱讀統計轉型路徑
在數據層面現有以時間和圖書為計量載體的閱讀數據其意義類似于人均GDP,僅在宏觀上具備一定基本價值,而基于商業(yè)營銷的大數據雖然對閱讀現狀判斷具有一定參照功能,但對于國家閱讀管理總體價值有限。嚴格而言,現有所謂閱讀大數據基本上還屬于統計范疇,主要以圖書銷售、閱讀時間等結構化數據為主,其業(yè)務形態(tài)也僅限于對統計測量過程數據化擴展或者數據結果可視化,總體上依然是傳統統計的延續(xù)。
數據化趨勢下閱讀在技術、載體與內容的聚合演變中,閱讀形態(tài)正在向系統化、半公開易測量社會行為轉變,相對于超越現有技術能力的大量信息過程數據,閱讀統計目前正處于大數據演變的初級階段[16],而數據化進程加速與閱讀生態(tài)雛形展現則成為閱讀統計轉型的主要動力,實現國民閱讀統計與大數據融合,基于閱讀全過程的數據采集并進行大數據處理與分析,成為閱讀統計轉型的主要路徑。
國民閱讀統計轉型及大數據融合目標在于實現對閱讀全過程信息數據的獲取與處理,相對有媒體中于已存在的所謂閱讀大數據,把后者稱之為深度閱讀大數據,其內涵分布正在從間接的單維結構化載體點數據向生態(tài)化多維非結構化閱讀線數據擴散。而基于傳統統計體系下的結構化數據與互聯網生態(tài)中不同信息化平臺的非結構化數據整合研究是深度閱讀大數據實踐推進的重要內容。
4.2 深度閱讀大數據來源類型與方法邏輯
數據化生態(tài)下深度閱讀大數據內涵主要包括閱讀的內容數據、評價數據、互動數據以及在此基礎上的需求數據。其數據分布則是從創(chuàng)作到閱讀、從出版到銷售、從社交到評價、從作者到讀者、從個體到群體等過程數據的系統性存在,在確定條件下產生的一系列結構化與非結構化數據成為深度閱讀大數據重要來源與主要類型。而數據的采集對象也已超越獨立閱讀個體,是一組特征群體數據主要包含時間序列、空間區(qū)域、特定人群如未成年人、大學生、農民工等條件要素,只有這樣研究具有典型特征的系統連續(xù)線性數據,才能發(fā)掘出閱讀演變數據化本質與潛在趨勢[17],而這些只有少數互聯網巨頭或專業(yè)閱讀平臺掌握。但擁有數據并不意味著完成了測量,對數據如何處理則成為核心問題。在深度閱讀大數據處理方面,目前除了BAT(百度、騰訊、阿里巴巴)等有能力做之外,其它沒有能力或者沒有意愿去做,尚未形成明顯的方向性業(yè)務趨勢。而深度閱讀大數據處理方法邏輯包括兩點,其一是對大數據的篩選與標準化,轉化成目前傳統數據分析技術處理,讓大數據轉化成一個統計學問題。而另外一種就是黑箱式大數據分析,不預設指標和問題直接對數據進行處理。它是自下而上的數據處理范式,以數據為先導無需預設目標或方法,直接從中找到數據之間的關系從而獲取新的認知與判斷。這不僅改變了從理論或經驗出發(fā),先設計指標,然后搜集數據進行實證分析的業(yè)務邏輯,而且顛覆了閱讀統計自上而下的固有實證范式[13],成為一種全新的數據方法邏輯。
大數據正處于從概念、理論向實踐的科學演變進程中,國民閱讀數據來源中的統計測量與技術時尚中的大數據是目前并行的兩個實踐維度,從傳統統計轉型到技術趨勢再到完全融合為主流業(yè)務模式尚存一段距離,而由此造成的數據缺陷與認知錯覺成為閱讀焦慮的主要因素。雖然對于目前社會層面數據錯覺以及由此引發(fā)的閱讀焦慮不必過于糾結,但是對現有閱讀數據來源與統計過程缺陷卻不可忽視,消除閱讀焦慮的科學路徑在于推動閱讀統計轉型及大數據融合并促其進一步深入發(fā)展,而這也是數據科學方法論與技術工具以及閱讀理論協同演變的漸進過程,在大數據上升到國家戰(zhàn)略的情勢下,基于技術復雜性與信息敏感性閱讀統計與大數據融合則需要相關理論、技術、體制與人才等方面支持,而這不僅是圖書館學研究方向之一,也是國家閱讀管理需要關注的課題。
(來稿時間:2016年2月)
1.國家新聞出版廣電總局.2014 年新聞出版產業(yè)分析報告(摘要)[J].中國出版,2015(8):8
2.第十二次全國國民閱讀調查報告:讀書的人更多了[EB/ OL].(2015-04-21)[2015-12-19].http://sh.wenming.cn/TT/2015 04/t20150421_2569790.htm
3.做書.第12次全國國民閱讀調查報告解讀[EB/OL].[2015-12-19].http://book.ifeng.com/a/20150504/ 14604_0.shtml
4.劉嬌.世界讀書日到來 靜心讀書已成難事?[EB/ OL].[2015-12-19].http://sn.xinhuanet.com/news1/2015-04/23/ c_1115058426.htm
5.2015年第十二次全國國民閱讀調查報告.[EB/OL].[2015-12-19].http://www.cnrencai.com/diaochabaogao/190936.html
6.宓永迪.大陸、臺灣和美國閱讀行為比較、解讀與思考[J].圖書館, 2014(6):84
7.徐雁.閱讀大變革,不是危機而是機遇[N].中華讀書報,2011-12-28
8.劉婷.全國國民閱讀調查報告發(fā)布 數字閱讀首超紙書閱讀[N].北京晨報, 2015-04-21
9.馨遠.高校圖書館閱讀推廣冷觀[N].新華書目報,2015-11-27
10.江水.29.54%的成都市民不知道圖書館在何處[N].新華書目報,2015-04-17
11.施晨露.怎樣看待國民閱讀“大數據”[N].解放日報,2015-04-24
12.向坤.尋找科技和人文的最佳結合點[EB/OL].[2015-12-19].http://xiangkun.baijia.baidu.com/article/38228.2014.12.1
13.許小樂.“大數據”與政府統計改革[J].調研世界,2013(5):42-43
14.劉彬.第十二次全國國民閱讀調查結果公布[N].光明日報,2015-04-21
15.梁玲.國民閱讀困境的深層之因:讀圖時代辨析[J].探索與爭鳴,2015(2):39-41
16.Alexandra Alter.當心,電子書也在“讀”你.華爾街日報[EB/OL].[2015-12-19].http://cn.wsj.com/gb/2012 0717/lif074354.asp?source=mostpopular
17.大數據所能做到的三大錯誤假設[EB/OL].[2015-12-19].http://wenku.baidu.com/view/0ab71d8ef8c75 fbfc67db20e.html
Method Logic of National Reading Statistics Transformation and Big Data Fusion——Based on the Reflection on Data Illusion under Reading Anxiety
Liu Junhua
( School of Statistics, Xi’an University of Finance and Economics)
This paper discusses that external information incentive, internal statistical defects, the variation of investigation subjects, and the lack of core data are the main factors constituting cognitive illusion and causing reading anxiety.In the current situation of big data rising up to the national strategy, realizing the transformation of reading statistics and big data fusion are believed to be the approach to eliminating the anxiety and resolving the illusion.Based on the study of the theory premise, the business direction,logical meaning and the path of transformation, the paper puts forward the concept of in-depth reading large data as well as its method logic.It also holds that further research of related theory, technology, system and talent due to the technical complexity and information sensitivity be not only one of the directions of library science, but also a principal concern of national reading management.
National reading statistics Transformation Big data Method logic
G251.4;TP391
格式〕 劉軍華.國民閱讀統計轉型及大數據融合的方法邏輯——基于閱讀焦慮下數據錯覺思考[J].圖書館,2016(9):83-86
劉軍華(1970-),男,碩士,西安財經學院統計學院副研究館員,發(fā)表論文10余篇,研究方向:數據化理論與信息技術管理。
* 本文系全國統計科學研究計劃項目“大數據趨勢下政府統計轉型研究”(項目編號:2014LY0038)成果。