文/陳泓茹 趙寧 汪偉
大數(shù)據(jù)融入人文社會科學(xué)的基本問題
文/陳泓茹 趙寧 汪偉
對于人文社科研究而言,借助數(shù)據(jù)技術(shù)、運用量化研究方法提升人文社科研究方法與成果的科學(xué)化、精確化的探索由來已久。雖然這種探索一直受到適應(yīng)性的爭議,但一直沒有停止過。隨著大數(shù)據(jù)概念的提出,目前關(guān)于這個問題的討論,呈現(xiàn)多視角介入、多學(xué)科觸及的趨勢,體現(xiàn)了人文社科研究工作者的方法論自覺。目前國內(nèi)學(xué)界已經(jīng)開始的關(guān)于大數(shù)據(jù)之于學(xué)術(shù)研究特別是人文社會科學(xué)研究方式方法的影響的討論逐漸升溫,不少探討富有見地和啟發(fā)意義。但我們也看到,除了極少數(shù)討論者的零星幾句關(guān)于數(shù)據(jù)過度開發(fā)、數(shù)據(jù)孤島、數(shù)據(jù)倫理的擔(dān)憂和忠告以外,幾乎是一片歡呼。
大數(shù)據(jù)是一種新的數(shù)據(jù)形態(tài),開啟新的數(shù)據(jù)時代。作為一種處在發(fā)展中的新的信息技術(shù),或者一種新的數(shù)據(jù)樣態(tài),大數(shù)據(jù)與人文社科研究結(jié)合的取向和趨勢自然毋需置疑。我們認(rèn)為,對于大數(shù)據(jù)這樣的信息技術(shù)與人文社科研究的結(jié)合問題,無視甚至蔑視固然荒謬,因為這一趨勢符合認(rèn)識規(guī)律,契合實踐發(fā)展,體現(xiàn)了人類量化認(rèn)識世界的不懈追求,彰顯著人類把握、理解世界的方式與能力的躍升,但簡單地以為只要運用這些技術(shù)就可以萬事大吉,這樣的想法更加可怕。在人文社科研究中運用大數(shù)據(jù)或者試圖構(gòu)建兩者融合模式時,我們應(yīng)當(dāng)遵循“謹(jǐn)慎的樂觀”態(tài)度,以人文社科的視閾與方法,對于關(guān)涉大數(shù)據(jù)與人文社科研究如何正確結(jié)合的幾個基本問題進(jìn)行討論。
數(shù)據(jù)的歷史與人類的歷史一樣久長。步入現(xiàn)代社會以來,伴隨信息載體、種類和數(shù)量的增多,數(shù)據(jù)種類越來越豐富,數(shù)字、文字、圖像、音頻、視頻等也都是數(shù)據(jù)。通過數(shù)據(jù)來研究規(guī)律、發(fā)現(xiàn)規(guī)律,貫穿了人類社會發(fā)展的始終。不僅人類自然科學(xué)發(fā)展史上的不少進(jìn)步都和數(shù)據(jù)采集分析直接相關(guān),而且人文社會科學(xué)的發(fā)展也始終離不開數(shù)據(jù)。自20世紀(jì)后期以來,隨著計算機技術(shù)全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)社會全面變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息總量的變化還導(dǎo)致了信息形態(tài)的變化——量變引起了質(zhì)變。大數(shù)據(jù)正產(chǎn)生于這一大的歷史背景下。
人文社科量化研究方法的長期探索為大數(shù)據(jù)與人文社科研究的結(jié)合奠定了較好基礎(chǔ)。以美國為代表的西方發(fā)達(dá)國家在20世紀(jì)80年代之初便展開的關(guān)于社會科學(xué)與自然科學(xué)優(yōu)劣及“定量研究”與“定性研究”的研究范式、研究方法論的派別爭辯,以及以陳向明、風(fēng)笑天、沃野等為代表的國內(nèi)社會科學(xué)方法論研究者的討論雖然持續(xù)不息,但以羅納德·費希爾(1890~1962)1928年抽樣理論的創(chuàng)立、喬治·蓋洛普(1901~1984)1935年美國輿論研究所的建立以及抽樣問卷調(diào)查的推廣、多變量統(tǒng)計分析和統(tǒng)計檢驗的普及等為標(biāo)志,定量研究在社會科學(xué)研究領(lǐng)域不僅獲得成熟與進(jìn)步,而且進(jìn)入全面發(fā)展時期,成為一種常規(guī)的甚至主流的研究方法。有的學(xué)者甚至這樣指出:沒有量化,社會學(xué)就只能停留在印象主義的臆想和未經(jīng)證實的見解,因而也就無法進(jìn)行重復(fù)研究,確立因果關(guān)系和提供證實的通則。問題是,這一事實并沒有終止過去幾十年里社會科學(xué)研究領(lǐng)域?qū)τ谄涫雰?yōu)孰劣的爭論,甚至“社會科學(xué)任何學(xué)科分支都充斥著這樣的派別戰(zhàn)爭”。雖然國內(nèi)人文社科量化研究方法在實際使用及其效果和研究上并非像國際人文社會科學(xué)界那樣占據(jù)主流而且成效明顯,但多數(shù)學(xué)者還是達(dá)成了這樣的共識,即無論是量化研究還是質(zhì)性研究以及二者的相互關(guān)系都不可避免地承繼了社會科學(xué)綜合性、復(fù)雜性的基本特質(zhì),二者或被視為基于截然對立的研究范式而不可結(jié)合混用,或被可以視情境和研究實際各取所長、結(jié)合使用,或被認(rèn)同可以結(jié)合,但須注重研究具體功用和方法操作。
辯證看待大數(shù)據(jù)使用的可靠性,首先必須正視大數(shù)據(jù)給人文社科研究帶來的挑戰(zhàn)。學(xué)者研究指出了其中的兩個方面:科研資料總量的快速增加給人文社會科學(xué)研究帶來了巨大挑戰(zhàn),如百萬圖書的挑戰(zhàn)問題;資料的數(shù)字化改變了傳統(tǒng)人文社會科學(xué)的資料類型,數(shù)字資源的采集、加工和處理對研究成果的獲得作用日益顯著等。其次,以隨機樣本分析為代表的量化研究方法在人類社會呈現(xiàn)出高度復(fù)雜性和高度不確定性的時候確實變得很不可靠,但是大數(shù)據(jù)所謂的“全數(shù)據(jù)模式”是否可靠依然是一個有待回答的問題。正如有學(xué)者指出的,在高度復(fù)雜性和高度不確定性條件下,無論人們有著多么先進(jìn)和高超的大數(shù)據(jù)處理能力,即使我們確實收集了所有數(shù)據(jù)并用技術(shù)對其進(jìn)行分析,人類事實上也只能把握點與點之間的相關(guān)性,或者把握局部的相關(guān)性。如果打算從中發(fā)現(xiàn)一般和普遍的話,那是不可想象的,如果我們自認(rèn)為從所謂的全數(shù)據(jù)分析中獲得了普遍規(guī)律和趨勢,那不過是自欺欺人的。同時,就大數(shù)據(jù)是大規(guī)模數(shù)據(jù)而言,并不會停留在某個既定的狀態(tài)中,而是處在不斷增長中,盡管人們處理數(shù)據(jù)的技術(shù)和能力在迅速提高,但與大規(guī)模數(shù)據(jù)的增長相比總是相對滯后,這就決定了全數(shù)據(jù)分析也總是落后于現(xiàn)實。要言之,大數(shù)據(jù)的可靠性需要以長期一貫的和嚴(yán)密科學(xué)的方案設(shè)計、變量控制和統(tǒng)計檢驗為支撐和保證,否則獲得的大數(shù)據(jù)就會是不全、不準(zhǔn)、蕪雜的,這樣的大數(shù)據(jù)不僅不能使用反而會帶來危害。
第一,充分肯定大數(shù)據(jù)對于人文社科研究的積極意義是基礎(chǔ)。信息時代來臨之后,人文社科研究范式的重構(gòu)問題一直備受關(guān)注。我們不能妄言大數(shù)據(jù)一定能夠帶來人文社科研究范式的信息(數(shù)據(jù))化轉(zhuǎn)向,但大數(shù)據(jù)的引入對于重構(gòu)人文社科研究范式的積極意義還是值得討論的。其一,大數(shù)據(jù)能否打破人文社科學(xué)科壁壘、促進(jìn)或者真正帶來“大人文”“大教育”等人文社科學(xué)科的整合雖然尚需研究,但大數(shù)據(jù)的發(fā)展、人文社科學(xué)科的探索如諸多人文社科學(xué)科研究數(shù)據(jù)庫的研究和構(gòu)建,跨學(xué)科合作團(tuán)隊的建立,大規(guī)模系統(tǒng)化的文獻(xiàn)索引型甚至具有一定檢索功能的數(shù)據(jù)庫的建立等,為人文社科進(jìn)一步通過大規(guī)模量化數(shù)據(jù)庫促進(jìn)跨學(xué)科、跨時段、跨地域全面認(rèn)識人類社會與自我提供了無限可能;其二,大數(shù)據(jù)對于擴大研究素材的范圍、拓展研究對象具有直接作用;其三,有的學(xué)者甚至極其樂觀地指出,大數(shù)據(jù)帶來的以注重材料、探求事實為先的研究方式有助于促進(jìn)人文社科平衡、健康、全面發(fā)展,為國際學(xué)術(shù)進(jìn)步提供“中國經(jīng)驗”。但在當(dāng)代海量的社會科學(xué)研究中,絕大多數(shù)的量化研究都依靠統(tǒng)計學(xué)工具來校驗一個“方向性結(jié)論”,這種做法沒有體現(xiàn)出量化研究的優(yōu)勢,它們只是在定性思考的基礎(chǔ)上作了一些點綴。同時,由于局限于已有的數(shù)據(jù),許多“嚴(yán)謹(jǐn)”的社會科學(xué)家們的預(yù)測能力還比不上歷史學(xué)家和新聞記者。針對量化研究存在的問題,有學(xué)者還提出了“從描述型模型到預(yù)測型模型”的設(shè)想。雖然按照馬克斯·舍勒的價值分類框架,人類最重要的三種基本價值,即信仰價值、精神價值、生命價值是不可量化的,具有不可分性,但并不意味著傳統(tǒng)的輕視量化研究方法運用的人文社科研究范式是合理的。從當(dāng)前數(shù)字人文和人文大數(shù)據(jù)研究情況看,學(xué)界概括了人文及社會計算方法與人文社會科學(xué)研究的融合出現(xiàn)的三類新的研究思維:人文社會科學(xué)開放與全過程研究思維;人文社會科學(xué)碎片化重組研究思維;人文社會科學(xué)計算分析研究思維。這方面,黃欣榮的研究具有一定深度。他認(rèn)為,大數(shù)據(jù)思維是一種數(shù)據(jù)化的整體思維,它通過“更多”(全體優(yōu)于部分)、“更雜”(雜多優(yōu)于單一)、“更好”(相關(guān)優(yōu)于因果)等思維理念,使思維方式從還原性思維走向了整體性思維,實現(xiàn)了思維方式的變革。雖然這樣的概括尚需深化和嚴(yán)密論證,但大數(shù)據(jù)對于人文社科研究的價值是肯定的。
第二,深刻認(rèn)識人文社科研究方法論的特殊性是前提。判定和揭示大數(shù)據(jù)對于人文社科研究的價值特別是研究范式層面上的價值要以深刻把握人文社科研究方法論的特殊性為基礎(chǔ)。人文社科研究對象和功能實現(xiàn)方式的特殊性決定著研究方法的特殊性。人文社會科學(xué),其研究對象是事實性與價值性的統(tǒng)一,是可預(yù)見性與預(yù)見的有限性的統(tǒng)一,而且具有偶然性與不確定性。因此,復(fù)雜性思維是人文社科研究的總體方法論。具體而言,人文社科研究必須堅持實證性與理解性的統(tǒng)一、規(guī)范性與建構(gòu)性的統(tǒng)一、事實性與價值性的統(tǒng)一。強化數(shù)據(jù)意識固然必要,重視數(shù)據(jù)作用固然沒錯,而且量化研究方法在人文社科研究中的運用也從來沒有停止過;但無論是理論上還是實踐中,大數(shù)據(jù)的引入必然要求我們要更加重視處理好量化研究方法,避免人文社科唯科學(xué)主義傾向。更為根本的是,人文社科研究的根本追求在于探索規(guī)律、揭示本真。歷史與邏輯、事實與價值的統(tǒng)一是人文社科研究的基本方法,雖然隨著數(shù)據(jù)技術(shù)的發(fā)展,歷史和事實中的諸多物質(zhì)性客體的數(shù)據(jù)化趨勢日益顯著,更為重要的,重視量化研究、尊重第一手材料、注重探求事物本源的方法導(dǎo)向,有助于促進(jìn)人文社科研究的學(xué)術(shù)傳統(tǒng)由“解釋型學(xué)術(shù)”向“求是型學(xué)術(shù)”的轉(zhuǎn)向;但歷史與事實背后的邏輯與價值是無法數(shù)據(jù)化的,即便是在信息技術(shù)飛速發(fā)展的今天,對于人文社科的本質(zhì)屬性和核心功能的實現(xiàn)而言,再發(fā)達(dá)的技術(shù)也無法代替理論思維對于事物本質(zhì)的深刻把握以及和風(fēng)細(xì)雨的心與心的交流和潤物無聲的教育方式對人格的影響,因而只能是一種輔助而不可能代替。
第三,準(zhǔn)確界定大數(shù)據(jù)的作用方式和領(lǐng)域是關(guān)鍵。長期以來,人文社科不同學(xué)科研究雖然積累了規(guī)模宏大的系統(tǒng)材料以及文字信息,但學(xué)者自身的駕馭能力不強、學(xué)科壁壘以及研究數(shù)據(jù)庫建設(shè)的滯后等局限導(dǎo)致量化研究方法的使用始終沒有起到應(yīng)有作用。大數(shù)據(jù)作為“互聯(lián)網(wǎng)+”和信息時代得以松綁的獨立乃至核心的生產(chǎn)要素和得以釋放的重大力量,其基本的作用方式主要體現(xiàn)在兩大方面:一是改變著素材收集、整理、挖掘和分析的方式;二是改變著研究的基本方式,即由偏重敘事研究轉(zhuǎn)向與結(jié)構(gòu)分析并重、由個別事件轉(zhuǎn)向與普遍過程并重、由因素或因果分析轉(zhuǎn)向與關(guān)系分析并重。特別是,大數(shù)據(jù)對于人文社科研究的作用領(lǐng)域開始變得清晰。其一,作為業(yè)務(wù)的必要成分成為“互聯(lián)網(wǎng)+”業(yè)務(wù)發(fā)展的驅(qū)動要素和力量,這是大數(shù)據(jù)的基本面,與傳統(tǒng)的數(shù)據(jù)形態(tài)沒有本質(zhì)區(qū)別,即作為一種技術(shù)、方法或者手段意義上的大數(shù)據(jù)。大數(shù)據(jù)之所以能夠作為人文社科研究的一種研究方法,源于大數(shù)據(jù)的基本特征就是復(fù)雜化,這與人和社會問題作為人文社科研究對象的復(fù)雜化特性是耦合的。其二,作為產(chǎn)品的數(shù)據(jù)通過開發(fā)如積累與交換、分析與運用,產(chǎn)生和釋放了新的洞見,其用途得以擴展和拓展,極大促進(jìn)生產(chǎn)率的提高,創(chuàng)造出新的價值,這是大數(shù)據(jù)的獨有一面,即作為一種戰(zhàn)略資源的大數(shù)據(jù)。隨著人文社會科學(xué)的發(fā)展,人文社科研究使用的研究資料日趨龐雜,為此,人們借助信息技術(shù),改變了人文社科研究資料的存儲和表現(xiàn)形態(tài),使得人文社科資料數(shù)據(jù)化的趨勢日益明顯。其三,作為促進(jìn)社會變革與發(fā)展力量的大數(shù)據(jù),通過改變甚至顛覆人們舊有的世界觀以及認(rèn)知與思考的方式方法,極大地增強人們的觀察和駕馭世界的能力以及社會治理能力,引發(fā)時代變革,這是大數(shù)據(jù)的深層意蘊和潛在作用方式,即作為一種思維方式和價值觀念的大數(shù)據(jù)。大數(shù)據(jù)時代來臨的判斷之所以成立的根由在于大,大數(shù)據(jù)的來臨催生了一個異質(zhì)于物質(zhì)世界、精神世界之外的數(shù)據(jù)世界,正在改變甚至顛覆著我們的世界觀,大數(shù)據(jù)本身理應(yīng)納入人文社科研究的視野和范疇中來。
第四,厘清大數(shù)據(jù)之于人文社科研究的作用邊界是保障。我們要充分認(rèn)知和估計大數(shù)據(jù)對于人文社科研究的價值。但從人文社科自身稟賦及其研究傳統(tǒng)出發(fā),我們必須正視和警惕大數(shù)據(jù)融入人文社科研究的基本限度。孫建軍的研究從四個方面進(jìn)行:非場景化的研究邏輯缺乏適用性與人文關(guān)懷;人文社會科學(xué)的大數(shù)據(jù)研究有可能“敏銳地”發(fā)現(xiàn)問題,卻無法給問題合理的解釋,也無法給出有針對性的對策,限制了其應(yīng)用范圍;數(shù)據(jù)分析的集群研究會消滅重要的個體特征,而個體反而是眾多人文社會科學(xué)研究關(guān)注的焦點;人文社會科學(xué)大數(shù)據(jù)研究過分關(guān)注技術(shù)分析,可能忽視創(chuàng)新思維和思辨分析,不利于大師級人文社會科學(xué)學(xué)者的培養(yǎng)。上述揭示對我們具有很大啟發(fā)。
筆者以為,確定大數(shù)據(jù)之于人文社科研究的作用邊界或限度,應(yīng)該遵循研究對象、研究價值、運用過程、科學(xué)化程度等四個維度。
其一,人類的諸多活動借助大數(shù)據(jù),的確改變了存在形態(tài)和方式,也就是說,改變了或者正在改變著人文社科研究對象的存在形態(tài)。雖然人的精神世界借助數(shù)據(jù)技術(shù)提升了觀測、預(yù)測甚至感受的廣度、深度和精準(zhǔn)度,但從本質(zhì)上講,精神世界始終是無法數(shù)據(jù)化的。
其二,充分認(rèn)識和揭示數(shù)據(jù)固然必要,但數(shù)字迷信或者數(shù)據(jù)崇拜特別是研究者對數(shù)據(jù)的過度解讀值得警惕。有的學(xué)者認(rèn)為,大數(shù)據(jù)的確提供了反觀事物的視角,但大數(shù)據(jù)研究也存在數(shù)據(jù)壓縮、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)解讀三個方面難點,與部分學(xué)者擔(dān)心數(shù)據(jù)解讀不足的想法相反,他們更擔(dān)心數(shù)據(jù)的過度解讀。
其三,努力運用數(shù)據(jù)固然正確,但大數(shù)據(jù)技術(shù)應(yīng)用可能帶來的新的“數(shù)據(jù)鴻溝”“數(shù)據(jù)壁壘”和數(shù)據(jù)倫理問題也需引起我們的關(guān)注。學(xué)者們從數(shù)字身份、隱私、可及、安全和安保、數(shù)字鴻溝等方面討論了大數(shù)據(jù)的倫理問題很有啟發(fā)。也有學(xué)者指出,大數(shù)據(jù)挖掘與隱私保護(hù)之間的關(guān)系值得思考。工業(yè)和信息化部賽迪智庫的馮偉在刊載于媒體的署名文章中指出:大量數(shù)據(jù)的匯集不可避免地加大了用戶隱私泄露的風(fēng)險。一方面,數(shù)據(jù)集中存儲增加了泄露風(fēng)險,也成為人身安全的一部分;另一方面, 一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)并沒有明確界定,很多基于大數(shù)據(jù)的分析都未考慮到其中涉及的個體隱私問題。
其四,數(shù)據(jù)技術(shù)的運用固然能夠提升人文社科研究和實踐的精確化程度,但精確化不等于科學(xué)化。人文社科的科學(xué)化問題雖然還有待深入討論,但學(xué)科科學(xué)化問題向來是與學(xué)科的本質(zhì)屬性高度一致的,比如人文社科最鮮明的特點就是屬人性與為人性的統(tǒng)一,這點不可忽視。人文社科研究具有鮮明的個性特點,與自然科學(xué)不同,人文社科研究主體與客體具有內(nèi)在的相關(guān)性,個性化的價值與情感偏好方式不可忽視,認(rèn)知與評價并重不可偏廢,解釋視角和方式的多樣性不可淹沒,即手段和方法的數(shù)據(jù)化、科學(xué)化不能取代學(xué)科本身的科學(xué)化。
大數(shù)據(jù)既可以說是信息時代的新標(biāo)識,也可以說是代表了一種新的戰(zhàn)略、技術(shù)和方法。以2015 年9月5日國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》為標(biāo)志,大數(shù)據(jù)在實踐中已經(jīng)上升為國家戰(zhàn)略。但迄今為止的大數(shù)據(jù)應(yīng)用范圍更多的還是停留在經(jīng)濟(jì)社會和政府治理等具體工作領(lǐng)域,人文社科研究實效性不高的頑疾能否通過主動對接這場數(shù)據(jù)革命、敏銳抓住機遇、實現(xiàn)數(shù)據(jù)轉(zhuǎn)向而得到緩解甚至破解是一個值得討論的重大課題。
(陳泓茹系南京曉莊學(xué)院音樂學(xué)院教授,趙寧系南京金陵科技學(xué)院講師,汪偉系淮陰工學(xué)院商學(xué)院副教授;摘自《學(xué)術(shù)論壇》2015年第12期)