摘要:隨著云計算技術的發展和蔓延,數據越來越多、越來越細致,各個領域爭相掀起“數據化”的浪潮,‘大數據成為具有時代特征的熱議話題。呼嘯而來的數據浪潮對素有“親理論,遠實證”特征的社會科學而言既是機遇又是挑戰。大數據的海量性、客觀性、歷時性能夠在一定程度上促進社會科學,而非結構化及其來勢迅猛又對社會科學如何應對提出較高要求。
關鍵詞:大數據時代;社會科學;大數據
隨著科學和技術的進步,第三次信息化浪潮席卷而來。第一次信息化浪潮中,個人計算機的出現使得信息和數據資源得以獲取和積累,信息實現了數字化。可謂賦予了人類新的信息處理能力。第二次信息化浪潮中,互聯網的出現極大促進了數據流通和集聚,實現了信息的網絡化,賦予人類文明信息傳輸能力。而第三次信息化浪潮中的物聯網、云計算、大數據帶來的信息爆炸給人類社會帶來了什么“禮物”,當前除了合理推測,未來可能通過融合多源數據并分析應用,尤其是應用于人工智能領域,實現信息的智能化,其余的改變目前還不能確切描述和預言。
社會科學和數據并不陌生,對互聯網數據的應用也并不是新鮮事物。比如,從數據來源來看、互聯網中書籍、媒體、圖片、音頻、視頻等都是可以獲取研究資料的途徑。根據《大數據機遇與宏觀定量社會學》中所說,我國學者當前利用互聯網數據、數字化圖書和影音視頻已經形成了一批實證研究成果;學科領域內高質量期刊也刊登了基于互聯網數據的市政應用定量分析文章;許多高水平院校也形成了相關的研究團隊。“大數據時代”一詞近年來熱度不減。從語義分析來看,這是一種將大數據看作這個時代最主要特征的一種時代觀。那么作為這個時代基本元素的數據,具有哪些特征和性質呢?當前普遍認同的幾個觀點是:①海量性 ②無結構性 ③價值密度低 ④傳輸速度快、處理速度快。⑤來源廣泛并特征多樣。
一、大數據給社會科學帶來了哪些機遇和挑戰?
(一)大數據帶給社會科學的機遇
1.海量的大數據給社會研究帶來更多可能性
首先從資料的內容來看。數據的海量性極大增加了社會科學的可研究內容。隨著物聯網的發展,“萬物互聯”狀態更將“數據化”這一時代特征踐行得淋漓盡致。對于社會科學來說,可利用的資料、數據領域越來越廣闊,如文本資料、社會活動、經濟信息、地理信息、生活數據、健康數據、媒體數據等。從資料的廣度和深度來說,比起傳統的研究方式都有了明顯提升,資料獲得的方式也更加便捷。
2.大數據的客觀性可以減少社會研究的主觀性
大數據的客觀性是指大數據是先于研究設計而存在的這一特征。傳統的社會研究步驟遵循:研究設計-資料收集-資料處理和分析的過程,研究所需的數據資料需要圍繞研究目標去收集整理。盡管社會科學在資料收集這一過程中有最大化保證所收集資料客觀性的方法,但不可避免地仍會受到主觀性的干擾。而且據此收集到的資料比較難再應用于其它研究。而在大數據時代,數據是既有的。對于許多社會研究來說,省略了線上線下收集數據的過程,不但極大便利了研究進程,同時還提升了社會科學研究的客觀性。
3.大數據的歷時性推動了社會科學的縱向研究
社會科學的縱向研究和宏觀研究對歷史跨度、地理跨度有較高的要求。在社會學領域,近三十年,宏觀定量研究已明顯滯后于微觀定量研究。這一狀況的成因之一是社會科學所關注的一些指標在宏觀研究層次往往難以測量,也較難發展出成熟有效、認可度高的指標,為專業內所接受認可。
規模大、時空跨度大的大數據出現,有望可以在很大程度上彌補這類宏觀研究層次測量不足的缺口,成為研究者重要的分析工具。大數據的豐富性也能夠為宏觀研究提供更多的變量、方法等研究方面的可能性。
以網絡研究為例,傳統社會研究中通過社會調查收集來的資料首先調查總體十分有限,往往是幾百人,且資料收集困難。而動態性的數據收集更加困難,除了對研究者來說困難重重,對被訪者和數據客觀性來說也存在阻礙(如消極回應、被訪者中途拒訪、失聯等)。因而多數網絡研究成果是基于個人社會網進行的探討。這種情況下,大數據不僅體量巨大,而且大數據的實時性使它能夠提供網絡信息傳播的速度和方向,這為社會網絡的動態研究提供了豐富的研究資料,為社會網絡研究,尤其是社會動態網絡研究的發展,帶來了新的希望和可能。除此之外還可以利用身份證作為理想社會測量的工具,可以獲得個體的空間位置、流動方向和流動頻率、互動情況等信息;手機上的定位功能、移動支付等功能也留下人們的行為記錄;老年人智能穿戴設備可以長時間記錄老人的身體健康、情緒波動等各項數據。
《論社會學理論導引下的大數據研究》一文認為動態性的、大規模的、幾乎不受時空限制的非結構化的大數據可以彌補過去收集大范圍、長時段數據的不足。
(二)大數據帶給社會科學的挑戰
1.數據本身的非結構化
非結構化數據不適用于直接進行分析處理,每日以TB為量級產生的數據更是增加了原始數據初步處理的難度。比如上市公司的財報數據、風險投資企業的公開資料都是研究者較容易找到的數據資料,包含了比較細致全面的投資相關信息。但這些數據繁雜無序,經過初步數據處理之后也呈現為零散的投資事件。如何將這些投資事件進行匹配,以形成投資網絡就需要引入理論的力量。
《社會學理論導引下的大數據研究》還提到,大數據的非結構化正是其不能使用經典的缺失值處理方法(如多重補差法)的根本原因。
2.大數據增加了社會研究的難度
大數據帶來了豐富多樣的信息,人們的生活也隨之變得更加豐富多彩,同時也更難以預測。盡管數據規模增加能夠為社會研究提供更可靠的現實支撐。但大數據時代下,人們的行為方式、生活方式、交往方式、思維方式也發生變化,由此帶來新的社會現象和新的社會問題不斷出現,這對于社會科學,尤其是將人作為重要研究對象的社會科學來說研究難度進一步提升。
3.大數據可能在社會科學領域引起科學革命
范式是指在某一時期規范某一科學活動的一套概念框架。大數據時代,數據的海量性等性質對社會科學的傳統研究范式提出了新的要求。并且明顯的趨勢是需要大量地應用科學的數據處理方法來處理研究信息。根據庫恩的理論,當新的研究范式被科學家共同體所廣泛接受,科學革命便發生。換言之,科學革命就是一種新的科學范式取代原有科學范式的過程。因此可以合理推論,將數據科學技術引入社會科學研究的“社會科學計算范式”,將在不久的將來為社會科學研究共同體所接受和認同,進一步可能會引發社會科學研究范式的變革。
二、觀點:大數據與社會科學
對于大數據時代對社會科學的影響,當前比較熱門的討論是:大數據為社會科學帶來了什么機遇?帶來了何種挑戰?對社會科學的學科發展產生的影響,社會科學的應對之策,以及社會科學和數據科學的合作。
對于大數據帶來何種機遇和挑戰,《大數據機遇與宏觀定量社會學》認為大數據的出現對社會科學最重要的影響之一是能夠重啟宏觀定量社會學,體現在理論發展、領域拓展、方法延展三個方面。作者認為,大數據的出現至少能夠在社會科學領域尤其是社會學領域引起更多學者對宏觀研究的關注,進而推動社會學的宏觀研究。張文宏提出大數據時代的機遇體現在:提供了更多研究的可能性、有可能產生新的分支學科;數據的海量性能夠為研究提供更可靠的數據支撐;能夠為社會政策和社會治理提供更完善的數據基礎。而挑戰則是由大數據的海量性及無結構性帶來的樣本偏差、變量缺失及虛假、虛假相關關系易生、數據整合難度較大等問題。
大數據時代,傳統研究所面臨的困境也有了新的機遇。夏國美稱,社會學一直存在著質性研究與量化研究之間的壁壘。而大數據的出現能夠改變二者的對峙狀態,走出定性和定量研究方法的結合困境。她在一篇文章中列舉了陳云松所做的研究(對谷歌圖書最新語料庫的大數據檢索),認為其研究結果不是傳統思維中數據對研究精確性的印證,而是對質性研究結果的補充。而這正是大數據打破定性、定量研究中間壁壘的一個案例
《規律與因果:大數據對社會科學研究沖擊之反思》一文認為大數據的出現,不僅可能重構社會科學,特別是社會學的研究目標和宗旨,還會對社會科學的研究邏輯、方法和技術、研究的組織方式及人員素質等方面產生深遠影響。如在研究邏輯方面,對大數據的利用,可以從演繹邏輯出發,對大數據進行檢驗(可稱之為“理論驅動”);也可以從歸納邏輯出發,使用大數據進行描述和分析(可以稱之為“數據驅動”)。兩種研究邏輯并存可能是大數據研究的一個特點。在方法和技術上,對大數據的獲取、存儲、交換、匹配、分析、建模,以及統計理念、技術和軟件等方面都會形成新的沖擊。
張旭意識到了大數據的局限性,及其可能帶來的影響,提醒需要注意“大數據及其‘社會學后果”。他認為大數據能夠在收集數據、整理數據(如機器學習)、分析數據的變革與升級方面產生正面后果。同時也仍有其局限性。比如在定量研究中,大數據盡管規模巨大,但樣本代表性存在較大問題,比如想要將兩個社交平臺的用戶數據進行整合時,兩個不同平臺對用戶基本情況的了解和設置都有所區別和差異。因此,大數據還不能取代社會學傳統研究。其次,他認為大數據雖然提供了廣闊堅實的數據源,但是大數據的收集對于一般研究來說仍是存在一定問題。一是資料收集過程中需要大量資金支持,而是數據提供方通常不愿意分享數據用于研究。而即使一些企業最終同意,數據庫可能也并不完全契合研究需要;再次,大數據的出現也引發了新的道德倫理問題。用戶的蹤跡被追蹤、上網數據在不知道的情況下被用于商業銷售屢見不鮮。信息安全問題備受關注。最后張旭還從社會學視角探討了大數據引發的公平性問題。以保險公司通過客戶行車記錄儀的數據評估顧客,并進行區別收費為例,從社會不平等的角度解釋了這一現象背后隱藏的弱勢群體利益再次累積的過程,論述了大數據在其它領域的應用。另外他也提到,大數據還可能使研究者面臨更多的“研究道德”與“社會道德”的沖突。
在對社會科學和數據科學的合作方面的討論《論社會學理論導引下的大數據研究》一文,分析了商業投資策略過程,觀察其中大數據、社會學理論、預測模型是如何相互促進以致做出最終決策。通過多個計算社會科學案例,文章逐步論證了幾個核心觀點,即大數據能夠進行理論的假設驗證、提供新的理論啟發;理論可以指導數據挖掘的方向、校正數據挖掘的結果。兩者以各自不同的方式都可以為對方提供新的豐富的議題,為彼此指導和啟發新的研究方向,拓展了對方發展空間。文章還指出理論和預測模型之間的雙向對話:獲得證實的理論可以用來建立預測模型,改變模型預測的準確度;而預測模型的出現又可能在理論演繹中發現新的事實。而大數據與理論進行對話的橋梁在于將無結構數據變為結構化數據的一套或多套算法。文章如此詳細地分析理論、數據、模型之間的互動對話,實際呈現了計算社會科學的研究方法。
大數據無疑是社會科學面臨的一大挑戰。社會科學想要緊跟時代、對當下社會問題保持敏感并做出更深入、全面的研究,必須積極思考如何應對挑戰,將其轉為機遇,促進社會學科的蓬勃發展。
參考文獻:
[1]孟天廣,鄭思堯.信息、傳播與影響:網絡治理中的政府新媒體——結合大數據與小數據分析的探索[J].公共行政評論,2017,10(01):29-52+205-206.
[2]唐文方.大數據與小數據:社會科學研究方法的探討[J].中山大學學報(社會科學版),2015,55(06):141-146.
[3]羅瑋,羅教講.新計算社會學:大數據時代的社會學研究[J].社會學研究,2015,30(03):222-241+246.
[4]甄峰,王波.“大數據”熱潮下人文地理學研究的再思考[J].地理研究,2015,34(05):803-811.
[5]陳云松,吳青熹,黃超.大數據何以重構社會科學[J].新疆師范大學學報(哲學社會科學版),2015,36(03):54-61.
作者簡介:
黎嘉雯(1995—),女,新疆巴州人,天津師范大學,碩士,研究方向:性別社會學。