摘要:大數據的出現標志著社會科學的發展來到了一個新的分水嶺。大數據不僅規模龐大、數據維度高并且還可能表征社會現象。為了有效處理大數據,新的分析方法應運而生,包括數據降維、識別新的模式和關系、結果預測等,涵蓋的領域包括計算語言學、網絡科學、機器學習等等,這些技術進步拓展了社會學研究的新方向。本文對大數據技術進行研究,立足其對社會科學發展的影響,分析和闡述了該技術在社會學領域應用中產生的新的研究方向,希望能對社會學未來的理論研究和發展提供幫助。
關鍵詞:大數據;數據驅動;計算社會科學;機器學習
中圖分類號:TP311.13?? 文獻標識碼:A?? 文章編號:1672-9129(2020)12-0044-02
1 引言
近年來,隨著大數據、深度學習等人工智能技術的蓬勃發展,自然科學、社會科學等各領域的發展都迎來了信息化、智能化的標志性轉折點。在社會學中,由大數據技術創新帶來的突破被稱為“計算社會科學”[1]。隨著社會信息化、智能化的不斷發展,工程技術、社會科學以及社交媒體之間產生了不同于以往的交集——它們所研究和處理的數據類型高度相似,即社會活動的數字化信息;它們所面臨的問題也是類似的,即產生某種特定社會行為的因素有哪些。
面對這些共同的數據和問題,不同專業領域的科學觀點、方法和技術出現了潛在的“融合”。這種融合意味著大數據可能成為一個共同的交叉領域,來自完全不同專業領域、不同技術背景的研究人員可以互相協作,進行技術、數據和信息等方面的交流和協作。此外,以大數據和人工智能作為驅動技術,很可能會對以社會學為首的社會學科領域產生重要的理論變化。
由于大數據的出現,社會科學的研究內容正在發生根本性的變化。數據是一種新類型的數據,隨之而來的是各種新的分析技術和方法,這些技術和方法將大數據轉化為有關社會現象的新信息,即利用現有的信息并將其轉化為知識,或解釋社會現象的產生原因。
2 大數據
大數據技術相比傳統技術的最根本變化在于數據獲取和收集的方式以各種數字化記錄手段為主,這是由于計算機信息化和智能化技術的發展使得數字記錄手段變得無處不在。如今越來越多的企業和機構保存著數千萬甚至上億人的用戶數據,社會生活的方方面面都會保存個人行為的數據記錄,例如人臉識別門禁、數字支付記錄、健康碼掃碼記錄活動軌跡、網絡社交媒體操作記錄等等。所有這些數據都被收集、分類和存儲,構成無數個的持續、動態更新信息的數據源。大部分數據涉及社會系統運行和人們在日常生活中的活動信息,是人類進行各種生產、消費活動的數字足跡。因此,“大數據”一詞體現的是目前正在收集的數據的豐富性、動態性和多樣性。在大多數情況下,大數據信息不是通過傳統的問卷調查人為收集而得的,而是通過計算機技術和智能化設備自動獲取的。這些設備不是專門為了社會科學研究而創造的,而是個人或機構為了滿足需求而自主選擇的,因而可以更加真實地反映社會現象的本質[2]。換句話說,這些數據并不需要一個研究驅動的假設來產生,而應該根據數據中蘊含的潛在關聯信息分析出相應的社會科學理論,或者對理論進行客觀數據的補充解釋。
3 新技術
為了應對大數據時代數據量的指數級增長,能夠處理來自多源頭、大數據量、多維度且互相關聯的數據信息的方法也應運而生。在獲得了大數據之后,由于數據量過大導致的對存儲容量和計算能力的需求急劇增長,所面臨的一個基本問題是如何在不犧牲數據信息量的前提下,將原始數據降維至易于管理且仍然可以被人類理解的維度。隨后,再對這些數據進行分析和處理,以便篩選和識別出有意義的社會學行為模式。目前用于實現這些目標的技術包括計算語言學、網絡科學、機器學習技術等[3]。
計算語言學是一個存在已久的領域,它起源于語言學、人工智能和認知科學通過建立數學模型來實現機器翻譯的共同目標。計算語言學現在為互聯網的各種web應用提供了有力的技術支撐。計算語言學不僅可以將語言量化為數字化模型,還能進行文本歸類、文本識別等應用。對于社會科學家來說,計算語言學中的許多技術都與社會語言學理論相似相通,因而為語言分析提供了極為便利的智能分析工具。計算語言學與文本相似性度量技術等技術一同被越來越多的社會學家應用于大規模的文本資料分析。
網絡科學是一個融合了計算機科學家、物理科學家以及研究社會網絡的社會科學家的交叉學科領域。在很多研究中,計算機科學家通過大規模數據集復現了以往的社會網絡研究的成果和結論。此外,計算機科學家的研究側重于團體檢測、模擬、數學建模和假設檢驗,這與社會科學家對觀察研究、靜態網絡、結構特性和小規模設置的傳統研究方法相反。在這個交叉學科領域中發現的許多網絡理論可適用于各種新型社交媒體和網站數據。這些研究集中在網站點擊、即時通信軟件和從各種社交平臺中提取的關系數據,包括社交平臺上的“關注”關系、好友關系和內容發布的點贊情況等。這些技術可用于研究社會互動等問題,并被越來越多地用于分析大規模群體間的關聯。
機器學習是一種基于數據驅動、用于預測結果的技術。例如,互聯網公司保存了大量的用戶行為數據,包括網頁點擊、文字發布、網絡定位、購買記錄、質量評價等等。很多公司會利用這些已有的用戶數據建立模型,預測其他用戶的行為,從而進行合理的引導,以便向用戶推銷更多商品、瀏覽更多頁面等等。在解決自然科學領域的工程技術問題時,機器學習是一種強有力的分析預測工具。然而,由于它僅利用了既往數據和相關的數學模型(如概率模型等)、缺少社會科學的理論支撐,單純依靠機器學習技術難以真正有效地準確預測社會科學相關問題的結果。相反,理論研究是聚焦于重點部分的研究手段,可人為地從數以百萬計的變量中選取主要特征維度,并對這些特征的相互關聯進行合理解釋。因此,把基于數據驅動的機器學習技術與社會科學理論相結合時,則可以發揮出意想不到的功效[4]。機器學習的技術視角可以揭示社會學理論沒有關注到的行為模式或社會現象,或者以一種新的方式和角度來闡述可能被社會學家忽略的理論。因此,基于大數據計算的機器學習可以和社會學理論研究相輔相成,在社會學家尋找潛在、合理的理論解釋時能發揮重要作用。
4 新研究
隨著大數據和新方法的出現,學者們可以從新的研究視角重新審視許多舊的社會科學問題。此外,大數據帶來的數據量過剩和數據訪問的便利性已經創造了一系列全新的值得研究的社會學問題。社會學調查方式的進步使得社會學理論也需要與時俱進[5]。
一個典型的社會學研究問題是公平與貧富差距。研究人員不再局限于人口普查記錄和問卷調查,可直接獲取人們在日常生活中的行為數據,例如消費記錄、手機基站信號接入軌跡等,并且數據采樣的規模之龐大是前所未有的。通過這種方式,擁有大數據的研究者可以從行為模式、人口流動等方面評估不平等情況,重新審視區域貧富差距、城鄉二元化等問題。
隨著新數據和新方法的出現,新的研究問題也被提上議程。信息過載是當前工業界和學術界研究人員面臨的一個突出問題。隨著公開數據和隱私數據的指數增長,將數據進行分析處理得到的信息量會隨之增長,因而從海量數據中挖掘出有用信息變得日趨困難。對于社會學家而言,希望利用大數據來解決公共利益的問題,例如如何令某個政策的實施得到預期的結果。從這個角度來說,大數據的優勢在于它可提供更完整的研究視角,從而更全面地觀察整個社會系統的運行[6]。就社會系統視角而言,研究者們可以評估各種微觀和宏觀過程,從而更充分地與社會學理論相聯系。這種聯系為理解社會系統如何作為系統運行提供了前所未有的嶄新視角。大數據提供了在不同的社會環境中觀察相同類型的行為人的技術基礎,從而方便社會學家在不同的領域中解析出社會制度和社會結構上的差異。
5 結論
大數據技術的出現帶來了社會科學的全新分水嶺。大數據代表了從各種各樣的社會現象和行為的數字記錄中獲取的一類新型數據,數據規模龐大、涵蓋的信息豐富、可動態獲取更新并且變量多數據維度高,故難以采用傳統方法進行有效處理。因此,需要采用新的方法和技術來進行數據降維、識別新的模式和關系、預測結果和社會現象的發展趨勢。這些新的方法與傳統的社會調查研究中常用的最小二乘法有本質上的不同。大數據和相應的新方法也引發了社會學家對傳統的社會科學問題進行重新審視,并拓展出了新的研究方向。
參考文獻:
[1]王國成. 計算社會科學:發展現狀與前景展望[N]. 中國社會科學報,2020-08-18(004).
[2]龔為綱. 大數據推動計算社會科學發展[N]. 中國社會科學報,2019-01-30(006).
[3]孟小峰,張祎.計算社會科學促進社會科學研究轉型[J].社會科學,2019(07):3-10.
作者簡介:劉哲,1989.02,男,漢族,湖北武漢,講師,博士,主要從事大數據、機器學習、計算機視覺相關領域的教學和研究。