文/胡安寧
在過去的十幾年中,隨著以算法為基礎的各種機器學習技術的發展與普及,社會科學研究者對文本的探索也日漸從傳統的以詮釋為導向的內容分析法轉向以預測和因果推斷為導向的大規模文本挖掘。這一方法論的變化趨勢為社會科學研究者提供了越來越多的新興研究工具,極大地拓展了社會科學文本分析的研究空間。本文擬從三個方面對以文本為分析基礎的社會科學研究進行討論。首先,對目前社會科學文本探索的多重方法進行回顧,將其劃歸為以詮釋為導向的方法、詮釋與結構探索并重的方法和以結構為導向的方法三類,以此呈現出社會科學文本研究工具的多樣性。其次,針對社會科學文本探索的方法論發展,圍繞研究目標、研究手段和研究對象三個基本維度,系統展示從以詮釋為導向的內容分析向以結構為導向的文本挖掘的過渡過程。最后,針對日漸興起的以算法為導向的文本探索方法,討論其潛在的局限性及進一步發展的方向。
與任何一種體系化的方法論框架一樣,以文本為基礎的社會科學研究涉及多種不同的具體策略,本文將這些經驗分析策略大致分為三類,即以詮釋為導向的文本探索方法、詮釋與結構并重的文本探索方法和以結構為導向的文本探索方法。
以詮釋為導向的文本探索方法的范例是傳統的內容分析法。作為一個經典的社會科學研究方法,內容分析法強調通過對特定文本內容的編碼,將文本信息提煉為圍繞特定主題的系統化的編碼信息,之后通過解讀編碼信息,研究者就可以跳過紛繁復雜的文本內容本身,從而在分析過程中更為聚焦,得出具有實質意義的結論。傳統內容分析法的重點是通過編碼來簡化內容。可以說,編碼的過程本質上是對文本內容的詮釋和抽取,通過這種“轉化”,研究者可以更加聚焦于文本在某些分析維度上的內容特點。然而,這種以詮釋為導向的分析策略也并非沒有局限。一個被廣泛提及的問題是,不同的研究者對于同樣的內容所作出的詮釋與編碼可能存在很大的差異。詮釋與結構并重的文本探索方法可以看作是對傳統內容分析法的一種拓展。這里拓展的關鍵在于,通過計算機輔助的分析手段來對文本中的某些關鍵點進行結構化的分析和展示。詮釋與結構并重的文本探索方法可以有很多具體的例證。比如,語義網(semantic network)分析是指利用網絡分析手段展示某一文本中特定的具有實質意義的詞語彼此之間的復雜網絡關系。詮釋與結構并重的文本探索方法所分析的對象并不局限于內容分析法所抽離出的特定關鍵詞或者主題詞之間的網絡結構,社會科學研究者還會通過考察其他的關涉結構的統計量來進行文本分析。例如,通過使用伽羅瓦格(Galois Lattices),研究者可以展現出一個文本中描述的主體(actor)和事件(event)之間的復雜關聯,從而建構出所謂的二部圖(two-mode)網絡。詮釋與結構并重的另外一個典型方法是量化敘事分析(quantitative narrative analysis)。隨著計算機算力和算法效率的提升,社會科學領域對于文本的分析逐漸引入了越來越多的計算機分析手段,這一趨勢使得社會科學的文本探索越發傾向于對文本進行結構化的考察。這方面比較有代表性的方法是主題模型和詞嵌入模型。
在上面的討論中,本文展示了不同的社會科學文本探索工具,這些工具的提出和集中使用發生在不同的歷史時期,因此與特定歷史階段的研究重點、計算機算力限制和理論關懷相關聯。通過考察這些方法,可以近似勾勒出社會科學文本探索的方法論變遷特征,本文從研究目標、研究手段和研究對象三個維度來進行討論。
在研究目標方面,無論是早期的內容分析編碼,還是日漸興起的基于算法的文本挖掘技術,其共通點在于對紛繁復雜的文本內容進行某種簡化。但是,在對簡化后的內容如何使用方面,卻呈現出從詮釋導向到因果/預測導向的變化。傳統的內容分析基于人工編碼,相對而言,編碼后的數據所呈現出的信息比較簡單,研究者完全可以通過直接審讀這些編碼信息來間接把握文本的內容。但是,詮釋與結構并重的文本探索方法在詮釋之外開拓出了結構分析這一新的關注點。這種針對結構特征的分析在今天的算法模型中得到了更為直接的體現。在基于算法的各種工具的幫助下,文本結構性因素變得日漸“可見”。之后,研究者們便可以把這些結構性特征作為常規意義上的變量納入各種結構化的模型分析(如回歸模型)中,從而達到因果推論甚至預測的目的。
除了研究目標,在研究手段方面,社會科學文本探索的方法也體現出一系列的歷時性變化,其中最為重要的一點就是研究者人工因素的逐漸淡化。如果說傳統的內容分析法受社會科學研究者和其合作者(如其他編碼人員)主導的話,那么到了諸如語義網分析這樣的詮釋與結構并重的方法這里,計算機輔助分析開始變得日漸重要。這種基于“機器”的分析過程既是特定算法實現的現實需要,也是處理體量日漸增大的數據的必然要求。這種“人工”的式微到了以算法為基礎的文本挖掘這里,變得更為明顯。
在研究對象方面,社會科學文本探索的方法論呈現出從“意義”向“結構”的變化。如果說意義是一系列可以幫助我們理解特定社會現象的“說法”或者“故事”,那么結構則強調了不同因素之間的客觀互動關聯。顯然,傳統內容分析的編碼結果鮮有對結構特征的呈現,到了詮釋與結構并重的文本探索方法和后面以結構為導向的分析方法那里,結構性信息就變得越發重要。當結構因素成為承載科研結果的主要面向,研究者們便不再刻意追求特定的文本本身的意義,轉而討論結構性特征所具有的“意義”,或者說對結構性特征進行某種“二次”詮釋。除了從意義向結構的變化,研究對象上的轉向還體現在文本信息的載體變化上。由于人工分析能力的局限,傳統的內容分析法所使用的是比較小的數據。與這種分析對象相比,今天基于算法的分析對象可以是所謂的大數據甚至流(stream)數據。借助于迅速提升的計算機硬件算力和日漸高效的算法設計,文本挖掘的對象可以是人類目前為止所積累的海量書籍資料,也可以是某一領域全部的文本資料(如全唐詩),此時所使用的數據甚至可以稱為“全”數據,這種對海量數據的分析能力是傳統文本探索技術所不具備的。
上文展示了社會科學文本探索的方法論變遷特征,考慮到以算法為導向的文本挖掘技術在社會科學不同學科內的迅速應用,這一部分將著重對這一新興發展趨勢進行討論。由于這一類方法的介紹性書籍與論文頗多,研究者們對于它們的強項已經有很多直觀的感受,因此,下文重點分析這一類方法存在的限制和進一步發展的方向。
數據清洗:與傳統的量化數據分析一樣,在進行文本分析的時候,從一開始的原始數據到最后可用于分析的數據之間存在著一系列的數據清洗過程。具體而言,對于文本數據,數據清洗意味著需要對文本中存在的虛詞、標點符號等詞語進行去除,以及對同義詞和近義詞進行統一。和傳統的定量研究相比,文本數據的清洗對于最后結果的呈現有著更為直接和深遠的影響。正因為如此,未來社會科學文本挖掘分析的一個重要的發展方向是數據清洗過程的標準化和流程化,以求提升分析結論的可比性。這也是可重復性研究的直接要求和題中之義。
過擬合:與傳統內容分析不同,基于算法的文本研究所使用的量化分析手段更為復雜。例如,在算法的參數設定上,可以有不同的選擇。在實踐中,研究者往往通過多次試錯來最后獲得一個所謂的“最優”參數和“最優”模型。從數據分析的角度來看,對某一數據反復試錯來調整參數的一個最大的危害在于會出現過擬合問題,即模型對于數據的特征把握得過分好,以至于數據本身的噪聲也被看作是有意義的信號。顯然,這時的數據分析結論缺乏足夠的泛化能力。
驗證:通過算法獲得的文本分析結果一直以來都因為缺乏足夠的驗證手段而受到詬病。例如,主題模型獲得的主題在多大程度上可以作為是對原始文本信息有“代表性”的抽離,這一問題一直以來缺乏一個被廣泛接受的指標。傳統的分析過程可以使用主題詞語義一致性得分或者兩兩互信息得分來進行衡量,這兩種方法都是一種內樣本(in-sample)的評估手段,即在獲得主題估計之后,觀察特定主題的關鍵詞內部的一致性。但是,由于主題模型的擬合過程就是通過這些主題詞的詞頻或者逆文檔頻率來構建主題的,因此這種內樣本評估很難看出主題的泛化能力。一個比較合理的評估和驗證手段應當是外樣本(out-of-sample)評估,這方面社會學的計算民族志分析已經有了一些開拓性的探索,或許也應當是未來文本挖掘方法的重要發展方向之一。
關于驗證的另外一個問題是如何確定文本和變量之間的關系。正如上文所言,研究者對文本進行挖掘之后所形成的一系列結構性信息可以作為變量納入一系列的因果關系模型甚至預測模型中。以文本作為基礎進行此類分析需要對文本所測量的變量究竟是什么有著清晰的認識,但是到目前為止,這方面的工作還有很多挑戰。例如,以文本進行因果推斷時,文本中既包含了研究者關心的變量,也包含了一些其他混淆因素。此時,以文本為單位所做的分析無法排除混淆因素的作用(即出現所謂的效應替代[aliasing])。此外,文本中的詞語彼此相聯系,因此以文本進行因果推斷有可能違反了所謂的分析單位獨立性假設。這些問題的核心在于我們對文本加工后所獲得的信息在多大程度上能夠代表研究者所需要的信息,其本質關涉的是測量的質量和效度。
圍繞文本信息,社會科學研究者有著多種分析工具可供選擇,這些分析工具或以詮釋為主導,或以結構分析為主導,或者二者并立。從傳統的內容分析到新近的以算法為導向的文本挖掘技術,在研究目標、研究手段和研究對象三個維度上呈現出明顯的過渡特點。而圍繞著機器學習為基礎的文本挖掘,本文從數據清洗、過擬合和數據驗證三個方面討論了其潛在的局限性和未來的發展方向。
盡管我們勾勒出了社會科學文本研究的一個大致的發展趨勢,但是我們并不認為新近的方法可以取代早期的方法。相反,我們認為,不同的文本探索手段雖然在不同的歷史時期開發出來,但其都有擅長處理的特定研究問題。因此,對于社會科學研究者而言,選取最新的方法不一定就是最好的,而是應當根據自身的研究問題特點,有針對性地選擇最“適合”的研究方法。例如,如果對于文本的敘事感興趣,那么自然圍繞敘事展開的量化分析手段更有優勢,盡管新的文本挖掘手段可以在分析效率上對前者有所增益和補充。總之,方法畢竟是達成研究目標的工具,何種工具最恰當是由研究問題決定的。此外,針對同一問題采用多種手段也可以起到方法互補或者互相驗證的效果,這也是經驗研究者可以考慮的綜合性分析策略。
社會科學的文本分析和計算機領域內的自然語言處理方法之間的界限隨著大數據時代的到來開始變得越發模糊。實際上,無論是分詞等數據預處理技術,還是主題模型這樣的新興技術,都來自自然語言處理領域。但是,社會科學的研究旨趣與自然語言處理的主要任務之間還是有所區別。從某種意義上講,這種區別有些類似于布雷曼所談的兩種統計分析文化:社會科學研究者希望能夠利用文本分析來理解和詮釋某種社會現象,但是自然語言處理的主要功能在于對文本進行簡化、分類和預測。正因為如此,很多時候,如果社會科學研究者直接把自然語言處理的方法拿來使用的話,會有種隔閡感,或許這種隔膜就來自兩派研究的旨趣和目標差異。鑒于此,盡管在可預期的未來,自然語言處理的技術會越來越多地被社會科學研究者所使用,但是這種使用的目標卻有學科差異。
可以想見的是,隨著算法工具的日漸豐富,基于文本探索的社會科學研究者將會大有可為。但是如文中所指出的,文本的分析切不可掉入“重機器輕人工”的陷阱。由于文本本身的復雜和多義,單純通過一些表面特征獲取的文本簡化信息必定是不完全的。因此,未來社會科學文本分析的努力方向應當是尋找一種人機協作互動的工作方案。這方面比較成功的探索往往是先用機器做一些探索性和數據簡化的工作,之后研究者參與進來對機器所呈現的結果進行詮釋和理解。在這種人機協作的工作模式中,機器的作用在于探索,至于這種探索是否有學科層面上的理論價值和實際生活的現實意義,則由具有理論素養的研究者來進行研究。從這個意義上講,機器和人工之間存在某種分工,各自負責自己所擅長的部分,以共同完成某一研究。
最后,需要提及的是,文本的價值和意義并非文本本身的屬性。實際上,大量的文化社會學理論早已指出,文本的意義是在作者和讀者互動過程中產生的。因此,單純關注文本特征,或者僅僅考慮作者信息,對于理解文本而言都是片面的。如何更好地整合讀者信息,從而將作者—文本—讀者三元一體納入現有的社會科學分析框架,應當是未來社會科學文本分析需要考慮的問題之一。