◎李 佳 潘衛華
與其他傳播科學領域一致, 新聞學研究也已經開始使用計算分析方法。在這些方法中,有監督的機器學習技術得到了越來越廣泛的關注。 該技術的主要優點在于其預測能力,例如,預測新聞價值或通用新聞框架的流行度。
那么, 有監督機器學習技術在什么條件下可以對新聞學研究帶來促進作用?目前的研究存在哪些問題?新的技術將為新聞學理論的發展會帶來哪些變化?本文試加以分析。
有監督機器學習技術與其他統計推斷方法、 無監督機器學習技術的最大區別在于其可預測性。舉例來說,有監督機器學習是從訓練數據中建立一個模式, 并依此模式預測新的實例。相比而言,無監督學習的目的是對原始數據進行分類,以便了解數據內部的結構,在學習階段并不知道其分類結果是否正確。 而有監督機器學習技術可通過測試大量模型以找到在預測方面性能最佳的模型。
在新聞學研究中, 統計推斷的方法主要是用來做自動內容分析, 其最簡單的形式就是對數據庫中的某些關鍵字進行計數。然而,這種基于字數統計的文本分析方法不能對文本的前后文或者變量進行關聯分析。 而有監督機器學習技術可以抓住大型新聞數據庫中更多的潛在和隱含變量,從而可以比簡單的字數統計更好地理解文本的含義。
機器學習算法的目標是對文本進行編碼, 并用特定的標簽進行標注。針對簡單的分類應用,一般會采用二進制的編碼方式, 來判斷文本所展現出來的情緒是積極的還是消極的,或者文本內容主要針對的是男性用戶還是女性用戶。隨著機器學習技術的發展, 有監督機器學習技術甚至可以實現自動編碼,從而進一步降低時間和財務成本。從目前的研究結果來看, 研究人員普遍認為有監督機器學習技術非常適合自動內容分析, 采用自動編碼的方式可以彌補精度降低所帶來的損失。
總的來說, 在新聞學研究中采用有監督機器學習的方式做內容分析是很有必要的,其主要原因有三點。 第一,一般來說機器學習無需對文本數據進行重新采樣, 從而可以在不增加成本的情況下同時對多個文本進行分析。第二,有監督機器學習可以提升新聞學研究的可靠性。 研究人員可以共享訓練數據和算法, 從而保證標簽的標記方式完全相同,也就降低了人為操作導致錯誤的可能性。 第三,有監督機器學習可以促進新聞理論研究, 幫助探索新的新聞學研究方法。
如上所述,采用有監督機器學習技術的優勢之一是可以處理更大的樣本量,但大的樣本量也存在一定的問題。第一,可能存在數據質量較低的問題,這也是自動化和可靠性之間的固有平衡。 第二,對大樣本進行處理,其統計能力或者性能會在達到某個閾值后不再提高, 過大的樣本量也增加了得出微不足道的結論的可能性。 第三,已有的社會科學方法論已經在抽樣理論中得到了較好的發展, 在某些情況下使用相對較小的隨機樣本進行抽樣往往會產生更好的結果。
在可靠性方面, 目前主要質疑的是機器學習模型是否真能夠捕獲其目標變量的深度內涵和細微差別。事實上,目前的機器學習技術還無法掌握人類語言含義內在的細微差別。 在文本分析中所使用的機器學習技術往往僅限于明確的概念,比如用來判斷某文本是否屬于娛樂新聞的范疇。當機器學習技術應用到多項分類任務中時, 其預測的準確性會受到較大影響。此外,機器學習模型的可擴展性也會受到新聞學研究領域依賴性與特殊性等方面的限制。比如,人們的審美、愛好、政治傾向等都會隨著時間改變,其對新聞傳播的影響也隨之變化。 有監督機器學習技術不僅需要大量的訓練數據, 而且在某些領域或時間段可能表現不佳。 因此,要想實現標準化的自動編碼或者機器學習模型,幾乎是不可能的。
在線新聞數據的豐富和可用性加速了新聞學研究和計算機科學之間的融合, 這很大程度上超出了以往新聞學的研究范圍。目前來看,計算機行業研究者的首要重點是算法及其性能,而較少關注該算法如何提高我們對新聞的理解,這可能導致一種低水平的經驗主義。在某些情況下,研究中使用的與新聞相關的數據可以與任何其他類型的文本互換。目前,關于如何利用模型理解媒介這一社會機構的理論研究很少。 這可能是由于計算機科學家和新聞學者都習慣了兩種不同的統計建模文化, 計算機科學家將統計數據視為做出準確預測的工具, 而社會科學家則將統計數據視為根據理論假設揭示變量之間因果關系的工具。 不同的理論方法也反映出模型評估的不同標準。
為了在新聞學研究中可持續地使用機器學習技術,我們認為需要確保機器學習技術集成到新聞學研究現有的認識論框架中。新聞學研究是本身就是跨學科領域的研究,因此,如何在傳統的新聞傳播學研究中融入計算機科學方法,使有監督機器學習技術成為新聞學研究現有方法框架的補充是值得探索的。
不斷變化的社會技術環境已向新聞學者提出了新的挑戰。 新聞學的許多核心理論在當代數字新聞生態中得到了進一步發展。我們認為,可以利用有監督機器學習技術來對新聞學理論研究進行補充。
舉例來說,上世紀媒體環境相對簡單,議程設置理論蓬勃發展。 但在當前的媒體環境中,這一理論都受到了挑戰。議程設置理論放大了媒介的主導作用, 但忽略了受眾的能動性。 下面來簡要說明為什么有監督機器學習技術可以幫助我們應對復雜的媒體環境對議程設置理論的挑戰。
議程設置意味著因果關系主張,一般來說,預測和因果關系是相輔相成的。 有監督機器學習技術可以用于建立模型, 該模型可以根據以往的議程來預測未來某個時間點的議程。 首先,需要兩個分類器,一個用來確定主題或事件在不同的媒體平臺上是否屬于同一類別, 另一個用來確定產生信息的參與者的類型 (權威機構、 新聞媒介、普通大眾等)。 然后,構建一個可以處理預測時間相關的數據序列模型。 一旦有了一個可以預測未來議程的模型,我們可以將該模型運用到實際的新聞生產中。 該模型的預測結果, 與實際的議程設置結果勢必存在一定的差距。 在新的媒體環境中,有監督機器學習技術可對媒體數據進行分析, 并通過學習實際的議程設置結果對算法進行修正,使預測模型不斷完善。 這意味著,有監督機器學習技術可以幫助解釋不同的因素, 如受眾的反饋意見對下一階段的議程設置有怎樣的影響, 從而使我們更好地掌握媒體生態。
總而言之, 機器學習技術可以用來對新聞理論輔以解釋,通過在理論研究中應用有監督機器學習技術,我們可以更深入地了解這些理論在當前時代所經歷的變化。
我們分析了基于有監督機器學習技術在新聞學研究領域的現狀,并指出了未來的可能發展方向。 我們注意到,有監督機器學習技術在大型數據樣本、 可擴展性和成本效率的假定優勢并非在所有情況下都適用。根據項目的目標,基于傳統方法構建的樣本可能更合適。
有監督機器學習技術目前在新聞研究中的應用仍然由算法主導,但為了進一步發展,我們需要考慮如何將有監督機器學習技術納入現有新聞學的典型理論研究中。 這里潛在的研究方向是利用有監督機器學習技術的預測能力來掌握數字新聞生態系統的復雜性, 使預測能力與解釋性研究相協調。 當然,有監督機器學習只是一種分析方法,絕不能替代新聞學者已擁有的豐富的背景知識, 只有讓機器學習技術與當前新聞學研究方法相輔相成, 才可能得到更加令人滿意的研究成果。