胡 萍
(合肥學院 管理系,安徽 合肥 230022)
以群件、即時通訊工具、網絡論壇、新聞和郵件列表為代表的在線群體研討平臺產生的海量數據[1],常常超出其處理信息的能力。依靠傳統人工分析文本的做法,不僅費時、費錢、費力,而且通常不能全天循環工作[2]。因此,基于在線研討平臺的言語行為分類體系研究,即研究如何讓機器自動分析文本,判斷研討狀態,并根據這些數據為討論群體提供半自動或自動的干涉和輔助,就成為一個非常有意義的課題。
言語行為理論[3]認為,人們說話的同時是在實施某種行為,這種行為是通過語言表達完成的。一個言語行為體系由兩個因素組成。一方面,對言語行為的標注必須十分清晰,這樣才有足夠的識別力。如果不是這樣,標注者之間的統一性就會很低。另一方面,定義一個可以重用的分類體系可以提高效率,因為這樣的分類體系可以很容易地應用于其他領域。大多數時候,人們會采用一部分已有的言語行為類別,然后自定義一些言語行為類別。
研討理論(Argumentation Theory)[4]是用來描述如何研討的理論。Toulmin提出了一套比較完備的知識表達結構,用來支持辯論過程中的知識表達和文本組織。Brockriede和Ehninger采用Toulmin的觀點,將研討描述為“從事實出發,通過推理,最后得出結論”[5]。
根據研討的時間、人力、資源壓力,我們可以將在線研討平臺分為同步研討和異步研討兩種工作平臺。同步研討就是所有用戶同時在線,并在有時間壓力的情況下進行討論交流;異步研討就是用戶根據自己的時間安排選擇適當的時候上線,在沒有時間壓力的情況下進行討論交流。同步研討平臺和異步研討平臺是兩種最具代表性的在線研討平臺。
在研究過程中,首先,收集研討平臺對應的語言資料,提出相應的言語行為分類體系;然后,在語料標注和正確選擇初始特征集的基礎上,設計言語行為分類所用的機器學習算法;在學習算法設計好以后,再進行系統評估。在整個研究過程中,各個步驟可能需要反復多次調整,才能達到較好的效果。因此,這是一個螺旋式推進的過程。
為了構建在線研討言語行為分類體系,需要收集大量的語言資料,聘請專家閱讀這些資料,在前人類似研究的基礎上提出新的言語行為分類體系,并且,這個體系需要通過評估者間的信度測試。為了說明一個言語行為分類對于研討是有效的,我們需要保證這個分類是客觀存在并且可重復操作和調整的,方法就是測試評估者間的信度。評估者間的信度給出了測量不同主觀判斷之間一致性的值。如果評估者之間沒有足夠的一致性,要么是因為前期指標設計有問題,要么是因為評估者理解指標有缺陷。
語料標注。語料標注就是人工標注發言所屬的行為,有時還要手工標注關鍵特征。語料標注工作量比較大,也是解決分類問題和基于機器學習算法必不可少的內容。為了進行語料標注,首先需要制定一個標準格式。基于XML語法的標注方法是目前比較流行的,因為XML格式的數據本身能夠自說明,并且有眾多的工具可以進行后期處理。當資料較多、標注任務較繁重時,一個人難以完成。如果讓幾個人來標注語料,在開始標注前就應該對所有標注者進行培訓,只有所有標注者間的信度達到預定的水平,正式的標注工作才可以開始,這樣結果才能達到足夠的一致性。
初始特征集的選擇。許多特征類別包含的特征數目是固定不變的。例如,句法特征中的標點符號特征的個數就是固定的,因為標點符號的個數是固定的;鏈接特征、風格特征和用戶特征的個數也是固定的。但是,言語行為分類的一個巨大挑戰是特征空間的維數過大。由于采用向量空間模型,原始特征空間通常由出現在文檔中的唯一的terms(words或phrases)組成,而一個中等大小的文本集合可能包含幾萬到幾十萬個terms。這樣的維數對于許多學習算法來說都過大了。因此,在不影響分類精度的情況下,減少原始的維數就變得非常必要。而且,自動實現這一目標也非常重要,即不需要手工定義或構建特征。自動特征選擇方法包括根據語料統計除去那些無關的terms,以及通過將低層特征(如terms)合并成高層的正交維數的方法來構建新的特征。基于n-grams的特征數目幾乎是無窮的。因此,n-grams空間的大小成為言語分類過程中非常重要的一個閥值。
設計機器學習算法。在語料標注和正確選擇初始特征集的基礎上,設計機器學習算法,最終完成對言語行為的有效分類。言語行為分類可以采用多種機器學習算法。其中最為成功的兩種方法是基于轉換的學習(Transformation Based Learning,TBL)和支持向量機(Support Vector Machine,SVM)。TBL算法以帶有一定激發環境的轉換式的方式存在,獲取所需的規則,易懂直觀,這樣既不需要花費大量的機器存儲空間,又可從一定程度上避免數據稀疏的問題。其基本思想是,用已標注過的文字作為訓練資料庫。首先采用一種初始標注方法對語料進行標注,然后將結果與正確的文本進行對比,通過預先設計好的目標函數和轉換模板,找出應用轉換模板后標注錯誤次數最少的轉換式,作為系統的新的標注規則,再用該規則重新標注語料。重復上述過程,每次轉化都會得到一條新的規則,直到找不出有價值的規則為止。SVM算法是一種實現了結構風險最小化的方法,其被廣泛應用于模式識別和機器學習,也被應用于言語行為分類。它的機器學習策略是保持經驗風險值固定而最小化置信范圍。SVM算法通過核函數將向量映射到一個更大維數的空間中,在這個空間里建立一個最大間隔超平面來將兩類樣本點分開,從而縮小n-grams空間,緩解數據稀疏問題和過擬合的問題。
常用的評估機器學習性能的方法有n-fold cross validation和 bootstrap兩種。N-fold cross validation方法將數據分成n(通常n=10)份,將其中n-1份作為訓練數據,最后1份作為測試數據。系統的綜合性能就是這n次結果的平均值。Bootstrap方法則是從訓練集中用隨機的方法選擇一定數量的數據作為測試原始集,其他的數據作為訓練集。這樣重復n(通常n=50)次,這n次的測試結果就是系統的綜合性能。人們可以根據研究問題的不同特征,選擇適合在線研討平臺的系統評估方法。
[1] Koppel M.,Argamon S.,Shimoni A.R.Automatically Categorizing Written Texts by Author Gender[J].Literary and Linguistic Computing,2002(4).
[2] 程少川,張朋柱.電子公共大腦設計的信息組織研究[J].西安交通大學學報(社會科學版),2001(1).
[3] Li,J.,Zhang,P.Z.,Cao,J.W.External Concept Support for Group Support Systems through Web Mining[J].Journal of the American Society for Information Science and Technology,2009(5).
[4] Limayem M.,DeSanctis G.Providing Decisional Guidance for Multicriteria Decision Making in Groups[J].Information Systems Research,2000(4).
[5] 蔣御柱,張朋柱,張興學.群體研討支持系統中的智能可視化研究[J].管理科學學報,2009(3).