999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于在線研討平臺的言語行為分類體系構建

2013-08-15 00:49:10
長江大學學報(社會科學版) 2013年4期
關鍵詞:分類特征方法

胡 萍

(合肥學院 管理系,安徽 合肥 230022)

以群件、即時通訊工具、網絡論壇、新聞和郵件列表為代表的在線群體研討平臺產生的海量數據[1],常常超出其處理信息的能力。依靠傳統人工分析文本的做法,不僅費時、費錢、費力,而且通常不能全天循環工作[2]。因此,基于在線研討平臺的言語行為分類體系研究,即研究如何讓機器自動分析文本,判斷研討狀態,并根據這些數據為討論群體提供半自動或自動的干涉和輔助,就成為一個非常有意義的課題。

言語行為理論[3]認為,人們說話的同時是在實施某種行為,這種行為是通過語言表達完成的。一個言語行為體系由兩個因素組成。一方面,對言語行為的標注必須十分清晰,這樣才有足夠的識別力。如果不是這樣,標注者之間的統一性就會很低。另一方面,定義一個可以重用的分類體系可以提高效率,因為這樣的分類體系可以很容易地應用于其他領域。大多數時候,人們會采用一部分已有的言語行為類別,然后自定義一些言語行為類別。

研討理論(Argumentation Theory)[4]是用來描述如何研討的理論。Toulmin提出了一套比較完備的知識表達結構,用來支持辯論過程中的知識表達和文本組織。Brockriede和Ehninger采用Toulmin的觀點,將研討描述為“從事實出發,通過推理,最后得出結論”[5]。

一、選擇兩種典型的在線研討平臺作為研究環境

根據研討的時間、人力、資源壓力,我們可以將在線研討平臺分為同步研討和異步研討兩種工作平臺。同步研討就是所有用戶同時在線,并在有時間壓力的情況下進行討論交流;異步研討就是用戶根據自己的時間安排選擇適當的時候上線,在沒有時間壓力的情況下進行討論交流。同步研討平臺和異步研討平臺是兩種最具代表性的在線研討平臺。

在研究過程中,首先,收集研討平臺對應的語言資料,提出相應的言語行為分類體系;然后,在語料標注和正確選擇初始特征集的基礎上,設計言語行為分類所用的機器學習算法;在學習算法設計好以后,再進行系統評估。在整個研究過程中,各個步驟可能需要反復多次調整,才能達到較好的效果。因此,這是一個螺旋式推進的過程。

二、構建在線研討言語行為分類體系

為了構建在線研討言語行為分類體系,需要收集大量的語言資料,聘請專家閱讀這些資料,在前人類似研究的基礎上提出新的言語行為分類體系,并且,這個體系需要通過評估者間的信度測試。為了說明一個言語行為分類對于研討是有效的,我們需要保證這個分類是客觀存在并且可重復操作和調整的,方法就是測試評估者間的信度。評估者間的信度給出了測量不同主觀判斷之間一致性的值。如果評估者之間沒有足夠的一致性,要么是因為前期指標設計有問題,要么是因為評估者理解指標有缺陷。

語料標注。語料標注就是人工標注發言所屬的行為,有時還要手工標注關鍵特征。語料標注工作量比較大,也是解決分類問題和基于機器學習算法必不可少的內容。為了進行語料標注,首先需要制定一個標準格式。基于XML語法的標注方法是目前比較流行的,因為XML格式的數據本身能夠自說明,并且有眾多的工具可以進行后期處理。當資料較多、標注任務較繁重時,一個人難以完成。如果讓幾個人來標注語料,在開始標注前就應該對所有標注者進行培訓,只有所有標注者間的信度達到預定的水平,正式的標注工作才可以開始,這樣結果才能達到足夠的一致性。

初始特征集的選擇。許多特征類別包含的特征數目是固定不變的。例如,句法特征中的標點符號特征的個數就是固定的,因為標點符號的個數是固定的;鏈接特征、風格特征和用戶特征的個數也是固定的。但是,言語行為分類的一個巨大挑戰是特征空間的維數過大。由于采用向量空間模型,原始特征空間通常由出現在文檔中的唯一的terms(words或phrases)組成,而一個中等大小的文本集合可能包含幾萬到幾十萬個terms。這樣的維數對于許多學習算法來說都過大了。因此,在不影響分類精度的情況下,減少原始的維數就變得非常必要。而且,自動實現這一目標也非常重要,即不需要手工定義或構建特征。自動特征選擇方法包括根據語料統計除去那些無關的terms,以及通過將低層特征(如terms)合并成高層的正交維數的方法來構建新的特征。基于n-grams的特征數目幾乎是無窮的。因此,n-grams空間的大小成為言語分類過程中非常重要的一個閥值。

設計機器學習算法。在語料標注和正確選擇初始特征集的基礎上,設計機器學習算法,最終完成對言語行為的有效分類。言語行為分類可以采用多種機器學習算法。其中最為成功的兩種方法是基于轉換的學習(Transformation Based Learning,TBL)和支持向量機(Support Vector Machine,SVM)。TBL算法以帶有一定激發環境的轉換式的方式存在,獲取所需的規則,易懂直觀,這樣既不需要花費大量的機器存儲空間,又可從一定程度上避免數據稀疏的問題。其基本思想是,用已標注過的文字作為訓練資料庫。首先采用一種初始標注方法對語料進行標注,然后將結果與正確的文本進行對比,通過預先設計好的目標函數和轉換模板,找出應用轉換模板后標注錯誤次數最少的轉換式,作為系統的新的標注規則,再用該規則重新標注語料。重復上述過程,每次轉化都會得到一條新的規則,直到找不出有價值的規則為止。SVM算法是一種實現了結構風險最小化的方法,其被廣泛應用于模式識別和機器學習,也被應用于言語行為分類。它的機器學習策略是保持經驗風險值固定而最小化置信范圍。SVM算法通過核函數將向量映射到一個更大維數的空間中,在這個空間里建立一個最大間隔超平面來將兩類樣本點分開,從而縮小n-grams空間,緩解數據稀疏問題和過擬合的問題。

三、系統評估

常用的評估機器學習性能的方法有n-fold cross validation和 bootstrap兩種。N-fold cross validation方法將數據分成n(通常n=10)份,將其中n-1份作為訓練數據,最后1份作為測試數據。系統的綜合性能就是這n次結果的平均值。Bootstrap方法則是從訓練集中用隨機的方法選擇一定數量的數據作為測試原始集,其他的數據作為訓練集。這樣重復n(通常n=50)次,這n次的測試結果就是系統的綜合性能。人們可以根據研究問題的不同特征,選擇適合在線研討平臺的系統評估方法。

[1] Koppel M.,Argamon S.,Shimoni A.R.Automatically Categorizing Written Texts by Author Gender[J].Literary and Linguistic Computing,2002(4).

[2] 程少川,張朋柱.電子公共大腦設計的信息組織研究[J].西安交通大學學報(社會科學版),2001(1).

[3] Li,J.,Zhang,P.Z.,Cao,J.W.External Concept Support for Group Support Systems through Web Mining[J].Journal of the American Society for Information Science and Technology,2009(5).

[4] Limayem M.,DeSanctis G.Providing Decisional Guidance for Multicriteria Decision Making in Groups[J].Information Systems Research,2000(4).

[5] 蔣御柱,張朋柱,張興學.群體研討支持系統中的智能可視化研究[J].管理科學學報,2009(3).

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 无码综合天天久久综合网| 国产人人射| 欧美午夜网| 亚洲欧美不卡| 国产成人亚洲精品色欲AV| 国产国模一区二区三区四区| 国产粉嫩粉嫩的18在线播放91 | 国产手机在线小视频免费观看| 99久久成人国产精品免费| 日韩一二三区视频精品| 国产精品无码AV片在线观看播放| 欧美一级黄片一区2区| 亚洲国产综合精品中文第一| 丝袜久久剧情精品国产| 欧美亚洲激情| 欧美在线伊人| 精品少妇人妻av无码久久| 日韩精品少妇无码受不了| 亚洲av成人无码网站在线观看| 欧美成人精品欧美一级乱黄| 老司机久久99久久精品播放| 99热这里只有免费国产精品 | 国产精品免费电影| 狠狠色综合久久狠狠色综合| 国产麻豆精品久久一二三| 青青草91视频| 69av免费视频| 国产精品深爱在线| 午夜少妇精品视频小电影| 在线观看免费人成视频色快速| 最新国语自产精品视频在| 成人在线观看不卡| 国产女人在线视频| 亚洲最猛黑人xxxx黑人猛交| 一级香蕉人体视频| 永久免费无码成人网站| 美女被狂躁www在线观看| 亚洲男人天堂久久| 妇女自拍偷自拍亚洲精品| 五月婷婷激情四射| 精品久久国产综合精麻豆| 97久久人人超碰国产精品| av无码一区二区三区在线| 国模沟沟一区二区三区| 国产丝袜啪啪| 婷婷六月色| 国产人在线成免费视频| 国产欧美亚洲精品第3页在线| 国产精品亚欧美一区二区三区 | 日本高清成本人视频一区| 国产精品思思热在线| 一区二区三区在线不卡免费| 色综合成人| 亚洲综合二区| 亚洲高清在线天堂精品| 国产黄网站在线观看| 九九精品在线观看| 精品少妇人妻无码久久| 91免费国产高清观看| 激情午夜婷婷| 精品国产免费观看| 亚洲最大看欧美片网站地址| 免费国产好深啊好涨好硬视频| 亚洲成人动漫在线观看| 91网红精品在线观看| 欧美一级高清免费a| 欧美色99| 4虎影视国产在线观看精品| 丰满人妻久久中文字幕| 亚洲国产成人精品无码区性色| www.精品视频| 亚洲最猛黑人xxxx黑人猛交| 色爽网免费视频| 成人午夜精品一级毛片| 欧美亚洲欧美| 91精品国产综合久久不国产大片| 波多野结衣一级毛片| 中文字幕欧美日韩高清| 最新国产在线| 内射人妻无码色AV天堂| 国产免费人成视频网| 亚洲欧洲日韩久久狠狠爱 |