?
利用AdaBoost-SVM集成算法和語塊信息的韻律短語識別*
通信地址:030006 山西省太原市山西大學計算機與信息技術學院Address:School of Computer & Information Technology, Shanxi University, Taiyuan 030006, Shanxi,P.R.China
錢揖麗1,2,馮志茹1
(1.山西大學計算機與信息技術學院,山西 太原 030006;
2.山西大學計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
摘要:提出一種基于漢語語塊結構并利用AdaBoost-SVM集成學習算法的漢語韻律短語識別方法。首先,對語料進行自動分詞、詞性標注和初語塊標注,然后基于結合緊密度獲取語塊歸并規則并利用規則對初語塊進行歸并,得到最終的語塊結構。其次,基于語塊結構并利用AdaBoost-SVM集成算法,構建漢語韻律短語識別模型。同時,該文利用多種算法分別構建了利用語塊信息和不利用語塊的多個模型,對比實驗結果表明,表示淺層句法信息的語塊能夠在韻律短語識別中做出積極有效的貢獻;利用AdaBoos-SVM集成算法實現的模型性能更佳。
關鍵詞:漢語語塊;AdaBoost-SVM;韻律短語;識別
1引言
語音合成是制造語音的技術。它涉及聲學、語言學、數字信號處理、計算機科學等多個學科技術,是中文信息處理領域的一項前沿技術。目前機器合成的語音與人講的話之間還有明顯的差距,其自然度還有待進一步的提高。韻律的差距是影響語音自然度的重要因素之一,合成的語音單調枯燥,且在節奏、輕重、停頓等方面的處理不當使其聽起來非常別扭。充分掌握和運用自然語言的韻律信息,是提高合成語音自然度的關鍵。
人在說話時往往會按照話語表達的核心、語義和發音的生理機能等,自然地在話語中添加必要的停歇。停歇的位置、時長等對于語義表達、語流的生動性和自然度等有著很大的影響。
語音上的停歇與文本的韻律結構緊密相關。目前比較公認的是將韻律結構從下到上分為三個級別,即:韻律詞、韻律短語和語調短語。在韻律結構邊界會出現長短不同的停歇,韻律層次越高,停歇的時間就越長。由于韻律詞往往與語法詞相對應,而語調短語則通常是一個完整的分句,因此,韻律短語是人們研究的重點。針對韻律短語識別研究,已有的工作有基于語言學規則的方法[1],這類方法復用度低且很容易受到人為因素的限制;有基于統計的方法,如基于二叉樹[2,3]、馬爾科夫模型[4]、最大熵模型[5]、決策樹[6]等等,這些方法使用的特征大多為詞、詞性等詞法特征,或者使用依賴人工標注的語法特征;還有規則和統計相結合的方法等,這些工作使得韻律結構劃分問題取得了一定的進展。
通過對大量語料的分析可知,韻律結構和句法結構之間存在著一定的聯系。韻律結構是以句法結構為基礎的,在句法上不能夠出現停頓的地方(如詞內音節之間),韻律上也不允許出現停頓;而在句法上的高層結構之間,特別是標點符號出現的地方,韻律上一定會出現停頓[7]。但是,由于漢語句子和句法結構的復雜性和靈活多變性,往往存在著一定的嵌套關系,且句法分析器的生成較為復雜,對隨機的句子進行分析得到的結果還不甚理想。為了降低句法分析難度,語塊在CoNLL-2000被提出。語塊分析能夠對句法分析起到很好的中介作用,并為后續的句法分析提供依據。另外,通過觀察和統計發現,人們在朗讀或說話的時候往往會自然地將句子切分成一定長度的語塊流,語塊的切分還會把句法上相關的詞進行整合,對韻律短語的識別起到積極作用。所以,本文在漢語語塊識別的基礎上,提出將語塊結構這種非遞歸嵌套的淺層句法結構應用于韻律短語的識別。
另外,要實現韻律短語的自動識別,就需要構造一個具有較高泛化能力的高精度學習機。但是,由于尋找一種較強的分類算法用于韻律短語識別較為困難,基于強、弱學習算法的等價性問題,利用集成學習方法能夠使多個準確率略高于隨機猜測的弱分類器進行加權融合,形成一個強學習算法,達到比強分類器更好的分類效果。所以,本文使用AdaBoost集成學習算法,用SVM方法訓練生成多個基分類器,再將多個基分類器用加權投票的方法集成,形成一個新的強分類器完成對韻律短語的預測。多項對比實驗結果顯示,基于語塊結構并利用AdaBoost-SVM集成學習算法構建的模型性能更佳。
2AdaBoost-SVM集成算法
實現韻律短語的自動識別,需要構造出一個具有較高泛化能力的高精度學習機。而領域知識和學習數據集本身及其分布對泛化能力的制約較大。傳統的數理統計與模式識別的方法需要盡可能精確地找到預測的規則,故構造精度高的學習機很難;而集成學習的思想大大改變了以往研究的思路。
集成學習是一種機器學習方法,對于分類問題其主要思想是:使用一些分類效率只需略高于隨機猜測的弱分類學習算法,學習生成多個不同的基分類學習機,然后將多個基分類學習機組合成強分類學習機[8],這個新形成的分類學習機具有較強的泛化能力。
從Schapire R E[9]證明一個強分類學習機可以被多個弱分類學習機通過某些方法得到開始,Boosting算法便得以出現。此后,Freund Y[10]提出了一種更有效的Boost-by-majority算法。但是,這兩種算法在解決實際問題時就會有許多問題產生。在使用弱分類學習算法前,必須先知道其最差正確率。1997年,Schapire R E和Freund Y[11]提出的AdaBoost算法解決了這一問題,且其算法效率與Boosting-by-majority相當,而且極易應用于實際問題中。之后,又提出了可以控制投票機制的AdaBoost.M1、AdaBoost.M2和AdaBoost.R算法。
雖然AdaBoost方法自適應能力強且實現簡單,可以提高任意一種弱分類器的分類精度,但卻特別容易受到噪聲數據的影響[12]。這是由于AdaBoost算法強調分類錯誤的數據更為重要,所以在每次訓練結束后會對訓練錯誤的數據賦予更大的權重。這種現象在迭代多次后更為明顯,因此導致最終的集成分類器效果下降。所以,為了保證和提高算法效果,本文在使用AdaBoost算法訓練時對數據權重的賦值加入了一個參數進行調節。
AdaBoost-SVM集成算法的主要思想是:選用SVM作為基分類器,再用AdaBoost算法進行迭代生成T個子SVM分類器,在迭代的過程中為保證每次生成的子SVM分類器之間的差異性,對每個子分類器輸入大小相同但內容包含前面分類器給出的錯分樣本的子訓練集。這樣使得算法更關注錯分樣本,并不像AdaBoost算法使用的是原始訓練數據集。最后將這些子SVM分類器按照加權投票的方法組合生成最終的集成分類器。
本文中的AdaBoost-SVM算法描述為:
輸入:訓練樣本集L={(x1,y1),(x2,y2),…,(xi,yi),…,(xN,yN)},其中xi∈Rn,yi={1,-1},迭代次數T,基分類算法SVM。
輸出:用于韻律短語識別的集成分類器H(x)。
初始化訓練集樣本權重φ1(xi)=1/N,i=1,2,…,N;迭代次數t=1。
Fort=1,…,T:

②在得到的訓練集Lt上利用SVM分類算法訓練生成一個基分類器ht:x→{-1,1},并計算分類器在整個訓練集L上的分類誤差:



⑤更新樣本權重:


其中,Zt為歸一化因子,β表示權重。
EndFor
輸出最終集成分類器:

3語塊結構及其處理
語塊是指介于詞匯和句子之間的模式化的短語。語塊的識別和分析屬于淺層句法分析的范疇。目前中文語塊的定義主要有兩大類:一類是從進行了句法標記的句法樹庫中直接抽取出句法樹的非終結點作為語塊[12,13],另一類是根據具體的中文語法現象對句子進行分析,構造出具有獨立性和完整性的語塊定義[14]。
本文建立的語塊屬于第二類,共分八種類型,分別是:名詞語塊(NC)、動詞語塊(VC)、形容詞語塊(JC)、副詞語塊(AC)、介詞語塊(PC)、連詞語塊(CC)、數量詞語塊(QC)和方位語塊(LC)。它們具備兩個特征:一是語塊之間無重疊,句子中的任一詞都只能屬于一個語塊,且語塊之間無嵌套,若有歧義則按照最長匹配的原則進行劃分[10];二是句子中的每個詞都必須進行語塊標注,且語塊內部不再進行細分。
初始語塊的標注方法為:首先根據漢語的句法特征總結歸納出各類語塊的具體特征,如:助詞“的”往往依附于其前面的成分,數詞和量詞往往是一個整體等;然后利用正則文法,設置不同的子文法限制,各子文法結合有限狀態自動機嵌套遞歸對文本中的句子進行正則匹配,從而完成初始語塊的標注。
例如,經過分詞和詞性標注的句子為:
我們/r 從/p 實際/n 出發/v,大力/d 種植/v 石榴/n,摸索/v 出/v 了/u 一/m 條/q 治理/v 水土/n和/c 治窮/v 致富/v 相/d 結合/v 的/u 成功/a 之/u 路/n
上述例句的初始語塊標注結果為:
【NC 我們/r】【PC 從/p】【NC 實際/n】【VC 出發/v】,【AC 大力/d】【VC 種植/v】【NC 石榴/n】,【VC 摸索/v】【VC 出/v了/u】【QC 一/m條/q】【VC 治理/v】【NC 水土/n】【CC 和/c】【VC 治窮/v】【VC 致富/v】【AC 相/d】【VC 結合/v的/u】【JC 成功/a之/u】【NC 路/n】其中,位于每個“【】”之間的部分就是語塊。
將各類語塊間的結合緊密度定義為:


(1) VC+NC→VC;
(2) JC+NC/VC→JC;
(3) QC+NC/JC→QC;
(4) CC+NC/VC/JC →CC;
(5) xC+LC→LC,xC表示任意語塊類型;
(6) PC+yC→PC,yC表示除介詞語塊PC外的其余任意語塊類型;
(7) AC+zC→AC,zC表示除連詞語塊CC外的其余任意語塊類型;
(8) mC+xC →mC,mC為以“的”結尾的任意語塊類型。
例如,3.2.1節中例句經過初始語塊歸并后的結果為:
【NC 我們/r】【PC 從/p實際/n】【VC 出發/v】,【AC 大力/d種植/v】【石榴/n】,【VC 摸索/v】【VC 出/v了/u】【QC 一/m條/q】【VC 治理/v水土/n】【CC 和/c治窮/v】【VC 致富/v】【AC 相/d結合/v的/u】【JC 成功/a之/u路/n】
在初始句子中,共有22個詞間邊界,它們都是潛在的韻律短語邊界;經過語塊標注和歸并后,最終待預測的邊界縮減至12個,共有10個結合緊密的詞間邊界被首先剔除。
4利用AdaBoost-SVM和語塊信息的韻律短語識別
考慮到SVM具有良好的泛化能力,且本文使用SVM主要用于AdaBoost算法的基分類算法,也就是說,只要SVM分類效果好于隨機猜測的結果就行,所以基分類器選取的特征為:當前語塊內容c、當前語塊的類型t、當前語塊所含詞的個數wlen和當前語塊所含字的個數clen。特征向量表示為:

另外,為了進行對比實驗,本文也實現了不利用語塊信息的分離器,選用的特征為:當前詞的內容w、當前詞的詞性p和當前詞的長度l。特征向量表示為:

使用LibSVM工具包作為SVM分類器進行實驗,由于SVM只能處理數值型的特征數據,而本文采用的特征:語塊內容、語塊類型、詞、詞性均為文本型數據,所以本文首先采用構建詞袋和詞性袋等方法,對數據集中的文本數據進行數值化處理,使其適用于SVM分類器的數據處理過程。
在利用2.2節中描述的算法進行韻律短語識別時,令yi=1表示當前邊界是韻律短語邊界,yi=-1表示當前邊界不是韻律短語邊界;在利用語塊信息時,xi表示不同類型的語塊;不使用語塊信息時,xi則表示語法詞。
為了使算法更精確,引入參數β來降低被正確分類個體上賦予權重減少的量,或被錯誤分類個體上賦予權重增加的量。β的值不宜過大,隨著β的增大算法的誤差有上升趨勢[16],所以本文將β設定為5。
(6) 上層時鐘源為2套設備,采用Windows time的SNTP協議,下一層采用NTP協議Meinberg工具,此時會出現下層時鐘不能同步上層時鐘源。因為上層2個時鐘源采用的SNTP協議,時鐘精度僅能保持在秒級,很容易相差50 ms,當2個時鐘源相差50 ms,下一層時鐘源采用NTP協議,將會停止向上一層時鐘源同步。
使用AdaBoost算法每生成一個子SVM分類器,該分類器就會在整個訓練集上測試其分類效果,根據測試結果更新訓練集上樣本的權重,若錯分則增加權重,若分類正確則降低權重,并由分類結果計算出每個分類器的權重αt。若分類錯誤的樣本較多,說明分類器的分類效果不好,αt的值較小;若分類錯誤的樣本較少,則說明分類器的分類效果好,αt的值較大。為了保證AdaBoost做種生成的集成分類器的效果,往往更多地集成比較好的分類算法,所以以αt作為各個基分類器ht的權重。
在進行韻律短語邊界預測時,對于一個測試語料集L,輸入未標注韻律結構的句子s訓練過程中生成的T個子SVM分類器ht,會生成T個韻律短語標注結果。若ht(x)=yi(i=1,…,N),代表第t個子SVM分類器分類正確,則對子SVM分類器ht投一票。最后,根據投票結果,將得票最多的分類作為AdaBoost-SVM對輸入句子s的集成分類結果。
5實驗結果及分析
實驗語料是來源于1998年《人民日報》的3 200個句子,經過分詞、詞性標注以及人工韻律結構標注,平均每句含有34.61個詞,10.36個韻律短語。隨機抽取2 800句作為訓練集,400句用于開放測試。
基于不同加工粒度的實驗語料,即顆粒大小為“詞”的詞標注語料和以“語塊”為單位的語塊標注語料,分別統計和計算自然邊界(詞邊界或語塊邊界)與韻律短語邊界的對應關系,得到結果如表1所示。

Table 1 Word/block boundary and prosodic phrase boundary
從表1可以看出:一方面,實驗語料經過分詞后,韻律邊界僅占所有詞邊界的19.55%;而進行語塊標注和歸并后,由于大量詞邊界被包含到語塊內部自然剔除,韻律邊界所占比例大幅提高到54.69%,語塊的引入剔除了大量的噪聲邊界,帶來了積極的影響。另一方面,語塊也會帶來一些負面影響,有4.23%的韻律短語邊界會因被歸并在語塊內部而丟失,這類情況大多是多個名詞或多個動詞同時出現導致的,可利用如長度約束機制等來解決。
在生成AdaBoost-SVM的過程中,本文將子訓練集大小設定為N*3/4(N為總訓練集的大小)并進行迭代,直到達到訓練次數或分類誤差εt>0.5為止。不同分類器個數下AdaBoost-SVM的韻律短語識別結果如表2所示。

Table 2 Comparison of recognition results
從表2中可以看出,隨著分類器個數的增加,AdaBoost-SVM的分類效果也越來越好。基分類器個數為5時韻律短語識別的F值為70.24%;當基分類器數增加到40個時,其F值提高到88.56%,提升了18.32%。但是,基分類器個數的增加也會增加時間開銷,導致訓練時間過長。
基于詞標注和語塊標注兩類語料,分別采用CRFs、SVM、AdaBoost-SVM方法構建實現了六個相應的韻律短語識別模型。各個模型的實驗結果對比情況如表3所示。

Table 3 Comparison of experimental results of different models
利用語塊前后CRFs、SVM、Adaboost-SVM這三類模型韻律短語識別F值的比較如圖1所示,同樣利用語塊時SVM算法與Adaboost-SVM算法的性能比較如圖2所示。

Figure 1 F-value comparison of 3 models before and after the use of chunks圖1 利用語塊前后三類模型F值的比較

Figure 2 Performance comparison between the SVM and the Adaboost-SVM圖2 SVM算法與Adaboost-SVM算法性能比較
從以上圖表中可以看出:(1)對于上述三種方法,引入并利用語塊信息之后,模型的總體性能都得到了明顯的提升,CRFs模型韻律短語識別F值提高了9.41%,SVM方法提高了8.35%,AdaBoost-SVM方法提高了11.87%;(2)利用語塊信息的模型,韻律短語識別的正確率都大大提高,這是通過語塊標注將大量的噪聲邊界自然剔除的結果;(3)同樣基于語塊結構,與SVM方法相比,Adaboost-SVM集成算法獲得了更好的效果,召回率、正確率都得到了大幅的提高,其F值提高了約18%。
綜上所述,反映淺層句法信息的語塊結構能夠被應用于漢語韻律結構的分析,并做出積極有效的貢獻;而且,集成學習方法的識別效果高于其他強分類器的識別效果。通過語塊結構的標注和歸并,實現了對語料中結合緊密語法詞的整合,從而準確縮小了待識別邊界的范圍。另外,由于語塊的粒度較大,選用語塊特征相當于縮小了訓練空間上的大小,模型訓練的時間開銷也會明顯縮減,尤其在使用集成學習算法時,表現更為明顯。
6結束語
正確劃分句子的韻律結構對于提高機器合成語音的自然度具有重要的意義和作用。本文基于語塊結構并利用AdaBoost-SVM算法實現了一個漢語韻律短語識別模型。首先,對語料進行自動分詞、詞性標注、初語塊標注和歸并處理,建立以“語塊”為單位的語料。然后,基于上述語塊標注語料并利用AdaBoost-SVM集成算法訓練生成最終的分類器用于漢語韻律短語的識別。本文利用CRFs、SVM、AdaBoost-SVM共三種算法分別構建了利用語塊信息和不利用語塊的六個韻律短語識別模型,并將測試結果進行了對比。實驗結果表明,不論是上述哪種方法,引入并利用語塊信息之后,其韻律短語識別效果都能得到明顯的提升,反映淺層句法信息的語塊能夠做出積極有效的貢獻。同時,利用AdaBoos-SVM集成算法實現的模型性能更佳,其韻律短語識別的F值為88.56%,比SVM模型提高了18%左右。
由于集成學習算法只要求基分類器的效果大于隨機猜測的即可,故本文中SVM算法選用的特征僅限于當前詞的內容、詞性和長度,沒有考慮和利用上下文語境信息。而且,在利用LibSVM對數據進行訓練時,耗時較長,導致AdaBoost-SVM算法的時間復雜性仍然較高。另外,利用正則匹配的方法進行語塊的識別,不可避免地會使部分韻律短語邊界包含在語塊結構的內部。今后的研究中會針對以上問題進行深入的研究與改進。
參考文獻:附中文
[1]Cao Jian-fen.Prediction of prosodic organization based on grammatical information[J].Journal of Chinese Information Processing, 2003,17(3):41-46.(in Chinese)
[2]Xun En-dong,Qian Yi-li,Guo Qing, et al.Using binary tree as pruning strategy to identify prosodic phrase breaks[J].Journal of Chinese Information Processing, 2006,20(3):1-5.(in Chinese)
[3]Qian Yi-li,Xun En-dong.Prediction o f speech pauses based on punctuation information and statistical language model[J].Pattern Recognition and Artificial Intelligence, 2008,21(4):541-545.(in Chinese)
[4]Taylor P,Black A W.Assigning phrase breaks from part-of-speech sequences[J].Computer Speech & Language,1998,12(2):99-117.
[5]Li Jian-feng,Hu Guo-ping,Wang Ren-hua.Prosody phrase break prediction based on maximum entropy model[J].Journal of Chinese Information Processing, 2004,18(5):56-63.(in Chinese)
[6]Wang Yong-xin,Cai Lian-hong.Syntactic information and analysis and prediction of prosody structure[J].Journal of Chinese Information Processing, 2010,24 (1):65-70.(in Chinese)
[7]Cao Jian-fen.The linguistic and phonetic clues in Chinese prosodic segmentation[C]∥Proc of the 5th National Conference on Modern Phonetics(PCC’2001),2001,:176-179.(in Chinese)
[8]Li Xiang.Application and research of Boosting classification algorithm[D].Lanzhou:Lanzhou Jiaotong University,2012.(in Chinese)
[9]Schapire R E.The strength of weak learnability[J].Machine Learning,1990,52:197-227.
[10]Freund Y.Boosting a weak learning algorithm by majority[J].Information and Computation,1995,121(2):256-285.
[11]Freund Y,Schapire R E.A decision-theoretic generalization of on-line learning and an application to boosting[J].Journal of Computer and System Sciences,1997,55(1):119-139.
[12]Zhou Qiang,Zhan Wei-dong,Ren Hai-bo.Building a large scale Chinese functional chunk bank [C]∥Proc of the 6th National Conference on Computational Linguistics (JSCL’2001),2001:102-107.(in Chinese)
[13]Zhou Qiang,Li Yu-mei.Chinese chunk parsing evaluation tasks[J].Journal of Chinese Information Processing, 2010,24(1):123-128.(in Chinese)
[14]Li Su-jian,Liu Qun.Research on definition and acquisition of chunk[C]∥Proc of the 7th National Conference on Computational Linguistics (JSCL’2003),2003:110-115.(in Chinese)
[15]Qian Yi-li,Feng Zhi-ru.Identification of Chinese prosodic phrase based on chunk and CRF[J].Journal of Chinese Information Processing, 2014,28(5):32-38.(in Chinese)
[16]Zhang Chun-xia.Research on the algorithm of ensemble learning[D].Xi’an:Xi’an Jiaotong University,2010.(in Chinese)
[1]曹劍芬.基于語法信息的漢語韻律結構預測[J].中文信息學報,2003,17(3):41-46.
[2]荀恩東,錢揖麗,郭慶,等.應用二叉樹剪枝識別韻律短語邊界[J].中文信息學報,2006,20(3):1-5.
[3]錢揖麗,荀恩東.基于標點信息和統計語言模型的語音停頓預測[J].模式識別與人工智能,2008,21(4):541-545.
[5]李劍鋒,胡國平,王仁華.基于最大熵模型的韻律短語邊界預測[J].中文信息學報,2004,18(5):56-63.
[6]王永鑫,蔡蓮紅.語法信息與韻律結構的分析與預測[J].中文信息學報,2010,24 (1):65-70.
[7]曹劍芬.漢語韻律切分的語音學和語言學線索[C]∥新世紀的現代語音學—第五屆全國現代語音學學術會議,2001:176-179.
[8]李想.Boosting分類算法的應用與研究[D].蘭州:蘭州交通大學,2012.
[12]周強,李玉梅.漢語塊分析評測任務設計[J].中文信息學報,2010,24 (1):123-128.
[13]周強,詹衛東,任海波.構建大規模的漢語語塊庫[C]∥自然
語言理解與機器翻譯—全國第六屆計算語言學聯合學術會議,2001:102-107.
[14]李素建,劉群.漢語組塊的定義和獲取[C]∥語言計算與基于內容的文本處理—全國第七屆計算語言學聯合學術會議,2003:110-115.
[15]錢揖麗,馮志茹.基于語塊和條件隨機場(CRFs)的韻律短語識別[J].中文信息學報,2014,28(5):32-38.
[16]張春霞.集成學習中有關算法的研究[D].西安:西安交通大學,2010.

錢揖麗(1977-),女,山西平遙人,博士,副教授,CCF會員(E200022706M),研究方向為自然語言處理。E-mail:qyl@sxu.edu.cn
QIAN Yi-li,born in 1977,PhD,associate professor,CCF member(E200022706M),her research interest includes natural language processing.

馮志茹(1988-),女,山西代縣人,碩士,研究方向為自然語言處理。E-mail:fengzhiru0321@126.com
FENG Zhi-ru,born in 1988,MS,her research interest includes natural language processing.
Recognition of Chinese prosodic phrasesbased on AdaBoost-SVM algorithm and chunk information
QIAN Yi-li1,2,FENG Zhi-ru1
(1.School of Computer & Information Technology,Shanxi University,Taiyuan 030006;
2.Key Laboratory of Computational Intelligence and
Chinese Information Processing of Ministry of Education,Shanxi University,Taiyuan 030006,China)
Abstract:We propose a recognition method for Chinese prosodic phrases based on Chunk and the AdaBoost-SVM algorithm. Firstly, the initial chunks are marked on the corpus of automatic word segmentation and the part of speech tagging, and then they are merged using the rules based on the closeness between initial Chunks. Secondly, based on the block structure and the AdaBoost-SVM integrated algorithm, a Chinese prosodic phrase recognition model is constructed. Meanwhile we utilize various algorithms to build different models which use or not use Chunk information. Comparative experimental results show that the shallow syntactic information chunks make a positive and effective contribution to Chinese prosodic phrase recognition, and the performance of the AdaBoost-SVM model is better.
Key words:Chinese chunk;AdaBoost-SVM;prosodic phrase;recognition
作者簡介:
doi:10.3969/j.issn.1007-130X.2015.12.020
中圖分類號:TP391.43
文獻標志碼:A
基金項目:國家自然科學基金資助項目(61175067);國家自然科學青年基金資助項目(61005053,61100138);山西省科技基礎條件平臺建設項目(2015091001-0102);山西省青年科技研究基金資助項目(2012021012-1);山西省回國留學人員科研資助項目(2013-022)
收稿日期:修回日期:2015-10-19
文章編號:1007-130X(2015)12-2324-07