999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于依存信息融合特征的漢語韻律預測

2018-01-18 09:20:12,,
計算機工程 2018年1期
關鍵詞:句法特征信息

,,

(重慶郵電大學 自動化學院,重慶 400065)

0 概述

韻律預測是語音合成系統中的關鍵技術,韻律預測質量的好壞直接影響合成語音的自然度和文字語義層面上意思表達的準確性。廣義的韻律包括重音、節奏和語調這些從感知語音中所抽象出的韻律結構。狹義的韻律則表現為語音的節奏感,節奏感主要涉及人說話時產生的組詞斷句的模式。將該模式抽象出來,表現為韻律詞的構成以及各層級韻律成分邊界的界定,在韻律預測中表現為給每個語法詞邊界確立合適的韻律停頓等級[1]。本文根據狹義韻律的含義,主要討論與“節奏”相關的韻律結構,將韻律結構層次劃分為3個層級,即韻律詞、韻律短語和語調短語,它們是由小到大的層層嵌套的關系。

目前關于韻律結構的預測研究,大多研究者主要從預測方法和預測特征這2個角度進行對比和研究。預測方法的研究包括基于最大熵模型[2]、規則驅動[3]、統計模型[4]、條件隨機場[5]等方法。預測特征主要包括從文本信息中提取出的淺層和深層的2種特征。淺層特征如詞長、詞性[6-8]、標點符號[9]等簡單的語法特征。雖然此類特征在經過簡單的文本分析后,能直觀地從文本分析結果中提取出來。但由于其涵蓋的語言信息較表面化,且不能體現句子中各語言單元之間更深層次的語義關系。而對于文本韻律層級的預測,主要是需要保證各韻律單元的語義完整[10]。若單純地將此類特征用于韻律層級預測,則容易造成各韻律層級的劃分歧義,并且不能保證韻律單元的語義完整性。因此,針對此類歧義問題,需要將利用的預測特征上升到文本更深層面,如語法樹[11]和依存句法[12]等更深層次的句法特征。但目前對于深層特征的研究,由于每種特征所歸納和涵蓋的深層句法信息都是單一的,因此導致單特征的韻律預測能力有限。若組合多個單特征時,則相互之間又會產生一定的負作用,這又為韻律預測帶來很多弊端。

根據深層次句法信息與韻律結構之間的關系,本文從漢語文本的依存句法分析結果中自動提取出依存句法單特征,并對其中關鍵特征如內弧含弧數、內弧跨度、內弧方向等依存句法單特征進行融合,得到一種定義為“相對內弧區間”的依存信息融合特征。此特征能提高深層韻律預測特征對依存句法各類信息的利用效率,從而促使韻律層級的預測結果更能表現各韻律單元涵蓋的語義內容,同時提高各韻律層級的預測精度。

本文采用2 516句真實錄音語料轉寫成的文本語料,在對文本進行淺層語法信息標注后,根據真實錄音進行韻律結構層次標注。選擇其中韻律層次標注一致性最高的2 100句文本,對語料進行淺層語法特征及深層句法特征自動標注,同時加入韻律層級標注信息生成語料庫。然后,分別利用C4.5算法實現基于依存句法單特征、依存信息融合特征、淺層語法和深層句法相結合這3種形式的韻律層級預測。

1 依存句法與漢語韻律結構的關系

依存句法主要是通過剖析語言單位之間的依存關系,從而揭示句子的句法結構。依存句法的概念可以追溯到1959年法國語言哲學家Lucien.Tesniere的著作《結構句法基礎》[13-14]。該句法認為在一個句子中述語動詞是支配其他成分的核心,它本身不受其他成分支配,所有被支配的成分都是以一種相對應的依存關系來從屬于它們的支配者[15]。而言語單元之間的語義關聯關系就在這類支配關系上得以體現。簡要地說,依存句法分析主要是通過識別句子中的主謂賓定狀補等語法成分,并分析各成分之間的關系。本文利用哈工大社會計算與信息檢索研究中心研發的語言技術平臺(LTP)對漢語文本進行依存句法分析[16],在對文本進行依存句法分析后產生的依存關系共15種,如主謂關系、動賓關系、定中等關系等,能夠全面覆蓋各種語法單元之間的依存關系。本文采用的0~3級停頓等級,分別對應韻律詞內部、韻律詞、韻律短語和語調短語這些韻律層級的停頓等級劃分,作為相鄰兩詞之間的邊界特征。其中韻律詞內部表示內部沒有停頓的一組詞。圖1表示一個經過分詞和詞性標注的句子依存分析圖結果及其停頓等級標注。其中,ATT、SBV、ADV等符號表示依存句法分析標注關系;1、2、3等數字表示分詞后的詞ID序列號;v、n等字母表示詞性;B0、B1、B2表示語法詞邊界,韻律詞邊界、韻律短語邊界。

圖1 經過依存分析和韻律停頓等級標注的句子

依存句法分析是從句子更深層面出發,對句子中各成分之間的語義關聯內容進行分析。從圖1可看出,相鄰兩詞之間的停頓等級越高,依存圖中通過該標注點上方的弧數可能就越少,并且相鄰兩詞上方最內側弧的跨度越小代表其關系越緊密,其停頓等級可能越低。同時,根據文獻[5]數據統計也證實,連接點上方的弧數以及內弧跨度與韻律層級之間確實存在著一定的關系。因此,從依存句法信息中提取的依存特征可以作為深層次韻律層級預測的特征,從而促使韻律層級的預測結果更能表現句子暗含的語義內容。

2 依存信息融合特征的提取方法

2.1 依存句法單特征

如圖1依存關系所示,將連接2個語法單元的帶箭頭弧線叫做依存關系弧。依存關系弧表示一個由關系弧起點所指的語法單元依存于弧箭頭所指的那個語法單元。弧上方標注的兩語法單元之間的依存關系類型叫做依存弧類型。根據依存句法公理[12],從圖1中可以看出依存關系弧之間是內外套疊的,且不存在交叉。設經過分詞的句子W表示為詞序列w1,w2,…,wk,…,wL。1,2,…,K,…,L為每個語法詞的ID序列號。將任意2個相鄰詞對之間的邊界稱為連接點,連接點上方最內部的一條弧稱為內弧。將依存關系弧所連接的語法詞ID序列號相減得到弧跨度。內弧的弧跨度稱為內弧跨度。連接點上方依存關系弧的總的數量稱為依存弧總數。

目前對依存信息與韻律層級關系的研究,主要是針對內弧跨度和弧總數等單一特征對韻律層級進行預測。雖然這些依存特征能夠對韻律層級預測有一定的韻律預測作用,但多個特征組合用于分類預測時,相互之間會產生一定的負作用,導致預測效果變差。

為了能夠提高依存信息對于韻律層級預測的能力,需要提高依存句法各類信息的利用效率并找到一種恰當的表現形式使其成為適合韻律層級預測的深層次韻律預測特征。因此,本文定義一種新的依存特征——相對內弧區間,其融合了多個依存句法單特征作為深層次韻律預測特征。

2.2 相對內弧區間特征的提取方法

假設一個相鄰詞對的上方內弧區間表示為(m,n),圖2為例句中ID為11的“內”和ID為12的“將”2個語法單元之間的連接點上方內弧的弧區間,表示為(11,13)。

圖2 相鄰兩詞之間連接點對應的內弧

從圖2中連接點上方的內弧區間可以得出,其內弧跨度為2,弧方向為向右,連接點左側的詞距內弧最左詞的距離為0,連接點左側的詞距內弧最左詞的距離1,其內弧含弧數為1。可以看出,內弧區間含有內弧跨度、內弧方向等依存句法單特征信息。但由于語料中各句子長度不一,若用ID表示弧區間會產生非常多的可能性,且這些由不同的ID序列組合成的弧區間又不具備作為韻律預測特征的一般性,這樣不僅會導致數據稀疏問題,還可能造成特征信息失效問題。因此,本文改進內弧區間,提出一種依存信息的融合特征——相對內弧區間,便于更好地進行韻律層級預測,相對內弧區間表示方法如圖3所示。其中,橫坐標x表示分詞ID坐標;縱坐標y表示以目標相鄰詞對的左側詞語法詞ID為O點的分詞ID坐標。

圖3 相對內弧區間表示方法

從圖3可以看出,相對內弧區間可以體現上述所有的單特征。相對內弧區間將當前連接點左側的詞wi的ID序列號i看作相對于連接點的O點,連接點右側詞wi+1的相對序號為1。O點左側的語法單元的坐標是x軸的負方向,O點右側的語法單元的坐標是x軸的正方向。原連接點的內弧區間(m,n),1≤min(m,n)≤i,i+1≤max(m,n)≤L轉化為相對內弧區間(k,p),k=m-i,p=n-i。從圖3可以得出,句中原ID序列為11的“內”和ID為12的“將”的相對坐標變為0和1,這2個相鄰詞對之間連接點上方的相對內弧區間表示為(0,2)。

相對內弧區間信息不僅融合了連接點左右兩側的詞距內弧最左右詞的距離、內弧跨度、內弧含弧數和內弧方向等依存信息,而且更能直觀地表現內弧起止點相對于連接點的位置信息。該表示方式不僅可以避免由于句式長短變化所帶來的數據稀疏問題,而且更為恰當地把依存信息轉化為語法單元所攜帶的韻律預測特征表示。為方便研究,筆者同時從相對內弧區間中抽取出了不帶方向的相對內弧區間(表1的F10特征),如上述例句在圖2中ID序列號為13的“超過”和ID序列號為14的“60億”這2個語法單元之間的連接點上方的相對弧區間表示為(1,0),則連接點上方不帶方向的相對內弧區間表示為(0,1)。

由各依存特征的定義,筆者從依存結果中抽取出的依存句法單特征(F1~F7)和依存信息融合特征(F8~F10)表示及其含義如表1所示。

表1 例句的依存特征自動提取結果

以上依存特征都是對于依存句法分析結果的不同層面的體現。為了找到在韻律層級預測過程中對依存句法各類信息最有效率的使用方法,本文將開展對不同依存特征及其組合的韻律預測實驗。

3 依存特征的自動提取及語料構建

3.1 依存特征提取的Java程序實現

HanLP是由一系列自然語言處理模型和算法組成的Java工具包。本文參考LTP的文本分詞協議,調用HanLP移植的基于神經網絡的高性能LTP依存句法分詞器接口(IDependencyParser函數)對語料文本進行依存句法單特征提取,再將依存句法單特征進行融合得到依存信息融合特征。依存特征提取的程序處理流程如圖4所示。

圖4 依存特征提取的程序處理流程

以圖1中的句子為例,表2是從例句中相對于每個語法詞之間的連接點自動抽取出的依存特征結果。

表2 例句的依存特征自動提取結果

為方便特征的統計和表示,特征由相鄰詞對左側的詞攜帶。由于最后一個語法單元上方沒有依存弧信息,因此其攜帶的特征類型為NULL,表2中省略了其特征結果的表示。

3.2 語料構建

本文采用的語料共有2 516個句子。該語料是根據真實語音語料轉寫的文本,語音的發音速度為正常朗讀速度。實驗語料共有86 427個漢字,56 858個語法詞,覆蓋了漢語普通話中所有音調和音節及各類詞性,語句平均長度為34個字,每句平均含有23個語法詞。

韻律結構層次由人工參照真實語音語料進行標注,詞性標注參考863詞性標注集,依存分析特征標注參考哈工大信息檢索研究室的依存標注規范[16]。首先,文本語料經過軟件進行分詞、詞性標注,再由2名經過培訓且有經驗的標注人員通過聽取語音語料錄音,給文本標注上相應的韻律停頓等級信息,標注一致率達到94.5%。選取其中標注結果一致的2 100條語句,進行依存句法分析和依存特征自動提取和標注。下面展示出含有詞性、詞長、內弧相對區間及韻律停頓等級的語料標注內容。上述例句的語料標注結果如下:

007-001/m[1]世界/n/2/ATT/(0,1)#B1[2]人口/n/2/SBV/(0,1)#B1[3]增長/v/2/ATT/(0,1)#B1[4]形勢/n/2/(0,2)#B2[5]依然/d/2/ADV/(0,1)#B1[6]嚴峻/a/2/WP/(1,0)#B0[7],/wp/0/COO/(2,-1)#B3[8]專家/n/2/SBV/(0,1)#B1[9]預計/v/2/VOB/(4,0)#B2[10]本世紀/nt/3/ATT/(0,1)#B0[11]內/nd/1/ADV/(0,2)#B2[12]將/d/1/ADV/(0,1)#B1[13]超過/v/2/VOB/(1,0)#B1[14]60億/m/3/WP/(-8,1)#B0[15]。/wp/0/NULL/NULL#B3

4 實驗測試

本文首先使用相對內弧區間特征及其他單一信息的依存特征進行韻律層級預測,以探索眾多依存特征中有利于韻律層級預測的特征。然后將各種依存特征進行組合,從而使依存信息的預測效果發揮到最好。最后將深層次句法特征和淺層次語法特征相結合進行預測,利用全面的文本信息得到更好的韻律層級預測效果。

4.1 預測結果評價參數

本文將測試集的預測結果和正確的分類結果進行對比。采用的評價參數為算法準確率(Precision)、召回率(Recall)和綜合參數(F-Score)。

定義的評價參數具體如下:

其中,Cij(i=1,2,3,4)表示人工標注的真實分類類型為Bi,而其邊界的預測類型為Bj的邊界數目。

4.2 特征選取測試

根據抽取的特征及其組合,利用決策樹C4.5算法[17]進行實驗,比較不同訓練集上的評價參數。在訓練時,設置訓練數據與測試數據的比例關系為4∶1,從訓練語料中隨機抽取400句、800句、1 200句、1 600句作為不同數據規模的訓練集分別進行訓練,再統計其在測試集上的結果,得到不同規模的訓練語料的實驗結果。

由于B0層級劃分主要依靠于語法詞分詞信息,而B3級主要依賴于標點符號來劃分,因此本文只列出對語法和句法特征依賴程度較高的B1級和B2級韻律層級對于不同特征及其組合的實驗結果。

4.2.1 依存特征及其組合選取測試

表3展示了不同依存特征及其組合在不同規模的訓練集上的準確率。可以看出,當訓練數據規模較小時,無方向的相對內弧區間及內弧跨度的預測能力差別不大。當訓練規模變大時,內弧跨度預測能力雖然有所提升,但是由于其涵蓋的信息量較少,因此提升幅度有限。而隨著訓練數據規模變大,相對內弧區間對2級韻律層級的預測效果提升明顯。其中相對內弧區間預測效果在B2級預測效果達到最好,比跨度特征高8%左右。從表3中各特征之間的組合預測效果可以看出,選取的樣本單特征數量超過2個以上時,若再加入其他單特征,則會導致預測精確度降低,甚至比單個特征的效果差很多。其原因是當選取的樣本分類特征增加較多時,會產生算法復雜度增加和分類過純問題,最終使得整體準確率降低。

表3 不同依存特征及其組合在不同規模測試集上的準確率 %

對比以上依存特征及其組合的預測能力,相對內弧區間與內弧類型的組合對2個韻律層級的預測效果達到最佳,該組合比內弧跨度和內弧類型的組合在B1層級、B2層級的準確率分別高出6.6%、9.5%。

4.2.2 依存特征與淺層特征組合測試

表4展示了淺層語法特征詞長WLEN、詞性POS和相對內弧區間F9、內弧跨度F3、內弧類型F1與淺層語法特征組合在訓練集4上的測試結果。可以看出,在淺層語法特征的基礎上加入2種依存特征組合進行測試時,預測準確率在原來的基礎上有很大幅度的提升。其中相對內弧區間和內弧跨度的組合在兩級韻律層級表現效果最好,B1層級、B2層級分別提高了5.8%、15.4%,且召回率和綜合參數也高于淺層特征和依存單特征組合,說明本文選取的依存信息融合特征不僅能夠改善淺層語法特征在各韻律層級的預測準確率,而且更能發揮依存句法信息對于韻律層級的預測作用。

表4 淺層語法與依存特征相結合的測試結果對比 %

5 結束語

通過分析依存句法單特征及其組合作為深層韻律層級預測特征的不足,本文提出依存信息融合特征。該特征在預測性能上優于其他含單一信息的依存特征。由于這種涵蓋信息量大的融合特征表示方法簡單,因此不容易導致分類過純或算法增加復雜度的問題。在與淺層語法信息相結合時,預測效果也優于其他依存句法單特征的組合。

由于本文研究的重點是在韻律預測過程中提取最能提高韻律預測精度的依存句法信息作為預測特征,因此本文使用決策樹C4.5算法對韻律層級進行分類預測。實際上,韻律層級的預測與上下文信息有著密切聯系,而決策樹C4.5算法不能充分利用此類上下文信息。因此,下一步將結合預測特征與上下文信息,提高預測效果。

[1] 曹劍芬.基于語法信息的漢語韻律結構預測[J].中文信息學報,2003,17(3):41-46.

[2] ZHANG Xiaonan,XU Jun,CAI Lianhong.Prosodic Structure Prediction Based on Maximum Entropy Model with Error-driven Modification[C]//Proceedings of International Symposium of Chinese Spoken Language Processing.Singapore:[s.n.],2006:149-160.

[3] RAMSHAW L A,MARCUS M P.Text Chunking Using Transformation-based Learning[J].Text Speech & Language Technology,2009,11:82-94.

[4] 錢揖麗,荀恩東,宋 柔.基于SLM的二叉樹在語音停頓預測中的應用[J].計算機工程,2006,32(19):23-25,28.

[5] 錢揖麗,馮志茹.基于語塊和條件隨機場(CRFs)的韻律短語識別[J].中文信息學報,2014,28(5):32-38.

[6] DONG Honghui,TAO Jianhua,XU Bo.Prosodic Word Prediction Using the Lexical Information[C]//Pro-ceedings of International Conference on Natural Language Processing & Knowledge Engineering.Washington D.C.,USA:IEEE Press,2005:189-193.

[7] 裴雨來,邱金萍,王洪君,等.基于詞類序列的漢語語句韻律結構預測[J].清華大學學報(自然科學版),2009,49(S1):1339-1343,1355.

[8] 王永鑫,蔡蓮紅.語法信息與韻律結構的分析與預測[J].中文信息學報,2010,24(1):65-70.

[9] 姑麗加瑪麗·麥麥提艾力,艾斯卡爾·肉孜,古力米熱·依瑪木,等.結合分層條件隨機場與標點符號的維吾爾語韻律邊界預測[J].計算機工程,2015,41(11):299-302,307.

[10] 朱維彬,呂士楠.基于語義的語音合成——語音合成技術的現狀及展望[J].北京理工大學學報,2007,27(5):408-412.

[11] 楊鴻武,王曉麗,陳 龍,等.基于語法樹高度的漢語韻律短語預測[J].計算機工程與應用,2010,46(36):139-143,167.

[12] 邵艷秋,穗志方,韓紀慶,等.基于依存句法分析的漢語韻律層級自動預測技術研究[J].中文信息學報,2008,22(2):116-123.

[13] 劉 挺,馬金山,李 生.基于詞匯支配度的漢語依存分析模型[J].軟件學報,2006,17(9):1876-1883.

[14] TESNIERE L.Elements of Structural Syntax[M].Amsterdam,Holland:John Benjamins Publishing Com-pany,2015.

[15] 周 明,黃昌寧.面向語料庫標注的漢語依存體系的探討[J].中文信息學報,1994,8(3):35-52.

[16] CHE Wanxiang,LI Zhenghua,LIU Ting.LTP:A Chinese Language Technology Platform[C]//Proceedings of the 23rd International Conference on Computational Linguistics:Demonstrations.New York,USA:ACM Press,2010:13-16.

[17] 欒麗華,吉根林.決策樹分類技術研究[J].計算機工程,2004,30(9):94-96,105.

猜你喜歡
句法特征信息
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結構與英語句法配置
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产日本一区二区三区| 国产成人亚洲精品蜜芽影院| 国产精品浪潮Av| 欧美第一页在线| 国产成人无码Av在线播放无广告| 国产日韩精品欧美一区喷| 91精品国产91久无码网站| 天天躁狠狠躁| 日本一区二区不卡视频| 久久黄色一级视频| 日本伊人色综合网| 国产成人一区免费观看| 亚洲第一中文字幕| 男女精品视频| 重口调教一区二区视频| 日本欧美午夜| 青青草国产免费国产| 中国成人在线视频| 国产十八禁在线观看免费| 国产精品毛片一区视频播| 亚洲天堂网在线观看视频| 国产毛片不卡| 亚洲天堂日韩av电影| 亚洲一区精品视频在线| 四虎精品国产AV二区| 四虎影视无码永久免费观看| 国产精品久久久久无码网站| 亚洲一区国色天香| 伊人色天堂| 欧美中文字幕一区二区三区| 99热这里都是国产精品| 亚洲侵犯无码网址在线观看| 91在线中文| 免费人成又黄又爽的视频网站| 57pao国产成视频免费播放 | 久久久久久午夜精品| 国产香蕉在线视频| 国产乱子伦视频在线播放| 欧美国产另类| 国产午夜福利亚洲第一| 亚洲香蕉在线| 国产午夜福利亚洲第一| 婷婷六月在线| 日韩小视频在线播放| 欧美日韩中文国产| 少妇极品熟妇人妻专区视频| 全裸无码专区| 四虎永久免费网站| 在线另类稀缺国产呦| 全部毛片免费看| 夜夜操国产| 这里只有精品免费视频| 国产男女免费完整版视频| 成人精品区| 国产微拍精品| 欧美在线综合视频| 国产成人综合久久| 午夜在线不卡| 亚洲av综合网| 欧美日韩国产精品综合| 97在线碰| 丰满人妻中出白浆| 91年精品国产福利线观看久久 | 伊人中文网| 亚洲日韩国产精品无码专区| 在线观看亚洲精品福利片| 91在线播放国产| 91美女视频在线| 日韩国产 在线| 美女免费精品高清毛片在线视| 亚洲日本精品一区二区| 色综合天天综合| 亚洲天堂2014| 在线观看国产精品日本不卡网| 青青久在线视频免费观看| 免费看美女毛片| 日本国产精品一区久久久| 永久免费无码成人网站| 亚洲不卡影院| 在线无码av一区二区三区| 色婷婷成人网| 成人免费黄色小视频|