999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于子詞鏈的中文新聞廣播故事自動(dòng)分割

2009-01-01 00:00:00楊玉蓮

(西北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院, 西安 710072)

摘 要:提出了一種基于子詞鏈的中文新聞廣播故事自動(dòng)分割方法。利用中文同音異形字眾多、詞典開放、分詞多樣和組詞靈活等特點(diǎn),在新聞廣播的語音識(shí)別抄本上采用中文子詞單元(漢字和音節(jié))創(chuàng)建子詞鏈,進(jìn)行中文新聞廣播故事的自動(dòng)分割,有效地解決了在傳統(tǒng)詞鏈方法中由于語音識(shí)別錯(cuò)誤(特別是詞典未收錄詞匯)導(dǎo)致的相關(guān)聯(lián)詞之間無法匹配的問題。同時(shí),利用各級(jí)詞匯表示單元之間的互補(bǔ)性,如詞的表義確定性和子詞對(duì)語音識(shí)別錯(cuò)誤的魯棒性,對(duì)各級(jí)詞匯進(jìn)行融合,利用不同級(jí)別詞匯表示單元的優(yōu)勢(shì)進(jìn)一步提高中文新聞廣播故事分割的性能。在TDT2中文標(biāo)準(zhǔn)新聞廣播語料庫上進(jìn)行的實(shí)驗(yàn)表明,基于一元漢字子詞鏈分割方法的Fmea-sure比傳統(tǒng)詞鏈方法提高了6.06%。基于一元和二元漢字子詞鏈邊界強(qiáng)度的融合可以使Fmea-sure進(jìn)一步提高2.55%。基于投票法的融合可以使Fmeasure比傳統(tǒng)詞鏈方法提高9.04%。

關(guān)鍵詞:子詞;詞鏈;主題分割;故事分割;信息檢索;語音文件檢索中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):10013695(2009)02058304

Subwordbased lexical chaining for automatic story segmentation in

Chinese broadcast news

YANG Yulian,XIE Lei

(School of Computer Science, Northwestern Polytechnical University, Xi’an 710072, China)

Abstract:This paper applied Chinese subword representations(character and syllable ngrams) into chainingbased automa-tic story segmentation of Chinese broadcast news. It showed the robustness of Chinese subwords against speech recognition errors, especially OOV(out of vocabulary)words, in lexical term matching in erroneous speech recognition transcripts.Proposed a subword chaining approach that links repetitions of Chinese character/syllable ngram units.Also proposed to integrate diffe-rent lexical scales in chainingbased story segmentation since different lexical representations were complimentary. For example, words are more semantically specific and subwords are more robust to speech recognition errors. Experiments on speech recognition transcripts of TDT2 Mandarin corpus show that character unigram performs the best among all scales, which exhi-bits an Fmeasure improvement of 6.06% over words. Fusion of different lexical scales can bring further improvement. For example, voting from different scales achieves an Fmeasure gain of 9.04% over words.

Key words:subword; lexical chaining; topic segmentation; story segmentation; information retrieval; spoken document retrieval(SDR)

0 引言

新聞廣播故事自動(dòng)分割是一種能夠自動(dòng)檢測(cè)不同新聞廣播故事之間的邊界,將新聞廣播節(jié)目分割成不同故事單元的技術(shù)。目前的新聞廣播索引與檢索技術(shù)均以獨(dú)立主題的音/視頻文件為前提,隱性假設(shè)一個(gè)新聞主要討論一個(gè)話題。新聞節(jié)目以音/視頻流為載體,往往涉及多個(gè)新聞故事。因此基于整個(gè)新聞節(jié)目進(jìn)行的檢索將很難滿足用戶對(duì)準(zhǔn)確度的要求,在對(duì)新聞故事進(jìn)行分類、組織和管理之前,必須通過故事自動(dòng)分割技術(shù)將新聞廣播節(jié)目分成獨(dú)立的故事單元,從而實(shí)現(xiàn)對(duì)新聞廣播的檢索。

對(duì)新聞節(jié)目進(jìn)行人工分割既費(fèi)時(shí)又費(fèi)力,尤其是隨著互聯(lián)網(wǎng)的發(fā)展、有線電視以及數(shù)字電視的普及,各種音/視頻新聞信息海量增長(zhǎng),使得對(duì)新聞節(jié)目進(jìn)行人工分割幾乎是一個(gè)不可能完成的任務(wù)。自動(dòng)化新聞故事分割可以從新聞廣播的音頻信息、視頻信息和詞匯信息(語音識(shí)別抄本和嵌入式視頻字幕識(shí)別結(jié)果)中獲取新聞故事的邊界線索,如利用音頻中的基頻重置和語音停頓[1,2]、視頻中的場(chǎng)景切換[3]和主持人檢測(cè)[4],以及語音識(shí)別抄本中的詞匯關(guān)聯(lián)性[5]、提示語[6]和建模方法[7,8]。TextTiling[9]和詞鏈[5]是兩種經(jīng)典的基于詞匯關(guān)聯(lián)性的文本分割方法。由于其高效簡(jiǎn)潔的特點(diǎn),近來被應(yīng)用于新聞廣播故事的自動(dòng)分割中[10,11]。其基本思想為:同一新聞故事內(nèi)的詞匯具有相近的語義關(guān)系,不同故事的新聞?dòng)迷~不同,因此可以從用詞的變化中找尋新聞之間的邊界。詞鏈方法將文本中相關(guān)聯(lián)(如重復(fù)或變相重復(fù)、反義、領(lǐng)屬、部分、整體和特例、范例等語義關(guān)系)詞匯連接成鏈,因此,在一個(gè)新聞故事的開始有許多詞鏈產(chǎn)生,在新聞故事的結(jié)尾有許多詞鏈結(jié)束,鏈尾和鏈頭集中的地方就很有可能是新聞故事的邊界。Stokes等人[5]指出,僅使用重復(fù)關(guān)系建立詞鏈可以獲得較高的故事分割準(zhǔn)確性,采用多種語義關(guān)系反而會(huì)引入噪聲。

目前在新聞廣播的語音識(shí)別抄本上進(jìn)行故事自動(dòng)分割的研究大都沿用了傳統(tǒng)的文本分割方法,沒有充分考慮語音識(shí)別錯(cuò)誤帶來的影響。根據(jù)TRECVID(text retrieval conference video retrieval)的評(píng)測(cè)結(jié)果,對(duì)于目前的英文大詞匯量連續(xù)語音識(shí)別(LVCSR)技術(shù)而言,新聞廣播的總體詞錯(cuò)誤率(word error rate,WER)在30%左右,演播室環(huán)境下的詞錯(cuò)誤率為20%左右,而外場(chǎng)環(huán)境下的詞錯(cuò)誤率達(dá)50%以上。中文新聞廣播的語音識(shí)別錯(cuò)誤率更高,整體詞錯(cuò)誤率達(dá)到40%左右[12]。另外,中文分詞多樣和組詞靈活等特點(diǎn)決定了中文沒有一個(gè)被普遍接受的詞典,于是語音識(shí)別錯(cuò)誤中有很多詞典未收錄(out of vocabulary,OOV)詞匯。這些OOV詞匯大多是人名、地名和組織機(jī)構(gòu)等專有名詞,與新聞主題有密切聯(lián)系。語音識(shí)別錯(cuò)誤會(huì)破壞詞匯的關(guān)聯(lián)性,如當(dāng)詞“排華”在同一個(gè)新聞故事的不同位置分別被誤識(shí)為“才華”“泰華”時(shí),這些原本相同的詞匯就無法被關(guān)聯(lián)起來,必然會(huì)影響基于詞鏈的新聞故事自動(dòng)分割的正確性。

最近,研究者用子詞單元(如音素和音節(jié))代替詞進(jìn)行語音文件檢索(SDR),發(fā)現(xiàn)子詞索引單元能較為有效地解決由于語音識(shí)別錯(cuò)誤帶來的詞匯匹配問題[13,14]。中文具有同音異形字眾多、分詞多樣和組詞靈活等特點(diǎn),這使得中文子詞單元(漢字和音節(jié))能夠更好地匹配被誤識(shí)的相關(guān)聯(lián)詞匯。因此,本文提出一種基于子詞鏈的中文新聞廣播故事自動(dòng)分割方法,并采用兩種方法將不同級(jí)別詞匯(詞和子詞)進(jìn)行融合,綜合不同級(jí)別詞匯表示單元的優(yōu)勢(shì),有效地提高了中文新聞廣播故事的自動(dòng)分割性能。

1 利用子詞匹配相關(guān)聯(lián)詞匯的優(yōu)越性

中文與西方語言(如英語)有很大的差異性。在書面表達(dá)上,英文是一種由字母組成的單詞語言,單詞與單詞之間用空格隔開;中文是一種字符語言,行文由漢字排列而成,沒有嚴(yán)格意義上詞的定義,詞間無空格。在中文語音識(shí)別抄本中,經(jīng)常出現(xiàn)構(gòu)成詞的部分漢字被誤識(shí),從而造成詞匯之間無法匹配的情況,如表1中的“奧爾布萊特”被識(shí)別為“二 步 萊特”,兩者無法進(jìn)行詞間匹配。然而可以利用中文是字符語言這一特點(diǎn),采用漢字級(jí)匹配修補(bǔ)由于語音識(shí)別錯(cuò)誤造成的影響,如上述例子中可以用漢字子詞“萊特”將兩者進(jìn)行匹配。另外,中文作為一種字符語言也造成了中文分詞多樣性的特點(diǎn),因此在中文語音識(shí)別中,同一個(gè)詞在不同的地方有可能被分成不同的詞。例如TDT2語音識(shí)別抄本中“北韓”被分成兩個(gè)詞“北”和“韓”,由此造成的詞匯無法匹配問題同樣可以利用漢字子詞如“韓”有效地進(jìn)行解決。

表1 TDT2語料庫中被誤識(shí)的一些詞匯

在聲學(xué)上,英文單詞不具備聲調(diào),而中文是一種單音節(jié)帶調(diào)語言。標(biāo)準(zhǔn)漢語普通話音節(jié)共有四種基本聲調(diào)(陰平、陽平、上聲、去聲)。經(jīng)統(tǒng)計(jì),中文里一共有約6 500多個(gè)常用簡(jiǎn)體漢字,這些漢字的讀音為約1 200個(gè)帶調(diào)音節(jié)(tonal syllable),如果除去帶調(diào)音節(jié)的聲調(diào),則縮減為約400個(gè)基礎(chǔ)音節(jié)(basic syllable)。用非常有限的基礎(chǔ)音節(jié)表示約6 500多個(gè)常用漢字的讀音,造成了大量同音不同調(diào)漢字(下文簡(jiǎn)記為同音字)。而在中文語音識(shí)別中,聲調(diào)往往被誤識(shí),一個(gè)詞有可能被誤識(shí)成在語法甚至語義上都正確的與原詞基礎(chǔ)音節(jié)相同的另外的詞。一個(gè)詞一旦被誤識(shí),如“過失”被誤識(shí)為“國事”,就無法利用詞間匹配將兩個(gè)原本相同的詞連接到同一條詞鏈上,這樣必然會(huì)丟失新聞故事中詞匯間的關(guān)聯(lián)信息。如果用基礎(chǔ)音節(jié)代替漢字進(jìn)行匹配,如用基礎(chǔ)音節(jié) /guoshi/ 代替上例中的“過失”和“國事”,就可以將兩個(gè)相關(guān)聯(lián)的詞連接起來。

中文的分詞多樣性和組詞靈活性等特點(diǎn)決定了中文沒有一個(gè)被普遍接受的詞典,于是語音識(shí)別錯(cuò)誤中包含了很大一部分的OOV詞匯。例如表2中,中文人名“王有才”沒有出現(xiàn)在詞典中,因此被識(shí)別為“當(dāng)有 財(cái)”“王 油菜”和“邦友 才”,利用基礎(chǔ)音節(jié)序列 /youcai/ 即可將它們連接起來。再如在同一個(gè)新聞故事中,“排華”與“才華”“開化”和“泰華”等詞之間是無法直接匹配的,但如果用基礎(chǔ)音節(jié)表示這些詞的后半部分,即音節(jié)子詞 /hua/,就可以將這些原本相同的詞連接起來。另外在中文里,外國人名是通過音譯得到的,因此同一個(gè)人名有可能被識(shí)別成不同的漢字組合,如“謝立夫”和“謝里夫”,采用這些人名對(duì)應(yīng)的基礎(chǔ)音節(jié)序列即可將它們連接起來。

表2 TDT2語料庫中被誤識(shí)的OOV詞匯

原詞及其基礎(chǔ)音節(jié)序列識(shí)別結(jié)果及其基礎(chǔ)音節(jié)序列

在中文里漢字具有表意作用,詞的意思通常與組成它的字有緊密的聯(lián)系,因此通過考察組成一個(gè)詞的漢字就可以獲得該詞的大意。例如“捐贈(zèng)”和“捐出”表意相近,因?yàn)樗鼈兌及熬琛弊帧M粋€(gè)新聞故事中經(jīng)常存在著具有相同漢字部分同時(shí)語義相近的詞匯。例如表3列舉的一個(gè)與體育賽事有關(guān)的新聞故事中的 “金牌”“銀牌”“銅牌”和“獎(jiǎng)牌”;與華人有關(guān)的新聞故事中出現(xiàn)的“華裔”和“華人”以及與恐怖襲擊有關(guān)的故事中的“炸彈”和“爆炸”等詞匯。為了避免重復(fù),人們?cè)谡Z言表達(dá)中還經(jīng)常使用同義詞或近義詞,如表3中的 “暴亂”與“騷亂”以及“方法”與“辦法”等,這些往往出現(xiàn)在同一個(gè)主題或故事中的同義詞與近義詞通常也有相同的漢字部分。如果利用這些詞的漢字子詞進(jìn)行匹配,就可以將原本無法匹配但事實(shí)上意義相同或相近的詞連接在一起。例如只對(duì)“排華”“華裔”“華人”中的“華”進(jìn)行匹配,就可以將它們連在同一條詞鏈中。

表3 TDT2語料庫中具有部分相同漢字同時(shí)語義相近的詞匯

同一新聞故事中具有部分相同漢字同時(shí)語義相近的詞匯基礎(chǔ)音節(jié)序列

2 基于子詞鏈的中文新聞廣播故事自動(dòng)分割

2.1 基于詞鏈的故事分割原理 

1)構(gòu)造詞鏈 基于詞鏈的故事分割方法首先將一個(gè)文本中相互關(guān)聯(lián)的詞構(gòu)成詞鏈。構(gòu)造詞鏈的步驟為:a)選擇候選詞。候選詞一般為名詞或名字短語。由于語音識(shí)別錯(cuò)誤的存在,新聞廣播中的名詞有可能被識(shí)別為其他詞性的詞,本文將語音識(shí)別抄本中的所有詞匯作為候選詞。b)形成詞鏈。對(duì)于每一個(gè)候選詞,依據(jù)詞匯關(guān)聯(lián)關(guān)系,如重復(fù)、同義、所屬、局部和整體等關(guān)系[5],在鏈集合中找到一條與其相關(guān)聯(lián)的鏈,把該詞加入鏈尾。如果沒有與其相關(guān)聯(lián)的鏈,則以該候選詞為鏈頭創(chuàng)建一條新鏈。由于新聞具有時(shí)效性強(qiáng)的特點(diǎn),涉及同一主題的不同故事往往會(huì)在同一新聞節(jié)目中播報(bào),如果兩個(gè)講述同一新聞主題的故事被安排在一段新聞節(jié)目的開始和結(jié)尾,就會(huì)有詞鏈跨越整個(gè)新聞節(jié)目。同時(shí),一個(gè)新聞故事中的詞也有可能會(huì)在另一段新聞故事中出現(xiàn),從而被同一條詞鏈連接起來。這些勢(shì)必會(huì)影響新聞分割的準(zhǔn)確性。因此在新聞廣播故事的自動(dòng)分割中,需要限定構(gòu)造詞鏈時(shí)所允許的最大鏈長(zhǎng),該值一般通過經(jīng)驗(yàn)實(shí)驗(yàn)獲得。圖1左半部分示意了詞鏈的構(gòu)造過程。

2)檢測(cè)邊界 詞鏈方法認(rèn)為同一個(gè)故事內(nèi)的詞匯往往相互關(guān)聯(lián)并可以通過詞鏈連接起來,詞鏈結(jié)束與開始比較集中的地方很可能就是兩個(gè)故事之間的邊界。傳統(tǒng)的基于詞鏈的文本分割方法是以句子或段落為文本單元,在每?jī)蓚€(gè)單元之間定義邊界強(qiáng)度(計(jì)算邊界強(qiáng)度的方法很多,如相乘、加權(quán)乘和加權(quán)和。Stokes等人[5]指出,利用加法得到的邊界強(qiáng)度可以獲得較高的故事分割準(zhǔn)確性):

S(u,u+1)=num_end_chain(u)+num_start_chain(u+1)(1)

式(1)表示第u個(gè)文本單元中結(jié)束的詞鏈個(gè)數(shù)num_end_chain與第u+1個(gè)文本單元中起始的詞鏈個(gè)數(shù)num_start_chain之和。當(dāng)所有相鄰文本單元間的邊界強(qiáng)度S(u,u+1)被確定之后,將其與通過經(jīng)驗(yàn)實(shí)驗(yàn)獲得的閾值比較,大于閾值的邊界強(qiáng)度所在的位置被確定為檢測(cè)到的故事邊界。新聞廣播的語音識(shí)別抄本中沒有提供句子和段落邊界,因此本文將新聞廣播的語音識(shí)別抄本分成具有相同長(zhǎng)度的偽句子(pseudosentence)單元,在偽句子邊界之間進(jìn)行新聞故事的邊界檢測(cè),其長(zhǎng)度通過經(jīng)驗(yàn)實(shí)驗(yàn)獲得。圖1右半部分示意了邊界強(qiáng)度的計(jì)算過程。

2.2 構(gòu)造子詞序列和子詞鏈

本文采用基于漢字和音節(jié)的N元交疊文法構(gòu)造子詞序列[15],將中文語音識(shí)別抄本中的詞序列擴(kuò)展為N元子詞序列。這種交疊文法可以較好地避免丟失原始詞序列中的詞匯信息。假設(shè)識(shí)別抄本中的詞序列為{w1w2w3…wm},對(duì)應(yīng)的漢字序列和基礎(chǔ)音節(jié)序列是{c1c2c3c4c5c6…cl}和{s1s2s3s4s5s6…sl}。其中:ci代表漢字;si代表漢字ci對(duì)應(yīng)的基礎(chǔ)音節(jié)。此時(shí){c1c2c3c4c5c6…cl}和{s1s2s3s4s5s6…sl}就分別為一元漢字和音節(jié)子詞序列。二元與三元子詞序列的形式分別如下:

a)二元漢字子詞序列:{c1c2c2c3c3c4c4c5…cl-1cl}

b)二元音節(jié)子詞序列:{s1s2s2s3s3s4s4s5…sl-1sl}

c)三元漢字子詞序列:{c1c2c3c2c3c4c3c4c5…cl-2cl-1cl}

d)三元音節(jié)子詞序列:{s1s2s3s2s3s4s3s4s5…sl-2sl-1sl}

N值更大的子詞序列也可以用同樣的方式產(chǎn)生。圖2為構(gòu)造子詞序列的示意圖,所用數(shù)據(jù)來自TDT2中文標(biāo)準(zhǔn)新聞廣播語料庫。圖3示意了基于一元漢字子詞鏈的構(gòu)造過程,能夠看到,利用一元漢字子詞可以將 “奧爾布萊特”與其被誤識(shí)詞“二 步 萊特”連接起來,也可以將具有相同漢字部分的詞匯“美國”和“美韓”連接起來。

2.3 融合

不同級(jí)別詞匯的表示單元(詞、音節(jié)、漢字和音節(jié)子詞)具有互補(bǔ)關(guān)系,如詞的表義確定性和子詞對(duì)語音識(shí)別錯(cuò)誤的魯棒性。因此本文提出兩種方法對(duì)不同級(jí)別詞匯進(jìn)行融合,進(jìn)一步提高新聞廣播故事自動(dòng)分割的性能。

1)邊界強(qiáng)度的融合 設(shè)某一詞匯級(jí)別下的邊界強(qiáng)度為Sk(u,u+1)。u和u+1分別表示第u個(gè)和第u+1個(gè)偽句子單元,令

Sf(u,u+1)=Kk=1wkSk(u,u+1)(2)

表示融合后的邊界強(qiáng)度。其中:K表示參與融合的詞匯級(jí)別總數(shù);系數(shù)w為權(quán)值,用來表示相應(yīng)的詞匯級(jí)別對(duì)故事分割所做的貢獻(xiàn),取值在0~1,且

Kkwk=1(3)

將Sf(u,u+1)值與閾值作比較,大于閾值的Sf(u,u+1)所對(duì)應(yīng)的邊界為檢測(cè)到的新聞邊界。權(quán)值w與閾值都通過經(jīng)驗(yàn)實(shí)驗(yàn)獲得。

2)基于投票法的融合 對(duì)各級(jí)漢字和音節(jié)子詞鏈的分割結(jié)果進(jìn)行考察,選取優(yōu)于詞級(jí)分割結(jié)果的子詞,與詞一起參與投票。針對(duì)偽句子單元u與u+1之間的邊界,分別考察不同級(jí)別詞匯下的邊界強(qiáng)度。如果邊界強(qiáng)度大于相應(yīng)的閾值,就認(rèn)為該邊界獲得了一票,如式(4):

V=Kk=1vk vk=0 if Sk(u,u+1)≤thresholdk

1 if Sk(u,u+1)>thresholdk(4)

其中:K為參與投票的詞匯級(jí)別數(shù);Sk(u,u+1)為邊界強(qiáng)度。最后,獲得半數(shù)以上投票(即V>K/2)的候選邊界被認(rèn)為是檢測(cè)到的新聞邊界。

3 實(shí)驗(yàn)

筆者在TDT2中文普通話語料庫[16]上對(duì)提出的方法進(jìn)行實(shí)驗(yàn)。該語料庫包含了1998年2月~7月總長(zhǎng)約53 h的VOA中文廣播節(jié)目,共有177個(gè)新聞節(jié)目以及相應(yīng)的人工標(biāo)注故事邊界的詞級(jí)語音識(shí)別抄本。將其中的90個(gè)抄本作為訓(xùn)練集,其余的87個(gè)作為測(cè)試集。TDT2的語音識(shí)別結(jié)果由Dragon 大詞匯量連續(xù)語音識(shí)別系統(tǒng)(LVCSR)產(chǎn)生,它的詞、漢字和音節(jié)的誤識(shí)率分別是37%、20%和15%。根據(jù)TDT2中的規(guī)定,如果檢測(cè)到的新聞故事邊界與人工標(biāo)注的邊界之間誤差在15 s之內(nèi),都可以認(rèn)為它是正確的新聞邊界。

本文中筆者采用了Fmeasure的評(píng)測(cè)標(biāo)準(zhǔn),其定義如下:

Fmeasure=(2×準(zhǔn)確率×召回率)/(準(zhǔn)確率+召回率)(5)

準(zhǔn)確率=檢測(cè)到的正確新聞邊界數(shù)/算法返回的新聞邊界數(shù)(6)

召回率=檢測(cè)到的正確新聞邊界數(shù)/人工標(biāo)注的新聞邊界數(shù)(7)

在實(shí)驗(yàn)中,漢字音節(jié)通過自動(dòng)查找中文拼音詞典獲得,構(gòu)造詞和子詞鏈時(shí)采用基于詞間重復(fù)的詞匯關(guān)聯(lián)關(guān)系。另外,偽句子單元的長(zhǎng)度、基于不同級(jí)別詞匯進(jìn)行中文新聞廣播故事自動(dòng)分割的閾值、最大鏈長(zhǎng)以及融合時(shí)的權(quán)值均通過在訓(xùn)練集上進(jìn)行經(jīng)驗(yàn)實(shí)驗(yàn)獲得,使Fmeasure值達(dá)到最優(yōu)的參數(shù)為最終參數(shù)。經(jīng)驗(yàn)實(shí)驗(yàn)表明,以40詞作為偽句子單元的長(zhǎng)度,可以使傳統(tǒng)詞鏈方法得到的Fmeasure值最優(yōu)。為了實(shí)現(xiàn)不同級(jí)別詞匯間的融合,保留詞序列下偽句子單元之間的邊界信息,以計(jì)算不同子詞級(jí)別下該邊界對(duì)應(yīng)的邊界強(qiáng)度。

圖4左半部分顯示的實(shí)驗(yàn)結(jié)果表明,一元漢字子詞鏈(char1)和二元漢字與音節(jié)子詞鏈(char2和syl2)的分割結(jié)果優(yōu)于傳統(tǒng)詞鏈的分割結(jié)果。其中一元漢字子詞鏈的分割結(jié)果最優(yōu),其Fmeasure比基于詞鏈的分割結(jié)果提高了6.06%。在基于子詞的中文語音文件檢索中,二元漢字子詞的性能要優(yōu)于一元漢字子詞[14],而在本文的中文新聞廣播故事自動(dòng)分割中,一元漢字子詞鏈的分割結(jié)果優(yōu)于二元漢字和音節(jié)子詞。這是因?yàn)椋篴)能夠被二元子詞鏈連接起來的詞匯信息也可以被一元漢字子詞鏈連接起來;b)一元子詞鏈中包含了通常出現(xiàn)在同一個(gè)故事主題中具有相同漢字部分但語義相同或相近的關(guān)聯(lián)詞匯信息,如表3所示。另外,一元音節(jié)子詞鏈的分割結(jié)果低于詞鏈的分割結(jié)果,這是因?yàn)橹形睦锎罅康耐糇质沟靡辉艄?jié)子詞鏈很容易將真正而非被誤識(shí)的同音字連接起來。三元、四元漢字和音節(jié)子詞鏈也比詞鏈的分割結(jié)果差,因?yàn)橛扇齻€(gè)或四個(gè)漢字組成的詞只占了中文詞匯的一小部分(如TDT2語音識(shí)別抄本中,由三個(gè)或四個(gè)漢字組成的詞占所有詞匯的7.57%左右),在構(gòu)造三元或四元子詞鏈時(shí),就會(huì)破壞大量由一個(gè)或兩個(gè)漢字組成的詞匯間的關(guān)聯(lián)性。

在融合實(shí)驗(yàn)中,筆者選擇圖4中Fmeasure值高于詞鏈分割結(jié)果的子詞(即一元漢字子詞、二元漢字和音節(jié)子詞),將它們與詞及其相對(duì)應(yīng)的音節(jié)進(jìn)行融合。考慮到過多級(jí)別詞匯間的融合會(huì)使最優(yōu)權(quán)值的選擇變得過于復(fù)雜,本文對(duì)所選的不同級(jí)別詞匯進(jìn)行了兩兩之間基于邊界強(qiáng)度的融合。另外,用選取的所有級(jí)別詞匯進(jìn)行了基于投票法的融合,融合結(jié)果如圖4右半部分所示。從圖中可以看到,不同級(jí)別詞匯的融合可進(jìn)一步提高故事分割的性能。在基于邊界強(qiáng)度的融合結(jié)果中,一元和二元漢字子詞融合(char1+char2)的Fmeasure 最高(0.561 3),比詞鏈的分割結(jié)果提高了8.61%。基于投票法的融合結(jié)果0.563 5比詞鏈的結(jié)果提高了9.04%。

4 結(jié)束語

本文利用中文同音異形字眾多、詞典開放、分詞多樣和組詞靈活等特點(diǎn),提出一種基于子詞鏈的中文新聞廣播故事自動(dòng)分割方法。同時(shí),結(jié)合不同級(jí)別詞匯表示單元的優(yōu)勢(shì),如詞的表義確定性和子詞對(duì)語音識(shí)別錯(cuò)誤的魯棒性,采用了兩種對(duì)不同級(jí)別詞匯進(jìn)行融合的方法,進(jìn)一步提高了中文新聞廣播故事自動(dòng)分割的性能。在TDT2中文標(biāo)準(zhǔn)新聞廣播語料庫上對(duì)所提出的方法進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)表明一元漢字子詞鏈的分割結(jié)果為最優(yōu)的子詞鏈分割結(jié)果,其Fmeasure值比傳統(tǒng)詞鏈的分割結(jié)果提高了6.06%。基于一元與二元漢字邊界強(qiáng)度的融合和投票方法的融合分別比傳統(tǒng)詞鏈的結(jié)果提高了8.61%和9.04%。

本文在構(gòu)造詞鏈時(shí)只考慮了詞匯間字面上的關(guān)聯(lián)性,這通常不能準(zhǔn)確說明一個(gè)故事概念上的內(nèi)容(conceptual context)[17],特別是當(dāng)一個(gè)詞具有多種含義時(shí)更為如此。筆者將在今后的工作中利用詞匯間的潛在語義(latent semantic)聯(lián)系構(gòu)造詞鏈;還將融合音頻線索、視頻線索以及文本線索,結(jié)合各模態(tài)的優(yōu)勢(shì),進(jìn)一步提高中文新聞廣播故事自動(dòng)分割的性能。

參考文獻(xiàn):

[1]

SHRIBERG E, STILCKE A, HAKKANITUR D. Prosodybased automatic segmentation of speech into sentences and topics [J].Speech Communication,2000,32(12):127154.

[2]XIE Lei,LIU Chuan, MENG Helen.Combined use of speaker and tonenormalized pitch reset with pause duration for automatic story segmentation in Mandarin broadcast news[C]//Proc of HLTNAACL2007.New York:[s.n.],2007:193196.

[3]徐駿,周曉崢,于俊清,等.基于事件流的新聞視頻場(chǎng)景分割方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2003,15(2):228232.

[4]HSU W,CHANG Shifu,HUANG Chiwei,et al.Discovery and fusion of salient multimodal features towards news story segmentation [C]//Proc of IS T/SPIE Symposium on Electronic Imaging.2004.

[5]STOKES N,CARTHY J,SMEATON A.SeLeCT:a lexical cohesion based news story segmentation system[J].Journal of AI Communication,2004,17(1):312.

[6]DHARANIPRAGADA S,F(xiàn)RANZ M,McCARLEY J,et al.Story segmentation and topic detection in the broadcast news domain[C]//Proc of DARPA Broadcast News Workshop.1999.

[7]YAMRON J,CARP I,GILLICK L,et al.A hidden Markov model approach to text segmentation and event tracking[C]//Proc ofICASSP’98.Seattle:[s.n.],1998:333336.

[8]莊越挺,毛袆,吳飛,等.基于隱馬爾可夫鏈的廣播新聞分割分類[J].計(jì)算機(jī)研究與發(fā)展,2005,39(9):10571063.

[9] HEARST M A.TextTiling:segmentating text into multiparagraph subtopic passages[J].Computational Linguistics,1997,23(1):3364.

[10]ROSENBERG A,HIRSCHBERG J.Story segmentation of broadcast news in English, Mandarin and Arabic[C]//Proc of HLTNAACL. New York:[s.n.],2006:125128.

[11]CHAN Shingkai,XIE Lei,MENG Helen.Modeling the statistical behavior of lexical chains to capture word cohesiveness for automatic story segmentation[C]//Proc of Interspeech 2007. Belgium: [s.n.],2007.

[12]NIST.TREC video retrieval evaluation[EB/OL].http://wwwnlpir.nist.gov/projects/trecvid/.

[13]NG K,ZUE V W.Subwordbased approaches for spoken document retrieval[J].Speech Communication,2000,32(3):157186.

[14] LO W K,MENG H M,CHING P C.Multiscale spoken document retrieval for Cantonese broadcast news[J].International Journal of Speech Technology,2004,7(23): 203219.

[15] XIE Lei,ZENG Jia,F(xiàn)ENG Wei.Multiscale TextTiling for automatic story segmentation in Chinese broadcast news[C]//Proc of Asia Information Retrieval Symposium.2008:345355.

[16]LDC. TDT2[EB/OL].[20071028].http://projects.ldc.upenn.edu/.

[17]BELLEGARDA J R.Latent semantic mapping:principles and applications[M].[S.l.]:Morgan Claypool,2005.

主站蜘蛛池模板: 潮喷在线无码白浆| 久久综合色88| 91在线精品麻豆欧美在线| 亚洲第一国产综合| 无码专区在线观看| 久久精品人人做人人爽97| 国产成人精品高清不卡在线 | 蝴蝶伊人久久中文娱乐网| 免费精品一区二区h| 亚洲久悠悠色悠在线播放| 成·人免费午夜无码视频在线观看 | 大香网伊人久久综合网2020| 国产精品太粉嫩高中在线观看| 人人91人人澡人人妻人人爽 | 女人18毛片一级毛片在线 | 久久久久久国产精品mv| 日本在线欧美在线| 农村乱人伦一区二区| 国产精品第| 精品一区二区无码av| 亚洲美女一区| 欧美高清三区| 成人福利在线视频免费观看| 98超碰在线观看| 97在线免费| 欧美日韩一区二区三区在线视频| 无码一区18禁| 99这里只有精品6| 欧美日韩第三页| 国产一区二区视频在线| 一本大道东京热无码av| 波多野结衣一区二区三区88| 日韩精品无码免费一区二区三区| 亚洲网综合| 亚洲国产成人自拍| 18黑白丝水手服自慰喷水网站| 日韩视频福利| 国产人成乱码视频免费观看| 日本草草视频在线观看| 日本久久久久久免费网络| 国产精品午夜福利麻豆| 在线a网站| 国产亚洲精品资源在线26u| a级毛片毛片免费观看久潮| 国产精品欧美在线观看| 高清欧美性猛交XXXX黑人猛交| 欧美日韩国产在线人| 色偷偷av男人的天堂不卡| 色综合色国产热无码一| AV不卡无码免费一区二区三区| 国产乱子伦一区二区=| 国产精品部在线观看| AV不卡在线永久免费观看| 欧美狠狠干| 国产在线精彩视频论坛| 九九视频在线免费观看| 国产99在线观看| 福利片91| 欧美一级片在线| 狠狠色婷婷丁香综合久久韩国| 免费国产一级 片内射老| 97视频在线观看免费视频| 国产jizz| 日韩精品免费一线在线观看 | 久久黄色一级片| 国产三级精品三级在线观看| 中文字幕日韩欧美| 色婷婷国产精品视频| 中文天堂在线视频| 午夜视频www| 成人综合在线观看| 又黄又湿又爽的视频| 欧美日在线观看| 国产精品美女在线| 国产美女91视频| 久久综合伊人77777| 欧美一区精品| 久久亚洲国产最新网站| 无码人妻免费| 久久公开视频| 久久a毛片| 欧美成人看片一区二区三区 |