999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于統(tǒng)計的漢語疊詞自動識別研究

2016-08-12 03:16:43劉亮亮

楊 帆,劉亮亮

(1.中國船舶重工集團公司第723研究所,江蘇 揚州 225001;2.江蘇科技大學 計算機科學與工程學院,江蘇 鎮(zhèn)江 212003)

?

基于統(tǒng)計的漢語疊詞自動識別研究

楊帆1,劉亮亮2

(1.中國船舶重工集團公司第723研究所,江蘇 揚州225001;2.江蘇科技大學 計算機科學與工程學院,江蘇 鎮(zhèn)江212003)

摘要:提出一種漢語疊詞的自動獲取方法。首先利用結構合理的五元組模型對分詞后的語料進行統(tǒng)計以獲得各類疊詞候選集;在此基礎上,通過疊詞度的運算判斷實現(xiàn)“AAB”式、“ABB”式、“ABA”式、“ABAB”式、“AABB”式疊詞的自動獲取;在疊詞度判斷的基礎上,通過左、右鄰接熵的運算判斷實現(xiàn)“AA”式疊詞的自動獲取。該方法根據(jù)結構合理的五元組模型獲得的統(tǒng)計信息,結合疊詞度和信息熵的判斷,實現(xiàn)了疊詞的量化判斷和自動獲取。實驗結果證明:該方法能有效實現(xiàn)漢語疊詞的自動獲取,且準確率高。

關鍵詞:漢語疊詞;五元組模型;疊詞度;左、右鄰接熵

疊詞是一種特殊的語言現(xiàn)象。漢語疊詞是由2個或2個以上的字形和字義都相同的漢字重疊在一起使用所組成的詞語。在漢語文本中,由于漢語疊詞的存在,在錯別字識別的過程中可能會將疊詞當做成插入錯誤。如果將所有滿足疊詞格式的都看成疊詞的話,則很多類似疊詞格式的插入錯誤會被過濾掉。本文首先分析疊詞的種類,然后利用大規(guī)模語料統(tǒng)計來獲取疊詞。

1 疊詞分類

國內對于疊詞的定義基本可以分為傳統(tǒng)派、西洋派和字典派[1]。汪維懋[2]的解釋是“重言詞的‘重疊’或‘重疊形式’,包括一個雙音形式,這個雙音形式為詞或詞的一部分”。西洋派則是把西方的定義直接翻譯過來用到漢語疊詞中。雷蕾[3]認為“疊詞是指相同的詞、詞素或音節(jié)重疊使用”,以及“疊詞是由重疊法所構成的詞”。黃成洲[4]認為”疊詞指的是2個或2個以上意義和形態(tài)相同或相似成分重疊而構成的新詞”。字典派使用的是當代語言學的字眼重復傳統(tǒng)定義,例如《現(xiàn)代漢語規(guī)范詞典》給疊詞下的定義是“修辭方式,音、形、義相同的字連用在一起,使形式整齊、語音和諧,并增強形象性”[5]。而《漢語疊字詞詞典》的定義是“疊字詞古稱疊音、重言,是將字形、讀音、字義完全相同的漢字重疊起來組成的詞匯”[6]。目前對疊詞的研究成果雖然非常多[7],不過主要集中在語法形式及其使用方面。從構詞的角度對疊詞進行分析和研究的成果并不多見。

疊詞有很多種分類的方法[1],本文主要介紹疊詞在結構上的分類,并且按結構的分類來獲取疊詞。汪維懋將疊詞分為“AA”、“AABB”、“AAB”、“ABB”4類,并且認為“ABAB”與“A里AB” 型的疊詞是這4種的擴展,沒有本質區(qū)別,從而在他的詞典里面沒有進行收錄[8]。后來很多學者在汪維懋研究成果的基礎上對疊詞的結構分類進行擴展。于連江等將疊詞分為“AA”、“AABB”、“ABAB”、“AAB”、“ABB”、“BCAA”、“AABC”、“ABAC”、“一AA”、“A了A”、“A一A”、“A呀/啊A”、“A著A著”、“A里AB”、“A都A不”、“A又A”、“A是A”、“A就A”。根據(jù)這些類別的結構特點,將“一AA” 歸入到“ABB”,“A了A”、“A 一A”、“A呀/啊A”,“A又A”、“A是A”、“A就A”可以歸類為“ABA”,“A著A著”、“ABAB”,“A里AB” 和“A都A不”都是“ABAC”的特殊形式。這樣疊詞的形式就可以歸為以下幾類:“AA”、“AAB”、“ABB”、“ABA”、“AABB”、“ABAB”、“AABC”、“BCAA”和“ABAC”[1]。下面對這幾種疊詞形式進行詳細介紹:

1) “AA”式疊詞

在這種形式中,A代表一個漢字(除了人名等)。“AA”式疊詞一般具有形容詞的特性,描述人物和景物等的形態(tài)(例如徐徐、藹藹等),情狀(例如悠悠、郁郁等)和聲音(例如淙淙、汩汩等)等。

2) “AAB”式疊詞

“AAB”式疊詞可由3種方式來構成:一是由1個雙音節(jié)詞AB通過部分重疊AB詞中的第1個語素A而成,這類重疊詞大部分是由離合動詞構成,例如擺擺手、點點頭、咬咬牙、過過癮、散散步等;二是由1個AA式的疊詞加上一個B構成,例如毛毛雨、呱呱叫;三是2個單音節(jié)詞A、B以重疊A的方式來構成,例如面面觀、麻麻亮等。

3) “ABB”式疊詞

“ABB”式疊詞所覆蓋的詞性范圍比較廣,有名詞(例如山溝溝),動詞(例如過家家),擬聲詞(例如嘩啦啦),副詞(例如不僅僅),形容詞(例如干巴巴、白胖胖),數(shù)量詞(例如一天天、一絲絲)等,其中主要是形容詞[8]。“ABB”式疊詞由以下幾種方式來構成:一是1個雙音節(jié)詞AB通過重疊AB詞中的第2個語素而成,例如沉悶悶、孤單單等;二是通過1個單音節(jié)詞A和重疊詞BB來構成,例如老奶奶、小寶寶;三是雙音節(jié)詞BA通過顛倒,重疊B而成,例如亮閃閃、冷冰冰等。

4) “ABA”式疊詞

在這種疊詞形式中,由單音節(jié)詞A和單音節(jié)詞B重疊A來構成。一般而言,B不是任意的漢字,可以是“了”,“一”,“呀/啊”,“又”,“是”,“就”等。例如看一看、看了看、看就看、看呀看等。

5) “ABAB”式疊詞

在這種形式的疊詞中,一種形式是由一個雙音節(jié)詞AB重疊本身構成,一般重疊以后作為動詞使用,例如打掃打掃、放松放松、思考思考。另一種形式是“A著A著”,其中A是單音節(jié)詞,例如聽著聽著、看著看著。

6) “AABB”式疊詞

“AABB”式疊詞是由2個單音節(jié)詞A和B分別重疊后再進行重疊構成,一般來說,AA與BB不能單獨使用,例如平平安安、高高興興。

7) “AABC”式疊詞

漢語中的“AABC”式疊詞,一般來說都是一種固定的成語,通過單音節(jié)詞A重疊,然后限定和修飾BC,一般表示BC的一種程度,BC可以是兩個單音節(jié)詞或一個雙音節(jié)詞,例如苦苦哀求、牢牢把握、念念不忘。

8) “BCAA”式疊詞

“BCAA”式疊詞和“AABC”式疊詞類似,疊詞部分AA一般充當補語的形式來修飾BC,例如風雪茫茫、白雪皚皚、逃之夭夭等。

9) “ABAC”式疊詞

在漢語成語中還存在“ABAC”式的疊詞,其基礎詞是一個雙音節(jié)詞BC,通過重疊一個單音節(jié)詞A構成,這種重疊是A插入到BC當中而成。例如不慌不忙、不驕不躁、不三不四。

2 疊詞的獲取方法

崔健新[9]例舉了大量20世紀90年代以來報刊、電臺中包含重疊的句子,論證分析了形容詞“AABB”式在使用過程中的復雜性,反對把它簡單化,反映出了學者對語言事實的重視,有助于推動語言的動態(tài)研究。孟令子等[10]利用語料庫研究了“AABB” 式疊詞在莎劇3部漢譯本中的使用情況。關于形容詞“ABAB”式,陳光[11]在分析了“AA ABB”對“VA ABB”的影響的同時,認為“VABAB”對“AAABB”同樣具有功能滲透與類化作用。李宇明[12]通過對比性質形容詞“ABAB”和“AABB”,專門分析了“ABAB”式的特點。從構詞的角度對“ABB”式疊詞進行分析和研究的成果并不多見。戴莉[13]的《ABB類形容詞的構成要素及其性質》主要談A和BB的語法語義性質,以及A與BB之間的選擇性,并未涉及構詞方面的問題。殷寄明[14]的《從語源學角度看“干巴巴” 類派生詞》是把“ABB”式疊詞作派生詞來看待的。

除了詞典中收錄了部分疊詞以外,很多疊詞都在文本中出現(xiàn)而未收錄在詞典中,因此需要從大規(guī)模語料中獲取疊詞。本文從百科類文本語料中去獲取疊詞。對于“ABAC”、“BCAA”、“AABC”型疊詞一般都是固定的表達法,大部分收錄在漢語成語詞典中。因為漢語文本中的大部分插入錯誤,都是相同字或詞的插入錯誤,因此本文對“AA”、“AAB”、“ABB”、“ABA”、“ABAB”、“AABB”這5種類型的疊詞進行獲取。

定義五元組模型five-element mod

一個五元組可以抽象表示為如下形式:

Five-ElementModel= (leftWord,leftInterval,word,rightInterval,rightWord)

其中:word為當前統(tǒng)計的詞;leftWord是與詞word左邊相隔距離為leftInterval的詞;leftInterval表示word與leftWord之間的距離;rightWord是與詞word右邊相隔距離為rightInterval的詞;rightInterval:表示word與rightWord之間的距離。

本文通過對大規(guī)模語料中的句子進行分詞,利用五元組模型來進行統(tǒng)計。由于疊詞是相鄰的詞,因此只需要考慮和相等且為0的五元組模型。

首先通過五元組模型來統(tǒng)計滿足“AA”,“AAB”,“ABB”, “ABA”, “ABAB”式的五元組。統(tǒng)計方法如下:

此后,喜姑和二狗伢常常在鄉(xiāng)黨們黑汗水流辛勤勞作的時候,一句連一句,一段接一段地你來我往唱山歌,給白家灣帶來了不少的歡樂,喜姑的名聲很快在十里八方傳開了。

1) “AA”式疊詞。將五元組滿足 (A,0,A,0,*)和(*,0,AA,0,*)(*表示任意詞)的加入到AA式疊詞候選集中。

2) “AAB”式疊詞:根據(jù)以上的分析,將五元組滿足以下模式的元組加入到AAB式疊詞候選集中:① (A,0,AB,0,*);② (AA,0,B,*);③ (A,0,A,0,B)。

3) “ABB”式疊詞:將五元組滿足如下模式的元組加入到“ABB”式疊詞候選集中:① (AB,0,B,0,*);② (A,0,BB,0,*);③ (A,0,B,0,B)。

4) “ABA”式疊詞:將五元組滿足(A,0,B,0,A)的元組加入到“ABA”式疊詞候選集中,“B”是一個單字詞。

5) “ABAB”式疊詞:將五元組滿足(AB,0,AB,0,*)的元組加入到ABAB式疊詞候選集中。

6) “AABB”式疊詞:將五元組滿足(AA,0,BB,0,*)的元組加入到“AABB”式疊詞候選集中。

由于有AA式重疊詞以及漢語分詞會將AA分成一個詞,因此對于滿足AA、ABB、AAB的高頻元組不能簡單認為就是一個疊詞。例如:(他們,0,個個,0,都)中, “個個都”就不是AAB式疊詞(其中“個個都”也是高頻出現(xiàn)),(一,0,車車,的)中“一車車”是“ABB”式疊詞,“車車的”就不是“AAB”式疊詞。因此,需要對滿足模式的候選進行驗證。本文采用未登錄識別的方法對疊詞進行識別[15]。

定義疊詞的結合度(comDegree)

一個疊詞的結合度是用來表示疊詞的內部結度。用如下公式來計算疊詞的結合度:

(1)

結合度反映了詞W中的詞在一起的強度,結合度越大,反映了W中的詞經常在一起出現(xiàn),如果W中詞的結合度越小,說明W中的詞是偶然在一起。例如,對于“一車車”與“車車的”,通過計算可以發(fā)現(xiàn),

ComDegree(一車車)=6.806 93

ComDegree(車車的)=1.223 4

因此通過結合度來看“一車車”是一個疊詞,而“車車的”就不是一個疊詞。

由于有些“AAB”和“ABB”中存在“AA”式疊詞,但是“AAB”與“ABB”式疊詞中“AA”或“BB”不一定是“AA”式疊詞,例如“血淋淋”中的“淋淋”就很少單獨使用,而“個個”不但可以構成“一個個”疊詞,還可以經常單獨使用。用信息熵來衡量一個“AA”式候選疊詞的左右鄰接詞的不確定性。信息熵是對不確定性的測量。熵越高,則能傳輸越多的信息;熵越低,則意味著傳輸?shù)男畔⒃缴佟@纭皞€個”,其左邊出現(xiàn)的有“一,他們,我們,學生,老師……”,而“淋淋”的左邊的鄰接的字只有“血,水,濕”,通過左鄰接詞的信息熵計算發(fā)現(xiàn),“個個”的左鄰接詞的信息熵很大,而“淋淋”的左鄰接詞的信息熵很小,從而可以判斷“個個”是一個常見的“AA”式疊詞,而“淋淋”就不能作為“AA”式疊詞出現(xiàn),如果“淋淋”在句子中單獨出現(xiàn)的話,可能存在錯誤。

AA的鄰接詞W集合:

AdjWordSe={W1,W2,…,Wn}

對應的鄰接詞和AA的共現(xiàn)頻次F={F1,…,Fn},疊詞的鄰接詞信息熵采用如下方式計算:

(2)

式(2)中的P(Wi|W)用如下方式計算:

(3)

本文通過算法1來獲取和驗證“AAB”、“ABB”、“ABA”、“ABAB”、“AABB”和“AA”式疊詞。算法1以“AAB”式和“AA”式疊詞為例,具體如下:

輸入:五元組FiveElementModel輸出:AAB疊詞詞典AABDic;AA疊詞詞典AADic1:Begin2:CandidateSet←?3: foreachgraminFiveElementModeldo4: ifgram是滿足(A,0,AB,0,*)或(AA,0,B,*)(A,0,A,0,B)then5:CandidateSet←AAB6: 統(tǒng)計AAB的頻次,并且統(tǒng)計AA其左右鄰接詞7: endif8: endfor9: foreachwordindo10: 利用公式1計算疊詞結合度11: ifcombineDegree(word)>αthen12: AABDic←word13: endif14: 利用公式2計算AA的左右信息熵LH(AA),RH(AA)15: ifLH(AA)>β&&RH(AA)>βthen16: AADic←AA17: endif18: endfor19: 輸出AAB式詞典20: 輸出AA式詞典21:End

3 實驗與分析

通過進行大規(guī)模語料(8G)中自動獲取疊詞的實驗來驗證本文方法的有效性。本文方法在實驗語料中獲取的疊詞數(shù)量如表1所示。

統(tǒng)計分析后得知:本文提出的基于統(tǒng)計的漢語疊詞的自動獲取方法,其疊詞獲取的準確率可達85.7%。實驗結果表明:本文提出的漢語疊詞的自動獲取方法能有效地獲得漢語疊詞。本研究只獲取到“AAB”、“ABB”、“ABA”、“ABAB”、“AABB”和“AA”式疊詞,下一步工作是設計算法獲取“AABC”、“BCAA”、“ABAC”式疊詞。

表1 實驗結果

4 結束語

本文介紹了一種基于統(tǒng)計的漢語疊詞自動識別方法。首先利用結構合理的五元組模型對分詞后的語料進行統(tǒng)計以獲得各類疊詞候選集。本文提出了疊詞的結合度計算方法,用疊詞的結合度來判斷實現(xiàn)“AAB”、“ABB”、“ABA”、“ABAB”、“AABB”式疊詞的自動獲取,在疊詞度判斷的基礎上,進一步通過左、右鄰接熵的運算判斷實現(xiàn)“AA”式疊詞的自動獲取。本文提出的方法根據(jù)結構合理的五元組模型獲得的統(tǒng)計信息,結合疊詞度和信息熵的判斷,實現(xiàn)了疊詞的量化判斷和自動獲取。實驗結果表明:本文方法準確率高,有利于更為精準地開展自然語言的信息化處理工作,在自然語言處理領域中具有十分明顯的實用意義。

參考文獻:

[1]戰(zhàn)曉峰.漢英疊詞的語言類型學研究初探[J].考試周刊,2013(36):19-22.[2]汪維懋.漢語重言詞詞典[M].北京:軍誼出版社,1999.[3]雷蕾.漢英疊詞比較與翻譯探究[J].湖南工業(yè)職業(yè)技術學院學報,2008(4):162-164..

[4]黃成洲.文學疊詞結構漢譯[J].西安外國語學院學報,2001(1):33-35.

[5]李行建.現(xiàn)代漢語規(guī)范詞典[M].北京:外語教學與研究出版社,2004.

[6]孫繼萬.漢語疊字詞詞典[M].北京:中國大百科全書出版,2011.

[7]劉云.重疊研究索引[J].漢語學報,2001(2):.1-10.

[8]鄭厚堯.ABB式疊詞的內部結構分析[J].湖北師范學院學報(哲學社會科學版),2005,25(3):51-55.

[9]崔健新.可重疊為AABB式的形容詞的范圍[J].世界漢語教學,1995(4):14-22.

[10]孟令子,胡開寶.基于語料庫的莎劇漢譯本中AABB式疊詞應用的研究[J].上海外國語大學學報,2015(1):82-89.

[11]陳光.現(xiàn)代漢語雙音動詞和形容詞的特別重疊式——兼論基本重疊式的類化作用與功能滲透[J].漢語學習,1997(3):54-58.

[12]李宇明.雙音節(jié)性質形容詞的ABAB式重疊[J].漢語學習,1996(4):24-27.

[13]戴莉.ABB類形容詞的構成要素及其性質[J].社科縱橫,1999(1):23-26.

[14]殷寄明.從語源學角度看“干巴巴”類派生詞[J].南京師范大學文學院學報,2001(1):50-56.

[15]顧森.基于大規(guī)模語料的新詞發(fā)現(xiàn)算法[J].程序員,2012(7):54-57.

(責任編輯楊黎麗)

收稿日期:2016-03-22

作者簡介:楊帆(1982—),男,工程師,主要從事計算機應用研究;通訊作者 劉亮亮(1979—),博士,講師,主要從事自然語言理解研究。

doi:10.3969/j.issn.1674-8425(z).2016.07.021

中圖分類號:TP39

文獻標識碼:A

文章編號:1674-8425(2016)07-0123-06

Automatic Recognition Method for Chinese Reduplicated Words Based on Statistical Method

YANG Fan1, LIU Liang-liang2

(1.The 723rdResearch Institute of China Shipbuilding Industry Corp,Yangzhou 225001, China; 2.Computer Science and Engineering School,Jiangsu University of Science and Technology, Zhenjiang 212003, China)

Abstract:We proposed a Chinese reduplicated words automatic acquisition method. Firstly, the structure reasonable five-tuple model obtained various kinds of reduplicated words from corpus after segmentation. And on this basis, reduplicated words in forms of “AAB” and “ABB”, “ABA”, “ABAB”, “AABB” would be automatically acquired according to combination degree. In order to obtain “AA” type of reduplicated words, this method calculated left adjacent entropy and rightadjacent entropy. According to the statistical information obtained by the structure reasonable five-tuple model, combination degree and entropy, these methods can automatically acquire Chinese reduplication. Experiments show that this method can effectively achieve the automatic acquisition of Chinese reduplication, and the accuracy rate is high.

Key words:Chinese reduplicated words; five-element model; combinative degree of reduplicated woeds; left and right adjoined entropy

引用格式:楊帆,劉亮亮.基于統(tǒng)計的漢語疊詞自動識別研究[J].重慶理工大學學報(自然科學),2016(7):123-128.

Citation format:YANG Fan, LIU Liang-liang.Automatic Recognition Method for Chinese Reduplicated Words Based on Statistical Method[J].Journal of Chongqing University of Technology(Natural Science),2016(7):123-128.

主站蜘蛛池模板: 波多野结衣国产精品| 99精品这里只有精品高清视频| 深爱婷婷激情网| 国产成人综合久久精品下载| 亚洲国产精品VA在线看黑人| 久久五月视频| 1024你懂的国产精品| 原味小视频在线www国产| 一级毛片免费不卡在线视频| 秋霞国产在线| 日韩AV手机在线观看蜜芽| 美女国产在线| 91成人在线免费视频| 四虎永久在线视频| 在线免费a视频| 日韩精品一区二区三区swag| 日韩在线播放中文字幕| a欧美在线| 亚洲一区二区在线无码| 无码中文字幕乱码免费2| 亚洲综合第一页| 呦女精品网站| 日韩视频精品在线| 日韩福利在线观看| v天堂中文在线| 无码国内精品人妻少妇蜜桃视频| 久久99国产乱子伦精品免| 久久99热66这里只有精品一| 欧美日韩国产高清一区二区三区| 成人伊人色一区二区三区| 亚洲成人一区二区三区| 国产视频一二三区| 亚欧成人无码AV在线播放| 国产成人亚洲日韩欧美电影| 亚洲日韩久久综合中文字幕| 欧美国产日韩一区二区三区精品影视| 伊人无码视屏| 99视频在线免费| 国产精品亚洲片在线va| 国产精品亚洲一区二区三区在线观看| 最新亚洲人成无码网站欣赏网| 午夜老司机永久免费看片| 国产呦精品一区二区三区网站| 国产99在线| 亚洲日韩精品伊甸| 91成人试看福利体验区| 播五月综合| 欧美高清三区| 播五月综合| 国产精品欧美激情| 久久a级片| 日韩中文字幕免费在线观看| 国产精品.com| 男人天堂亚洲天堂| 国产高清免费午夜在线视频| 欧美日本激情| 欧美激情综合| 五月丁香伊人啪啪手机免费观看| 99热这里都是国产精品| 极品尤物av美乳在线观看| 久久网综合| 久草性视频| 午夜福利无码一区二区| 91成人免费观看在线观看| 国产精品思思热在线| 色婷婷在线播放| 国产va视频| 国产精品亚洲欧美日韩久久| 一区二区三区成人| 欧美97欧美综合色伦图| 日韩精品无码免费一区二区三区 | 青青草原国产av福利网站| 97综合久久| 亚洲婷婷丁香| 亚洲免费毛片| 亚洲天堂2014| 毛片久久久| 五月综合色婷婷| 亚洲永久色| 午夜a级毛片| 国产视频自拍一区| AⅤ色综合久久天堂AV色综合|