999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

單字動詞組合處理規則的計算機實現

2006-12-31 00:00:00孫雄勇
計算機應用研究 2006年8期

(1.中國科學院 研究生院, 北京 100039; 2.中國科學院 聲學研究所, 北京 100080)

摘 要:以HNC理論的概念基元符號體系與句類體系為基礎,探索分析了漢語中單字動詞組合處理的特點及其句類特征,總結形成了處理規則。在BNF范式和產生式規則的基礎上,對處理規則進行了形式化,并在計算機程序中實現了對規則的解釋與執行。最后在一定量的語料中進行了規則執行測試,并給出了測試結果。

關鍵詞: 單字動詞; 組合; 規則; 形式化; HNC

中圖法分類號: TP311.5文獻標識碼: A

文章編號: 1001 3695(2006)08 0199 04

Combination Research of Chinese Character Verb 

SUN Xiong yong 1,2 , ZHANG Quan2 

(1.School of Graduate, Chinese Academy of Sciences, Beijing 100039, China; 2.Institute of Acoustics, Chinese Academy of Sciences, Beijing 100080, China)

Abstract: Based on concept primitive symbol and sentence category of HNC, analyse the character of a new word combines a chinese character verb and other words, then sum up the rules of processing a chinese character verb. Based on BNF and production rule, formalized the processing rules for a chinese character verb and implemented the rules by computer program.

Key words: Chinese Character Verb; Combine; Rule; Formalization; HNC 

1 引言

所謂單字詞,對于漢語來說就是一個字能獨立成詞,如“愛”、“打”、“笑”等。單字詞的處理是漢語處理中存在的一大難點。究其原因在于漢語單字詞的意義復雜、義項眾多。這增加了計算機理解單字詞在語句中所指意義的難度。例如,“打”在《現代漢語詞典》(2002增補本)中有多達25個義項。我們來觀察下面的例句:

她打碎了玻璃。歹徒打爛了店里所有的家具。

他打開了蓋子。他曾被打成右派。 

第一個例句與第二個例句中“打”的意思是物體因撞擊而破碎;第三個例句中“打”的意思是揭,鑿開;第四個例句中“打”的意思是定(某種罪名)。上面的釋義均出自《現代漢語詞典》。在前兩個例句中,“打”實際上分別與“碎”、“爛”組合成了新詞。要理解“打”在語句中的意義,就必須結合其后緊鄰的“碎”和“爛”來分析。

實際上在漢語中絕大多數的單字詞具有很強的組合特征,容易組成新詞(指沒有收錄在詞表中的雙字或多字詞)或新短語,這給我們處理單字詞提供了一個有力的線索。上述例句的“打”就是與“碎”和“爛”結合組成了新詞。本文制定的規則正是針對單字動詞與其他單字詞組合成新詞的情況。

概念層次網絡(Hierarchical Networks of Concepts,HNC)理論從語義層面出發來研究自然語言。設計了對自然語言概念體系進行總體表述的語義網絡,建立了網絡式概念基元符號體系和語句的語義表述模式,為我們深入語義層面研究單字動詞組合處理提供了天然的條件與平臺。在HNC理論中,詞可以用概念基元符號組合表示。抽象概念具有五個基本側面“v,g,u,z,r”,分別表示動態、靜態、屬性、值和效應。這五個側面的組合可以用來表示詞性,其對“動詞”的定義是:詞語知識庫的概念類別欄目中帶五元組符號并以v為第一屬性的詞。這樣的定義為計算機處理語言提供了可行性條件。

本文以HNC概念基元符號體系和句類體系為基礎,深入到語義層面探索漢語中單字動詞動態概組合處理的特點,消解單字動詞多義模糊并分析其句類特點,形成單字動詞處理規則,闡述如何用計算機程序去解釋和執行規則,最后給出處理規則應用于真實語料后的實驗結果。

2 單字動詞組合處理規則研究

因為單字詞在實際應用中具有很強的組合能力,往往會與其相鄰的詞結合組成新詞,這就要求計算機必須具有自行辨認這種新詞的處理能力。單字動詞與其相鄰詞在句子中的組合情況可分為以下兩種:

(1)單字動詞與雙字詞或多字詞相鄰。如“她全力跑向終點”,在這個句子中,“全力”是存在于知識庫中的一個雙字詞,它在這里充當特征語義塊“跑”的上裝;而“向”則是特征語義塊的下裝。這種情況單字動詞的處理通??梢园凑找话銊釉~來進行處理。

(2)單字動詞與單字詞相鄰。如“她打碎了玻璃”,在這個句子中,全句的特征語義塊應該是“打碎”,其句類代碼與單獨的“打”是不同的。但“打碎”在知識庫中并不存在,這就是“打”與“碎”結合形成新詞的情況。類似的還有“打爛”、“打敗”等。這里的單字詞一般不包括l(HNC界定的語言邏輯概念)概念的單字詞,如上面例句中的“向”。本文針對第二種情況進行研究。

根據HNC概念節點表基元概念語義網絡的分類信息,以HNC概念基元符號體系和句類體系為基礎,總結了單字動詞處理規則。基元概念語義網絡有如下14大類: 0作用;1過程(狀態序列的時間及內容表現);2轉移(狀態序列的空間及形式表現);3效應;4關系;5狀態;6生理及本能活動;7心理活動及精神狀態;8思維活動;9理智活動;10專業活動;11追求活動;12社會性活動;13規約性活動(行為)。

規則一(0,作用類)

源于008,009,00a節點的單字動詞與源于效應概念的動詞(或形容詞)結合時,可以形成表達復合概念的動詞,形成作用—效應句或效應—作用句。

源于008節點的單字動詞(如“推”、“打”、“抓”等)、源于009節點的單字動詞(如“燒”、“熔”等)和源于00a節點的單字動詞(如“蛀”等)均是對作用的描述,通常形成基本作用句。例如:

一場大火‖燒了‖整個山林。(X0J) 

當這類詞與來源于效應概念的動詞(或形容詞)結合時,可以形成諸如“推倒”、“推翻”、“打敗”、“打傷”、“擊敗”、“擊潰”、“抓獲”等表達復合概念的動結式動詞(馬希文,1987),這些動詞對作用及其效應給出了比較完整的描述,形成作用—效應句或效應—作用句,但不形成塊擴作用句。例如:

經過八年艱苦抗戰~‖,我們‖終于打敗了‖日本侵略者。(MsXY0*22J)

推土機‖把違章建筑‖推倒了。(! 111XY50*22J)

在第一個句子中,“打敗”充當句子的全句EK,它是由“打”(v65008)與“敗”(va00b+vb30e12)組合而成?!按颉钡牧x項雖然多達二十余項,但當我們運用規則結合其緊鄰的“敗”來考慮時,便可以確定其HNC符號是“v65008”,“65”是HNC中所稱的本體層概念,還有下面例句中將出現的“62”,“9”等。而“008”是向本體層“65”的掛靠,稱為掛靠層。關于更詳細的HNC符號相關知識,參考文獻[2]有詳細的介紹,在此不詳述?!按颉闭窃从?08概念節點的單字動詞,而“敗”正是源于效應概念的動詞。

由源于008,009和00a這三個節點的動詞形成的塊擴作用句在漢語中大量存在,這類語句通常包含一個“得”字結構,且一般采取規范格式!1111或!1121。例如:

蚊子‖咬得‖[#我‖睡不著覺#]。(X03J,X03BC=[#SJ#])

女孩‖被繼母‖打得‖[#遍體鱗傷#]。

(! ! 1121X03J,X03BC=[#Y2J#]) 

規則二(0,作用類)

源于節點008b的單字動詞與其前面源于jw62 的詞形成基本作用句。

源于節點008b(局部動作)的單字動詞(如“持”、“蹬”等)在其前面加上一個jw62 的詞(如“手”、“腳”),形成作用句。例如:

紅軍戰士‖手持‖火把。(X0J)

三太子‖腳蹬‖風火輪……(X0J) 

第一個句子中,“持”(v64008ba)源于概念節點008b,而“手”(jw63yy)源于概念節點jw62。

規則三(2,轉移(狀態序列的空間及形式表現))

源于節點218,219的單字動詞與源于效應概念的動詞或形容詞組合,構成復合概念,形成轉移句類與效應句類的混合句類。

源于節點218的單字動詞(如“查”、“讀”、“翻”、“瞧”等)或者源于節點219的單字動詞(如“搜”、“探”等)常與源于效應概念的動詞或形容詞結合,構成復合概念,形成信息轉移—效應句。例如:

{“520”前|查清|“槍擊案”}‖已不可能。

(jD2,DB={!31T19Y30*21J})

專家‖已經探明‖\\{敦煌壁畫|變色}的原因/。

(T19Y30*21J,YC=\\{YS0*11J}/) 

在第一個句子中,“查”(v92188)是源于該概念節點218的,而“清”(uv810aa)則表示一種效應的形容詞。

規則四(5,狀態類)

源于節點518,519的單字動詞與其前面源于節點jw62 、jw63的詞組合構成一般狀態句。源于節點518的單字動詞(如“穿”、“戴”等)或源于節點519的單字動詞常與源于節點jw62-(生命體)或節點jw63的詞組合,構成一般狀態句。源于節點jw62-或節點jw63的詞一般在動詞前面。例如:

<身穿|8號球衣|的魯尼>‖正式加盟‖曼聯。

(T0, TA=)

美抗議者‖頭戴‖布什面具+%進行‖\\{反|戰}游行/。

(S0J +%P0J) 

在第一個句子中,“身”(jw62yy)源于概念節點jw62 ,而“穿”(v3308#(g518‖ju83e71))則源于概念節點518。

但源于節點51a(人的形態)的單字動詞卻一般不與其他詞搭配,而是獨立出現,例如:

他‖已經躺下了。(SJ) 

規則五(a,專業活動類)

源于a0節點的單字動詞與源于廣義效應類概念的詞結合形成作用—效應句。

一般作用類動詞還有一個特殊子類:泛動類動詞。泛動類動詞是動詞語義泛化(或虛化)的結果(楊麗君,2002),主要用在口頭語言中,如漢語的“搞”和“弄”等。泛動類動詞的特殊之處在于不能單獨形成合格語句。除此之外,泛動類動詞具有一般作用類動詞的兩個重要特性:可以與源于廣義效應類概念的詞結合形成作用—效應復合概念(如“搞好”、“弄壞”、“弄破”等),例如:

他‖把電腦‖弄壞了。(!11XY50*21J) 

在這個句子中,“弄”(va0)屬于泛動類動詞(概念節點a0),很顯然,“壞”(v352)則屬于效應概念節點3。

另外,可以通過“得”字結構形成塊擴作用句。

那些客人‖把客廳‖搞得[#亂七八糟#]。

(! 113X03J,X03B + X03C=[#S04J#]) 

其他的泛動類動詞還有:辦(va02)、干(va0)、鬧(va0)、做(v900+va0)。

規則六(0,作用類)

源于008,009節點的單字動詞與j類詞結合成詞,形成作用—效應句。

因為基本概念的大部分都能歸類到500節點,所以源于節點008或009的單字動詞一般與屬于基本概念(j類)的詞(如“好”、“扁”、“爛”等)組合成詞,形成作用—效應句。例如:

冰雹‖打爛‖瓜果蔬菜。(XY50*21J)

瘋狂歌迷‖襲擊‖華仔歌迷會+%并打爛‖玻璃大門。

(XJ +%XY50*21J) 

在第一個句子中,“打”(v65008)屬于概念節點“008”,而“爛”(ju61)從其HNC符號可以看出它屬于基本概念。

另外源于節點008或009的單字動詞還與屬于基本物概念(jw類)的詞(如“紅”、“紫”等表示顏色的詞)組合成詞,形成了作用—效應句。例如:

地上泥沙‖都被鮮血‖染紅。(!12XY30*21J)

舊報紙‖非常適合用來‖擦亮玻璃。(R710Y80*21J) 

從上面列舉的規則可以看出,從語言概念空間對單字動詞進行研究,視野豁然開朗。我們從語言空間看似無法歸類總結在一起的結構,在概念空間卻能發現其共同之處。

3 形式化規則以及程序實現

我們對語言現象進行分析總結來獲得規則,而最初發現和總結出來的規則是用自然語言描述的。要讓計算機利用這些規則處理自然語言語句,就必須用一套形式化的符號語言來描述這些用自然語言描述的規則。若用形式化符號語言來描述自然語言書寫的規則,就必須嚴格遵守符號語言的書寫規范,記住符號語言中各種符號的組成形式以及其代表的意義。形式化規則的過程是一個必須嚴格按照規則書寫規范來編寫的過程。

基于BNF范式、結合產生式規則表示給出規則形式化的一種方法。BNF(Backus Naur Form)范式即巴科斯—諾爾范式,主要用來描述給定語言的語法規則,具有簡單、清晰、明確和普適等特點。產生式規則的一般形式為:條件結果,即可以表示成“如果<條件>,那么<結果>”的規則。產生式規則的左邊部分確定了該規則可應用的先決條件,右半部描述了應用這條規則所采取的行動。在形式化了的產生式規則中,一旦產生式規則左邊的可應用先決條件得到滿足,計算機就會執行產生式規則右邊的行動。

在形式化規則描述語言中,其術語和使用方法如下:

=:該符號左邊是規則的條件表達式,右邊是規則的行動表達式。 

終結符:計算機程序不需要再解釋的符號。

表達式:一個由形式化規則語言符號集里的符號構成的符號串。

節點:( N),其中N 為整數,0表示程序正在訪問的某個數組的當前元素;1表示當前元素后的第一個元素; 1表示當前元素之前的第一個元素,依此類推。

字符串:“string”,用引號引起來的字符串。

變量: S VARIABLE,以字符 S 開始的字符串。

邏輯運算符:“,”和“|”,引號中的符號分別表示“與”和“或”。

關鍵字運算符:.KEYWORD.,用“.”括起來的字符串,是二目運算符。

函數:_FUNCTION(arg1,…,arg N ),以下劃線開始的字符串,函數參數用括號括起來,參數之間用逗號分隔。 

根據上述形式化規則的描述,我們將總結得到的單字動詞處理規則描述為形式化的規則,以便于計算機的處理與調用。例如上述規則三形式化的結果為

((_HNCsymbol((0)).INCLUDE."10989a"),(_ConceptCategory((0)).INCLUDE."v")),((_HNCsymbol(( 1)).INCLUDE. "jw63" )|(_HNCsymbol(( 1)). INCLUDE."jw62")) S newObject = _NEWOBJ((0)+( 1)), _SETOBJ( S newObject, "name","X_EK" ),_ADDOBJ ( S newObject) 

這條規則的處理過程就是若當前詞是HNC符號源于節點“10989a”的單字動詞,而且其前一個詞源于節點“jw63”或“jw62”,則將這兩個詞組合,為其名字屬性賦予“X_EK”(表示作用句的EK),同時將組合后的新詞作為一個新的節點加入到詞序列尾部。

利用計算機來處理自然語言,最重要的步驟是必須讓計算機能正確解釋與理解形式化規則。而正確解釋和執行形式化規則的關鍵則是找到形式化規則在計算機中的存儲結構。產生式規則的第一層級結構非常簡單,符號“”左邊是“條件”表達式,右邊是“結果”表達式。無論是條件表達式還是行動表達式,根據BNF范式和形式化規則描述語言,最終都能解釋到如下的終結符:字符串、節點、變量和函數。函數是一種特殊的終結符,其參數可以是表達式,所以最終也能解釋到終結符。 

在程序中,一條形式化規則,或者條件表達式,或者行動表達式都可以抽象為一個類。這個類包括表達式類型、表達式名稱、表達式參數列表和表達式參數指針列表。而類的參數指針列表將指向類本身,即該類(復雜表達式)的下一級表達式,形成一個復雜表達式的遞歸樹結構,當參數指針列表為空時,到達樹結構一個葉子節點。使用MFC(Microsoft Foundation Classes),表達式抽象類可以定義為

class Expression

{

public:

int type;

char name[256];

CStringArray csArrArgList;//參數列表

CPtrArray pArrArgList;

//存儲復雜表達式的子表達式(與參數列表一一對應)

//存儲的元素是Expression類型的指針

}; 

在這個遞歸定義的表達式抽象類的基礎上,對一條形式化規則的分析就是將條件表達式和行動表達式用遞歸函數分解到葉子節點(字符串、節點和變量);對一個條件表達式的解釋就是按照條件表達式的樹結構計算出第一層級的最終邏輯真值;對一個行動表達式的解釋就是當條件表達式為真時按照行動表達式的樹結構去執行相應的函數操作。

當規則解釋完成之后,接下來就是讀取自然語言語句,執行解釋過后的規則得出處理結果。過程流程圖如圖1所示。

4 單字動詞處理結果及分析

本文從2002年《人民日報》中選取了部分語料對單字動詞規則進行了分析測試,下面給出了上述六條規則在語料中的測試結果,如表1所示。

從表1可以看出,在所測試的語句中基本能夠將所能出現的情況正確處理,但也出現了錯誤的結果。存在錯誤是因為未能引入其他相關的知識,當把單字處理規則與整個句類分析過程融匯在一起時就能將錯誤消除。

對錯誤發生的原因進行分析研究,將錯誤主要分為三類:

(1)對不符合的情況卻用單字動詞處理規則進行了處理。

例如對規則三進行測試,下面這一句不符合單字動詞組合處理規則:

范志毅飛腳踹向小將引發噓聲一片。 

程序將它作為符合規則三來理解,實際上并不能這樣簡單地處理。在這個句子中,“飛”、“腳”、“踹”等均是單字詞,“飛腳”一般并不把它作為一個雙字詞收錄在知識庫中,因此在該句中應該首先優先組合“飛腳”,這屬于單字詞的研究,而本文目前只是對單字動詞進行研究,這種情況將會在對單字詞(包括單字非動詞)進行研究的時候解決。這也正是筆者下一步的工作。

(2)對符合的情況卻沒有應用單字動詞處理規則。

例如還是對規則三進行測試,下面這一句是應該用規則來進行處理:

這伙歹徒手持馬鞭刀、鐵棍…… 

程序并沒有理解它。這是因為在進行初步切分時,“徒手”是一個雙字詞,這樣初步分段處理字串后,“持”的前面并不是一個單字“手”,而是雙字詞“徒手”,其本質就是因為字串“歹徒手”有切分模糊。不過這個模糊在整個句類分析系統中是可以排除的。在進行句類假設驗證時,能夠消解“歹徒手”這一字串的切分模糊,排除“徒手”,然后再運用單字動詞處理規則,則可以得到正確的結果。

(3)組合后的結構含有的特定的意義

例如對規則一進行測試,下面例句中的“染紅”包含了特定的意義。

楊璞再次染紅。 

該例句中的“染紅”特指足球運動員在足球比賽中得到紅牌。對于這種情況必須需要一些常識性的知識才能讓計算機理解。單從概念基元符號體系與句類體系并不能理解其真正含義。

5 結束語

單字詞的意義復雜,義項眾多。對于單字動詞來說,這勢必造成其句類代碼也存在多種情況。單字詞的組合能力很強,這為單字詞的處理提供了重要的線索。當單字動詞與其他詞組合出現時,該語句的特征語義塊一般不能再單純地由單字動詞來感知,而一般由組合后的結構來感知,這時該語句的句類不同于由單純的一個單字動詞擔任特征語義塊的情況。本文對漢語中單字動詞動態概念組合的情況,在HNC的概念基元體系與句類體系的基礎上進行了探索,總結形成了單字動詞組合處理規則;并在BNF范式和產生式規則的基礎上,對規則進行了形式化,使規則能夠被計算機理解與執行。在目前的實驗結果中,出現了約10%的錯誤結果,錯誤產生的原因是因為我們沒有將單字動詞處理模塊與其他句類分析模塊結合起來。當單字動詞的處理融匯在句類分析系統當中時,目前存在的一些錯誤將逐一被消除。

參考文獻:

[1] 苗傳江.HNC(概念層次網絡)理論導論[M].北京:清華大學出版社,2005.

[2] 黃曾陽.HNC(概念層次網絡)[M].北京:清華大學出版社,1998.

[3] 張克亮.面向機器翻譯的漢英句類及句式轉換研究[D].北京:中科院聲學所,2004.

[4] 馬希文.與動結式動詞有關的句式[J].中國語文,1987,(6):424-441.

[5] 楊麗君.動詞“搞”在現代漢語中的語用考察[J].語言文字應用,2002,(2):59-66.

[6] 晉耀紅.基于HNC理論的句類分析系統的設計與實現[D].北京:中國科學院聲學研究所, 1998.

[7] 劉群,俞士汶.漢英機器翻譯的難點分析[C].1998中文信息處理國際會議論文集,北京:清華大學出版社,1998.507-514. 

作者簡介:孫雄勇(1978-),男,湖南人,博士研究生,研究方向為自然語言理解、機器翻譯、HNC(概念層次網絡)理論及技術;張全 (1968-) ,男,陜西人,研究員,博導,研究方向為HNC自然語言處理理論及相關技術、語言知識的表示與獲取及處理、機器翻譯、信息檢索與信息抽取等。

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 免费毛片a| 五月婷婷欧美| 丰满的熟女一区二区三区l| 国产一区二区三区精品欧美日韩| 中文字幕在线播放不卡| 国产特一级毛片| 国产成人免费观看在线视频| 国产精品久久久久久搜索 | 最新国产精品第1页| 国产在线无码一区二区三区| 波多野结衣国产精品| 免费a级毛片18以上观看精品| 91亚洲精品第一| 黄色福利在线| 91精品综合| 国产激情国语对白普通话| 精品视频免费在线| 亚洲国产成人超福利久久精品| 国产免费网址| 亚洲永久精品ww47国产| 国产综合另类小说色区色噜噜| 成人午夜天| 国产无遮挡裸体免费视频| 女同久久精品国产99国| 爱爱影院18禁免费| 无码人中文字幕| 国产jizzjizz视频| 免费在线视频a| 欧美专区在线观看| 国产精品久久久久久久久| 毛片基地美国正在播放亚洲 | 国产成人禁片在线观看| 久久亚洲精少妇毛片午夜无码| 2021亚洲精品不卡a| 99视频在线免费| 亚洲欧美人成电影在线观看| 欧美三级日韩三级| 国产剧情一区二区| 在线国产你懂的| 日韩精品亚洲一区中文字幕| 久久精品一品道久久精品| 国产传媒一区二区三区四区五区| 萌白酱国产一区二区| 国产精品成人一区二区| 青草视频网站在线观看| 91无码人妻精品一区| 国产a在视频线精品视频下载| 国产尤物在线播放| 欧美一区二区精品久久久| 狼友视频一区二区三区| 欧美三级不卡在线观看视频| 伊人91视频| 老司机久久99久久精品播放| 国产91精品久久| 在线观看精品国产入口| 日本不卡视频在线| 日日拍夜夜操| 日韩国产高清无码| 一级高清毛片免费a级高清毛片| 亚洲成人在线免费| 99精品视频在线观看免费播放| 日本亚洲最大的色成网站www| 五月婷婷精品| 久久国产精品夜色| 综合人妻久久一区二区精品 | 久久精品视频亚洲| 国产 在线视频无码| 欧美在线一二区| 99久久亚洲综合精品TS| 成年看免费观看视频拍拍| 亚洲中文精品人人永久免费| 国产激情国语对白普通话| 国产亚洲男人的天堂在线观看| 欧美97欧美综合色伦图| 亚洲三级色| 日韩av资源在线| 91美女视频在线观看| 波多野结衣在线一区二区| 不卡视频国产| 亚洲免费毛片| 亚洲妓女综合网995久久| 亚洲精品成人7777在线观看|