摘要:以概念層次網絡(HNC)概念基元符號為基礎,探索漢語語句中基本命名的構成方式與特點,為計算機識別基本命名提供了關鍵信息。最后在語料中對規則進行了測試并給出了結果。
關鍵詞:基本命名; 構成; 規則; 概念層次網絡
中圖分類號:TP311.5文獻標志碼:A
文章編號:1001-3695(2007)07-0016-03
0引言
漢語理解處理需要從語言層面映射到概念層面來進行。在對漢語文本進行理解處理時,對于連用的兩個或多個字,應作何種切分并不重要,重要的是連用后的內容效應,即它們是否應作為一個整體的語義單位來理解。這種語義單位也就是漢語理解處理意義上的詞。因此,對漢語文字文本的處理重點是合而不是分。從此種意義上說,什么是詞并不重要,重要的是對多字的組合結果有清晰的認識。字知識庫要對漢字每個義項的意義及其組合能力有準確而全面的描述,即在文本自動處理中單字是如何積字成詞、成短語、成語義塊的。
據統計,原國家語委漢字處制定的《現代漢語常用字表》中的2 500個常用字可以覆蓋97.97%的漢語文本,1 000個次常用字覆蓋率達1.51%,合計(3 500字)覆蓋率達99.48%。這是漢語“字義基元化,詞義組合化”特點的充分體現;表明為數有限的充分基元化的漢字是漢語特有的結構元,同時也是漢語中最基本的概念基元。用這些漢字及其組合能描述漢語中的絕大多數概念。
基本命名是HNC所謂動態新詞的一種類型。這里所指的動態新詞,是指在文本處理中,由兩個或多個字串接而成的、經過辨認處理后需要作為一個意義單位進行理解的組合成分。例如在“張三打碎了杯子”一句中的“打碎”是動態新詞。這是因為在理解處理中,需要把“打碎”看做是全局的特征語義塊,同時“碎”字又有動詞義項,存在單獨做特征語義塊的可能,會干擾對全局特征語義塊的判斷。可見,這里所謂的動態新詞與傳統語言學對新詞的定義并不一致。后者是從分詞的角度認為“打碎”不是一個詞,而應該切分成“打”和“碎”兩個詞;本文認為“打”與“碎”應該組合為理解處理過程中的一個意義單位。
動態新詞實質上是詞典上未收錄或沒必要收錄的漢字優先組合的意思,是漢字“積”的意思;它是概念空間的語義單位,與語法學上定義的詞并無聯系。它包括兩種基本類型,即動態動詞新詞和動態名詞新詞。動態名詞新詞即是基本命名。所謂基本命名是人們依據一定的命名構成模式對客觀事物的指稱。這些命名構成模式是建立在對現有基本命名歸納概括的基礎上的。人們對新事物的命名往往依據已有的命名構成模式來進行,由一定的構成模式可以派生出許多對新事物的命名,而這類命名往往不見于詞表中。對命名構成模式的分析并輔之自動識別機制,會提高漢語處理系統對名詞新詞的識別效率。某一基本命名內在構成模式的揭示,關鍵在于揭示這一基本命名中各個單字之間的語義組合關系。
漢語命名的習慣是表達事物范疇的核心字在命名最后,修飾說明成分在前。因此,漢語中的基本命名以偏正型組合為主。下面列出三組典型的基本命名:
玻璃杯,鐵皮車;攪拌機,屠宰刀;成績榜,風景畫。
碰到一個新的基本命名時,人們一般可以依據潛在的基本命名構成模式的知識推知其基本含義。例如,人們可以通過“割草”“機”兩個字詞的含義就可以理解“割草機”是一種用于割草的機器。而對于無法經過辨認分析理解其含義的命名,可以將其收錄進詞庫中,如表達臺灣海峽兩岸政黨及民眾意思的“兩岸”。如果在詞庫中不存在,由于兩者的含義無法通過對字的組合分析得到,從漢語信息處理的角度而言,它們應作為應登錄詞看待。如果基本命名已經非常常用,可以考慮登錄進詞庫中,如“貨車”等。
對于基本命名的處理一般來說屬于串內處理。串內處理是指以語串為基本處理單位的種種作業?;久幚碇饕ɑ久嗽煳锔拍钐幚怼⒒疚锔拍钐幚?、結構概念處理、物化概念處理、信息物概念處理以及兩類特殊概念的處理等內容。
1基本命名構成特征分析
因為漢語的特點,基本命名構成詞語語義的重心往往是最后一個字詞,如“青石路”“保衛部”等。重心可以是一個單字,也可以是一個多字詞語,如“修理工人”“勘探設備”等。該文主要是對單字情況的處理進行研究。在實際處理中,多字詞語的處理與單字處理類似。依據基本命名末尾的字詞概念,對基本命名的構成概念進行總結分類。前面提到過,基本命名是人們依據一定的命名構成模式對客觀事物的指稱。因此,基本命名概念離不開具體概念p、w。基本命名中末尾詞概念有關聯的概念有
(1)前綴成分。例如構成基本命名的qp類概念詞語“阿”“老”等。在南方很多地方,叫熟人的稱呼常為“阿”加上其名字中的一個字,如阿亮、阿寶等;另外在口語中??梢砸姷健袄蠀恰薄袄先边@樣的稱呼。
在漢語中,能夠作為前綴成分的詞語不多。本文對于前綴成分的研究,不僅僅局限于qp類概念,而是包括了所有前綴成分,如“超”“非”等。這些詞語所參與構成的新詞并不屬于基本命名,但它們與基本命名的構成方式有近似之處,因此一并在此闡述。
(2)后綴成分hSp。例如,“員”“婆”等。經??梢栽谡Z句中看到“接生婆”“保衛員”等基本命名。
2基本命名的構成
分析基本命名的構成方式,就是要找出基本命名各個概念詞語之間存在的組合規律,為計算機自動辨認基本命名提供依據。限于篇幅,本文只對以人造物概念pw為詞尾的基本命名構成方式進行陳述。
人造物概念包括人造物概念pw、現代人造物概念w9以及效應物概念rw。這一類概念所表示的意義是指具體的物體且都與人有關,如交通類概念:車、船、道、錨等。
2.1通用組合方式
對于這一類概念構成基本命名方式的特點進行了總結。對于不同概念節點,其組合的特點會有所不同,或者是側重方式有所不同。其組合特點主要有以下七類:屬性、用途、品牌名或編號、所屬、產地、專業活動類型、同行優先組合。
下面討論前五類。
(1)屬性。作為一個人造物,它必然有自己的屬性,包括大小、顏色、構成材料(部件)等。在漢語的基本命名構成方式中,利用物體的屬性來修飾物體是一種常見且重要的方式。主要有三種構成方式:
①與物類概念組合。pw概念前面緊鄰詞屬于jw(基本物概念)或pw(人造物概念)。例如:木船、鋼船和氫氣球、柴油燈。另外,人們常遇到這樣的情況,pw類概念前面的詞需要現場組合,如“三輪”“鐵皮”等。這里的處理常常也屬于基本命名處理。這時的處理比較復雜,一般來說,這種情況下構成基本命名的詞語都是單字詞語。例如:鐵皮船、羊毛鞋和三輪車、獨木橋。其中第二組可以歸納為u + w +pw的形式。其中的u包括表示數量的單字詞語,例如上面例子中的“三”“獨”等。
②與表示顏色的基本物屬性概念組合。顏色是物體的屬性之一,因此這類概念必然可以與表示顏色的基本物屬性概念組合,如與“紅”“白”“藍”等表示顏色的詞語組合:紅衣、藍帽、白船、黑鞋。
這類基本命名的處理相對來說比較容易。但是,特別需要注意的是目前一些約定俗成具有特殊意義的表示方法。例如:“黑車”,并不是指它一定是一輛黑色的車,而是指沒有經營許可而私自做出租車使用的車。另外,在港臺地區,“白車”也特指救護車,并不一定是指白色的車輛。
③形狀。形狀也是物體的基本屬性之一。因此,與形容物體形狀的詞語組合,構成基本命名也是構成方式之一。它的典型形式是u/g+“形”+pw。例如:蛇形燈、蟲形機和圓形杯、方形桌。
另外,還有兩種構成方式:
①直接由狀態(5)下的u類概念詞語修飾構成。例如:方桌、圓燈。
②由pw概念或jw概念詞語修飾,描述人造物的形狀。例如:面包車、牛頭燈。
(2)用途。作為人造物概念,它必然有其一定的使用價值,因此表示人造物用途的概念一般屬于人類特有的本能活動(65)或社會性活動(c)或理智活動(9)這三類概念;另外就是屬于該人造物產生的效應概念(3)。
①與人類活動類概念組合。人造物概念前面的詞語若是v概念詞語,一般屬于人類特有的本能活動(65)或社會性活動(c)或理智活動(9)。例如:消防車、救護車、宣傳車、預告車。
②與3(效應)節點下的v概念詞語組合構成基本命名。例如:防護堤、擋風墻、隔斷墻。
③單字組合形式:v+w+pw。一般v概念詞語和物類詞語都是單字詞。例如:運油車、殺豬刀。
(3)品牌名或編號。這是人造物構成基本命名的一種簡單的方式。它通常表示特定的一個或一類人造物。例如:東風車,奔馳車;十號船,五號橋;孔明碑,屈原碑。
對于品牌名稱,需要建立小專家庫。
(4)所屬。這一類型表示該人造物所屬概念。一般包括:
①與機構名稱pe組合,如“廠”“院”“校”等。例如:廠車、校車、院旗、所徽。
②與地名組合,如“北京”“遼寧”等。例如:北京車、遼寧車。
這里表示該車的車牌屬于哪個地區。而下面要提到的“美國車”“德國車”則表示該車的產地。
(5)產地。前面已經提到過的,當pw概念前面是國別名或地名時,常表示該pw類概念的產地,與pw概念組合構成基本命名。例如:德國車、美國車和瑞士表、日本刀。
“車”“船”等運輸工具類概念比較特別,當它們的前面是表示地區的概念時,一般表示該人造物的所屬特征;而除了“車”“船”等運輸工具外,其他的人造物概念前面是表示地區的概念時,表示的是該人造物的產地。例如:上海表、溫州鞋。
2.2特殊組合方式
對于人造物概念,除了上面提到的七種通用的組合方式外,對具體的某些概念,它還存在著自己的構成特點。
(1)內容。這可以分為兩類:
①具有存儲功能的人造物與其存儲的事物組合,構成基本命名。具有存儲功能的人造物概念節點主要有:
表示物傳輸的概念節點22a,如“渠”“道”;
表示物自身轉移的概念節點22b,如“車”“船”;
表示選存棄效應中選存意義的概念節點381,如“缸”“杯”“碗”;
表示狀態時空序列的空間描寫的概念節點5002,如“場”“坪”。
它們可以與其所存儲的事物組合,構成基本命名。例如:水渠、糧道、貨車、客船和酒缸、茶杯、雞場、飛機場。
②具有某個功能的人造物與它作用的事物組合,構成基本命名。這里具有作用功能的人造物概念節點主要指s4節點。例如:水果刀、草刀。
需要特別注意的是,當“杯”表示具有存儲功能的pw概念時,與它組合的概念一般是物概念。而當它前面鄰接的概念不屬于物概念時,則“杯”屬于具有社會性活動的人造物概念(其HNC符號是:pwc3619,l5,vg973)。例如:世界杯、尤伯杯。形成這種基本命名時,一般都會加上雙引號。
(2)制作途徑。pw類概念下的概念節點65221表示的是一種食品。該概念節點下的單字詞語包括餅、酒、湯等。它與6631(食品制作)概念節點下的v概念詞語組合,構成基本命名,形成一種食品名稱。例如:蒸糕、煎餅。
3形式化規則及程序實現
對語言現象進行分析總結獲得規則。最初發現和總結出來的規則是用自然語言描述的。要讓計算機利用這些規則處理自然語言語句,就必須用一套形式化的符號語言來描述這些用自然語言描述的規則。若用形式化符號語言來描述自然語言書寫的規則,就必須嚴格遵守符號語言的書寫規范,記住符號語言中各種符號的組成形式以及其代表的意義。形式化規則的過程是一個必須嚴格按照規則書寫規范來編寫的過程。
本文基于BNF范式、結合產生式規則表示給出規則形式化的一種方法。根據上述形式化規則的描述,將總結得到的單字動詞處理規則描述為形式化規則,以便于計算機的處理與調用。例如對通用組合方式第一類構成方式形式化的結果為
((_HNCsymbol((0)).INCLUDE.\"pw\"),(_ConceptCategory((0)).INCLUDE.\"pw\")),((_HNCsymbol((-1)).INCLUDE.\"jw\")|(_HNCsymbol((-1)).INCLUDE.\"pw\"))SnewObject=_NEWOBJ((0)+(-1)),_SETOBJ(SnewObject,\"name\",\"j_Name_pw\"),_ADDOBJ(SnewObject)
這條規則的處理過程就是:若當前詞是pw,即人造物概念,且它的前一個詞源于節點jw(基本物概念)或pw(人造物概念),則將這兩個詞結合,給它的名字屬性賦予j_Name_pw(表示基本命名的一種類型);同時將組合后的新詞作為一個新的節點加入到詞序列尾部。
利用計算機來處理自然語言,最重要的步驟是必須讓計算機能正確解釋并理解形式化規則。正確解釋和執行形式化規則的關鍵則是找到形式化規則在計算機中的存儲結構。產生式規則的第一層級結構非常簡單,符號“”左邊是條件表達式,右邊是結果表達式。無論是條件表達式還是行動表達式,根據BNF范式和形式化規則描述語言,最終都能解釋到如下的終結符:字符串、節點、變量和函數。函數是一種特殊的終結符,其參數可以是表達式,所以最終也能解釋到終結符。
在程序中,一條形式化規則,或條件表達式或行動表達式都可以抽象為一個類。這個類包括表達式類型、表達式名稱、表達式參數列表和表達式參數指針列表。而類的參數指針列表將指向類本身,即該類(復雜表達式)的下一級表達式,形成一個復雜表達式的遞歸樹結構。當參數指針列表為空時,到達樹結構一個葉子節點。使用MFC(Microsoft Foundation Classes),表達式抽象類可以定義為
class Expression
{public:
int type;
char name[256];
CStringArray csArrArgList; //參數列表
CPtrArray pArrArgList;
//存儲復雜表達式的子表達式(與參數列表一一對應)
//存儲的元素是Expression類型的指針};
在這個遞歸定義的表達式抽象類的基礎上,對一條形式化規則的分析就是把條件表達式和行動表達式用遞歸函數分解到葉子節點(字符串、節點和變量);對一個條件表達式的解釋就是按照條件表達式的樹結構計算出第一層級的最終邏輯真值;對一個行動表達式的解釋就是當條件表達式為真時按照行動表達式的樹結構去執行相應的函數操作。
當規則解釋完成之后,接下來就是讀取自然語言語句,執行解釋后的規則,得出處理結果。
4結束語
從2002年人民日報語料選取了部分語料對
基本命名構成規則進行了分析測試。下面給出了五條規則在語料中的測試結果,如表1所示。
從表1可以看出,在所測試的語句中基本能夠將所能出現的情況正確處理,但也出現了錯誤的結果。存在錯誤是因為未能引入其他相關知識,當把處理規則與整個句類分析過程融匯在一起時就能夠將錯誤消除。
上述列出的種種構成方式并不能解決人造物構成基本命名的全部問題。雖然同屬于人造物pw類概念,但各個詞語都有自身的特性。其構成方式必然會有自己的特點。尤其是有些詞語非常特別,可以說一個詞語就代表了一個類型,如“擺”可以組成:擺鐘、擺床。這里的“擺”是一個v概念詞語,表示該物體的一個突出特征。也可以將兩個單字倒過來組成:鐘擺、床擺。這里的“擺”是一個人造物pw類概念,是表示“鐘”或“床”的一個部件。總之,這種極具個性化的特征還需要不斷總結完善。
參考文獻:
[1]苗傳江.HNC(概念層次網絡)理論導論[M].北京:清華大學出版社,2005.
[2]黃曾陽.HNC(概念層次網絡)[M].北京:清華大學出版社,1998.
[3]張克亮.面向機器翻譯的漢英句類及句式轉換研究[D].北京:中國科學院聲學研究所,2004.
[4]晉耀紅.基于HNC理論的句類分析系統的設計與實現[D].北京:中國科學院聲學研究所,1998.
[5]石定栩.漢語的定中關系動—名復合詞[J].中國語文,2003(6): 483-495.
[6]張伯江.施事角色的語用屬性[J].中國語文,2002(6):483-494.
[7]俞士汶,朱學鋒,王惠,等.現代漢語語法信息詞典詳解[M].2版.北京:清華大學出版社,2003.
[8]呂淑相.現代漢語八百詞[K].北京:商務印書館,1980.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”