先秦人名識別初探

2009-04-29 00:00:00汪青青

文教資料 2009年18期

摘要：先秦人名和現代人名的構成方式和上下史語境有很大不同。本文以先秦文獻《春秋左傳》為突破口，對書中的人名進行了統計分析，挖掘其內部特征及分布特征。并且利用CRF模型對先秦人名的識別進行了初步的嘗試。在開放測試中，該方法取得了92.48％的準確率。

關鍵詞：先秦人名特征識別 crf型

命名實體識別是自然語言處理的重要內容。但目前這方面的研究主要集中在現代文獻領域，古籍中命名實體的識別是古典文獻信息化進程中的關鍵所在，是一個值得探索研究的問題。

人名在先秦文獻中占據很大的比例。據我們對《春秋左傳》27萬多字的語料統計：其中人名一共出現12900多次，人名總字數為28400多個字，占全書總字數的10.41％。因此，是否能正確識別人名直接影響著自動分詞的精度。此外，先秦人名識別還是解決先秦人名異名同指和同名異指的基礎，也是構建先秦人名知識庫的基礎。

一、先秦人名的特點

先秦人名和現代人名的構成方式及其上下文語境和現在有很大的差別。因此，我們首先要充分挖掘先秦人名的內部特征和分布特征。

(一)內部特征

1、構成成分多樣

現代人名一般只有“姓氏”和“名字”兩種構成成分，而先秦漢語中，情況要復雜得多。其構成成分有：姓、氏、名、字、謚號、爵位、職官、尊，親稱和“氏”字等。

A、“姓”和“氏”

今天我們一說到姓和氏，大家都覺得是一回事。但在先秦時代，姓和氏是有嚴格區別的。先秦姓氏分而為二，男子稱氏，女子稱姓。姓是用來別婚姻的，氏是為了明貴賤的。姓者，統其祖考之所自出，比較穩定；氏者，別其子孫之所自分，會隨著封邑、官職的改變而改變(如：衛鞅、公孫鞅、商鞅)，因此有時一個人會有幾個氏或者父子兩代不同氏。

在先秦文獻中，姓的數量很少，據統計先秦的古姓的數量大約三十多種。《左傳》中一共出現了二十幾種；而氏的數量比姓多得多，在《左傳》中共有657個氏，主要是以國(如：晉重)、以邑(如：隨會，范會)、以官(如：中行桓子)、以字(包括名，如：國參)為氏，這四種命氏發式產生的氏名473個，占70％以上。

B、“名”和“字”

先秦人既有名，又有字。名是幼時起的，供長輩呼喚。男子到了二十歲成人，要舉行冠禮；女子十五歲許嫁時，舉行笄禮，也要取字。供朋友呼喚。古人尊對卑稱名。卑自稱也稱名：對平輩或尊輩則稱字。當名和字連稱時要先字后名。如：孟明(字)視(名)。

先秦時人名以單字為主。當時凡有文化教養的人，都以取雙字名為恥，幾乎形成全社會清一色的單字名。如孔丘(孔子)、莊周(莊子)等都是單字名。貴族男子的字一般由“行次(伯艋、仲、叔、季)+字+父庸(二字古通用，男子的美稱)”三部分組成。例如：伯(排行)禽(字)父(男子的美稱)其中，行次和“父／甫”是可以省略的。男子取字還常在前面加“子”(“子”是對男人的尊稱)。例如：冉求，字“子有”。先秦貴族女子也有字，一般由“行次+姓+字+母，女”四部分構成。例如：孟(排行)妊(姓)車(字)母(女性)。其中，行次和“母，女”也可以省略。有時甚至可以單稱“某母”或“某女”。

C、“爵位”和“謚號”

爵位，又稱封爵、世爵，是古代皇族、貴族的封號，用以表示身份等級與權利的高低。先秦時”爵位”大致分為公、侯、伯、子、男五級。謚號是皇帝、王或有一定社會地位的人死了后，朝廷或后人按其生前有無功績，評定褒貶給予的稱號。謚號一般是固定的一些字，這些字被賦予特定的涵義。謚號大致可以分為三類：A，表揚的，例如：莊、文、武、景、烈、昭、明、睿、康、穆等；B，批評的，例如：厲、靈、煬等；c，同情的。哀、懷、愍、悼等。上古謚號多用一個字。也有用兩三個字的。例如：趙孝成王。

2、內部結構復雜

現代中國姓名結構簡單，即：姓氏+名。但在先秦，姓名的結構復雜多樣，而且女子的人名結構和男子的人名結構也不相同。

A、女子人名結構

婦女姓名主要涉及到以下幾種成分：姓、氏、字、名、謚號、尊，親稱和“氏／婦”字，這幾種成分除了姓以外，其它幾種姓名構成成分視具體情況決定取舍。先秦女子稱姓方式主要有以下幾種：

A、氏+姓，如：“許(夫氏)姬(姓)”。

B、字+姓，如：“孟姜”。

c、謚+姓，如：懷(夫謚)贏(姓)。

D、姓+“氏”字，如：“姜氏”。

這幾種形式在先秦文獻中出現頻率較高，除此之外，先秦女子還有單稱姓、名+姓、“婦”字+姓、特殊稱謂+姓、尊／親稱+姓、氏+字+姓、氏+謚+姓、氏+姓+名、姓十字+姓+名等多種形式，但這些形式出現的頻率很低。

B、男子人名結構

男子的姓氏制度與女子的姓氏制度是大相徑庭的。男子是絕對不稱姓的，這一點與女子必須稱姓的原則剛好相反。男子姓名主要有以下幾種構成成分：氏、字、名、排行、謚號、尊，親稱、爵位和職官等。男子稱氏的方式主要有以下幾種：

A、氏+字，名，例如：南(氏)季(字)。

B、氏+爵位，例如：齊(氏)侯(爵位)。

c、氏+謚號+爵位，例如：鄭(氏)莊(謚號)公(爵位)。

D、氏+字+名，當氏和名同時相稱時，一般字放在名的前面。祭(氏)仲(字)足(名)。

以上幾種稱氏方式是男子稱氏最常用的形式。除了這些，還有一些其它稱氏方式。如：“單稱氏”、“氏+職官”、“氏+親稱”、“氏+謚號+-Sz”、“職官+氏+字”、“氏+爵位+名”。

3、人名用字

A、在前315的左傳訓練語料中，一共出現漢字2929個，其中可以作為人名用字的有1021個。由此可見人名用字范圍廣、分布松散。

B、有些人名用字兼類的比例雖然大。但有的是很有規律的。例如：“公”在語料中出現了1630次。作為非人名用字的749次，其中以單字名詞出現的就有546次，還有42次是在名詞“公子”中出現。

C、人名用字雖多。其中有幾類人名構成成分作為人名用字的頻率較高：如：部分爵位、姓和字中的“排行”等，具體情況如下表

4、人名長度

我們對《春秋左傳》前面315的語料中出現的七萬多次人名的長度進行了統計，具體情況如下表：

這里的出現頻率是指在真實文本中某種長度人名的出現次數和所有人名出現次數之比。由上表可知，在先秦時期，雙字人名和三字人名占絕對的優勢。

(二)分布特征

1、上下文限制性成分

在語料中出現的人名限制性成分，主要有：

A、指界動詞：日、言、謂、說、葬、聞、生、卒、帥、出奔等。

B、成串人名之間用頓號、“及”和“與”等連詞連接。

2、句法成分

先秦人名在文中充當主語和賓語占絕對的優勢。如：“鄭伯克段于鄢”，其中，“鄭伯”充當句子的主語，“段”充當句子的賓語。

二、基于CRF的人名識別方法

(一)先秦人名標注規范

A、先秦人名整體作為一個分詞單位，標注為“nr”。

B、國名和人名連用時，有的是以國為氏(如：魯莊公中的“魯”)，有的還存在爭議(如：“宋向榮”中的“宋”)，這種情況我們一律視為人名的氏來處理，但如果國名單獨出現，則標為“ns”。

C、官名和人名連用時，同樣有的是以官為氏(如：右宰丑)，還有的也存在分歧，我們也一律視其為以官為氏。但如果官職名單獨出現，則是普通名詞。

D、“年號”和“××年”中的年號是一種紀年法，其中的年號雖形同人名，但不是人名(如：“昭公四年春”中的“昭公”)，而是時間詞的一部分。

E、某些稱謂帶有普通名詞性質，如果單獨出現，如：“公”、“王”、“太子”、“公子”、“公繇”等，有些雖然在一定上下文專指某個人，但我們把其標注為名詞。

(二)語料的預處理

A、對原始語料《春秋左傳》的文本進行校對，然后人工分詞并標注詞性。

B、將語料的前315作為訓練語料，后2／5作為測試語料。

C、將標注文本轉化為cRF格式文本。

(三)CRF模型簡介

條件隨機場模型(Conditional Random Fields。CRF)是由Lafferty在2001年提出的一種典型的判別式模型。它在觀測序列的基礎上對目標序列進行建模，重點解決序列化標注的問題。條件隨機場模型既具有判別式模型的優點，又具有產生式模型考慮到上下文標記間的轉移概率，以序列化形式進行全局參數優化和解碼的特點，解決了其他判別式模型難以避免的標記偏置問題。

本文的實驗使用了條件隨機場模型，采用了TakuKu，do編寫的工具包“CRF++-0.51”進行訓練和測試。本文是以單字作為基本模型符號，設計了兩種特征集進行了實驗。

(四)特征模板和標記集的選擇

1、特征模板

我們選用了6個一元特征模板，即：C-1，C0，C1，C*1 CO，COC1，C-1 C1。

2、標記集

實驗1：我們選用了五詞位標記集，即單字人名(Ⅲ_s)，人名首字(nr_B)，人名中間字(nr_I)，人名尾字(nr_E)以及非人名用字(O)。具體標注例子如下：實驗2：利于了詞性和詞位信息。具體標注例子如下：

(五)規則后處理

我們還利用了一些規則對識別的結果進行后處理，如果識別出來的人名是以下幾種情況中的一種。則排除該人名：A，識別出的人名是“公”、“王”、“子”、“太子”“公子”和“公孫”等名詞。B，識別出的人名是“軍尉”、“司馬”、“司空”、“輿尉”、“候奄”和“亞旅”等官職名。C，識別出的人名“×公”在“x公xx年”的結構中。D，識別出的人名長度大于六。

(六)實驗結果及分析

根據測試集和訓練集的不同關系，可以將評測分為封閉測試和開放測試。測試的結果采取了常用的3個評測指標，即準確率(P)、召回率(R)和綜合指標(F)來評測人名識別的結果。

具體的實驗結果如下表：

(表4實驗結果)

從上面的兩個實驗對比可以看出：在這兩個實驗的封閉測試中都取得了很好的效果。但在開放測試中效果有明顯的差別：在實驗1中，只利用簡單特征就達到了較高的正確率，但召回率較低；在實驗2中，利用了詞性特征，有效地提高了召回率，但隨著特征數量的增加，也產生了一些“噪聲”特征數據，影響模型的訓練和識別速度與正確率。

三、結論和將來的工作

本文的研究對先秦人名自動識別進行了嘗試。取得了一定的效果。我們未來的主要研究工作是進一步擴大語料的規模，我們準備對25種先秦傳世文獻進行處理@。從中充分挖掘先秦人名的特征，提高人名識別的正確率和召回率。同時，我們進行人名的識別不僅僅是為了給人名加上標記而已，而是為了研究異名同指和同名異指服務，從而為自動構建人名知識庫奠定基礎。

注釋：

①http：／／crfpp.sourceforge.net／.

②陳小荷，先秦文獻的信息處理芻議，中文信息學會會議上的發言，2008，11，23

參考文獻：

[1][晉]杜預，春秋左傳集解，上海古籍出版社，1977

[2]陳絮，商周姓氏制度研究，商務印書館，2007

[3]劉開瑛，中文文本自動分詞和標注，商務印書館，2000

[4]楊伯峻，春秋左傳注，中華書局，1981

[5]張淑一，先秦姓氏制度考索，福建人民出版社，2008

[6]孫茂松，黃昌寧，高海燕，方捷，中文人名的自動辨識，中文信息學報，1995，(02)

[7]嚴軍，《左傳》姓氏相關問題的探索，浙江學刊，1994，(04)

基金項目：南京師范大學211工程三期重點學科建設項目“語言科技創新及工作平臺建設”子課題。

文教資料2009年18期

文教資料的其它文章: 《春秋左傳正義》校讀小札; 試析王梵志詩對比手法的運用; 革除弊病提升服務發揮功用; 荒誕的詩意; 弱化語文學習中的定勢思維; 論蔣捷詞的“曲化”特征