基于新詞發(fā)現(xiàn)的古典文學(xué)作品分詞方法研究

2021-09-28 10:11:24高嘉琦趙慶聰

計(jì)算機(jī)技術(shù)與發(fā)展 2021年9期

關(guān)鍵詞：文本方法

高嘉琦，趙慶聰,2

(1.北京信息科技大學(xué) 信息管理學(xué)院，北京 100192;2.綠色發(fā)展大數(shù)據(jù)決策北京市重點(diǎn)實(shí)驗(yàn)室，北京 100192)

0 引言

中國(guó)歷史文化源遠(yuǎn)流長(zhǎng)，有大量的古典文學(xué)作品流傳至今，這些作品展現(xiàn)了中華民族從古至今的人文精神，同時(shí)也傳承了上下五千年以來(lái)優(yōu)秀的傳統(tǒng)價(jià)值觀，是一筆寶貴財(cái)富。對(duì)古典文學(xué)作品進(jìn)行深入的分析和研究，在文化傳承、歷史研究、人文教育等方面都有十分重要的意義。

對(duì)古典文學(xué)作品進(jìn)行文本挖掘，分詞是基礎(chǔ)。目前現(xiàn)代漢語(yǔ)的分詞方法技術(shù)已較為成熟，而對(duì)古代漢語(yǔ)的分詞處理尚處于探索、驗(yàn)證階段。國(guó)內(nèi)學(xué)者對(duì)古文分詞已進(jìn)行的研究有：石民[1]等采用條件隨機(jī)場(chǎng)模型，基于兩個(gè)模板進(jìn)行古文分詞標(biāo)注一體化，使得準(zhǔn)確率和召回率都有所提升。王嘉靈[2]選用條件隨機(jī)場(chǎng)模型，以《漢書(shū)》為語(yǔ)料，并選擇了核實(shí)的特征模板，制定了《漢書(shū)》分詞規(guī)范，進(jìn)行分詞實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果的F值達(dá)到94.4%。王曉玉等[3]選用中古時(shí)期的語(yǔ)料，選用條件隨機(jī)場(chǎng)和詞典的方法訓(xùn)練分詞模型，解決了人工分詞不一致問(wèn)題。楊世超等[4]采用帶有古漢語(yǔ)特征的條件隨機(jī)場(chǎng)模型作為特征模型，獲得了較好的分詞效果。

上述研究都需要大量的人工標(biāo)注，費(fèi)時(shí)費(fèi)力，缺乏通用性，也未能提出一種能快速構(gòu)建古漢語(yǔ)詞庫(kù)的有效方法[5]。古典文學(xué)作品中有大量的詞匯已不在現(xiàn)代使用，故也未收錄到現(xiàn)代漢語(yǔ)詞典中，這是造成分詞效果差的主要原因，如果對(duì)古典文學(xué)作品進(jìn)行新詞發(fā)現(xiàn)，構(gòu)建古漢語(yǔ)分詞詞典，能有效提高分詞的準(zhǔn)確率。目前，中文新詞發(fā)現(xiàn)的研究主要集中在現(xiàn)代文語(yǔ)料，由于古文在字詞、短語(yǔ)和語(yǔ)法結(jié)構(gòu)方面都與現(xiàn)代文有所不同，所以，現(xiàn)有的現(xiàn)代文語(yǔ)料上的新詞發(fā)現(xiàn)技術(shù)無(wú)法直接應(yīng)用于古文語(yǔ)料[6]。文中提出一種基于新詞發(fā)現(xiàn)的古典文學(xué)作品分詞方法。首先，對(duì)古典文學(xué)作品采用N-Gram算法進(jìn)行切分，然后采用互信息和左右信息熵的新詞發(fā)現(xiàn)方法識(shí)別新詞，將新詞發(fā)現(xiàn)識(shí)別出的新詞與原有的基礎(chǔ)詞典相結(jié)合，構(gòu)建出古文分詞詞典，再使用Jieba中文分詞器對(duì)古典文學(xué)作品進(jìn)行分詞，最后通過(guò)實(shí)驗(yàn)以檢驗(yàn)分詞的準(zhǔn)確度。

1 新詞發(fā)現(xiàn)的相關(guān)技術(shù)

基于規(guī)則的新詞發(fā)現(xiàn)方法、基于統(tǒng)計(jì)的新詞發(fā)現(xiàn)方法和基于統(tǒng)計(jì)與規(guī)則相結(jié)合的新詞發(fā)現(xiàn)方法是現(xiàn)有常用的新詞發(fā)現(xiàn)方法[7]。基于規(guī)則的新詞發(fā)現(xiàn)方法[7-8]是指使用詞語(yǔ)的特性和成詞的原理和語(yǔ)義的特征來(lái)構(gòu)建數(shù)學(xué)模型對(duì)文本中的新詞進(jìn)行挖掘。該方法具有較高的準(zhǔn)確性，但具有較差的可擴(kuò)展性、通用性，后期維護(hù)也困難，需要人工構(gòu)建規(guī)則庫(kù)，會(huì)消耗大量的人力和物力，無(wú)法滿足新詞出現(xiàn)速度快、消亡快的需求。基于統(tǒng)計(jì)的新詞發(fā)現(xiàn)方法[8-10]是指通過(guò)大量的實(shí)驗(yàn)對(duì)文本語(yǔ)料進(jìn)行處理，計(jì)算詞語(yǔ)的詞頻、成詞的概率、左右鄰接熵、鄰接變化數(shù)等統(tǒng)計(jì)特征來(lái)識(shí)別新詞。這種新詞發(fā)現(xiàn)方法有較強(qiáng)的普適性，方便擴(kuò)展和移植，不受不同種類(lèi)文本的限制，但需要對(duì)模型進(jìn)行大量訓(xùn)練，同時(shí)具有準(zhǔn)確率較低的缺點(diǎn)。基于規(guī)則與統(tǒng)計(jì)相結(jié)合的新詞發(fā)現(xiàn)方法是盡量將兩種方法的優(yōu)點(diǎn)相結(jié)合，從而使新詞發(fā)現(xiàn)方法更加準(zhǔn)確也更高效[7]。

文中先采用N-Gram算法切分古文語(yǔ)料，得出候選詞集，再采用規(guī)則與統(tǒng)計(jì)相結(jié)合的新詞發(fā)現(xiàn)方法，即互信息、左右信息熵的統(tǒng)計(jì)特征與停用詞、過(guò)濾首尾停用詞等規(guī)則相結(jié)合，最終實(shí)現(xiàn)新詞發(fā)現(xiàn)。

1.1 N-Gram算法

N-Gram是一種基于統(tǒng)計(jì)語(yǔ)言模型的算法，用于切分語(yǔ)料得出候選詞集，方便后續(xù)計(jì)算詞語(yǔ)的內(nèi)部凝固度和自由程度。N-Gram算法的具體思路是：使用大小為N的滑動(dòng)窗口對(duì)文本語(yǔ)料按字節(jié)流進(jìn)行滑動(dòng)操作，形成每個(gè)字節(jié)的片段稱(chēng)為gram，形成的片段是長(zhǎng)度為N的字節(jié)片段序列，提前設(shè)定閾值對(duì)gram按照出現(xiàn)的頻度進(jìn)行過(guò)濾，形成關(guān)鍵gram列表，列表中的每一種gram均為一個(gè)特征向量維度[11]。一般情況下，取N=3的情況較多。如果N的取值太大，會(huì)造成等價(jià)類(lèi)太多，自由參數(shù)過(guò)多。

1.2 互信息

在信息論相關(guān)領(lǐng)域中，互信息(mutual information)是指兩個(gè)事件集合之間的相關(guān)性，是一種有用的信息度量[12]。互信息度量的是兩個(gè)隨機(jī)變量之間的統(tǒng)計(jì)相關(guān)性，是從隨機(jī)變量整體角度，在平均的意義上觀察問(wèn)題，因此通常稱(chēng)之為平均互信息。互信息表示兩個(gè)變量或多個(gè)變量之間共享的信息量，互信息越大，變量之間的相關(guān)性越強(qiáng)[13]。在文中，詞語(yǔ)是文章的最小結(jié)構(gòu)形式，可以獨(dú)立存在，詞語(yǔ)中的相鄰的字之間都有一定的關(guān)聯(lián)性。如果詞語(yǔ)中字與字的這種關(guān)聯(lián)性越大，說(shuō)明可能是詞的可能性也就越大。可以用互信息計(jì)算新詞的內(nèi)部成詞概率，互信息一般可用于表示兩個(gè)事件相互關(guān)聯(lián)的程度，互信息值越大，表示兩個(gè)物體的關(guān)聯(lián)程度也就越大。在詞匯聚類(lèi)、漢語(yǔ)自動(dòng)分詞、詞義消歧、文本分類(lèi)和聚類(lèi)等問(wèn)題的研究中，互信息也具有重要用途。互信息用以下公式來(lái)計(jì)算：

(1)

其中，p(m)表示字符m單獨(dú)出現(xiàn)在語(yǔ)料集中的概率；p(n)表示字符n單獨(dú)出現(xiàn)在語(yǔ)料集中的概率；p(m,n)表示字符m和字符n組合起來(lái)共同出現(xiàn)在語(yǔ)料集中的概率；PMI(m,n)表示字符m和字符n的相互關(guān)聯(lián)程度。若PMI(m,n)>0，表示字符m和字符n是相互關(guān)聯(lián)的，而且PMI的值越大，表示兩者相互關(guān)聯(lián)的程度越大，也就越有可能成為新詞；若PMI(m,n)=0，則表示字符m和字符n是彼此獨(dú)立的。

1.3 左右信息熵

熵是信息論的基本概念。熵又稱(chēng)為自信息，熵可以作為數(shù)量用來(lái)描述一個(gè)隨機(jī)變量的不確定性。若用來(lái)描述隨機(jī)變量的熵越大，那這個(gè)隨機(jī)變量的不確定性越大，越不確定的隨機(jī)變量越需要大的信息量用以確定其值，正確估計(jì)其值的可能性就越小。信息的作用是消除人們對(duì)事物的不確定性，信息熵是對(duì)信息的量化度量，信息熵值越大則事物的不確定性也越大，所需要的信息量也就越大。候選新詞的左邊鄰接詞和右邊鄰接詞的不確定性可以用左右信息熵來(lái)衡量，其不確定性越大，說(shuō)明該詞的周邊詞越豐富，其成詞的概率就越高。左信息熵和右信息熵的計(jì)算公式為：

E(prew)=-sum(p(prew)log2p(prew))

(2)

其中，prew是候選詞鄰接字的集合，p(prew)表示候選詞的左右鄰接字的條件概率。

2 基于新詞發(fā)現(xiàn)的古典文學(xué)作品分詞方法

對(duì)古典文學(xué)作品進(jìn)行分詞是對(duì)古典文學(xué)作品進(jìn)行研究的基礎(chǔ)。基于詞表的分詞方法和基于統(tǒng)計(jì)的分詞方法是目前古漢語(yǔ)的自動(dòng)分詞任務(wù)常用的方法[14]。基于詞表的分詞方法需要人工標(biāo)注詞匯構(gòu)建古籍文本詞典，通過(guò)古籍文本詞典進(jìn)行分詞[5]。這種分詞方法準(zhǔn)確率較高，但要耗費(fèi)大量的人力物力，具有局限性；基于統(tǒng)計(jì)的分詞方法需要訓(xùn)練人工標(biāo)注的分詞語(yǔ)料，使用學(xué)習(xí)模型，從而實(shí)現(xiàn)古籍文本自動(dòng)分詞。以上兩種方法都需要先進(jìn)行人工標(biāo)注訓(xùn)練集，人工標(biāo)注需要較高的專(zhuān)業(yè)知識(shí)，而且需要大量時(shí)間，難度和成本都比較高。

2.1 古典文學(xué)作品分詞方法

文中首先使用N-gram算法對(duì)古文語(yǔ)料進(jìn)行切分，統(tǒng)計(jì)各個(gè)詞的詞頻，使用詞頻和過(guò)濾停用詞等相關(guān)規(guī)則進(jìn)行初步篩選，得到初始詞表；然后用互信息計(jì)算內(nèi)部凝固度來(lái)對(duì)詞表進(jìn)行第二次篩選；最后用左右信息熵對(duì)二次篩選后的詞語(yǔ)計(jì)算其自由程度，根據(jù)自由度值進(jìn)行再次篩選，最終確定新詞詞表。將獲得的新詞詞表添加到Jieba中文分詞器中，形成古文分詞詞典，再對(duì)古典文學(xué)作品進(jìn)行分詞。這種方法省去了人工標(biāo)注環(huán)節(jié)，可快速構(gòu)建古文分詞詞典。分詞流程如圖1所示。

2.2 分詞方法的具體實(shí)現(xiàn)

本研究選用了經(jīng)典的文言文章回小說(shuō)作為文本語(yǔ)料。著名語(yǔ)言文學(xué)家王力先生在《古代漢語(yǔ)》中指出：“文言是指以先秦口語(yǔ)為基礎(chǔ)而形成的上古漢語(yǔ)書(shū)面語(yǔ)言以及后來(lái)歷代作家仿古的作品中的語(yǔ)言”[15]。顧名思義，文言文就是用文言寫(xiě)成的文章，是中國(guó)古代的書(shū)面語(yǔ)言，沿用了兩三千年，也是現(xiàn)代漢語(yǔ)的源頭[15]。文言文章回小說(shuō)篇幅長(zhǎng)，既有古文的結(jié)構(gòu)和語(yǔ)法特點(diǎn)，又有相當(dāng)數(shù)量的詞匯沿用到現(xiàn)代，便于研究人員采用現(xiàn)代文的分詞詞庫(kù)作為基礎(chǔ)詞典，在此基礎(chǔ)上進(jìn)行新詞發(fā)現(xiàn)。

文中選擇了包括《三國(guó)演義》、《聊齋志異》、《鏡花緣》、《說(shuō)唐》等在內(nèi)的68部章回小說(shuō)文本作為基本語(yǔ)料，經(jīng)統(tǒng)計(jì)有27 960 539個(gè)漢字。

(1)古文文本預(yù)處理。將文本轉(zhuǎn)換為T(mén)XT格式，利用正則表達(dá)式過(guò)濾非中文符號(hào)——將古文文本中用于斷句的標(biāo)點(diǎn)符號(hào)、特殊符號(hào)等噪聲數(shù)據(jù)過(guò)濾掉，得到預(yù)處理之后的文本語(yǔ)料。

(2)語(yǔ)料切分。使用N-gram算法對(duì)預(yù)處理過(guò)的文本語(yǔ)料從左至右逐字進(jìn)行切分。由于古典文學(xué)作品中有三字詞語(yǔ)，如人名等。設(shè)置N為3，并得到1-gram～3-gram包含詞頻的gram詞表，獲得初始候選新詞結(jié)果。

(3)計(jì)算候選詞的互信息。先將單字過(guò)濾掉，然后對(duì)其余初始候選新詞計(jì)算互信息，若該詞語(yǔ)的互信息大于設(shè)置的閾值，將其保留，生成候選新詞集。

(4)計(jì)算候選詞的左右信息熵。對(duì)候選詞進(jìn)行左信息熵和右信息熵的統(tǒng)計(jì)，將左信息熵和右信息熵相加，得到左右信息熵。設(shè)置左右信息熵的閾值，若該詞的左右信息熵大于設(shè)置的閾值，將其保留，最終得到新詞集。

算法流程如圖2所示。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)語(yǔ)料

文中以文言文章回小說(shuō)《三國(guó)演義》為例，展示使用基于新詞發(fā)現(xiàn)的古典文學(xué)作品分詞方法的分詞結(jié)果，并對(duì)分詞效果進(jìn)行了分析。

對(duì)整篇《三國(guó)演義》文本語(yǔ)料進(jìn)行預(yù)處理后，使用N-Gram算法對(duì)文本進(jìn)行切分，切分部分結(jié)果如圖3所示。

圖3 N-Gram算法的部分切分結(jié)果

對(duì)上述切分得到的初始候選新詞計(jì)算互信息，互信息值大于設(shè)置閾值的保留，生成候選新詞集，得到16 081個(gè)候選新詞。

再利用左右信息熵的算法進(jìn)行篩選，得到最終的新詞集合，獲得3 892個(gè)新詞，部分新詞結(jié)果如圖4所示。

圖4 新詞發(fā)現(xiàn)的部分結(jié)果

以《三國(guó)演義》第九十八回中的部分語(yǔ)料為例，從中提取了3個(gè)新詞：孔明、蜀兵、魏兵。

在加入新詞前使用Jieba中文分詞器進(jìn)行分詞結(jié)果為：所憂者/但/魏延/一軍，在/陳倉(cāng)道/口/拒住/王雙，急/不能/脫身；吾/已/令人/授以/密計(jì)，教/斬/王雙，使/魏人/不敢/來(lái)/追。蜀/兵/更/不/回頭。雙/拍馬/趕來(lái)。背后/魏/兵/叫/曰：“城外/寨中/火/起，恐/中/敵人/奸計(jì)。”后人/有/詩(shī)/贊曰：“孔明妙/算/勝/孫/龐，耿若長(zhǎng)/星/照/一方。進(jìn)退/行/兵/神/莫測(cè)，陳倉(cāng)/道口/斬/王雙。”[16]

加入新詞之后，Jieba中文器的分詞結(jié)果為：所憂者/但/魏延/一軍，在/陳倉(cāng)道/口/拒住/王雙，急/不能/脫身；吾/已/令人/授以/密計(jì)，教/斬/王雙，使/魏人/不敢/來(lái)/追。蜀兵/更/不/回頭。雙/拍馬/趕來(lái)。背后/魏兵/叫/曰：“城外/寨中/火/起，恐/中/敵人/奸計(jì)。”后人/有/詩(shī)贊曰：“孔明/妙算/勝/孫龐，耿若長(zhǎng)/星/照/一方。進(jìn)退/行/兵/神/莫測(cè)，陳倉(cāng)/道口/斬/王雙。”[16]

3.2 評(píng)價(jià)指標(biāo)

文中采用準(zhǔn)確率P(precision)、召回率R(recall)和F值(F-measure)作為評(píng)價(jià)指標(biāo)，來(lái)檢驗(yàn)利用基于互信息與左右信息熵的新詞方法發(fā)現(xiàn)的實(shí)驗(yàn)結(jié)果，計(jì)算公式如下：

(3)

(4)

(5)

其中，N表示實(shí)驗(yàn)獲得的新詞的總數(shù)；M表示古典文學(xué)作品中本身存在的新詞總數(shù)(M值為經(jīng)古漢語(yǔ)專(zhuān)家人工標(biāo)注的新詞數(shù)量)。

利用文中方法對(duì)《三國(guó)演義》進(jìn)行新詞發(fā)現(xiàn)，得到的結(jié)果如表1所示。

表1 新詞發(fā)現(xiàn)評(píng)價(jià)結(jié)果

結(jié)合表1和對(duì)比分詞結(jié)果，雖然新詞發(fā)現(xiàn)的準(zhǔn)確率、召回率和F值略低，但通過(guò)比較加入新詞前后的兩個(gè)分詞結(jié)果，加入新詞之后分詞的準(zhǔn)確度有明顯提高。

4 結(jié)束語(yǔ)

文中采用互信息和左右信息熵的新詞發(fā)現(xiàn)方法對(duì)古典文學(xué)作品挖掘未登入的新詞，利用Jieba中文分詞器結(jié)合新詞詞表，對(duì)古典章回小說(shuō)進(jìn)行分詞實(shí)驗(yàn)，分詞效果得到明顯改善。該方法避免了古漢語(yǔ)文本分詞需要大量人工標(biāo)注的問(wèn)題，快速構(gòu)建了古漢語(yǔ)分詞詞典，為后續(xù)對(duì)古典文學(xué)作品的深入研究打下了堅(jiān)實(shí)的基礎(chǔ)。該方法的不足之處是新詞發(fā)現(xiàn)的準(zhǔn)確率、召回率、F值都不高，未來(lái)還需要進(jìn)一步研究，以提高新詞發(fā)現(xiàn)和分詞的準(zhǔn)確率。