張 榕
(北京語言大學(xué)漢語速成學(xué)院,北京 100083)
術(shù)語定義的聚類研究
張 榕
(北京語言大學(xué)漢語速成學(xué)院,北京 100083)
術(shù)語定義的領(lǐng)域聚類是一項較新的研究課題。本文采用自下而上的層級聚類的方法,基于知網(wǎng)進行語義相似度計算,并根據(jù)不同詞類對領(lǐng)域區(qū)分的貢獻度以及構(gòu)建領(lǐng)域聚類特有的停用詞表來進行聚類的特征項選取,實現(xiàn)了術(shù)語定義的領(lǐng)域聚類。實驗取得了較好的聚類結(jié)果。
術(shù)語,術(shù)語定義,語義相似度,領(lǐng)域聚類
新事物、新概念的出現(xiàn)帶來了大量的術(shù)語及術(shù)語定義。對術(shù)語定義進行分類加工,按領(lǐng)域劃分為不同的類別,有利于領(lǐng)域?qū)W科專家建立領(lǐng)域術(shù)語數(shù)據(jù)庫,以及系統(tǒng)地研究領(lǐng)域術(shù)語之間的概念層次關(guān)系、語義關(guān)系,提高術(shù)語檢索的準(zhǔn)確率與知識的系統(tǒng)化加工的效率。
由于術(shù)語在領(lǐng)域之間的相互借用,使得有些術(shù)語可以在多個應(yīng)用領(lǐng)域被使用,這些術(shù)語在不同的領(lǐng)域具有不同的義項。以“病毒”這一術(shù)語為例,“病毒”可以是生物領(lǐng)域的“病毒”,也可以是計算機領(lǐng)域的“病毒”,而兩個領(lǐng)域的“病毒”顯然是不同的義項,當(dāng)有若干條“病毒”定義時,如何從中鑒別出哪些是生物領(lǐng)域的病毒定義,哪些是計算機領(lǐng)域的病毒定義,需要人工的參與。我們以幾組同名術(shù)語定義為例來闡述術(shù)語定義領(lǐng)域聚類的必要性。例如:
1.病毒
病毒是一種可以在其他生物體間傳播并感染生物體的微小生物,一般包含核酸以及外殼蛋白,有些動物的病毒的外面也偶爾覆蓋一層細(xì)胞膜。
計算機病毒是指編制或者在計算機程序中插入的破壞計算機功能或者毀壞數(shù)據(jù),影響計算機使用,并能自我復(fù)制的一組計算機指令或者程序。
2.防火墻
防火墻:用于將因特網(wǎng)的子網(wǎng)與因特網(wǎng)的其余部分相離,以達到網(wǎng)絡(luò)和信息安全效果的軟件或硬體設(shè)施。
防火墻:兩所房子之間或者一所房屋的兩個部分之間的厚而高的墻,可以防止火災(zāi)蔓延。
3.蠕蟲
蠕蟲是指一種可以不斷復(fù)制自己并在網(wǎng)絡(luò)中傳播的程序。
蠕蟲是無脊椎動物的一大類,構(gòu)造比腔腸動物復(fù)雜,身體長行,左右對稱,質(zhì)柔軟,沒有骨骼,沒有腳。
4.樹
樹是指生成語法采用的一種二維圖形表示,能方便地顯示由一組規(guī)則生成句子的內(nèi)部層級結(jié)構(gòu)。
樹是木本植物的統(tǒng)稱。
例 1中的“病毒”分別是生物領(lǐng)域的術(shù)語和計算機領(lǐng)域的術(shù)語;例2中的“防火墻”分別是計算機領(lǐng)域的術(shù)語和建筑領(lǐng)域的術(shù)語;例3中的“蠕蟲”是屬于計算機領(lǐng)域的術(shù)語和生物領(lǐng)域的術(shù)語;例 4中的“樹”分別是計算機領(lǐng)域的術(shù)語和通用領(lǐng)域的詞語。
在領(lǐng)域數(shù)據(jù)庫的構(gòu)建和用戶的使用過程中,有必要將這些定義區(qū)分開來。通過聚類將計算機科學(xué)術(shù)語聚合在一起,將生物學(xué)術(shù)語聚合在一起。但是當(dāng)待處理的數(shù)據(jù)足夠龐大時,人工將這些術(shù)語定義進行領(lǐng)域分類,將耗費大量的人力、物力,因此本文提出了計算機自動處理的術(shù)語定義的領(lǐng)域聚類方法。
聚類是知識發(fā)現(xiàn)的重要方法,通過聚類,能夠發(fā)現(xiàn)事物的內(nèi)部規(guī)律和特征。聚類沒有事先預(yù)定的類別,類別數(shù)在聚類過程中自動生成,無需人工標(biāo)注和預(yù)先訓(xùn)練分類器。聚類作為一種無監(jiān)督的機器學(xué)習(xí)方法,具有較高的靈活性和自動化處理能力[1]。本文聚類的具體過程如下圖所示:

圖 1 術(shù)語定義聚類流程圖
術(shù)語定義集,由漢語詞法分析器 I CTCLAS進行分詞和詞性標(biāo)注,進入特征項選取階段。術(shù)語定義聚類的過程是將相似的一組定義歸為一類,如何將術(shù)語定義的文本內(nèi)容轉(zhuǎn)換成計算機可處理的形式,從而用于計算定義之間的相似度是整個聚類過程的關(guān)鍵。
本文通過將術(shù)語定義用詞與普通文本用詞對比發(fā)現(xiàn),術(shù)語定義中的名詞與普通文本中的名詞具有很大的差別。在領(lǐng)域的判別過程中,定義句子中的名詞起到的支持作用最大??疾炱渌~性的詞語在兩種文體上用詞的區(qū)別,發(fā)現(xiàn)術(shù)語定義中的動詞與普通文本中的動詞的差別相對較小一些,但依然具有領(lǐng)域的區(qū)分度,應(yīng)該作為聚類的特征,這些詞性對術(shù)語定義的領(lǐng)域所屬類別的判定,也起到了一定的貢獻作用。形容詞、副詞對領(lǐng)域聚類的貢獻度不大,不作為聚類的特征。
1.名詞的領(lǐng)域區(qū)分度
術(shù)語定義的領(lǐng)域分類,也就是將被定義的術(shù)語做一個領(lǐng)域分類,被定義項屬于什么領(lǐng)域,那么該術(shù)語定義就屬于什么領(lǐng)域。術(shù)語在詞性上大都是名詞或者名詞短語。定義句子中的名詞對區(qū)分被定義項屬于哪個領(lǐng)域具有最大的支持度。比如:
“卵磷脂是血管的清道夫:能將附著在血管壁上的膽固醇,中性脂肪乳化成微粒子,溶于血液中并運回肝臟而被代謝,從而改善血清脂質(zhì),清除過氧化物,使血液中膽固醇及中性脂肪含量降低,防止由膽固醇引起的血管內(nèi)膜損傷?!?/p>
“膽固醇是體內(nèi)最豐富的固醇類化合物,它既作為細(xì)胞生物膜的構(gòu)成成分,又是類固醇類激素、膽汁酸及維生素 d的前體物質(zhì)?!?/p>
“核酸是細(xì)胞內(nèi)的生物大分子,是細(xì)胞的核心物質(zhì),由脫氧核糖核酸 (DNA)和核糖核酸 (RNA)組成。”
上面三個定義中的“血管”“肝臟”“細(xì)胞”“生物”“分子”“維生素”等詞對領(lǐng)域聚類起到了絕對的支持作用。
2.動詞的領(lǐng)域區(qū)分度:
“語音信號處理是指語音信號輸入計算機后對其進行分析處理的過程,語音通過話筒轉(zhuǎn)換成電信號,再經(jīng)放大或轉(zhuǎn)換變成數(shù)字信號,用模式分類方法分析和識別這些信號?!?/p>
“二值化是指把一組數(shù)據(jù)按一定的規(guī)則映射為0或 1的過程?!?/p>
“漢字信息處理是指用計算機對漢字表示的信息進行操作和加工,如漢字的輸入、存儲、識別、生成和輸出等?!?/p>
上面三個句子中的動詞“輸入”“分析”“處理”“轉(zhuǎn)化”“識別”“映射”“操作”“加工”“存儲”“生成”“輸出”對領(lǐng)域類型判別,起到了支持作用。
連詞、介詞和虛詞對領(lǐng)域聚類幾乎不起任何的作用,因此也可以認(rèn)定,這些詞性的詞不具有領(lǐng)域區(qū)分度。
另外,還有一些詞語不具有領(lǐng)域區(qū)分度,比如“所謂”“也就是”等等,這些作為停用詞存在。
由于本文的目的是將術(shù)語定義按照領(lǐng)域聚類,所以特征項的選取,與普通文本聚類有所區(qū)別。我們通過停用詞過濾以及定義用詞的詞性過濾將對領(lǐng)域聚類貢獻極小的詞語過濾掉,不參與到聚類的計算。
術(shù)語定義領(lǐng)域聚類的本質(zhì)就是通過計算術(shù)語定義之間的句子相似度,將句子相似度高的術(shù)語定義劃分為一類,將相似度低的句子劃分到不同的類。相似度是一個很復(fù)雜的概念,不同應(yīng)用領(lǐng)域?qū)ο嗨贫扔胁煌慕缍?。相似度計算的常用方法有基于向量空間模型的 TF/ IDF方法以及基于語義的方法。向量空間模型的方法把文本看成為詞的線性序列,不考慮詞語之間的相互關(guān)系,不對語句進行語法結(jié)構(gòu)分析,只考慮了利用句子的表層信息;而基于語義的方法則是對文本進行語義分析,屬于深層結(jié)構(gòu)分析法[2]。
本文的聚類方法是基于語義相似度,在計算相似度的過程中,將句子作為一個詞語的集合進行處理。這樣句子的相似度計算就轉(zhuǎn)化為集合之間的相似度計算。本文采用劉群的集合相似度的計算方法[3]來計算句子的相似度:

其中m、n表示兩個句子中詞匯集合的大小, a、b分別表示兩個句子中對應(yīng)的詞。對于沒有建立起對應(yīng)關(guān)系的詞,我們賦給它一個很小的值σ作為它與空元素的相似度。通過上面的公式,定義的相似度計算轉(zhuǎn)化為定義中出現(xiàn)的詞語的相似度計算。
詞語的相似度受到詞語的詞法、句法、語義、語用各個因素的影響。聚類的目的是把分屬不同領(lǐng)域的句子按領(lǐng)域聚類,顯然語義的因素對詞語和句子相似度的影響最大。詞義相似度計算是自然語言處理中一個重要的研究方向,被應(yīng)用在文本分類、信息檢索、詞義排歧等領(lǐng)域。我們使用董振東先生創(chuàng)建的知網(wǎng) (HowNet)作為語義知識資源庫,進行語義之間的相似度計算[4-5]。按照知網(wǎng)的定義,概念是對詞匯語義的一種描述。一個詞匯可能表示多種概念,而每個概念可以分解為若干義原,義原是用于描述一個概念的最基本的、不能再分割意義的最小單位。
若有兩個詞語W1和W2,如果W1有 m個概念,W2有 n個概念:s11m,s12…stm,則兩個詞語之間的相似度,由這兩個詞之間所有概念之間的相似度的最大值來決定,用公式表示為:

通過上述公式,詞語之間的相似度計算就轉(zhuǎn)化為概念之間的相似度計算。
知網(wǎng)的每個概念由多個義原來描述:
1)第一基本義原描述:兩個概念的基本義原的相似度為 Sim1(S1,S2);
2)其他基本義原描述:是一個除第一基本義原以外基本義原的集合,其他基本義原相似度為Sim2(S1,S2);
3)關(guān)系義原描述:是一個特征結(jié)構(gòu),對于該特征結(jié)構(gòu)的每一個特征,屬性是一個關(guān)系義原,值是一個基本義原,或一個具體詞。關(guān)系義原描述的相似度為 Sim3(S1,S2);
4)關(guān)系符號描述:是一個特征結(jié)構(gòu),對于該特征結(jié)構(gòu)的每一個特征,屬性是一個關(guān)系義原,值是一個集合,該集合的元素是一個基本義原,或一個具體詞。關(guān)系符號描述的相似度為 S im4(S1,S2)。
這樣,兩個概念語義表達式的整體相似度記為:

其中βi(1≤i≤4)是可調(diào)節(jié)的參數(shù),且有:

第一基本義原是概念最主要的特征,所以權(quán)值最高,其他的特征賦予一個遞減的權(quán)重。
若有兩個義原 S1,S2,其相似度記為 S im(S1, S2),并用以下公式表達:

其中Dis(S1,S2)為兩個義原在這個層次體系中的路徑距離,是一個可以調(diào)節(jié)的參數(shù)。兩個義原之間的距離越大,它們的語義相似度越小,兩者成反比。
給定一個數(shù)據(jù)樣本集 X{X1,X2,…,Xn},根據(jù)對象間的相似程度將樣本集合分成 k簇:{C1,C2,…,Ck}的過程稱為聚類。通常可以分為層次式和非層次式兩種[6]。本文采用自底向上的層級聚類方法。該方法的優(yōu)點是易于理解,實現(xiàn)簡便。具體步驟如下:
輸入:待聚類的定義集合(n個定義)
1)初始化成 n類使每個類包含一個定義;
2)計算所有 n個類兩兩之間的相似度;
3)找出相似度最大的兩個類合并成一個類,n =n-1;
4)重復(fù)步驟 2、3直到最大的相似度小于設(shè)定的閾值或最后只有一類時停止。
術(shù)語定義的聚類實驗結(jié)果使用準(zhǔn)確率來進行評價,用公式表示如下:

本文從中國標(biāo)準(zhǔn)化研究院提供的術(shù)語數(shù)據(jù)庫語料中隨機抽取 1000條術(shù)語定義來做實驗,聚類結(jié)果被分為19類,其中被正確分類的術(shù)語定義 778條。實驗的聚類正確率為 77.8%。
本文選用知網(wǎng)作為術(shù)語定義領(lǐng)域聚類的知識庫是因為知網(wǎng)里具有大量區(qū)分不同領(lǐng)域的義原。例如:commercial|商、medical|醫(yī)、computer|電腦、education|教育、weather|天象、politics|政、information|信息、agricultural|農(nóng)、industrial|工、Animal-Human|動物、animate|生物、chemical|化學(xué)物、material|材料、vehicle|交通工具、MusicTool|樂器、machine|機器、music|音樂、sport|體育、law|律法等。這些義原對定義的領(lǐng)域區(qū)分與判別起到了很大的支持作用。
實驗中我們也發(fā)現(xiàn)使用知網(wǎng)進行領(lǐng)域聚類的局限性。由于知網(wǎng)使用的義原的個數(shù)為 2200個,但是它所涵蓋的詞語達 65 000條,概念達80 000多。義原的個數(shù)遠(yuǎn)遠(yuǎn)小于詞語和概念的個數(shù),這樣就出現(xiàn)多個概念之間共用同一個義原的情況,影響了領(lǐng)域聚類的準(zhǔn)確度。
我們以“phenomena|現(xiàn)象”這個義原為例進行分析,包含該義原的詞語有:白色恐怖、雹災(zāi)、飽嗝兒、暴洪、悲歡離合、弊病、表面現(xiàn)象、兵荒馬亂、病蟲害、波譜、擦網(wǎng)球、差錯、車流、春寒等。顯而易見,在聚類的過程中,這些詞語由于共用一個“phenomena|現(xiàn)象”義原,而且該義原在大多數(shù)情況下屬于第一基本義原,被賦予了一個較高的權(quán)重,通過詞語的相似度計算,這些詞語之間容易獲得較大的相似度。由于句子的相似度是建立在詞語相似度基礎(chǔ)之上,進而又影響到句子的相似度計算,影響了聚類的結(jié)果。
同時知網(wǎng)中部分詞語的義原描述不夠詳盡,無法提供對領(lǐng)域聚類的足夠支持。例如,颶風(fēng)只有一個義原描述“wind|風(fēng)”;泥石流同樣只有一個義原描述“stone|土石”。這兩個詞語屬于自然現(xiàn)象,但知網(wǎng)的知識庫卻不能提供領(lǐng)域聚類的支持。
詞條的完備性也會產(chǎn)生一定的影響,由于術(shù)語定義中包含的術(shù)語較多,有些詞語未被知識庫所收錄,中文是一個開放集合,知網(wǎng)也并不能涵蓋所有詞語。可見一個知識庫的構(gòu)建是項非常艱巨的工作,同時它的構(gòu)建總會受一些主觀因素的影響。因此,借助知識庫進行自然語言處理的相關(guān)工作既有可操作性又有其局限性。
術(shù)語定義的領(lǐng)域聚類的研究相對來說是一個新課題。定義的自動聚類有助于系統(tǒng)化地研究某個特定領(lǐng)域的術(shù)語以及術(shù)語定義的詞匯、句法,以及語義的內(nèi)在固有規(guī)律。對領(lǐng)域術(shù)語庫的建設(shè)、領(lǐng)域知識的提取與研究具有一定的理論意義和應(yīng)用價值。將同屬于一個領(lǐng)域類別的術(shù)語定義劃分到一類,不僅可以自動區(qū)分開不同領(lǐng)域的同名術(shù)語,而且可以集中得到一批同領(lǐng)域的術(shù)語定義,對特定領(lǐng)域的術(shù)語研究提供了方便。術(shù)語定義聚類與通常的文本聚類、句子聚類不同,本文通過考察不同詞類對于領(lǐng)域區(qū)分程度的差異,作為聚類領(lǐng)域特征的選取準(zhǔn)則,將不具有領(lǐng)域區(qū)分程度的詞類排除在聚類計算過程之外,通過自底而上的層級聚類的方法,有效地解決了術(shù)語定義的領(lǐng)域聚類問題。
[1]趙世奇,劉挺,李生.一種基于主題的文本聚類方法[J].中文信息學(xué)報,2007(2):58-61.
[2]趙妍妍,秦兵.基于多特征融合的句子相似度計算[G].全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議 (JSCL-2005). 2005:168-174.
[3]劉群,李素建.基于知網(wǎng)的詞匯語義相似度計算 [J]. Computational Linguistics and Chinese Language Processing,2002,7(2):59-76.
[4][EB/OL]http://www.keenage.com.
[5]許石,樊孝忠,張鋒.基于知網(wǎng)的語義相關(guān)度計算 [J].北京理工大學(xué)學(xué)報,2005(5):411-414.
[6]姚清耕,劉功申,李翔.基于向量空間模型的文本聚類算法[J].計算機工程,2008(9):39-41.
Cluster Research on Term Definition
ZHANG Rong
D om a in c lus te ring of te rm definition is a re la tive ly new resea rch top ic.In this resea rch,w e took bottom-up hie ra rchica l c lus te ring m e thod for sem antic s im ila rity ca lcula tion based on HowN e t,and se lec ted c lus te r-sp ec ific cha rac te ris tics based on w ords w ith d iffe rent contribution to c lus te ring and s top-used w ords cons truc ting dom a in c lus te r.O ur resultsrea lized the dom a in c lus te r of te rm definition,and achieved a des ired exp e r im enta l result.
te rm,te rm definition,sem antic s im ila rity,dom a in c lus te ring
H083;N04
A
1673-8578(2011)01-0014-05
2010-07-02
張榕 (1975—),女,江蘇溧水人,博士,北京語言大學(xué)漢語速成學(xué)院講師,主要研究計算語言學(xué)、術(shù)語學(xué)等。通信方式:zhangrong@blcu.edu.cn。