數(shù)據(jù)挖掘技術(shù)在智能析取詞語(yǔ)模應(yīng)用中的可行性分析

2013-04-29 00:00:00喻晗陽(yáng)

北方文學(xué)·下旬 2013年5期

摘要：計(jì)算機(jī)技術(shù)可以為中文信息處理提供支持。詞語(yǔ)模是漢語(yǔ)新詞語(yǔ)中的一種結(jié)構(gòu)，本文試圖基于數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則和聚類(lèi)分析這兩種方法，從理論上分析智能析取詞語(yǔ)模的可行性。

關(guān)鍵詞：關(guān)聯(lián)規(guī)則聚類(lèi) 詞語(yǔ)模

1.引言

李宇明（1999）提出了詞語(yǔ)模理論，詞語(yǔ)模是指能批量產(chǎn)生新詞語(yǔ)的一種造詞模子，這種造詞模子使得新生成的詞語(yǔ)形成了一系列的詞語(yǔ)簇。通常由“模標(biāo)”和“模槽”兩個(gè)部分組成，“模標(biāo)”是詞語(yǔ)模中固定的部分，而“模槽”則是詞語(yǔ)模中不定的部分。現(xiàn)在發(fā)展的比較成熟的詞語(yǔ)模有“X族”、“被XX”、“曬XX”、“XX門(mén)”等等。根據(jù)模標(biāo)位置的不同，可以將詞語(yǔ)模分為三種：前綴式、中綴式、后綴式。上例中的“X族”屬于后綴式，“被XX”屬于前綴式，中綴式極少，發(fā)展的還不成熟。要研究詞語(yǔ)模，首先要獲取詞語(yǔ)模語(yǔ)料，如何從大型語(yǔ)料庫(kù)中獲取語(yǔ)料就成了智能析取的大難題。

數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則是指在一個(gè)數(shù)據(jù)庫(kù)中，每個(gè)事務(wù)都有與之相應(yīng)的唯一標(biāo)識(shí)符。關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)的過(guò)程大致是先在數(shù)據(jù)庫(kù)中確定高頻項(xiàng)目組，再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則。聚類(lèi)分析方法可以將大量的數(shù)據(jù)分成不同的類(lèi)，每一個(gè)類(lèi)中的對(duì)象具有很大的相似性，不同的類(lèi)中的對(duì)象有很大的差異性，聚類(lèi)分析是一種探索性的分析，在分析過(guò)程中，可以從樣本數(shù)據(jù)出發(fā)，對(duì)數(shù)據(jù)自動(dòng)進(jìn)行分類(lèi)。目前，聚類(lèi)分析方法已經(jīng)在語(yǔ)言研究中得到了廣泛的應(yīng)用，尤其在詞匯抽取等方面，聚類(lèi)分析技術(shù)已經(jīng)很成熟。下面就基于這兩種數(shù)據(jù)挖掘方法，談一談智能析取詞語(yǔ)模的可行性。

2. 智能析取詞語(yǔ)模的可行性分析

現(xiàn)有的搜索技術(shù)已經(jīng)能夠完成從大型語(yǔ)料庫(kù)中檢索關(guān)鍵字位置的功能。智能析取詞語(yǔ)模是建立在基本檢索的基礎(chǔ)之上的。

第一步是初步確定所需語(yǔ)料。以上文提到的“X族”為例，在我們還不確定這是一個(gè)詞語(yǔ)模的時(shí)候，可在語(yǔ)料庫(kù)中檢索“族”，考慮到漢語(yǔ)音節(jié)特點(diǎn)，我們可選擇“族”字前后共五個(gè)字作為第一次的統(tǒng)計(jì)語(yǔ)料，這五個(gè)字可分別定義為“AB族CD”，我們需要統(tǒng)計(jì)的數(shù)據(jù)就是AB族、B族、B族C、族C、族CD這五個(gè)成分。

第二步，利用數(shù)據(jù)挖掘技術(shù)分析擇取有用語(yǔ)料。根據(jù)關(guān)聯(lián)規(guī)則確定數(shù)據(jù)庫(kù)中的高頻項(xiàng)目組，可利用前后遍歷的方法來(lái)進(jìn)一步確定有用語(yǔ)料。假設(shè)在例1中“AB族CD”顯示的是：樂(lè)活族雜志，那么需要確定的五個(gè)成分就是：樂(lè)活族、活族、活族雜、族雜、族雜志。先選取“AB族”成分，向后遍歷，若其他例句中還有同樣的成分，則將該成分保留并記錄。若其他例句中沒(méi)有再出現(xiàn)這種結(jié)構(gòu)，則跳過(guò)，分析下個(gè)成分。同理對(duì)其他幾種成分進(jìn)行遍歷分析。直到語(yǔ)料庫(kù)中所有成分分析完畢。得到的記錄便是各個(gè)高頻詞的集合。

第三步，使用聚類(lèi)計(jì)算方法，我們可以將每個(gè)語(yǔ)料中的五種數(shù)據(jù)與語(yǔ)料庫(kù)中的其他語(yǔ)料進(jìn)行比對(duì)，將同樣的用法歸到一類(lèi)，這樣就可以得出哪一種出現(xiàn)的概率較大。若某種構(gòu)式只是偶爾出現(xiàn)，則說(shuō)明這種用法是不常見(jiàn)的，甚至可能是不規(guī)范的。根據(jù)現(xiàn)有的語(yǔ)料，我們可以知道，“B族C”、“族C”、“族CD”這三種結(jié)構(gòu)是不成立的，而“AB族”、“B族”這兩種結(jié)構(gòu)出現(xiàn)的比較多。這時(shí)，我們就可以初步判定，“族”可能構(gòu)成一個(gè)后綴式詞語(yǔ)模。

第四步，對(duì)智能分析的結(jié)果做人工分析。根據(jù)“例不十，則法不立”的原則，我們可以做出簡(jiǎn)單的規(guī)定，即一個(gè)成熟的詞語(yǔ)模至少能生成十個(gè)以上的新詞語(yǔ)。這時(shí)再對(duì)統(tǒng)計(jì)的結(jié)果進(jìn)行分析，就可以得出較為準(zhǔn)確的提取結(jié)果了。

3.可能存在的問(wèn)題

上一節(jié)中的智能分析過(guò)程是我們的一個(gè)猜想，受客觀條件的限制，可能還無(wú)法實(shí)現(xiàn)。主要問(wèn)題在于以下兩個(gè)方面：

一、語(yǔ)料庫(kù)的建設(shè)是一切分析的基礎(chǔ)，新詞語(yǔ)活躍性較強(qiáng)，很可能還沒(méi)有被廣泛運(yùn)用開(kāi)來(lái)，就已經(jīng)消亡了。在規(guī)范的白話文作品中很難看到這些詞，而我們現(xiàn)有的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)大多是基于規(guī)范的白話文著作等內(nèi)容建立的，因此，在這類(lèi)語(yǔ)料庫(kù)中做智能分析，得到的語(yǔ)料并不精確。網(wǎng)絡(luò)語(yǔ)言詞匯可以說(shuō)是新詞語(yǔ)的代表，而網(wǎng)絡(luò)語(yǔ)言涵蓋了即時(shí)口語(yǔ)、網(wǎng)絡(luò)日志、交互論貼等多方面的內(nèi)容。要建立一個(gè)完整的語(yǔ)料庫(kù)，需要投入大量的人力、物力和時(shí)間。因此，語(yǔ)料庫(kù)的建設(shè)是一個(gè)難點(diǎn)，也是影響整個(gè)研究的重點(diǎn)問(wèn)題。

二、受某些詞語(yǔ)語(yǔ)義等方面原因的影響，智能分析很難區(qū)分同素異義詞，也就影響了詞語(yǔ)模的確定。例如”拼X”，根據(jù)觀察，我們可以確定這是一個(gè)詞語(yǔ)模，熟知的詞有：拼爹，拼學(xué)歷，拼房，拼車(chē)，拼飯，拼牛奶。然而，這些例詞中實(shí)際上含有兩個(gè)詞語(yǔ)模“拼1X”和“拼2X”，“拼爹，拼學(xué)歷”屬于“拼1X”，這里的拼是比拼義，而“拼飯，拼牛奶”屬于“拼2X”，這里的拼是拼湊義，因此，這應(yīng)該算作兩個(gè)不同的詞語(yǔ)模。此外，“拼房，拼車(chē)”既可以認(rèn)定為“拼1X”又可以認(rèn)定為“拼2X”。由此可見(jiàn)，同一個(gè)“拼X”結(jié)構(gòu)，在智能分析的時(shí)候很容易混淆，如何解決這類(lèi)詞語(yǔ)的智能區(qū)分，也是智能析取詞語(yǔ)模的一個(gè)難點(diǎn)。

4.結(jié)語(yǔ)

詞匯是語(yǔ)言諸要素中發(fā)展最快的，研究詞匯問(wèn)題也有助于社會(huì)問(wèn)題的研究。詞語(yǔ)模已是漢語(yǔ)詞匯的一種常見(jiàn)構(gòu)式，短時(shí)間內(nèi)發(fā)展出一大批相似詞語(yǔ)決不是偶然現(xiàn)象，這個(gè)問(wèn)題是值得人們注意并研究的。計(jì)算機(jī)技術(shù)在語(yǔ)言學(xué)研究中已有廣泛應(yīng)用。在詞語(yǔ)模研究中首先要解決的就是確定詞語(yǔ)模的問(wèn)題，要從大型語(yǔ)料庫(kù)中智能析取詞語(yǔ)模，就必須要用到數(shù)據(jù)挖掘技術(shù)來(lái)輔助研究，本文只是從理論的層面淺析了數(shù)據(jù)挖掘技術(shù)應(yīng)用的可行性，很多操作方法和實(shí)施技術(shù)還未得到驗(yàn)證，還有待繼續(xù)研究。

參考文獻(xiàn)：

[1]李宇明.詞語(yǔ)模[C].邢福義主編.漢語(yǔ)語(yǔ)法特點(diǎn)面面觀[M].北京：北京語(yǔ)言文化大學(xué)出版社.1999，146-157

[2]胥桂仙，許建潮，連遠(yuǎn)鋒，李昱翠.文本挖掘中的特征表示及聚類(lèi)方法[J]. 吉林工學(xué)院學(xué)報(bào).2002.3。

作者簡(jiǎn)介：喻晗陽(yáng)（1989-），女，江西南昌人，江西師范大學(xué)文學(xué)院2011級(jí)碩士研究生，研究方向：社會(huì)語(yǔ)言學(xué)。

北方文學(xué)·下旬2013年5期

北方文學(xué)·下旬的其它文章: 電影《刮痧》反映的中西方文化差異; 古代體衣類(lèi)詞匯的文化解讀; 淺析大學(xué)生自主創(chuàng)業(yè); 園林：詩(shī)意的棲居之所; 芳林新葉催陳葉; 試論邏輯實(shí)證主義的科學(xué)觀