摘 要:計(jì)算機(jī)技術(shù)可以為中文信息處理提供支持。詞語(yǔ)模是漢語(yǔ)新詞語(yǔ)中的一種結(jié)構(gòu),本文試圖基于數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則和聚類(lèi)分析這兩種方法,從理論上分析智能析取詞語(yǔ)模的可行性。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則 聚類(lèi) 詞語(yǔ)模
1.引言
李宇明(1999)提出了詞語(yǔ)模理論,詞語(yǔ)模是指能批量產(chǎn)生新詞語(yǔ)的一種造詞模子,這種造詞模子使得新生成的詞語(yǔ)形成了一系列的詞語(yǔ)簇。通常由“模標(biāo)”和“模槽”兩個(gè)部分組成,“模標(biāo)”是詞語(yǔ)模中固定的部分,而“模槽”則是詞語(yǔ)模中不定的部分。現(xiàn)在發(fā)展的比較成熟的詞語(yǔ)模有“X族”、“被XX”、“曬XX”、“XX門(mén)”等等。根據(jù)模標(biāo)位置的不同,可以將詞語(yǔ)模分為三種:前綴式、中綴式、后綴式。上例中的“X族”屬于后綴式,“被XX”屬于前綴式,中綴式極少,發(fā)展的還不成熟。要研究詞語(yǔ)模,首先要獲取詞語(yǔ)模語(yǔ)料,如何從大型語(yǔ)料庫(kù)中獲取語(yǔ)料就成了智能析取的大難題。
數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則是指在一個(gè)數(shù)據(jù)庫(kù)中,每個(gè)事務(wù)都有與之相應(yīng)的唯一標(biāo)識(shí)符。關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)的過(guò)程大致是先在數(shù)據(jù)庫(kù)中確定高頻項(xiàng)目組,再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則。聚類(lèi)分析方法可以將大量的數(shù)據(jù)分成不同的類(lèi),每一個(gè)類(lèi)中的對(duì)象具有很大的相似性,不同的類(lèi)中的對(duì)象有很大的差異性,聚類(lèi)分析是一種探索性的分析,在分析過(guò)程中,可以從樣本數(shù)據(jù)出發(fā),對(duì)數(shù)據(jù)自動(dòng)進(jìn)行分類(lèi)。目前,聚類(lèi)分析方法已經(jīng)在語(yǔ)言研究中得到了廣泛的應(yīng)用,尤其在詞匯抽取等方面,聚類(lèi)分析技術(shù)已經(jīng)很成熟。下面就基于這兩種數(shù)據(jù)挖掘方法,談一談智能析取詞語(yǔ)模的可行性。
2. 智能析取詞語(yǔ)模的可行性分析
現(xiàn)有的搜索技術(shù)已經(jīng)能夠完成從大型語(yǔ)料庫(kù)中檢索關(guān)鍵字位置的功能。智能析取詞語(yǔ)模是建立在基本檢索的基礎(chǔ)之上的。
第一步是初步確定所需語(yǔ)料。以上文提到的“X族”為例,在我們還不確定這是一個(gè)詞語(yǔ)模的時(shí)候,可在語(yǔ)料庫(kù)中檢索“族”,考慮到漢語(yǔ)音節(jié)特點(diǎn),我們可選擇“族”字前后共五個(gè)字作為第一次的統(tǒng)計(jì)語(yǔ)料,這五個(gè)字可分別定義為“AB族CD”,我們需要統(tǒng)計(jì)的數(shù)據(jù)就是AB族、B族、B族C、族C、族CD這五個(gè)成分。
第二步,利用數(shù)據(jù)挖掘技術(shù)分析擇取有用語(yǔ)料。根據(jù)關(guān)聯(lián)規(guī)則確定數(shù)據(jù)庫(kù)中的高頻項(xiàng)目組,可利用前后遍歷的方法來(lái)進(jìn)一步確定有用語(yǔ)料。假設(shè)在例1中“AB族CD”顯示的是:樂(lè)活族雜志,那么需要確定的五個(gè)成分就是:樂(lè)活族、活族、活族雜、族雜、族雜志。先選取“AB族”成分,向后遍歷,若其他例句中還有同樣的成分,則將該成分保留并記錄。 若其他例句中沒(méi)有再出現(xiàn)這種結(jié)構(gòu),則跳過(guò),分析下個(gè)成分。同理對(duì)其他幾種成分進(jìn)行遍歷分析。直到語(yǔ)料庫(kù)中所有成分分析完畢。得到的記錄便是各個(gè)高頻詞的集合。
第三步,使用聚類(lèi)計(jì)算方法,我們可以將每個(gè)語(yǔ)料中的五種數(shù)據(jù)與語(yǔ)料庫(kù)中的其他語(yǔ)料進(jìn)行比對(duì),將同樣的用法歸到一類(lèi),這樣就可以得出哪一種出現(xiàn)的概率較大。若某種構(gòu)式只是偶爾出現(xiàn),則說(shuō)明這種用法是不常見(jiàn)的,甚至可能是不規(guī)范的。根據(jù)現(xiàn)有的語(yǔ)料,我們可以知道,“B族C”、“族C”、“族CD”這三種結(jié)構(gòu)是不成立的,而“AB族”、“B族”這兩種結(jié)構(gòu)出現(xiàn)的比較多。這時(shí),我們就可以初步判定,“族”可能構(gòu)成一個(gè)后綴式詞語(yǔ)模。
第四步,對(duì)智能分析的結(jié)果做人工分析。根據(jù)“例不十,則法不立”的原則,我們可以做出簡(jiǎn)單的規(guī)定,即一個(gè)成熟的詞語(yǔ)模至少能生成十個(gè)以上的新詞語(yǔ)。這時(shí)再對(duì)統(tǒng)計(jì)的結(jié)果進(jìn)行分析,就可以得出較為準(zhǔn)確的提取結(jié)果了。
3.可能存在的問(wèn)題
上一節(jié)中的智能分析過(guò)程是我們的一個(gè)猜想,受客觀條件的限制,可能還無(wú)法實(shí)現(xiàn)。主要問(wèn)題在于以下兩個(gè)方面:
一、語(yǔ)料庫(kù)的建設(shè)是一切分析的基礎(chǔ),新詞語(yǔ)活躍性較強(qiáng),很可能還沒(méi)有被廣泛運(yùn)用開(kāi)來(lái),就已經(jīng)消亡了。在規(guī)范的白話文作品中很難看到這些詞,而我們現(xiàn)有的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)大多是基于規(guī)范的白話文著作等內(nèi)容建立的,因此,在這類(lèi)語(yǔ)料庫(kù)中做智能分析,得到的語(yǔ)料并不精確。網(wǎng)絡(luò)語(yǔ)言詞匯可以說(shuō)是新詞語(yǔ)的代表,而網(wǎng)絡(luò)語(yǔ)言涵蓋了即時(shí)口語(yǔ)、網(wǎng)絡(luò)日志、交互論貼等多方面的內(nèi)容。要建立一個(gè)完整的語(yǔ)料庫(kù),需要投入大量的人力、物力和時(shí)間。因此,語(yǔ)料庫(kù)的建設(shè)是一個(gè)難點(diǎn),也是影響整個(gè)研究的重點(diǎn)問(wèn)題。
二、受某些詞語(yǔ)語(yǔ)義等方面原因的影響,智能分析很難區(qū)分同素異義詞,也就影響了詞語(yǔ)模的確定。例如”拼X”,根據(jù)觀察,我們可以確定這是一個(gè)詞語(yǔ)模,熟知的詞有:拼爹,拼學(xué)歷,拼房,拼車(chē),拼飯,拼牛奶。然而,這些例詞中實(shí)際上含有兩個(gè)詞語(yǔ)模“拼1X”和“拼2X”,“拼爹,拼學(xué)歷”屬于“拼1X”,這里的拼是比拼義,而“拼飯,拼牛奶”屬于“拼2X”,這里的拼是拼湊義,因此,這應(yīng)該算作兩個(gè)不同的詞語(yǔ)模。此外,“拼房,拼車(chē)”既可以認(rèn)定為“拼1X”又可以認(rèn)定為“拼2X”。由此可見(jiàn),同一個(gè)“拼X”結(jié)構(gòu),在智能分析的時(shí)候很容易混淆,如何解決這類(lèi)詞語(yǔ)的智能區(qū)分,也是智能析取詞語(yǔ)模的一個(gè)難點(diǎn)。
4.結(jié)語(yǔ)
詞匯是語(yǔ)言諸要素中發(fā)展最快的,研究詞匯問(wèn)題也有助于社會(huì)問(wèn)題的研究。詞語(yǔ)模已是漢語(yǔ)詞匯的一種常見(jiàn)構(gòu)式,短時(shí)間內(nèi)發(fā)展出一大批相似詞語(yǔ)決不是偶然現(xiàn)象,這個(gè)問(wèn)題是值得人們注意并研究的。計(jì)算機(jī)技術(shù)在語(yǔ)言學(xué)研究中已有廣泛應(yīng)用。在詞語(yǔ)模研究中首先要解決的就是確定詞語(yǔ)模的問(wèn)題,要從大型語(yǔ)料庫(kù)中智能析取詞語(yǔ)模,就必須要用到數(shù)據(jù)挖掘技術(shù)來(lái)輔助研究,本文只是從理論的層面淺析了數(shù)據(jù)挖掘技術(shù)應(yīng)用的可行性,很多操作方法和實(shí)施技術(shù)還未得到驗(yàn)證,還有待繼續(xù)研究。
參考文獻(xiàn):
[1]李宇明.詞語(yǔ)模[C].邢福義主編.漢語(yǔ)語(yǔ)法特點(diǎn)面面觀[M].北京:北京語(yǔ)言文化大學(xué)出版社.1999,146-157
[2]胥桂仙,許建潮,連遠(yuǎn)鋒,李昱翠.文本挖掘中的特征表示及聚類(lèi)方法[J]. 吉林工學(xué)院學(xué)報(bào).2002.3。
作者簡(jiǎn)介:喻晗陽(yáng)(1989-),女,江西南昌人,江西師范大學(xué)文學(xué)院2011級(jí)碩士研究生,研究方向:社會(huì)語(yǔ)言學(xué)。