999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘技術(shù)在智能析取詞語(yǔ)模應(yīng)用中的可行性分析

2013-04-29 00:00:00喻晗陽(yáng)
北方文學(xué)·下旬 2013年5期

摘 要:計(jì)算機(jī)技術(shù)可以為中文信息處理提供支持。詞語(yǔ)模是漢語(yǔ)新詞語(yǔ)中的一種結(jié)構(gòu),本文試圖基于數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則和聚類(lèi)分析這兩種方法,從理論上分析智能析取詞語(yǔ)模的可行性。

關(guān)鍵詞:關(guān)聯(lián)規(guī)則 聚類(lèi) 詞語(yǔ)模

1.引言

李宇明(1999)提出了詞語(yǔ)模理論,詞語(yǔ)模是指能批量產(chǎn)生新詞語(yǔ)的一種造詞模子,這種造詞模子使得新生成的詞語(yǔ)形成了一系列的詞語(yǔ)簇。通常由“模標(biāo)”和“模槽”兩個(gè)部分組成,“模標(biāo)”是詞語(yǔ)模中固定的部分,而“模槽”則是詞語(yǔ)模中不定的部分。現(xiàn)在發(fā)展的比較成熟的詞語(yǔ)模有“X族”、“被XX”、“曬XX”、“XX門(mén)”等等。根據(jù)模標(biāo)位置的不同,可以將詞語(yǔ)模分為三種:前綴式、中綴式、后綴式。上例中的“X族”屬于后綴式,“被XX”屬于前綴式,中綴式極少,發(fā)展的還不成熟。要研究詞語(yǔ)模,首先要獲取詞語(yǔ)模語(yǔ)料,如何從大型語(yǔ)料庫(kù)中獲取語(yǔ)料就成了智能析取的大難題。

數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則是指在一個(gè)數(shù)據(jù)庫(kù)中,每個(gè)事務(wù)都有與之相應(yīng)的唯一標(biāo)識(shí)符。關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)的過(guò)程大致是先在數(shù)據(jù)庫(kù)中確定高頻項(xiàng)目組,再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則。聚類(lèi)分析方法可以將大量的數(shù)據(jù)分成不同的類(lèi),每一個(gè)類(lèi)中的對(duì)象具有很大的相似性,不同的類(lèi)中的對(duì)象有很大的差異性,聚類(lèi)分析是一種探索性的分析,在分析過(guò)程中,可以從樣本數(shù)據(jù)出發(fā),對(duì)數(shù)據(jù)自動(dòng)進(jìn)行分類(lèi)。目前,聚類(lèi)分析方法已經(jīng)在語(yǔ)言研究中得到了廣泛的應(yīng)用,尤其在詞匯抽取等方面,聚類(lèi)分析技術(shù)已經(jīng)很成熟。下面就基于這兩種數(shù)據(jù)挖掘方法,談一談智能析取詞語(yǔ)模的可行性。

2. 智能析取詞語(yǔ)模的可行性分析

現(xiàn)有的搜索技術(shù)已經(jīng)能夠完成從大型語(yǔ)料庫(kù)中檢索關(guān)鍵字位置的功能。智能析取詞語(yǔ)模是建立在基本檢索的基礎(chǔ)之上的。

第一步是初步確定所需語(yǔ)料。以上文提到的“X族”為例,在我們還不確定這是一個(gè)詞語(yǔ)模的時(shí)候,可在語(yǔ)料庫(kù)中檢索“族”,考慮到漢語(yǔ)音節(jié)特點(diǎn),我們可選擇“族”字前后共五個(gè)字作為第一次的統(tǒng)計(jì)語(yǔ)料,這五個(gè)字可分別定義為“AB族CD”,我們需要統(tǒng)計(jì)的數(shù)據(jù)就是AB族、B族、B族C、族C、族CD這五個(gè)成分。

第二步,利用數(shù)據(jù)挖掘技術(shù)分析擇取有用語(yǔ)料。根據(jù)關(guān)聯(lián)規(guī)則確定數(shù)據(jù)庫(kù)中的高頻項(xiàng)目組,可利用前后遍歷的方法來(lái)進(jìn)一步確定有用語(yǔ)料。假設(shè)在例1中“AB族CD”顯示的是:樂(lè)活族雜志,那么需要確定的五個(gè)成分就是:樂(lè)活族、活族、活族雜、族雜、族雜志。先選取“AB族”成分,向后遍歷,若其他例句中還有同樣的成分,則將該成分保留并記錄。 若其他例句中沒(méi)有再出現(xiàn)這種結(jié)構(gòu),則跳過(guò),分析下個(gè)成分。同理對(duì)其他幾種成分進(jìn)行遍歷分析。直到語(yǔ)料庫(kù)中所有成分分析完畢。得到的記錄便是各個(gè)高頻詞的集合。

第三步,使用聚類(lèi)計(jì)算方法,我們可以將每個(gè)語(yǔ)料中的五種數(shù)據(jù)與語(yǔ)料庫(kù)中的其他語(yǔ)料進(jìn)行比對(duì),將同樣的用法歸到一類(lèi),這樣就可以得出哪一種出現(xiàn)的概率較大。若某種構(gòu)式只是偶爾出現(xiàn),則說(shuō)明這種用法是不常見(jiàn)的,甚至可能是不規(guī)范的。根據(jù)現(xiàn)有的語(yǔ)料,我們可以知道,“B族C”、“族C”、“族CD”這三種結(jié)構(gòu)是不成立的,而“AB族”、“B族”這兩種結(jié)構(gòu)出現(xiàn)的比較多。這時(shí),我們就可以初步判定,“族”可能構(gòu)成一個(gè)后綴式詞語(yǔ)模。

第四步,對(duì)智能分析的結(jié)果做人工分析。根據(jù)“例不十,則法不立”的原則,我們可以做出簡(jiǎn)單的規(guī)定,即一個(gè)成熟的詞語(yǔ)模至少能生成十個(gè)以上的新詞語(yǔ)。這時(shí)再對(duì)統(tǒng)計(jì)的結(jié)果進(jìn)行分析,就可以得出較為準(zhǔn)確的提取結(jié)果了。

3.可能存在的問(wèn)題

上一節(jié)中的智能分析過(guò)程是我們的一個(gè)猜想,受客觀條件的限制,可能還無(wú)法實(shí)現(xiàn)。主要問(wèn)題在于以下兩個(gè)方面:

一、語(yǔ)料庫(kù)的建設(shè)是一切分析的基礎(chǔ),新詞語(yǔ)活躍性較強(qiáng),很可能還沒(méi)有被廣泛運(yùn)用開(kāi)來(lái),就已經(jīng)消亡了。在規(guī)范的白話文作品中很難看到這些詞,而我們現(xiàn)有的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)大多是基于規(guī)范的白話文著作等內(nèi)容建立的,因此,在這類(lèi)語(yǔ)料庫(kù)中做智能分析,得到的語(yǔ)料并不精確。網(wǎng)絡(luò)語(yǔ)言詞匯可以說(shuō)是新詞語(yǔ)的代表,而網(wǎng)絡(luò)語(yǔ)言涵蓋了即時(shí)口語(yǔ)、網(wǎng)絡(luò)日志、交互論貼等多方面的內(nèi)容。要建立一個(gè)完整的語(yǔ)料庫(kù),需要投入大量的人力、物力和時(shí)間。因此,語(yǔ)料庫(kù)的建設(shè)是一個(gè)難點(diǎn),也是影響整個(gè)研究的重點(diǎn)問(wèn)題。

二、受某些詞語(yǔ)語(yǔ)義等方面原因的影響,智能分析很難區(qū)分同素異義詞,也就影響了詞語(yǔ)模的確定。例如”拼X”,根據(jù)觀察,我們可以確定這是一個(gè)詞語(yǔ)模,熟知的詞有:拼爹,拼學(xué)歷,拼房,拼車(chē),拼飯,拼牛奶。然而,這些例詞中實(shí)際上含有兩個(gè)詞語(yǔ)模“拼1X”和“拼2X”,“拼爹,拼學(xué)歷”屬于“拼1X”,這里的拼是比拼義,而“拼飯,拼牛奶”屬于“拼2X”,這里的拼是拼湊義,因此,這應(yīng)該算作兩個(gè)不同的詞語(yǔ)模。此外,“拼房,拼車(chē)”既可以認(rèn)定為“拼1X”又可以認(rèn)定為“拼2X”。由此可見(jiàn),同一個(gè)“拼X”結(jié)構(gòu),在智能分析的時(shí)候很容易混淆,如何解決這類(lèi)詞語(yǔ)的智能區(qū)分,也是智能析取詞語(yǔ)模的一個(gè)難點(diǎn)。

4.結(jié)語(yǔ)

詞匯是語(yǔ)言諸要素中發(fā)展最快的,研究詞匯問(wèn)題也有助于社會(huì)問(wèn)題的研究。詞語(yǔ)模已是漢語(yǔ)詞匯的一種常見(jiàn)構(gòu)式,短時(shí)間內(nèi)發(fā)展出一大批相似詞語(yǔ)決不是偶然現(xiàn)象,這個(gè)問(wèn)題是值得人們注意并研究的。計(jì)算機(jī)技術(shù)在語(yǔ)言學(xué)研究中已有廣泛應(yīng)用。在詞語(yǔ)模研究中首先要解決的就是確定詞語(yǔ)模的問(wèn)題,要從大型語(yǔ)料庫(kù)中智能析取詞語(yǔ)模,就必須要用到數(shù)據(jù)挖掘技術(shù)來(lái)輔助研究,本文只是從理論的層面淺析了數(shù)據(jù)挖掘技術(shù)應(yīng)用的可行性,很多操作方法和實(shí)施技術(shù)還未得到驗(yàn)證,還有待繼續(xù)研究。

參考文獻(xiàn):

[1]李宇明.詞語(yǔ)模[C].邢福義主編.漢語(yǔ)語(yǔ)法特點(diǎn)面面觀[M].北京:北京語(yǔ)言文化大學(xué)出版社.1999,146-157

[2]胥桂仙,許建潮,連遠(yuǎn)鋒,李昱翠.文本挖掘中的特征表示及聚類(lèi)方法[J]. 吉林工學(xué)院學(xué)報(bào).2002.3。

作者簡(jiǎn)介:喻晗陽(yáng)(1989-),女,江西南昌人,江西師范大學(xué)文學(xué)院2011級(jí)碩士研究生,研究方向:社會(huì)語(yǔ)言學(xué)。

主站蜘蛛池模板: 在线高清亚洲精品二区| 欧美日韩国产成人高清视频| 丰满人妻一区二区三区视频| 亚洲精品动漫| 亚洲精品无码成人片在线观看| 日本午夜视频在线观看| 国产迷奸在线看| 她的性爱视频| 日日拍夜夜嗷嗷叫国产| 黄片一区二区三区| 国产精品思思热在线| 亚洲无码视频图片| av一区二区无码在线| 久久精品aⅴ无码中文字幕| 国产午夜不卡| 欧美天天干| 久久香蕉欧美精品| 国产精品人莉莉成在线播放| 亚洲AV无码久久天堂| 99re这里只有国产中文精品国产精品 | 67194亚洲无码| 亚洲不卡无码av中文字幕| 国产91丝袜| 伊人久久精品无码麻豆精品 | hezyo加勒比一区二区三区| 国产午夜福利在线小视频| av免费在线观看美女叉开腿| 成人伊人色一区二区三区| 亚洲av片在线免费观看| 三上悠亚精品二区在线观看| 中文无码日韩精品| 97国产精品视频人人做人人爱| 久久无码高潮喷水| 人妻无码AⅤ中文字| 岛国精品一区免费视频在线观看| 国产福利在线观看精品| 国产欧美日本在线观看| 99精品免费在线| 欧美爱爱网| 色综合激情网| 宅男噜噜噜66国产在线观看| 台湾AV国片精品女同性| 福利在线不卡| 超碰91免费人妻| 黄色不卡视频| 婷五月综合| 19国产精品麻豆免费观看| 国产手机在线ΑⅤ片无码观看| 日本免费一级视频| 亚洲欧美日韩成人高清在线一区| 99无码中文字幕视频| 亚洲精品国产首次亮相| 高清无码一本到东京热| 久久国产高清视频| 亚洲精品视频在线观看视频| 日韩麻豆小视频| 波多野结衣亚洲一区| 97色伦色在线综合视频| 亚洲精品视频免费看| 日韩福利视频导航| 特级毛片8级毛片免费观看| 国产二级毛片| 精品午夜国产福利观看| 久久久久久高潮白浆| 久久精品丝袜| 成人午夜免费观看| 日韩中文精品亚洲第三区| 国产福利不卡视频| 久久先锋资源| 欧美自慰一级看片免费| 国产无码网站在线观看| 色婷婷综合激情视频免费看| 蜜桃视频一区二区| 久久大香伊蕉在人线观看热2| 国产99热| 欧美日韩福利| 成人毛片在线播放| 亚洲精品无码AⅤ片青青在线观看| 亚洲日本精品一区二区| 四虎免费视频网站| 成人亚洲国产| 嫩草影院在线观看精品视频|