999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

博客語料的新詞發現方法

2013-03-29 02:11:22黃軒李熔烽
現代電子技術 2013年2期

黃軒 李熔烽

摘 要:新詞發現一直是自然語言處理的熱點問題和難點問題之一,為了提取博客語料的新詞,首先對語料進行文中分詞,然后根據新詞的定義及新詞的“時空”性質,在詞串統計的基礎上,通過詞出現的頻率,詞分布的密度,上下文分析以及詞在時間域上的變化分析對詞進行過濾;最后通過詞的統計信息和詞性規則對候選詞進行排序以提高準確率;在此基礎上建立新詞發現系統。

關鍵詞:新詞; 詞串統計; 上下文分析; 分詞; 候選詞

中圖分類號:TN911?34 文獻標識碼:A 文章編號:1004?373X(2013)02?0144?03

0 引 言

隨著社會的飛速發展,尤其是互聯網的廣泛使用,新詞語不斷地在日常生活中涌現出來。搜集和整理這些新詞語,是中文信息處理中的一個重要研究課題,在中文詞法切分中有著重要的作用。由于對日常生活中的新詞的定義的很模糊,很難得到一個新詞的嚴格定義,在現有研究的基礎上,認為新詞應該是滿足以下性質的:

(1)新詞從作為一個詞本身上看,應該是要可以獨立成詞的;

(2)從新詞的分布空間上來看,新詞應該是被廣泛使用,即在使用的語料中應該是使用頻率較高,在普遍的文檔中出現,被許多作者所使用的詞語。

(3)從新詞的時間性質上看,新詞應該是想比于之前的某一段時間是新的。這個新具體體現在這個詞語在之前的某一段時間是沒有出現的,或者產生了新的詞義,即“舊詞新用”。

目前,對新詞發現的研究主要是基于統計和規則過濾的方法,主要是將新詞的發現作為一個通過統計結果和新詞規則不斷對候選集進行過濾的過程。基于規則的方法是根據語言學只是,比如說詞語的內部結構,人工的構建規則庫。鄭家恒等人根據漢語構詞法規則建立新詞的規則庫,然后對加工后的文本候選串進行新詞過濾[1];基于規則的方式只是通過考慮詞內部構成對新詞進行分析,使用人工建立規則庫的方式僅能在特定的語料庫中得到較好結果,其泛化性差;而且人工建立規則的代價大,在規則數量多時還有規則沖突產生。

基于統計的方法鄰接分析,獨立成詞概率,位置成詞概率,互信息等方法,通過新詞的統計信息,過濾候選集合。賀敏等人通過上下文鄰接分析,位置成詞概率以及雙字耦合度來進行過濾[2];施水才等人通過頻率比,互信息以及概率比的方法對新詞過濾[3];林自芳等通過從語料庫中統計詞的內部模式,結合互信息和位置成詞概率對新詞進行過濾[4]。基于統計的方法雖然能找到大量的新詞,但是同時也產生了大量的垃圾詞串,即基于統計的方法在保證召回率的同時確也降低了準確率。另外,還有一些研究者[5?9],將新詞發現看作是一個二類分類問題,同樣使用新詞的統計特征作為分類器的特征向量,使用機器學習的方法對候選詞進行分類,從而生成新詞集合。本文采用不斷對候選集過濾,最后得到新詞集合的思路,結合統計與規則的方法,根據新詞的性質使用頻度分布過濾,上下文鄰接分詞以及詞串時域上的變化比作為新詞的統計過濾方式,然后根據統計信息對新詞進行第一次排序,再使用詞性規則進行第二次排序,如圖1所示。實驗表明,統計過濾方式能有效召回新詞,而排序的方式有助于提高新詞發現的準確率。

圖1 博客語料的新詞發現方法

1 基于統計過濾和規則排序的新詞發現方法

1.1 分詞與重復串統計,以及空間分布過濾

新詞識別的第一步是使用現有的分詞系統進行分詞,根據分詞結果統計語料中的串,在實驗中,生成的串的最大長度為4,生成詞串文本。重復串統計是指統計詞串文本中重復串的頻率,并根據閾值進行過濾。在此,根據新詞的在空間中的性質,統計每個新詞出現的總次數,作為新詞的出現頻率;統計新詞出現文檔次數,作為新詞的使用頻率。最后通過設置出現頻率閾值以及使用頻率閾值,初步過濾候選集。在統計串頻率時,同時記錄串的前一個詞以及后一個詞,為接下來的分析做準備。

1.2 上下文鄰接分析

上下文鄰接分析是分析詞前后的文本關系,新詞是以前未使用過的詞語,也具有詞語的一般特性,在真實文本中要有一定的流通度,能夠應用于多種不同的上下文環境,而非某種特殊語境下的臨時性組合。為了反映串S的上下文語境靈活程度,給出定義如下概念:

(1)鄰接集合:分為左鄰接集合和右鄰接集合,分別指真實文本中,與串S左邊或者右邊相鄰的元素的集合。元素可以是字、詞等不同粒度的語言單位。

(2)鄰接類別:分為左鄰接類別和右鄰接類別,分別指左右鄰接集合中元素的數目,他們反映了串S上文和下文語境種類的多少,用符號Vl(S)和Vr(S)來表示。根據文獻在實驗總若以詞為基本單位來計算,例如在語料中統計發現,“珠三”這個串的左鄰接類別高達9,而右鄰接類別僅僅為1,實際上該串的出現完全依賴于另外一個串“珠三角”,因此“珠三”不構成詞。這樣進一步對候選集進行過濾。

在此,對候選集合中的每個詞串,根據詞串的左右鄰接詞語集合,分析上下文鄰接,排除不能獨立成詞的候選串,生成新的候選詞,過濾候選集。

1.3 詞串時域上的變化比

根據對新詞性質的分析,在時域上,新詞是與之前某一時間相比,新出現的詞語或者是“舊詞新用”。因此新詞在時域上存在變化,本文通過定義這個變化,并且依此對候選集進行過濾。本文中將當前時間得到的候選集合作為前景,之前某時間的后候選集合作為背景集合,對新詞在時域上的變化定義背景與前景的差異,可以分為以下兩種:

(1)在前景集合中廣泛使用而在背景中使用較少,甚至不存在的;

(2)在前景集合與背景集合的使用頻率相當,左右鄰接集合存在差異的。

根據上述分析,在計算頻域變化比時,采用如下算法:

(1)算前景集合中候選詞的頻率比,如果背景集合,不存在該候選詞,則變化比為1;反之,依照式(1)計算頻率比:

(3)分別比較候選詞左右鄰接集合的差異,如果左右鄰接結合都不存在差異,則認為該候選詞為舊詞,排除該詞,反之則為新詞,其變化比為:左右鄰接集合差的平均值。

鄰接集合的差異定義如下:

鄰接集合差 = 前景鄰接集合與背景鄰接集合的差的個[數前]景集合的個數

其中前景鄰接集合與背景鄰接集合的差分為兩種:

(1)前景鄰接集合存在而在背景鄰接集合不存在;

(2)在兩個集合都存在,則比較該詞在對應集合中的頻率,如果頻率比閾值則認為存在差異,反之不存在。

2 統計信息排序與詞性規則排序

經過上述分析后,得到的大量的候選詞,在候選詞中找到了許多新詞,但是同樣也存在了許多的垃圾詞匯如:的人、也不、的一、是我、你的等。接下來的工作主要是通過對得到的候選集進行排序,目標是使得真正的新詞在排序后能夠出現在候選集序列的前面,從而提高系統的準確率。排序過程中主要分為兩個過程,首先根據新詞的空間分布和時間變化信息,對新詞進行排序;在此基礎上,根據新詞的詞性規則,對新詞候選集做第二次排序。定義用于第一次的排序的統計信息如下:

統計信息 = 0.5×變換比+0.5×(1-1/候選詞分布的文檔數)

根據上述統計信息對候選詞進行第一次排序。

在第二次排序中排序依據定義為變量A,使用詞性規則分為兩類,定義為正規則和負規則。如果新詞符合正規則,那么變量A增加1×規則的權重;如果新詞符合負規則,那么變量A減小1×規則的權重,在實驗中負規則的權重均是為1。使用正則表達式來表示規則。其中,使用的負規則定義如下:

(1)“[a?z0?9]*d”表示所有以副詞結尾的詞性序列;

(2)“u[a?z0?9]*”表示所有以助詞開頭的詞性序列;

(3)“[a?z0?9]*u”表示所有以助詞結尾的詞性序列;

(4)“q[a?z0?9]*”表示所有以量詞起始的詞性序列。

4 結 語

本文根據新詞的性質,結合現有的方法,提出了一個新的新詞發現方法。該方法首先通過一系列統計信息對候選詞進行過濾,保證新詞的召回,然后再次基礎上通過使用統計信息和詞性規則信息對候選集進行排序,從而提高準確率。

參考文獻

[1] 林自芳,蔣秀鳳.基于詞內部模式的新詞發現[J].計算機與現代化,2010(11):56?58.

[2] 賀敏,龔才春,張華平,等.一種基于大規模語料的新詞識別方法[J].計算機工程與應用,2007(21):70?73.

[3] 施水才,俞鴻魁.基于大規模語料的新詞語識別方法[J].山東大學學報:理工版,2006(3):101?103.

[4] 崔世起,劉群.基于大規模語料的新詞檢測[J].計算機研究與發展,2006(21):9?13.

[5] 韓燕,姚建民.不限領域的中文新詞的識別研究[J].鄭州大學學報:理學版,2008(3):90?93.

[6] 呂紅良.基于大規模語料庫的中文新詞識別[J].大連理工大學學報,2008(7):49?53.

[7] 賈自艷,史忠植.基于概率統計技術和規則方法的新詞發現[J].計算機工程,2004(20):19?21.

[8] 張海軍,史樹敏.中文新詞識別技術綜述[J].計算機科學,2010(3):19?22.

[9] 鄒綱,劉洋,劉群.面向Internet的中文新詞語檢測[J].中文信息學報,2004(6):83?85.

主站蜘蛛池模板: 国产无码网站在线观看| 久久精品娱乐亚洲领先| 亚洲一区第一页| 国产精品亚洲片在线va| 99尹人香蕉国产免费天天拍| 国产欧美另类| 国产97色在线| 色综合天天视频在线观看| 国产91九色在线播放| 久久青草视频| 日本国产一区在线观看| 亚洲一区二区在线无码 | 国产精品久久久久久搜索| 色偷偷一区二区三区| 538国产在线| 日韩精品无码免费专网站| 狠狠亚洲五月天| 久久天天躁狠狠躁夜夜躁| 五月婷婷导航| 久久国产亚洲欧美日韩精品| 亚洲国产亚洲综合在线尤物| 免费午夜无码18禁无码影院| 日日拍夜夜嗷嗷叫国产| 精品人妻系列无码专区久久| 日本草草视频在线观看| 国产成人毛片| 精品视频一区在线观看| 午夜国产精品视频| 91美女视频在线| 欧美一道本| 亚洲视频免费播放| 欧美亚洲第一页| 欧洲高清无码在线| 欧美亚洲中文精品三区| 在线免费无码视频| 国产鲁鲁视频在线观看| 热思思久久免费视频| 国产清纯在线一区二区WWW| 欧美一级一级做性视频| 日韩成人在线视频| 91色国产在线| 久久精品人人做人人| 久久综合五月婷婷| 久久国产精品娇妻素人| 91香蕉视频下载网站| 亚洲熟妇AV日韩熟妇在线| 国产精品久久国产精麻豆99网站| 2021天堂在线亚洲精品专区| 怡红院美国分院一区二区| 成年看免费观看视频拍拍| 永久免费AⅤ无码网站在线观看| 欧美高清日韩| 亚洲精品无码专区在线观看 | 国产精品综合久久久| 国产综合日韩另类一区二区| 国产精品亚洲αv天堂无码| 国产精品天干天干在线观看| 一级毛片免费高清视频| 久久女人网| 欧美精品亚洲日韩a| 啊嗯不日本网站| 欧美激情首页| 成人久久精品一区二区三区| 永久天堂网Av| 69视频国产| 四虎国产精品永久一区| 九色最新网址| 久久伊人久久亚洲综合| 久久婷婷综合色一区二区| 欧美精品一区在线看| 五月天天天色| 亚洲精品在线观看91| 国产精品自在在线午夜| 欧美色图第一页| 精品99在线观看| 97免费在线观看视频| 亚洲天堂精品视频| 亚洲成av人无码综合在线观看| 天堂亚洲网| 国产在线视频二区| 天天摸夜夜操| 色婷婷国产精品视频|