999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向社會(huì)媒體的開放領(lǐng)域新詞發(fā)現(xiàn)

2017-07-18 10:53:30張華平商建云
中文信息學(xué)報(bào) 2017年3期
關(guān)鍵詞:特征實(shí)驗(yàn)模型

張華平, 商建云

(1. 北京理工大學(xué) 計(jì)算機(jī)學(xué)院,北京 100081;2. 北京市海量語言信息處理與云計(jì)算應(yīng)用工程研究中心,北京 100081;3. 北京理工大學(xué) 軟件學(xué)院,北京 100081)

面向社會(huì)媒體的開放領(lǐng)域新詞發(fā)現(xiàn)

張華平1,2, 商建云3

(1. 北京理工大學(xué) 計(jì)算機(jī)學(xué)院,北京 100081;2. 北京市海量語言信息處理與云計(jì)算應(yīng)用工程研究中心,北京 100081;3. 北京理工大學(xué) 軟件學(xué)院,北京 100081)

隨著互聯(lián)網(wǎng)的發(fā)展,社會(huì)媒體已經(jīng)逐漸發(fā)展成為信息交流的重要載體。該文針對(duì)社會(huì)媒體文本的領(lǐng)域分布廣、口語化程度高等特征,提出一種面向社會(huì)媒體的開放領(lǐng)域新詞發(fā)現(xiàn)算法。此算法所有步驟均為線性時(shí)間復(fù)雜度,并且在分析過程中有效降低了內(nèi)存的使用,從而能夠?qū)崟r(shí)處理社會(huì)媒體所產(chǎn)生的大規(guī)模數(shù)據(jù)。在6.6 GB 社會(huì)媒體文本語料中的新詞發(fā)現(xiàn)準(zhǔn)確率達(dá)到了87.2%,在普通計(jì)算機(jī)上新詞發(fā)現(xiàn)速度可達(dá)2.6 MB/s。與傳統(tǒng)算法相比,該算法在社會(huì)媒體領(lǐng)域的大規(guī)模語料中速度及精度上均有較好的效果。

社會(huì)媒體;新詞發(fā)現(xiàn);條件隨機(jī)場(chǎng)

1 引言

隨著以微博、微信為代表的新型互聯(lián)網(wǎng)社交應(yīng)用的發(fā)展及普及,社會(huì)媒體已經(jīng)逐漸發(fā)展成信息傳遞的重要載體,并且融入到了人們的日常生活之中。但是社會(huì)媒體具有領(lǐng)域分布廣、口語化程度高等特點(diǎn),為針對(duì)此類文本的分析帶來了挑戰(zhàn)。社會(huì)媒體文本往往伴隨著大量未登錄詞的出現(xiàn),若未能有效且實(shí)時(shí)地識(shí)別這些未登錄詞語,會(huì)直接影響著以分詞為基礎(chǔ)的上層分析任務(wù)(如情感計(jì)算、依存句法)分析的效果。

針對(duì)新聞等書面語語料新詞發(fā)現(xiàn)算法能夠處理的數(shù)據(jù)量小且詞法、語法規(guī)范、正式,研究者大多采用時(shí)間復(fù)雜度高的頻繁項(xiàng)發(fā)現(xiàn)算法,或者采用手工標(biāo)記的垃圾串模板過濾不正確的新詞結(jié)果。社交媒體具有口語化、來源廣泛和數(shù)據(jù)量大等特點(diǎn),上述算法具有一定的局限性。首先,內(nèi)存占用會(huì)隨著文本規(guī)模呈線性甚至是平方規(guī)模增加,因此被計(jì)算機(jī)硬件資源所限制,不能處理規(guī)模過大的語料。其次,大規(guī)模的口語化語料會(huì)導(dǎo)致垃圾串模板的構(gòu)建更加復(fù)雜,不但需要更多的人工標(biāo)注,模板精度及召回率也會(huì)受到極大的影響。從另外一個(gè)角度講,社會(huì)媒體文本涵蓋領(lǐng)域比較廣,并不是僅限于某些特定的領(lǐng)域,特別是對(duì)“神馬”等不屬于某一特定領(lǐng)域的詞語,并不適合于領(lǐng)域相關(guān)的新詞發(fā)現(xiàn)[1]。

本文提出一種使用基于CRF模型的字標(biāo)注分詞算法作為候選詞提取。在使用最大熵模型過濾人名等命名實(shí)體的基礎(chǔ)上,構(gòu)成候選詞集,再將候選詞集與二元語法分詞模型結(jié)合對(duì)文本語料重新分詞,從而獲得候選詞在語料中的全局特征,使用統(tǒng)計(jì)的方法進(jìn)行垃圾串過濾和新詞發(fā)現(xiàn)。這種方法能夠?qū)RF分詞高效的未登錄詞識(shí)別與基于全局特征的垃圾串過濾方法結(jié)合,所有的步驟均為線性的時(shí)間復(fù)雜度。

2 相關(guān)工作

基于統(tǒng)計(jì)的新詞發(fā)現(xiàn)算法,目前主要分為以下兩類。

第一類為基于對(duì)語料庫的頻繁模式的發(fā)現(xiàn)。2003年,Huang等人提出了一種使用鄰接熵和互信息作為特征進(jìn)行新詞發(fā)現(xiàn)的方法[2]。在頻繁模式的基礎(chǔ)上,計(jì)算頻繁串在語料庫中的左右熵和互信息,通過這兩個(gè)全局特征進(jìn)行新詞發(fā)現(xiàn)。崔世起等人使用自學(xué)習(xí)方法建立垃圾詞典,用垃圾詞典和基于詞性等統(tǒng)計(jì)信息對(duì)中文分詞結(jié)果中提取的候選新詞進(jìn)行過濾的方法實(shí)現(xiàn)了基于Internet的在線新詞檢測(cè)系統(tǒng)[3]。此類算法需要涉及頻繁項(xiàng)的迭代發(fā)現(xiàn)以及上下文信息的獲取,時(shí)間復(fù)雜度和空間復(fù)雜度較高,不適合大規(guī)模語料的處理。

第二類為使用標(biāo)注模型進(jìn)行新詞發(fā)現(xiàn)。2003年,薛念文將中文分詞問題轉(zhuǎn)換成使用LMR標(biāo)注集對(duì)漢字的標(biāo)注問題[4],實(shí)驗(yàn)證明基于字標(biāo)注的方法能夠大幅度提高未登錄詞識(shí)別的效果。其后隨著條件隨機(jī)場(chǎng)的提出和在自然語言處理領(lǐng)域的應(yīng)用,2004年,Peng使用CRF模型計(jì)算漢語片段的置信度在分詞的同時(shí)提取新詞[5]。這一類的算法基于一個(gè)詞上下文的局部特征,由于局部特征相對(duì)于詞在所有文檔中的全局特征來說所包含的信息較少,作為新詞發(fā)現(xiàn)方法,它的準(zhǔn)確率并不高。

2013年,陳飛等人使用CRF模型及數(shù)據(jù)離散化方法綜合詞邊界的特征實(shí)現(xiàn)開放領(lǐng)域的新詞抽取算法[1],并將以上兩種方法進(jìn)行結(jié)合。蘇其龍整理和提出了一種微博新詞發(fā)現(xiàn)的方法,將頻繁項(xiàng)與CRF模型結(jié)合。但是以上兩種算法都僅在小規(guī)模數(shù)據(jù)集上進(jìn)行測(cè)試,對(duì)于大規(guī)模的語料未有相關(guān)的研究。

在新詞發(fā)現(xiàn)的特征選擇方面,Huang 提出了一種使用鄰接熵作為候選詞外部特征,選擇互信息作為候選詞內(nèi)部成詞概率的算法,在其后的新詞發(fā)現(xiàn)和漢語分詞論文中被多次使用[1,6]。Luo 比較了九種常見的詞內(nèi)部特征計(jì)算方法,實(shí)驗(yàn)表明使用互信息的效果最好[7]。

3 新詞發(fā)現(xiàn)

本文提出的算法將上述兩類統(tǒng)計(jì)新詞發(fā)現(xiàn)方法相結(jié)合。使用CRF模型進(jìn)行候選詞提取,相比于頻繁模式的提取,可以加快候選詞提取速度以及降低內(nèi)存占用。其后使用二元語法模型重新掃描語料,進(jìn)行左右熵和互信息兩個(gè)特征的抽取,彌補(bǔ)第二類方法在僅使用局部特征中的不足。

新詞發(fā)現(xiàn)分為四個(gè)步驟,分別是候選詞提取、命名實(shí)體過濾,新詞特征選擇,特征計(jì)算與候選排序。

3.1 候選詞提取

本文使用基于CRF的字標(biāo)注模型(以下簡(jiǎn)稱CRF模型)對(duì)語料進(jìn)行分詞,提取頻數(shù)超過一定閾值的詞作為候選詞。

其中,CRF模型是將中文分詞的過程看成是一個(gè)漢字邊界的序列標(biāo)注問題[4],通常使用BMES標(biāo)注集,即一個(gè)詞語的首字標(biāo)注為B,尾字標(biāo)注成E,中間的字標(biāo)注成M,單個(gè)字組成詞的標(biāo)注成S。使用此模型進(jìn)行分詞時(shí),詞本身以及上下文等特征都成為一個(gè)片段是否構(gòu)成詞的影響因素,因此對(duì)于詞典中不存在的未登錄詞具有較高的召回率。但是受限于特征選取的窗口大小,一個(gè)片段成詞的概率僅僅由這個(gè)片段特征窗口大小的上下文所決定。根據(jù)文獻(xiàn)[8]的實(shí)驗(yàn)結(jié)果,使用CRF模型進(jìn)行中文分詞的未登錄詞召回率大約為0.73。

CRF模型中的未登錄詞的正確切分依賴于其自身組成以及上下文特征,在某些上下文環(huán)境中的切分錯(cuò)誤,切換到不同上下文中就可能正確切分,且錯(cuò)誤的分詞結(jié)果極大的與上下文相關(guān),即在語料庫足夠大的情況下,大多數(shù)未登錄詞正確的切分詞頻總是大于錯(cuò)誤切分。實(shí)驗(yàn)表明,CRF模型中92%以上錯(cuò)誤切分產(chǎn)生字串的詞頻在三次以下。因此,使用CRF分詞作為新詞提取是可行的,即將CRF模型的分詞結(jié)果以(詞, 詞頻)的方式保存成詞表。在詞表中選擇詞頻大于某一閾值的未登錄詞作為候選詞即可。這種算法的時(shí)間復(fù)雜度是線性的,需要在內(nèi)存中存儲(chǔ)的僅僅是詞表。

閾值根據(jù)待發(fā)現(xiàn)新詞語料的大小變化而變化,呈正相關(guān)關(guān)系。本文選擇arctan函數(shù)根據(jù)語料庫大小選擇相應(yīng)的閾值。

3.2 命名實(shí)體過濾

在實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn),由CRF分詞結(jié)果構(gòu)成的候選詞集中大約有1/4左右的新詞為命名實(shí)體,新聞?wù)Z料中這一比例甚至達(dá)到了1/2。目前對(duì)于命名實(shí)體識(shí)別已經(jīng)取得了較好的效果[9],不需要單獨(dú)為命名實(shí)體構(gòu)建詞表。同時(shí)為了降低在后續(xù)處理中的內(nèi)存使用,需要在候選詞集中對(duì)命名實(shí)體進(jìn)行過濾。

在組織以及機(jī)構(gòu)名過濾方面,在訓(xùn)練CRF模型中使用細(xì)粒度切分的語料即可將此類命名實(shí)體切分成細(xì)粒度的詞語,從而過濾“北京理工大學(xué)”“中國(guó)科學(xué)院計(jì)算技術(shù)研究所”等組織以及機(jī)構(gòu)名。

在中文人名過濾方面,因?yàn)橹形娜嗣囊?guī)律性非常強(qiáng),無論是作為首字符的姓氏,還是“玲”、“雯”等常作為名字出現(xiàn)的漢字,識(shí)別人名相對(duì)于其他詞語或者命名實(shí)體要簡(jiǎn)單。

最大熵模型適合于這一類基于特征的分類任務(wù),特征選擇為“B: 首字符”“E: 尾字符”“M: 中間字符”。樣本使用中文人名庫中頻率最高的63 704個(gè)姓名作為正例,使用《人民日?qǐng)?bào)》語料詞表中的 85 144個(gè)詞(已過濾掉人名)作為反例。從這148 848個(gè)樣本中隨機(jī)選擇90%作為訓(xùn)練集,剩余10%作為測(cè)試集,實(shí)驗(yàn)結(jié)果準(zhǔn)確率為94.7%。

在這一步驟中因?yàn)閮H僅需要針對(duì)候選詞集進(jìn)行分類,運(yùn)算時(shí)間相比于其他步驟可以忽略不計(jì)(詞表的大小遠(yuǎn)遠(yuǎn)小于語料庫的大小)。

3.3 新詞特征選擇

社會(huì)網(wǎng)絡(luò)文本相比于傳統(tǒng)的新聞?lì)A(yù)料,特點(diǎn)是以口語為主,并且常常夾帶錯(cuò)詞、方言或者其他語言以及符號(hào)。如果通過手工標(biāo)記模板方式過濾垃圾串,需要投入巨大的人力資源,且錯(cuò)誤率較大。因此本文使用基于統(tǒng)計(jì)的方法對(duì)候選詞按照成詞的可能性從高到低進(jìn)行排序。

CRF模型將字作為分詞的處理單元,對(duì)字進(jìn)行邊界標(biāo)注而成為詞語,因此這種分詞模型主要會(huì)產(chǎn)生兩類對(duì)新詞發(fā)現(xiàn)結(jié)果造成影響的分詞錯(cuò)誤。第一類為分離型分詞錯(cuò)誤,比如錯(cuò)誤的切分結(jié)果“思亂想(對(duì)應(yīng)于‘胡思亂想’)”等,第二類為組合型分詞錯(cuò)誤,即將兩個(gè)連續(xù)的詞語未能正確切分開來,比如“吃火鍋(對(duì)應(yīng)于‘吃/火鍋’)”。

特征選擇的整體思路是找到兩類特征分別能夠過濾掉以上兩類主要分詞錯(cuò)誤。針對(duì)第一類錯(cuò)誤的切分,本文使用鄰接熵特征進(jìn)行過濾;針對(duì)第二類的錯(cuò)誤切分,本文選擇語言模型計(jì)算互信息特征進(jìn)行過濾。

3.3.1 鄰接熵

鄰接熵是一種計(jì)算候選詞上下文豐富程度的特征。候選詞上下文越豐富代表它成詞的概率越高[1],這時(shí)它的鄰接熵也就越高。鄰接熵HADJ計(jì)算如式(2)所示。

選擇左側(cè)和右側(cè)信息熵的最小值作為候選詞的鄰接熵,可以有效過濾CRF模型分詞中詞語內(nèi)部的分離式錯(cuò)誤切分,比如錯(cuò)誤的切分結(jié)果“思亂想(對(duì)應(yīng)于‘胡思亂想’)”,在語料中它左邊只可能出現(xiàn)“胡”字,因此左信息熵為0,從而實(shí)現(xiàn)過濾。

3.3.2 語言模型

區(qū)別于鄰接熵,互信息反映候選詞內(nèi)部特征,值越大代表候選詞內(nèi)部凝固程度越高,因此成詞的概率也就越大。使用互信息能夠有效地過濾類似于“吃火鍋(對(duì)應(yīng)于‘吃/火鍋’)”的CRF模型組合式分詞錯(cuò)誤。

此時(shí)可以將二元語法模型引入互信息的計(jì)算,從而使得其過濾組合錯(cuò)分的候選詞能力更強(qiáng)。文獻(xiàn)[1]中,互信息計(jì)算方式為

其中,w1、w2為w的組成部分,P(w)表示詞w在語料中出現(xiàn)的概率。這種計(jì)算方法有一定的缺陷。首先,類似于“排山倒海”等成語,很多詞語并不僅僅由兩部分組成。其次,對(duì)于一些頻繁共同出現(xiàn)但不構(gòu)成詞的序列,比如“了一”等,上述互信息計(jì)算方法過濾的效果不佳。本文將二元語法模型與上述公式結(jié)合,提出一種改進(jìn)后的類互信息的計(jì)算方法,即:

3.4 特征計(jì)算與候選排序

在獲得候選詞集之后,需要對(duì)語料進(jìn)行第二遍的掃描,用以計(jì)算候選詞集中各詞的鄰接熵及互信息的值。本文選擇二元語法模型,將候選詞集中的各詞以(候選詞, 詞頻)的形式,加入到二元語法模型分詞程序的用戶詞典中,對(duì)于語料重新切分。

N元語法模型分詞對(duì)字符Cn序列組成的文本T=C1C2C3C4…Cn,尋找到詞語序列w1w2w3…wn

與上文相同P(wn|wn-1)利用Jelinek-Mercer平滑方法計(jì)算。

w1,w2…,wn序列可以使用Beam Search等動(dòng)態(tài)規(guī)劃方法以O(shè)(n)的時(shí)間復(fù)雜度獲得。

本文選擇使用二元語法模型進(jìn)行重新掃描而非在CRF模型的分詞結(jié)果中計(jì)算特征。首先,使用后者會(huì)造成額外的磁盤空間的消耗且二元語法模型分詞的速度已經(jīng)足夠快。其次,CRF模型中對(duì)于未登錄詞的切分主要依賴于上下文的邊界信息,因此語料中的候選詞不一定在所有位置都正確切分,需要使用基于詞表和語言模型的分詞算法重新分詞和計(jì)算特征。

在二元語法模型分詞的過程中,分別記錄每個(gè)候選詞左右兩側(cè)出現(xiàn)的詞及其頻率,以及這個(gè)詞本身的頻率,前者用于鄰接熵的計(jì)算,后者用于互信息的計(jì)算。

一旦獲得了每個(gè)候選詞鄰接熵和互信息的值,分別去除鄰接熵和互信息最低的10%的候選詞,使用線性插值法獲得每個(gè)候選詞的權(quán)重,即

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文使用爬蟲抓取的網(wǎng)易2012—2013年的新聞、體育、科技和教育欄目語料總共約3.2 GB的純文本,此外使用爬蟲抓取了Twitter 4 000萬左右的中文微博,去掉重復(fù)內(nèi)容,并將繁體字統(tǒng)一轉(zhuǎn)化為簡(jiǎn)體字后得到3.4 GB的純文本(兩者編碼均為UTF-8),組成總共6.6 GB的純文本測(cè)試語料。

此外,為了測(cè)試新詞發(fā)現(xiàn)的準(zhǔn)確率,將第一步即候選詞提取所獲得的82 902條候選詞及每個(gè)候選詞的三個(gè)例句放于網(wǎng)上以眾包的方式進(jìn)行標(biāo)注,產(chǎn)生標(biāo)注集R。標(biāo)注內(nèi)容是該候選詞是否為詞,為了增加標(biāo)注的一致性,網(wǎng)站定義詞的標(biāo)準(zhǔn)為: (1) 拆分后意思不變的不是詞,如“專用飛機(jī)”。(2) 明顯由兩個(gè)詞構(gòu)成的常見片段不是詞,如“的是”。(3) 數(shù)字、人名不是詞。至撰寫本文為止,總共獲得12 764條有效標(biāo)注,其中正例8 365條,反例4 399條(有部分頻數(shù)較低的詞語在后面實(shí)驗(yàn)中未能用到)。

4.2 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)所用的計(jì)算機(jī)為2012年產(chǎn)Macbook Air,Core i5,4 GB內(nèi)存,128 GB固態(tài)硬盤。

本文分別測(cè)試了排序結(jié)果前10%、20%、30%至100%的準(zhǔn)確率(見表1)。準(zhǔn)確率即所測(cè)試的詞語集合中,出現(xiàn)標(biāo)注集正例的個(gè)數(shù)與出現(xiàn)標(biāo)注集詞語個(gè)數(shù)的比值,見式(10)。

表1 不同特征對(duì)于各區(qū)域準(zhǔn)確率的影響,α=0.2

此外針對(duì)排序結(jié)果分成區(qū)域,對(duì)每個(gè)區(qū)域的正確率進(jìn)行測(cè)試,如式(11)所示。

表2 不同特征下的權(quán)值最高的新詞

表3 不同的α取值對(duì)準(zhǔn)確率的影響

從實(shí)驗(yàn)結(jié)果(見表1和表3)看,使用互信息作為特征抽取新詞的效果好于鄰接熵,兩種特征結(jié)合的效果明顯好于單個(gè)特征。互信息作為特征時(shí)傾向于將由不單獨(dú)成詞的字組成的長(zhǎng)詞排序靠前,如“鄰苯二甲酸酯”“斯坦科維奇杯”,而鄰接熵則傾向于將常用的詞語篩選出來,如“訪民”“堪比”等。這兩種特征從不同的角度反映一個(gè)候選詞成詞的可能性,具有互補(bǔ)性。

對(duì)于特征結(jié)合中線性插值系數(shù)α的選擇,本文分別使用結(jié)果中前30%詞語的正確率P30%和前50%詞語的正確率P50%測(cè)試不同的α值對(duì)于實(shí)驗(yàn)結(jié)果的影響。實(shí)驗(yàn)結(jié)果(表3)表明,選擇α在[0.1, 0.2)區(qū)間時(shí)效果最好。

表4 不同算法的召回以及精度

不同算法召回權(quán)值最高的新詞見表5,文獻(xiàn)[5](Peng04)的算法與本文算法類似,因?yàn)槎叨家訡RF模型分詞為基礎(chǔ),比較傾向于找出細(xì)粒度的詞語。其差別是本文算法使用全局特征計(jì)算權(quán)重,而Peng04使用局部上下文的特征,后者局部的噪音對(duì)精度影響較大。文獻(xiàn)[10]的算法正好相反,比較傾向于召回粗粒度的詞語,這個(gè)與它基于頻繁模式的候選集挖掘算法有關(guān),比較利于找出命名實(shí)體或者一些常用短語。從某種程度上講,本文算法與文獻(xiàn)[10]算法可以起到互補(bǔ)的作用。

表5 不同算法召回權(quán)值最高的新詞

圖1 語料庫大小與運(yùn)行時(shí)間的關(guān)系

對(duì)于算法效率的實(shí)驗(yàn),從6.6 GB的測(cè)試語料中抽取6份子集,分別為0.5 GB、1 GB、1.5 GB、2 GB、4 GB、6.3 GB,對(duì)每份語料使用本文算法進(jìn)行新詞發(fā)現(xiàn),計(jì)算運(yùn)行時(shí)間及平均速度,最終結(jié)果如圖1所示。新詞發(fā)現(xiàn)運(yùn)行的時(shí)間與語料庫的規(guī)模成正比且處理速度不隨語料庫大小的變化而改變,始終穩(wěn)定在2.6MB/s左右。實(shí)驗(yàn)結(jié)果映證了本文算法O(n)的時(shí)間復(fù)雜度。

在線程數(shù)與處理速度關(guān)系的實(shí)驗(yàn)中,選擇大小為1 GB的測(cè)試語料,分別使用1~4個(gè)線程進(jìn)行新詞發(fā)現(xiàn),結(jié)果如圖2所示。實(shí)驗(yàn)結(jié)果表明,新詞發(fā)現(xiàn)的處理速度與線程數(shù)呈正相關(guān)的關(guān)系。此處線程數(shù)與處理速度并非呈現(xiàn)線性關(guān)系,主要原因是更新詞頻表和鄰接詞表的過程中使用到了互斥鎖進(jìn)行同步。線程同步造成的開銷可以通過分配多個(gè)數(shù)據(jù)副本或者使用非阻塞的互斥鎖機(jī)制減輕同步機(jī)制對(duì)多線程效率的影響。

圖2 線程數(shù)與新詞發(fā)現(xiàn)處理速度關(guān)系

5 結(jié)論

本文系統(tǒng)地研究了面向社會(huì)媒體的中文新詞發(fā)現(xiàn)方法,分析了目前現(xiàn)有新詞發(fā)現(xiàn)算法不適合處理大規(guī)模語料及口語為主文本的原因。提出了一種面向大規(guī)模社會(huì)媒體語料的快速新詞發(fā)現(xiàn)算法。該算法結(jié)合文獻(xiàn)[2,11]的新詞發(fā)現(xiàn)算法,利用CRF字標(biāo)注模型對(duì)原始語料進(jìn)行分詞后提取新詞的候選詞集,然后使用二元語法模型根據(jù)新詞的候選詞集重新切分語料,提取候選詞集各詞的左右熵、互信息特征,實(shí)現(xiàn)候選詞的排序,成詞概率越高的候選詞排序越靠前。最終從排序結(jié)果中選取一定比例的詞語作為發(fā)現(xiàn)的新詞。該方法有效地避免了傳統(tǒng)新詞發(fā)現(xiàn)算法中后綴樹的構(gòu)建,以及對(duì)于全局狀態(tài)的依賴,從而實(shí)現(xiàn)了面向大規(guī)模語料的快速新詞發(fā)現(xiàn)算法。此外本文實(shí)驗(yàn)比較了不同特征選擇及參數(shù)選取對(duì)于實(shí)驗(yàn)結(jié)果的影響,驗(yàn)證了本文算法的新詞發(fā)現(xiàn)準(zhǔn)確性及線性的時(shí)間復(fù)雜度。

[1] 陳飛, 劉奕群, 魏超, 等. 基于條件隨機(jī)場(chǎng)方法的開放領(lǐng)域新詞發(fā)現(xiàn)[J]. 軟件學(xué)報(bào), 2013, 24(5): 1051-1060.

[2] Huang J H, Powers D. Chinese word segmentation based on contextual entropy[C]//Proceedings of the 17th Asian Pacific Conference on Language, Information and Computation. 2003: 152-158.

[3] 崔世起, 劉群, 孟遙,等. 基于大規(guī)模語料庫的新詞檢測(cè)[J]. 計(jì)算機(jī)研究與發(fā)展, 2006, 43(5): 927-932.

[4] Xue N, Shen L. Chinese word segmentation as LMR tagging[C]//Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing-Volume 17. Association for Computational Linguistics, 2003: 176-179.

[5] Feng F, McCallum A. Chinese segmentation and new word detection using conditional random fields[C]// Proceedings of the 20th International Conference on Computational Linguistics (COLING’ 04), Geneva, Switzerland, 2004:562-568.

[6] Zhang H, Gao J, Huang H. Incorporating new words detection with Chinese word segmentation[C]//Proceedings of CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP 2010). Beijing, China. 2010: 249-251.

[7] Luo S, Sun M. Two-character Chinese word extraction based on hybrid of internal and contextual measures[C]//Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing-Volume 17. Association for Computational Linguistics, 2003: 24-30.

[8] Tseng H, Chang P, Andrew G, et al. A conditional random field wordsegmenter for SIGHAN bakeoff 2005[C]//Proceedings of the 4th SIGHAN Workshop on Chinese Language Processing. 2005, 171.

[9] 張華平, 劉群. 基于角色標(biāo)注的中國(guó)人名自動(dòng)識(shí)別研究[J]. 計(jì)算機(jī)學(xué)報(bào), 2004, 27(1): 85-91.

[10] 顧森. 基于大規(guī)模語料的新詞發(fā)現(xiàn)算法[N].程序員.2012,07.

[11] 丁溪源. 基于大規(guī)模語料的中文新詞抽取算法的設(shè)計(jì)與實(shí)現(xiàn)[D]. 南京理工大學(xué)碩士學(xué)位論文, 2011.

SocialMedia-orientedOpenDomainNewWordDetection

ZHANG Huaping1,2, SHANG Jianyun3

(1. Department of Computer, Beijing Institute of Technology, Beijing 100081, China; 2. Beijing Engineering Research Center of Massive Language Information Processing and Cloud Computing Application, Beijing 100081,China; 3. School of Software Tachnology, Beijing Institute of Technology, Beijing 100081, China)

With the development of Internet, social media has become an important channel for information transmission. Focused on characteristics of the informal language in various domains inherent in social media, this paper proposes a social media-oriented open domain new word detection method. This approach can be executed in linear time complexity with a reduced memory usage, which enables real time processing large size data produced by social media. The experiment on a 6.6GB social media corpus reveal a processing speed of 2.6MB/s in normal PC, as well as 87.2% precision.

social media; Chinese new word extraction; conditional random field

張華平(1978—),博士,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,大數(shù)據(jù)搜索與挖掘,社交網(wǎng)絡(luò)分析。

商建云(1965—),博士,高級(jí)工程師,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、自然語言處理。

1003-0077(2017)03-0055-07

2014-09-25定稿日期: 2015-03-15

國(guó)家自然科學(xué)基金 (61272362);國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973)(2013CB329601)

TP391

: A

猜你喜歡
特征實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
主站蜘蛛池模板: 亚洲最黄视频| 香港一级毛片免费看| 亚洲精品色AV无码看| 免费A∨中文乱码专区| 中文字幕无码制服中字| 97精品久久久大香线焦| 国产综合欧美| 亚洲专区一区二区在线观看| 国产精品香蕉在线| 国产精品久久久久鬼色| 欧美另类一区| 欧美精品成人一区二区在线观看| 鲁鲁鲁爽爽爽在线视频观看| 日韩av无码精品专区| 亚洲欧美日韩中文字幕一区二区三区 | 国产欧美日韩另类| 欧美在线导航| 欧美人与动牲交a欧美精品| 亚洲国产天堂在线观看| 国产69精品久久久久孕妇大杂乱 | 永久免费av网站可以直接看的| 欧美日韩国产在线观看一区二区三区| 欧美日韩久久综合| 波多野结衣一级毛片| 亚洲首页国产精品丝袜| 第一区免费在线观看| 99久久精品国产麻豆婷婷| 国产成人高清精品免费5388| 在线中文字幕日韩| 亚洲天堂自拍| 91久久精品日日躁夜夜躁欧美| 国内精品自在欧美一区| 日韩少妇激情一区二区| 97精品久久久大香线焦| 久草青青在线视频| 国产精品尤物铁牛tv| 久久综合伊人 六十路| 国产精品黄色片| 无码区日韩专区免费系列| 国产在线观看一区二区三区| 制服丝袜一区| 最新亚洲人成无码网站欣赏网| 日本三级精品| 国产v精品成人免费视频71pao | 欧美日韩国产在线人成app| a欧美在线| 97久久超碰极品视觉盛宴| 国产国拍精品视频免费看 | 亚洲综合第一区| a色毛片免费视频| 欧美啪啪一区| 久久精品国产91久久综合麻豆自制| 在线日本国产成人免费的| 69视频国产| 夜夜操国产| 国产午夜无码片在线观看网站| 综合社区亚洲熟妇p| 欧美日韩在线第一页| 亚洲综合色区在线播放2019| 国产黄色片在线看| 欧美日韩国产高清一区二区三区| 五月天在线网站| 国产精品视频观看裸模| 亚洲无码91视频| 欧美亚洲日韩不卡在线在线观看| 91亚洲免费| 国产一区三区二区中文在线| www精品久久| 亚洲av无码成人专区| 国产欧美亚洲精品第3页在线| 91外围女在线观看| 伊人大杳蕉中文无码| 国产精品成人AⅤ在线一二三四| 91在线播放国产| 91免费国产高清观看| 欧美日本在线一区二区三区| 亚洲a级毛片| 日韩av电影一区二区三区四区| 中日韩一区二区三区中文免费视频| 国产成人精品在线1区| 成人午夜天| 色综合久久88|