999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于統(tǒng)計方法的新詞發(fā)現(xiàn)研究

2018-11-23 06:10:32
福建質量管理 2018年21期
關鍵詞:文本

(云南財經大學 云南 昆明 650032)

一、引言

對于英語等很多西方語言來說,其文本內容中的詞與詞之間是以空格、標點等符號顯式分隔的,因此可以很容易的將詞切割開,并不存在分詞的問題。然而中文的文本內容是以連續(xù)的漢字串形式表示的,詞與詞之間沒有明確的分隔標記,因此,中文的自動分詞一直是自然語言處理領域中的一項非常重要的基礎性工作,如果無法獲得準確的分詞,也就無法再進行后續(xù)操作。近年來,隨著互聯(lián)網技術的發(fā)展和移動終端的普及,以及微博、抖音等社交媒體的出現(xiàn),開始涌現(xiàn)大量的新詞,新詞的出現(xiàn)使現(xiàn)有分詞軟件的分詞準確率明顯降低。同時,由于不同行業(yè)或學科中都有其特定的專業(yè)術語,現(xiàn)有分詞軟件很難做到個性化處理準確地對特殊詞匯進行分割。因此,如何有效地發(fā)現(xiàn)新詞,對提高中文分詞的分詞效果有著重要作用,對提高工作效率具有重要的意義。

二、新詞發(fā)現(xiàn)的研究現(xiàn)狀

目前,新詞發(fā)現(xiàn)主要有基于統(tǒng)計的新詞發(fā)現(xiàn)和基于規(guī)則的新詞發(fā)現(xiàn)兩大類方法。Peng(2004)將詞匯特征和領域知識特征融入到模型中,利用CRF訓練,進而識別新詞。徐憶蘇(2008)利用條件隨機場模型對上下文特征進行訓練,從而進行新詞識別。徐遠方(2012)等人通過支持向量機訓練新詞詞間模式特征和詞內模式特征的向量化樣本,得到支持向量機從而預測新詞。陳飛(2013)等人利用條件隨機場方法,結合歸納出的許多區(qū)分新詞邊界的統(tǒng)計特征實現(xiàn)了新詞發(fā)現(xiàn),并在SogouT 大規(guī)模語料上進行新詞發(fā)現(xiàn)實驗,證明了方法的有效性。黃軒(2013)等通過詞出現(xiàn)的頻率,詞分布的密度,上下文分析以及詞在時間域上的變化分析對詞進行過濾;最后通過詞的統(tǒng)計信息和詞性規(guī)則對候選詞進行排序以提高準確率;在此基礎上建立新詞發(fā)現(xiàn)系統(tǒng)。邢恩軍(2016)等提出了一種基于上下文詞頻詞匯量的統(tǒng)計指標來實現(xiàn)新詞發(fā)現(xiàn)的方法,而該指標主要通過修改信息熵公式中參數(shù)的定義。

基于規(guī)則的方法往往需要人工構建規(guī)則庫,這些規(guī)則的建立往往需要耗費大量的人力物力,且新詞出現(xiàn)速度快,消失地也快,人工構建規(guī)則庫常常跟不上新詞的腳步。而且大部分規(guī)則都具有局限性,只能針對特定領域,很難制定出完全適用于各個領域的規(guī)則。基于統(tǒng)計的方法通常利用有監(jiān)督的機器學習算法進行新詞發(fā)現(xiàn),這些算法都需要標注語料,而且算法復雜。而本文基于統(tǒng)計方法的新詞發(fā)現(xiàn)并不需要大量的預料標注,算法簡單。主要步驟為首先對語料進行預處理,通過計算詞內部結合度,篩選出候選二元詞組; 然后計算邊界自由度,對二元詞組再次篩選和擴展,并通過調節(jié)閾值最終發(fā)現(xiàn)新詞。

三、基于內部凝固度和邊界自由度的新詞發(fā)現(xiàn)

(一)文本預處理

要進行新詞發(fā)現(xiàn)的工作,首先要對文本在現(xiàn)有技術的條件下進行一次分詞,再從分詞好的語料中進行統(tǒng)計、分析,從中找到需要的新詞,我們把這一步驟稱為一元分詞。本文中的所有分析都是在Python軟件中實現(xiàn)的,而在Python中,有封裝好的分詞工具可以使用,因此,直接利用Python中的jieba分詞工具對文本進行一元分詞。經過jieba分詞后,大部分常用詞都可以被正確分開,少部分新詞也可以被找到。例如,“我們在玩狼人殺”這句話,就可以被切分成“我們/在/玩/狼人/殺”,而“狼人殺”是一個最近流行的桌游,是我們想要發(fā)現(xiàn)的新詞,但進行一元分詞后并沒有把它正確劃分出,因此,需要進行后續(xù)分析。

(二)內部凝固度

進行一元分詞后的語料會以單字和詞語的形式呈現(xiàn),如果一個新詞被錯誤的劃分開,則會被分成兩個甚至更多的部分,所以要想找到新詞,這里又把臨近的詞兩兩組合,重新構成字符串,我們把新構成的詞稱為二元詞。例如,上例中的“我們/在/玩/狼人/殺”,構成二元詞就是“我們在/在玩/玩狼人/狼人殺”。

內部凝固度是對兩個一元詞緊密結合的度量,用來衡量兩個詞構成新詞語的可能性。凝固度越大,表明結合的越緊密,構成新詞的可能性就越大。例如詞A和詞B單獨出現(xiàn)的概率分別是P(A)和P(B),假設這兩個詞是獨立詞,則兩個詞同時出現(xiàn)的概率為P(A)*P(B)。如果這兩個詞不是獨立的,則兩個詞同時出現(xiàn)的條件概率會大于P(A)*P(B),即P(C)>P(A)*P(B)。

把上一步得到二元詞進行凝固度判斷,剔除小于設定閾值的商品,選擇大于設定閾值的二元詞進行下一步分析。但凝固度對稀疏數(shù)據特別敏感,通過凝固度篩選的二元詞可能會有很多噪音,影響準確性。例如,P(C)很小,但如果P(A)和P(B)也足夠小,那么C仍會被認為通過了凝固度檢驗。因此,我們需要對二元詞進行詞頻統(tǒng)計,只有大于設定閾值后,才能進行凝固度判斷。

(三)邊界自由度

通過了凝固度檢驗還不能判斷出該二元詞就可以成詞,還需要從整體上看這個詞的外部表現(xiàn)情況。邊界自由度是指一個字符串的鄰接集合中的鄰接字種類的數(shù)量。邊界自由度越大,表明字符串的邊界集合中字符的種類越多,即與該字符串相鄰的字符越復雜,那么該字符串成為邊界的可能性就越大,反之亦然。比如,“輩子”這個字符串,用法非常固定,除了“一輩子”、“這輩子”、“上輩子”、“下輩子”,基本上“輩子”前面不能加別的字了,即它的左臨字集合非常有限,因此,我們認為“輩子”這個字符串不能成為一個單獨的詞,而它和它的左鄰字構成的新詞才有可能構成一個真正的詞,像“這輩子”、“上輩子”。

如果一個文本片段能夠算作一個詞的話,它應該能夠靈活地出現(xiàn)在各種不同的環(huán)境中,具有非常豐富的左鄰字集合和右鄰字集合。在這里,我們由下式衡量二元詞的自由度:

P=左(右)鄰字字頻/二元詞詞頻

P越大,表示自由度越小,鄰字和二元詞更有可能構成新詞,而該二元詞不能成為新詞。對通過凝固度篩選的二元詞進行自由度判斷,如果左右鄰接字都小于設定的閾值,則認為該二元詞就是我們要找的新詞。如果左鄰接字大于閾值,則把左鄰字和二元詞構成的詞當作新詞。同理,對右鄰字也做這樣的判斷。

(四)算法流程

本文的新詞發(fā)現(xiàn)算法主要就由文本預處理,內部凝固度算法和邊界自由度算法構成,算法的總流程如下圖所示:

四、實驗及結果分析

本文采用文言文版的西游記一書作為文本材料進行實驗,因為古漢語與現(xiàn)代漢語在成詞、結構、語序等方面都有很多不同,因此,在時間緊迫來不及獲取更多文本語料的情況下,選此作為實驗數(shù)據。

常用來判斷算法好壞的指標是準確率和召回率:

準確率=正確識別出的新詞個數(shù)/識別出的詞串總個數(shù)

召回率=正確識別出的新詞個數(shù)/語料中新詞總個數(shù)

因為無法確定語料中的新詞總個數(shù),因此只采用準確率來判斷算法好壞。通過Python實現(xiàn)上述算法(由于文章篇幅所限,并未附上代碼,如有需要可以聯(lián)系作者)后,采用不同的閾值對語料進行分析得到結果如下:

詞頻閾值凝固度閾值自由度閾值詞串個數(shù)新詞個數(shù)準確率1020000.521810045.87%2020000.5562850%1010000.530010133.67%1020000.721810045.87%

通過結果可以看出,不同閾值的選擇對輸出結果還是有很大的影響。詞頻閾值設置過大,準確率可以提升,但發(fā)現(xiàn)的新詞個數(shù)也大幅度下降;凝固度閾值過小,會造成準確率下降;而第一組和第四組的輸出結果幾乎相同,說明能作為新詞的二元詞,其在語句中都具有極高的靈活度,閾值增加到0.7幾乎不產生影響。

輸出結果的準確率都在50%左右,證明了這個算法的有效性,但如前所述,閾值不同其輸出結果也不同。同時,由于不同文本的特征不同,其對閾值的要求也會相應不同。因此,接下來的研究方向就是尋找最佳的閾值設定,同時希望能找到一種針對不同文本都具有普適性的閾值設定方法。

猜你喜歡
文本
文本聯(lián)讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發(fā)還是從文本出發(fā)
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 国产乱人激情H在线观看| 伊人久热这里只有精品视频99| 国产产在线精品亚洲aavv| 无码区日韩专区免费系列 | 亚洲天堂2014| AV网站中文| 久久综合伊人77777| 国产美女在线免费观看| 久久一色本道亚洲| 夜精品a一区二区三区| 亚洲天堂.com| 久久综合九九亚洲一区| 色综合久久久久8天国| 久久精品亚洲专区| 国产在线91在线电影| 国产在线观看99| 99久久国产精品无码| 亚洲无线国产观看| 国产高清无码麻豆精品| 啪啪啪亚洲无码| 国产日韩精品欧美一区喷| 粉嫩国产白浆在线观看| 激情综合激情| 国产区在线观看视频| 日韩毛片免费视频| 亚洲国产精品VA在线看黑人| 国内精品91| 青草精品视频| 久久国产亚洲欧美日韩精品| 日韩欧美亚洲国产成人综合| 91系列在线观看| 在线不卡免费视频| 亚洲首页在线观看| 老司机午夜精品网站在线观看| 久久 午夜福利 张柏芝| 国产大片喷水在线在线视频| 精品久久蜜桃| 国产综合精品日本亚洲777| 91福利一区二区三区| 91在线视频福利| 综合亚洲色图| 91娇喘视频| 亚洲成年人网| 99无码中文字幕视频| 国产美女久久久久不卡| 狠狠色噜噜狠狠狠狠色综合久| 新SSS无码手机在线观看| 日本亚洲成高清一区二区三区| 亚洲成a人在线播放www| 国产视频自拍一区| 亚洲欧美另类中文字幕| 午夜三级在线| 99国产精品国产高清一区二区| 欧美午夜网| 欧美一级夜夜爽| 国产午夜无码片在线观看网站| 黄色三级网站免费| 一级全免费视频播放| 久久婷婷综合色一区二区| 国产精品亚洲一区二区三区z| 久久久噜噜噜久久中文字幕色伊伊 | 免费不卡在线观看av| 国产精品无码AV中文| 亚洲免费人成影院| 久草网视频在线| 无码av免费不卡在线观看| 国产你懂得| 国产精品自在在线午夜区app| 国产成人啪视频一区二区三区| 男女精品视频| 精品91视频| 自拍欧美亚洲| 91精品久久久无码中文字幕vr| 午夜福利网址| 一级高清毛片免费a级高清毛片| 欧美激情第一欧美在线| 国产精品福利社| 亚洲精品国产成人7777| 日韩欧美色综合| 国产成人狂喷潮在线观看2345| 无码久看视频| 国产日韩欧美在线播放|