999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信息傳播特性的新詞發現方法研究

2020-12-14 04:35:10曹春萍楊青林
軟件導刊 2020年9期

曹春萍 楊青林

摘 ?要: 針對現有方法無法有效、快速地識別出網絡中文新詞,且其生命周期比較短的問題,提出了一種基于信息傳播特性的新詞發現方法研究。利用N-gram算法得出候選詞串列表,基于詞頻和詞語靈活度對垃圾詞串進行過濾,實現基于信息傳播特性的微博新詞統計方法。實驗結果表明:提出的基于信息傳播特性的新詞發現方法在查準率、召回率都要比使用中文ICTCLAP9115分詞方法分詞更好,更具有優勢。

關鍵詞: 信息傳播;新詞;發現方法;N-gram算法

中圖分類號: TP301 ???文獻標識碼: A ???DOI:10.3969/j.issn.1003-6970.2020.09.053

【Abstract】: In view of problem that existing methods can not identify Chinese new words on the Internet effectively and quickly, and their life cycle is relatively short, the paper proposes a new word discovery method based on characteristics of information dissemination. It obtains list of candidate word strings with N-gram algorithm, filters waste word strings based on word frequency and flexibility, realizes statistical method of new words in microblog based on characteristics of information dissemination. Experimental results show new word detection method based on characteristics of information dissemination has better precision and recall rate than the Chinese ICTCLAP9115segmentation method with advantages.

【Key words】: Information dissemination; New words; Discovery method; N-gram algorithm

0 ?引言

自微博出現以后,其以實時性和方便性受到廣大網民的歡迎和熱愛,已經發展為網絡應用的愛寵。同時微博上匯聚的龐大用戶以及比較自由的言論環境,又使微博發展為切實掌握社會熱點的重要工具。伴隨計算機信息技術和網絡技術的發展創新和應用,計算機網絡越發成為大眾信息發布與文化傳播交流的社會平臺,因此產生一大批全新的網絡用語和熱詞。一些普及度比較高的網絡新詞開始為眾人所認可,并被逐漸擴展到中文詞語庫之中[1]。因為在網絡世界中存在海量文本,而要想在文本中尋找到散落的網絡新詞單獨憑借人工查找、查閱和統計比較困難,因而怎樣在短時間內快速有效地對網絡數據進行查閱并發現新詞,這就成為一項迫切需要解決的現實問題。但網絡文本數據龐大,因為其相關性比較差、組詞并無規律,這些就導致部分規律原理方法很難直接套用;而單條網絡文本因為其文本長度比較短,噪聲比較大[2],這就造成傳統的基于統計學的發現方法很難提高其最終準確率。因此,本文研究基于信息傳播特性的新詞發現方法。

1 ?基于信息傳播特性的微博新詞發現方法

相比于常規的語料訓練,微博語料庫中包含的文

本內容由于身處網絡世界,要更為龐大復雜。除正常的文本信息以外,還會伴隨諸多無意義的干擾選項,比如說表情符號中的[doge]、[淚]、[微笑]等等;微博用戶或平臺發布的網頁鏈接,比如http://t.cn/8syl8qn等;符號“//@”用戶名用代表轉發用戶,符號“@”+表示語句中提到的特定用戶;由于絕大多數微博用戶名不是正式網名,因此所有微博用戶名稱都不具有實際意義;以及微博語料庫中的標點符號,由于文本的失真和非正式性,導致大量微博用戶濫用標點[3]。這幾種字符串并沒有產生新詞,因而能夠將其從待處理語料庫中過濾,直接以“空格”來取代,如此可進一步提升語料庫的文本含量并有效降低后續操作的難度。

1.1 ?利用N-gram算法得出候選詞串列表

N-gram模型主要是根據如下一種假設:第個詞語的出現只和前面個詞語有關系,而和其他詞語之間均無關聯。我們以來表示這個詞語,如此出現的概率就能夠以來表示,這里使用代表詞串。在保證大量訓練語料的基礎上,按照最大相似規則[4],就能夠獲取以下公式:

1.2 ?基于詞頻和詞語靈活度過濾垃圾詞串

任何一個新詞的出現,勢必會伴隨著絕大多數群眾的大規模使用,而使用次數越少的詞語并不具有發展為一個新詞的可能性;同時因為互聯網用戶在建立文檔的時候必然會出現輸入法錯誤的操作,錯別字等各式狀況的發生,在新詞候選集合中會出現諸多偶然性匹配,這種匹配在性質上并不納入新詞考慮范圍內,絕大多數這種噪聲元組是沒有辦法通過閾值的篩選,可是依然會有一小部分的噪聲因為彼此之間信息閾值在計算方式上的不同,其統計記錄也會影響到詞語整體最終呈現的準確率[5]。本文利用詞頻和詞語靈活度的方法對上文形成詞串中的垃圾詞串進行過濾,以便有效提高之后新詞統計方法的工作效率。一個具備成為詞語的字符串,勢必會在社會得到廣泛推廣和使用,因而在訓練語料庫中也會頻繁出現。出現頻率較低的詞串在性質上會被歸屬為不具備一定意義的有效詞串。通過統計分析得知,92.01%的候選詞串其出現次數基本上小于等于2,所以本文在詞頻過濾方法的閾值大小設置為2。

另外一方面,按照中文的形成和組詞規律,會存在一部分字符并不時常出現在詞首或詞尾,這些字符即為“停用字”,主要分為“詞首停用字”和“詞尾停用字”[6]。本文通過詞串的靈活度(代表每一個字符組成詞語的可能性和可行性)和設置閾值的比對,去有效發現“停用字”。本文以來代表待判字符,以·代表隨意一個字符,有可能會出現在詞首/詞尾,甚至是詞的任何一個位置,由此定義“詞首停用字”為:

上述公式中:代表詞串在訓練語料庫中出現的實際次數;代表字符出現在詞首或詞尾的可能性閾值。實驗中設定閾值為2,共選取出大概200個停用字,如“是”“的”“了”“們”“你”等。對候選詞串完成垃圾過濾以后,本文以統計學方法獲取最終出現的新詞結果。

1.3 ?基于信息傳播特性的微博新詞統計方法

微博新詞與普通詞語在組成結構上有很大不同,如詞語構成上相較來說較為自由不受限,并沒有遵循傳統的語法構造[7]。由于單純的漢語組成規則方法,其規則的制定比較耗時,且可移植性較低;另外雖然單一的N-Gram模型其可移植性較為優秀,可其在大規模數據的運作中涉及的計算量比較龐大,所以本文提出了基于信息傳播特性的新詞發現方法,利用N-Gram方法對新詞進行識別、統計。主要步驟如下所示:

步驟1:首先對文本信息語料庫中的分詞碎片進行預先處理,以便獲取到候選新詞集。在將其加入垃圾詞串庫的MC過程中需要把每一個文本連續編號以組建一個碎片子集FS,按照上述規則,FS主要是作為大于2個詞的詞子集而存在。比如:“第一次/大概/還/一知半解/不明覺厲”。按照剛剛的規則能夠獲得2個FS子集,即“第一次可能”和“不明覺厲”。在N-Gram模型詞串庫MC提取FS的候選語料算法的操作過程具體如下所示:

算法:N-gram中候選新詞提取算法。

輸入:MC//詞串語料庫集合;FS//碎片語料序列;

輸出:CS//候選新詞子集。

過程:

1)在詞串語料庫MC中,按照關鍵詞的提示,候選詞串按照運算規則提取到FS,將其作為三元的Bi-Gram和四元的Tri-Gram模型內的計算對象;

2)對每一個FS中蘊含的詞語頻數進行統計,之后統一做歸一化處理,最后通過Bi-Gram模型公式(1)分別對FS的三元組、四元組和五元組字符出現的概率進行精準計算。之后將字符串連同其出現的概率值存儲至語料庫內;

3)按照公式(2)對每一組詞句的分詞結果出現概率進行比較,選擇最優結果[8],換句話說就是通過公式(3)獲得概率的最大值,若是小概率則利用公式(4)對概率進行計算。得到結果后,將所有字符串出現的概率按大小關系進行排序,選擇較大的一組字符串作為候選字符串;

4)借助TriGram模型,重復上述過程2)和過程3),獲得候選字符串,最后抽取同時存在于與內的相同字符串作為候選語料的新詞序列。

步驟2:通過相鄰熵對候選新詞子集進行成詞概率的過濾。候選新詞一般是三元組或五元組,計算左右相鄰熵均超過閾值,如此便加入新詞子集內。候選新詞通常為四元組,首先對左邊鄰近熵進行計算,判斷其是否超過閾值[9-10];一旦超過閾值,繼續對右邊相鄰熵進行計算,將左右鄰近熵超過閾值的候選新詞納入新詞子集內。如果候選新詞判斷為新詞,那么其在語料庫中勢必具備較高的出現頻率,必然“高富帥”肯定會比和它有關的垃圾詞串“富帥不”出現頻率要高。假設候選新詞用表示,那么我們使用詞頻代表在語料庫內出現的頻率,一般越大,作為新詞的可能性就越大,二者成正比例關系。根據有關資料顯示,用來表示兩個事物之間的相關性或親密度。在新詞篩選的過程中,可以用來衡量多個字/詞組合成語句的可能性大小。對于候選新詞而言,其親密度可用以下公式表示:

2 ?實驗論證與分析

為保證本文設計的基于信息傳播特性的新詞發現方法的有效性,進行實驗論證分析。

2.1 ?實驗準備

硬件環境:需要兩臺計算機,(1)配置:Intel Xeon E9-1331v5,4.50 GHz主頻,64 GB內存,32位操作系統;(2)配置:Intel Xeon E6-2929 v5,3.30 GHz主頻,256 GB內存,64位操作系統;軟件環境:(1)操作系統Windows10,(2)操作系統是Cent OS。算法采取JAVA與python雙結合,編輯工具以Eclipse和IDLE為主。

本次實驗選取9000條微博文本,分成三組作為輸入,分別利用本文方法和中文ICTCLAP9115分詞方法對其做相關處理,按照一系列的計算獲取最終結果。

2.2 ?實驗結果分析

通過新浪微博APP,隨機抽選取新浪微博中粉絲數量比較多的微博賬號作為信息采集的起點,利用“滾雪球”的方式,采集到2019年4月1日至2020年4月1日這些微博賬號在微博上公開發布的每一條微博的網絡IP、信息發布者、信息發布時間、信息發布內容等,在對垃圾微博進行過濾等處理后,建立了包括9000條微博的原始數據集合。

3 ?結束語

本文對基于信息傳播特性的新詞發現方法進行分析與設計,依托信息傳播的特性,收集并提取微博詞語數據的普遍特征,結合新詞出現規則,對新詞的出現進行統計分析,實現新詞發現法的創新。實驗論證結果表明,本文設計的基于信息傳播特性的新詞發現方法具備極高的有效性,在對微博新詞進行統計查找的過程中,可以有效節省計算時間,提高查找率和召回率。希望本文的研究能夠為我國新詞發現方法提供理論依據和參考。

參考文獻

[1]趙志濱, 石玉鑫, 李斌陽. 基于句法分析與詞向量的領域新詞發現方法[J]. 計算機科學, 2019, 46(6): 29-34.

[2]陳芬, 高小歡, 彭玥, 等. 融合文本傾向性分析的微博意見領袖識別[J]. 數據分析與知識發現, 2019, 3(11): 120-128.

[3]賓晟, 孫更新. 基于多關系社交網絡的協同過濾推薦算法[J]. 計算機科學, 2019, 46(12): 56-62.

[4]李嘉興, 王晰巍, 常穎, 等. 社交網絡用戶行為國內外研究動態及發展趨勢[J]. 現代情報, 2020, 40(4): 167-177.

[5]劉偉童, 劉培玉, 劉文鋒, 等. 基于互信息和鄰接熵的新詞發現算法[J]. 計算機應用研究, 2019, 36(5): 1293-1296.

[6]黃偉, 曹春萍.基于行為分析與傳播個體的微博傳播模型研究[J].軟件, 2019, 40(01): 127-131.

[7]汪文妃, 徐豪杰, 楊文珍, 等. 中文分詞算法研究綜述[J]. 成組技術與生產現代化, 2018, 35(3): 1-8.

[8]劉申凱, 周霽婷, 朱永華, 等. 融合知識圖譜和ESA方法的網絡新詞識別[J]. 計算機技術與發展, 2019, 29(3): 12-17.

[9]曾浩, 詹恩奇, 鄭建彬, 等. 基于擴展規則與統計特征的未登錄詞識別[J]. 計算機應用研究, 2019, 36(9): 2704- 2707+2711.

[10]李娟, 虞金中. 基于新詞的新聞命名實體識別研究[J]. 電腦知識與技術, 2018, 14(22): 153-154.

[11]陳海宇.“大數據”時代背景下計算機信息處理技術的探討[J].計算機產品與流通, 2020(05): 6.

主站蜘蛛池模板: 久久国产高潮流白浆免费观看| 欧美国产菊爆免费观看| 男女精品视频| 欧美笫一页| V一区无码内射国产| 手机精品福利在线观看| 欧美丝袜高跟鞋一区二区| 最近最新中文字幕在线第一页 | 精品视频福利| 免费看美女毛片| 亚洲女同欧美在线| 国内精自线i品一区202| 亚洲三级a| 日韩成人高清无码| 午夜国产大片免费观看| 精品自窥自偷在线看| 在线播放精品一区二区啪视频| 欧美一区二区人人喊爽| 国产精品专区第1页| 国产精品香蕉在线观看不卡| 欧美国产在线看| 中文字幕 欧美日韩| 丁香婷婷综合激情| 黄色网址免费在线| 亚洲日本中文字幕乱码中文| 毛片网站在线播放| 国产黄色爱视频| 亚洲婷婷丁香| 亚洲国产成人在线| 亚洲永久视频| 国产在线日本| 四虎永久在线精品国产免费| 91精品国产情侣高潮露脸| 欧美 亚洲 日韩 国产| 少妇极品熟妇人妻专区视频| 全免费a级毛片免费看不卡| 亚洲三级a| 欧美在线天堂| 色综合热无码热国产| 久久精品一品道久久精品| 一本久道久久综合多人| 色哟哟国产成人精品| 中文字幕亚洲另类天堂| 91午夜福利在线观看精品| 亚洲国产看片基地久久1024| 国产噜噜在线视频观看| 亚洲一级色| 极品尤物av美乳在线观看| 人妻少妇乱子伦精品无码专区毛片| 国产一区二区三区在线观看视频| 国产成人一区二区| 色悠久久久| 国产亚洲精品在天天在线麻豆| 岛国精品一区免费视频在线观看 | 鲁鲁鲁爽爽爽在线视频观看| 欧美日本视频在线观看| 亚洲区一区| 久久永久免费人妻精品| av在线人妻熟妇| 欧美日韩一区二区三| 人妻21p大胆| 国产精品成人免费综合| 91av国产在线| 91国内视频在线观看| 免费人成在线观看视频色| 久久综合九九亚洲一区| 色播五月婷婷| a毛片在线| 国产91熟女高潮一区二区| 福利在线一区| 欧美色亚洲| 丰满少妇αⅴ无码区| 欧美日韩久久综合| 亚洲欧美一区在线| 亚洲国产理论片在线播放| 国产日韩精品欧美一区喷| 亚洲色图欧美一区| 日韩国产综合精选| 日本午夜视频在线观看| 2019年国产精品自拍不卡| 久久鸭综合久久国产| 高清码无在线看|