999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

云計算平臺上兩種中文分詞算法的實現對比研究

2021-04-25 14:45:05周寅龍廣富
電腦知識與技術 2021年9期
關鍵詞:比較云計算

周寅 龍廣富

摘要:現如今,常用的中文分詞算法為IKAnalyzer(簡稱為:IK)和ICTCLAS(簡稱為:IC)兩種,這兩種算法也可以說是如今的主流中文分詞算法,為了能夠更好的研究兩種算法的性能,本文首先利用理論對兩種算法在單機環境下的性能進行分析,而后通過Hadoop分布式文件管理系統(簡稱為:HDFS)、Hadoop集群和并行處理大數據集的MapReduce所共同組成的系統框架,并將算法優化后,通過開展大量的實踐性實驗對兩種不同算法在分布式環境下對大數據集進行處理后的表現進行比較,而后得出具體的分析結果,希望能夠為相關人士帶來幫助。

關鍵詞:云計算;IKAnalyzer;ICTCLAS;Hadoop;比較

中圖分類號:TP3? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)09-0191-02

開放科學(資源服務)標識碼(OSID):

對于中文分詞法來說,該方法最初被北京航空航天大學的梁南元教授所提出,屬于一種在查字典分析方法基礎上的分詞方法,近些年來,由于我國經濟水平和社會發展的速度越來越快,中文在整個世界舞臺中所占據的地位也越來越重要,并且吸引了更多學者加入中文分詞法的研究中,現如今已經實現了基于多種詞典和概率統計的中文分詞算法,而在面對這些大量的中文信息時,必須要確保文本分詞結果,在滿足本身詞義的基礎上,盡可能延長詞組長度,而現如今的中文分詞算法種類非常多,但是可以將其大致分為三種,分別為基于字符串匹配的分詞、基于理解的分詞以及基于統計的分詞,在這種情況下也出現了多種分詞算法產品,比如SCWS、HTTPCWS. IKAnalyzer 2012、FudanNLP、ICTCLAS等,而這些分詞算法均不能算作為開源,而考慮到雖然IKAnalyzer 2012、ICTCLAS等算法屬于開源,但是這些算法卻大多應用在單機環境下,考慮這一前提條件,可以將這兩種算法引入到云計算平臺上,進而使其能夠與更多應用進行結合。

1背景

近些年來,隨著科學技術水平的提升,互聯網技術也得到了大范圍的推廣與普及,今天,人們已經步入了Web2. 0時代。由于互聯網規模的擴大,互聯網技術在各大平臺、領域和行業中均得到了非常廣泛的應用,并成為人們獲取信息、交流思想的主要平臺之一,同時也形成了新的“共享”互聯網理念,但是,這種理念也有一定的弊端,每一個使用互聯網的用戶都可以利用互聯網隨意發布信息、傳播信息,而這些信息有一部分信息是無序的、結構不完善的,從而被隨意散發在互聯網的每一個角落中,這些信息不僅無作用和意義,而且也非?;靵y。

在如今的Internet中,大多數信息都是以文本的形式存在,這種情況下,為了可以進一步提高互聯網的應用價值,則必須要在雜亂無章的文本信息中快速提取人們所需的資源。為此,本文特對如何解決這一問題進行深入研究。與此同時,大量的網絡信息的井噴現象也提高了對信息處理的要求,因為傳統信息處理方法無法大量處理數據,而且大多數情況下均是在單機中進行處理,所以,非常容易受到存儲介質、處理器等多種客觀因素的制約,在進行處理時,可能會出現信息貧乏、數據豐富這一困窘的局面。

本次研究的重點目的就是在云計算的平臺下,充分分析中文分詞法的利與弊,從而根據二者的優勢進行權衡選擇。

2分詞技術的相關綜述

2.1 全文搜索技術

全文檢索具體指的就是利用計算機索引程序對文章內的詞語進行搜索,根據不同的詞語,建立對應的索引,而后直接找到該詞語在文章中出現的具體次數與位置,在用戶進行查詢時,可以直接使用事先建立好的檢索程序進行查找,完成查找后,直接將結果反饋給用戶。在中文文檔中,索引既可以文字,也可以是詞語或詞組。

分別對二者進行分析,以字為基礎的傳聞所言具體指的就是針對文章中的每一個字進行搜索,而后所建立的一種索引,在檢索時,可以直接將詞分解成為字。每一種不同的語言,字的含義也不同,比如在英文中字與詞是統一的,而在中文中字和詞則有很大的區別,雖然采用此方法查卷率比較高,但是準確率卻無法得到保障。對于以此為基礎的全文索引,具體指的就是對文章中含有的詞語進行搜索,也就是以語義單位建立的一種索引,在進行檢索時,需要按照詞語進行檢索,而且也能夠直接對同一項進行處理。 然而西方文字等是按照空白簽分支,所以在進行索引時,與暗字處理相似。

2.2 中文分詞技術

對于中文和英文的分詞方法來說,二者之間有很大的差異,在英文分詞法中,一個單詞指的是一個詞兒,中文分詞法則是以漢字作為書寫單位,詞語之間也沒有明確的區分標記,需要采用人工方法對其進行切分?,F如今,國內外有關于中文分詞法的研究。主要分為以下幾種,分別為正向最大匹配法、反向最大匹配方法、分詞與詞性標注一體化方法等。

查閱多種文獻后,可以發現在如今的中文分詞法中,依然存在著兩個需要迫切解決的問題,第一是奇異問題,在漢語中依然存在著非常多的奇異現象,具體指的就是對幾個字分詞,會出現多種不同的結果。第二則是未登錄詞識別問題,系統應該可以對尚未登錄的詞語進行識別與記錄,在而后再經過不斷的整理后,進一步加強對未登錄詞語的識別能力。

3兩種中文分詞算法的相關概述

在漢語語言的自然處理中,一個詞具有一定的原子性,而且詞語也是整個漢語語言體系中最能夠表達具有實際意義的最小化語素。英語語句的表達中,單詞屬于一種天然的分界符,與英文相比,中文自身的構詞特點具有非常明顯的獨特性,一般情況下,中文語句的構成以字為基礎,字也可以將其稱為中文的基本書寫單位,在句子與句子之間、段落與段落之間,通常需要采用非常規范的分界符進行分界,但是詞語與詞語之間卻缺少規范化的分界符進行分界[1]。

1)IKAnalyzer

對于IKAnalyzer中文分詞算法來說,其是在JAVA語言開源中的輕量級的中文分詞第三方工具包,而后采用分析核算法中的源碼,充分的說明IKJQuery Parser是對整個算法發揮支撐作用的核心類分詞工具。具體而言,該算法可以利用由最大詞語到最小詞語層層遞進的檢索方式,對關鍵詞進行搜索,經過相關的實驗研究結果表明,該方法的最大驗證速度可以達到8w字每秒,但是因為該算法是在JAVA語言編寫的基礎上而形成的,所以說,該方法也具有非常良好的移植性特點。

2)ICTCLAS

我國科學院計算技術研究所,針對自然語言處理研究的基礎上,提出了新的漢語詞法分析系統,并將其稱作為ICTCLAS[2],在這其中主要包括中文分詞、新詞識別、詞性標注、命名實體識別以及用戶詞典等多種功能。

4 實驗研究

4.1 不同大小文本

早在Map階段時期,splits決定Maptask的數量。如果利用MapReduce處理大量小型文件的過程中,因為每一個處理的小文件都需要單獨占用一個任務模塊,所以就會產生比較多的Maptask[3],但是一旦任務啟動則會消耗大量的時間,從而導致大量的時間均耗費在任務的啟動與釋放工作中??傮w而言,因為線程管理開銷不斷上升,所以也導致整個處理作業的時間在不斷增加。

總體而言,兩種不同的中文分詞算法在對小文本數據進行處理時,會由于啟動Map任務因素的影響而占用大量的時間,這樣一來就會降低一定時間內分詞算法的效率,因此,在云計算平臺的基礎上,不適合將分詞算法應用于小文本數據集的處理工作中。

4.2 不同數量的文本

如果總本容量比較固定,比如數值在100M情況下,在不同時間節點下,具體分別為1、10、100、1000各個節點,將此作為前提條件進行對比,從而對比不同數量文本對IKAnalyzer和ICTCLAS在云計算平臺下的運行速度,經實驗后,可以得到相對應的100M、10M、1M和100K的文本。

對于HDFS來說,該系統屬于一種提供高吐量的分布式文件系統,最初,該系統被應用于大文件的訪問工作中,但是新聞數據大部分均為大小為KB的小型文件,而這些小型文件但數量過度的文件所產生的元數據會向主節點連續發送讀寫請求,這樣一來就會增加網絡中數據傳輸和請求響應的時間,最終對整個平臺的運行速度和性能造成影響。

4.3 不用領域的文本

在不同領域的文本中,應對分詞效果進行約定,首先,必須要確保分詞能夠與詞語本身的意義相符合,其次,應盡可能地加長詞組(最小切分數),在這種約定下,IKAnalyzer在招聘、軍事、IT和體育等領域中應用的正確率明顯高于ICTCLAS,但是,這兩種中文分詞方法在體育領域中應用的正確率卻達不到80%,而在教育界的領域中則可以達到95%以上,這也就充分的說明,文本內容會直接對兩種不同中文分詞法的正確率帶來影響。此外,兩種不同中文分詞法在五大領域中均具有比較高的召回率,但是其中IKAnalyzer中文分詞法的召回率高于ICTCLAS中文分詞法。在體育領域中,ICTCLAS中文分詞法的召回率遠低于IKAnalyzer分詞法,百分比可達到18%,同時,不同的文本內容,對兩種中文分詞法的召回率也會產生 一定程度的影響。IKAnalyzer中文分詞法在軍事、體育、IT和招聘領域中的F值明顯高于ICTCLAS中文分詞法,綜上,在軍事、體育、IT和招聘四個領域中,IKAnalyzer中文分詞法的應用優勢明顯優于ICTCLAS中文分詞法,而ICTCLAS中文分詞法在教育領域要高于體育領域21%,而在體育領域和教育領域中,IKAnalyzer中文分詞法的懸殊達到12%,從而表明,IKAnalyzer中文分詞法的魯棒性更優于ICTCLAS中文分詞法,而且文本內容也會對兩種不同中文分詞算法的綜合性能造成影響。

5結束語

綜上所述,與傳統環境下的中文分詞算法相比,在云計算平臺基礎上的中文分詞算法能夠有效地提高漢字分割的效率,而且也能夠有效解決分詞算法速度快而精準度不足等問題,從而進一步提高中文分詞效率。經實驗研究結果表明,在云計算平臺基礎上IKAnalyzer中文分詞算法和ICTCLAS中文分詞算法中,ICTCLAS中文分詞算法的速度明顯優于IKAnalyzer中文分詞算法,而在分詞正確率和召回率方面,IKAnalyzer中文分詞算法則明顯優于ICTCLAS中文分詞算法。

參考文獻:

[1] 熊健,翟紫姹.基于詞性標注與分詞消歧的中文分詞方法[J].廣州大學學報(自然科學版),2019,18(5):27-33.

[2] 朱咸軍,洪宇,黃雅琳,等.基于HMM的算法優化在中文分詞中的應用[J].金陵科技學院學報,2019,35(3):1-7.

[3] 劉桂梅.應用中文分詞技術的網絡推廣管理系統的設計與實現[J].電子商務,2019(9):56-58.

【通聯編輯:代影】

猜你喜歡
比較云計算
西方文藝復興時期與中國宋元時期繪畫題材的思維方式比較
電影《千年之戀·源氏物語》與《源氏物語千年之謎》的比較
同曲異調共流芳
人間(2016年26期)2016-11-03 16:47:14
中日足球后備人才培養體系比較
體育時空(2016年8期)2016-10-25 20:47:19
志愿服務與“互聯網+”結合模式探究
云計算與虛擬化
基于云計算的移動學習平臺的設計
張愛玲的《金鎖記》與居斯塔夫?福樓拜的《包法利夫人》比較研究
實驗云:理論教學與實驗教學深度融合的助推器
大學教育(2016年9期)2016-10-09 08:54:03
托福聽力指南:如何搞定“比較”和“遞進”結構的講座題
主站蜘蛛池模板: 欧美性色综合网| 无码中文字幕精品推荐| 97se亚洲综合| 亚洲第一区精品日韩在线播放| 热re99久久精品国99热| 国产成人一二三| 亚洲一区无码在线| 国产视频入口| 久久综合伊人 六十路| 国产在线自乱拍播放| 91精品国产自产在线观看| 国产乱肥老妇精品视频| 亚洲最大综合网| 东京热av无码电影一区二区| 国产剧情一区二区| 成年人国产网站| 亚洲一区二区成人| 中文字幕欧美日韩| 人妻出轨无码中文一区二区| 婷婷色狠狠干| 亚洲中文字幕23页在线| 国产无吗一区二区三区在线欢| 国产欧美日韩另类| 国产精品欧美日本韩免费一区二区三区不卡 | 久久精品人妻中文系列| 在线观看免费AV网| 亚洲嫩模喷白浆| 91午夜福利在线观看| 伊人色综合久久天天| 午夜精品福利影院| 久久精品一品道久久精品| 伦伦影院精品一区| 四虎成人精品在永久免费| 国产精品欧美亚洲韩国日本不卡| 国产在线观看精品| 无码 在线 在线| 久久中文字幕av不卡一区二区| 91毛片网| 99爱视频精品免视看| 国产91丝袜在线播放动漫| 国产国产人成免费视频77777| 亚洲国产综合精品一区| 亚洲av无码专区久久蜜芽| 黄色福利在线| 久久亚洲国产一区二区| 婷婷午夜天| 国产尤物jk自慰制服喷水| 高潮毛片无遮挡高清视频播放| 久久婷婷国产综合尤物精品| 久久免费视频6| 亚洲三级成人| 欧美成人手机在线观看网址| 熟妇丰满人妻| 欧美劲爆第一页| 综合人妻久久一区二区精品| 精品人妻AV区| 亚洲视频免| 日韩天堂在线观看| 亚洲一区二区三区麻豆| 成人精品午夜福利在线播放| 亚洲高清无码久久久| 天堂av高清一区二区三区| 亚洲综合欧美在线一区在线播放| 亚洲h视频在线| 国产成人精品一区二区秒拍1o| 欧美成a人片在线观看| 色综合网址| 中文字幕 91| 又粗又大又爽又紧免费视频| 114级毛片免费观看| 欧美日本一区二区三区免费| 久久久受www免费人成| 米奇精品一区二区三区| 天堂在线亚洲| 国产本道久久一区二区三区| 精品無碼一區在線觀看 | 青青操视频在线| 午夜毛片福利| 亚洲av成人无码网站在线观看| 精品亚洲国产成人AV| 国产精品视频久| 日本欧美精品|