999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本分割技術研究現狀與發展趨勢

2022-04-29 16:02:41劉爽
計算機應用文摘 2022年13期
關鍵詞:分析

劉爽

關鍵詞 文本分割 分析 研究熱點

本文以中國知網數據庫和Web of Science 核心合集數據庫中的期刊數據為數據來源,用社會網絡分析法對相應的知識圖譜進行分析,得出簡單且直觀的研究結論。

1研究方法

本文主要使用的研究方法是社會網絡分析法以及共詞分析法。主要利用了SATI 和Ucinet 軟件工具, 首先利用文獻題錄信息統計分析工具SATI[1] 對文獻的相關字段信息進行處理,生成頻次統計文檔,提取出樣本數據文本詞條,生成共現矩陣。再通過Ucinet[2] 社會網絡分析軟件實現高頻關鍵詞可視化和高產作者可視化分析,得出相關研究結論。

2研究結果

2.1國內作者共現分布分析

使用文獻題錄信息分析工具SATI 對112 篇文獻進行統計分析,得到14 位作者的合作網絡圖,14 位作者組成了4 個團隊,其中合作頻率最高的團隊是由石晶、李萬龍、胡明、戴國忠四位作者組成,基于LDA 模型的文本分割以LDA 為語料庫及文本建模,利用MCMC 中的Gibbs 抽樣進行推理,間接計算模型參數,獲取詞匯的概率分布,使隱藏于片段內的不同主題與文本表面的字詞建立聯系[3] 。

第二個團隊是由卡米力·木依丁、艾斯卡爾·艾木都拉、易曉芳三人組成,主要針對維吾爾文手寫體文本中行分割問題,基于連通域大小將圖像中文字分為三類,提出了自適應涂抹細化算法,對主體文本行進行定位;并對第三類連通域中相鄰兩文本行間粘連的字符進行切割[4] 。該團隊還研究了現有算法對于筆畫中含有大量離散筆畫點和附加部分的手寫體文本分割性能較低的問題,并提出一種基于分段式前景涂抹和背景細化的文本行分割算法[5] 。

第三個團隊是由宋錦萍、楊曉藝、侯玉華組成,該團隊針對文本圖像首先提出了一種基于小波域多狀態隱馬爾科夫樹模型的自適應文本圖像分割算法,該算法具有較高的分割質量和較低的計算復雜度[6] 。

2.2國外作者共現分布分析

利用SATI 軟件對Web of Science 核心合集中156 篇外文核心期刊數據進行統計分析,統計結果表明35 位高產作者組成了6 個合作團隊,他們中合作次數最多的是由Kumar, Pradeep, Saini,Rajkumar,Roy,Partha Pratim,Dogra,Debi Prosad 組成的團隊,該團隊提出了一種通過3D 空氣寫作的人機交互(HCI)方法[7] 。

第二個團隊是由Lamprier, Sylvain, Amghar,Tassadit,Saubion,Frederic 等人組成,主要提出了兩種新的分割算法,即ClassStruggle 和SegGen,其使用了標準渲染文本的全局視圖[8] 。

第三個團隊由Brodic,Darko,Milivojevic,DraganR,Milivojevic,Zoran 等人組成,該團隊提出了基于各向異性高斯核的文本行分割算法,利用研究結果進行了各向異性和定向高斯核算法的比較分析[9] 。

第四個團隊由Alaei,Alireza,Nagabhushan P,Pal,Umapada 組成,該團隊用52 頁的波斯語文本文件測試了所提出的算法,其中包含總計823 行并且實現了92.35%的正確行分割[10] 。

第五個團隊由Fragkou P,Petridis V,Kehagias A組成,他們介紹了一種動態規劃算法,該算法通過全局最小化分段代價函數來執行線性文本分段,該分段代價函數結合了兩個因素:段內單詞相似度和關于段長度的先驗信息[11] 。

第六個團隊由Laleye,Frejus A.A,Motamed,Cina,Ezin,Eugene C 組成,他們提出了一種基于樸素貝葉斯和學習矢量量化(LVQ)組合的新型分類器,該分類器使用加權投票來識別貝寧當地語言Fongbe 的輔音和元音[12] 。

2.3社會網絡分析

使用Ucinet6 軟件對共現矩陣中的數據進行可視化,便于清晰看出關鍵詞之間的關系。圖1 顯示,國內文本分割主題的文獻研究內容中文本分割、LDA 模型法、OCR 是詞頻共現網絡圖中出現頻率最高的關鍵詞,也是整個網絡共現圖的核心。通過圖1 還可以看出,其他高頻關鍵詞之間的聯系較少,這說明國內文本分割領域的研究主題在不斷地向外放射狀擴展。以同樣的方式得到國外文本分割高頻關鍵詞共現圖譜,從圖2 可以看出,國外文本分割主題的研究內容也是以文本分割為整個網絡的中心向外擴散。但國外的高頻關鍵詞圖譜明顯要比國內的聯系緊密,大多數的關鍵詞之間都是有聯系的。

3結語

本文以可視化形式對112 篇文本分割中文核心期刊文獻和156 篇文本分割外文期刊文獻的外部特征與內容特征進行了全面分析,進而得出以下結論:首先,國內文本分割研究主要集中于計算機科學領域,在圖書情報領域出現得并不多。其次,國內文本分割研究者的合作群較少,各研究團隊之間聯系較少,研究團隊體系不成熟。最后,國內外文本分割的熱點主題相似,但國外有關文本分割的研究團隊比國內成熟,并且國外有關文本分割的研究也早于國內,國內學者對于文本分割的研究主要集中在計算機科學領域,國內圖書情報領域的學者需要更多地向國外學者學習。

雖然本文數據檢索范圍涉及中國知網和Web ofScience 核心合集兩大數據庫,但在實際分析過程中,本文僅采用了中國知網和Web of Science 核心合集中的期刊數據作為樣本,所以本文在研究樣本的選取上存在一定的局限性,但研究結果展示了國內外文本分割的研究現狀與研究熱點,對我國文本分割研究者的研究工作有一定的幫助,能夠為今后的研究工作提供參考。

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
經濟危機下的均衡與非均衡分析
對計劃生育必要性以及其貫徹實施的分析
現代農業(2016年5期)2016-02-28 18:42:46
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫結合治療抑郁癥100例分析
偽造有價證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 中文无码精品A∨在线观看不卡| 国产乱子伦精品视频| av一区二区无码在线| 亚洲人成影院在线观看| 亚洲色图另类| 亚洲天堂啪啪| 国产精品免费p区| 亚洲欧洲自拍拍偷午夜色| 欧美成人二区| 国产一级毛片网站| 综合社区亚洲熟妇p| 国产一级裸网站| av午夜福利一片免费看| 久热re国产手机在线观看| 久久精品无码一区二区国产区| 国产熟睡乱子伦视频网站| 久热这里只有精品6| 69av免费视频| 四虎永久免费地址| 99视频在线免费看| 高h视频在线| 精品福利视频导航| 国产啪在线91| 亚洲最大福利网站| 高清免费毛片| 在线亚洲精品福利网址导航| 国产午夜小视频| 久久精品国产精品青草app| 久草视频一区| 国产三级国产精品国产普男人| 欧美黑人欧美精品刺激| 国产爽妇精品| 国产黑人在线| 欧美亚洲香蕉| 国产精选小视频在线观看| 日日噜噜夜夜狠狠视频| 亚洲国产成人精品青青草原| 亚洲国产成人麻豆精品| 亚洲国产欧洲精品路线久久| 香蕉eeww99国产在线观看| 欧美激情伊人| 亚洲人妖在线| 色综合激情网| 中文字幕乱码二三区免费| 最新加勒比隔壁人妻| 日本亚洲欧美在线| 日韩小视频在线播放| 一级毛片基地| 日韩国产精品无码一区二区三区| 亚洲人成网站观看在线观看| 伊人久久婷婷| 国产JIZzJIzz视频全部免费| 青青草一区| 国产精品女人呻吟在线观看| 欧洲欧美人成免费全部视频| 色偷偷男人的天堂亚洲av| 伊人久久大香线蕉影院| 欧美日韩成人在线观看| 在线a视频免费观看| 欧美翘臀一区二区三区| 欧美国产中文| 无码中字出轨中文人妻中文中| 国产麻豆另类AV| 国产乱人视频免费观看| 又爽又黄又无遮挡网站| 狼友视频一区二区三区| 99伊人精品| 台湾AV国片精品女同性| 秘书高跟黑色丝袜国产91在线| 久久人人爽人人爽人人片aV东京热 | www.99在线观看| 亚洲性日韩精品一区二区| 国产精品人人做人人爽人人添| 国产理论一区| 国产自无码视频在线观看| 久久成人国产精品免费软件| 国产精鲁鲁网在线视频| 国产精品无码作爱| 欧洲免费精品视频在线| 亚洲一区精品视频在线 | 国产成人av一区二区三区| 国产亚洲精久久久久久无码AV|