999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

計算機文本信息挖掘技術研究

2020-12-08 02:14:06王姝
數碼設計 2020年15期
關鍵詞:計算機文本信息

王姝

摘要:

互聯網為人們獲取大量的文本數據提供便利,然而這些文本數據的質量相對偏低,難以充分發揮文本數據的利用價值,為此要重點研究和探討計算要文本信息挖掘的文本表示和術語識別兩項技術,進行文本信息的合理高效分類、過濾和篩選,幫助使用者獲得真正需要的知識,挖掘海量文本信息中的隱藏知識和信息,較好地提高計算機文本信息獲取質量。

關鍵詞:

計算機;文本信息;挖掘;文本表示;術語識別

中圖分類號:

TP391.1;F724.6;F274

文獻標識碼:

A

文章編號:

1672-9129(2020)15-0004-01

互聯網為人們獲取、發布、交換和共享信息提供了便利,然而人們獲得的文本信息數據大多相對表淺,難以真正挖掘到具有價值的知識和信息。本文重點探討計算機文本表示技術和術語識別技術,幫助人們快速高效地進行文本信息的搜集、分類、過濾、篩選和利用,提高計算機文本信息獲取質量和效率。

1 計算機文本信息挖掘技術概述

文本信息挖掘技術要從海量的計算機文本數據中抽取隱藏的、具有價值的知識和信息,并對其進行重新組織、分類、標引、過濾和篩選,僅限于對文本數據的挖掘,重點針對非結構化或半結構化自然語言文本的挖掘,其主要的文本信息挖掘任務包括有以下幾種:(1)文本分類。這是一種有監督的機器學習方法,需要一定數量的有類別標記的訓練數據進行先驗引領和指導,是對文本語料庫中的每個文本賦予其一個或多個類別標記的過程,主要用于信息檢索、搜索引擎、領域知識加工和服務等活動。(2)文本聚類。這是一種無監督的機器學習方法,無須訓練過程,是將文本語料庫的數據自動聚集為若干個類別簇,包括文本表示、文本距離度量標準的選擇、聚類算法的選擇等流程。

2 計算機文本信息挖掘技術分析

2.1文本表示技術。文本表示關鍵技術是在計算機技術、統計學和語言學知識的依托下,對自然語言形式的文本進行轉換,使之成為計算機內部能夠直接處理的數據模型,其基本流程包括有:特征提取、特征降維、特征權重計算等,快速高效地抽取文本特征相關信息,具體來說包括有:(1)統計信息。文本中關鍵詞的統計分布規律信息,如:關鍵詞的詞頻、逆文本頻率、關鍵詞之間的互信息、共現頻率等。(2)語義信息。主要是指計算機文本中關鍵詞的語義信息,如:上下文環境中的特定信息、關鍵詞之間的同義/反義信息等。

由于自然語言文本體現出天然的線性結構,因而通常采用布爾模型、向量空間模型和概率模型將文本表示為線性結構的文本向量,并采用關鍵詞作為文本特征,從而簡單直觀地表達出線性文本的結構。其中:布爾模型主要采用0或1的布爾值表示其關鍵詞,無須進行關鍵詞特征的降維處理,衍生的模型有擴展布爾模型和模糊集合模型,然而其缺陷在于無法精準地計算關鍵詞的權重。概率模型主要是利用概率論基礎知識和概率排序原理,計算關鍵詞的權重,衍生出的文本表示模型有推理網絡模型和信任度模型,有著良好的應用前景;然而其缺陷在于關鍵詞權重計算過于繁瑣復雜。向量空間模型是應用最為廣泛的文本表示模型,關鍵詞權重計算方法更加簡潔、準確和有效,然而其不足之處在于缺乏文本語義表示能力,可以采用基于短語的VSM和基于概念的VSM進行文本特征提取的優化,并采用統計語言模型、奇異值分解進行文本特征權重計算的改進和優化。

2.2術語識別技術。術語是特定專業領域中表達一般概念的指標,是用于文本信息處理領域中概念表達的書面語,字符長度通常在2-8個字符,主要特性主要表現為以下幾個方面:(1)語言特性。是指術語的內外部結構特性與一定的語言學或統計學規律相契合,大多由名詞、動詞、形容詞組成。(2)單元性。術語的單元性用于描述術語內部的高內聚性和外部的低依賴性特點,較好地評測術語在字符串結構上的穩定性。(3)術語性。主要用于評測和度量語言學單元及其所屬語料領域的強弱相關性,有時需要借助于背景語料進行完整清晰的描述和表達。(4)領域相關性和一致性。術語在其所處的領域中分布相對均勻,而在其他領域語料中則表現出分布不均勻的狀態。

對于常用術語來說,可以采用如下方法加以識別和表達:(1)基于規則的方法。主要是借助于文本語料庫中詞語的語言特性構建詞性規則模板的集合,并以此匹配語料庫中詞序列作為術語。這種方法需要極強的專業領域和計算機語言學背景,在規則模板的制定上存在差異性,難以滿足領域術語更新的需求,表現出對領域的極強依賴性,無法進行該方法的擴展應用。(2)基于統計的方法。可以設計一種中文術語識別系統,利用文本語料中字符串的穩定性,抽取候選術語集合,再剔除基本詞,獲悉術語識別結果。也可以利用關鍵詞的TF-IDF值及關鍵詞在文本中出現的位置,提取文本的主題關鍵詞。以新聞術語為例,可以下載網絡新聞語料,借助于互信息參數抽取語料中的質串,識別具有復雜結構的合串,將其作為新聞術語。(3)基于規則和統計相結合的方法。主要是將術語的語言特征和統計特征相結合,判斷詞序列結構的穩定性,抽取術語候選,再利用語言規則進行后處理,獲悉術語集合。(4)基于機器學習的方法。這是利用一定規模的語料生成機器學習模型,進行術語的最終識別。

結語:綜上所述,計算機文本信息挖掘是文本信息處理的重要內容,要重點研究和探討計算機文本表示技術和術語識別技術,進行語義的精準量化描述和表達,并快速準確地進行術語識別,為計算機信息檢索、搜索引擎、信息抽取、領域本體構建及自然語言處理提供信息支持,更好地推進計算機文本挖掘技術的發展,后續還要進一步提高文本信息挖掘技術的可擴展性,提高術語識別效果的收斂值。

參考文獻:

[1]李愛琳.計算機文本信息挖掘技術在網絡安全中的應用研究[J].數字通信世界,2020(02):199.

[2]管祥甫,管子涵.計算機文本信息挖掘技術在網絡安全中的應用[J].電子技術與軟件工程,2019(21):184-185.

猜你喜歡
計算機文本信息
計算機操作系統
基于計算機自然語言處理的機器翻譯技術應用與簡介
科技傳播(2019年22期)2020-01-14 03:06:34
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
信息系統審計中計算機審計的應用
消費導刊(2017年20期)2018-01-03 06:26:40
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
Fresnel衍射的計算機模擬演示
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 欧美日韩国产一级| 伦伦影院精品一区| 久久综合激情网| 国内熟女少妇一线天| 国产情精品嫩草影院88av| 免费a级毛片18以上观看精品| 国产福利在线观看精品| 日本一区二区不卡视频| 91欧洲国产日韩在线人成| 99热国产这里只有精品9九| 无码高潮喷水在线观看| 在线观看国产网址你懂的| 激情视频综合网| 91精品伊人久久大香线蕉| 亚洲乱伦视频| 国产精品lululu在线观看| 欧美啪啪网| 亚洲午夜天堂| 97色婷婷成人综合在线观看| 精品三级网站| 亚洲伦理一区二区| 久久精品国产精品一区二区| 亚洲中文在线视频| 四虎永久在线精品影院| 99精品热视频这里只有精品7| 91精品啪在线观看国产91| 美女一级毛片无遮挡内谢| 日韩福利视频导航| 亚洲国产欧洲精品路线久久| 亚洲免费人成影院| 日本一本在线视频| 国产日韩欧美中文| av大片在线无码免费| 亚洲国产欧美目韩成人综合| 亚洲欧美日本国产专区一区| 毛片免费视频| 国产99免费视频| 毛片在线区| 亚洲欧美在线综合一区二区三区| 国产精品不卡永久免费| 免费在线播放毛片| 欧美一级一级做性视频| 麻豆精品在线视频| 婷婷午夜影院| 亚洲V日韩V无码一区二区| 女同国产精品一区二区| 国产精品无码AⅤ在线观看播放| 91精品专区国产盗摄| 国产成人成人一区二区| 国产午夜一级淫片| 亚洲人成网站在线播放2019| 91av成人日本不卡三区| 欧美亚洲一区二区三区导航| 亚洲天堂日韩在线| 国产一区二区三区夜色| 国产福利在线观看精品| 国产麻豆精品久久一二三| 黄片一区二区三区| 色九九视频| 好吊妞欧美视频免费| 中文字幕人成人乱码亚洲电影| 国产成人精品2021欧美日韩| 欧美日韩在线亚洲国产人| 亚洲欧美日韩中文字幕一区二区三区 | 亚洲欧美日韩久久精品| 久久精品国产国语对白| 日韩精品免费在线视频| 国产成人亚洲无码淙合青草| 9久久伊人精品综合| 欧美翘臀一区二区三区| 久久特级毛片| 97久久人人超碰国产精品| 亚洲AV电影不卡在线观看| 亚洲三级视频在线观看| 亚洲浓毛av| 色老头综合网| 国产精品永久在线| 亚洲一级色| www.youjizz.com久久| 怡红院美国分院一区二区| 欧美一级特黄aaaaaa在线看片| 无码又爽又刺激的高潮视频|