999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web文本挖掘在智能分類中的應用

2013-08-16 06:19:32張黎黎
山東工業技術 2013年11期
關鍵詞:單詞分類文本

張黎黎

(長春工程學院,吉林 長春130012)

1 文本挖掘概述

文本挖掘,又稱為“文本數據挖掘”或“文本知識發現”,是從文本數據中抽取隱含的、未知的、潛在且有用信息的過程。它是個分析文本數據、抽取文本信息,進而發現文本知識的過程。文本挖掘的出現為文本信息的整理、分析、挖掘提供了有效手段[1]。

文本挖掘的主要目標是獲得文本的主要內容特征,如文本的主題、文本主題的類屬、文本內容的濃縮等。文本挖掘主要有特征抽取、文本分類、聚類等技術。從提取特征值作為起始點,將自然語言文本自動分配給預定義的類別,利用文本特征向量對文本進行分類,再將一個數據對象的集合分組成為多個類或簇,從而產生類標記。

2 Web 文本挖掘

Web 文本挖掘是指使用中心詞匯來表示文檔的方法。利用給出求取中心文檔和中心詞匯的算法[2],對Web 上大量文檔集合的內容進行總結、分類、聚類和關聯分析,亦可利用Web 文檔進行趨勢預測。

Web 文本挖掘過程中[3],關注的是信息元素本身的內容與意義,是以文本、圖片、音頻、視頻或者結構記錄等信息內容為對象,從中挖掘知識內容和語義關聯模式。

Web 文本挖掘是通過HTML 文檔進行信息的采集,將分布在Web 服務器上的待挖掘文檔集成在本地文本庫中提取有用的Web 文本信息。然后,采用基于詞典的逐字二分查找方法自動分詞。采用向量空間模型和語義檢索技術表示文本,采用評估函數X2統計法對文本的名稱、類型、大小等特征進行提取。Web 文本挖掘流程如下圖所示:

圖Web 文本挖掘的基本流程

3 文本分類常用算法

文本分類的算法有很多種,其中最常用到的是TFIDF 方法和Naive Bayes 算法。TFIDF 的主要思想是:如果某個詞或短語在一篇文章中出現的頻率高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力。TFIDF 方法傾向於過濾掉常見的詞語,保留重要的詞語。

Naive Bayes 算法是以闕值大小對文本數據進行劃分[4]。利用:

其中,χi指C 類文檔第i 個特征,Pr(χi/d )是從C 類文本中得到特征詞χi的概率,Pr(χi/d )是從文本d 中得到特征詞χi的概率,n 指d 中詞的個數,m 是系統詞典的大小。若所得闕值大于預先設定的值,則認為文本d 屬于C 類別,否則不是。

從概率的大小來研究,Naive Bayes 算法可描述為: 設文檔d 的文檔向量的分量為相應的特征詞在該文檔中出現的頻度,則d 屬于C 類文檔的概率公式為:

4 實例說明

利用Naive Bayes 算法,通過對用戶提交信息的關鍵字的提取,對專利信息進行智能歸類。

現假設已經對用戶提交信息提取完畢,形成的樣本為: 發明、請求、權利。且已事先給定一組分好類的文本作為訓練數據(如表1),完成對新樣本的分類。

表1

如上所述,該文本用屬性向量表示為d=(發明、請求、權利),類別集合為Y={發明專利、外觀專利}。

類“發明專利”下總共有5 個詞語,類“外觀專利”下總共有3 個單詞,訓練樣本單詞總數為8,因此P(發明專利)=5/8,P(外觀專利)=3/8。類條件概率計算如下:

P(發明|發明專利)=P(權利|發明專利)=P(請求|發明專利) =(1+1)/(5+)=2/8

P(發明|外觀專利)=P(權利|外觀專利)=(0+1)/(3+)=1/6

分母中的5,是指“發明專利”類別下文本長度,也即訓練樣本的單詞總數,3 是指訓練樣本有:發明、請求、權利共3 個單詞,是指“外觀專利”類下共有3 個單詞。

有了以上類條件概率,開始計算后驗概率:

P(發明專利|d)=2/8×2/8×2/8×5/8=5/512≈0.0097656

P(外觀專利|d)=1/6×1/6×2/6×3/8=2/1728≈0.0011574

比較大小,即可知道這個文檔屬于“發明專利”類別。即將專利信息都歸屬到“發明專利”類別下,從而減少了人工操作選擇。

5 結束語

Web 文本挖掘有利于文本特征項的提取和特征縮減,Web 的文本分類算法對Web 文檔的自動分類有極高的參考價值,對Web 文本挖掘有一定的指導意義。然而,對Web 文本的智能分析涉及Web 數據自動采集、Web 數據自動分析、統計分析、數據挖掘和人工智能以及復雜社會網絡等技術,是一個復雜過程。

[1]張群.文本挖掘技術及其在專利信息分析中的應用[J].現代情報,2006(3):209-21.

[2]王繼成.Web 文本挖掘技術研究[J].大理學院學報,2011(4):513-520.

[3]張玉峰,何超.基于Web 挖掘的網絡輿情智能分析研究[J].實踐研究,2011(4):64-68.

[4]王一蕾,林世平.Web 文本挖掘三種技術的比較[J].福建電腦,2003(12):20-21.

猜你喜歡
單詞分類文本
分類算一算
單詞連一連
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
看圖填單詞
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 欧美www在线观看| 欧美激情综合| 97se亚洲综合在线| 精品国产www| 国产成年女人特黄特色大片免费| 永久免费精品视频| 97在线观看视频免费| 久久视精品| 黄网站欧美内射| 97狠狠操| 人与鲁专区| 亚洲国产中文欧美在线人成大黄瓜| 亚洲欧美自拍中文| 国产成人禁片在线观看| 久视频免费精品6| 亚洲黄色成人| 日本久久网站| 在线一级毛片| 高清久久精品亚洲日韩Av| 欧美无遮挡国产欧美另类| 欧美激情视频一区二区三区免费| 色婷婷久久| 五月天综合网亚洲综合天堂网| 天天视频在线91频| 在线国产91| 欧美精品啪啪| 一级香蕉人体视频| 麻豆国产原创视频在线播放| 亚洲永久色| 农村乱人伦一区二区| 国产白浆一区二区三区视频在线| 日韩免费中文字幕| 在线无码av一区二区三区| 亚洲Va中文字幕久久一区| 伊人国产无码高清视频| 无码中文字幕精品推荐| 国产高清免费午夜在线视频| 久久中文字幕2021精品| 国产色婷婷视频在线观看| 91精品专区国产盗摄| 91日本在线观看亚洲精品| 91精品啪在线观看国产60岁 | 亚洲第一视频网站| 国产精品护士| 天天色天天操综合网| 69精品在线观看| 亚洲国产精品VA在线看黑人| 亚洲不卡网| 婷婷色在线视频| 国产精品无码久久久久久| 亚洲国内精品自在自线官| 日本久久网站| 特级aaaaaaaaa毛片免费视频| 久久超级碰| 亚洲中文字幕在线一区播放| 在线观看国产精品日本不卡网| www.99在线观看| 国产精品成人一区二区不卡| 成年午夜精品久久精品| 任我操在线视频| 色综合日本| 麻豆精品国产自产在线| 18禁高潮出水呻吟娇喘蜜芽| 国产精品无码一区二区桃花视频| 香蕉eeww99国产在线观看| 天天躁夜夜躁狠狠躁图片| 色九九视频| 一级福利视频| 国产美女精品在线| 国产美女自慰在线观看| 国产精品13页| 国产在线精品美女观看| 欧美无遮挡国产欧美另类| 亚洲国产天堂久久综合| 农村乱人伦一区二区| 这里只有精品国产| 四虎综合网| 久久亚洲天堂| 91原创视频在线| 手机成人午夜在线视频| 福利国产微拍广场一区视频在线| 久久久久青草大香线综合精品|