999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web文本挖掘在智能分類中的應用

2013-08-16 06:19:32張黎黎
山東工業技術 2013年11期
關鍵詞:單詞分類文本

張黎黎

(長春工程學院,吉林 長春130012)

1 文本挖掘概述

文本挖掘,又稱為“文本數據挖掘”或“文本知識發現”,是從文本數據中抽取隱含的、未知的、潛在且有用信息的過程。它是個分析文本數據、抽取文本信息,進而發現文本知識的過程。文本挖掘的出現為文本信息的整理、分析、挖掘提供了有效手段[1]。

文本挖掘的主要目標是獲得文本的主要內容特征,如文本的主題、文本主題的類屬、文本內容的濃縮等。文本挖掘主要有特征抽取、文本分類、聚類等技術。從提取特征值作為起始點,將自然語言文本自動分配給預定義的類別,利用文本特征向量對文本進行分類,再將一個數據對象的集合分組成為多個類或簇,從而產生類標記。

2 Web 文本挖掘

Web 文本挖掘是指使用中心詞匯來表示文檔的方法。利用給出求取中心文檔和中心詞匯的算法[2],對Web 上大量文檔集合的內容進行總結、分類、聚類和關聯分析,亦可利用Web 文檔進行趨勢預測。

Web 文本挖掘過程中[3],關注的是信息元素本身的內容與意義,是以文本、圖片、音頻、視頻或者結構記錄等信息內容為對象,從中挖掘知識內容和語義關聯模式。

Web 文本挖掘是通過HTML 文檔進行信息的采集,將分布在Web 服務器上的待挖掘文檔集成在本地文本庫中提取有用的Web 文本信息。然后,采用基于詞典的逐字二分查找方法自動分詞。采用向量空間模型和語義檢索技術表示文本,采用評估函數X2統計法對文本的名稱、類型、大小等特征進行提取。Web 文本挖掘流程如下圖所示:

圖Web 文本挖掘的基本流程

3 文本分類常用算法

文本分類的算法有很多種,其中最常用到的是TFIDF 方法和Naive Bayes 算法。TFIDF 的主要思想是:如果某個詞或短語在一篇文章中出現的頻率高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力。TFIDF 方法傾向於過濾掉常見的詞語,保留重要的詞語。

Naive Bayes 算法是以闕值大小對文本數據進行劃分[4]。利用:

其中,χi指C 類文檔第i 個特征,Pr(χi/d )是從C 類文本中得到特征詞χi的概率,Pr(χi/d )是從文本d 中得到特征詞χi的概率,n 指d 中詞的個數,m 是系統詞典的大小。若所得闕值大于預先設定的值,則認為文本d 屬于C 類別,否則不是。

從概率的大小來研究,Naive Bayes 算法可描述為: 設文檔d 的文檔向量的分量為相應的特征詞在該文檔中出現的頻度,則d 屬于C 類文檔的概率公式為:

4 實例說明

利用Naive Bayes 算法,通過對用戶提交信息的關鍵字的提取,對專利信息進行智能歸類。

現假設已經對用戶提交信息提取完畢,形成的樣本為: 發明、請求、權利。且已事先給定一組分好類的文本作為訓練數據(如表1),完成對新樣本的分類。

表1

如上所述,該文本用屬性向量表示為d=(發明、請求、權利),類別集合為Y={發明專利、外觀專利}。

類“發明專利”下總共有5 個詞語,類“外觀專利”下總共有3 個單詞,訓練樣本單詞總數為8,因此P(發明專利)=5/8,P(外觀專利)=3/8。類條件概率計算如下:

P(發明|發明專利)=P(權利|發明專利)=P(請求|發明專利) =(1+1)/(5+)=2/8

P(發明|外觀專利)=P(權利|外觀專利)=(0+1)/(3+)=1/6

分母中的5,是指“發明專利”類別下文本長度,也即訓練樣本的單詞總數,3 是指訓練樣本有:發明、請求、權利共3 個單詞,是指“外觀專利”類下共有3 個單詞。

有了以上類條件概率,開始計算后驗概率:

P(發明專利|d)=2/8×2/8×2/8×5/8=5/512≈0.0097656

P(外觀專利|d)=1/6×1/6×2/6×3/8=2/1728≈0.0011574

比較大小,即可知道這個文檔屬于“發明專利”類別。即將專利信息都歸屬到“發明專利”類別下,從而減少了人工操作選擇。

5 結束語

Web 文本挖掘有利于文本特征項的提取和特征縮減,Web 的文本分類算法對Web 文檔的自動分類有極高的參考價值,對Web 文本挖掘有一定的指導意義。然而,對Web 文本的智能分析涉及Web 數據自動采集、Web 數據自動分析、統計分析、數據挖掘和人工智能以及復雜社會網絡等技術,是一個復雜過程。

[1]張群.文本挖掘技術及其在專利信息分析中的應用[J].現代情報,2006(3):209-21.

[2]王繼成.Web 文本挖掘技術研究[J].大理學院學報,2011(4):513-520.

[3]張玉峰,何超.基于Web 挖掘的網絡輿情智能分析研究[J].實踐研究,2011(4):64-68.

[4]王一蕾,林世平.Web 文本挖掘三種技術的比較[J].福建電腦,2003(12):20-21.

猜你喜歡
單詞分類文本
分類算一算
單詞連一連
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
看圖填單詞
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 97se亚洲综合在线| 欧美成人综合视频| 香蕉精品在线| 欧美国产日产一区二区| 亚洲网综合| 色综合五月婷婷| 久久黄色一级片| 亚洲高清中文字幕| 中文字幕自拍偷拍| 91视频青青草| 免费全部高H视频无码无遮掩| 热伊人99re久久精品最新地| 永久在线精品免费视频观看| 亚洲成人高清无码| 日本不卡在线播放| 国产凹凸视频在线观看| 老司机午夜精品网站在线观看 | 国产精品网曝门免费视频| av天堂最新版在线| 免费不卡视频| 成人亚洲国产| 四虎影视库国产精品一区| 亚州AV秘 一区二区三区| 国产精品免费久久久久影院无码| 国产综合无码一区二区色蜜蜜| 国产精品部在线观看| 国产福利在线免费| 久久精品人人做人人综合试看| 夜色爽爽影院18禁妓女影院| 欧美不卡二区| 在线观看亚洲成人| 欧美在线综合视频| 国产伦精品一区二区三区视频优播 | 91香蕉视频下载网站| 中文字幕在线播放不卡| 亚洲天堂免费在线视频| 国产在线观看成人91| 91毛片网| 国产精品男人的天堂| 国产毛片久久国产| 亚洲另类国产欧美一区二区| 欧美成人免费午夜全| 国产一区二区网站| 久久精品只有这里有| 亚洲国产av无码综合原创国产| 自偷自拍三级全三级视频| 巨熟乳波霸若妻中文观看免费| 性视频一区| 99福利视频导航| 中文字幕日韩视频欧美一区| 国产欧美日韩在线一区| 国产精品视频a| 刘亦菲一区二区在线观看| 婷婷成人综合| 国产一级精品毛片基地| 亚洲午夜福利精品无码| 免费福利视频网站| 欧美劲爆第一页| 亚洲高清无码久久久| 欧美一级在线看| 国产精品女人呻吟在线观看| 一级毛片在线免费视频| 精品成人免费自拍视频| 伊人五月丁香综合AⅤ| a毛片在线| 激情六月丁香婷婷| 色婷婷啪啪| 国产综合色在线视频播放线视| 国产 在线视频无码| 亚洲国产看片基地久久1024| 国产精品原创不卡在线| 久久久黄色片| 成人一区在线| 超清无码一区二区三区| 大香网伊人久久综合网2020| 国产精品毛片一区| 久久这里只有精品2| 亚洲欧美一级一级a| 日本人妻丰满熟妇区| 日韩色图区| 日韩午夜片| 欧美成人影院亚洲综合图|