999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看

?

Web文本挖掘在智能分類中的應用

2013-08-16 06:19:32張黎黎

山東工業技術 2013年11期

關鍵詞：單詞分類文本

張黎黎

（長春工程學院，吉林長春130012）

1 文本挖掘概述

文本挖掘，又稱為“文本數據挖掘”或“文本知識發現”，是從文本數據中抽取隱含的、未知的、潛在且有用信息的過程。它是個分析文本數據、抽取文本信息，進而發現文本知識的過程。文本挖掘的出現為文本信息的整理、分析、挖掘提供了有效手段[1]。

文本挖掘的主要目標是獲得文本的主要內容特征，如文本的主題、文本主題的類屬、文本內容的濃縮等。文本挖掘主要有特征抽取、文本分類、聚類等技術。從提取特征值作為起始點，將自然語言文本自動分配給預定義的類別，利用文本特征向量對文本進行分類，再將一個數據對象的集合分組成為多個類或簇，從而產生類標記。

2 Web 文本挖掘

Web 文本挖掘是指使用中心詞匯來表示文檔的方法。利用給出求取中心文檔和中心詞匯的算法[2]，對Web 上大量文檔集合的內容進行總結、分類、聚類和關聯分析，亦可利用Web 文檔進行趨勢預測。

Web 文本挖掘過程中[3]，關注的是信息元素本身的內容與意義，是以文本、圖片、音頻、視頻或者結構記錄等信息內容為對象，從中挖掘知識內容和語義關聯模式。

Web 文本挖掘是通過HTML 文檔進行信息的采集，將分布在Web 服務器上的待挖掘文檔集成在本地文本庫中提取有用的Web 文本信息。然后，采用基于詞典的逐字二分查找方法自動分詞。采用向量空間模型和語義檢索技術表示文本，采用評估函數X2統計法對文本的名稱、類型、大小等特征進行提取。Web 文本挖掘流程如下圖所示：

圖Web 文本挖掘的基本流程

3 文本分類常用算法

文本分類的算法有很多種，其中最常用到的是TFIDF 方法和Naive Bayes 算法。TFIDF 的主要思想是：如果某個詞或短語在一篇文章中出現的頻率高，并且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力。TFIDF 方法傾向於過濾掉常見的詞語，保留重要的詞語。

Naive Bayes 算法是以闕值大小對文本數據進行劃分[4]。利用：

其中，χi指C 類文檔第i 個特征，Pr（χi/d ）是從C 類文本中得到特征詞χi的概率，Pr（χi/d ）是從文本d 中得到特征詞χi的概率，n 指d 中詞的個數，m 是系統詞典的大小。若所得闕值大于預先設定的值，則認為文本d 屬于C 類別，否則不是。

從概率的大小來研究，Naive Bayes 算法可描述為：設文檔d 的文檔向量的分量為相應的特征詞在該文檔中出現的頻度，則d 屬于C 類文檔的概率公式為：

4 實例說明

利用Naive Bayes 算法，通過對用戶提交信息的關鍵字的提取，對專利信息進行智能歸類。

現假設已經對用戶提交信息提取完畢，形成的樣本為：發明、請求、權利。且已事先給定一組分好類的文本作為訓練數據（如表1），完成對新樣本的分類。

表1

如上所述，該文本用屬性向量表示為d＝(發明、請求、權利)，類別集合為Y＝{發明專利、外觀專利}。

類“發明專利”下總共有5 個詞語，類“外觀專利”下總共有3 個單詞，訓練樣本單詞總數為8，因此P(發明專利)＝5/8，P(外觀專利)＝3/8。類條件概率計算如下：

P(發明|發明專利)＝P(權利|發明專利)＝P(請求|發明專利) ＝(1＋1)/(5＋)＝2/8

P(發明|外觀專利)＝P(權利|外觀專利)＝(0＋1)/(3＋)=1/6

分母中的5，是指“發明專利”類別下文本長度，也即訓練樣本的單詞總數，3 是指訓練樣本有：發明、請求、權利共3 個單詞，是指“外觀專利”類下共有3 個單詞。

有了以上類條件概率，開始計算后驗概率：

P(發明專利|d)=2/8×2/8×2/8×5/8=5/512≈0.0097656

P(外觀專利|d)=1/6×1/6×2/6×3/8=2/1728≈0.0011574

比較大小，即可知道這個文檔屬于“發明專利”類別。即將專利信息都歸屬到“發明專利”類別下，從而減少了人工操作選擇。

5 結束語

Web 文本挖掘有利于文本特征項的提取和特征縮減，Web 的文本分類算法對Web 文檔的自動分類有極高的參考價值，對Web 文本挖掘有一定的指導意義。然而，對Web 文本的智能分析涉及Web 數據自動采集、Web 數據自動分析、統計分析、數據挖掘和人工智能以及復雜社會網絡等技術，是一個復雜過程。

［1］張群.文本挖掘技術及其在專利信息分析中的應用[J].現代情報,2006(3):209-21.

［2］王繼成.Web 文本挖掘技術研究[J].大理學院學報,2011(4):513-520.

［3］張玉峰,何超.基于Web 挖掘的網絡輿情智能分析研究[J].實踐研究,2011(4):64-68.

［4］王一蕾,林世平.Web 文本挖掘三種技術的比較[J].福建電腦,2003(12):20-21.

猜你喜歡

單詞分類文本

分類算一算

數學小靈通(1-2年級)(2021年4期)2021-06-09 06:25:56

單詞連一連

閱讀(快樂英語高年級)(2020年8期)2020-01-08 02:21:16

在808DA上文本顯示的改善

制造技術與機床(2019年10期)2019-10-26 02:48:08

分類討論求坐標

中學生數理化·七年級數學人教版(2019年4期)2019-05-20 10:06:32

基于doc2vec和TF-IDF的相似文本識別

電子制作(2018年18期)2018-11-14 01:48:06

數據分析中的分類討論

中學生數理化·七年級數學人教版(2018年6期)2018-06-26 08:36:06

看圖填單詞

智慧少年·故事叮當(2018年11期)2018-05-14 11:48:18

教你一招：數的分類

初中生世界·七年級(2017年9期)2017-10-13 22:27:46

文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻

小學教學參考(2015年20期)2016-01-15 08:44:38

如何快速走進文本

語文知識(2014年1期)2014-02-28 21:59:13

山東工業技術2013年11期

山東工業技術的其它文章: 加工箱體類零件的鏜床夾具設計; 數控車床手動編程技巧探究; 如何在Word2010系統下撰寫和排版畢業論文; 淺談圓極化微帶天線; 基于UG的斜齒輪造型設計; 3D建模在制圖課第一角畫法與第三角畫法對比學習中的應用

主站蜘蛛池模板： 97se亚洲综合在线| 欧美成人综合视频| 香蕉精品在线| 欧美国产日产一区二区| 亚洲网综合| 色综合五月婷婷| 久久黄色一级片| 亚洲高清中文字幕| 中文字幕自拍偷拍| 91视频青青草| 免费全部高H视频无码无遮掩| 热伊人99re久久精品最新地| 永久在线精品免费视频观看| 亚洲成人高清无码| 日本不卡在线播放| 国产凹凸视频在线观看| 老司机午夜精品网站在线观看 | 国产精品网曝门免费视频| av天堂最新版在线| 免费不卡视频| 成人亚洲国产| 四虎影视库国产精品一区| 亚州AV秘一区二区三区| 国产精品免费久久久久影院无码| 国产综合无码一区二区色蜜蜜| 国产精品部在线观看| 国产福利在线免费| 久久精品人人做人人综合试看| 夜色爽爽影院18禁妓女影院| 欧美不卡二区| 在线观看亚洲成人| 欧美在线综合视频| 国产伦精品一区二区三区视频优播 | 91香蕉视频下载网站| 中文字幕在线播放不卡| 亚洲天堂免费在线视频| 国产在线观看成人91| 91毛片网| 国产精品男人的天堂| 国产毛片久久国产| 亚洲另类国产欧美一区二区| 欧美成人免费午夜全| 国产一区二区网站| 久久精品只有这里有| 亚洲国产av无码综合原创国产| 自偷自拍三级全三级视频| 巨熟乳波霸若妻中文观看免费| 性视频一区| 99福利视频导航| 中文字幕日韩视频欧美一区| 国产欧美日韩在线一区| 国产精品视频a| 刘亦菲一区二区在线观看| 婷婷成人综合| 国产一级精品毛片基地| 亚洲午夜福利精品无码| 免费福利视频网站| 欧美劲爆第一页| 亚洲高清无码久久久| 欧美一级在线看| 国产精品女人呻吟在线观看| 一级毛片在线免费视频| 精品成人免费自拍视频| 伊人五月丁香综合AⅤ| a毛片在线| 激情六月丁香婷婷| 色婷婷啪啪| 国产综合色在线视频播放线视| 国产在线视频无码| 亚洲国产看片基地久久1024| 国产精品原创不卡在线| 久久久黄色片| 成人一区在线| 超清无码一区二区三区| 大香网伊人久久综合网2020| 国产精品毛片一区| 久久这里只有精品2| 亚洲欧美一级一级a| 日本人妻丰满熟妇区| 日韩色图区| 日韩午夜片| 欧美成人影院亚洲综合图|