999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關鍵詞組合向量模型的文本自動分類研究

2008-12-31 00:00:00趙紅宇
商場現代化 2008年26期

[摘 要] 本文描述了一種新的基于關鍵詞組合模式的文本向量空間表示模型,相對于只使用文本中詞語的頻率的文本向量空間模型,這種新的模型在可以計算的前提下,使用了詞語之間的相對位置信息,從而可以解決部分詞語向量空間模型表示的不足。本文討論了使用這種模型的自動文本分類系統,包括分類系統的結構、特征提取、文本相似度計算公式,并給出了評估方法。

[關鍵詞] 關鍵詞組合 向量空間 自動分類 分類算法

近年來,以文本格式存儲的海量信息出現在Internet、數字化圖書館及公司的Intranet上,如何從這些浩瀚的文本中發現有價值的信息是信息處理領域的重要目標,而文本自動分類系統能夠在給定的分類模型下,根據文本的內容自動對文本分門別類,從而更好地幫助人們組織及挖掘文本信息,因此得到日益廣泛的關注,成為信息處理領域最重要的研究方向之一。

一、自動分類的種類和作用

自動分類就是用計算機系統代替人工對文獻等對象進行分類,一般包括自動聚類和自動歸類。自動聚類和自動歸類的主要區別就是自動聚類不需要事先定義好分類體系,而自動歸類則需要確定好類別體系,并且要為每個類別提供一批預先分好的對象作為訓練文集,分類系統先通過訓練文集學習分類知識,在實際分類時,再根據學習到的分類知識為需要分類的文獻確定一個或者多個類別。本文中所指的自動分類是指對網頁的自動分類,包括網頁的自動歸類和自動聚類。

目前搜索引擎提供兩種信息查詢方式:分類瀏覽和關鍵詞檢索。分類瀏覽一般是基于網站分類目錄。關鍵詞檢索的對象不是網站,而是符合條件的網頁。關鍵詞檢索信息量大、更新及時、不需要人工干預。

二、問題描述

1.系統任務

簡單地說,文本分類系統的任務是:在給定的分類體系下,根據文本的內容自動地確定文本關聯的類別。從數學角度來看,文本分類是一個映射的過程,它將未標明類別的文本映射到已有的類別中,該映射可以是一一映射,也可以是一對多的映射,因為通常一篇文本可以同多個類別相關聯。用數學公式表示如下:

文本分類的映射規則是系統根據已經掌握的每類若干樣本的數據信息,總結出分類的規律性而建立的判別公式和判別規則。然后在遇到新文本時,根據總結出的判別規則,確定文本相關的類別。

2.評估方法

我們使用評估文本分類系統的兩個指標:準確率和查全率。準確率是所有判斷的文本中與人工分類結果吻合的文本所占的比率。其數學公式表示如下:;查全率是人工分類結果應有的文本中分類系統吻合的文本所占的比率,其數學公式表示如下:;準確率和查全率反映了分類質量的兩個不同方面,兩者必須綜合考慮,不可偏廢。

3.詞語向量空間模型的文本表示

目前,在信息處理方向上,文本的表示主要采用向量空間模型 (VSM)。向量空間模型的基本思想是以向量來表示文本:(W1,W2,W3……Wn),其中Wi為第i個特征項的權重,那么選取什么作為特征項呢,一般可以選擇字、詞或詞組,根據實驗結果,普遍認為選取詞作為特征項要優于字和詞組,因此,要將文本表示為向量空間中的一個向量,就首先要將文本分詞,由這些詞作為向量的維數來表示文本。詞頻分為絕對詞頻和相對詞頻,絕對詞頻,即使用詞在文本中出現的頻率表示文本,相對詞頻為歸一化的詞頻,其計算方法主要運用TF~IDF公式,目前存在多種TF~IDF公式,一種比較普遍的TF~IDF公式為:;其中,為詞t在文本中的權重,而為詞t在文本中的詞頻,N為訓練文本的總數,nt為訓練文本集中出現t的文本數,分母為歸一化因子。

4.詞語向量空間模型的訓練方法和分類算法

訓練方法和分類算法是分類系統的核心部分,目前存在多種基于向量空間模型的訓練算法和分類算法,例如,支持向量機算法、神經網絡方法,最大平均熵方法,最近 K 鄰居方法和貝葉斯方法等等。一般相似度定義公式為:;其中,di,dj為不同的文本,M為特征向量的維數,Wk為向量的第K維。

三、關鍵詞組合向量空間的文本表示模型

關鍵詞組合是大多數搜索引擎使用的查詢語言。我們這里定義的關鍵詞組合(Keyword expression)為:

Keyword expression= keyword [and keyword] *

例如keyword expression =“大海”and “海鷗”表示如果文本中同時出現“大海”和“海鷗”,則這個文檔滿足關鍵詞表達式。

定義P為可能關注的關鍵詞集合為P,|P|為關鍵詞的個數。對于一般的分類系統|P|一般為10萬左右。Pi為其中的一個關鍵詞。關鍵詞可以是一個有穩定的詞語也可以是一個短語。

定義E表示可能關注的關鍵詞集合。 |P|為關鍵詞組合的個數. Ei是其中的一個組合。同時保證出現在Ei的關鍵詞一定在P中。定義D表示全部文檔集合。|D|為的文檔個數.是其中的一個文檔。定義l表示一個表達式必須出現在多少連續的句子中。一般定義為3個句子。則定義文檔當且僅當在文本dk..k+l中出現了關鍵詞組合e的全部關鍵詞。定義。則表示表達式出現在文檔的中的頻率。類似向量空間模型,我們定義表達式的權重:

;其中,為詞e在文本中的權重,N為訓練文本的總數,nt為訓練文本集中出現t的文本數,分母為歸一化因子。

同理我們可以定義文本的相似度:;其中,di,dj為不同的文本,M為特征向量的維數,Wk為向量的第K維。計算由于對于存在O(||)的多關鍵詞匹配算法,所以對關鍵詞集合P可以在O(||)計算出關鍵詞序列Q。使用自動機算法可以在O(|Q|)時間內計算出全部出現的關鍵詞集合。

四、特征詞的提取

使用特征詞的向量空間來表示文檔時,直接使用構成文檔的詞條作為向量空間的維度,會使相應的詞條向量矩陣非常稀疏和巨大,而且存在著大量對文檔的描述和區分不相關或影響很小的詞條維度,這會造成對文檔語義描述的混淆和模糊。為了提高分類算法的效率和準確度,有必要對構成文檔的詞條進行特征詞的提取和篩選,即對詞條向量空間進行降維處理。

特征詞提取有多種算法,大致可分為兩種:一種是在現有的詞條中從統計的角度選擇對文檔語義表達較好的詞條,如IG (Information Gain),DF (Document Frequency),χ2-statistic等特征詞選取算法;還有一種是從現有詞條中抽提和構造可以表達文檔的隱含語義的特征,作為向量空間的維度,如隱含語義檢索(Latent Semantic Indexing, LSI)。LSI的核心操作是對詞條文檔矩陣進行截斷的SVD (Singular Value Decomposition)分解,從而可以得到原詞條文檔矩陣在最小二乘意義上的最好近似。LSI可以在降維的同時,抽取文檔的隱含語義,使得生成的文檔向量可以較好地表達文檔的語義。詞條的權重算法對LSI的效果有一定的影響,據分析,聯合使用平方根對數(Square root-Log,局部權重)-熵(Entropy,全局權重)-余弦標準化(Cosine normalization,歸一化參數)來計算詞條權重的效果比較好。

參考文獻:

[1]朱華宇 孫正興:一個基于向量空間模型的中文文本自動分類系統[J].計算機工程,2001,27(2):15~17

[2]秦 進 陳笑蓉 汪維家 陸汝占:文本分類中的特征抽取[J].計算機應用,2003,2(2):45

[3]龐劍鋒 卜東波 白 碩:基于向量空間模型的文本自動分類系統的研究與實現.計算機應用研究, 2001(9)

[4]鐘敏娟等:基于分類和關鍵詞組抽取的信息檢索算法[J].系統仿真學報,2004,(16)

[5]晉耀紅 苗傳江:一個基于語境框架的文本特征提取算法.計算機研究與發展,2004,Vol.41,No.4:582~586

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文

主站蜘蛛池模板: 亚洲最黄视频| 九九热精品视频在线| 国产精品污污在线观看网站| 天堂岛国av无码免费无禁网站| 青草精品视频| 日日噜噜夜夜狠狠视频| 91丝袜在线观看| 国产xx在线观看| 国内精品手机在线观看视频| 日韩精品中文字幕一区三区| 婷婷六月综合| 在线观看亚洲精品福利片| 久久精品丝袜高跟鞋| 亚洲伊人天堂| 亚洲综合极品香蕉久久网| 亚洲色精品国产一区二区三区| 91蜜芽尤物福利在线观看| 亚洲欧美在线综合一区二区三区| 日韩第九页| 久久精品无码国产一区二区三区| 亚洲精品视频在线观看视频| 亚洲中久无码永久在线观看软件| 谁有在线观看日韩亚洲最新视频| 高清无码一本到东京热| 国产永久在线观看| 亚洲热线99精品视频| 五月天久久综合国产一区二区| 亚洲精品无码久久毛片波多野吉| 亚洲aaa视频| 欧美日韩专区| 青草视频网站在线观看| 国产伦精品一区二区三区视频优播 | 国产av剧情无码精品色午夜| 日本人妻一区二区三区不卡影院 | 无码专区第一页| 凹凸国产熟女精品视频| 亚洲国产成人久久精品软件| 就去色综合| 欧美.成人.综合在线 | 欧美人与牲动交a欧美精品| 日本www色视频| 欧美精品亚洲精品日韩专区va| 欧美国产菊爆免费观看| 午夜福利视频一区| 婷婷六月在线| 亚洲成人一区二区| 国内精品久久久久久久久久影视 | 国产成人91精品免费网址在线| 九九视频免费在线观看| 亚洲另类色| 日韩精品无码不卡无码| 欧美日韩一区二区在线播放| 国产18在线播放| 国产一级二级在线观看| 国产交换配偶在线视频| 亚洲高清无码久久久| 中国国语毛片免费观看视频| 久久精品亚洲专区| 中文字幕在线播放不卡| 国产主播在线一区| 精品国产香蕉在线播出| 婷婷99视频精品全部在线观看| 国产无码高清视频不卡| 一本大道在线一本久道| 国产欧美日韩视频怡春院| 亚洲免费福利视频| 久久精品一卡日本电影| 美女被操91视频| 国产精品男人的天堂| 国产精品嫩草影院av| 丝袜久久剧情精品国产| 亚洲日韩Av中文字幕无码| 欧美不卡在线视频| 国产xx在线观看| 波多野结衣爽到高潮漏水大喷| 国产精品99久久久久久董美香 | 毛片免费在线视频| 国产福利在线免费观看| 亚洲伊人天堂| 国产精品无码制服丝袜| 日本久久久久久免费网络| 91久久国产成人免费观看|