999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于人工免疫的We b文本分類方法研究——以Web信息分類為例

2012-09-01 08:18:44何曉慶
圖書館理論與實踐 2012年11期
關鍵詞:分類特征文本

●何曉慶,賈 釗

(1.四川大學 圖書館,成都 610064;2.西安通信學院,西安 710106)

●王愛玲(內蒙古農業大學 圖書館,呼和浩特 010018)

1 引言

隨著信息技術的快速發展,Interne t已經成為人們查找和獲取信息的一個重要途徑,發揮著日益重要的作用,互聯網上的數據也呈現出迅猛增長的態勢。據中國互聯網絡信息中心(CNNIC)第23次中國互聯網絡發展狀況統計報告,[1]截至2008年底,中國的域名總量達到1682萬個,網站數達到287.8萬個,中國網頁總數超過160億個,均比2007年出現大幅增長。面對We b上的海量數據,在處理重大突發事件等涉及社會層面較廣的社會事務時,政府等公共部門信息管理部門如何從中找到有價值的信息,并提取出有效知識已經成為信息檢索、數據挖掘等領域的重要課題。[2]文本分類作為其中的重要內容之一,也引起越來越多的關注。本文借鑒人工免疫理論的思想,提出了一種基于人工免疫的文本分類方法,可以更好地實現文本的自動分類。

2 人工免疫與文本分類

生物免疫系統是目前所知的識別和抵御外部有害物質最精妙復雜的智能系統,它猶如一支擁有學習能力并且訓練有素的精銳部隊,保衛人體的健康。[3]人工免疫系統(Artificial Immune Syste m,AIS)是一個受生物免疫系統啟發而建立的計算機研究領域,是人工智能領域的一個重要分支。類似于神經網絡和遺傳算法,人工免疫同樣是智能信息處理的非常重要的一個手段。人工免疫系統中的克隆選擇、高頻變異等原理具有動態性、自適應和自學習性,非常適合用到自動文本分類中的分類器訓練和生成中。

文本分類(Text Categorizatio n,T C)的主要任務是在預先給定的類別標記集合下,根據待分文本內容對其類別歸屬進行判定。從數學角度來看,文本分類是一個映射的過程,它將未標明類別的文本映射到已有的類別中。目前國內外采用的比較多的文本分類方法主要有TFIDF算法、樸素貝葉斯算法(NaiveBaye s,N B)、K近鄰法(KNN)、支持向量機(Support VectorMachin e,SVM)、神經網絡等方法。

文本分類問題與生物免疫系統所遇到的問題非常相似,兩者都需要在不斷變化的環境中對未知對象進行識別和分辨,所以本文借鑒免疫系統的相關工作原理,提出了一種基于免疫機制的文本分類方法。實驗證明,該方法不僅有效提高檢測率,而且還擁有良好的學習能力與較強的自適應性。

3 基于人工免疫的分類模型

3.1 文本的表示和分詞

We b文檔包含了多種信息,例如文字信息、圖片信息和視頻音頻信息等,我們主要關注其中的文本信息。文本信息通常由項(Ter m)的集合組成,項包括字、詞、短語等基本語言單位。所以文本可表示為T={t1,t2,…,tN},其中 t i(1≤i≤N)就是文本中的項。

由于中文文檔在語句中是以漢字為單位進行連寫,并沒有西方文字那樣每個詞都通過空格分開,所以必須對文檔進行分詞處理,找出和分類相關的項,以方便計算機的進一步處理。對于分詞現有的方法比較多,我們使用最大匹配法(Maximum Matching Metho d,M M)進行分詞處理。M M法是對給定的待分詞的漢字串s按照某種確定的原則(正向或逆向)取s的子串,若該子串和詞庫中的某詞條相匹配,則該子串是詞,繼續分割剩余的部分,直到剩余部分為空,否則,該子串不是詞,則取s的子串進行匹配。這是一種比較成熟,目前使用比較廣泛的漢字分詞方法。

分詞后的詞條中含有大量的單個獨立字,這些單個的字不僅所攜帶的文本信息較少,而且還對其它實詞起到一定的抑制作用,降低了分類過程中的處理效率和準確度,[4]所以要對這些獨立字進行去除。文本經過以上預處理之后,就得到了文本的原始特征集T。

3.2 文本特征值的提取

經過預處理的原始特征集還存在有項數過多,文本的特征提取實際上是一個降維的過程,目的是減少計算復雜度,提高分類效率。特征值提取是在經過分詞處理后的原始特征集T={t1,t2,…,tN} 中選擇出用于實際應用的子集T'={t1,t2,…,tn},其中N為原始特征集維數,n為實際應用的特征集維數,n

選擇的標準是在不改變原始特征空間性質的前提下,從原始特征空間中選擇一部分重要的特征,組成一個新的低維空間,用以提高文本分類效率。本文采用期望交叉熵這個定量來進行文本特征集中項的取舍。定義文本中的有效項為t,文本的類別為C,文檔的類別數為m,那么交叉熵的大小由式(1)完成計算。

我們把所有用于訓練的M個文本特征集定義為文本域D={T1',T2',…,Tm}',然后將D分成兩個子集:自體集合和非自體集合有,自體集合即所有抗體(A b)構成的集合,代表分類器中已有的記憶細胞;非自體集合即抗原(A g)構成的集合,代表要進行分類的文本。我們模仿生物免疫系統,用記憶細胞集合對抗原集合進行動態耐受來生成成熟細胞,將耐受后親和力大于給定閾值的抗原放入成熟細胞集合。對于成熟細胞,一方面把對其進行克隆操作和變異操作,[5]使之生成新的用于動態耐受的抗原;另一方面要對新進入集合的成熟細胞進行去重處理,以保證記憶細胞集合中的細胞數量不至于過多而影響到整個識別效率。

成熟細胞的克隆和變異和細胞在耐受過程中的親和力有關。在克隆時,親和力與增殖復制量成正比,親和力越高,復制量越大,用以保證群體親和力逐步增大,提高分類器識別效率。在變異時,變異量與親和力成反比,也就是說親和力越高,變異量越少,這樣做可以保留最佳細胞,改進較差細胞。

當整個訓練過程都完成后,最后得到的記憶細胞集合,亦即自體集合S,就是我們所要生成的文本分類器。其原理圖如下圖所示。

3.3 文本分類實現

其中P(Ci|t)表示特征項t在屬于類別Ci的文檔內出現的概率;P(Ci)表示文檔屬于類別Ci的概率。C E的值越大,則特征項t對文本類別分布的權值就越大。用該算法提取具有最高C E值的n個詞,建立具有n個特征值的特征子集T'={t1,t2,…,tn}。

圖 文本分類器的生成原理

具體步驟可描述如下:

Step1:經過特征提取的M個訓練文本,抽取一部分用作抗體集合A B={A b1,A b2,…,A bM1},也就是分類器中的記憶細胞,剩下的部分作為待識別的抗原集合A G={A g1,A g2,…,A gM2},其中M 1+M 2=M。

Step2:對抗原(未成熟細胞)進行動態耐受,耐受過程使用肯定選擇算法,[6]動態耐受中的親和力計算我們采用Euclidean距離d來表示,距離與親和力r成反比,d越小,親和力r越大。由式(2)(3)完成計算。

Step3:將耐受過程中親和力大于閾值ε的細胞送入成熟細胞的集合,親和力小于ε的細胞則刪除,令其死亡。

Step4:將成熟細胞進行克隆和變異,克隆的復制量與親和力r成正比,變異的變異量與r成反比,迭代次數age為10。

Step5:將成熟細胞與記憶細胞集合進行相似度計算,將相似度小于閾值θ的細胞加入到記憶細胞集合中,相似度大于θ的細胞則刪除,令其死亡。

當所有的抗原都與自體作用完畢后,最后得到的記憶細胞集合就是我們用于文本分類的分類器,下來我們就可以用該分類器對文本進行自動分類。

4 實驗:以Web信息分類為例

實驗中使用從人民網和新華網上采集到的We b文檔作為網頁數據集合,所屬文本類別按照網站上給定的分類進行歸屬。共選了新聞、經濟、體育、房產四類文本共2800篇文章,每類700篇。每一類的前500篇作為訓練文本進行訓練,后200篇用作測試文本。實驗結果如下表所示。

表 實驗結果表

由表中文本識別的準確率和查全率可以看出,本文所采用的基于人工免疫生成的文本分類器在文本自動分類中有著比較好的效果。在政府災害管理等涉及社會領域較廣的公共事務領域,該方法對于災害信息資源的整理和分類,具有一定的普適性。

5 結論

人工免疫系統所具有的多樣性、耐受性、自學習、魯棒性等特點,為文本自動分類提供了良好的思路和解決辦法。本文利用人工免疫的動態耐受和克隆變異等機制提出了一種文本分類器的產生方法,從實驗結果來看效果良好。由于人工免疫系統的仿生機理復雜并且龐大,因此如何將更多的仿生機制融合到文本分類中,以及將這些方法更好地應用到面向政府決策支持的災害信息資源管理等政府信息管理領域,是進一步要研究的方向。

[1] 中國互聯網中心 [E B/O L].[2012-05-09].htt p://www.cnnic.net.c n/index/0 E/00/11/index.htm.

[2] Jiawei Han, Micheline Kamber. Data Mining: Conceptand Techniques [M].Morgan Kaufmann Publishers,Inc.2001.

[3] 李濤.計算機免疫學[M].北京:電子工業出版社,2004.

[4] YimingYang,XinLiu.ARe- Examination of Text CategorizationMethods [C].Proceedings of ACMSIGIRConference on Research and Development in InformationRetrieval (SIGIR),1999:42- 49.

[5] J Hunt, et al.Jisys: The development of an ArtificialImmune System for real world applications [M].Springer- Verlag, 1999.

[6] Seiden P E, Celada F. A Model for Simulating CognateRecognition andResearch in the Immune System[J].J.theor.Biol. , 158:329- 357,1992.

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产成人无码Av在线播放无广告| 亚洲区欧美区| 亚洲一区无码在线| 亚洲一区二区约美女探花| 亚洲天堂精品视频| 亚洲色图欧美视频| 国产在线自在拍91精品黑人| 国产91小视频| 蜜桃视频一区二区| yjizz视频最新网站在线| 久久伊人操| 亚洲综合18p| 夜夜拍夜夜爽| 中文字幕无码中文字幕有码在线| 国产视频你懂得| 欧美性爱精品一区二区三区| 精品无码人妻一区二区| 九九久久精品免费观看| 亚洲日本韩在线观看| 538国产视频| 米奇精品一区二区三区| 亚洲人成网7777777国产| 国内熟女少妇一线天| 亚洲69视频| 亚洲va视频| 亚洲人成成无码网WWW| 欧美一区二区精品久久久| 人与鲁专区| 国产超碰一区二区三区| 欧洲亚洲欧美国产日本高清| 永久在线精品免费视频观看| 日本不卡免费高清视频| 午夜国产小视频| 国产欧美中文字幕| 精品视频一区在线观看| 色窝窝免费一区二区三区| 久久婷婷国产综合尤物精品| 四虎永久免费地址在线网站| 亚洲无码在线午夜电影| 亚洲第一色网站| 亚洲水蜜桃久久综合网站| 亚洲精品免费网站| 国产精品永久免费嫩草研究院| 日韩亚洲综合在线| 欧美亚洲欧美| 久久不卡精品| 亚洲欧美极品| 好吊色妇女免费视频免费| 亚洲an第二区国产精品| 国产国语一级毛片| 亚洲精品综合一二三区在线| 青青草原偷拍视频| 三上悠亚精品二区在线观看| 亚洲高清中文字幕| 国产在线自乱拍播放| 五月激情婷婷综合| 成年看免费观看视频拍拍| 香蕉eeww99国产在线观看| 女人一级毛片| 国产91小视频在线观看| 久久久精品国产SM调教网站| 亚洲性网站| 91九色视频网| 尤物精品视频一区二区三区| 国产成人久视频免费| 国产自产视频一区二区三区| 美女国内精品自产拍在线播放| 日本精品一在线观看视频| 国产鲁鲁视频在线观看| 国产日韩久久久久无码精品| 欧美啪啪一区| 无码精油按摩潮喷在线播放| 欧美精品在线观看视频| 欧美性猛交一区二区三区| 久久一级电影| 国产一在线观看| 欧美性色综合网| 国产午夜福利在线小视频| 国产三级毛片| 国产精品视频观看裸模| 欧美亚洲欧美区| 国产jizz|