999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于內容的文本分類算法綜述

2016-09-28 09:39:04律佳
決策與信息·下旬刊 2016年1期

律佳

【摘要】隨著信息技術的發展,人們已經從信息缺乏的時代過渡到信息極為豐富的數字化時代,可以獲得越來越多的數字化信息,而這些信息大都是半結構化或非結構化數據,為了從中快速有效地獲得自己需要的信息,我們需要研究基于內容的文本信息分類技術。

【關鍵詞】k-元最近鄰居算法;貝葉斯算法;決策樹算法;支持向量機算法

1.引言

目前很多分類算法被研究者從不同角度提出,判斷不同分類算法的好壞可以由準確率、速度、健壯性、可伸縮性、可解釋性等幾個標準來衡量。經典的分類算法在不同的領域取得成功,比如貝葉斯算法、決策樹分類算法、KNN算法和支持向量機算法等。

2.文本分類算法

2.1貝葉斯(Na?ve Bayesian)算法

貝葉斯是一種概率方法,設每個數據樣本用一個 維特征向量來描述n個屬性的值,即:,假定有m個類,分別用表示。給定一個未知的數據樣本x(即沒有類標號),若樸素貝葉斯分類法將未知的樣本x分配給類,則一定是

根據貝葉斯定理,由于對于所有類為常數,最大化后驗概率可轉化為最大化先驗概率。如果訓練數據集有許多屬性和元組,計算的開銷可能非常大,為此,通常假設各屬性的取值互相獨立,這樣先驗概式(2)可以從訓練數據集求得。

根據此方法,對一個未知類別的樣本x,可以先分別計算出X屬于每一個類別的概率,然后選擇其中概率最大的類別作為其類別。

貝葉斯定理給出了最小化誤差的最優解決方法,可用于分類和預測。其特點是:

①貝葉斯分類并不把一個對象絕對地指派給某一類,而是通過計算得出屬于某一類的概率,具有最大概率的類便是該對象所屬的類。

②一般情況下在貝葉斯分類中所有的屬性都參與分類。

③貝葉斯分類對象的屬性可以是離散的、連續的,也可以是混合的。

2.2決策樹(Decision Tree)算法

在決策樹的內部結點進行屬性值的比較,并根據不同的屬性值從該結點向下分支,葉結點是要學習劃分的類。從根到葉結點的一條路徑就對應著一條合取規則,整個決策樹就對應著一組析取表達式規則。

2.2.1 ID3算法

70年代末。由J Ross Quinlan提出了ID3算法,ID3的具體方法是:檢測所有的屬性,選擇信息增益最大的屬性產生決策樹結點,由該屬性的不同取值建立分支,再對各分支的子集遞歸調用該方法建立決策樹結點的分支,直到所有子集僅包含同一類別的數據為止。最后得到一棵決策樹,它可以用來對新的樣本進行分類。

ID3算法的特點:算法的理論清晰,方法簡單,學習能力較強。但是ID3算法只對比較小的數據集有效,且對噪聲比較敏感,當訓練數據集加大時,決策樹可能會隨之改變。

2.2.2 C4.5算法

C4.5算法繼承了ID3算法的優點,并在以下幾方面對ID3算法進行了改進:

①用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足。

②在樹構造過程中進行剪枝。

③能夠完成對連續屬性的離散化處理。

④能夠對不完整數據進行處理。

C4.5算法的特點:產生的分類規則易于理解,準確率較高。但在構造樹的過程中,C4.5算法需要對數據集進行多次的順序掃描和排序,因而導致算法的低效;C4.5算法只適合于能夠駐留于內存的數據集,當訓練集大得無法在內存容納時程序無法運行。

2.3 k-元最近鄰居(K-Nearest Neighbor,KNN)算法

k-元最近鄰居算法中,所選擇的鄰居都是已經正確分類的對象。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。通過找出一個樣本的k個最近鄰居,將這些鄰居的屬性的平均值賦給該樣本,就可以得到該樣本的屬性。KNN算法具有以下特點:

①KNN算方法不依賴對基礎數據的嚴格規定,并能適應任何情況。②KNN算法由于判定邊界的任何特定子部分都依賴于少數輸入點和它們的特定位置,因而是擺動和不穩定的,即它具有高方差和低偏倚。③當樣本不平衡時,如一個類的樣本容量很大,而其他類樣本容量很小時,有可能導致當輸入一個新樣本時,該樣本的K個鄰居中大容量類的樣本占多數。

2.4支持向量機(SVM-Support Vector Machine)算法

支持向量機算法是Vapnik等人根據統計學習理論提出的一種新的機器學習方法,其思想是以機構風險最小化原則為理論基礎,通過適當選擇函數子集及該子集中的判定函數使學習機的實際風險達到最小,保證了通過有限訓練樣本得到的小誤差分類器對獨立測試集的測試誤差仍然小。從算法本身及凸優化知識角度,可以得出該算法的下列特點:

①分類器有支持向量唯一決定。②多數情況下,支持向量的數目遠遠小于訓練集中的總樣本數量,從某種意義上說,壓縮了數據,保留了類別信息。③算法復雜度主要由訓練集樣本數量決定,而與訓練本身的維數關系不大。

3.分類算法的評價標準

分類算法可以根據下列標準進行評價和比較。

①預測的準確率。它包括模型正確地預測新的或先前未見過的樣本的類標號的能力。②計算速度。分類的時間包括構造模型和使用模型進行分類的時間。③強壯性。指正確預測含有噪聲和空缺值的數據集的能力。④可伸縮性。指對海量數據集有效地構造模型的能力。⑤模型描述的簡潔性和可解釋性。模型描述愈簡潔、愈容易理解,則愈受歡迎。

4.結束語

基于內容的文本分類技術的出現逐漸受到重視,是源于網絡用戶對信息獲取在數量得到滿足后的更高的一種要求。本文對目前比較優秀的各種分類算法進行了介紹、分析。綜合提出了評價分類算法好壞的5條標準。實際上,上述這些算法的準確度差別不大,在當今數據量急劇增長的時代,算法的執行速度、可伸縮性以及輸出結果的可理解性等特性更為重要。此外,由于分類的效果一般和數據的特點有關,目前還不存在能適合各種不同數據的優良分類方法,一種各方面特性都很好的分類算法仍有待進一步研究。

參考文獻

[1]明均仁,張帆.網絡文本信息過濾的意義及其模型初探.圖書與情報[J].2007,37-4

[2]孫建軍,成穎.信息檢索技術[M].科學出版社,2004:81~683

主站蜘蛛池模板: 国产91丝袜在线播放动漫| 国产情侣一区| 九九精品在线观看| 欧美在线视频不卡第一页| 国产极品美女在线| 成人毛片在线播放| 国产91在线|中文| 精品一区二区三区波多野结衣 | 在线观看精品自拍视频| 日韩在线视频网| 亚洲男人的天堂在线| 18禁黄无遮挡网站| 久久精品国产国语对白| 亚洲免费福利视频| 亚洲h视频在线| 成人一级黄色毛片| 国产美女人喷水在线观看| 久久综合激情网| 国产一区二区网站| 午夜成人在线视频| 最新国产精品第1页| 在线观看免费国产| 三上悠亚精品二区在线观看| 伊人久久久久久久久久| 国产在线自乱拍播放| 欧美日韩国产综合视频在线观看 | 国产高清在线丝袜精品一区 | 国产女人在线| 国产女人爽到高潮的免费视频| 亚洲国产精品一区二区第一页免| 国产日韩欧美精品区性色| 日韩AV无码一区| 婷婷午夜影院| 国产第一页第二页| 亚洲人免费视频| 国产美女叼嘿视频免费看| 免费网站成人亚洲| 自拍偷拍一区| 欧美日本激情| 伊人成人在线视频| 又粗又大又爽又紧免费视频| 26uuu国产精品视频| 黄色网址免费在线| 久久黄色免费电影| 91精品人妻一区二区| 青草精品视频| 国产福利在线观看精品| 91最新精品视频发布页| 99久久精品免费看国产电影| 无码AV动漫| 亚洲精品成人片在线观看| 广东一级毛片| 色一情一乱一伦一区二区三区小说| 九九热视频在线免费观看| 国产色偷丝袜婷婷无码麻豆制服| 久操线在视频在线观看| 国产免费精彩视频| 国产一级片网址| 国产91av在线| 九九精品在线观看| 亚洲国产精品人久久电影| 欧美成人一区午夜福利在线| yjizz视频最新网站在线| 国产在线第二页| 一级不卡毛片| 99热最新网址| 一级爆乳无码av| 久久五月天国产自| 久久夜夜视频| 久久精品国产在热久久2019| 福利片91| 婷婷色一区二区三区| 欧美日本一区二区三区免费| 久久夜色精品| 亚洲国产一区在线观看| 色老头综合网| 国内精品视频区在线2021| 好紧好深好大乳无码中文字幕| 久久天天躁狠狠躁夜夜躁| 国产极品美女在线播放| 国产美女精品一区二区| 国产高颜值露脸在线观看|