羅琛 韓家寶 羅大鵬



摘 要: 針對(duì)不同監(jiān)控場(chǎng)景,不同成像條件下目標(biāo)姿態(tài)變化較大的問(wèn)題,提出一種具有半自主學(xué)習(xí)能力的目標(biāo)檢測(cè)系統(tǒng)。該系統(tǒng)能在執(zhí)行檢測(cè)任務(wù)的同時(shí),通過(guò)快速的半自主學(xué)習(xí)提高檢測(cè)性能。系統(tǒng)包括了目標(biāo)檢測(cè)模塊及在線學(xué)習(xí)模塊。為滿足系統(tǒng)在線學(xué)習(xí)需求,提出隨機(jī)蕨分類器的在線學(xué)習(xí)方法,使目標(biāo)檢測(cè)模塊可持續(xù)自我更新,提高檢測(cè)性能。通過(guò)半自主在線學(xué)習(xí)框架使整個(gè)學(xué)習(xí)過(guò)程不需準(zhǔn)備初始訓(xùn)練樣本集,只需框選一個(gè)待檢測(cè)目標(biāo)即可進(jìn)行自適應(yīng)學(xué)習(xí),逐漸提高檢測(cè)性能。實(shí)驗(yàn)表明,該方法在多種監(jiān)控場(chǎng)景中均有較強(qiáng)的自適應(yīng)能力和較好的目標(biāo)檢測(cè)效果。
關(guān)鍵詞: 在線學(xué)習(xí); 目標(biāo)檢測(cè); 隨機(jī)蕨分類器; 半自主學(xué)習(xí)
中圖分類號(hào): TN919?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)09?0121?05
Abstract: Since the object attitude has great variation in different monitoring scenes and different imaging conditions, an object detection system with semi?autonomous learning ability is proposed. The system can improve the detection performance by means of fast semi?autonomous learning while executing the detection task. The system is composed of object detection module and online learning module. To satisfy the requirement of system online learning, the online learning method of random fern classifier is proposed. It can sustainably self?renewal the object detection module, and improve the detection performance. The whole learning process by needn′t prepare the initial training samples semi?autonomous learning framework, and only select a detected object to perform the adaptive learning, so the detection performance is improved gradually. The experimental results show that the method has strong adaptive capability and high detection rate.
Keywords: online learning; object detection; random fern classifier; semi?autonomous learning
0 引 言
在線學(xué)習(xí)屬于增量學(xué)習(xí)的研究范疇,在這一類方法中分類器對(duì)每個(gè)樣本只學(xué)一次,而不是重復(fù)的學(xué)習(xí),這樣在線學(xué)習(xí)算法運(yùn)行過(guò)程中不需要大量的存儲(chǔ)空間存儲(chǔ)訓(xùn)練樣本。分類器每獲得一個(gè)樣本,即對(duì)其進(jìn)行在線學(xué)習(xí),使分類器能根據(jù)新樣本自我更新和改進(jìn),進(jìn)一步提高分類效果。早期的在線學(xué)習(xí)算法有Winnow算法[1]、統(tǒng)一線性預(yù)測(cè)算法[2]及增量有監(jiān)督人工神經(jīng)網(wǎng)絡(luò)[3]等。2001年學(xué)者Oza將這些算法與boosting算法[4]進(jìn)行結(jié)合,提出了在線boosting算法[5]。在Oza的方法中,強(qiáng)分類器是一定數(shù)量的弱分類器的加權(quán)和,這些弱分類器都是從弱分類器集合中挑選出來(lái)的。在線學(xué)習(xí)時(shí),每個(gè)訓(xùn)練樣本逐一更新弱分類器集合中的每個(gè)弱分類器,包括調(diào)整正負(fù)樣本的分類閾值以及該分類器的權(quán)重,使分類準(zhǔn)確率高的弱分類器權(quán)重越來(lái)越高,而準(zhǔn)確率低的弱分類器權(quán)重越來(lái)越低,從而每次在線學(xué)習(xí)一個(gè)樣本就可以挑選出一個(gè)當(dāng)前權(quán)重最高的弱分類器加入強(qiáng)分類器中使最終訓(xùn)練出來(lái)的分類器有較強(qiáng)的分類能力。馮國(guó)瑜等人將在線學(xué)習(xí)用于增量支持向量機(jī)算法[6],也取得了不錯(cuò)的效果。侯杰等人提出了基于指數(shù)損失和0?1損失的在線boosting算法[7],該方法嚴(yán)格證明了在線學(xué)習(xí)過(guò)程并未損失分類準(zhǔn)確性。但是,在線boosting算法的弱分類器集合中每個(gè)弱分類器都要對(duì)新樣本進(jìn)行在線學(xué)習(xí),當(dāng)弱分類器個(gè)數(shù)較多時(shí),在線學(xué)習(xí)速度必然會(huì)變慢。Grabner對(duì)在線boosting算法進(jìn)行了改進(jìn),使其也像Adaboost算法一樣可以進(jìn)行特征選擇,并且這種特征選擇是在線進(jìn)行的,稱為在線Adaboost[8],從而使在線學(xué)習(xí)能夠用于計(jì)算機(jī)視覺(jué)領(lǐng)域的目標(biāo)檢測(cè)。該算法初始化[N]組弱分類器集合,其中每個(gè)集合包含[M]個(gè)弱分類器。在線學(xué)習(xí)過(guò)程即為通過(guò)對(duì)新樣本的學(xué)習(xí)更新[M×N]個(gè)弱分類器權(quán)重及分類閾值的過(guò)程,同時(shí)在線學(xué)習(xí)新樣本權(quán)重也隨之更新。可見(jiàn)弱分類器個(gè)數(shù)越多,在線學(xué)習(xí)的分類器性能越好,但是,需在線更新的弱分類器越多,其學(xué)習(xí)速度越慢。此外,文獻(xiàn)[9?11]提出了一些改進(jìn)方法,但在線學(xué)習(xí)速度和分類器性能的矛盾一直沒(méi)有解決。
Ozuysal提出隨機(jī)蕨分類器算法[12],該算法隨機(jī)初始化多個(gè)隨機(jī)蕨,每個(gè)隨機(jī)蕨均包含[K]個(gè)特征。將每個(gè)特征二值化,相應(yīng)的[K]個(gè)特征構(gòu)成的隨機(jī)蕨為一個(gè)[K]位的二進(jìn)制碼。統(tǒng)計(jì)正負(fù)訓(xùn)練樣本在該隨機(jī)蕨的二進(jìn)制數(shù)值即得到該隨機(jī)蕨的后驗(yàn)概率分布。對(duì)于待測(cè)樣本則由多個(gè)隨機(jī)蕨的后驗(yàn)概率共同估計(jì)其類別。可見(jiàn),該分類器將多個(gè)特征融合為一個(gè)隨機(jī)蕨,不再需要訓(xùn)練弱分類器,提高了分類器訓(xùn)練速度。因此,本文在其基礎(chǔ)上提出在線隨機(jī)蕨算法,通過(guò)更新每個(gè)隨機(jī)蕨的后驗(yàn)概率分布實(shí)現(xiàn)在線學(xué)習(xí),從而擺脫了對(duì)樣本權(quán)重及各個(gè)弱分類器權(quán)重、閾值的更新,因此分類器在線學(xué)習(xí)速度快。此外,隨機(jī)蕨分類器分類性能的好壞由每個(gè)隨機(jī)蕨包含的特征數(shù)及總隨機(jī)蕨個(gè)數(shù)決定,特征越多,隨機(jī)蕨總數(shù)越大,則分類效果越好。而隨機(jī)蕨分類器的在線學(xué)習(xí)是通過(guò)更新其后驗(yàn)概率分布實(shí)現(xiàn),因此提高隨機(jī)蕨個(gè)數(shù),增加每個(gè)隨機(jī)蕨包含的特征數(shù)對(duì)在線學(xué)習(xí)速度影響不大,較好的平衡了分類器性能和在線學(xué)習(xí)速度的矛盾。
此外,本文提出半自主在線學(xué)習(xí)框架,可在隨機(jī)蕨分類器進(jìn)行視頻目標(biāo)檢測(cè)的同時(shí)通過(guò)少量的人工干預(yù),逐漸提高該分類器的視頻目標(biāo)檢測(cè)性能。同時(shí),該框架也驗(yàn)證了隨機(jī)蕨分類器及其在線學(xué)習(xí)算法對(duì)視頻目標(biāo)檢測(cè)的效果。通過(guò)實(shí)驗(yàn)可知,初始的隨機(jī)蕨分類器通過(guò)在線學(xué)習(xí)算法可有效提高其視頻目標(biāo)檢測(cè)精度。
1 隨機(jī)蕨分類器
1.1 隨機(jī)蕨分類器
對(duì)比式(4)可見(jiàn),隨機(jī)蕨分類器隨機(jī)提取多個(gè)特征構(gòu)成隨機(jī)蕨,從而可聯(lián)合多個(gè)隨機(jī)蕨進(jìn)行近似計(jì)算。從這個(gè)角度看,該算法是近似精確度和計(jì)算速度的平衡,通過(guò)對(duì)每個(gè)隨機(jī)蕨包含特征數(shù)及隨機(jī)蕨個(gè)數(shù)的選擇可保證在分類器訓(xùn)練速度較快的情況下實(shí)現(xiàn)較好的分類精度。這一點(diǎn)對(duì)分類器的在線學(xué)習(xí)非常重要。
1.2 隨機(jī)蕨分類器的使用
由1.1節(jié)可知,隨機(jī)蕨后驗(yàn)概率[P(FlCk)]的計(jì)算方法是隨機(jī)蕨分類器的關(guān)鍵。
通常訓(xùn)練隨機(jī)蕨分類器采用二進(jìn)制特征,如LBP,2 b模式等。假設(shè)在一個(gè)樣本中隨機(jī)提取5個(gè)特征值構(gòu)成一個(gè)隨機(jī)蕨[F,]則該樣本的一個(gè)隨機(jī)蕨數(shù)值即為5位二進(jìn)制碼對(duì)應(yīng)的十進(jìn)制數(shù)。由于該數(shù)值通過(guò)5位二進(jìn)制碼獲得,因此有25種可能的數(shù)值,針對(duì)大量訓(xùn)練樣本,可很方便地計(jì)算該隨機(jī)蕨的后驗(yàn)概率。如圖1所示,由相同位置的5個(gè)特征可獲得每個(gè)樣本的隨機(jī)蕨數(shù)值,統(tǒng)計(jì)該數(shù)值分布即可獲得車輛樣本在該隨機(jī)蕨的后驗(yàn)概率[P(FCk)]。
顯然一個(gè)隨機(jī)蕨對(duì)樣本的分類精度不高,可以通過(guò)式(4)聯(lián)合多個(gè)隨機(jī)蕨的分類結(jié)果,其中每個(gè)隨機(jī)蕨包含的特征數(shù)及使用的隨機(jī)蕨個(gè)數(shù)決定了分類精確度及訓(xùn)練隨機(jī)蕨分類器消耗的時(shí)間。
2 半自主在線學(xué)習(xí)
為了使基于隨機(jī)蕨分類器的視頻目標(biāo)檢測(cè)系統(tǒng)能夠在少量人工干預(yù)的幫助下逐漸提高檢測(cè)性能,本文提出半自主在線學(xué)習(xí)系統(tǒng),下面首先介紹在線隨機(jī)蕨算法,并在此基礎(chǔ)上構(gòu)建半自主學(xué)習(xí)系統(tǒng)。
2.1 在線隨機(jī)蕨分類器
由上節(jié)可知,隨機(jī)蕨分類器的訓(xùn)練不需更新弱分類器權(quán)重及樣本權(quán)重,只需統(tǒng)計(jì)每類訓(xùn)練樣本在不同隨機(jī)蕨的后驗(yàn)概率分布即可,如圖2所示,因此該分類器的訓(xùn)練速度較快。并且,對(duì)于隨機(jī)蕨分類器的在線學(xué)習(xí)也很容易通過(guò)更新后驗(yàn)概率分布實(shí)現(xiàn)。
本文主要探討在視頻中檢測(cè)某類目標(biāo)的問(wèn)題,與圖1,圖2的多類目標(biāo)分類問(wèn)題不同,需準(zhǔn)備正負(fù)樣本訓(xùn)練初始隨機(jī)蕨分類器,統(tǒng)計(jì)正負(fù)樣本在隨機(jī)蕨不同數(shù)值上的分布。例如,針對(duì)隨機(jī)蕨[F,]其對(duì)應(yīng)的特征值為00101的正負(fù)樣本個(gè)數(shù)分別為[N]和[M,]相應(yīng)地,該隨機(jī)蕨數(shù)值為00101時(shí),為待檢測(cè)目標(biāo)的可能性是[NN+M,]該隨機(jī)蕨有5個(gè)特征,相應(yīng)有25種取值,統(tǒng)計(jì)每種取值的正負(fù)樣本個(gè)數(shù),計(jì)算其為待測(cè)目標(biāo)的可能性,即為隨機(jī)蕨[F]的后驗(yàn)概率分布,如圖4所示。初始正負(fù)樣本通過(guò)隨機(jī)框選一個(gè)待檢測(cè)目標(biāo)進(jìn)行仿射變換得到。
在線學(xué)習(xí)時(shí),每個(gè)隨機(jī)蕨的后驗(yàn)概率分布根據(jù)增加的正負(fù)樣本數(shù)更新。設(shè)在線學(xué)習(xí)的樣本為[fnew,Ck,]其中[fnew]為其多維特征向量,[Ck]為其樣本類別,設(shè)為正樣本。下面以隨機(jī)蕨[F1]為例說(shuō)明隨機(jī)蕨分類器的在線學(xué)習(xí)過(guò)程:
(1) 計(jì)算該樣本在隨機(jī)蕨[F1]的數(shù)值,設(shè)為00101,即十進(jìn)制數(shù)5;
(2) 將隨機(jī)蕨[F1]的數(shù)值也為5的正樣本數(shù)[N]加1,負(fù)樣本數(shù)[M]不變;
(3) 更新隨機(jī)蕨[F1]的后驗(yàn)概率分布,其中數(shù)值5的后驗(yàn)概率變?yōu)閇(N+1)(N+M+1);]
(4) 歸一化隨機(jī)蕨[F1]的后驗(yàn)概率分布。
可見(jiàn),隨機(jī)蕨分類器的在線學(xué)習(xí)過(guò)程即為各個(gè)隨機(jī)蕨數(shù)值對(duì)應(yīng)的樣本數(shù)統(tǒng)計(jì)過(guò)程,由樣本數(shù)變化更新后驗(yàn)概率分布。因此其在線學(xué)習(xí)速度遠(yuǎn)高于其他在線學(xué)習(xí)算法。
2.2 半自主在線學(xué)習(xí)框架
本文提出半自主在線學(xué)習(xí)框架可在檢測(cè)系統(tǒng)運(yùn)行過(guò)程中手工框選部分錯(cuò)誤的目標(biāo)檢測(cè)結(jié)果作為在線學(xué)習(xí)樣本,用于隨機(jī)蕨分類器的在線學(xué)習(xí),從而逐漸提高該分類器的視頻目標(biāo)檢測(cè)性能。通過(guò)實(shí)驗(yàn)可知,初始的隨機(jī)蕨分類器通過(guò)在線學(xué)習(xí)算法可有效提高視頻目標(biāo)檢測(cè)精度。
半自主在線學(xué)習(xí)框架如圖5所示,首先在第一幀視頻圖像中框選一個(gè)待檢測(cè)目標(biāo), 利用該框選目標(biāo)進(jìn)行仿射變換得到初始正樣本集,同時(shí)在該視頻幀的非目標(biāo)區(qū)域提取少量初始負(fù)樣本集。由初始正負(fù)樣本集根據(jù)1.2節(jié)提出的訓(xùn)練方法訓(xùn)練初始隨機(jī)蕨分類器,將該分類器用于后續(xù)幀的同類目標(biāo)檢測(cè)。由人工對(duì)部分檢測(cè)結(jié)果進(jìn)行判斷,對(duì)于檢測(cè)到的虛警則標(biāo)注為在線學(xué)習(xí)負(fù)樣本,對(duì)于漏檢目標(biāo)則框選出來(lái)作為在線學(xué)習(xí)的正樣本,采用2.1節(jié)提到的方法對(duì)隨機(jī)蕨分類器進(jìn)行在線學(xué)習(xí),更新其后驗(yàn)概率分布。由于整個(gè)過(guò)程是人工指定在線學(xué)習(xí)樣本,因此這種方法稱為半自主在線學(xué)習(xí)。
半自主學(xué)習(xí)框架可在某一監(jiān)控場(chǎng)景視頻中在線訓(xùn)練有針對(duì)性的分類器,這和傳統(tǒng)的離線學(xué)習(xí)方法有很大區(qū)別。離線學(xué)習(xí)中樣本準(zhǔn)備過(guò)程及分類器的訓(xùn)練過(guò)程均需耗費(fèi)大量時(shí)間,非常不方便。采用半自主學(xué)習(xí)可直接從視頻幀中框選一個(gè)待檢測(cè)的目標(biāo)啟動(dòng)分類器的在線訓(xùn)練過(guò)程,雖然剛開(kāi)始檢測(cè)性能不佳,但是隨著在線學(xué)習(xí)的樣本增多,檢測(cè)性能逐漸提高。此外,半自主學(xué)習(xí)中,手工選取的在線學(xué)習(xí)樣本主要針對(duì)檢測(cè)過(guò)程多次出現(xiàn)的虛警及漏檢目標(biāo),從而提高分類器訓(xùn)練的針對(duì)性,加快檢測(cè)性能提高速度,獲得針對(duì)某一監(jiān)控場(chǎng)景的檢測(cè)系統(tǒng)。一旦監(jiān)控場(chǎng)景變化或檢測(cè)目標(biāo)類別變化,只需重新框選目標(biāo)啟動(dòng)新的半自主學(xué)習(xí)過(guò)程即可,從而為不同的監(jiān)控場(chǎng)景訓(xùn)練其專用的分類器檢測(cè)系統(tǒng)。
2.3 半自主在線學(xué)習(xí)流程
由2.2節(jié)可知,半自主在線學(xué)習(xí)框架主要用于驗(yàn)證隨機(jī)蕨分類器在線學(xué)習(xí)的有效性,其流程如圖6所示。
3 實(shí)驗(yàn)效果及分析
在車輛目標(biāo)檢測(cè)的實(shí)驗(yàn)中,選取了一段交通視頻,從視頻文件中讀入視頻幀中的車輛信息。首先在第一幀視頻圖像中框選出一個(gè)車輛目標(biāo),對(duì)其進(jìn)行仿射變換,得到200個(gè)正樣本,再?gòu)谋O(jiān)控視頻四周非目標(biāo)區(qū)域提取300個(gè)負(fù)樣本訓(xùn)練初始隨機(jī)蕨分類器。其中隨機(jī)蕨分類器的隨機(jī)蕨個(gè)數(shù)為15,每個(gè)隨機(jī)蕨包含的特征數(shù)為5個(gè)。將該分類器用于對(duì)后續(xù)視頻幀車輛目標(biāo)的檢測(cè),并手工選取漏檢目標(biāo)作為在線學(xué)習(xí)正樣本,同時(shí)手工選取虛警作為在線學(xué)習(xí)負(fù)樣本,對(duì)分類器進(jìn)行在線學(xué)習(xí)。實(shí)驗(yàn)過(guò)程中,系統(tǒng)在線學(xué)習(xí)了不到500幀圖像,共2 875個(gè)正負(fù)樣本就獲得了不錯(cuò)的檢測(cè)結(jié)果。如圖7~圖9所示。
在視頻目標(biāo)檢測(cè)的初始階段,在線學(xué)習(xí)的樣本較少,視頻幀中的目標(biāo)較難被檢測(cè)出來(lái),這時(shí)候表現(xiàn)出來(lái)的是虛警少漏檢多,如圖7所示。隨著視頻中在線學(xué)習(xí)樣本量的增多,虛警越來(lái)越多,漏檢越來(lái)越少,如圖8所示。正樣本的在線學(xué)習(xí)使得視頻幀中能夠檢測(cè)到的目標(biāo)增多,負(fù)樣本的在線學(xué)習(xí)使漏檢減少,相應(yīng)地,虛警的數(shù)量就會(huì)變少。當(dāng)分類器在線訓(xùn)練的正負(fù)樣本越來(lái)越多時(shí),分類型的性能就逐漸提高,視頻幀中的每個(gè)目標(biāo)基本能夠被檢測(cè)出來(lái),虛警也越來(lái)越少,如圖9所示。
通過(guò)觀察并且記錄了每個(gè)階段視頻幀中某部分虛警的數(shù)量和漏檢的數(shù)量,形成了一個(gè)表格,比較直觀地發(fā)現(xiàn)它們的變化規(guī)律,如表1所示。
為了說(shuō)明本文在線隨機(jī)蕨分類器能夠在不同的環(huán)境中對(duì)目標(biāo)進(jìn)行檢測(cè),具有較強(qiáng)的自適應(yīng)性。將訓(xùn)練好的車輛目標(biāo)分類器在第二種檢測(cè)環(huán)境下進(jìn)行半自主學(xué)習(xí),只訓(xùn)練了200幀左右,共862個(gè)正負(fù)樣本,就獲得了較好的檢測(cè)效果,如圖10,圖11所示,而在第三種檢測(cè)環(huán)境下,只半自主學(xué)習(xí)了不到100幀,共253個(gè)正負(fù)樣本,其檢測(cè)結(jié)果如圖12,圖13所示。
4 結(jié) 論
本文將隨機(jī)蕨算法和在線學(xué)習(xí)理論結(jié)合起來(lái)應(yīng)用到目標(biāo)檢測(cè)系統(tǒng)中,組成了在線隨機(jī)蕨的目標(biāo)檢測(cè)方法。通過(guò)半自主學(xué)習(xí)框架使檢測(cè)模型在執(zhí)行目標(biāo)檢測(cè)任務(wù)的同時(shí)逐步提高自身的檢測(cè)性能。多組實(shí)驗(yàn)結(jié)果表明,本系統(tǒng)可以適應(yīng)成像目標(biāo)以及成像背景的變化,并保持不錯(cuò)的檢測(cè)效果。
未來(lái)將進(jìn)一步提高在線學(xué)習(xí)隨機(jī)蕨分類器的分類能力,并結(jié)合在線學(xué)習(xí)樣本自主獲取、標(biāo)注方法,將系統(tǒng)擴(kuò)展為全自主在線學(xué)習(xí)系統(tǒng),拓寬其應(yīng)用范圍。
參考文獻(xiàn)
[1] LITTLESTONE N. Learning quickly when irrelevant attributes abound: a new linear threshold algorithm [J]. Machine learning, 1988, 2(4): 285?318.
[2] LITTLESTONE N, WARMUTH M K. The weighted majority algorithm [J]. Information and computation, 1994, 108(2): 212?261.
[3] POLIKAR R, UPDA L, UPDA S S, et al. Learn++: an incremental learning algorithm for supervised neural networks [J]. IEEE transactions on systems, man, and cybernetics, part C (applications and reviews), 2001, 31(4): 497?508.
[4] VIOLA P, JONES M J. Fast and robust classification using asymmetric AdaBoost and a detector cascade [J]. Advances in neural information processing system, 2002, 2(3): 1311?1318.
[5] OZA N, RUSSELL S. Online bagging and boosting [C]// Proceedings of the Eighth International Workshop on Artificial Intelligence and Statistics. Florida: [s.n.], 2001: 105?112.
[6] 馮國(guó)瑜,肖懷鐵,付強(qiáng),等.一種適于在線學(xué)習(xí)的增量支持向量數(shù)據(jù)描述方法[J].信號(hào)處理,2012,28(2):186?192.
[8] GRABNER H, BISCHOF H. On?line boosting and vision [C]// Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2006: 260?267.
[9] ZEISL B, LEISTNER C, SAFFARI A, et al. On?line semi?supervised multiple?instance boostin [C]// Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010: 1879?1887.
[10] CHEN S T, LIN H T, LU C J. Boosting with online binary learners for the multiclass bandit problem [C]// Proceedings of the 31st International Conference on Machine Learning. [S.l.: s.n.], 2014: 342?350.
[11] QI Zhiquan, XU Yitian, WANG Laisheng. Online multiple instance boosting for object detection [J]. Neurocomputing, 2011, 74(10): 1769?1775.
[12] OZUYSAL M, CALONDER M, LEPETIT V, et al. Fast keypoint recognition using random ferns [J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(3): 448?461.
[13] PEDRO D, PAZZANI M. On the optimality of the simple Bayesian classifier under zero?one loss [J]. Machine learning, 1997, 29(3): 103?137.
[14] RENNIE J D M. Tackling the poor assumptions of Naive Bayes text classifiers [C]// Proceedings of the Twentieth International Conference on Machine Learning. [S.l.]: IEEE, 2003: 616?623.