999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于屬性agent模型的新聞信息網(wǎng)頁篩選技術(shù)

2009-01-01 00:00:00楊先芬劉喜亮

(湖南大學(xué) a.計(jì)算機(jī)科學(xué)與通信學(xué)院; b.軟件學(xué)院 長(zhǎng)沙 410082)

摘 要:隨著人工智能技術(shù)的不斷發(fā)展和復(fù)雜動(dòng)態(tài)系統(tǒng)建模手段的不斷完善,agent技術(shù)因其自主性、反應(yīng)性、預(yù)動(dòng)性等特點(diǎn)和在協(xié)作、推理及規(guī)劃方面的優(yōu)勢(shì),使其對(duì)非結(jié)構(gòu)性的決策與不確定性的推理有很強(qiáng)的刻畫能力,能很好地解決一些非數(shù)學(xué)模型的動(dòng)態(tài)推理與篩選特征事件為基礎(chǔ)的問題,從而為人們解決類似的問題提供非常好的新途徑。從構(gòu)建的屬性agent模型出發(fā),利用網(wǎng)頁篩選技術(shù)的風(fēng)格特征:HTML標(biāo)簽、URL字符、文本內(nèi)容和視覺效果等獲取風(fēng)格特征的屬性值,從而構(gòu)建新的風(fēng)格決策樹模式,提高網(wǎng)頁識(shí)別、篩選的精度。實(shí)驗(yàn)表明,該技術(shù)能提高網(wǎng)頁篩選的精度。

關(guān)鍵詞:屬性agent; 網(wǎng)頁特征風(fēng)格; 決策樹

中圖分類號(hào):TP309文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2009)05-1760-04

Technology for selection of news information pages based on attribution agent

HU Jun YANG Xianfen LIU Xiliangb HUANG Shena

(a.College of Computer Science Communication b.Software School Hunan University Changsha 410082 China)

Abstract:With the development of artificial intelligence and complex system modeling The agent technology gives us a new approach to solve the real complex problems for the agent has the attribution of autonomy reactivity proactiveness and rationality. It can build the model for nonstructure decision and uncertain reason and also can solve the dynamics reason and selection the attribution from huge data that can’t easy to be described by the mathematic model. This paper built the attribution agent model to select the Web page about news information through the genres attribution: HTML tag URL char text content and visual style. And could get the new gene decision tree to improve the Web page about news information selection and identification correctness. The experimental result shows that the correctness of proposed technology get great improved.

Key words:attribution agent; genres of Web page; decision tree

0 引言

傳統(tǒng)的網(wǎng)頁篩選領(lǐng)域,絕大多數(shù)是基于內(nèi)容的[1],但是如果沿用基于內(nèi)容的方式去進(jìn)行在線新聞、博客及個(gè)人主頁等網(wǎng)頁的篩選,則會(huì)存在效率低下等問題。 例如,新聞信息等內(nèi)容為用戶所提供,具有隨意性、實(shí)效性及要求智能辨別新舊新聞信息等,對(duì)網(wǎng)頁的篩選精度有很大的影響。因?yàn)槠鋬?nèi)容是由用戶提供的,這些內(nèi)容往往具有隨意性,只與該用戶的風(fēng)格有關(guān)。因此,基于風(fēng)格[2]的識(shí)別比傳統(tǒng)基于內(nèi)容的識(shí)別高效。基于風(fēng)格的網(wǎng)頁篩選是針對(duì)于純文本提出了使用特征統(tǒng)計(jì)的方法來進(jìn)行分類的方法,且實(shí)驗(yàn)證明風(fēng)格對(duì)于分類是非常重要的。通過基于風(fēng)格的網(wǎng)頁篩選實(shí)驗(yàn)證明,分類精度提高了17%,平均精度達(dá)93.07%,召回率稍微有所下降。但是該方法沒有深入針對(duì)特定的領(lǐng)域討論其風(fēng)格特征,同時(shí)也不具備學(xué)習(xí)能力。

鑒于新聞信息網(wǎng)頁的特殊性,本文從利用智能建模方式構(gòu)建的屬性agent具有增量式學(xué)習(xí)與構(gòu)建智能決策模式的特點(diǎn),深入討論利用特征屬性構(gòu)建增量式學(xué)習(xí)機(jī)制來構(gòu)建復(fù)雜的實(shí)用的特征風(fēng)格決策樹模型,并討論了新聞信息網(wǎng)頁的風(fēng)格特征,提出了一種基于智能屬性agent模型的新聞信息網(wǎng)頁識(shí)別篩選技術(shù)。

1 屬性agent模型

1.1 屬性agent模型的理論基礎(chǔ)

現(xiàn)實(shí)世界中,人們感受到的是實(shí)際存在的某種物質(zhì)(事實(shí))的屬性,從而產(chǎn)生所謂的信息和概念。屬性將成為外部環(huán)境作為計(jì)算機(jī)內(nèi)部映像的一種表示。也可以認(rèn)為是從現(xiàn)實(shí)世界中某種事實(shí)抽象出來的信息。因此,用科學(xué)方法來構(gòu)建事物之間的屬性聯(lián)系就能很好地構(gòu)建所認(rèn)同的知識(shí),來刻畫生活中的復(fù)雜問題,并形成解決問題的一般模式。卡爾#8226;波普爾將科學(xué)方法的圖式[3]簡(jiǎn)單優(yōu)雅地在形式上表現(xiàn)為“演繹法則”或“DN”模型,該模型包含三類陳述,即特殊的初始態(tài)、特殊的最終態(tài)和普遍有效的概括。將一組概括同已知的初始態(tài)結(jié)合起來就得到了預(yù)言,同已知的最終態(tài)結(jié)合起來就得到了解釋,將已知的初始態(tài)與已知的最終態(tài)相匹配就起到了檢驗(yàn)所涉及到的普遍概括的作用。此模型很好地解釋了屬性的由來,以及屬性之間聯(lián)系的抽象方式。

結(jié)合人的思考過程,有兩種相對(duì)明顯的過程:a)由下而上不斷地抽象事物屬性的特征與聯(lián)系構(gòu)建一種認(rèn)知的框架或模式的涌現(xiàn)方式;b)由知識(shí)所確定的模型與現(xiàn)實(shí)不確定的信息結(jié)合,自上而下的解決問題的控制方式。再加上人對(duì)已構(gòu)建的模型的存儲(chǔ)與引發(fā)搜索,這就構(gòu)成了人對(duì)處理復(fù)雜任務(wù)系統(tǒng)的一種簡(jiǎn)單的抽象過程。因此,可以將此過程抽象成某種處理問題的模式構(gòu)建屬性agent系統(tǒng)結(jié)構(gòu)框架,并且在此模型中加入構(gòu)建復(fù)雜決策任務(wù)的建模方式,主要是屬性的構(gòu)建、聯(lián)系的推理、復(fù)雜聯(lián)系的建模方式,以及對(duì)已有模型的推理與擴(kuò)張就構(gòu)成了新的屬性agent模型的結(jié)構(gòu)框架。

1.2 屬性agent模型的結(jié)構(gòu)

如圖1所示,模型由兩個(gè)部分組成,即低級(jí)抽象層和高級(jí)建模層。

a)低級(jí)抽象層

低級(jí)抽象層由屬性描述集、屬性狀態(tài)集、屬性聯(lián)系推理與驗(yàn)證、屬性反應(yīng)集組成。構(gòu)成底層抽象事物屬性特征;形成基本屬性聯(lián)系與置信度或概率特征的屬性初級(jí)抽象,給上層提供建模的要素,以及構(gòu)建監(jiān)控外部環(huán)境的反應(yīng)動(dòng)作集。

(a)屬性描述集,用來形成屬性形式和計(jì)算的定義與方式。

(b)屬性狀態(tài)集,將由現(xiàn)實(shí)世界中抽象出來的信息數(shù)據(jù)作定量的量度或抽象成某些定性的定義,將為屬性之間的聯(lián)系推理與驗(yàn)證的現(xiàn)實(shí)基礎(chǔ),并形成觸動(dòng)某些緊急情況下反應(yīng)行動(dòng)的信號(hào);有時(shí)屬性值不需要記錄只是記載其屬性在統(tǒng)計(jì)概率上體現(xiàn)出概率特征作為某些聯(lián)系推導(dǎo)的關(guān)鍵性信度指標(biāo)。

(c)屬性聯(lián)系推理與驗(yàn)證,用知識(shí)描述和進(jìn)行邏輯推理來發(fā)掘與統(tǒng)計(jì)驗(yàn)證某些屬性之間的關(guān)系為上層的高級(jí)建模提供素材;還可以規(guī)范地給出邏輯推理的前提要求,也就是給屬性描述集提供概念的定義與實(shí)現(xiàn),也可以構(gòu)建基于前提條件的動(dòng)作約束為構(gòu)建屬性反應(yīng)集提供動(dòng)作可執(zhí)行的約束前提。

(d)屬性反應(yīng)集,在屬性模型建立下,在收到特定的屬性狀態(tài)下形成行動(dòng)及響應(yīng)觸發(fā)信號(hào)。

b)高級(jí)建模層

(a)屬性建模與代價(jià)確認(rèn)。在收到屬性聯(lián)系推理的構(gòu)建屬性的關(guān)系下,在上層確定的目標(biāo)和意圖的情況下構(gòu)建成對(duì)屬性的解釋框架模型,并由此去定義新的屬性,確認(rèn)某些屬性推理方式,確認(rèn)在某些屬性下的反應(yīng)方式。現(xiàn)實(shí)中根據(jù)不同的任務(wù)的復(fù)雜程度和先驗(yàn)經(jīng)驗(yàn)的確認(rèn)情況的不同構(gòu)建不同的建模方式,產(chǎn)生不同的建模代價(jià)。

(b)目標(biāo)與意圖推理。由專家分析系統(tǒng)得出的規(guī)則或由基于屬性模型得出的不確定因果推理作為整個(gè)推理的基礎(chǔ),并且在考慮代價(jià)與目標(biāo)不可達(dá)情況下求助其他agent來協(xié)助處理問題的決定部分。控制著屬性模型的確立與更新。

(c)剪枝實(shí)際模型庫。由建模模型與實(shí)際的約束規(guī)則的要求下形成的最高級(jí)別的知識(shí)抽象與表示。

(d)協(xié)商通信協(xié)議。負(fù)責(zé)由目標(biāo)與意圖推理傳輸過來的請(qǐng)求在其他agent之間傳遞的連接方式。

2 屬性agent模型實(shí)現(xiàn)原理

屬性agent可以用七元組來表示,即Ag=(ζ,β,S A Md,G,Mt)。可以利用動(dòng)態(tài)描述邏輯(DDL)[4]來對(duì)ζ、β、S、A進(jìn)行描述即實(shí)現(xiàn)低級(jí)抽象。其中:ζ表示DDL中的基本概念與定義;β表示領(lǐng)域中當(dāng)前狀態(tài)下的事實(shí)與數(shù)據(jù)描述;S表示推理中的因果約束關(guān)系;A表示DDL中的動(dòng)作集。用非結(jié)構(gòu)性決策知識(shí)來刻畫Md、G、Mt即實(shí)現(xiàn)高級(jí)建模。其中:Md表示關(guān)系聯(lián)系的重構(gòu),形成決策推理結(jié)構(gòu)模型及在復(fù)雜約束條件下的實(shí)際剪枝模型;G表示實(shí)現(xiàn)的目標(biāo)要求與規(guī)劃;Mt表示實(shí)現(xiàn)模型構(gòu)建過程的意圖,是對(duì)復(fù)雜決策任務(wù)的規(guī)范性形式描述及任務(wù)規(guī)范的分解與優(yōu)化分解的方法。

2.1 利用動(dòng)態(tài)描述邏輯實(shí)現(xiàn)低級(jí)抽象層

動(dòng)態(tài)描述邏輯中最重要的基本元素有三個(gè),即概念、關(guān)系和動(dòng)作。可以將抽象知識(shí)表示為K=(Tb,Ab,D)。其中:Tb為關(guān)于概念包含斷言的有限集合,用來定義基本的原子概念,由人在實(shí)際生活中規(guī)劃出概念而來;Ab為實(shí)例斷言的有效集合,用來在監(jiān)控外部環(huán)境輸入與實(shí)際的屬性要求之間的關(guān)系,是對(duì)包含等其他關(guān)系的驗(yàn)證;D為缺省規(guī)則集,用來形成抽象的概括與約束條件。動(dòng)作就可以表示在約束條件D下狀態(tài)轉(zhuǎn)換關(guān)系。因此可以用概念來刻畫agent模型中的信息屬性的定義ζ,屬性狀態(tài)集就由Tb、Ab來表示β,有時(shí)候無須記錄屬性的值域,只需要記錄屬性的統(tǒng)計(jì)特性,因此有時(shí)可以用統(tǒng)計(jì)特性來表征屬性的信度值;屬性聯(lián)系的推理與驗(yàn)證可以是由上層傳遞下來的缺省規(guī)則來推理此缺省規(guī)則在表示中的屬性可滿足性及歸一性的確認(rèn)(簡(jiǎn)單邏輯推理過程),以及向上層反饋已經(jīng)通過了現(xiàn)實(shí)數(shù)據(jù)驗(yàn)證的一般性缺省規(guī)則與關(guān)系,產(chǎn)生動(dòng)作的約束條件S。動(dòng)作由A(x1,x2,x3,…,xn)=PA/EA表示。其中:PA為前提約束公式集;EA為結(jié)果公式集。其核心是屬性聯(lián)系推理與驗(yàn)證,它要為概念的定義進(jìn)行概念公理確認(rèn),對(duì)動(dòng)作進(jìn)行動(dòng)作公理確認(rèn),對(duì)確定的斷言進(jìn)行單調(diào)的推理,對(duì)缺省規(guī)則進(jìn)行非單調(diào)性推理來確實(shí)因果約束公理體系。

對(duì)于概念的推理,在動(dòng)態(tài)描述邏輯中就是對(duì)概念的可滿足性和一致性的推斷。而且其他問題(如包含檢測(cè))和一致性問題均可以歸結(jié)到可滿足性確認(rèn)中,因此在引人缺省規(guī)則后對(duì)概念C的可滿足性和缺省可滿足性,由五條規(guī)則構(gòu)建的TableauD算法來處理約束系統(tǒng)S={x∶C}的可滿足性推理。具體規(guī)則如下:

a)∩規(guī)則。若{x:C1∩C2}∈S,且{x:C1,x:C2}S,則S←{x:C1 x: C2}∪S。

b)∪規(guī)則。若(x:C1∪C2)∈S,且{x:C1,x:C2}∩S=,則S←{x :D}∪S。其中D=C1,或D=C2。

c)規(guī)則。若(x:R .C )∈S,且沒有y使得(x R y)∈S且(y: C )∈S,則S←{y:C x R y}∪S。

d)規(guī)則。若(x:R.C) ∈S,( x R y) ∈S,且(y:C)S,則S←{y:C )∪S。

e)缺省規(guī)則。若上述規(guī)則中沒有規(guī)則可用,則考慮從缺省規(guī)則集中選擇缺省規(guī)則。若缺省規(guī)則集中有規(guī)則C:E1,E2,…,En}/D,且(x :C) ∈S,(x:Ei)S。其中1≤i≤n,則S←{x : D}∪S。

這些規(guī)則構(gòu)成了兩個(gè)層次的推理,前四條構(gòu)成單調(diào)推理,后一條構(gòu)成缺省非單調(diào)推理。形成整個(gè)低層抽象推理的核心。

在有概念與關(guān)系構(gòu)成的斷言公式集中進(jìn)行一致性推理的確認(rèn)是指數(shù)時(shí)間性的。因此,無法在構(gòu)建復(fù)雜概念與關(guān)系時(shí)一直沿用DDL來表示,需要現(xiàn)實(shí)生活中的經(jīng)驗(yàn)來構(gòu)建關(guān)系聯(lián)系的結(jié)構(gòu),來形成樹狀或網(wǎng)狀的關(guān)系聯(lián)系拓?fù)鋱D形。因此需要在低級(jí)抽象的基礎(chǔ)上構(gòu)建高級(jí)建模層。

2.2 非結(jié)構(gòu)性決策知識(shí)實(shí)現(xiàn)高級(jí)建模

復(fù)雜的決策任務(wù)的建模與求解必須體現(xiàn)其不確定性、復(fù)雜性與動(dòng)態(tài)性。可以利用不確定知識(shí)表示的主要建模技術(shù)(Md),如利用屬性信息熵通過增量式學(xué)習(xí)構(gòu)建某種綜合屬性的決策樹模型(樹型模型)和利用貝葉斯概率推理網(wǎng)[5]來構(gòu)建貝葉斯網(wǎng)模型(網(wǎng)狀模型)來對(duì)復(fù)雜決策任務(wù)建模和求解。

在相對(duì)簡(jiǎn)單一點(diǎn)的決策任務(wù)中,也可以利用屬性信息熵通過增量式學(xué)習(xí)構(gòu)建某種綜合屬性的決策樹模型。比如采用經(jīng)典的機(jī)器學(xué)習(xí)算法C4.5[6]來構(gòu)造的決策樹模型。在新聞信息網(wǎng)頁篩選技術(shù)中就是用此來構(gòu)建風(fēng)格特征篩選模型。但為了提高篩選的精度和應(yīng)用的范圍,仍然要在有意圖與目標(biāo)的指導(dǎo)下,形成增量式學(xué)習(xí)機(jī)制來對(duì)算法形成的決策樹進(jìn)行剪枝和優(yōu)化。

對(duì)于復(fù)雜決策任務(wù)下網(wǎng)狀建模,可以利用人工智能中不確定性知識(shí)表示主導(dǎo)技術(shù)貝葉斯概率推理網(wǎng)來構(gòu)建。在實(shí)際的建模過程中這些方法所需要的時(shí)間代價(jià)相對(duì)大,因本文中所解決的問題較簡(jiǎn)單,沒有擴(kuò)展到此技術(shù)的應(yīng)用。

對(duì)模型中的目標(biāo)(G)是實(shí)現(xiàn)多模型之間的信息融合,產(chǎn)生確定的因果關(guān)系,成為決策的行動(dòng)指導(dǎo)方向。復(fù)雜任務(wù)時(shí)利用證據(jù)理論,先利用下層對(duì)外部環(huán)境進(jìn)行監(jiān)控形成的狀態(tài)集對(duì)已形成的模型進(jìn)行可信度置值,然后利用證據(jù)理論的 Dempster合成法則[7]對(duì)多模型進(jìn)行融合,產(chǎn)生決策結(jié)論。而在新聞信息網(wǎng)頁篩選技術(shù)中,因?yàn)槠淠繕?biāo)較為簡(jiǎn)單可以只是簡(jiǎn)單地設(shè)置構(gòu)建的特征決策樹的精度來實(shí)現(xiàn)其目標(biāo)。

模型中的意圖(Mt)是復(fù)雜決策任務(wù)的規(guī)范性的形式描述。在確定樹型和網(wǎng)狀建模方式后,可以利用構(gòu)建決策樹的經(jīng)典算法配合增量式學(xué)習(xí)機(jī)制來對(duì)樹型建模構(gòu)建決策任務(wù)的展開,貝葉斯網(wǎng)則必須形成基于貝葉斯網(wǎng)描述任務(wù)規(guī)范的分解與優(yōu)化分解的方法[8]。有時(shí)在任務(wù)展開過程中還需要其他agent的協(xié)作。因新聞信息網(wǎng)頁的篩選任務(wù)展開簡(jiǎn)單,沒有用貝葉斯和多agent的通信展開部分。 

3 新聞信息網(wǎng)頁篩選技術(shù)的實(shí)現(xiàn)

3.1 新聞信息網(wǎng)頁的風(fēng)格屬性特征

在構(gòu)建新聞信息篩選技術(shù)中使用網(wǎng)頁的風(fēng)格特征屬性作為篩選決策的依據(jù)。風(fēng)格(genre)指網(wǎng)頁的類型,可描述為網(wǎng)頁以某種特別的構(gòu)成方式來傳達(dá)一個(gè)主題的有針對(duì)性的綜合特征。新聞信息網(wǎng)頁的風(fēng)格特征主要表現(xiàn)在HTML代碼、URL字符、文本內(nèi)容和視覺效果上。如下所示:

a)HTML特征。該特征指HTML標(biāo)簽在統(tǒng)計(jì)分析上所體現(xiàn)的特點(diǎn):(a)指向相同域名的鏈接數(shù)量與所有鏈接數(shù)量的比率;(b)指向不同域名的鏈接數(shù)量與所有鏈接數(shù)量的比率;(c)HTML源碼DOM樹的深度;(d)錨文本中包含關(guān)鍵詞的鏈接數(shù)量與總鏈接數(shù)量的比率;(e)HTML中包含關(guān)鍵詞的鏈接數(shù)量與總的鏈接數(shù)量的比率。

b)URL特征。該特征指某博客網(wǎng)頁本身URL字符的特征:(a)URL字符中關(guān)鍵詞的數(shù)量;(b)URL字符串的長(zhǎng)度;(c)URL組成中目錄路徑的深度;(d)URL字符中數(shù)字的數(shù)量;(e)URL字符中文件后綴名種類的數(shù)量。

c)文本特征。該特征指網(wǎng)頁中文字內(nèi)容所體現(xiàn)的相關(guān)特征:(a)文本內(nèi)容中關(guān)鍵詞的數(shù)量;(b)所有關(guān)鍵詞的數(shù)量,包含描述日期或時(shí)間的詞語數(shù)量,以及描述個(gè)人觀點(diǎn)的內(nèi)容。

d)視覺特征。由于視覺特征獲取比較耗時(shí),對(duì)視覺特征不作過多研究,只作圖片數(shù)量類型確認(rèn)。

在這些風(fēng)格特征屬性中,利用訓(xùn)練集網(wǎng)頁構(gòu)建每個(gè)屬性的信息熵,并計(jì)算每個(gè)屬性的信息增益,計(jì)算信息增益率,淘汰對(duì)識(shí)別貢獻(xiàn)值低的風(fēng)格特征,為進(jìn)一步構(gòu)建風(fēng)格決策樹作好屬性聯(lián)系的確認(rèn)與統(tǒng)計(jì)。

3.2 增量學(xué)習(xí)機(jī)制下的決策樹建立

在計(jì)算了屬性的信息增益率以后,有了標(biāo)準(zhǔn)的決策樹算法C4.5。但此算法沒有使用到學(xué)習(xí)機(jī)制,在分類和篩選中沒有優(yōu)化剪枝實(shí)際的決策樹。因此使用的增量式學(xué)習(xí)的算法如下:

a)首先收集錯(cuò)誤識(shí)別網(wǎng)頁,待網(wǎng)頁數(shù)目達(dá)到一定規(guī)模Nwp時(shí),對(duì)錯(cuò)誤識(shí)別觸發(fā)的規(guī)則進(jìn)行統(tǒng)計(jì),給出其中每條規(guī)則被觸發(fā)的次數(shù),記觸發(fā)規(guī)則i的網(wǎng)頁數(shù)為ni。

b)按照ni對(duì)規(guī)則排序,從大到小挑選若干條規(guī)則 將它們的權(quán)重作為待修改規(guī)則權(quán)重。

c)適當(dāng)降低待修改規(guī)則的權(quán)重。設(shè)規(guī)則i修改前的權(quán)重為wi,修改后的權(quán)重為w′i,觸發(fā)規(guī)則i的網(wǎng)頁數(shù)為ni,誤判網(wǎng)頁樣本總數(shù)為Nwp,則權(quán)重調(diào)整公式為

Δw=wr[1-ni/Nwp]bw′i=wi+Δw(1)

其中:r為[0,1]間取值的隨機(jī)數(shù),b為系統(tǒng)參數(shù),權(quán)重w越大的規(guī)則 被觸發(fā)時(shí)造成誤判的可能性越大 所以權(quán)重調(diào)整量Δw也越大。同時(shí),規(guī)則i 觸發(fā)的誤判網(wǎng)頁數(shù)ni越大,說明這條規(guī)則對(duì)誤判的影響越大,相應(yīng)的權(quán)重調(diào)整量Δw也越大。從而調(diào)整了決策樹模型中的屬性判斷的層次性,優(yōu)化了決策樹的決策判斷依據(jù),從而提高了決策樹判斷的精度。

3.3 與屬性agent模型結(jié)合新聞信息網(wǎng)頁篩選的技術(shù)流程

基于屬性agent模型的增量學(xué)習(xí)風(fēng)格的新聞信息網(wǎng)頁篩選技術(shù)流程圖如圖2所示。

具體步驟如下:

a)從HTML標(biāo)簽特征、URL字符特征、文本特征以及視覺特征四個(gè)方面獲取新聞信息網(wǎng)頁風(fēng)格特征集的計(jì)算屬性值。

b)利用訓(xùn)練集網(wǎng)頁來提取特征值。

c)采用信息增益(information gain)來進(jìn)行特征選擇,淘汰對(duì)識(shí)別貢獻(xiàn)值低的風(fēng)格特征。

d)采用機(jī)器學(xué)習(xí)算法生成風(fēng)格決策樹模型。例如,J48算法,即機(jī)器學(xué)習(xí)中的C4.5。

e)檢查識(shí)別建模是否達(dá)到所需精度閾值,若未達(dá)到,將識(shí)別結(jié)果錯(cuò)誤網(wǎng)頁的風(fēng)格特征屬性值,根據(jù)增量式算法調(diào)整其權(quán)重,識(shí)別錯(cuò)誤風(fēng)格特征屬性值優(yōu)化風(fēng)格決策樹模型并轉(zhuǎn)d)。

f)識(shí)別結(jié)果評(píng)價(jià)以及可視化。

3.4 具體平臺(tái)搭建與實(shí)現(xiàn)方法

本方案中基于Weka[9]平臺(tái)實(shí)現(xiàn)風(fēng)格決策樹模型的生成,然后使用風(fēng)格決策樹模型對(duì)網(wǎng)頁進(jìn)行識(shí)別篩選。

首先基于.NET平臺(tái)開發(fā)了一個(gè)風(fēng)格特征獲取軟件FeatureAnalyzer,該軟件從數(shù)據(jù)庫文件中提取網(wǎng)頁四個(gè)方面的風(fēng)格特征,以固定格式存儲(chǔ)在文本文件中。當(dāng)數(shù)據(jù)庫文件內(nèi)為新聞信息網(wǎng)頁時(shí),提取的為新聞信息網(wǎng)頁風(fēng)格特征;反之,提取的為非新聞信息網(wǎng)頁特征;然后對(duì)網(wǎng)頁特征進(jìn)行統(tǒng)計(jì)確認(rèn),形成不同類型的統(tǒng)計(jì)特征文件,最后將不同類別的該文件合并成Weka平臺(tái)所需的ARFF文件格式。這樣才能通過Weka軟件平臺(tái),選用決策樹算法中的J48算法生成風(fēng)格決策樹模型。由此來實(shí)現(xiàn)屬性狀態(tài)集與屬性聯(lián)系的統(tǒng)計(jì)特征的聯(lián)系推理。 

為了增量學(xué)習(xí)功能,設(shè)計(jì)開發(fā)了IncrementaLearning軟件。該軟件能夠讀取數(shù)據(jù)庫中的網(wǎng)頁,運(yùn)用前述風(fēng)格決策樹模型進(jìn)行網(wǎng)頁識(shí)別篩選,同時(shí),在該工具正下方可以顯示渲染后的網(wǎng)頁,此時(shí)人工進(jìn)行判斷,如果模型識(shí)別結(jié)果不正確,只需點(diǎn)擊右邊正確網(wǎng)頁類型的按鈕,那么工具就將該干擾性強(qiáng)的網(wǎng)頁的風(fēng)格特征提取出來,以文本格式保存起來。簡(jiǎn)潔地實(shí)現(xiàn)了屬性建模和目標(biāo)與意圖推理。

整合這些以后才能讓W(xué)eka平臺(tái)生成新的風(fēng)格特征決策樹模型,這讓模型能增量學(xué)習(xí)與智能優(yōu)化決策樹。當(dāng)模型的精度低于某個(gè)預(yù)先設(shè)定的閾值時(shí),模型就需要增量學(xué)習(xí)錯(cuò)誤識(shí)別的網(wǎng)頁風(fēng)格特征來提高精度。

4 實(shí)驗(yàn)結(jié)果與分析

對(duì)于不同的篩選情況,通常根據(jù)篩選算法在測(cè)試樣本的篩選結(jié)果構(gòu)造確認(rèn)不同分類:a)實(shí)際類型屬于,篩選結(jié)果也屬于(A);b)實(shí)際屬于,篩選結(jié)果不屬于(B);c)實(shí)際不屬于,篩選結(jié)果屬于(C);d)實(shí)際不屬于,篩選結(jié)果不屬于(D)。為了研究網(wǎng)頁識(shí)別篩選技術(shù)的準(zhǔn)確性,采用在文本篩選領(lǐng)域里常用精確率P和召回率R進(jìn)行度量。其中精確率和召回率反映了性能的兩個(gè)不同方面。兩者必須綜合考慮,不可偏廢。所以還通常使用兩者綜合考慮的評(píng)估指標(biāo) 即F1measure(F1)。

召回率R:R=A/(A+B)

精確率P:P=A/(A+C)

MicroF1:Micro F1=2(P×R)/P+R

目前學(xué)術(shù)界在中文網(wǎng)頁篩選領(lǐng)域尚無一致認(rèn)可的權(quán)威數(shù)據(jù)集,因此使用自己編寫的工具獲取數(shù)據(jù)集。a)通過正則式匹配獲取絕大多數(shù)著名新聞信息服務(wù)提供商的新聞信息網(wǎng)頁,即新浪新聞網(wǎng)、雅虎新聞網(wǎng)、QQ新聞中心、搜狐新聞網(wǎng)等;然后再手動(dòng)加入個(gè)別新聞網(wǎng),不常見的新聞信息網(wǎng)頁形成新聞信息網(wǎng)頁數(shù)據(jù)集。非新聞信息網(wǎng)頁數(shù)據(jù)集也采用同樣方法獲取,對(duì)于所有數(shù)據(jù)集,手動(dòng)瀏覽一遍以確保分類的正確性。 首先,風(fēng)格決策樹模型只采用機(jī)器學(xué)習(xí)C4.5算法。b)利用屬性agent模型實(shí)現(xiàn)增量學(xué)習(xí)。使用IncrementaLearning軟件提取其四種類型風(fēng)格特征,增量式學(xué)習(xí)算法調(diào)整其權(quán)值,加入原有模型進(jìn)行優(yōu)化,形成優(yōu)化的風(fēng)格決策樹模型,并加大測(cè)試集中干擾性強(qiáng)的網(wǎng)頁比重,測(cè)試數(shù)據(jù)集中NewsRelated以及NotNews數(shù)量均為原來的兩倍。實(shí)驗(yàn)比較結(jié)果如表1所示。

通過表1可以發(fā)現(xiàn),經(jīng)過屬性agent智能形成增量學(xué)習(xí)的新聞信息網(wǎng)頁識(shí)別技術(shù)在精度上有了提高。實(shí)驗(yàn)發(fā)現(xiàn),識(shí)別錯(cuò)誤的網(wǎng)頁往往是干擾性很強(qiáng)的網(wǎng)頁,如網(wǎng)站主頁、類新聞信息網(wǎng)頁、新聞信息網(wǎng)站主頁等。由于該類網(wǎng)頁在訓(xùn)練集中數(shù)量不多,在生成的體裁決策樹中該類特征沒有得到體現(xiàn),通過提取這些網(wǎng)頁的上述風(fēng)格特征屬性值,根據(jù)增量式方式調(diào)整其權(quán)重,并且將其加入到原有風(fēng)格決策樹模型,重復(fù)該過程直至達(dá)到預(yù)定精度,不斷通過agent來豐富風(fēng)格決策樹模型,以達(dá)到不斷學(xué)習(xí)、不斷優(yōu)化、不斷提高抗干擾能力的目的。

5 結(jié)束語

本文從屬性agent模型角度出發(fā),通過分析新聞信息網(wǎng)頁的風(fēng)格特征,從HTML標(biāo)簽、URL字符、文本內(nèi)容和視覺效果四個(gè)方面獲取新聞信息網(wǎng)頁風(fēng)格特征,運(yùn)用模型中形成的增量式學(xué)習(xí)方式構(gòu)建了新的機(jī)器學(xué)習(xí)決策模型,有效進(jìn)行了新聞信息網(wǎng)頁識(shí)別、篩選。實(shí)驗(yàn)證明,該技術(shù)的網(wǎng)頁識(shí)別精度達(dá)99%。因?qū)傩詀gent模型具有廣泛的應(yīng)用領(lǐng)域,對(duì)復(fù)雜決策任務(wù)有很強(qiáng)的建模能力,因此將以擴(kuò)展屬性agent模型的應(yīng)用領(lǐng)域作為進(jìn)一步研究?jī)?nèi)容。

參考文獻(xiàn):

[1]段軍峰,黃維通,陸玉昌.中文網(wǎng)頁分類研究與系統(tǒng)實(shí)現(xiàn)[J].計(jì)算機(jī)科學(xué),2007,34(6):210-213.

[2]鄭德權(quán),張迪,趙鐵軍,等. Blog網(wǎng)頁分類與識(shí)別技術(shù)研究[J]. 通信學(xué)報(bào),2007,28(12):156-160.

[3]POPER K R. The logic of scientific discovery[M]. New York: Basic Books,1959.

[4]董明楷. 面向智能主體的動(dòng)態(tài)描述邏輯研究[D]. 北京:中國(guó)科學(xué)院 2003.

[5]胡笑旋,楊善林,馬溪駿. 面向復(fù)雜問題的貝葉斯網(wǎng)建模方法[J]. 系統(tǒng)仿真學(xué)報(bào) 2006,18(11):3242-3246.

[6]姜欣,徐六通,張雷. C4.5決策樹展示算法設(shè)計(jì)[J]. 計(jì)算機(jī)工程與應(yīng)用 2003,39(4):93-94,97.

[7]孫懷江,胡鐘山,楊靜宇. 基于證據(jù)理論的多分類器融合方法研究[J]. 計(jì)算機(jī)學(xué)報(bào),2001,24(3):231-235.

[8]胡小建. ABDIDSS環(huán)境下多agent之間協(xié)作與近似推理機(jī)制研究[D]. 合肥:合肥工業(yè)大學(xué) 2005.

[9]The University of Waikato,software handbook home[EB/OL].http://www.cs.waikato.ac.nz/ml/weka/.

主站蜘蛛池模板: 女人18毛片水真多国产| 22sihu国产精品视频影视资讯| 亚洲国产综合精品中文第一| 国产精品人成在线播放| 8090午夜无码专区| 免费毛片网站在线观看| 中文字幕av一区二区三区欲色| 四虎在线观看视频高清无码| 91免费精品国偷自产在线在线| 91国内在线观看| 中文天堂在线视频| 成人毛片免费在线观看| 国产免费羞羞视频| 国产成人无码久久久久毛片| 亚洲成aⅴ人在线观看| 国产性猛交XXXX免费看| 为你提供最新久久精品久久综合| 激情爆乳一区二区| 国产激爽大片在线播放| 亚洲第一黄色网| 国产网站一区二区三区| 国产丝袜第一页| 精品国产香蕉在线播出| 精品小视频在线观看| 日本在线国产| 色偷偷一区二区三区| 91人妻日韩人妻无码专区精品| 国产精品理论片| 香蕉视频国产精品人| 欧美视频在线不卡| 91精品国产一区| 一级毛片免费的| 久久综合久久鬼| 亚洲日本中文字幕乱码中文| 91欧洲国产日韩在线人成| 亚洲男人在线| 欧美不卡视频在线| 中文字幕va| 欧美日韩福利| 精品久久高清| 午夜国产精品视频| 欧美一区二区三区国产精品| 国产亚洲精品自在线| 国产精品天干天干在线观看| 免费毛片a| 国产综合网站| 国产色伊人| 日韩毛片在线播放| 麻豆国产原创视频在线播放| 亚洲精品无码久久久久苍井空| 欧美高清三区| 国产丰满大乳无码免费播放| 国产精品福利一区二区久久| 欧美精品二区| 亚洲国产精品日韩av专区| 网久久综合| 国产日本一区二区三区| 久久99精品久久久久久不卡| 波多野结衣一区二区三区四区视频| 99re免费视频| 蜜桃臀无码内射一区二区三区| 亚洲天堂区| 精品久久久久成人码免费动漫| 国内熟女少妇一线天| 国产欧美在线观看一区 | 青青久久91| 波多野结衣AV无码久久一区| 国产一区三区二区中文在线| 免费一级无码在线网站| 欧亚日韩Av| 国产成人在线小视频| 国产福利在线观看精品| 久久免费精品琪琪| 精品偷拍一区二区| 巨熟乳波霸若妻中文观看免费| AV天堂资源福利在线观看| 在线观看国产精美视频| 久久青青草原亚洲av无码| 精品久久久无码专区中文字幕| 日韩欧美国产三级| 97综合久久| 国产大片黄在线观看|