999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DIRICHLET過程的DEEP WEB數據源聚類方法

2015-09-21 01:29:40何中市李英豪
網絡安全與數據管理 2015年7期
關鍵詞:特征提取分類特征

黃 進,何中市,李英豪

(重慶大學 計算機學院,重慶 400044)

0 引言

萬維網中不能被傳統搜索引擎通過靜態鏈接索引到的內容稱為Deep Web。要獲取這部分內容只能通過表單提交查詢的方式獲得[1-2]。Deep Web數據源的分類是指把所有發現的數據源按照領域進行劃分,是Deep Web數據源集成的關鍵步驟之一[3]。目前Deep Web數據源分類,多數研究采用的是有監督的分類方法。而一個標注好的數據集,需要大量的人工知識,并且隨著萬維網的快速發展,訓練集要考慮更新與擴展。這些對于自動化的數據集成都是很大的阻礙。在最新的Deep Web研究進展與綜述中[4],也明確指出結合機器學習,數據挖掘等領域的無監督的研究方法是今后的研究重點。

目前也有一部分研究人員關注聚類方法的研究。B.He[5]提出了MDhac方法,將表單屬性看做分類數據(categorical data),采用基于模型的聚類,用卡方檢驗來作為距離函數,進行聚類。L.Barbosa[6]等人提出了基于表單內容和表單頁面上下文的K-Means聚類方法。Zhao Pengpeng[7]等人提出基于圖模型的聚類方法,算出數據源兩兩間的權值并連接成有權圖,然后進行劃分聚類。Xu Guangyue[8]等人提出了先聚類后分類的方法。先用LDA模型進行主題劃分,用主題數代表聚類數目,將達到聚類精度的數據作為訓練集,訓練出分類模型,對前一步中聚類效果不好的數據進行后分類。

通過對國內外相關文獻的閱讀與研究,在了解目前的主要方法后發現,目前在Deep Web數據源特征提取和聚類數目的自動化確定方面還未有研究工作。正如前面提到的這些方法,都需要事先設定聚類個數或者特征個數。而在實際應用中聚類數目往往并不能事先知道,并會隨著數據的增多而不斷變化。

Dirichlet過程[9](Dirichlet Process)則是一種具有代表性的非參數貝葉斯模型,基于Dirichlet過程的方法可以自動地學習特征數目和聚類個數。結合Deep Web數據源分類問題自身的需求與Dirichlet過程的特點,提出了基于Dirichlet過程的Deep Web數據源聚類方法。

1 聚類策略及相關步驟

Deep Web數據源聚類分為表單特征抽取、特征提取、聚類和結果評估四個主要步驟,如圖1所示。

圖1 Deep Web數據源聚類步驟

1.1 表單特征抽取

從形式上來說,Deep Web查詢接口均以表單的形式出現在頁面中,因此利用表單的特征作為Deep Web分類的判斷依據是一種合理的解決方式。這也是目前多數研究人員采用的Pre-query[10]方式。觀察互聯網上的各種表單,一個查詢接口中包含了豐富的語義信息,其主要的表現形式為文本信息[11]。以下為一個圖書查詢接口表單信息。

從以上代碼可以看到,每個控件的name屬性包含了該接口所屬領域的絕大多數關鍵字,比如在圖書領域,“ISBN”、“Title”、“Author”等詞都能很好地表達其所屬的類別。對通用實驗數據集TEL-8進行統計分析后發現,在數據集中共472個查詢接口,含有name屬性的接口共463個,覆蓋率達到98.1%。每個類別的情況如表1所示。

表1 查詢接口統計

提取出name屬性的值作為查詢接口的表示文本,則可以將Deep Web數據源聚類問題轉化為文本聚類問題進行研究。這些抽取出來的文本中含有噪聲,對其進行去停用詞和詞干提取(波特詞干器Porter Stemmer),可以提高聚類的效率和效果。

1.2 特征提取

概率主題模型假設文檔由服從某種概率分布的主題組成,而每個主題則由服從某種概率分布的單詞組成。Deep Web數據源也符合這種假設。Deep Web數據源由一些潛在的主題構成,比如 “書籍”、“音樂”、“車輛”、“機票”等,這些潛在的主題又分別由主題內的詞構成。每個詞按照一定的概率屬于某個主題內,比如“輪胎”、“引擎”等詞就會以較高的概率屬于“車輛”這一主題。

將查詢接口進行特征抽取并處理為文本后,若直接應用向量空間模型將文本表示為向量,將造成特征向量高維稀疏的問題,影響聚類的效率與效果。考慮到以上對應關系,本文采用層次Dirichlet過程(HDP)進行特征提取。

與LDA模型一樣,HDP也屬于概率主題模型的范疇。不同的是LDA是參數貝葉斯模型,主題數目需要事先設定;而HDP屬于非參數貝葉斯模型,不需要事先設定主題數目。主題數目將作為參數之一由模型根據具體的數據學習得到。

HDP模型[12]如圖2所示。其中 H為基分布,γ和α0為集中度參數。首先,以基分布H和集中度參數γ構成Dirichlet過程,產生全局分布G0。這就使得各個文檔的主題可以共享。然后,再以G0為基分布,以α0為集中度參數,分別為文檔集中的每一個文檔構造Dirichlet過程。這個過程產生的Gj將作為θji的分布,然后從中抽取хji作為文檔中每個特征的類別。本文采用HDP模型可以將查詢接口抽取出來的文本表示為主題特征,為下一步的聚類做好準備。

整個生成過程如式(1)~式(4):

圖2 HDP模型

1.3 聚類模型

特征提取后,采用Dirichlet過程混合模型進行聚類。用 X={x1,x2,…,xn}表 示Deep Web數據源,N表示數據源中包含的樣本個數,xi={xi1,xi2,…,xin}表示第 i個數據源,xij表示第 i個數據源的第j個特征值。基于模型的聚類思想認為,X由K個模型混合而成,每個模型的混合系數由πk表示,即 πk表示每個模型占的比重,并滿足 πk≥0,k={1,2,…,K},且有限混合模型和無限混合模型的區別在于,K是否事先已知。有限混合模型的K需要事先指定并且固定不變,而無限混合模型則把K作為模型參數,根據數據學習得到。本文建立Dirichlet過程混合模型如式(5)所示:

2 實驗結果與分析

2.1 實驗設置

實驗中使用了Deep Web數據源分類的通用數據集TEL-8進行試驗。實驗數據集總共包含472個Deep Web數據源查詢接口,取其中含有name屬性的查詢接口,共463個。在進行表單特征抽取和數據預處理后,去除含有單詞數少于3個的簡單接口(共34個),最終得到 429個查詢接口,覆蓋了機票、汽車、書籍、租車、酒店、工作、電影和音樂共8個領域。

本文采用在文本聚類領域常用的F-measure和熵值兩種指標來評價本文聚類方法的效果。同時與同樣使用TEL-8數據集的其他三種聚類方法進行比較,分別是B.He提出的MDhac方法、ZhaoPengpeng等人提出的FGC方法以及Xu Guangyue等人提出的基于LDA的先聚類后分類的方法,為下文方便對比,將該方法簡稱XU。

2.2 結果及分析

2.2.1 特征提取

建立HDP模型進行特征提取,經過100次Gibbs采樣,估計出特征數,并將查詢接口中的name屬性詞表示為對應的特征,達到降維的目的。特征數目隨迭代次數變化的過程如圖3所示。從圖中可見,特征數目穩定在15左右,在迭代30次左右時達到穩定。經過特征提取后,特征值(接口中出現的不重復單詞數)由原本的847降到15。

圖3 特征數目隨迭代次數的變化

2.2.2 聚類結果比較

聚類結果得到9個Cluster,分別與8個領域的對應關系如表2所示。理想的聚類情況應該得到8個Cluster,但是由于本文聚類方法并沒有事先指定聚類數目,所以存在較小的誤差。認真觀察第九個Cluster可以發現,在其中的接口數很少,只占總接口數的2%,明顯少于前8個Cluster。考慮到本文方法的完全無監督的特性,認為該誤差在可以接受的范圍內。

表2 聚類結果

對上面的聚類結果應用F-measure和熵值(Entropy)兩種指標進行檢驗,并與其他使用相同數據集的方法進行比較,比較結果如表3、表4所示(注:由于 MDhac方法的原文中并沒有提供F-measure值,故表3中用“”表示,同理對 XU的 Entropy值也用“”表示)。

表3 F-measure評價結果

表4 熵值評價結果

實驗結果顯示,本文方法在F-measure上取得的聚類均值優于FGC和XU兩種方法,原因在于本文實驗結果在8個領域上的F-measure值較為平均,沒有小于0.8的情況。而在熵值這一評價指標上,FGC方法效果最佳。本文方法在電影、汽車和書籍三個領域上的熵值最優,但是由于在音樂和酒店兩個領域的熵值過大,而使得平均值不理想。結合表2分析可以看到,原本屬于酒店領域的接口比較容易被錯誤分到機票領域,而音樂和電影領域也存在類似情況。同時,分析第九個Cluster可以看到,這個導致誤差的小聚類中,主要是來自音樂和電影類的接口,其原因主要在于酒店和機票領域,以及電影和音樂領域本來就存在一定的相似性。考慮其接口屬性,以酒店領域和機票領域為例,它們基本上都會包含日期、地點、價格等關鍵詞,在提取主題特征時容易將其視為同一特征。

3 結束語

Deep Web數據源分類是大規模Deep Web數據源集成的關鍵問題之一。結合Deep Web數據源分類問題自身的需求與Dirichlet過程的特點,本文提出了一種基于Dirichlet過程的Deep Web數據源聚類方法。實驗表明,本文提出的方法可以有效實現Deep Web數據源聚類,并使整個聚類過程不需要人工干預,但是在聚類效果上,比如如何有效區分比較相似的領域,使得聚類結果更精確,還需要進一步探究。

[1]BERGMAN M K.The deep web:surfacing hidden value[J].The Journal of Electronic Publishing,2001,7(1):8912-8914.

[2]王成良,桑銀邦.Deep Web集成系統中同類主題數據源選擇方法[J].計算機應用研究,2011,28(9):3364-3367.

[3]EL-GAMIL B R,WINIWARTER W,BO?IC B,et al.Deep web integrated systems:current achievements and open issues[C].Proceedings of the 13th International Conference on Information Integration and Web-based Applications and Services.ACM,2011:447-450.

[4]NAYAK R,SENELLART P,SUCHANEK F M,et al.Discovering interesting information with advances in Web technology[J].ACM SIGKDD Explorations Newsletter,2013,14(2): 63-81.

[5]HE B,TAO T,CHANG K C C.Organizing structured web sources by query schemas:a clustering approach[C].Proceedings of the Thirteenth ACM International Conference on Information and Knowledge Management,ACM,2004:22-31.

[6]BARBOSA L,FREIRE J,SILVA A.Organizing hiddenweb databasesby clustering visible web documents[C].IEEE 23rd InternationalConference on Data Engineering.IEEE,2007: 326-335.

[7]Zhao Pengpeng,Huang Li,Fang Wei,et al.Organizing structured deep web byclusteringquery interfaceslink graph[M].Berlin: Springer,2008:683-690.

[8]Xu Guangyue,Zheng Weimin,Wu Haiping,et al.Combining topic models and string kernel for deep web categorization [C].Fuzzy Systems and Knowledge Discovery(FSKD),2010 Seventh International Conference on.IEEE,2010:2791-2795.

[9]ISHWARAN H,JAMES L F.Gibbs sampling methods for stick-breaking priors[J].Journal of the American Statistical Association,2001,96(453):161-173.

[10]MORAES M C,HEUSER C A,MOREIRA V P,et al.Prequery discovery of domain-specific query forms:a survey[J].Knowledge and Data Engineering,IEEE Transactions on,2013,25(8):1830-1848.

[11]祝官文,王念濱,王紅濱.基于主題和表單屬性的深層網絡數據源分類方法[J].電子學報,2013,41(2):260-266.

[12]TEH Y W,JORDAN M I,BEAL M J,et al.Hierarchical dirichlet processes[J].Journal of the American Statistical Association,2006,101(476):1566-1581.

猜你喜歡
特征提取分類特征
分類算一算
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 国产呦视频免费视频在线观看| 伊在人亚洲香蕉精品播放| 玩两个丰满老熟女久久网| 人妻精品全国免费视频| 欧美成人a∨视频免费观看| 亚洲国产无码有码| 午夜视频在线观看免费网站 | 欧美成人手机在线视频| 精品视频91| 99热免费在线| 99re在线视频观看| 老司机精品久久| 国产精品亚洲va在线观看 | 青青草国产免费国产| 国产亚洲精品资源在线26u| 激情乱人伦| 浮力影院国产第一页| 亚洲综合18p| 久久精品无码专区免费| 国产va欧美va在线观看| 日韩欧美中文在线| 亚洲国产午夜精华无码福利| 久久综合色天堂av| 国产一线在线| 国产精鲁鲁网在线视频| a亚洲天堂| 成人在线观看不卡| 91久久大香线蕉| 91麻豆久久久| 国产导航在线| 中文字幕首页系列人妻| 99久久国产综合精品2020| 视频二区中文无码| 成人在线不卡视频| 国产精品免费露脸视频| 欧美午夜网站| 亚洲天堂自拍| 91久久精品日日躁夜夜躁欧美| 欧美日韩导航| 五月天在线网站| 国产精品免费福利久久播放 | 成人亚洲天堂| 无码视频国产精品一区二区 | 国产成人精品18| 91在线一9|永久视频在线| 高潮毛片免费观看| 国产99免费视频| 中文字幕久久亚洲一区| 高清无码一本到东京热| 亚洲精品国偷自产在线91正片| 日韩中文字幕亚洲无线码| 日韩在线播放中文字幕| 成人午夜视频网站| 国产精鲁鲁网在线视频| 欧美中文字幕在线视频| 激情爆乳一区二区| 日本高清免费一本在线观看| 亚洲国产精品不卡在线| 91久久天天躁狠狠躁夜夜| 国产在线一区二区视频| 精品视频一区二区观看| 欧美在线精品怡红院| 国产精品香蕉在线观看不卡| 久久久精品无码一二三区| 国产一区三区二区中文在线| 国产欧美日韩资源在线观看| 久久国产高潮流白浆免费观看| 一级毛片免费的| a天堂视频在线| 久久五月视频| 精品91视频| 亚洲精品片911| 一区二区三区四区日韩| 精品超清无码视频在线观看| 国产精品无码久久久久久| 欧美国产另类| 国产一区在线视频观看| 鲁鲁鲁爽爽爽在线视频观看| 国产一级小视频| 国产免费福利网站| 久久中文无码精品| 国产aaaaa一级毛片|