摘要:首先介紹了分塊重要度模型及網(wǎng)頁分塊方式,通過分析網(wǎng)頁結(jié)構(gòu)的頁面空間特征和內(nèi)容特征,提出了一種改進(jìn)的網(wǎng)頁分塊及分塊模型重要度計算和標(biāo)注的方法,并給出了基于此方案的終端顯示策略。該方案兼顧了頁面的總體預(yù)覽和塊的詳細(xì)顯示,較好地解決了移動終端上瀏覽信息和使用無線搜索等一系列服務(wù)問題。
關(guān)鍵詞:分塊; 分塊重要度; 空間特征; 相關(guān)度
中圖分類號:TP393文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2008)02-0584-03
0引言
互聯(lián)網(wǎng)和無線通信的發(fā)展已經(jīng)給人們的生活帶來了巨大影響,人們可以通過計算機(jī)與互聯(lián)網(wǎng)連接獲取信息。移動電話以無線通信方式方便地提供隨時隨地的交流與溝通。但互聯(lián)網(wǎng)發(fā)展到今天,人們已經(jīng)不再滿足于個人電腦的連線上網(wǎng),越來越多的人因?yàn)槁殬I(yè)和生活的需要,希望隨時隨地收發(fā)電子郵件#65380;查閱新聞#65380;股市行情#65380;訂購各種急需商品,即實(shí)現(xiàn)移動互聯(lián)。由于移動終端(主要包括PDA#65380;SmartPhone)的顯示屏幕過小,當(dāng)終端瀏覽信息時用戶不得不頻繁地移動滾動條以調(diào)整合適的窗口查看消息,這就給人們?yōu)g覽信息帶來了極大的不便。為此國內(nèi)外進(jìn)行各種努力在不損失信息量的情況下,充分利用移動終端的顯示特性來解決移動終端瀏覽信息的問題。
解決此問題的方法大體上可以分為三類:a)轉(zhuǎn)換已經(jīng)存在的網(wǎng)頁顯示布局,使得它們適合移動終端顯示。該方法是最直接的做法:將頁面上的內(nèi)容轉(zhuǎn)換成一列在移動終端上顯示,這樣消除了因?yàn)榻K端屏幕限制顯示而需要頻繁地水平滾動的煩惱[1,2]。b)通過引入新的網(wǎng)頁布局方式或機(jī)制使得網(wǎng)頁能夠在終端上更好地顯示。這類方法通過引入新方式或機(jī)制對網(wǎng)頁布局進(jìn)行調(diào)整并對網(wǎng)頁上的各個不同部分進(jìn)行解析以適合不同移動終端的顯示[3,4]。c)在保留整個網(wǎng)頁布局的基礎(chǔ)上,使用圖像預(yù)覽的方式顯示整個頁面,并采用了一組輔助工具來幫助用戶進(jìn)行瀏覽[5~8]。
盡管這些方法能很好地處理一些特定結(jié)構(gòu)的文檔顯示,但沒有從根本上給出一個比較通用的解決方案。它們都將網(wǎng)頁看成一個原子單元,并將這個單元中的每一部分同等處理,這其中也包括一些無用的信息(如廣告等);而且它們都沒有給出決定網(wǎng)頁上哪一部分更為重要的方法。由于移動終端顯示方面的缺陷,決定了必須把網(wǎng)頁中最重要的部分抽取出來并著重顯示,即必須對網(wǎng)頁的各個部分作不同的處理。
網(wǎng)頁中的信息由于所處的位置#65380;占據(jù)空間的大小或內(nèi)容不同而具有不同的權(quán)重或重要度。因此可以根據(jù)網(wǎng)頁的內(nèi)容來進(jìn)行分塊,并賦予各個分塊相應(yīng)的權(quán)值,使得用戶知道哪部分信息是最重要的。
1分塊重要度模型
分塊重要度模型(block importance model)是根據(jù)各分塊間的相關(guān)度(內(nèi)容相關(guān)度#65380;空間相關(guān)度),并利用各個塊的空間特性和內(nèi)容特性,采用一定的算法對各個分塊計算重要度值并賦予相應(yīng)的模塊。可以定義為根據(jù)網(wǎng)頁中各個部分的不同特征映射成網(wǎng)頁重要度的一種模型,如下所示:
<塊特征>→塊重要度
1.1網(wǎng)頁分塊
一個完整的網(wǎng)頁中所包含的信息并不都具有相同的重要度,一般將最重要的信息放置在網(wǎng)頁的中央部分,而將導(dǎo)航條放置在頂部或者右側(cè),版權(quán)等問題放在網(wǎng)頁的最底部。根據(jù)此種特性可以考慮將網(wǎng)頁分塊,比較網(wǎng)頁各個不同部分的重要度以作為分塊的尺度。
現(xiàn)階段存在幾種比較流行的對網(wǎng)頁進(jìn)行分塊的方法[7,10]:a)基于位置關(guān)系的分塊法。此方法利用頁面布局進(jìn)行分塊,一個網(wǎng)頁被分成上#65380;中#65380;下#65380;左#65380;右和中間部分。b)基于文檔對象模型(DOM)的分塊方法。此方法首先找到網(wǎng)頁的HTML文檔里的特定標(biāo)簽,然后利用這些標(biāo)簽將HTML文檔表示成一個DOM樹的結(jié)構(gòu),特定標(biāo)簽包括H1-H6(heading)#65380;TABLE(table)#65380;P(paragraph)和UL(list)等。c)基于視覺特性(VIPS)的網(wǎng)頁分塊法。
本文采用一種改進(jìn)的基于分塊重要度模型[11]的VIPS[12]法對網(wǎng)頁進(jìn)行分塊。采用此種方法對網(wǎng)頁進(jìn)行分塊,既要考慮網(wǎng)頁的空間特征,也要考慮網(wǎng)頁的內(nèi)容特征,使得各個分塊具有較好的語義相關(guān)性和一致性。
1.2分塊重要度模型
1)分塊重要度模型空間特征
分塊重要度模型空間特征可以分為以下三類:
a)絕對空間特征。一個網(wǎng)頁被分割成若干個矩形區(qū)域,每個區(qū)域可以用塊中心橫坐標(biāo)x#65380;塊中心縱坐標(biāo)y#65380;矩形塊寬度和矩形塊高度四個特征值來表示。
b)相對空間特征。使用網(wǎng)頁的高度和寬度來對絕對空間特征進(jìn)行規(guī)格化。每個矩形分塊可以用塊中心橫坐標(biāo)x/網(wǎng)頁寬度#65380;塊中心縱坐標(biāo)y/網(wǎng)頁高度#65380;矩形塊寬度/網(wǎng)頁寬度和矩形塊高度/網(wǎng)頁高度四個特征值來表示。
c)窗口空間特征。不再使用整篇網(wǎng)頁的高度而是使用一個固定窗口的高度來規(guī)范化。窗口空間特征表示為塊中心橫坐標(biāo)x/網(wǎng)頁寬度#65380;Y#65380;矩形塊寬度P/網(wǎng)頁寬度#65380;矩形塊高度/窗口高度。其中,
Y=塊中心縱坐標(biāo)y/(2×頁眉高度)當(dāng)y<頁眉高度時
0.5當(dāng)頁眉高度 1-(網(wǎng)頁高度-y)/(2×頁腳高度)其他 2)分塊重要度模型內(nèi)容特征 網(wǎng)頁分塊的內(nèi)容特征也與分塊的重要性相關(guān)。分塊的內(nèi)容特征可以概括為分塊中包含的圖片數(shù)量#65380;圖片大小#65380;超鏈接的數(shù)目#65380;超鏈接文本長度#65380;HTML 標(biāo)簽項的文本長度#65380;帶有#65380; 1.3分塊重要度標(biāo)注 本文利用分塊的空間特征和內(nèi)容特征,根據(jù)分塊重要度模型所述,給出分塊的四個級別,如表1所示。 2顯示策略 2.1策略描述 本文所討論的策略主要是解決網(wǎng)頁在終端顯示的問題,可以表示成如圖1所示的流程。 此流程可以作為搜索引擎的一個預(yù)處理模塊加載(圖2虛線框),它能在搜索引擎抓取網(wǎng)頁的同時處理頁面,然后通過用戶接口給移動用戶提供服務(wù)。 2.2頁面特征提取 本文采用基于視覺特征的網(wǎng)頁分塊法(VIPS)方式來提取頁面的特征。首先找到網(wǎng)頁HTML文檔里的H1-H6(hea-ding)#65380;TABLE(table)#65380;P(paragraph)和UL(list)等特定標(biāo)簽;然后根據(jù)這些特定標(biāo)簽去提取它們所在塊的空間特征和內(nèi)容特征(包括塊相對于網(wǎng)頁的位置#65380;塊大小#65380;頭部#65380;尾部等)。此方法充分利用了諸如字體#65380;顏色#65380;大小#65380;塊位置等版面特征。它根據(jù)一定的語義關(guān)聯(lián)規(guī)則,將整個網(wǎng)頁表示成一棵HTML DOM 樹,然后通過橫豎線條將節(jié)點(diǎn)所對應(yīng)的分塊在網(wǎng)頁中分隔開來,構(gòu)成網(wǎng)頁的標(biāo)準(zhǔn)分塊。 2.3頁面分塊 在對頁面特征提取的基礎(chǔ)上,根據(jù)這些提取的空間特征和內(nèi)容特征利用分塊重要度模型對整個頁面進(jìn)行分塊,如圖3所示。 整個頁面被切割成四個分塊,并由塊①#65380;②#65380;③#65380;④來表示相應(yīng)的分塊,以此表示各個分塊相對于網(wǎng)頁的重要度,且其中塊間的空間相關(guān)度為rel(Si,Sj)=∑iBj∈P,i≠j rel(P,Sj)×imp(Bj,P)。其中:Si#65380;Sj分別表示塊Bi#65380;Bj 的空間特征;rel(Si,Sj)表示塊 Bi#65380;Bj的空間特征相關(guān)度;imp(Bi,P)表示塊Bi相對于頁面P的重要度值。 2.4分塊重要度計算 當(dāng)把一個完整的網(wǎng)頁P(yáng)分為各個部分后,可以給每個塊計算相應(yīng)的重要度值,并賦予各個分塊。 基于塊的空間特性和內(nèi)容特性,可以使用特定的算法為每個分塊計算相應(yīng)的重要度值。本文選用基于支持向量機(jī)的徑向基函數(shù)來計算相應(yīng)塊的重要度值。使用基于支持向量機(jī)(SVM)[12]的徑向基函數(shù)(RBF)進(jìn)行分塊取得了F1值為79%和準(zhǔn)確率為85.9%的不錯成績,這表明使用此函數(shù)計算網(wǎng)頁各塊的重要度是可行的。本文各個分塊的重要度值為imp(Bi,P)=TopicCo(Bi,P)/∑|B|j=1TopicCo(Bj,P)。其中:Bi表示第i個分塊;TopicCo(Bi,P)表示塊Bi相對于頁面P的內(nèi)容相關(guān)度;imp(Bi,P)表示塊Bi相對于頁面 P的重要度值,可以表示為impi。 于是可以將頁面 P切割成一系列分塊Bi,利用SVM的RBF來計算各個分塊Bi的重要度值impi,并將這些impi賦予相應(yīng)的分塊Bi。這樣就能得到類似于鍵/值對應(yīng)的一個集合:P={(Bi,impi)}。 2.5分塊顯示測試結(jié)果 為了更好地顯示各個分塊的內(nèi)容,可以采用各種方法來實(shí)現(xiàn),本文中采用的是SmartView中的策略。由于分塊后每個塊所要求的空間也會比較大(超過一屏所能顯示的容量),可以給每個分塊一個預(yù)覽的形式。SmartView是縮略圖的一種改進(jìn)方式,它將各個分塊以縮略圖的形式展現(xiàn)給用戶。如圖4所示,在圖的左邊顯示的是根據(jù)分塊重要度模型所劃分的各個邏輯分塊的預(yù)覽,其中黑框部分的是最重要(第四級)的分塊;右邊顯示的是該區(qū)域的細(xì)節(jié)。當(dāng)用戶選擇好要瀏覽的塊后,相應(yīng)的塊將被抽取出來在瀏覽器中顯示,并且進(jìn)行重新構(gòu)建以適應(yīng)移動終端狹小的顯示屏。相應(yīng)塊的細(xì)節(jié)顯示可以用增強(qiáng)型縮略圖的策略來處理。 (a)(b) 3結(jié)束語 本文在深入研究的基礎(chǔ)上給出了一種如何解決移動終端顯示的方案。它充分考慮了頁面的空間特征和內(nèi)容特征,利用這些特性來構(gòu)造各個分塊的特征向量,并采用VIPS對網(wǎng)頁進(jìn)行分塊來解決顯示問題。但本文并沒有對應(yīng)用分塊重要度模型予以定量的討論,而且對于改變網(wǎng)頁布局重新生成新頁面的同時沒有給出空間特性和內(nèi)容特性的具體權(quán)衡值。筆者的下一步工作將會對這些問題給予著重討論,并提出進(jìn)一步的改進(jìn)顯示方案。 參考文獻(xiàn): [1]Opera[EB/OL].(2004-10). http://www.opera.com. [2]Pocket IE[EB/OL].(2005-05). http://www.microsoft.com/windowsmobile/. [3]BORNING A,LIN R K,MARRIOTT K. Constraint-based document layout for the Web[J]. ACM Multimedia Systems Journal ,2000,8(3):177-189. [4]Device independence activity[ EB/OL ].(2003-06).http://www.w3.org/2001/di. [5]BUYUKKOKTEN O,GARCIA-MOLINA H,PAEPCKE A, et al. Power browser: efficient Web browsing for PDAs[C]//Proc of SIGCHI Conference on Human Factors in Computing Systems. 2000:430-437. [6]CHEN Yu, XIE Xing,MA Wei-ying, et al. Adapting Web pages for small-screen devices[J]. IEEE Internet Computing, 2005,9(1):50-56. [7]CHEN Jin-Lin,ZHOU Bao-Yao,SHI Jin, et al. Function-based object model towards website adaptation[C]//Proc of the 10th International World Wide Web Conference. New York:ACM Press,2001: 587-596. [8]WOBBROCK J O,F(xiàn)ORLIZZI J,HUDSON S E, et al.WebThumb: Interaction techniques for small-screen browsers[C]//Proc of the 15th Annual ACM Symposium on User Interface Software and Technology. New York: ACM Press, 2002:205-208. [9]LIN S H , HO J M. Discovering informative content blocks from Web documents[C]//Proc of the 8th ACM SIGKDD International Confe-rence on Knowledge Discovery Data Mining.New York: ACM Press, 2002: 588-593. [10]SONG Rui-h(huán)ua, LIU Hai-feng,WEN Ji-rong, et al. Learning block importance models for Web pages[C]//Proc of the 13th International World Wide Web Conference. New York:ACM Press, 2004. [11]CAI Deng,YU Shi-peng,WEN Ji-rong,et al. VIPS: a vision-based page segmentation algorithm, MSR-TR-2003-70[R].[S.l.]:Microsoft Research, 2003. [12]MILIC-FRAYING N, SOMMERER R,RODDEN K, et al. SearchMobil: Web viewing and search for mobile devices[C]//Proc of the 12th International World Wide Web Conference.New York: ACM Press,2003. “本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”