999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

元數據描述對搜索引擎排序結果影響研究

2010-01-01 00:00:00
現代情報 2010年5期

[摘 要]基于元數據描述在搜索引擎排序算法中權重及對排序結果的影響越來越小這一問題,本文首先分析了元數據標簽的存在價值及其對檢索結果優化本應起到的作用,并對如何優化元數據標簽,使其更好的揭示網頁內容與特定主題的相關度這一問題進行了討論。其次,在分析的基礎上,通過實證研究的方法,利用不同主題范圍的檢索詞在搜索引擎檢索的結果,對元數據在搜索引擎當中的實際使用和優化情況進行了統計調查和建模分析,借此,考察元數據描述對搜索引擎排序結果的實際影響和意義,并提出了未來元數據描述在網頁編寫及搜索結果排序中應注意的問題。

[關鍵詞]元數據標簽;搜索引擎;HTML;搜索結果;信息組織

[中圖分類號]G354 [文獻標識碼]A [文章編號]1008-0821(2010)05-0163-04

Study on the Effect of Metadata on Improving the Searching EfficiencyXing Bo

(Department of Information Management,Beking University,Beijing 100871,China)

[Abstract]The aim of this paper was to determine the effect of metadata on improving the searching efficiency.First,the worth of metadata was discussed,and then,the effect of metadata on how to improve the searching efficiency was studied by the empirical study.The searching result was used to investigate the real status of the usage of metadata in HTML.The Generalized Linear Model(GLM)was used to describe the relation between the metadata and searching result.The result showed that the effect of metadata on improving the searching efficiency still existed.It was necessary to pay attention to the importance of metadata in HTML.

[Keywords]metadata label;search engine;HTML;search result;information organization

現今,搜索引擎已成為用戶獲得網絡信息資源的最主要途徑。網頁資源在搜索引擎中的排名將直接影響到網頁資源的內容被用戶接收和利用的效率。而檢索結果的排序由網頁內容與特定檢索主題的相關度所決定。網頁資源的內容與特定檢索主題的相關度越高,在用戶搜索該檢索詞時,網頁資源在檢索結果中的排序也就越高。另一方面,資源描述是揭示信息資源,說明信息資源主題內容的重要手段。更為有效合理的資源描述,可以更為準確的揭示出信息資源與特定主題之間的相關程度。據此,元數據標簽作為網絡信息資源描述的重要手段,理應成為影響搜索結果排名的重要因素,在排序算法中具有較高權重。但隨著搜索引擎作弊行為的日益泛濫,使許多網頁中的元數據描述缺乏規范、甚至與實際主題毫不相關,影響了搜索結果的準確性。因此,搜索引擎降低了元數據描述在排序算法中的權重,元數據描述對結果排序的影響越來越小。針對這一問題,本文將通過分析元數據描述及優化方法,并對實際搜索結果進行調查分析,借此考察元數據標簽對搜索引擎排序結果的真實影響,并討論元數據標簽是否對于優化搜索結果排序仍具有實際意義。

1 元數據描述及其在檢索中的應用

11 HTML語言中的元數據描述

HTML(HyperText Mark-up Language)即超文本標記語言,由W3C(World Wide Web Consortium)負責控制和管理。現今,HTML語言是網絡上應用最為廣泛的語言,也是構成網頁文檔、進行網頁編程的主要語言基礎。HTML文檔一般由頭信息(Head)和主體(body)兩部分組成。HTML頭信息就是指HTML文件中被標識符所作用的區域。這部分為可選內容,主要包含一些說明性的內容和預定義。對于網頁編目來說,網頁的元數據描述標簽就主要集中在這一部分當中。其中,title、Meta-Description、Meta-keywords是頭信息區中對網頁資源內容進行描述所用到3種最主要的元數據標簽。合理使用這些標簽,可以使網絡信息資源得到更合理的揭示,從而在檢索結果中提高其相關度排名。

111 標簽

標簽也稱為標題標簽,標題標簽內容是對網頁主題的概括,相當于一篇文章的題目,一般顯示于瀏覽器的標題欄內。同時,標題標簽內的內容還將作為搜索引擎返回結果的錨文本顯示于結果列表中。其具體的使用方式如:

手機-中國最好的手機網站

112 元數據標簽Meta-Description和Meta-keywords

元數據標簽Meta項是HTML頭部的主要組成部分,主要用于表示一個文檔的頁面信息,例如說明字符編碼、鑒別作者、設定頁面格式、標注內容提要以及網頁關鍵字等等,還可以用來向服務器提供信息,例如截止日期和頁面刷新間隔等。而其中與資源的內容描述最為相關的標簽有2個:描述標簽和關鍵詞標簽。描述標簽,即Description標簽,其內容是對頁面內容的概括,相當于頁面的簡介。關鍵詞標簽即keywords標簽,是通過若干關鍵詞對頁面內容進行概括描述。其具體的使用方式如下:

12 元數據描述對搜索引擎排序結果的優化作用

大多數搜索引擎都是提取網頁標題中的全部或部分內容作為搜索結果中摘要信息的標題向用戶展示,其在搜索引擎排序算法中的權重也是最高的。此外,類似于Google等搜索引擎會參考描述標簽和關鍵詞標簽的內容作為檢索結果中摘要信息生成的主要依據。因此,盡管由于搜索引擎作弊行為,通過堆砌關鍵詞、過分濫用元數據標簽,使搜索引擎排序算法給予這部分的權重越來越低,但不可否認元數據內容的優化,對提高頁面相關性,吸引用戶的點擊還是具有較為重要的意義。

在元數據標簽的優化過程中,內容的描述應做到主題突出、內容簡潔。具體講包括標簽內容的長度控制、關鍵詞分布及關鍵詞詞頻等。

121 內容長度控制

為了提高頁面的用戶體驗,搜索引擎會根據實際情況從頁面和<description>標簽中取出全部或部分重要內容作為鏈接標題的錨文本和摘要信息向用戶展示,從而過長的文字內容將導致超出范圍的部分被省略。因此,標題和描述的內容的長度不應過長,或應將重要內容的位置提前。</description>

122 關鍵詞分布

相較于傳統檢索系統,搜索引擎更為注重信息的位置對內容相關度的影響。搜索引擎一般認為一段文字中越靠前的詞越重要越能反映文字的內容,關鍵詞賦予的權值也越高。因此,在文字的最前面出現頁面的主關鍵詞,可以有效突出頁面的主題,提高頁面相關性。如:

手機-中國最好的手機網站

123 關鍵詞詞頻密度

關鍵詞詞頻較高可以突出網頁內容中重要的信息,但是關鍵詞詞頻并非越高越好。相反,過高的關鍵詞詞頻可能是人為堆砌關鍵詞所致,影響用戶的理解,甚至會觸發搜索引擎的作弊懲罰。一般主關鍵詞詞頻不超過3次,輔助關鍵詞詞頻不超過1次。

2010年5月第30卷第5期元數據描述對搜索引擎排序結果影響研究May,2010Vol30 No52 調查的目的及方法

以下調查將對目前國內主要搜索引擎的檢索結果進行調查研究,對元數據描述在實際中的應用情況以及其與檢索結果相關度排序影響的真實情況進行分析。

根據網絡調查機構艾瑞咨詢集團(iResearch)的《2009年第三季度中國搜索引擎市場季度監測報告》最新數據顯示,2009年第三季度中國搜索引擎市場的兩大巨頭百度、Google市場占有率達到了969%,因此選擇這兩個搜索引擎作為主要的研究對象。并且選取了Google熱榜2009年度榜單中國內事件、國際事件、經濟事件、社會事件和熱點人物5個方面排名靠前的話題事件或人物各2個,共10個熱點檢索詞:2009日全食、甲型H1N1流感、家電下鄉、鄧玉嬌事件、小沈陽、新疆暴力事件、法航空難、創業板開市、躲貓貓事件、邁克爾#8226;杰克遜。在調查檢索詞的選擇方面,多選取的是事實型事件話題,以盡量避免具有過重商業色彩的搜索引擎優化手段對檢索結果的影響。

分別取每個檢索詞在兩大搜索引擎的檢索結果的前五頁檢索結果,剔除其中的死鏈及非HTML文檔,通過編程獲得各網頁結果的title、meta-description、meta-keywords標簽內的元數據信息。統計元數據標簽的使用率及使用效果,并分析其與實際檢索結果排序之間的相關度。調查中共采集網頁899個(不包含死鏈接及非HTML文檔)。

3 調查結果分析

31 元數據使用情況分析

從表1的統計可知,在調查中有6307%的網頁包含有Keywords標簽的內容,6407%的網頁包含有Description標簽的內容,全部網頁包含有title標簽的內容。可以看出,title標簽作為網頁的標題,是對網頁主題內容的概括,具有重要的意義,因此在網頁制作和設計中得到了重視和應用,但Keywords和Description兩個標簽的使用仍不夠普及。不過對比楊志于2008年的研究(Keywords:3980%,Description:3300%),這兩個元數據標簽的使用率已明顯提高。表1 元數據使用情況統計表

項 目Google百度KDTAKDTA2009日全食2427434325274343甲型H1H1流感2321494926264444家電下鄉2321454532294444鄧玉嬌事件2730464620264545小沈陽3432444429294444新疆暴力事件3735484833314747法航空難2729444431334747創業板開市3033454533304545躲貓貓事件2427434333324646邁克爾#8226;杰克遜3032454526264242合 計279287452452288289447447

值得注意的是,部分網站已經有意識地使用這些標簽,但由于網頁編寫上的不規范或者錯誤,導致機器無法將其識別為有效的元數據字段,使標簽的使用沒能起到應有的作用。因此,在今后網頁編寫的規范問題值得更加注意。

32 元數據描述對搜索引擎排序結果的影響分析

本次調查的有效網頁共899個,為10個話題在兩個搜索引擎結果中排名前五頁的結果,因此排名分布在1~54位,其中由于部分排位的網頁中存在死鏈接或非HTML文檔,因此,每個排位的網頁觀測數量不完全相等,此外,由于排名在47之后的網頁觀測數量較少,不計入分析。故最終用于模型建立和相關度分析的網頁觀測共851個,檢索結果排名分布于1~47位,每個位置的觀測一般為16~20個,均值為1811個。以下,本文將從元數據的使用與優化兩個方面分析其對搜索引擎排序結果的影響。

321 元數據標簽的使用對搜索結果排序的影響分析

本部分主要分析元數據標簽的使用對搜索結果排序的影響。由于被調查的所有網頁都包含有title標簽,因此在對元數據標簽的使用與搜索結果排序的相關度分析過程中,不考慮title標簽。將網頁是否具有Keywords和Description標簽作為模型建立的兩個自變量,取值為0或1(0為不包含該標簽,1為包含該標簽),將網頁的排名作為模型的因變量,建立數據集。并為數據集建立廣義線性模型,可計算是否包含Keywords或Description標簽對結果排序的影響。通過SAS編程,得到模型的回歸系數,如下表(注:這里舍去了β參數部分):表2 元數據使用情況數據集分析結果

參數估計值標準

誤差95%置信區間下限上限卡方

統計量p值VAR20291001783-005840640426601026VAR3-0435501799-07881-0082920701502

可見,兩個自變量其p值都大于005,說明兩自變量與因變量都不顯著相關,是否包含Keywords或Description標簽對結果排序的影響并不顯著。產生這樣的結果的原因,可能是由于搜索引擎作弊現象日益嚴重,搜索引擎的排序算法中,賦予Keywords和Description標簽的權重越來越小。在這種情況下,元數據描述很難發揮其應有的效力,導致了Keywords和Description標簽對結果排序的影響不顯著。

322 元數據標簽的優化對搜索結果排序的影響分析

本部分主要分析元數據標簽的優化對搜索結果排序的影響。由于在前一部分中已經得出Keywords和Description標簽的使用率不高,且其對結果排序的影響不顯著,因此,在考慮元數據標簽的優化對搜索結果排序的影響時,不再分析這兩類標簽。本部分的重點將分析title標簽的優化對搜索結果排序的影響。

在前文中已經介紹了標簽優化的三點注意事項,即:標簽內容長度控制、關鍵詞分布及關鍵詞密度。基于以上分析,將對title標簽優化的評估分為四方面的指標,即:title標簽中是否含有檢索詞;title標簽的內容長度是否能夠在搜索結果中完整顯示;title標簽中檢索詞是否位于內容頭部;title標簽中檢索詞的詞頻。具體各指標的評分等級如下:表3 指標說明1

有否檢索詞:title標簽中是否含有檢索詞指標得分含有檢索詞的完整詞形(包括在內容中不連續出現)1含有檢索詞的不完整詞形或近義詞05不含有任何與檢索詞相關的關鍵詞0

表4 指標說明2

標簽長度:title標簽的內容長度是否能夠在

搜索結果中完整顯示指標得分是1否0

表5 指標說明3

關鍵詞分布:title標簽中檢索詞是否位于內容頭部指標得分是1否0表6 指標說明4

關鍵詞詞頻:title標簽中檢索詞的詞頻(次)指標得分001052~31405>40

分別評估各網頁的指標得分,將各網頁在以上4個方面的表現作為模型的自變量,將搜索引擎的排序結果作為因變量,建立數據集。為數據集建立廣義線性模型,可計算標簽優化的4個方面對結果排序的影響。通過SAS編程,得到模型的回歸系數,如表7(注:這里舍去了β參數部分):表7 元數據使用情況數據集分析結果

參數估計值標準

誤差95%置信區間下限上限卡方

統計量p值VAR2-0475805728-159850646906904062VAR308892026300373814046114300007VAR405948017560250509390114700007VAR5-0627105496-170420450013002539

可見,自變量VAR2和VAR5的p值都大于005,說明這兩個自變量與因變量相關性不顯著,即title標簽中是否出現關鍵詞以及關鍵詞的詞頻對結果排序的影響并不顯著。但同時,自變量VAR3和VAR4的p值則均小于005,這兩個自變量與因變量具有較強的相關性,title標簽長度符合規范的網頁相對排名靠前(數值較小),title標簽中檢索詞居頭部位置的網頁相對排名靠前(數值較小)。

預測這樣的結果,同樣與搜索引擎作弊、關鍵詞堆砌現象嚴重,致使搜索引擎對title標簽中檢索詞的出現和詞頻重視程度降低,title標簽中檢索詞是否出現和詞頻是否較高,對搜索結果的排序影響不大。但另一方面,title標簽內容的長度和檢索詞出現位置卻與檢索結果顯著相關,說明對網頁資源的元數據描述進行優化將對檢索結果的排名具有積極影響,資源描述的規范化和最優化將有助于搜索引擎和最終用戶識別和利用網頁資源的內容。

4 結 語

本文通過對網頁資源HTML元數據使用和優化情況的調查,分析了元數據描述的使用現狀及其對搜索結果排序的影響。目前,Keywords、Description等元數據標簽的使用仍未達到普及。由于搜索引擎作弊現象嚴重,也使搜索引擎排序算法中賦予元數據描述的權重越來越低,元數據中,關鍵詞是否出現及其詞頻對排序結果的影響越來越小。但元數據的描述仍十分必要,規范化和優化網絡資源的元數據描述,將有助于網頁資源在檢索結果中提高排名,有助于搜索引擎和最終用戶識別和利用網頁資源的內容。介于此,網頁編寫者應在今后的工作中注意以下幾個方面的問題:

41 注意元數據標簽的使用

在網頁編寫過程中,進一步提高元數據標簽的使用率,使網頁資源得到更好的揭示,幫助搜索引擎和最終用戶識別和理解網頁資源的核心內容。提高網頁資源與特定需求的相關性。

42 提高網頁編寫的規范化水平

在網頁編寫過程中,注意HTML語言的特定格式和書寫規范,減少網頁內容中錯誤和亂碼,增加網頁內容的可讀性,幫助搜索引擎準確定位網頁內容的關鍵信息。

43 注意網頁資源元數據描述的優化

采取合理方法,優化網頁資源元數據描述,使網頁資源的核心內容更加突出,更具有可讀性和吸引力,從而使網頁資源與特定主題相關度更好,提高在搜索引擎結果中的排名。

44 嚴禁各種形式的搜索引擎作弊行為

嚴禁利用關鍵詞堆砌、大量使用不相關熱門關鍵詞等行為進行搜索引擎作弊,影響搜索結果的公正準確。元數據描述作為網頁資源揭示的重要手段,其意義和權重不應被忽視。網頁資源的描述和優化者應規范自身行為,凈化元數據描述,使排序結果能夠真實反映網頁資源與特定主題的相關度。從而使搜索引擎和用戶可以信賴元數據描述的內容,提高排序算法對元數據標簽的支持,使元數據描述發揮其應用的效力。

參考文獻

[1]吳澤欣.SEO教程:搜索引擎優化入門與進階[M].北京:人民郵電出版社,2008.12.

[2](美)維尼.登上Google之巔——SEO技巧與技術[M].北京:機械工業出版社,2009.1.

[3]楊志.元數據標簽Keywords在搜索引擎的應用現狀研究[J].現代情報,2007,(9):134-137.

[4]楊志.元數據在中文搜索引擎的應用研究[J].科技信息,2008,(9):55-56.

[5]許四洋,柳曉春.元數據標簽的使用情況調查(上)[J].圖書館雜志,2001,20(9):22-25.

[6]許四洋,柳曉春.元數據標簽的使用情況調查(下)[J].圖書館雜志,2001,20(10):29-30.

[7]林華.解析HTML頭信息[J].零陵學院學報,2004,(3):96-97.

[8]游,趙榮.我國元數據研究現狀與發展[J].圖書情報工作,2008,(Z1):202-205.

[9]粟慧.元數據、HTML和都柏林核心集——關于WEB網頁的編目[J].情報科學,2001,(12):1272-1279.

[10]趙悅.數字圖書館元數據應用研究[D].武漢:武漢大學,2005.

[11]馬艷霞.主流網絡信息資源描述工具的比較研究[J].現代情報,2005,(2):163-164.

主站蜘蛛池模板: 中文无码日韩精品| 国产亚洲欧美日本一二三本道| 国产天天射| 操国产美女| 久久免费精品琪琪| 午夜福利无码一区二区| 国产肉感大码AV无码| 午夜欧美理论2019理论| 91精品情国产情侣高潮对白蜜| 国产电话自拍伊人| 91久久青青草原精品国产| 亚洲大尺码专区影院| 亚洲自拍另类| 99热这里只有免费国产精品 | 国产成人精品无码一区二| 一级毛片基地| 亚洲视频在线观看免费视频| 亚洲精品第1页| 国产视频自拍一区| 亚洲综合片| 超碰精品无码一区二区| 亚洲va欧美va国产综合下载| 欧美成人午夜影院| 亚洲第一区欧美国产综合 | 91色老久久精品偷偷蜜臀| 亚洲国产一区在线观看| 欧美国产日本高清不卡| 日韩资源站| 国产精品香蕉| 亚洲国产成人无码AV在线影院L| 中文字幕调教一区二区视频| 国产在线视频欧美亚综合| 91无码视频在线观看| 国产精品美人久久久久久AV| 亚洲婷婷六月| 国产成人成人一区二区| 日本福利视频网站| 2018日日摸夜夜添狠狠躁| 国产99久久亚洲综合精品西瓜tv| 白浆免费视频国产精品视频| 亚洲国产黄色| 色婷婷在线影院| 久久久久国产精品嫩草影院| 欧美色视频日本| 免费a在线观看播放| 一级做a爰片久久免费| 欧美成在线视频| 精品少妇人妻无码久久| 久久96热在精品国产高清| 国产精品美女网站| 伊人网址在线| 强奷白丝美女在线观看| 欧美日本在线一区二区三区| 99国产在线视频| 亚洲精品无码抽插日韩| 亚洲一区二区三区麻豆| 国产成人精品一区二区免费看京| 精品一区二区无码av| 国产精品yjizz视频网一二区| 国产黄在线观看| 亚洲三级a| 国产高潮视频在线观看| 精品国产美女福到在线不卡f| 国产导航在线| 91精品aⅴ无码中文字字幕蜜桃| 国产经典免费播放视频| 精品伊人久久久久7777人| 国产午夜一级毛片| www.日韩三级| 久久黄色一级片| 波多野结衣AV无码久久一区| 欧美成人精品高清在线下载| 69av在线| 国产成人综合网| 亚洲成人黄色在线| 制服丝袜在线视频香蕉| 色婷婷在线影院| 欧美日一级片| 日韩欧美91| 重口调教一区二区视频| 精品少妇人妻一区二区| 精品色综合|