, , ,
隨著生活水平的不斷提高,人們對疾病的關注逐漸轉變?yōu)閷】档年P注。國內學者張馨遙認為,健康信息是指與健康有關的健康或疾病的知識、消息、數(shù)據(jù)、事實與資料[1]。
健康信息與公眾日常生活密切相關,公眾對其需求強烈,要求較高[2]。蘇格蘭鄧迪大學的學者Jeremy C Wyatt研究指出,用戶對健康信息合理有效的利用,有助于改善醫(yī)患關系,使醫(yī)生的決策與行動得到理解和支持[3]。
網(wǎng)絡時代,數(shù)據(jù)無處不在,越來越多的人開始利用網(wǎng)絡查詢與自身相關的醫(yī)學信息[4],而不必再通過新聞獲得過時的消息,不必再翻閱的厚重的紙質期刊來獲取相關信息[5]。但是面對海量網(wǎng)絡的信息資源,用戶如何才能夠快速、準確地獲取所需的健康信息又成為一個問題。
檢索工具是常用的信息檢索、獲取方式,通過采集、標引眾多的信息資源來提供全局性資源控制與檢索機制,方便用戶查找所需的信息。但是網(wǎng)絡資源檢索工具通常會給出大量的檢索結果,很難判斷其中有多少是與用戶所需主題相匹配的,因此人們越來越深刻地認識到對網(wǎng)絡資源進行準確描述與揭示的重要性。
目前的網(wǎng)絡資源絕大部分是HTML文檔,其中起到描述和揭示作用的是HTML文檔頭部的元數(shù)據(jù)標簽,通過這些標簽可以提高文件的易檢出性。一些研究調查了元數(shù)據(jù)標簽的使用情況及其在網(wǎng)頁資源描述中的重要性,建議更多的網(wǎng)絡資源檢索工具根據(jù)元數(shù)據(jù)標簽建立索引,提高資源的被檢出性。
一些英文搜索引擎(如Go,AltaVista和HotBot)聲明采用元數(shù)據(jù)標簽的網(wǎng)頁將優(yōu)先被抓取并被排在檢索結果的前面。調查數(shù)據(jù)證實,在這些搜索引擎中,使用元數(shù)據(jù)標簽的網(wǎng)頁確實優(yōu)先于未使用元數(shù)據(jù)標簽的網(wǎng)頁出現(xiàn)[6]。
本文選取Dublin Core中與檢索結果直接相關的題名(Title)、主題及關鍵詞(Subject and Keywords)和說明(Description)3項外部屬性描述項作為調查對象。其中Keywords和Description可提供關于網(wǎng)站內容的關鍵詞和描述片段,對檢索網(wǎng)絡資源比較關鍵,而且許多網(wǎng)絡資源檢索工具的抓取方式是直接從Title截詞。以上述3個標簽為調查對象,對4組健康信息網(wǎng)絡資源的描述進行調查,挖掘影響信息檢索質量的深層次原因,為提升網(wǎng)絡健康信息資源的描述質量提出建議,旨在改善用戶對健康信息的獲取效率及利用效果。
選取4組健康信息相關網(wǎng)站作為比較對象,通過查看其網(wǎng)頁的元數(shù)據(jù)標簽的使用狀況,對結果進行對比統(tǒng)計分析。
1.1.1 受試網(wǎng)站
根據(jù)2013年中國搜索引擎市場用戶訪問量份額數(shù)據(jù)[7]及百度數(shù)據(jù)中心2013年搜索引擎點擊量統(tǒng)計數(shù)據(jù)[8],選取以下網(wǎng)站作為研究對象:中文綜合性搜索引擎(百度、360好搜、搜狗)記為第1對照組(簡稱組1),英文綜合性搜索引擎(Google,Bing,Hotbot)記為第2對照組(簡稱組2),中文醫(yī)藥健康信息網(wǎng)站(39健康網(wǎng)、360良醫(yī)、好大夫在線)記為第3對照組(簡稱組3),英文醫(yī)藥健康信息網(wǎng)站(MedicineNet,Medscape,Medhunt記為第4對照組(簡稱組4)。
1.1.2 檢索詞
根據(jù)2013年生物醫(yī)藥行業(yè)的熱門關鍵詞數(shù)據(jù)[9],選取干細胞(stem cell)、H7N9、葛蘭素史克(GlaxoSmithKline)、轉基因(transgene)、霧霾(smog)作為檢索詞。
分別在4組12個網(wǎng)站主頁的檢索框中輸入檢索詞,在檢索結果頁面選取前10個有效網(wǎng)頁(不包括死鏈接、重復網(wǎng)頁、廣告推廣鏈接),共計中文網(wǎng)頁300個、英文網(wǎng)頁300個。
在瀏覽器選項菜單中選擇“工具”的“查看源代碼”,打開網(wǎng)頁源代碼,確定頭文件(HEAD)部分,查看Keywords、Description及Title標簽,根據(jù)檢索詞出現(xiàn)的情況賦予不同權重,沒有標簽或者標簽中沒有檢索詞記作0,標簽頁中出現(xiàn)部分檢索詞記作0,標簽頁中出現(xiàn)完整檢索詞記作1。
將4組調查對象的統(tǒng)計數(shù)據(jù)錄入Excel表格,應用SPSS 13.0進行整理和統(tǒng)計學分析,采用一般性統(tǒng)計描述和卡方(X2)檢驗,以P<0.05為差異有統(tǒng)計學意義。
組1的調查結果見表1。中文搜索引擎的Keywords標簽總分值82分,即描述完整的標簽82個,占54.67%;Title標簽的總分值139分,即描述完整的標簽139個,占92.67%;Description標簽的總分值95分,即描述完整的標簽95個,占63.33%。

表1 組1調查結果
組2的調查結果表2。英文搜索引擎的Keywords標簽的總分值64分,即描述完整的標簽僅64個,占42.67%;Title標簽的總分值125分,即描述完整的標簽125個,占83.33%;Description標簽的總分值67分,即描述完整的標簽67個,占44.67%。組1與組2元數(shù)據(jù)標簽使用情況對比見表3。

表2 組2調查結果

表3 組1和組2標簽使用情況對比
從表3可以看出,中英文搜索引擎的Title標簽使用情況均比較最好,中文搜索引擎的Keywords、Title、Description3個標簽的使用情況總體優(yōu)于英文搜索引擎,差異具有統(tǒng)計學意義。
組3的調查結果見表4。中文醫(yī)藥健康信息網(wǎng)站的Keywords標簽總分值84分,即描述完整的標簽84個,占56%;Title標簽的總分值134分,即描述完整的標簽134個,占89.33%;Description標簽總分值116分,即描述完整的標簽116個,占77.33%。

表4 組3調查結果
組4的調查結果表5。英文醫(yī)藥健康信息網(wǎng)站Keywords標簽的總分值11分,即描述完整的標簽僅11個,占7.33%;Title標簽的總分值67分,即描述完整的標簽67個,占44.67%;Description標簽的總分值68分,即描述完整的標簽68個,占45.33%。組3與組4元數(shù)據(jù)標簽使用情況對比見表6。

表5 組4調查結果

表6 組3和組4標簽使用情況對比
表6可以看出,中英文醫(yī)藥健康信息網(wǎng)站Title標簽和Description標簽使用情況均比較好,但英文醫(yī)藥健康信息網(wǎng)站使用Keyword標簽的比例僅11%??傮w上看,中文醫(yī)藥健康信息網(wǎng)站使用Keywords、Title、Description 3個標簽的情況優(yōu)于英文醫(yī)藥健康信息網(wǎng)站,差異具有統(tǒng)計學意義。
通過2.1及2.2部分的調查結果,中文網(wǎng)站組1和組3的標簽使用情況優(yōu)于英文網(wǎng)站組2和組4,Title標簽的使用狀況整體最優(yōu)。相關研究表明,很多國際著名的搜索引擎并沒有完全支持“Meta Description”、“Meta Keywords”、“Meta Tag Refresh”等重要的元數(shù)據(jù)標簽,一些中文搜索引擎如新浪、搜狐、網(wǎng)易等也不支持這些元數(shù)據(jù)標簽[10]。
調查發(fā)現(xiàn)部分網(wǎng)頁存在標簽不完整的現(xiàn)象,組4中該情況相對較多,部分網(wǎng)頁標簽內容為空值,部分網(wǎng)頁標簽缺失。
相關研究表明,在搜索引擎新一輪的算法更新中,淡化了Meta標簽的Keywords和Description兩部分在排名因素中的權重[11]。這可能是一些網(wǎng)頁忽略Meta標簽質量的一個重要原因。
組1與組3元數(shù)據(jù)標簽使用情況對比情況詳見表7。

表7 組1和組3標簽使用情況對比
組1和組3中3個標簽的使用狀況整體上較好。從圖4可看出,組1的Title、Keyword 標簽使用情況優(yōu)于組3,Description標簽的完整性組3優(yōu)于組1。從表7可看出,Title標簽和Description標簽的差異具有統(tǒng)計學意義,Keywords標簽的差異不具有統(tǒng)計學意義。
組2與組4元數(shù)據(jù)標簽使用情況對比見表8。

表8 組2和組4元數(shù)據(jù)標簽使用情況對比
通過表8可以看出,組2的Keyword標簽和Title標簽完整性明顯優(yōu)于組4。表7中這兩項統(tǒng)計分析結果P<0.05,差異具有統(tǒng)計學意義;Description標簽,P>0.05,差異無統(tǒng)計學意義。
從2.4及2.5部分的調查結果,組1和組3綜合類搜索引擎網(wǎng)站的標簽使用狀況整體上優(yōu)于醫(yī)藥健康信息資源網(wǎng)站組2和組4。這可能是由于醫(yī)藥概念所具有的獨特的多樣性所致,簡單地說,它的形式包括主題詞、副主題詞、類名、款目詞、自由詞等多種專業(yè)及非專業(yè)類型。也就是說可能是由于在檢索時使用的詞匯形式與Meta標簽中標引的形式不同,導致了醫(yī)藥健康信息資源網(wǎng)站的得分偏低。在對健康信息資源進行描述過程中,使用的概念形式不同必定會影響到信息資源被用戶獲取和利用的效果。
通過對中英文搜索引擎、醫(yī)藥健康信息資源網(wǎng)站使用標簽情況進行對比分析,下面針對發(fā)現(xiàn)的問題提出建議。
完善Meta標簽并不是為了提升網(wǎng)頁在檢索列表中的排名,從商業(yè)的角度來說,“排名并不代表一切,流量和轉換是首要目標”[12]。從用戶的檢索行為看,用戶是通過瀏覽檢索結果列表中每個頁面的描述信息來確定是否點擊進入繼續(xù)瀏覽。
絕大多數(shù)搜索引擎顯示150個左右字符的Meta描述標簽,向用戶傳遞該網(wǎng)站包含的信息。Meta標簽是評定網(wǎng)頁質量的一個重要的因素。加強Meta描述標簽的完善,檢索結果列表中的描述信息能夠準確全面地概括出網(wǎng)頁及網(wǎng)站的內容信息,使用戶可以更快更準確地獲取所需信息,這才是最重要的目的。
醫(yī)藥概念表達形式的多樣性,導致了醫(yī)藥信息資源組織的復雜性。一些知名的醫(yī)藥專業(yè)數(shù)據(jù)庫為提高查全率和查準率,使用受控詞表對數(shù)據(jù)庫資源進行組織和標引,可以避免詞的多樣性對檢索效率的影響。但對于數(shù)量龐大的網(wǎng)絡信息資源來說,這種標引幾乎是不可能的。
本文調查網(wǎng)站的用戶有很大一部分并非醫(yī)學專業(yè)人員,對健康詞匯熟悉程度有限[13]。因此,在使用元數(shù)據(jù)標簽對健康信息網(wǎng)絡資源進行描述的過程中,對于醫(yī)藥概念表達形式的選擇,應盡量從非專業(yè)背景的用戶角度出發(fā),選擇常用的自由詞形式,增加網(wǎng)頁文本的可讀性。如網(wǎng)頁的Title標簽內容為“抗壞血酸的副作用”,那么“Keywords”及“Description”應該使用“維生素C”、“VC”或“維他命C”等被用戶廣泛使用的自由詞形式來進行標引。
由于受網(wǎng)站選取、檢索詞選取等方面的影響,同時涉及賦值原則的設定及語種差異等方面的作用,文中對健康信息網(wǎng)絡資源描述的調查分析具有一定的局限性,在后續(xù)的研究中將進一步改進和完善。