何秀 丁豐
摘 要 上下文信息是指用戶在檢索過程中產生的一切與檢索活動相關的信息的總和,該類信息具有高可靠性、針對性、完整性等特征,有利于信息檢索模型準確理解用戶興趣偏好。文中闡述了上下文信息的產生、特征,以及捕獲方式,并針對不同的運用對上下文信息進行分類。
【關鍵詞】下文信息 上下文檢索 搜索引擎 信息檢索
用戶的搜索行為是處在一定地上下文環境下,目前的查詢系統因利用上下文信息,改善了原有搜索結果重復率高的現象,為用戶提供了更具人性化、個性化的高質量服務。
上下文信息對搜索引擎具有非常重要的價值,在對上下文信息研究中發現,不同的上下文信息對用戶檢索行為產生的影響不一樣,即在不同的環境下,某些上下文信息具有較高的使用價值,而某些上下文信息則可以忽略。因此,有必要分析各種上下文信息對用戶查詢行為的影響,有針對性地利用上下文信息資源。
1 上下文信息的分類
在不同的應用場景(context)下,對上下文信息的定義各具特點,Lawrence認為Web搜索上下文是指與用戶檢索意圖和表達相關的一切信息。Brown 將上下文定義為與用戶所處的環境、當前查詢時間、季節、溫度等相關的信息。Anind 定義:“上下文是指在特定的環境下,能夠標識實體特征的相關信息,其中相關信息可以包括某人、物、時間、地點、應用系統等,只要所涉及的實體與用戶的交互環境相關聯”。在信息檢索領域,現廣泛接受的是將上下文信息劃分為:用戶上下文、資源上下文、系統上下文等。
1.1 用戶上下文
分為用戶靜態上下文和用戶動態上下文,靜態上下文信息包括年齡、學歷、專業、工作性質、愛好、生活經驗和習慣等與用戶個體相聯系的其它特征;用戶動態上下文指檢索過程中產生的所有信息總和,例如:查詢詞、查詢發生時間、用戶的IP地址、當前查詢瀏覽所用時間、用戶的反饋檢查信息等信息;
1.2 資源上下文
Web頁面之間的超鏈接信息、頁面本身的結構信息等。
1.3 系統上下文
查詢系統本身的某些特征,例如:系統采用的搜引機制、檢查模型、排序機制、檢索界面的布局等。
2 上下文信息的獲取
在信息檢索中,從用戶參與的方式考慮,可將信息收集的方式分為顯式收集、隱式收集、推理獲取。
2.1 顯式收集
顯式收集(或稱顯式反饋)是指用戶根據系統設計的表單內容,自主提交個人基本信息或參與系統的交互信息,用戶靜態上下文的挖掘則可以采用此方式。
2.2 隱式收集
隱式收集(又稱隱式反饋)是指系統在不影響為用戶提供檢索服務的前提下,“悄無聲息”地收集用戶的檢索信息,用戶動態上下文及資源上下文則可采取該方法;該方法常用的技術有:Web信息抽取、基于模板的方法、桌面代理、利用瀏覽器插件等。
2.3 推理獲取
即借助數學中的統計學理論和數據挖掘的相關知識,進行歸納演繹和推斷用戶的某些信息。
3 上下文信息的研究應用
上下文信息的獲取、表示、組織所采用的方法直接影響著系統的搜索質量。如圖3-1所示,闡述了用戶檢索過程產生的上下文信息在信息檢索系統中的具體應用。
如圖3-1所示,對信息檢索中常見應用進行了歸類,用戶檢索中產生的上下文信息可幫助檢索系統理解用戶需求、用戶查詢、文檔信息以及檢查用戶查詢與文檔是否匹配。
4 結束與展望
上下文信息有利于提高搜索引擎質量,有著重要的使用價值。在利用上下文信息時,不僅需考慮其表示方式,由于各類上下文信息對用戶檢索行為產生的權重不同,還應綜合考慮其帶來的影響因子,從而構建合理高效地檢索模型。
參考文獻
[1]Lawrence s. Context in web search[J].IEEE Date Engineering Bulletin,2000, 23(3):5-32.
[2]Brown P J,Bovey J D,Chen X.Context-Aware Applications:From the laboratory to the marketplace[J].IEEE Personal Communications,1997, 4(5):58-64.
[3]Anind K D.Understanding and using Context [J].Personal and ubiquitous computing, 2001.
[4]田萱,李冬梅.上下文信息檢索研究綜述[J].計算機科學.2010,38(9):18-24.
[5]Jiang D X,Pei J,Li H.Enhancing Web Search by Mining Search and Browse Logs[C].New York:ACM Press,2011:1-185.
[6]何秀,牛之賢,孫靜宇.上下文對用戶搜索行為的影響[J].情報雜志.2012,10(31):122-125.
作者簡介
何秀(1988-),女,現為廣東科技學院計算機系碩士研究生在讀,主要研究方向為信息檢索。
丁豐(1988-),女,現為廣東科技學院計算機系碩士研究生在讀,主要研究方向軟件工程。
作者單位
廣東科技學院計算機系 廣東省東莞市 523083endprint
摘 要 上下文信息是指用戶在檢索過程中產生的一切與檢索活動相關的信息的總和,該類信息具有高可靠性、針對性、完整性等特征,有利于信息檢索模型準確理解用戶興趣偏好。文中闡述了上下文信息的產生、特征,以及捕獲方式,并針對不同的運用對上下文信息進行分類。
【關鍵詞】下文信息 上下文檢索 搜索引擎 信息檢索
用戶的搜索行為是處在一定地上下文環境下,目前的查詢系統因利用上下文信息,改善了原有搜索結果重復率高的現象,為用戶提供了更具人性化、個性化的高質量服務。
上下文信息對搜索引擎具有非常重要的價值,在對上下文信息研究中發現,不同的上下文信息對用戶檢索行為產生的影響不一樣,即在不同的環境下,某些上下文信息具有較高的使用價值,而某些上下文信息則可以忽略。因此,有必要分析各種上下文信息對用戶查詢行為的影響,有針對性地利用上下文信息資源。
1 上下文信息的分類
在不同的應用場景(context)下,對上下文信息的定義各具特點,Lawrence認為Web搜索上下文是指與用戶檢索意圖和表達相關的一切信息。Brown 將上下文定義為與用戶所處的環境、當前查詢時間、季節、溫度等相關的信息。Anind 定義:“上下文是指在特定的環境下,能夠標識實體特征的相關信息,其中相關信息可以包括某人、物、時間、地點、應用系統等,只要所涉及的實體與用戶的交互環境相關聯”。在信息檢索領域,現廣泛接受的是將上下文信息劃分為:用戶上下文、資源上下文、系統上下文等。
1.1 用戶上下文
分為用戶靜態上下文和用戶動態上下文,靜態上下文信息包括年齡、學歷、專業、工作性質、愛好、生活經驗和習慣等與用戶個體相聯系的其它特征;用戶動態上下文指檢索過程中產生的所有信息總和,例如:查詢詞、查詢發生時間、用戶的IP地址、當前查詢瀏覽所用時間、用戶的反饋檢查信息等信息;
1.2 資源上下文
Web頁面之間的超鏈接信息、頁面本身的結構信息等。
1.3 系統上下文
查詢系統本身的某些特征,例如:系統采用的搜引機制、檢查模型、排序機制、檢索界面的布局等。
2 上下文信息的獲取
在信息檢索中,從用戶參與的方式考慮,可將信息收集的方式分為顯式收集、隱式收集、推理獲取。
2.1 顯式收集
顯式收集(或稱顯式反饋)是指用戶根據系統設計的表單內容,自主提交個人基本信息或參與系統的交互信息,用戶靜態上下文的挖掘則可以采用此方式。
2.2 隱式收集
隱式收集(又稱隱式反饋)是指系統在不影響為用戶提供檢索服務的前提下,“悄無聲息”地收集用戶的檢索信息,用戶動態上下文及資源上下文則可采取該方法;該方法常用的技術有:Web信息抽取、基于模板的方法、桌面代理、利用瀏覽器插件等。
2.3 推理獲取
即借助數學中的統計學理論和數據挖掘的相關知識,進行歸納演繹和推斷用戶的某些信息。
3 上下文信息的研究應用
上下文信息的獲取、表示、組織所采用的方法直接影響著系統的搜索質量。如圖3-1所示,闡述了用戶檢索過程產生的上下文信息在信息檢索系統中的具體應用。
如圖3-1所示,對信息檢索中常見應用進行了歸類,用戶檢索中產生的上下文信息可幫助檢索系統理解用戶需求、用戶查詢、文檔信息以及檢查用戶查詢與文檔是否匹配。
4 結束與展望
上下文信息有利于提高搜索引擎質量,有著重要的使用價值。在利用上下文信息時,不僅需考慮其表示方式,由于各類上下文信息對用戶檢索行為產生的權重不同,還應綜合考慮其帶來的影響因子,從而構建合理高效地檢索模型。
參考文獻
[1]Lawrence s. Context in web search[J].IEEE Date Engineering Bulletin,2000, 23(3):5-32.
[2]Brown P J,Bovey J D,Chen X.Context-Aware Applications:From the laboratory to the marketplace[J].IEEE Personal Communications,1997, 4(5):58-64.
[3]Anind K D.Understanding and using Context [J].Personal and ubiquitous computing, 2001.
[4]田萱,李冬梅.上下文信息檢索研究綜述[J].計算機科學.2010,38(9):18-24.
[5]Jiang D X,Pei J,Li H.Enhancing Web Search by Mining Search and Browse Logs[C].New York:ACM Press,2011:1-185.
[6]何秀,牛之賢,孫靜宇.上下文對用戶搜索行為的影響[J].情報雜志.2012,10(31):122-125.
作者簡介
何秀(1988-),女,現為廣東科技學院計算機系碩士研究生在讀,主要研究方向為信息檢索。
丁豐(1988-),女,現為廣東科技學院計算機系碩士研究生在讀,主要研究方向軟件工程。
作者單位
廣東科技學院計算機系 廣東省東莞市 523083endprint
摘 要 上下文信息是指用戶在檢索過程中產生的一切與檢索活動相關的信息的總和,該類信息具有高可靠性、針對性、完整性等特征,有利于信息檢索模型準確理解用戶興趣偏好。文中闡述了上下文信息的產生、特征,以及捕獲方式,并針對不同的運用對上下文信息進行分類。
【關鍵詞】下文信息 上下文檢索 搜索引擎 信息檢索
用戶的搜索行為是處在一定地上下文環境下,目前的查詢系統因利用上下文信息,改善了原有搜索結果重復率高的現象,為用戶提供了更具人性化、個性化的高質量服務。
上下文信息對搜索引擎具有非常重要的價值,在對上下文信息研究中發現,不同的上下文信息對用戶檢索行為產生的影響不一樣,即在不同的環境下,某些上下文信息具有較高的使用價值,而某些上下文信息則可以忽略。因此,有必要分析各種上下文信息對用戶查詢行為的影響,有針對性地利用上下文信息資源。
1 上下文信息的分類
在不同的應用場景(context)下,對上下文信息的定義各具特點,Lawrence認為Web搜索上下文是指與用戶檢索意圖和表達相關的一切信息。Brown 將上下文定義為與用戶所處的環境、當前查詢時間、季節、溫度等相關的信息。Anind 定義:“上下文是指在特定的環境下,能夠標識實體特征的相關信息,其中相關信息可以包括某人、物、時間、地點、應用系統等,只要所涉及的實體與用戶的交互環境相關聯”。在信息檢索領域,現廣泛接受的是將上下文信息劃分為:用戶上下文、資源上下文、系統上下文等。
1.1 用戶上下文
分為用戶靜態上下文和用戶動態上下文,靜態上下文信息包括年齡、學歷、專業、工作性質、愛好、生活經驗和習慣等與用戶個體相聯系的其它特征;用戶動態上下文指檢索過程中產生的所有信息總和,例如:查詢詞、查詢發生時間、用戶的IP地址、當前查詢瀏覽所用時間、用戶的反饋檢查信息等信息;
1.2 資源上下文
Web頁面之間的超鏈接信息、頁面本身的結構信息等。
1.3 系統上下文
查詢系統本身的某些特征,例如:系統采用的搜引機制、檢查模型、排序機制、檢索界面的布局等。
2 上下文信息的獲取
在信息檢索中,從用戶參與的方式考慮,可將信息收集的方式分為顯式收集、隱式收集、推理獲取。
2.1 顯式收集
顯式收集(或稱顯式反饋)是指用戶根據系統設計的表單內容,自主提交個人基本信息或參與系統的交互信息,用戶靜態上下文的挖掘則可以采用此方式。
2.2 隱式收集
隱式收集(又稱隱式反饋)是指系統在不影響為用戶提供檢索服務的前提下,“悄無聲息”地收集用戶的檢索信息,用戶動態上下文及資源上下文則可采取該方法;該方法常用的技術有:Web信息抽取、基于模板的方法、桌面代理、利用瀏覽器插件等。
2.3 推理獲取
即借助數學中的統計學理論和數據挖掘的相關知識,進行歸納演繹和推斷用戶的某些信息。
3 上下文信息的研究應用
上下文信息的獲取、表示、組織所采用的方法直接影響著系統的搜索質量。如圖3-1所示,闡述了用戶檢索過程產生的上下文信息在信息檢索系統中的具體應用。
如圖3-1所示,對信息檢索中常見應用進行了歸類,用戶檢索中產生的上下文信息可幫助檢索系統理解用戶需求、用戶查詢、文檔信息以及檢查用戶查詢與文檔是否匹配。
4 結束與展望
上下文信息有利于提高搜索引擎質量,有著重要的使用價值。在利用上下文信息時,不僅需考慮其表示方式,由于各類上下文信息對用戶檢索行為產生的權重不同,還應綜合考慮其帶來的影響因子,從而構建合理高效地檢索模型。
參考文獻
[1]Lawrence s. Context in web search[J].IEEE Date Engineering Bulletin,2000, 23(3):5-32.
[2]Brown P J,Bovey J D,Chen X.Context-Aware Applications:From the laboratory to the marketplace[J].IEEE Personal Communications,1997, 4(5):58-64.
[3]Anind K D.Understanding and using Context [J].Personal and ubiquitous computing, 2001.
[4]田萱,李冬梅.上下文信息檢索研究綜述[J].計算機科學.2010,38(9):18-24.
[5]Jiang D X,Pei J,Li H.Enhancing Web Search by Mining Search and Browse Logs[C].New York:ACM Press,2011:1-185.
[6]何秀,牛之賢,孫靜宇.上下文對用戶搜索行為的影響[J].情報雜志.2012,10(31):122-125.
作者簡介
何秀(1988-),女,現為廣東科技學院計算機系碩士研究生在讀,主要研究方向為信息檢索。
丁豐(1988-),女,現為廣東科技學院計算機系碩士研究生在讀,主要研究方向軟件工程。
作者單位
廣東科技學院計算機系 廣東省東莞市 523083endprint