吳曉陽
微博短文本檢索關鍵技術
吳曉陽
微博作為當前使用非常廣泛的社交軟件已然成為了人們獲取實時信息的重要途徑之一,然而微博短文的自身特點使得其檢索的難度相應增加,通過相應的模型建立才能更好的將當前所面臨的一系列檢索困難一一解決,最終幫助人們搜索到相應的內容,從而更好的獲取相關信息。
微博是一種通過關注機制分享簡短實時信息的廣播式的社交網絡平臺,用戶可以通過WEB、WAP等各種客戶端在微博網站建立個人社區,以不超過140個字符的短文本消息來進行實時信息的基本分享。近幾年使用手機、平板電腦等移動客戶端上網的用戶迅速增長,微博因其使用便捷、語言精煉并且信息量充足的特點而逐漸備受追捧,成為一種影響力巨大的新媒體形式,人們通過微博分享的信息作為當前一項非常重要的實時信息來源。但同樣由于微博的消息限定為140個字,屬于典型的短文本內容,具有數量龐大、書寫較隨意、主題相對雜亂并且實時性強等特點,使傳統信息檢索技術在面對海量微博的檢索任務中遇到許多難題,如何解決這些問題成為了當前微博短文檢索技術的關鍵所在。
實時性語言模型
語言模型作為檢索的最基本模型框架是非常重要的技術點,而實時性語言模型的建立能有效的幫助更加全面搜索到相應的微博文本信息。因為時間是提高檢索質量的重要因素之一,有效的利用時間條件就能很好的提升檢索的準確性,而實時性語言模型就是利用了這樣的一個技術原理。
微博因為文本短小所以在一定程度上需要通過時間這樣一個元素進行區分,而在當前大部分的搜索引擎當中,一般都是基于網頁中的關鍵詞頻率、鏈接、用戶評價計算權重來對該網頁文本進行加權,使得不同的網頁在檢索結果中具有不同的先驗概率。這樣一來以微博文本的時間特性作為重要的查詢條件輸入到相應檢索公式中就能使得檢索出來的信息更具有準確性和針對性,從而也就更有可能滿足搜索人的相應需求。
融入時間信息的查詢建模
之前已經描述出了時間信息在微博文本檢索中的重要性,這也是基于微博這樣一種特殊的信息發布而形成的,所以良好的融入時間信息的查詢建模往往就能更為行之有效的達到相應的檢索需求。而最終搜索到的相應微博文本信息也就能縮小其廣度而增強其精度。
比方說通過利用微博文本的平均“年齡”來融入查詢檢索中,而文本年齡即與其提交的時間相關。將文本年齡作為計算因子加入到檢索排序公式之中,檢索后得到一個初始微博文本的列表,這樣就能更加精確的查詢出相應的微博文本而極大的減輕了短小隨意而且實時性強等條件的干擾。
參考文檔模型建立的作用
微博因為字數限定所以大都為短文本,而這類文檔的檢索進行時極易發生詞典問題,這就會直接導致搜索信息的不夠準確使得搜索的難度增大,搜索者即便通過關鍵詞進行查詢仍舊要花費一定的時間再從檢索內容中進行區分,最終才能找到自己所需要的相應微博內容。這就極大的提升了搜索功能的使用難度并且帶來較壞的體驗感。
反饋技術作為檢索體現的根本技術,基于早期仍存在著一定的問題,僅對查詢而不對文檔進行反饋使得檢索結果寬泛而更具模糊性。同時利用的反饋源如果僅局限在待檢索的文檔集合本身,則會造成反饋中能夠使用的信息資源有限,這都會極大程度的影響到檢索結果達不到預期要求。而在參考文檔模型框架下對查詢和文檔同時進行反饋建模,就能很好的解決相應技術問題。
參考文檔模型建立的技術關鍵
參考文檔建模的主要方法是利用參考文檔,對查詢和待檢索文檔集合同時進行反饋建模,所以在建模過程中,參考文檔本身具有非常重要的作用。在以前的一些檢索技術中一般會以檢索相同或者相近領域的文檔來作為最終的參考文檔,但是鑒于微博文本短小的特點,這樣傳統的檢索方式往往就會使得檢索信息結果難以達到預期效果。
同時,傳統技術的相應特點往往容易形成偽反饋從而降低檢索反饋的精度,良好的將參考文檔進行精確的選擇建立同時在偽反饋的基礎上優化相關性,這樣就能更好的通過實時反饋進行信息的檢索從而提升精確程度,最終讓檢索的內容更加具有針對性。
在微博文本檢索中使用排序學習模型的重要性
傳統的檢索技術中,使用排序得到的結果往往比較簡單和粗糙,比如向量空間模型和語言模型等,但是基于文本的特性使得檢索仍舊能夠達到一定的精度,最終也不會產生太多檢索差異。但是對于微博文本的特點尤其是在近些年微博的使用越來越廣泛,形成的微博文檔的數量也變得越來越多,排序的簡單粗糙性就在一定程度上影響到了傳統檢索模型的搜索精度。
當人們逐漸意識到了排序模型的重要性,開始采用排序學習方法,一項基于機器學習的新的學習方法。使用機器學習技術同時讓有標注的數據自動學習一個排序模型,這樣就能讓檢索更加智能且具有時效性,最終幫助搜索結果更能符合檢索者的預期。
排序學習模型中特征抽取的相關問題
在建立排序學習模型的過程中,最關鍵的問題就是特征選擇,如何進行特征選擇往往直接決定了檢索結果。而相應的特征類別主要分為微博的相關性、微博用戶特征以及微博文本特征這三類,因此良好的將這三類特征嚴格區分并將相應的數據結合進入檢索公式當中就能有效的完善排序學習模型的建立,提升檢索的精準度。
所謂特征抽取一定不能僅僅關注三類特征中的一種,之前所提到了微博文本具有簡短而數量巨大的特征,所以只有良好的將三類特征進行嚴格的區分規劃,最終結合起來檢索,這樣才能保證提升微博檢索的有效率。使用單個特征雖然能在一定程度上減少資源的消耗但極有可能帶來的就是最終的檢索結果往往并不能盡如人意。
微博作為當前人們使用非常廣泛的社交軟件已經成為了解實時信息的重要來源之一。但是文本簡單、實時性強等特點反而增加了微博短文的檢索難度,通過相應的技術進行良好有效的解決才能將這些問題逐一解決并最終更加完善的將相應的微博信息搜索得出。通過增強和解決相應的技術問題才能從根本上解決微博文本檢索困難、信息不夠準確、達不到相應檢索者需求的一系列問題。
10.3969/j.issn.1001-8972.2015.21.025