999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微博短文本檢索關鍵技術

2015-01-29 14:12:35吳曉陽
中國科技信息 2015年21期
關鍵詞:排序信息模型

吳曉陽

微博短文本檢索關鍵技術

吳曉陽

微博作為當前使用非常廣泛的社交軟件已然成為了人們獲取實時信息的重要途徑之一,然而微博短文的自身特點使得其檢索的難度相應增加,通過相應的模型建立才能更好的將當前所面臨的一系列檢索困難一一解決,最終幫助人們搜索到相應的內容,從而更好的獲取相關信息。

微博是一種通過關注機制分享簡短實時信息的廣播式的社交網絡平臺,用戶可以通過WEB、WAP等各種客戶端在微博網站建立個人社區,以不超過140個字符的短文本消息來進行實時信息的基本分享。近幾年使用手機、平板電腦等移動客戶端上網的用戶迅速增長,微博因其使用便捷、語言精煉并且信息量充足的特點而逐漸備受追捧,成為一種影響力巨大的新媒體形式,人們通過微博分享的信息作為當前一項非常重要的實時信息來源。但同樣由于微博的消息限定為140個字,屬于典型的短文本內容,具有數量龐大、書寫較隨意、主題相對雜亂并且實時性強等特點,使傳統信息檢索技術在面對海量微博的檢索任務中遇到許多難題,如何解決這些問題成為了當前微博短文檢索技術的關鍵所在。

實時性語言模型和融入時間信息的查詢建模

實時性語言模型

語言模型作為檢索的最基本模型框架是非常重要的技術點,而實時性語言模型的建立能有效的幫助更加全面搜索到相應的微博文本信息。因為時間是提高檢索質量的重要因素之一,有效的利用時間條件就能很好的提升檢索的準確性,而實時性語言模型就是利用了這樣的一個技術原理。

微博因為文本短小所以在一定程度上需要通過時間這樣一個元素進行區分,而在當前大部分的搜索引擎當中,一般都是基于網頁中的關鍵詞頻率、鏈接、用戶評價計算權重來對該網頁文本進行加權,使得不同的網頁在檢索結果中具有不同的先驗概率。這樣一來以微博文本的時間特性作為重要的查詢條件輸入到相應檢索公式中就能使得檢索出來的信息更具有準確性和針對性,從而也就更有可能滿足搜索人的相應需求。

融入時間信息的查詢建模

之前已經描述出了時間信息在微博文本檢索中的重要性,這也是基于微博這樣一種特殊的信息發布而形成的,所以良好的融入時間信息的查詢建模往往就能更為行之有效的達到相應的檢索需求。而最終搜索到的相應微博文本信息也就能縮小其廣度而增強其精度。

比方說通過利用微博文本的平均“年齡”來融入查詢檢索中,而文本年齡即與其提交的時間相關。將文本年齡作為計算因子加入到檢索排序公式之中,檢索后得到一個初始微博文本的列表,這樣就能更加精確的查詢出相應的微博文本而極大的減輕了短小隨意而且實時性強等條件的干擾。

基于參考文檔模型的微博文本檢索

參考文檔模型建立的作用

微博因為字數限定所以大都為短文本,而這類文檔的檢索進行時極易發生詞典問題,這就會直接導致搜索信息的不夠準確使得搜索的難度增大,搜索者即便通過關鍵詞進行查詢仍舊要花費一定的時間再從檢索內容中進行區分,最終才能找到自己所需要的相應微博內容。這就極大的提升了搜索功能的使用難度并且帶來較壞的體驗感。

反饋技術作為檢索體現的根本技術,基于早期仍存在著一定的問題,僅對查詢而不對文檔進行反饋使得檢索結果寬泛而更具模糊性。同時利用的反饋源如果僅局限在待檢索的文檔集合本身,則會造成反饋中能夠使用的信息資源有限,這都會極大程度的影響到檢索結果達不到預期要求。而在參考文檔模型框架下對查詢和文檔同時進行反饋建模,就能很好的解決相應技術問題。

參考文檔模型建立的技術關鍵

參考文檔建模的主要方法是利用參考文檔,對查詢和待檢索文檔集合同時進行反饋建模,所以在建模過程中,參考文檔本身具有非常重要的作用。在以前的一些檢索技術中一般會以檢索相同或者相近領域的文檔來作為最終的參考文檔,但是鑒于微博文本短小的特點,這樣傳統的檢索方式往往就會使得檢索信息結果難以達到預期效果。

同時,傳統技術的相應特點往往容易形成偽反饋從而降低檢索反饋的精度,良好的將參考文檔進行精確的選擇建立同時在偽反饋的基礎上優化相關性,這樣就能更好的通過實時反饋進行信息的檢索從而提升精確程度,最終讓檢索的內容更加具有針對性。

基于排序學習模型的微博文本檢索

在微博文本檢索中使用排序學習模型的重要性

傳統的檢索技術中,使用排序得到的結果往往比較簡單和粗糙,比如向量空間模型和語言模型等,但是基于文本的特性使得檢索仍舊能夠達到一定的精度,最終也不會產生太多檢索差異。但是對于微博文本的特點尤其是在近些年微博的使用越來越廣泛,形成的微博文檔的數量也變得越來越多,排序的簡單粗糙性就在一定程度上影響到了傳統檢索模型的搜索精度。

當人們逐漸意識到了排序模型的重要性,開始采用排序學習方法,一項基于機器學習的新的學習方法。使用機器學習技術同時讓有標注的數據自動學習一個排序模型,這樣就能讓檢索更加智能且具有時效性,最終幫助搜索結果更能符合檢索者的預期。

排序學習模型中特征抽取的相關問題

在建立排序學習模型的過程中,最關鍵的問題就是特征選擇,如何進行特征選擇往往直接決定了檢索結果。而相應的特征類別主要分為微博的相關性、微博用戶特征以及微博文本特征這三類,因此良好的將這三類特征嚴格區分并將相應的數據結合進入檢索公式當中就能有效的完善排序學習模型的建立,提升檢索的精準度。

所謂特征抽取一定不能僅僅關注三類特征中的一種,之前所提到了微博文本具有簡短而數量巨大的特征,所以只有良好的將三類特征進行嚴格的區分規劃,最終結合起來檢索,這樣才能保證提升微博檢索的有效率。使用單個特征雖然能在一定程度上減少資源的消耗但極有可能帶來的就是最終的檢索結果往往并不能盡如人意。

結束語

微博作為當前人們使用非常廣泛的社交軟件已經成為了解實時信息的重要來源之一。但是文本簡單、實時性強等特點反而增加了微博短文的檢索難度,通過相應的技術進行良好有效的解決才能將這些問題逐一解決并最終更加完善的將相應的微博信息搜索得出。通過增強和解決相應的技術問題才能從根本上解決微博文本檢索困難、信息不夠準確、達不到相應檢索者需求的一系列問題。

10.3969/j.issn.1001-8972.2015.21.025

猜你喜歡
排序信息模型
一半模型
排序不等式
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
恐怖排序
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 99这里只有精品免费视频| 日韩少妇激情一区二区| 怡红院美国分院一区二区| 第一页亚洲| 免费久久一级欧美特大黄| 亚洲系列中文字幕一区二区| 在线一级毛片| 欧美国产日韩一区二区三区精品影视| 亚洲婷婷丁香| 人妻无码一区二区视频| 色婷婷久久| 国产成人无码综合亚洲日韩不卡| 最新加勒比隔壁人妻| 国产精品欧美在线观看| 国产综合另类小说色区色噜噜| 亚洲va在线观看| 国产不卡在线看| 福利视频一区| 久久久久九九精品影院| 久久精品人妻中文系列| 国产va欧美va在线观看| 国产精品免费p区| 国产成人综合欧美精品久久| 三上悠亚在线精品二区| 啪啪永久免费av| 欧美高清三区| 免费人成网站在线观看欧美| 久久综合AV免费观看| 欧美视频二区| 国产成人免费观看在线视频| 日本一区二区三区精品AⅤ| 亚洲高清国产拍精品26u| 国产丰满成熟女性性满足视频| 亚洲国产无码有码| 国产精品污污在线观看网站| 午夜不卡视频| 99草精品视频| 在线欧美日韩国产| 91高清在线视频| 久久一本精品久久久ー99| 精品无码国产一区二区三区AV| 国产亚洲视频中文字幕视频 | 真人高潮娇喘嗯啊在线观看| 最新加勒比隔壁人妻| 五月激激激综合网色播免费| 日韩性网站| 成年人国产网站| 成人福利在线观看| 久久综合干| 四虎永久在线精品国产免费| 国产经典在线观看一区| 中国一级特黄大片在线观看| 欧美h在线观看| 谁有在线观看日韩亚洲最新视频| 日本高清有码人妻| 久久成人免费| 99r在线精品视频在线播放| 国产资源免费观看| 全部毛片免费看| 成人精品视频一区二区在线| 欧美午夜一区| 欧美日韩一区二区在线播放 | 国产午夜一级淫片| 国产精品专区第1页| 国产精品成人观看视频国产| 亚洲天堂视频网站| 一本色道久久88| 欧美α片免费观看| 色悠久久综合| 精品偷拍一区二区| 人妻无码中文字幕一区二区三区| 精品国产女同疯狂摩擦2| 欧美成人影院亚洲综合图| 欧美一级爱操视频| 人妻出轨无码中文一区二区| 国产成熟女人性满足视频| 国产成人精品在线1区| 97av视频在线观看| 在线视频亚洲欧美| 欧美色视频网站| 国产激爽大片在线播放| 国产麻豆aⅴ精品无码|