999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于語言模型的微博檢索技術

2015-01-29 02:57:14王菁菁
電子設計工程 2015年9期
關鍵詞:模型

潘 超,王菁菁

(廈門大學 信息科學與技術學院,福建 廈門 361005)

伴隨著社交網絡應用的出現和發展,微博以其平臺開放、內容簡潔和操作方便等特性,迅速發展成為近年來一個重要的社會媒體。通過微博這個平臺,人們可以獲得真實事件的第一手報道、分享信息并且表達自己獨特的觀點,參與話題討論等。迅速地,微博聚集了數以萬計的用戶,并成為寶貴的資源并吸引了大量的科學研究,包括微博檢索[1]、熱點話題識別[2]和摘要生成技術[3]。

然而,與傳統的文本不同,微博文本有其獨特的特性:首先,微博文本內容限制140個字符,因此,微博文本比較簡短并出現了縮略語和新詞等;其次,微博文本可以包含特殊的標簽,例如標簽“@”,標簽后面加上用戶名可以讓對方收到提醒,對方通過鏈接,可以查看你的微博,再如標簽“#”表示特定的討論話題;如果有限的字符無法完整地表達觀點,用戶可以嵌入外部鏈接、視頻或圖片等。

M.Efron[4]提出利用微博文本中的標簽來擴展檢索,M.Efron和 G.Golovchinsky[5]第一次提出了利用微博的時效性,目的是為了使近期發表的微博擁有更高的相關性,X.Li[6]基于時間的模型中,賦予每條微博先驗概率,代表每條微博的“新鮮度”。R.Jones[7]在整個生命周期內為每個查詢構造時間分布。然而,這些工作都沒有系統地將微博的特性融合到模型中。

因此,本文基于語言模型并融合微博文本的特性,提出一種動態偽相關反饋模型(DPRF)。在給定查詢事件的情況下檢索相關微博,通過假設偽相關反饋的先驗概率是依賴于一個給定的查詢事件的發生周期和暴發周期,DPRF在每一個事件暴發周期內挑選出代表性的關鍵詞來擴展原始的查詢,從而能有效的代表原始查詢,提高檢索的準確率。實驗結果表明,該方法能提高和改善微博檢索的性能。

1 檢索模型

1.1 語言模型

現代信息檢索中,語言模型方法在整個語料C的所有詞匯W上對每條微博d估計其概率分布θd,對每個查詢Q建模θQ,根據每條微博與查詢的似然值計算相關性得分,進而對結果排序。傳統的方法是計算從查詢生成文檔的概率,本文利用通過計算查詢與文檔之間的KL散度進行排序,如公式(1):

其中,P(w|θQ)=,tf表示詞頻,在查詢擴展方法中,我們計算 P(w|θQ′)。

然而,原始的查詢通常長度較短且所表達的意思模糊,并不能完全覆蓋潛在的信息需求。為了增強查詢的表達能力,我們利用查詢擴展技術生成新的高質量查詢Q′,來替代原來的查詢Q。在偽相關反饋方式中,假設通過原始查詢Q得到的前N個微博文檔d+其分布記作θF,我們簡單地使用線性的方式將原始查詢與θF相結合,如公式(2):

其中,參數α來控制新舊查詢之間的相關度。

接下來,闡述θF的推導。對于θF,相關性模型近似地把每個偽相關文檔看成查詢模型的一個抽樣。因此,相關性模型方法將θF上詞的分布定義為偽相關方式生成的詞的似然,如公式(3):

其中,P(Q|d+)=∏q∈QP(q|d+)

1.2 動態偽相關反饋

在傳統的偽相關反饋技術中,先驗概率P(d+)通常為均勻分布。然而,這樣的假設在即時傳播媒如微博,并不能夠成立。例如“藥家鑫事件”,從事件曝光、藥家鑫依法被捕,案件開審,一審判決,二審判決、執行死刑、最后引發社會評論,整個事件可以看成許多不同的階段,各個階段對應事件的不同進展和微博平臺上討論的爆發時段。我們首先假設前N個相關微博文檔d+的先驗概率僅依賴于它們到對應暴發時間段中心的距離td+。用φ={φ1……φX}表示某個查詢事件對應的K個暴發時間段,我們提出3種不同的概率函數來擬合暴發時間段的分布,這些概率函數采用不同的機制對暴發時間段的有效范圍、衰減系數和偏度進行建模。

1)多重高斯分布

假設其先驗概率是正態分布,每個暴發時間段的中心位置為其峰值位置。一條微博可能受到多個暴發時間的影響,并且在暴發時間段前與后的影響是對稱的,如公式(4):

其中,參數σ是控制暴發點的影響范圍。

2)近鄰多項式

假設一條微博只受1個暴發時間的影響,且在暴發時間段前與后的影響是對稱的。對每一個微博文檔d+,選取到最近暴發時間點的最小距離,如公式(5):

其中,r(d+,?k)某條微博文檔 d+到某一暴發時間點的最小距離,參數σ是控制暴發點的影響范圍。

3)傾斜線線

假設一條微博只受1個暴發時間的影響,且在暴發時間段前與后的影響是不對稱的,向前影響只影響到某個范圍。利用每個暴發時段的界限,如果文檔d+在某個暴發時段內,則

否則,計算文檔d+離最近的在它之前的暴發時段的距離l,則

其中,參數σ是控制暴發點的影響范圍,K表示暴發時間段的個數。

2 實驗結果與分析

本實驗的數據集來自新浪微博,我們使用新浪微博提供的API隨機選擇某一用戶,迭代地獲取它的粉絲與微博,從2009年8月14日到2012年5月28日共爬取30 198 929條微博,包括回復與轉發的微博,并且含有其它國家的字符,具體數據見表1。

表1 數據集統計Tab.1 The statistic of dataset

我們對提出的查詢擴展模型進行了驗證,在本次實驗中,我們使用了4個基本檢索模型,3個偽相關反饋模型和本文提出的動態偽相關反饋模型進行對比:

1)Lucene:使用 Lucene 進行檢索;

2)PL2:Terrier提供的一種語言模型;

3)KLJM:計算文檔與查詢的KL散度,使用JM平滑防止未出現的詞項使得分為零,模型中的參數設置為0.5。

4)RLM:一種融合時間特征的語言模型,主要目的為給每條微博文檔添加先驗概率,使得較近期出現的微博獲得較高的計算得分。

5)Rocchio:一種偽相關反饋查詢擴展方法,使用Rocchio公式。本文使用RLM的結果列表作為候選集。

6)Bo1:Terrier提供的偽相關反饋模型,使用PL2的結果列表作為候選集。

7)KL:Terrier提供的偽相關反饋模型。

8)DPRF:本文提出的動態偽相關反饋模型。

如表2所示,與傳統的自然語言文本相比,微博具有自身獨特的特性,在語言模型中融合微博的這些特性能夠提高微博的檢索性能。同時,由于原始查詢語義表達的有限,查詢擴展方案能夠有效的進行補充,因此,PRF方法在原有的檢索模型上有一定的提升。而DPRF進一步結合了微博的特性,極大地提高了微博檢索的性能。

表2 不同檢索模型的實驗結果Tab.2 Results of different retrieval model

3 結束語

文中融合了微博自身所具有的獨特特性,結合事件微博具有一定的暴發時間周期,提出動態偽相關反饋模型,實驗證明該模型在原有的基礎提高了檢索效果。信息檢索技術在傳統的文本上擁有成熟的技術,而微博文本作為互聯網時代的產物,給檢索研究工作帶來了新的挑戰。在未來的工作中,筆者將進一步挖掘微博的特性,提出更加有效的模型提高微博檢索的性能。

[1]Efron M.Information search and retrieval in microblogs[J].J.Am.Soc.Inf.Sci.Technol.,2011,62:996-1008.

[2]Mathioudakis M,Koudas N.Twitermonitor:trend detection over the twitter stream[J].In Proceedings of SIGMOD,2010:1155-1158.

[3]Takamura H,Yokono H,Okumura M.Summarizing a document stream[J].In Proceedings of ECIR,2011:177-188.

[4]Efron M.Hashtag retrieval in a microblogging environment[J].In Proceedings of SIGIR,2010:787-788.

[5]Efron M,Golovchinsky G.Estimation methods for ranking recentinformation[J].In Proceedingsof SIGIR,2011:495-504.

[6]Li X,Croft W B.Time-based language models[J].In Proceedings of CIKM,2003:469-475.

[7]Jones R,Diaz F.Temporal profiles of queries[J].ACM Trans.Inf.Syst.,25,2007.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 97成人在线视频| 欧美成人一区午夜福利在线| 久久精品66| 99在线视频免费观看| 国产区在线看| 伊人久久久大香线蕉综合直播| 欧美无专区| 国产资源站| 69综合网| 国产精品自在自线免费观看| 日本精品影院| 免费人成在线观看视频色| 亚洲国产看片基地久久1024| 欧美在线国产| 日韩精品免费一线在线观看| 首页亚洲国产丝袜长腿综合| 国产簧片免费在线播放| 5555国产在线观看| 九九热这里只有国产精品| 黄色网站在线观看无码| 97精品国产高清久久久久蜜芽| 性欧美精品xxxx| 亚洲制服丝袜第一页| P尤物久久99国产综合精品| 中文字幕人成人乱码亚洲电影| 亚洲欧美色中文字幕| 国产国产人成免费视频77777 | 国产精品九九视频| 国产一区二区三区日韩精品| 超碰精品无码一区二区| 亚洲午夜福利在线| 2021精品国产自在现线看| 久久99精品久久久久久不卡| 亚洲男人天堂久久| 国产美女人喷水在线观看| 99久久国产自偷自偷免费一区| 国产av剧情无码精品色午夜| 国产永久免费视频m3u8| h网站在线播放| 911亚洲精品| 亚洲日韩精品综合在线一区二区 | 88av在线看| 日韩精品中文字幕一区三区| 2020最新国产精品视频| 午夜视频在线观看区二区| 国产日韩欧美在线视频免费观看 | 亚洲午夜18| 亚洲男人的天堂在线观看| 久久久久国产一区二区| 又大又硬又爽免费视频| 欧美一级大片在线观看| 在线欧美国产| 亚洲美女一级毛片| 国产精品原创不卡在线| 拍国产真实乱人偷精品| 亚洲一级毛片免费观看| v天堂中文在线| 欧美精品v欧洲精品| 青青操视频在线| 五月婷婷丁香色| 精品撒尿视频一区二区三区| 亚洲成人高清无码| 亚洲伊人天堂| 国产精品亚洲αv天堂无码| 无码高清专区| 无码久看视频| 中文字幕在线不卡视频| 美女一区二区在线观看| 成人日韩精品| 亚洲精品男人天堂| 成人免费网站久久久| 毛片手机在线看| 激情無極限的亚洲一区免费| 国产91av在线| 成人看片欧美一区二区| 婷婷午夜影院| 国产精品无码一二三视频| 老司机午夜精品视频你懂的| 欧美成人综合视频| 永久免费精品视频| 3p叠罗汉国产精品久久| 亚洲an第二区国产精品|