999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息檢索模型及其在跨語(yǔ)言信息檢索中的應(yīng)用進(jìn)展

2009-04-29 00:00:00齊和慶
現(xiàn)代情報(bào) 2009年7期

〔摘 要〕信息檢索發(fā)展中的一個(gè)重要理論問題是如何對(duì)查詢與文檔進(jìn)行匹配,由此形成了不同的信息檢索模型。跨語(yǔ)言信息檢索是信息檢索研究的一個(gè)分支,也是近年來的熱點(diǎn)問題。本文主要對(duì)信息檢索模型的研究進(jìn)展,及其在跨語(yǔ)言信息檢索中的應(yīng)用進(jìn)展進(jìn)行分析與綜述。

〔關(guān)鍵詞〕信息檢索;跨語(yǔ)言信息檢索;檢索模型

〔中圖分類號(hào)〕G354 〔文獻(xiàn)標(biāo)識(shí)碼〕B 〔文章編號(hào)〕1008-0821(2009)07-0215-07

Development of Information Retrieval Model and its

Application in Cross-Language Information RetrievalWu Dan1 Qi Heqing2

(1.School of Information Management,Wuhan University,Wuhan 430072,China;

2.Shandong Dezhou Dehua Mechanical Equipment Engineering Corporation Limited,Dezhou 253000,China)

〔Abstract〕An important theoratical problem in informaton retrieval is how to match the query and the documents,therefore,different information retrieval models are formed.Cross-language information retrieval(CLIR)is a branch of information retrieval research fields and is one of the most active information retrieval areas in the past decades.This paper analyzes the reviews and the progresses of information retrieval models and its application in cross-language information retrieval.

〔Key words〕information retrieval;cross-language information retrieval;retrieval model

作為一個(gè)正式的學(xué)術(shù)概念,信息檢索(Information Retrieval)于1948年由美國(guó)學(xué)者M(jìn)ooers[1]在其碩士學(xué)位論文中首次提出。經(jīng)過半個(gè)多世紀(jì)的研究,信息檢索的發(fā)展演變可以看作是不斷消除一道道信息存取障礙的過程。首先,從脫機(jī)批處理到計(jì)算機(jī)檢索系統(tǒng)的產(chǎn)生,是超越了信息存取的速度障礙;其次,從單機(jī)到網(wǎng)絡(luò)平臺(tái),從集中式網(wǎng)絡(luò)到分布式、異構(gòu)性、動(dòng)態(tài)Web環(huán)境的遷移,是打破了信息存取的空間障礙;再次,從分類法、主題詞表到本體(Ontology)的出現(xiàn)和應(yīng)用,是跨越了信息存取的語(yǔ)義理解障礙。即便如此,在全球信息共享的迫切要求下,依然還有另一道障礙未被攻克,即信息存取的語(yǔ)言障礙。

跨語(yǔ)言信息檢索(Cross-Language Information Retrieval,CLIR)是20世紀(jì)70年代從信息檢索領(lǐng)域發(fā)展出來的一個(gè)分支,旨在以一種語(yǔ)言的查詢?nèi)z索另一種語(yǔ)言的信息資源,這一技術(shù)已成為突破信息存取語(yǔ)言障礙的關(guān)鍵。跨語(yǔ)言信息檢索在一定程度上繼承了傳統(tǒng)信息檢索技術(shù)的發(fā)展,其關(guān)鍵問題是要使查詢語(yǔ)言與文檔語(yǔ)言在檢索之前達(dá)成一致。

信息檢索發(fā)展中的一個(gè)重要理論問題是如何對(duì)查詢與文檔進(jìn)行匹配,由此形成了不同的信息檢索模型。經(jīng)過60年的發(fā)展,信息檢索模型已由原來的三大經(jīng)典模型——布爾模型、向量空間模型、概率模型,發(fā)展為時(shí)下非常流行的統(tǒng)計(jì)語(yǔ)言模型和語(yǔ)義處理模型。同時(shí),這些傳統(tǒng)檢索模型和新興檢索模型都在跨語(yǔ)言信息檢索領(lǐng)域發(fā)揮著非常重要的作用。本文主要對(duì)信息檢索模型的研究進(jìn)展,及其在跨語(yǔ)言信息檢索中的應(yīng)用進(jìn)展進(jìn)行分析與綜述。

1 信息檢索模型研究進(jìn)展

一般的信息檢索模型由以下四部分組成:(1)查詢表示;(2)文檔表示;(3)匹配機(jī)制;(4)反饋修正。用形式特征可以將信息檢索模型表示為一個(gè)四元組的模型框架:[D,Q,F(xiàn),R(qi,dj)]。其中,D是文檔表示;Q是查詢表示;F是一種機(jī)制,用于構(gòu)建文檔表示、查詢表示及它們之間關(guān)系的模型;R(qi,dj)是一個(gè)排序函數(shù),該函數(shù)輸出一個(gè)與查詢表示qi∈Q和文檔表示dj∈D有關(guān)的實(shí)數(shù),這樣就可以根據(jù)文檔dj與查詢qi之間的相似度進(jìn)行排序[2]。

圖1概括出了信息檢索模型的分類。信息檢索模型由最初的經(jīng)典布爾模型、向量空間模型、概率模型,發(fā)展到現(xiàn)在的多種模型綜合運(yùn)用——其中的語(yǔ)言模型和語(yǔ)義模型等新興模型表現(xiàn)出了很強(qiáng)的生命力。

圖1 信息檢索模型分類

2009年7月第29卷第7期現(xiàn)?代?情?報(bào)Journal of Modern InformationJuly,2009Vol.29 No.72009年7月第29卷第7期信息檢索模型及其在跨語(yǔ)言信息檢索中的應(yīng)用進(jìn)展July,2009Vol.29 No.71.1 經(jīng)典模型

經(jīng)典的信息檢索模型用稱為標(biāo)引詞的關(guān)鍵詞來表示一篇文檔,令ki表示一個(gè)標(biāo)引詞,dj表示一個(gè)文檔,wij>0為二元組(ki,dj)的權(quán)值,用來衡量描述文檔語(yǔ)義內(nèi)容中標(biāo)引詞的重要性。在經(jīng)典模型中存在一個(gè)普遍假設(shè),即標(biāo)引詞是互相獨(dú)立、彼此無關(guān)的。

1.1.1 布爾模型(Boolean Model)

布爾檢索模型是基于集合論的一種最早、最簡(jiǎn)單的檢索模型。在布爾模型中,標(biāo)引詞在文檔中出現(xiàn)或不出現(xiàn),因此標(biāo)引詞ki在文檔dj中的權(quán)值wij為二值數(shù)據(jù),即wij∈{0,1}。一個(gè)查詢表示qi由連接符NOT、AND、OR連接多個(gè)標(biāo)引詞組成,本質(zhì)上是一個(gè)常規(guī)的布爾表達(dá)式qdnf(k1,k2,…,ki,…),可以表示為多個(gè)合取向量的析取qcc(qcc為qdnf的任意合取分量),則文檔dj與查詢qi的相似情況表示為:

wi,j=1,qcc∈qdnf,表示文檔dj與查詢qi相似

0,qccqdnf,表示文檔dj與查詢qi不相似

布爾模型形式簡(jiǎn)潔、結(jié)構(gòu)簡(jiǎn)單、容易實(shí)現(xiàn),但只能判斷文檔相關(guān)或不相關(guān),無法描述與查詢條件部分匹配的情況。針對(duì)這些缺點(diǎn),兩個(gè)改進(jìn)集合論模型:模糊集合模型和擴(kuò)展布爾模型應(yīng)運(yùn)而生。

模糊集合模型(Fuzzy Set Model)[2]是將文檔看成與查詢?cè)谝欢ǔ潭壬舷嚓P(guān),而且每一標(biāo)引詞都存在一個(gè)模糊的文獻(xiàn)集合與之相關(guān)。對(duì)于某一給定的標(biāo)引詞,用隸屬函數(shù)表示每一文檔與該詞的相關(guān)程度,即隸屬度,其取值在[0,1]上,則標(biāo)引詞ki在文檔dj中的權(quán)值可以定義為wij∈[0,1],文檔對(duì)標(biāo)引詞的隸屬度可以通過詞——詞關(guān)聯(lián)矩陣來計(jì)算。模糊集合模型保留了傳統(tǒng)布爾模型的結(jié)構(gòu)化特點(diǎn),同時(shí)還能對(duì)檢索結(jié)果按相似度排序,但不能對(duì)查詢中的檢索詞賦予權(quán)值。

擴(kuò)展布爾模型(Extended Boolean Model)[2]在保持傳統(tǒng)布爾模型結(jié)構(gòu)式查詢的同時(shí),也吸取了模糊集合模型和向量空間模型的長(zhǎng)處。假定文檔dj僅用兩個(gè)標(biāo)引詞kx和ky標(biāo)引,并且kx和ky允許被賦予一定的權(quán)值wxj和wyj,點(diǎn)d(x,y)表示文獻(xiàn)向量dj=(wxj,wyj),則文檔dj與查詢qi的相似度可以表示為:

sim(dj,qi)=(x2+y2)/2,qi=kx∨ky

1-[(1-x)2+(1-y)2]/2,qi=kx∧ky

1.1.2 向量空間模型(Vector Space Model,VSM)

在向量空間模型中,標(biāo)引詞ki在文檔dj中的權(quán)值wij是一個(gè)非二值正數(shù),wij∈[0,1]。此外,標(biāo)引詞ki在查詢qi中的標(biāo)引詞也要加權(quán),用wiq表示,也是一個(gè)非二值正數(shù)。文檔dj可以表示為一個(gè)文獻(xiàn)向量dj=(w1j,w2j,…,wtj),查詢qi可以表示為一個(gè)查詢向量qi=(w1q,w2q,…,wtq),其中t是系統(tǒng)中的標(biāo)引詞數(shù)目。這樣,文檔和查詢都被表示成了t維向量,最常用的一種計(jì)算它們之間相似度的方法是計(jì)算文檔向量與查詢向量夾角的余弦:

sim(dj,qi)=∑ti=1wijwiq∑ti=1wij2∑ti=1wiq2

標(biāo)引詞的權(quán)重wij可以通過很多加權(quán)方法來計(jì)算,最常用的是tf-idf函數(shù),tf是標(biāo)引詞在文檔中出現(xiàn)的頻率,用來衡量一個(gè)標(biāo)引詞在多大程度上描述了一篇文檔;idf是倒文獻(xiàn)頻率,體現(xiàn)標(biāo)引詞區(qū)分文檔的能力大小,計(jì)算方法也有很多,如下公式是比較常用的:

f′ij=tfijmaxjtfijidfi=logNniwij=f′ijidfi

其中,N為文檔集合,ni為包含標(biāo)引詞ki的文檔篇數(shù),tfij為標(biāo)引詞ki在文檔dj中出現(xiàn)的頻率,f′ij為文檔dj中標(biāo)引詞ki的標(biāo)準(zhǔn)化頻率。

向量空間模型對(duì)標(biāo)引詞的權(quán)重進(jìn)行了改進(jìn),并且能根據(jù)相似度對(duì)檢索結(jié)果進(jìn)行排序,有效地提高了檢索效率。不過,該模型中依然存在的問題是:標(biāo)引詞仍然被認(rèn)為相互獨(dú)立,會(huì)丟掉大量的文本結(jié)構(gòu)信息,且相似度計(jì)算量大。考慮到這一點(diǎn),人們由對(duì)向量空間模型的改進(jìn)產(chǎn)生了廣義向量空間模型、神經(jīng)網(wǎng)絡(luò)模型等,目的均為獲得更高的檢索效率。

廣義向量空間模型(Generalized Vector Space Model,GVSM)由Wong[3]等于1985年提出。該模型認(rèn)為標(biāo)引詞之間不是互相獨(dú)立的,即不是兩兩正交的,而是存在著一定的相互關(guān)系,即標(biāo)引詞向量是線性獨(dú)立的——這就是廣義向量空間模型的基本思想。在廣義向量空間模型中,標(biāo)引詞向量以一組更小的分量所組成的正交基向量來表示,詞與詞之間的關(guān)系可直接由基向量表示給出較為精確的計(jì)算。標(biāo)引詞ki在文檔dj中的權(quán)值為wij,如果所有wij都是二值的,t個(gè)標(biāo)引詞生產(chǎn)2t個(gè)互不相同的最小項(xiàng)mi。廣義向量空間模型將所有向量mi的集合作為目標(biāo)子空間的基:其中m1=(1,0,…,0),m2=(0,1,…,0),…,m2t=(0,0,…,1)。標(biāo)引詞ki的標(biāo)引詞向量是通過把所有最小項(xiàng)mi的向量相加求和得出,然后利用余弦函數(shù)計(jì)算文獻(xiàn)向量和查詢向量之間的相似度。

神經(jīng)網(wǎng)絡(luò)模型(Neural Network Model)[4]的主要思想是:首先從文本空間中抽取文檔及文檔相關(guān)的標(biāo)引詞ki,并且對(duì)這些標(biāo)引詞進(jìn)行概念關(guān)聯(lián)分析;然后計(jì)算出任意兩個(gè)標(biāo)引詞之間的關(guān)聯(lián)權(quán)值,建立概念的詞義關(guān)聯(lián)權(quán)矩陣,以概念為節(jié)點(diǎn),關(guān)聯(lián)權(quán)值為節(jié)點(diǎn)的連接權(quán),這樣就構(gòu)成了神經(jīng)網(wǎng)絡(luò)。當(dāng)用戶輸入檢索關(guān)鍵詞后,查詢語(yǔ)詞節(jié)點(diǎn)通過向文獻(xiàn)語(yǔ)詞節(jié)點(diǎn)發(fā)出信號(hào)來做聯(lián)想回憶進(jìn)行推理,而且文獻(xiàn)與此節(jié)點(diǎn)自身也可以向文獻(xiàn)節(jié)點(diǎn)發(fā)出信號(hào)——如此不斷重復(fù)這一聯(lián)想回憶推理過程,直到信號(hào)衰減到無法激活聯(lián)想回憶。

1.1.3 概率模型(Probabilistic Model)

經(jīng)典概率模型也稱二元獨(dú)立概率模型(Binary Independence Relevance,BIR),其基本思想是:用戶提出了查詢,就有一個(gè)由相關(guān)文檔構(gòu)成的集合,通常把這個(gè)集合稱為理想的集合R。如果知道R的特征,就可以找到所有的相關(guān)文檔,排除所有的無關(guān)文檔。然而,第一次查詢時(shí)并不知道R的特征,只能去估計(jì)R的特征來進(jìn)行查詢。第一次查詢完成后,可以讓用戶判斷檢索到的文檔哪些是相關(guān)文檔,根據(jù)用戶的判斷,可以更精確地估計(jì)R的特征。

在經(jīng)典概率模型中,標(biāo)引詞ki在文檔dj中的權(quán)值是二值的,wij∈{0,1};標(biāo)引詞ki在查詢qi中的權(quán)值也是二值的,wiq∈{0,1};R為相關(guān)文獻(xiàn)集,為非相關(guān)文獻(xiàn)集;條件概率P(R|dj)表示文檔dj與查詢qi相關(guān)的概率,條件概率P(|dj)表示文檔dj與查詢qi不相關(guān)的概率;P(ki|R)為標(biāo)引詞ki在集合R的某篇文獻(xiàn)中隨機(jī)出現(xiàn)的概率,P(ki|)為標(biāo)引詞ki在集合的某篇文獻(xiàn)中隨機(jī)出現(xiàn)的概率。由于假設(shè)標(biāo)引詞之間無相關(guān)關(guān)系,則文檔dj與查詢qi的相似度表示為:

sim(dj,qi)=P(R|dj)P(|dj)=P(dj|R)×P(R)P(dj|)×P()≈P(dj|R)P(dj|)≈∑ti=1wiq×wij×logP(ki|R)1-P(ki|R)+log1-P(ki|)P(ki|)

P(ki|R)和P(ki|)可以用如下方法來實(shí)現(xiàn):假定P(ki|R)對(duì)于所有標(biāo)引詞ki是恒定不變的,通常假設(shè)等于0.5;假定非相關(guān)文獻(xiàn)中標(biāo)引詞的分布可以通過集合的所有文獻(xiàn)中標(biāo)引詞的分布來估計(jì),則:

P(ki|R)=0.5P(ki|)=niN

其中,ni為包含標(biāo)引詞ki的文獻(xiàn)數(shù)目,N為集合中的文獻(xiàn)總數(shù)。

許多研究者對(duì)上述P(ki|R)和P(ki|)的估計(jì)方法進(jìn)行了改進(jìn),但二元獨(dú)立概率模型始終沒有考慮詞頻tf和長(zhǎng)度因素,因此,它還在不斷完善和發(fā)展中。目前比較流行的Okapi BM25公式加入了tf因素和長(zhǎng)度調(diào)整,計(jì)算公式如下:

∑w∈q∩d(idftfdoctfq)=∑w∈q∩dlnN-df(w)+0.5df(w)+0.5(k1+1)c(w,d)k1(1-b)+bLdLave+c(w,d)(k3+1)c(w,q)k3+c(w,q)

其中,k1、k3、b是經(jīng)驗(yàn)參數(shù)。

概率模型有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),采用了相關(guān)反饋原理克服不確定性推理的缺點(diǎn)。但其參數(shù)估計(jì)難度較大,最初沒有任何先驗(yàn)知識(shí)。于是人們將統(tǒng)計(jì)學(xué)的認(rèn)識(shí)論引入到概率模型中,形成了各種基于貝葉斯網(wǎng)絡(luò)的檢索模型。

推理網(wǎng)絡(luò)模型(Inference Network Model)[5]模擬人腦的推理思維模式,將文檔與用戶查詢匹配的過程轉(zhuǎn)化為一個(gè)從文檔到查詢的推理過程。基本的文檔推理網(wǎng)絡(luò)包含文檔網(wǎng)絡(luò)和用戶查詢網(wǎng)絡(luò)兩部分,通過隨機(jī)變量將標(biāo)引詞、文檔以及用戶查詢聯(lián)系在一起。與文檔dj相關(guān)的隨機(jī)變量表示對(duì)該文檔觀測(cè)的事件,對(duì)文檔dj的觀測(cè)可以為標(biāo)引詞的隨機(jī)變量給出一個(gè)信任度,因而對(duì)文檔的觀測(cè)是標(biāo)引詞變量不斷增加信任度的原因所在。標(biāo)引詞變量和文檔變量用網(wǎng)絡(luò)中的節(jié)點(diǎn)來表示,節(jié)點(diǎn)之間的邊是從文獻(xiàn)節(jié)點(diǎn)指向它的語(yǔ)詞節(jié)點(diǎn),以此來表示文獻(xiàn)觀測(cè)會(huì)不斷提高標(biāo)引詞節(jié)點(diǎn)的信任度。

信任度網(wǎng)絡(luò)模型(Belief Network Model)[6]采用明確化的概念空間,用戶查詢qi也被模型化為一個(gè)與二值隨機(jī)變量qi相關(guān)的網(wǎng)絡(luò)節(jié)點(diǎn),只要qi完全包含概念空間k,這個(gè)隨機(jī)變量的值就為1。文檔dj也被模型化為一個(gè)與二值隨機(jī)變量dj相關(guān)的網(wǎng)絡(luò)節(jié)點(diǎn),只要dj完全包含概念空間k,這個(gè)隨機(jī)變量的值就為1。通過這種形式,集合中的用戶查詢和文檔都被模型化為標(biāo)引詞的子集,每個(gè)子集為概念空間k中的一個(gè)概念。與推理網(wǎng)絡(luò)模型相反,構(gòu)成文獻(xiàn)的標(biāo)引詞節(jié)點(diǎn)指向文獻(xiàn)節(jié)點(diǎn)。

1.2 統(tǒng)計(jì)語(yǔ)言模型

統(tǒng)計(jì)語(yǔ)言模型(Statistical Language Model,SLM)[7]是關(guān)于某種語(yǔ)言所有語(yǔ)句或者其他語(yǔ)言單位的分布概率,也可以將統(tǒng)計(jì)語(yǔ)言模型看作是生成某種語(yǔ)言文本的統(tǒng)計(jì)模型。語(yǔ)言模型通常用以回答如下問題:已知文本序列中前面i-1個(gè)詞匯,第i個(gè)詞匯為單詞w的可能性有多大?

語(yǔ)言模型根據(jù)馬爾可夫鏈的階數(shù)分為一元語(yǔ)言模型和多元語(yǔ)言模型。一元語(yǔ)言模型(unigram language model)假設(shè)詞與詞之間是相互獨(dú)立的,一個(gè)詞出現(xiàn)的概率與這個(gè)詞前面的詞沒有必然聯(lián)系。多元語(yǔ)言模型(n-gram language model)假設(shè)詞與詞之間是相互關(guān)聯(lián)的,一個(gè)詞出現(xiàn)的概率與這個(gè)詞前面的詞存在一定的關(guān)聯(lián)。根據(jù)目標(biāo)詞前面其他詞個(gè)數(shù)的多少,多元語(yǔ)言模型可被劃分為二元語(yǔ)言模型、三元語(yǔ)言模型等幾種。

對(duì)于一個(gè)句子S=w1,w2,…,wi(wi代表某個(gè)詞),在語(yǔ)言模型M中,S出現(xiàn)概率P用一元和多元模型可以分別表示為:

P(S|M)=∏wi∈SP(wi|M)

P(S|M)=∏wi∈SP(wi|wi-1,wi-2,…,wi-n+1,M)

其中,n-1代表了馬爾可夫鏈的階數(shù)。

統(tǒng)計(jì)語(yǔ)言模型于1998年由Ponte和Croft[8]應(yīng)用到信息檢索中,之后不少學(xué)者在此基礎(chǔ)上提出了一系列模型。統(tǒng)計(jì)語(yǔ)言模型現(xiàn)已成為信息檢索領(lǐng)域里的主要研究方向,本文在此只選擇其中幾個(gè)主要的模型進(jìn)行概括性介紹:

1.2.1 查詢似然模型(Query Likelihood Model)

Ponte和Croft最初提出的語(yǔ)言模型被稱為查詢似然模型。該模型將相似度看作是每篇文檔對(duì)應(yīng)的語(yǔ)言下生成該查詢的可能性,即利用查詢的似然來度量文檔與查詢的相似度。在該模型中,首先為每篇文檔D建立一個(gè)語(yǔ)言模型MD,系統(tǒng)的目標(biāo)是根據(jù)P(D|Q)對(duì)文檔進(jìn)行排序。根據(jù)貝葉斯公式,我們得到:

P(D|Q)=P(Q|D)P(D)/P(Q)

其中,Q代表查詢條件,D代表文檔集合中某個(gè)文檔。先驗(yàn)概率P(D)和P(Q)對(duì)于文檔集合中每篇文檔來說都是相同的。所以,關(guān)鍵是估計(jì)每篇文檔的語(yǔ)言模型P(Q|D)。

估計(jì)P(Q|D)的一個(gè)最常用的方法是用多項(xiàng)一元語(yǔ)言模型(multinomial unigram language model),即首先估計(jì)每篇文檔的詞匯概率分布,然后計(jì)算從這個(gè)分布抽樣得到查詢條件的概率,并按照查詢條件的生成概率來對(duì)文檔進(jìn)行排序。此方法基于二值假設(shè)及獨(dú)立性假設(shè),前者假設(shè)如果一個(gè)詞匯出現(xiàn)在查詢條件中,代表該詞匯的屬性值被設(shè)置成1,否則設(shè)置為0;后者假設(shè)文檔中詞匯之間是相互獨(dú)立的。這樣,文檔D可以看成是多項(xiàng)隨機(jī)試驗(yàn)的觀測(cè)結(jié)果,即:

P(Q|D)=∏|Q|i=1P(qi|D)=∏w∈QP(w|D)c(w,Q)

其中,qi是查詢Q中的檢索詞,w是文檔集中的詞項(xiàng)(term),c(w,Q)表示查詢Q中w出現(xiàn)的次數(shù)。這樣,要計(jì)算P(Q|D),必須先估計(jì)P(w|D),即估計(jì)文檔D的一元語(yǔ)言模型。

P(w|D)可以通過一種非參數(shù)的方法計(jì)算,利用包含w的文檔D中w出現(xiàn)的平均概率,如下公式:

P(w|D)=c(w,D)∑w′∈Dc(w′,D)

其中,c(w,D)表示文檔D中w出現(xiàn)的次數(shù),∑w′∈Dc(w′,D)表示D中所有詞項(xiàng)的個(gè)數(shù)。

與傳統(tǒng)檢索模型相比,語(yǔ)言模型檢索方法能夠利用統(tǒng)計(jì)語(yǔ)言模型來估計(jì)與檢索有關(guān)的參數(shù),在如何改善檢索系統(tǒng)性能方面有更加明確的指導(dǎo)方向。但該方法隱含著詞匯相互獨(dú)立關(guān)系,沒有考慮詞匯間的相互影響。傳統(tǒng)檢索模型中常用的相關(guān)反饋技術(shù)在概念層面融入語(yǔ)言模型框架比較困難。

1.2.2 隱馬爾可夫模型(Hidden Markov Model,HMM)

Miller[9]等將隱馬爾可夫模型引入統(tǒng)計(jì)語(yǔ)言模型。他們使用了兩狀態(tài)隱馬爾可夫模型:一個(gè)狀態(tài)表示直接從文檔中選出一個(gè)詞;另一個(gè)狀態(tài)表示從通常英語(yǔ)語(yǔ)言中選出一個(gè)詞,來估計(jì)文檔D的一元語(yǔ)言模型P(w|D)。第一個(gè)狀態(tài)的概率分布記為Pdocument(w|D),第二個(gè)狀態(tài)的概率分布用文檔集中詞項(xiàng)w的最大出現(xiàn)概率來近似估計(jì),記為Pcollection(w)。兩個(gè)概率的計(jì)算方法均采用詞頻tf和文檔頻率df來計(jì)算,公式如下:

Pdocument(w|D)=c(w,D)∑w′∈Dc(w′,D)

Pcollection(w)=c(w,C)∑w′∈Vc(w′,C)

其中,c(w,C)表示整個(gè)文檔集合C中w出現(xiàn)的次數(shù),文檔集合C={D1,D2,…},詞匯表V={w1,w2,…},∑w′∈Vc(w′,C)表示文檔集合中所有詞項(xiàng)的總數(shù)。

最后,將二者通過概率加權(quán)合并得到P(w|D):

P(w|D)=λPdocument(w|D)+(1-λ)Pcollection(w)

1.2.3 翻譯模型(Translation Model)

Berger[10]將機(jī)器翻譯領(lǐng)域中的統(tǒng)計(jì)翻譯模型引入到語(yǔ)言模型中,目的在于將詞匯間的同義詞因素考慮進(jìn)來,將信息檢索過程看作是一個(gè)從文檔向查詢條件進(jìn)行翻譯的過程:假設(shè)查詢Q通過一個(gè)有噪聲的信道變成文檔D,從文檔D去估計(jì)原始的查詢Q。

P(Q|D)=∏iP(qi|D)=∏i∑jP(qi|wj)P(wj|MD)

其中,qi是查詢Q中的檢索詞,wj是文檔集中的詞項(xiàng),P(qi|wj)是翻譯概率,P(wj|MD)是生成概率。

由于翻譯模型方法遵循的是統(tǒng)計(jì)機(jī)器翻譯的思路,這在本質(zhì)上決定了其主要考慮因素是將詞匯間的同義詞關(guān)系引入語(yǔ)言模型信息檢索中,其作用類似于傳統(tǒng)檢索模型中的查詢擴(kuò)展技術(shù)。但是該方法有個(gè)很明顯的缺點(diǎn),就是在訓(xùn)練統(tǒng)計(jì)翻譯模型的參數(shù)的時(shí)候,需要大量的查詢條件和對(duì)應(yīng)的相關(guān)文檔作為訓(xùn)練集合。

1.2.4 相關(guān)模型(Relevance Model)

與試圖對(duì)查詢產(chǎn)生過程建模相反,Lavrenko和Croft[11]直接對(duì)“相關(guān)性”建模,并提出了一種無需訓(xùn)練數(shù)據(jù)來估計(jì)相關(guān)模型的新方法。相關(guān)模型是對(duì)用戶信息需求的一種描述,假設(shè)如下:給定一個(gè)文檔集合與用戶查詢條件Q,存在一個(gè)未知的相關(guān)模型R,相關(guān)模型R為相關(guān)文檔中出現(xiàn)的詞匯賦予一個(gè)概率值P(w|R)。這樣,相關(guān)文檔被看作是從概率分布P(w|R)中隨機(jī)抽樣得到的樣本。同樣的,查詢條件也被看作是根據(jù)這個(gè)分布隨機(jī)抽樣得到的樣本。所以,相關(guān)模型的關(guān)鍵是如何估計(jì)分布P(w|R)。定義P(w|R)為從相關(guān)文檔中隨機(jī)采樣一個(gè)詞是詞w的概率,Lavrenko和Croft用w和查詢?cè)~q1,q2,…,qm(Q={q1,q2,…,qm})同時(shí)出現(xiàn)的聯(lián)合概率分布來近似估計(jì)P(w|R):

P(w|R)≈P(w|Q)=P(w,q1,…,qm)∑v∈vocabularyP(v,q1,…,qm)

他們提出兩種估計(jì)上述聯(lián)合概率分布的方法。這兩種方法都假設(shè)存在一個(gè)概率分布集合U,相關(guān)詞匯就是從U中某個(gè)分布隨機(jī)抽樣得到的。不同之處在于它們的獨(dú)立假設(shè)。

方法一:假設(shè)所有查詢條件詞匯和相關(guān)文檔中的詞匯是從同一個(gè)分布隨機(jī)抽樣獲得,這樣一旦我們從集合U中選定某個(gè)分布M后,這些詞匯是相互無關(guān)的、獨(dú)立的。如果我們假設(shè)U是一元語(yǔ)言模型分布的全集并且文檔集合中每個(gè)文檔都有一個(gè)分布,那么我們得到:

P(w,q1,…,qm|M)=∑M∈UP(M)P(w,q1,…,qm|M)=∑M∈UP(M)P(w|M)∏mi=1P(qi|M)

其中,P(M)代表集合U中的一些先驗(yàn)概率分布,P(w|M)是我們從M中隨機(jī)抽取詞匯而觀察到詞匯w的概率。

方法二:假設(shè)查詢條件詞匯q1,…,qm是相互獨(dú)立的,但與詞匯w是相關(guān)的。

P(w,q1,…,qm)=P(w)∏mi=1P(qi|w)

P(qi|w)=∑Mi∈UP(qi|Mi)P(Mi|w)

這里又有一個(gè)假設(shè):一旦選定一個(gè)分布Mi,查詢條件詞匯qi就和詞匯w是相互獨(dú)立的。

相關(guān)模型是一種將查詢擴(kuò)展技術(shù)融合進(jìn)入語(yǔ)言模型檢索框架的方法。

1.3 語(yǔ)義處理模型

前面所提及的模型都是基于關(guān)鍵詞和標(biāo)引詞的,由于字義本身與其概念的延伸不在同一級(jí)上,使得檢索結(jié)果僅僅是字面意義的匹配。為此,人們提出語(yǔ)義處理模型,即探究詞語(yǔ)背后所指代的本質(zhì)概念,明確詞語(yǔ)的主題范疇,識(shí)別同一概念的各種表示形式。為了分析詞語(yǔ)的含義、詞語(yǔ)和文檔之間的語(yǔ)義關(guān)聯(lián)、文檔的相似度,從目前的技術(shù)實(shí)現(xiàn)方法來看,主要采取從文檔結(jié)構(gòu)入手的潛在語(yǔ)義分析方法,以及從內(nèi)容入手的利用知識(shí)組織體系(詞典、知識(shí)庫(kù)和本體等)的方法。

1.3.1 潛語(yǔ)義標(biāo)引模型(Latent Semantic Indexing Model)

潛語(yǔ)義標(biāo)引模型由Furnas和Deerwester等[12]于1988年提出。首先,該模型將標(biāo)引詞之間、文檔之間的相關(guān)關(guān)系以及標(biāo)引詞與文檔之間的語(yǔ)義關(guān)聯(lián)都考慮在內(nèi),將文檔向量和查詢向量映射到與語(yǔ)義概念相關(guān)聯(lián)的較低維度空間中,從而將標(biāo)引詞向量空間轉(zhuǎn)化為語(yǔ)義概念空間;其次,該模型在降維后的語(yǔ)義概念空間中,計(jì)算文檔向量和查詢向量的相似度。總而言之,該模型的主要思想是:用數(shù)學(xué)方法把標(biāo)引詞——文檔矩陣進(jìn)行奇異值分解(奇異值分解是一種與特征值分解、因子分析緊密相關(guān)的矩陣方法)。由此可見,潛語(yǔ)義標(biāo)引模型將文檔和查詢向量的t維標(biāo)引詞向量空間轉(zhuǎn)化為x維語(yǔ)義概念空間,降低了空間維度,克服了同義詞和多義詞對(duì)檢索結(jié)果的影響。

1.3.2 本體模型(Ontology-based Model)

本體模型是自20世紀(jì)90年代隨著本體和本體工程應(yīng)用到信息檢索領(lǐng)域出現(xiàn)的一種方法。圖2[13]描述了本體模型的一般原理。一方面,用戶的信息需求通過共享本體轉(zhuǎn)化為計(jì)算機(jī)可理解的查詢表達(dá),為了提高查全率,再通過共享本體中概念與概念之間的關(guān)系擴(kuò)展查詢表達(dá)。通過與一個(gè)或幾個(gè)本體的交互,查詢表達(dá)能被計(jì)算機(jī)理解,以此判斷用戶需求的信息所屬領(lǐng)域。另一方面,被檢信息資源需要通過同樣的本體進(jìn)行標(biāo)引,信息資源的表達(dá)包括邏輯判斷等。在基于本體的信息檢索過程中,查詢表達(dá)與信息資源之間的匹配過程仿佛一種“探索”過程,這一過程能依照查詢的表達(dá)形式和邏輯理解以不同的方式進(jìn)行實(shí)現(xiàn)。本體在信息檢索中的作用主要體現(xiàn)在查詢擴(kuò)展、信息抽取、自動(dòng)分類、語(yǔ)義形式化表示,以及推理機(jī)制上。

圖2 本體模型原理

2 檢索模型在跨語(yǔ)言信息檢索中的應(yīng)用

布爾模型、向量空間模型、概率模型、語(yǔ)言模型、本體模型等應(yīng)用于跨語(yǔ)言信息檢索,在查詢語(yǔ)言轉(zhuǎn)換以及查詢翻譯消歧中發(fā)揮著重要作用。

2.1 布爾模型的應(yīng)用

布爾模型及其擴(kuò)展模型在查詢翻譯消歧中有重要應(yīng)用。Diekema[14]探討了擴(kuò)展布爾模型在查詢翻譯消歧中的應(yīng)用。Pirkola[15]通過結(jié)構(gòu)化查詢(structured query)來消除查詢?cè)~語(yǔ)的歧義性和詞典覆蓋度不足的問題。結(jié)構(gòu)化查詢共有3種算符:“sum”、“syn”和“uw3”。“sum”相當(dāng)于邏輯與,屬于缺省值;“syn”是同義詞(同源詞)算符;近鄰算符“uw3”(unordered window n,這里n取3)用于短語(yǔ)的查詢翻譯,這里的結(jié)構(gòu)化查詢采用的就是布爾模型的思想。早期基于詞典的查詢翻譯傾向于包含每個(gè)檢索詞的所有譯項(xiàng),在進(jìn)行檢索的時(shí)候這些譯項(xiàng)的貢獻(xiàn)是一樣的,這就相當(dāng)于賦予擁有較多譯項(xiàng)的檢索詞較高的權(quán)重,這顯然是不合理的,擁有較少譯項(xiàng)的檢索詞通常專指性更強(qiáng)(對(duì)檢索更有用),這種情況被稱為非平衡(unbalanced)查詢翻譯。為此,Levow和Oard[16]提出了平衡翻譯(balanced translation)的概念,即通過計(jì)算查詢?cè)~的每個(gè)譯項(xiàng)的權(quán)重并通過某種方法(算數(shù)平均、加權(quán)平均等)來獲取該詞的權(quán)重。

Oard和Wang[17]在NTCIR-2和MEI(Mandarin-English Information)項(xiàng)目的評(píng)價(jià)實(shí)驗(yàn)中,證明了平衡翻譯能有效消除翻譯的歧義性。

2.2 向量空間模型的應(yīng)用

在跨語(yǔ)言信息檢索的應(yīng)用中,國(guó)外學(xué)者應(yīng)用廣義向量空間模型實(shí)現(xiàn)了不需要翻譯的跨語(yǔ)言信息檢索。卡耐基梅隆大學(xué)語(yǔ)言技術(shù)研究所的Carbonell等人[18]將廣義向量空間模型應(yīng)用于跨語(yǔ)言信息檢索,其基本思想是:根據(jù)雙語(yǔ)訓(xùn)練文檔集分別建立源語(yǔ)言與目標(biāo)語(yǔ)言的檢索詞——文檔關(guān)聯(lián)矩陣,在計(jì)算查詢條件和文檔的相似度時(shí),考慮將經(jīng)典的向量空間模型與兩個(gè)關(guān)聯(lián)矩陣相結(jié)合,在源語(yǔ)言與目標(biāo)語(yǔ)言之間實(shí)現(xiàn)映射關(guān)系,在不需要翻譯的條件下實(shí)現(xiàn)跨語(yǔ)言信息檢索,為跨語(yǔ)言信息檢索的研究開辟了一條新路。

2.3 概率模型的應(yīng)用

著名的InQuery就是基于Bayesian推理網(wǎng)絡(luò)模型的信息檢索系統(tǒng)。作為一種查詢網(wǎng)絡(luò)模型,InQuery允許使用查詢算符,這在跨語(yǔ)言信息檢索中被證明是非常有用的。另外,樸素貝葉斯算法(Nave Bayes,NB)也可以應(yīng)用于自然語(yǔ)言處理的消歧工作,如詞性標(biāo)注、詞義消歧、文本分類等。Xu Jinxi等人[19]評(píng)價(jià)了概率模型在跨語(yǔ)言信息檢索中的應(yīng)用。

2.4 統(tǒng)計(jì)語(yǔ)言模型的應(yīng)用

統(tǒng)計(jì)語(yǔ)言模型已經(jīng)被應(yīng)用于不同的信息檢索領(lǐng)域,如信息過濾、跨語(yǔ)言信息檢索、跨語(yǔ)言語(yǔ)音檢索等。除此之外,語(yǔ)言模型還廣泛應(yīng)用于詞性標(biāo)注、詞義消歧、名詞短語(yǔ)的識(shí)別、詞法分析、機(jī)器翻譯等自然語(yǔ)言處理領(lǐng)域,這些都在解決查詢翻譯的語(yǔ)言歧義性中發(fā)揮重要作用。

傳統(tǒng)的概率模型和統(tǒng)計(jì)語(yǔ)言模型可以看作在同一概率框架下不同的推導(dǎo)結(jié)果,然而統(tǒng)計(jì)語(yǔ)言模型卻克服了傳統(tǒng)概率模型在概率估計(jì)上的不足(傳統(tǒng)的概率模型在估計(jì)概率時(shí)需要有文檔相關(guān)性的先驗(yàn)知識(shí),往往需要人為地設(shè)定一個(gè)經(jīng)驗(yàn)值作為初值)。對(duì)于這兩種概率方法,Larkey等[20]通過實(shí)驗(yàn)進(jìn)行了比較,結(jié)果表明,如果不進(jìn)行查詢擴(kuò)展,概率模型的效果要稍好于語(yǔ)言模型,如果進(jìn)行查詢擴(kuò)展,那么語(yǔ)言模型進(jìn)行跨語(yǔ)言信息檢索的效率更高。在2000年舉行的TREC-9測(cè)評(píng)會(huì)議上,BBN公司將隱馬爾可夫模型從單語(yǔ)言信息檢索擴(kuò)展到跨語(yǔ)言信息檢索,并取得了第一名的好成績(jī)[21]。另外,Liu Xiaoyong等人[22]還研究了語(yǔ)言模型在跨語(yǔ)言信息檢索及查詢翻譯消歧中的應(yīng)用。

2.5 語(yǔ)義模型的應(yīng)用

Dumais等人[23]將潛語(yǔ)義標(biāo)引模型應(yīng)用于跨語(yǔ)言信息檢索,其基本思想是:首先通過將有代表性的文檔與其對(duì)應(yīng)的翻譯文檔聯(lián)系起來形成訓(xùn)練文檔集,然后利用奇異值分解技術(shù)對(duì)雙語(yǔ)檢索詞——文檔關(guān)聯(lián)矩陣進(jìn)行奇異值分解,獲得雙語(yǔ)文檔集的特征信息以及檢索詞用法上的映射關(guān)系,即構(gòu)造出不同語(yǔ)種的潛在語(yǔ)義空間,最后根據(jù)平行文檔中語(yǔ)詞的用法特征可檢索出另一種語(yǔ)種的相關(guān)信息。

本體應(yīng)用于跨語(yǔ)言信息檢索的成果之一是Cindor系統(tǒng)[24],它圍繞WordNet組織概念資源的層次結(jié)構(gòu),將其他語(yǔ)言的詞匯鏈接到與它們所表達(dá)的概念對(duì)應(yīng)的同義詞群(synsets)上。這樣,概念中間語(yǔ)言就能確保各種語(yǔ)言的文獻(xiàn)和查詢?cè)诟拍顚哟芜M(jìn)行匹配。此外,王進(jìn)等[25]提出了一種基于語(yǔ)義的跨語(yǔ)言信息檢索模型Onto-CLIR,即利用本體在知識(shí)表示和知識(shí)描述方面的優(yōu)勢(shì),解決查詢請(qǐng)求在從源語(yǔ)言到目標(biāo)語(yǔ)言轉(zhuǎn)換過程中出現(xiàn)的語(yǔ)義損失和曲解等問題。實(shí)驗(yàn)結(jié)果顯示,基于本體的跨語(yǔ)言信息檢索比常規(guī)的單一語(yǔ)言信息檢索在查全率和查準(zhǔn)率方面都有明顯的優(yōu)勢(shì)。

3 結(jié) 語(yǔ)

盡管布爾模型、向量空間模型和統(tǒng)計(jì)模型是發(fā)展得較為成熟的三類經(jīng)典檢索模型,對(duì)信息檢索的發(fā)展起到了至關(guān)重要的作用,在跨語(yǔ)言信息檢索領(lǐng)域也得到了大量應(yīng)用。然而,目前在信息檢索和跨語(yǔ)言信息檢索領(lǐng)域,數(shù)學(xué)被證明是解決信息檢索和自然語(yǔ)言處理的最好工具,這其中最好的例證就是Google。Google是全世界最好的搜索引擎,其2007年5月24日發(fā)布的跨語(yǔ)言搜索引擎Google Translated Search效果也十分不錯(cuò),Google的中英文跨語(yǔ)言搜索引擎用的最重要的就是統(tǒng)計(jì)語(yǔ)言模型。事實(shí)證明,統(tǒng)計(jì)語(yǔ)言模型比任何已知的借助某種規(guī)則的解決方法都有效,是目前在實(shí)用中效果最好的檢索模型,在跨語(yǔ)言信息檢索領(lǐng)域也是如此。但是,我們?nèi)匀幌嘈牛瑪?shù)學(xué)不能解決信息檢索的一切問題,盡管語(yǔ)義模型目前仍停留在理論探討階段,離實(shí)用化還有一定距離,但隨著信息檢索模型研究的不斷深入,語(yǔ)義處理模型終將走向?qū)嵱茫⑴c其他檢索模型一起在信息檢索領(lǐng)域發(fā)揮作用,并幫助解決跨語(yǔ)言信息檢索的翻譯消歧、語(yǔ)言轉(zhuǎn)換等問題,真正實(shí)現(xiàn)信息檢索的語(yǔ)義理解。

參考文獻(xiàn)

[1]Mooers C.Application of random codes to the gathering of statistical information.M.S.Thesis.Massachusetts Institute of Technology,1948.

[2]Baeza-Yates R,Ribeiro-Neto B.Modern information retrieval.Massachusetts:Addison Wesley,1999.

[3]Wong S K M,Ziarko W,Wong P C N.Generalized vector space model in information retrieval.In:Proceedings of the 8th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’85).Montreal,Canada,1985:18-25.

[4]Wilkinson R,Hingston P.Using the cosine measure in a neural network for document retrieval.In:Proceedings of 14th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’91).Chicago,USA,1991:202-210.

[5]Turtle H,Croft W B.Evaluation of an inference network-based retrieval model.ACM Transactions on Information Systems,1991,9(3):187-222.

[6]Berthier A,Ribeiro-Neto,Muntz R.A belief network model for IR.In:Proceedings of 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’96).Zurich,Switzerland,1996:253-260.

[7]Croft W B,Lafferty J(Eds.).Language modeling for information retrieval.Netherlands:Kluwer Academic Publishers,2003:4-6.

[8]Ponte J M,Croft W B.A language modeling approach to information retrieval.In:Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’98).Melbourne,Australia,1998:275-281.

[9]Miller D R H,Leek T,Schwartz R M.A hidden markov model information retrieval system.In:Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’99).Berkeley,USA,1999:214-221.

[10]Berger A,Lafferty J.Information retrieval as statistical translation.In:Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’99).Berkeley,USA,1999:222-229.

[11]Lavrenko V,Croft W B.Relevance based language models.In:Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’01).New Orleans,USA,2001:120-127.

[12]Furnas G W.Deerwester S,Dumais S T,et al.Information retrieval using a singular value decomposition model of latent semantic structure.In:Proceedings of 11th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’88).Grenoble,F(xiàn)rance,1988:465-480.

[13]吳丹.本體在信息檢索中的作用分析及實(shí)例研究[J].情報(bào)雜志,2006,(6):72-75.

[14]Diekema A R.Translation events in cross-language information retrieval lexical ambiguity,lexical holes,vocabulary mismatch,and correct translations.Ph.D Dissertation.Syracuse University,2003.

[15]Pirkola A.The effects of query structure and dictionary setups in dictionary-based cross-language information retrieval.In:Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’98).Melbourne,Australia,1998:55-63.

[16]Levow G A.Oard D W.Translingual topic tracking with PRISE.In:Working Notes of the Topic Detection and Tracking Workshop(TDT’2000).Gaithersburg,USA,2000:1-6.

[17]Oard D W,Wang J Q.NTCIR-2 ECIR experiments at Maryland:comparing structured queries and balanced translation.In:Proceedings of the 2nd National Institute of Informatics Test Collection Information Retrieval(NTCIR)Workshop.Tokyo,Japan,2001:1-7.

[18]Carbonell J G,Yang Y,F(xiàn)rederking R E,et al.A realistic evaluation of translingual information retrieval methods.Personal communication.LTI,CMU,1997:1-8.

[19]Xu J X,Weischedel R,Nguyen C.Evaluating a probabilistic model for cross-lingual information retrieval.In:Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’01).New Orleans,USA,2001:105-110.

[20]Larkey L S,Connell M E.Structured queries,language modeling,and relevance modeling in cross-language information retrieval.Information Processing and Management,2005,41(3):457-473.

[21]Xu J,Weischedel R.TREC-9 cross-lingual retrieval at BBN.In:Proceedings of the 9th Text Retrieval Conference(TREC-9).Gaithersburg,USA,2001:106-116.

[22]Liu X,Croft W B.Statistical language modeling for information retrieval.The Annual Review of Information Science and Technology,2004,39:3-31.

[23]Deerwester S,Dumais S T,F(xiàn)urnas G W,et al.Indexing by latent semantic analysis.Journal of the American Society for Information Science,1990,41(6):391-407.

[24]http:∥www.cindorsearch.com[EB].2008-01-08.

[25]王進(jìn),等.基于本體的跨語(yǔ)言信息檢索模型[J].中文信息學(xué)報(bào),2004,18(3):1-8,60.

主站蜘蛛池模板: 国产主播一区二区三区| 久久semm亚洲国产| 精品夜恋影院亚洲欧洲| 国产成人久久综合777777麻豆| 亚洲a级在线观看| 四虎永久在线精品国产免费| 成人午夜网址| 久久综合九九亚洲一区| 中文字幕 91| 少妇精品网站| 午夜激情婷婷| 亚洲热线99精品视频| 久久大香香蕉国产免费网站| 亚洲欧美精品日韩欧美| 青草视频在线观看国产| 午夜成人在线视频| 亚洲无码熟妇人妻AV在线| 亚洲精品无码日韩国产不卡| 69免费在线视频| 国产精品乱偷免费视频| 波多野结衣视频网站| 欧美日韩一区二区在线播放| 国产91无毒不卡在线观看| 国产成人欧美| 99热国产在线精品99| 国产精品成人久久| 538国产视频| 欧美国产日产一区二区| 毛片基地美国正在播放亚洲 | 手机在线免费不卡一区二| 亚洲专区一区二区在线观看| 亚洲精品第五页| 国内嫩模私拍精品视频| 欧美国产菊爆免费观看| 国产无码网站在线观看| 欧美a级完整在线观看| 国产激爽大片高清在线观看| 亚洲综合激情另类专区| 在线亚洲精品自拍| 青青国产在线| 国产永久在线观看| 2020国产在线视精品在| 日韩在线成年视频人网站观看| 97无码免费人妻超级碰碰碰| 国产激情无码一区二区APP| 婷婷99视频精品全部在线观看 | 97在线观看视频免费| 久久免费精品琪琪| 67194在线午夜亚洲| 中文毛片无遮挡播放免费| 暴力调教一区二区三区| 伊人大杳蕉中文无码| 视频二区亚洲精品| 无码乱人伦一区二区亚洲一| 中文字幕乱码二三区免费| 最新加勒比隔壁人妻| 黄色在线不卡| 亚洲欧美日韩中文字幕一区二区三区 | 热这里只有精品国产热门精品| 国产人免费人成免费视频| 久久精品亚洲专区| 午夜人性色福利无码视频在线观看| 无码中文AⅤ在线观看| 国产毛片片精品天天看视频| 国产经典三级在线| 高清精品美女在线播放| 国产精品夜夜嗨视频免费视频| 人人妻人人澡人人爽欧美一区| 国产一二视频| 国产高清不卡| 久久精品免费国产大片| 久久人人妻人人爽人人卡片av| 91美女视频在线| 亚洲欧美日韩中文字幕一区二区三区 | 亚洲精品国偷自产在线91正片| 日本成人福利视频| 青草视频久久| 亚洲中字无码AV电影在线观看| 99人妻碰碰碰久久久久禁片| 亚洲第一成年免费网站| 国产白浆一区二区三区视频在线| 欧美日韩亚洲国产|