999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

專利查詢擴展的詞向量方法研究*

2018-06-19 06:11:04林鴻飛
計算機與生活 2018年6期
關鍵詞:文本實驗方法

許 侃,林 原,曲 忱,徐 博,林鴻飛+

1.大連理工大學 計算機科學與技術學院,大連 116024

2.大連理工大學 科學學與科技管理研究所,大連 116024

1 引言

專利信息廣泛存在并滲透于科技、經濟和社會生活的各個領域,具有集多種信息于一體,數量巨大,學科范圍廣,公布快捷,內容新穎,高度標準化,以及揭示發明創造內容完整詳盡等優點,已成為人們從事科學研究、技術開發和法律規范等社會經濟活動必不可少的重要信息。

從海量的專利文獻或專利數據庫中可以檢索得到有價值的專利文獻或信息,經過分析處理后可以了解所需求的專利信息。其作用在于避免重復開發,規避他人專利保護范圍,利用他人的專利技術,洞悉競爭對手研發方向,完善已有技術方案等。因此,在開發新產品、技術難題攻關、進行技術貿易、引進專利技術前,專利檢索是十分重要的。但是專利數據如此海量,如何從龐大的數據中得到重要的信息,已經使專利檢索成為專利信息利用的焦點。

查詢擴展方法被廣泛地應用于提高信息檢索結果的準確率[1-3]。其中,偽相關反饋(pseudo relevance feedback,PRF)方法作為一種查詢擴展方法被證明是十分有效的[4-5]。查詢擴展過程實際上是對用戶提交的原始查詢關鍵字進行修改,從而更好地表達用戶的潛在意圖,并將重構后的查詢作為關鍵詞輸入搜索引擎。因而查詢重構的首要目的是為了提升整體排序質量,并將其展現給用戶。Wang等人[6]采用了一種基于語義的查詢擴展技術來豐富專利查詢,并更加準確地理解用戶的專利查詢意圖。Khuda-Bukhsh[7]等人提出了一種基于主動學習的查詢分類方法,并取得了較好的分類效果。Wu等人[8]提出了一種構建偽查詢的方法來進行查詢意圖檢測。Potey等人[9]則充分利用查詢日志信息,并且基于查詢日志構建了查詢意圖識別模型。Rashidghalam等人[10]利用BabelNet概率和訪問概率算法提出了一種非監督的查詢意圖識別算法。用戶的查詢意圖識別是搜索引擎必需完善的技術,而在專利檢索中用戶往往關注某一特定領域的專利,將用戶的查詢意圖準確地映射至某一特定的專業領域對于提高專利檢索系統的用戶體驗顯得更加重要。

查詢重構過程需要從特定的語料資源中挖掘各詞項與原始查詢之間的某種關聯屬性,進而選擇關聯程度較高的詞項作為擴展詞加入查詢。查詢重構技術的兩個關鍵環節在于擴展資源的選取以及詞項間關聯屬性的挖掘。在擴展源一致的情況下,詞項之間的關聯挖掘對于查詢擴展過程顯得尤為重要。

近年來,深度學習作為一種有效的機器學習方法使得文本挖掘領域得到了進一步發展。專利檢索也是文本挖掘領域的一個重要研究任務,因此深度學習方法有著很好的應用基礎。本文將深度學習模型融入到專利檢索中,提高專利領域內檢索方法的準確率與召回率。

目前,深度學習在自然語言處理方向主要有兩個分支:第一個是以Srivastava[11]為代表的主要使用深度置信網絡RBM(restricted Boltzmann machine)對文檔進行主題建模,其結果優于傳統的主題模型LDA(latent Dirichlet allocation);另一分支是以Hill[12]為代表的使用多層感知機CNN(convolutional neural network)、RNN(recurrent neural network)等對文檔建模。前者不考慮文檔內詞語的出現順序,僅僅從文檔維度考慮詞語之間的主題關系。而后者更多以滑動窗口或反饋的形式對短文本進行建模。詞向量表示方法是一種有效的將不同的詞項表示為相同維度向量的方法,基于該向量,可以計算詞項之間的相似度,本文基于該相似度計算查詢詞與候選詞之間相關度,借此改善查詢擴展方法的檢索性能。本文綜合考慮專利文檔多文本域以及各個域的不同特征,使用不同的檢索模型,充分利用專利的特性和深度學習中的詞向量模型在自然語言處理中的優勢,將其應用于查詢擴展方法的候選詞選擇過程當中,用以提高專利檢索的準確率。

本文組織結構如下:第2章給出相關工作;第3章探索詞向量方法對專利檢索查詢擴展候選詞選擇的影響,并提出基于詞向量模型的專利查詢擴展方法;第4章給出實驗結果;第5章總結全文。

2 相關工作

近年來,專利檢索研究得到極大關注,這些研究主要著眼于探索基于主題的查詢重構方法。查詢重構過程需要從特定的語料資源中挖掘各詞項與原始查詢之間的某種關聯屬性,進而選擇關聯程度較高的詞項作為擴展詞加入查詢。查詢重構技術的兩個關鍵環節在于擴展資源的選取以及詞項間關聯屬性的挖掘。

當前擴展資源的選取主要分為三大類,即全局信息、局部信息和外部數據,通常不同的擴展資源的選取也對應了不同的詞項間關聯屬性挖掘方法。在早期的工作中,關鍵字被抽取用于新的查詢[13-14];目前流行的局部分析方法主要是偽相關反饋,它是在相關反饋的基礎上發展起來的。文獻[1]首度提出擴展詞只從排名靠前的初次檢索結果中抽取,其基本思想是利用初次檢索得到的與原查詢最相關的N篇文章(偽相關文檔集)作為擴展詞項的來源。

最近研究表明[15],使用來自于所檢索文本不同域的詞作為查詢擴展詞可以獲得較好的檢索結果。本文將采用域信息來選擇候選擴展詞,提升專利檢索結果,同時將域作為一種有效的信息來源探索其對專利檢索中查詢擴展的影響。

對于查詢擴展方法,查詢擴展詞選擇尤為重要。該方法主要是對各種查詢擴展資源采用對應的關聯挖掘算法,挖掘各資源中與原查詢相關的詞項,并對每個相關詞項按其信息源分別給出關聯度分值,結合原始查詢詞提高檢索的準確率。目前,神經網絡模型在自然語言處理方面得到了廣泛的應用,尤其是RNN[16]模型與CNN[17]模型。RNN模型可以有效地捕捉句子當中蘊涵的語法與語義關系,通過使用反饋邊以及memory cell和gate等方式,使其具有處理時間序列標注任務的能力。CNN模型通過卷積核可以求出句子當中的某些特定詞之間蘊涵的特征,不但減少了模型的復雜度,而且提高了特征提取的純度。這兩個模型的共同點在于它們必須首先把數據集中的每個單詞映射到連續的實數空間中,用d維詞向量來表示每一個詞。訓練詞向量的方法采用較多的是連續詞袋(continuous bag of words,CBOW)、Skip-gram[18]模型。Mikolov等人[18]發現CBOW和Skip-gram方法訓練出來的詞矢量支持代數的向量加法操作,發現vec(“Russia”)+vec(“river”)和vec(“Volga River”)兩個詞向量具有較高的相似度,并且將這種性質應用到短語識別任務。由于該方法可以有效地表示詞與詞之間的關系,目前已有相關研究將其應用于查詢擴展任務當中[19]。本文也將采用這種方法基于偽相關反饋文檔構造擴展詞向量,用于計算候選擴展詞與原始查詢詞的關系。

3 基于詞向量的查詢擴展方法

本文采用查詢擴展方法優化專利檢索結果;采用Rocchio模型作為多專利文本域擴展的基礎;采用原始數據集進行偽相關反饋;采用多種擴展詞選擇方法從原始數據集中提取查詢擴展詞,加入原始查詢中,提高專利檢索準確率。查詢擴展通常包含兩個步驟:第一步選擇偽相關文檔集合;第二步評估擴展詞的權重。

3.1 偽相關文檔的選擇

本文的偽相關文檔集合來自于TREC專利數據集查詢返回的結果。第一步是偽反饋文檔集合的選擇,因為專利是一種存在多個不同內容文本域的文檔,所以本文采用BM25F來選擇前n篇文檔。

BM25(BM stands for best matching)方法的一種改進方法BM25F(BM25 for text field)[20]是在多文檔域上進行擴展,該方法的一個關鍵屬性就是非線性,當只有一個域需要計算時,BM25F退化為BM25方法。本文將二者均看作BM25F方法,這里的F是對文檔描述中包含的特定域的說明。本文使用BM25F作為初次檢索獲取反饋文檔的方法,初次檢索中考慮了多個域。對于給定查詢q,包含文檔域描述F的文檔d,其BM25F計算方式如下:

公式中的求和是對于查詢q中的所有詞t進行的,It是詞項t的逆文檔頻率的Robertson-Sparck-Jones形式,其計算方法如下:

其中,N是文檔集合中文檔的總數;df是詞項t的文檔頻率。TFt是一個簡單的詞頻飽和公式,它能限制同一文本域中的詞頻對整體的影響,定義如下:

f的計算方法是:

其中,tfF是詞項t在文本域F中的詞頻;k是飽和度參數,能控制TFt的非線性程度;wF是訓練得到的文本域權重參數;βF是文本域長度的函數,定義如下:

其中,bF是長度調節參數;lF是文本域長度;avglF是文檔集合中所有文本域的平均長度。本文應用BM25F作為初次檢索的方法,選擇在初次檢索中排序最為靠前的n個位置的文檔作為第二階段候選擴展詞選擇的擴展詞來源。

3.2 基于TF-IDF的查詢擴展方法

該方法首先使用原始查詢及BM25F方法獲得n篇相關專利文檔,再抽取n篇文檔中的TF-IDF特征排序高的詞作為查詢擴展詞,合并原始查詢詞與查詢擴展詞后再使用BM25F方法進行檢索。其中TFIDF[21]包含兩個變量,詞頻和逆文檔頻率,有很多種方式來確定這兩個變量的值。對于詞頻,最簡單的方式就是選擇一個詞在一篇文檔中出現的頻率,即該詞在文檔中出現的次數。

其中,tft,d是詞t在文檔d中出現的次數;nt是文檔集合中包含詞t的文檔數;N是文檔集合中文檔的總數。

3.3 基于詞向量的查詢擴展方法

本文采用專利文本進行詞向量的構建。首先把專利文檔中所有的關鍵詞通過d維的實數向量進行表示,之后再通過詞語之間的相似度計算方法,計算擴展候選詞與原始查詢詞之間的關系,選擇與原始查詢相似度高的候選詞作為查詢擴展詞。

詞向量:作為利用深度學習訓練語言模型過程中獲得的中間產物,在自然語言處理領域獲得了大量的關注。它可以把一個詞表示成任意維度(常見為50~200維)的實數向量,同時賦予了每個詞向量語義信息。本文選擇Skip-gram模型進行詞向量的構造。該模型最大化的目標函數如下所示:

其中,b是決定上下文窗口大小的常數,b越大訓練時間會增加,同時精確度也會提高。同時選擇了Negative-Sampling[22]方法去訓練Skip-gram模型,最終訓練出的詞語向量維度為200維。詞向量能夠將兩個詞之間的語義相似度映射到空間中兩個向量的距離上,使用該向量進行查詢擴展可獲得各個詞之間在語義上的關聯程度信息。該向量可以用于計算候選詞與查詢詞之間的相似度,本文采用向量的余弦相似度來計算擴展詞c與原始查詢詞qi的相似度。計算公式如下所示:

其中,qi為原始查詢中的詞項。

本文采用4種方法利用詞向量模型所得到的原始查詢與候選詞的相似度進行專利文檔檢索的查詢擴展。

(1)Word2Vec查詢擴展:通過詞向量余弦相似度的計算,直接選取和原始查詢相關度最高的n個候選詞作為擴展詞加入到原始查詢當中。

(2)層級式擴展方法Word2Vec-TFIDF:對原始查詢詞進行詞向量(Word2Vec)擴展后得到查詢A,再對A進行TF-IDF查詢擴展得到查詢B,將B作為擴展后的查詢。

(3)層級式擴展方法TFIDF-Word2Vec:對原始查詢詞進行TF-IDF查詢擴展后得到查詢詞集合A,再對A進行Word2Vec查詢擴展得到查詢詞集合B,將B作為擴展后的查詢。

(4)合并式擴展方法TFIDF+Word2Vec:對原始查詢詞進行Word2Vec擴展得到查詢A,對原始查詢詞進行TF-IDF擴展得到查詢B,取A和B的并集作為擴展后的查詢。

4 實驗及結果

本文所使用的數據集是TREC-CHEM數據集,其中語料包括從USPTO、EPO和WIPO獲取的專利文檔,共1 266 771篇,該數據集包含2009年以來化學領域的專利文獻。采用TREC-CHEM2010和TREC-CHEM2011中技術研究(TS)任務的全部查詢作為查詢集合,該集合包含由專家構造的部分含標注的技術研究查詢12個,每個查詢都包括一個基于專利文檔數據利用自然語言表達的信息需求描述。系統的任務是返回一個盡可能好并能回答該信息需求的文檔集合。這些查詢構造都十分有價值,從而更能符合專家搜索過程中的真實信息需求。本文使用數據中的專利文檔,一篇專利文檔包括若干文本域,如標題、摘要、描述和權力要求,這些特定的文本域被用于提升擴展詞的質量。專利檢索結果評價指標采用平均準確率MAP和P@n。

4.1 實驗參數設置

設輸入查詢為Q1,含有t個查詢詞,首先采用BM25F方法獲取原始查詢Q1在TREC-CHEM數據集中的前n篇相關文檔(n取1 000到10 000)。將這n篇相關文檔作為訓練語料,使用詞向量模型訓練得到Q1所對應的詞向量模型M1,在詞向量模型M1中,使用兩種查找擴展詞的方法,分別如下。

方法1為Q1中每個詞查找最相近的100個詞作為擴展出的查詢詞,則共擴展出100×q個查詢詞,將該集合描述為E1。合并原始查詢Q1與擴展出的查詢詞集合E1,其中將Q1的權重設置為1,E1中各詞的權重設置為:其中,e1為E1中各個詞的詞向量;q1為在Q1中找到的與e1最近的詞的詞向量;α為衰減系數,值為0.1~1.0。對于E1中的擴展詞,按權重對其進行降序排序,對于重復的擴展詞進行去重處理,將其權重相加,作為該詞的最終權重。在排序并去重的E1集合中選取前k個詞(k取5~80)加入原始查詢中。

方法2對于每一個候選詞c,計算c與查詢中每個查詢詞的相似度,進行求和,選取相似度之和最大的前k個詞(k取5~80)加入到原始查詢當中。將該集合描述為E2,輸入查詢中Q1的權重仍設置為1,E2中各詞的權重設置為:

其中,e2為E2中各個詞的詞向量;-q為Q1中原始查詢詞的詞向量的平均向量;α為衰減系數,值為0.1~1.0。

在實驗中測試所有參數組合,使各種方法的性能達到最好(方法對應的MAP值達到最高)。方法1最優參數設置如表1所示,方法2最優參數設置如表2所示。

Table 1 Parameter setting for Method 1表1 方法1參數設置

Table 2 Parameter setting for Method 2表2 方法2參數設置

4.2 實驗結果

表3和表4列出了3.2節提出的基于TF-IDF的專利查詢擴展方法以及3.3節提出的基于詞向量的專利查詢擴展方法。Baseline方法是將BM25F作為檢索模型采用原始查詢對數據集進行檢索的方法,以及相關性模型RM方法[23]。

Table 3 Results of patent query expansion(Method 1)表3 專利查詢擴展方法實驗結果(方法1)

Table 4 Results of patent query expansion(Method 2)表4 專利查詢擴展方法實驗結果(方法2)

TFIDF方法為3.2節提出的查詢擴展方法;Word2Vec、Word2Vec-TFIDF、TFIDF-Word2Vec 和TFIDF+Word2Vec是3.3節提出的基于詞向量進行查詢擴展的專利檢索方法。

圖1~圖3顯示的是方法1中Word2Vec-TFIDF在不同參數設置下的實驗結果。

Fig.1 Relation of documents number nandMAP(Method 1)圖1 文檔數量n與MAP值之間的關系(方法1)

Fig.2 Relation of expansion words number kandMAP(Method 1)圖2 擴展詞數k與MAP值之間的關系(方法1)

Fig.3 Relation of decay factorα andMAP(Method 1)圖3 衰減系數α與MAP值之間的關系(方法1)

從圖1的實驗結果可以看出,當文檔數量為500時,專利檢索的MAP值取得峰值。當文檔數量大于3 000時,MAP變得較為穩定,但仍未超過峰值。因此方法1中參數n即相關文檔數量本文設置為500。

從圖2的實驗結果可以看出查詢詞選擇數量k與檢索結果評價指標MAP之間的關系。當k達到60時,專利檢索的MAP值取得峰值,較BM25相比有明顯提升,而超過60時,檢索結果會有明顯下降。因此方法1中參數k即擴展詞數本文設置為60。

圖3顯示了原始查詢與擴展詞查詢的衰減系數α的變化對于專利檢索結果MAP值的影響。當α值為0.1時,方法1的實驗效果最好,同時可以看到參數α達到0.1后如果繼續增加,會導致檢索結果下降,因此為保證Word2Vec-TFIDF方法的檢索性能達到最佳,設置α值為0.1。

其他幾種方法的實驗參數設置與Word2Vec-TFIDF方法類似,都是在其他兩個參數不發生變化的情況下對于單一參數進行調優,保證查詢擴展方法的實驗結果MAP值達到最大。

圖4~圖6顯示的是方法2中Word2Vec-TFIDF在不同參數設置下的實驗結果。

從圖4的實驗結果可以看出,隨著文檔數量增長,MAP值在波動中先上升后下降,并在文檔數量為4 000時取得最大值。因此方法1中參數n即相關文檔數量本文設置為4 000。

Fig.4 Relation of documents numbern andMAP(Method 2)圖4 文檔數量n與MAP值之間的關系(方法2)

Fig.5 Relation of expansion words number kandMAP(Method 2)圖5 擴展詞數k與MAP值之間的關系(方法2)

Fig.6 Relation of decay factorα andMAP(Method 2)圖6 衰減系數α與MAP值之間的關系(方法2)

從圖5的實驗結果可以看出查詢詞選擇數量k與檢索結果評價指標MAP之間的關系。當k大于40時,MAP相對于BM25才有顯著增長,當k到60時MAP達到峰值,而文檔個數超過60以后檢索結果會有明顯下降。因此方法2參數k即擴展詞數本文設置為60。

圖6顯示了原始查詢與擴展詞查詢的衰減系數α的變化對于專利檢索結果MAP值的影響。可以看出檢索結果隨衰減系數的增大呈現先增長、后下降的走勢,但總體變化趨勢較為平緩,并在衰減系數為0.5時達到峰值。因此為保證Word2Vec-TFIDF方法的檢索性能達到最佳,設置α值為0.5。

其他幾種方法的實驗參數設置與Word2Vec-TFIDF方法類似,都是在其他兩個參數不發生變化的情況下對于單一參數進行調優,保證查詢擴展方法的實驗結果MAP值達到最大。

5 結論

本文采用詞向量模型對于專利檢索的查詢擴展方法進行改進,提出4種方法將詞向量模型融入到查詢擴展詞選擇過程當中,進而改進查詢擴展模型的性能。在TREC數據集上的實驗表明,本文的查詢擴展方法對于專利檢索十分有效,能夠有效地提高專利檢索的準確率,對于理解用戶的查詢意圖有著很好的促進作用。實驗顯示,單獨使用詞向量模型進行擴展詞的選擇不能夠直接有效地提高專利檢索的準確率,但是與傳統的TF-IDF擴展詞選擇方法相融合則能夠有效地提高查詢擴展模型的性能,整體實驗結果指標顯示Word2Vec-TFIDF是一種較為有效的查詢擴展融合方法。

:

[1]Xu Jinxi,Croft W B.Query expansion using local and global document analysis[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Zurich,Aug 18-22,1996.New York:ACM,1996:4-11.

[2]Cronen-Townsend S,Zhou Yun,Croft W B.A framework for selective query expansion[C]//Proceedings of the 2004 ACM International Conference on Information and Knowledge Management,Washington,Nov 8-13,2004.New York:ACM,2004:236-237.

[3]Metzler D,Croft W B.Latent concept expansion using Markov random fields[C]//Proceedings of the 30thAnnual Inter-national ACM SIGIR Conference on Research and Development in Information Retrieval,Amsterdam,Jul 23-27,2007.New York:ACM,2007:311-318.

[4]Tao Tao,Zhai Chengxiang.Regularized estimation of mixture models for robust pseudo-relevance feedback[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Seattle,Aug 6-11,2006.New York:ACM,2006:162-169.

[5]Lee K S,Croft W B,Allan J.A cluster-based resampling method for pseudo-relevance feedback[C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Singapore,Jul 20-24,2008.New York:ACM,2008:235-242.

[6]Wang Feng,Lin Lanfen,Yang Shuai,et al.A semantic query expansion-based patent retrieval approach[C]//Proceedings of the 10th International Conference on Fuzzy Systems and Knowledge Discovery,Shenyang,Jul 23-25,2013.Piscataway:IEEE,2013:572-577.

[7]Khuda-BukhshAR,Bennett P N,White R W.Building effective query classifiers:a case study in self-harm intent detection[C]//Proceedings of the 24th ACM International Conference on Information and Knowledge Management,Melbourne,Oct 19-23,2015.NewYork:ACM,2015:1735-1738.

[8]Wu Zongda,Shi Jie,Lu Chenglang,et al.Constructing plausible innocuous pseudo queries to protect user query intention[J].Information Sciences,2015,325:215-226.

[9]Potey M A,Patel D A,Sinha P K.A survey of query log processing techniques and evaluation of web query intent identification[C]//Proceedings of the 3rd International Advance Computing Conference,Ghaziabad,Feb 22-23,2013.Piscataway:IEEE,2013:1330-1335.

[10]Rashidghalam H,Mahmoudi F.Web query classification using improved visiting probability algorithm and babelnet semantic graph[C]//Proceedings of the IEEE AI&Robotics,Qazvin,Apr 12,2015.Piscataway:IEEE,2015:1-5.

[11]Srivastava N,Salakhutdinov R,Hinton G.Modeling documents with deep Boltzmann machines[C]//Proceedings of the 29th Conference on Uncertainty in Artificial Intelligence,Bellevue,Aug 11-15,2013.New York:ACM,2013:616-624.

[12]Hill F,Cho F,Korhonen A,et al.Learning to understand phrases by embedding the dictionary[J].Transactions of the Association for Computational Linguistics,2016,4:17-30.

[13]Konishi K.Query terms extraction from patent document for invalidity search[C]//Proceedings of the 5th NTCIR Workshop Meeting on Evaluation of Information Access Technologies:Information Retrieval,Question Answering and Cross-Lingual Information Access,Tokyo,Dec 6-9,2005.Tokyo:NTCIR,2005:1-6.

[14]Itoh H,Mano H,Ogawa Y.Term distillation in patent retrieval[C]//Proceedings of the ACL-2003 Workshop on Patent Corpus Processing,Sapporo,2003.Stroudsburg:ACL,2003:41-45.

[15]Wanagiri M Z,Adriani M.Prior art retrieval using various patent document fields contents[C]//LNCS 6360:Multilingual and Multimodal Information Access Evaluation,International Conference of the Cross-Language Evaluation Forum,Padua,Sep 20-23,2010.Berlin,Heidelberg:Springer,2010:1-6.

[16]Chung J,Gulcehre C,Cho K H,et al.Empirical evaluation of gated recurrent neural networks on sequence modeling[J].arXiv:1412.3555,2014.

[17]Farabet C,Couprie C,Najman L,et al.Learning hierarchical features for scene labeling[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1915-1929.

[18]Mikolov T,Sutskever I,Chen Kai,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems,Lake Tahoe,Dec 5-8,2013.Red Hook:CurranAssociates,2013:3111-3119.

[19]Diaz F,Mitra B,Craswell N.Query expansion with locallytrained word embeddings[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics,Berlin,Aug 7-12,2016.Stroudsburg:ACL,2016:367-377.

[20]Robertson S,Zaragoza H,Taylor M.Simple BM25 extension to multiple weighted fields[C]//Proceedings of the 2004 ACM CIKM International Conference on Information and Knowledge Management,Washington,Nov 8-13,2004.New York:ACM,2004:42-49.

[21]Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.

[22]Mikolov T,Sutskever I,Chen Kai,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems,Lake Tahoe,Dec 5-8,2013.New York:ACM,2013:3111-3119.

[23]Lavrenko V,Croft W B.Relevance based language models[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,New Orleans,Sep 9-13,2001.New York:ACM,2001:120-127.

猜你喜歡
文本實驗方法
記一次有趣的實驗
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 99人妻碰碰碰久久久久禁片| 99精品热视频这里只有精品7| 美女被操91视频| 拍国产真实乱人偷精品| 欧美视频在线第一页| 久久这里只精品国产99热8| 亚洲免费人成影院| www亚洲天堂| 99热这里只有精品免费| 国产精品流白浆在线观看| 国产亚洲视频中文字幕视频| 综合色88| 996免费视频国产在线播放| 免费在线观看av| 女人毛片a级大学毛片免费| 国产地址二永久伊甸园| 人妻21p大胆| 国产精品福利在线观看无码卡| 亚洲成网777777国产精品| 亚洲成在人线av品善网好看| 成人精品午夜福利在线播放| 成人另类稀缺在线观看| 国产精品片在线观看手机版 | 亚洲男人天堂久久| 99久久精品国产精品亚洲| 亚洲AV无码久久精品色欲| 国产sm重味一区二区三区| 伊人色综合久久天天| 国产噜噜在线视频观看| 久久精品视频亚洲| 精品国产污污免费网站| 国产精选小视频在线观看| 国产精品尤物铁牛tv| 国产毛片久久国产| 国产亚洲高清视频| 国产欧美日本在线观看| 国产精品中文免费福利| 老司机久久99久久精品播放| 91精品免费久久久| 色综合五月| 色综合天天综合中文网| 国产精品亚洲一区二区三区在线观看| 欧美在线观看不卡| 亚洲国模精品一区| 国产小视频在线高清播放| 日本免费一区视频| 亚州AV秘 一区二区三区| 色综合久久久久8天国| 国产哺乳奶水91在线播放| 成人在线观看不卡| 67194亚洲无码| 亚洲黄网视频| 啪啪啪亚洲无码| 国产欧美精品午夜在线播放| 波多野结衣中文字幕久久| 2021最新国产精品网站| 精品欧美一区二区三区久久久| 亚洲一区色| 国产呦视频免费视频在线观看| 亚洲婷婷六月| 亚洲狠狠婷婷综合久久久久| 国产三级精品三级在线观看| 欧美啪啪精品| 天天干天天色综合网| 欧美啪啪精品| 97青草最新免费精品视频| 99re经典视频在线| 国产成人AV男人的天堂| 国产欧美日韩在线一区| 日本免费精品| 高h视频在线| 国产亚洲精品资源在线26u| 视频国产精品丝袜第一页| 日韩精品成人网页视频在线| 欧美日韩精品一区二区视频| 国产女人综合久久精品视| 欧美精品影院| 任我操在线视频| 人妻91无码色偷偷色噜噜噜| 久久久精品无码一区二区三区| 福利国产微拍广场一区视频在线 | 久久精品国产精品国产一区|