基于深度語義信息的查詢擴展

2020-11-30 05:47:32劉高軍段建勇

計算機應(yīng)用 2020年11期

劉高軍，方曉，段建勇

（北方工業(yè)大學(xué)信息學(xué)院，北京 100144）

（?通信作者電子郵箱duanjy@ncut.edu.cn）

0 引言

信息檢索任務(wù)執(zhí)行時，經(jīng)常因輸入的查詢信息過少或過于冷門導(dǎo)致返回的檢索結(jié)果查全率低。查詢擴展把與原查詢相關(guān)的詞語、概念等以邏輯或的方式添加到原查詢中，構(gòu)造一個新的查詢，從而提高用戶的使用體驗，如圖1所示。

目前查詢擴展的主要方法有基于關(guān)系和規(guī)則挖掘的方法、基于用戶日志的方法、基于全局文檔分析等方法，其中，基于全局文檔分析的方法利用已有語料分析詞語空間中詞與詞的相似關(guān)系，從而對查詢詞進行擴展。分析方式可以通過使用相似字典等數(shù)據(jù)語料或使用語言模型在大規(guī)模語料數(shù)據(jù)中訓(xùn)練詞與詞的相似關(guān)系。

相似字典多是人為提煉，經(jīng)過多年沉淀，將中文語言學(xué)中詞與詞之間的相似性進行概括。這種數(shù)據(jù)雖然擁有更強的語義相似性信息，但是由于人為提煉，數(shù)據(jù)中擁有許多語義孤島，無法將詞語空間中每個詞語進行關(guān)聯(lián)。

圖1 查詢擴展示意圖Fig.1 Schematic diagram of query extension

常用的語言模型，如Word2vec［1］，可以根據(jù)文章中詞語的上下文關(guān)系獲取到詞語之間的語義、上下文關(guān)系［2］，但是這一目標(biāo)并不一定是許多信息檢索任務(wù)的目標(biāo)［3］。

傳統(tǒng)語言模型是基于詞與詞的上下文相似度，所以相似性更多的由語法層面獲取而非語義層面，如：“北京”和“首都”相似度為0.24，而“成功”和“失敗”的相似度為0.65。在查詢擴展任務(wù)中“北京”可以擴展為“首都”，而“成功”卻絕對不應(yīng)該擴展為“失敗”。

文獻［4］提出使用義原詞典，基于概念樹的方式獲取詞與詞之間的相似性。該方法可以獲取詞語間的較深層語義特征，從而提升查詢擴展的效率。因為語義概念樹是一種詞語含義的存儲結(jié)構(gòu)，雖然與簡單的近義詞林相比擁有更多的細(xì)節(jié)信息，但是依然無法解決詞語間的語義孤島問題。

文獻［5］提出利用深度學(xué)習(xí)將用戶查詢上升到語義概念層次，使用Skip-gram 模型從大量網(wǎng)頁文檔中訓(xùn)練詞語相關(guān)性。其本質(zhì)是一種語言模型的應(yīng)用，提取出的語義相關(guān)性會過度考慮詞語間的上下文相似度，而忽略詞語本身的特性。

本文提出一種基于神經(jīng)網(wǎng)絡(luò)的語義相關(guān)模型，結(jié)合語言模型與近義詞林、語言知識庫等語義語料，使模型在詞語特性層擬合相似度，學(xué)習(xí)到更深層的基于語義相似度的詞語關(guān)系。實驗結(jié)果表明將該模型用于查詢擴展任務(wù)可以取得不錯的效果。

1 相關(guān)工作

在查詢擴展領(lǐng)域，目前常用的方法有：基于關(guān)系和規(guī)則挖掘的方法、基于用戶日志的方法、基于全局文檔分析的方法等［6］。無論是哪一種方法，查詢擴展的核心內(nèi)容是統(tǒng)計與分析詞語間的相關(guān)性與可擴展性從而建立擴展詞庫。

三種方法分別利用不同的數(shù)據(jù)提取詞語間的相關(guān)性：1）基于關(guān)系和規(guī)則挖掘的方法通過從搜索引擎查詢?nèi)罩局刑崛∨c原查詢相關(guān)的詞語進行擴展，也可以利用文檔進行全局或者局部的詞語間關(guān)系挖掘從而構(gòu)造擴展詞庫［7］；2）基于用戶查詢?nèi)罩镜姆椒ɡ糜脩舻牟樵內(nèi)罩举Y源分析詞與詞之間的相關(guān)性，選擇相似度高的詞作為擴展詞［8］；3）基于全局文檔分析的方法是采用聚類算法、潛在語義索引（Latent Semantic Indexing，LSI）［9-10］和相似詞典等技術(shù)計算文檔中詞語間的相關(guān)性。目前在中文領(lǐng)域，也有對于跨語言信息檢索的研究，基于跨語言詞向量模型實現(xiàn)語言統(tǒng)一和查詢擴展的目的［11］。跨語言信息檢索中使用潛在語義索引技術(shù)的基本思想建立不同語言的對應(yīng)關(guān)系［12］，由此得到源語言與目標(biāo)語種的擴展關(guān)系。基于主題模型的跨語言信息檢索［13-14］，在原查詢詞項的給定擴展主題中提取概率較高的擴展詞實現(xiàn)跨語言查詢擴展。

建立擴展詞庫的方法可以分為兩類：1）根據(jù)各種語言學(xué)知識和語義構(gòu)造的擴展詞典，例如基于語義知識詞典的方法通常是使用HowNet、WordNet或同義詞林、翻譯詞典等語義知識詞典中所能挖掘的關(guān)系來選取擴展詞。2）基于大規(guī)模通用語料庫的統(tǒng)計信息訓(xùn)練而成的擴展詞庫，例如使用Word2vec進行大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練，獲取詞與詞之間的相關(guān)性從而獲得擴展詞庫。

方法1 直接在包含語義信息的語料中獲取詞語間關(guān)系，詞庫模型可以獲取較強的語義信息；但是由于包含語義信息的語料多為人工匯總，擁有諸多語義孤島，模型很難學(xué)習(xí)到詞語間的深度特征與全局信息。方法2 基于詞嵌入方法獲取擴展詞庫，可以學(xué)習(xí)文檔中各個詞語的深層特征；但是這種方法依賴大量訓(xùn)練語料，并且傳統(tǒng)詞嵌入模型更多考慮詞共現(xiàn)而忽略其他因素，語義表達能力較弱［15］。

在全局文檔分析方法中，基于詞典的查詢擴展方法是一種簡單而有效的方法，該方法從包含詞語特性的近義詞林等數(shù)據(jù)中提取詞語間的相關(guān)性。文獻［16］以詞典為基礎(chǔ)，使用查詢序列的最大匹配方法進行查詢擴展，但是該方法未能提取到語義空間中更深層的特性；文獻［17］提出了結(jié)合語義詞典與詞嵌入的方法進行查詢擴展，利用詞嵌入獲取語義空間的深層特征，但是該方法中詞嵌入占據(jù)主導(dǎo)作用；文獻［18］中嘗試使用谷歌搜索引擎替代字典等資源，并通過實驗證明其可行性。本文方法基于全局文檔分析，結(jié)合深度學(xué)習(xí)與包含語義信息的語料，利用神經(jīng)網(wǎng)絡(luò)的深度挖掘能力解決語料中的語義孤島問題，將局部詞語間關(guān)系擬合成全局詞語關(guān)系。

2 方法

本文使用一種淺層神經(jīng)網(wǎng)絡(luò)以獲取每個詞語與語料中所有詞語間的可擴展關(guān)系，可以被擴展的詞稱為可擴展詞，將這種關(guān)系的集合稱為全局可擴展詞分布。本文從語料中提取部分詞語間的可擴展關(guān)系，將這種關(guān)系稱為局部可擴展詞分布。

2.1 模型結(jié)構(gòu)

如圖2 所示，本文模型使用局部可擴展詞分布提取層將多元語義語料抽象成局部可擴展詞分布。局部可擴展詞分布包含語料空間中諸多語義孤島信息，經(jīng)過神經(jīng)網(wǎng)絡(luò)層將這些信息迭代擬合為全局可擴展詞分布，從而去除孤島信息，獲取語料空間中強連接可擴展性信息。

圖2 所提模型總體結(jié)構(gòu)Fig.2 Overall structure of the proposed model

本文使用包含一個線性隱含層的前饋神經(jīng)網(wǎng)絡(luò)，如圖3所示，這種結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)簡單而有效。使用兩組嵌入?yún)?shù)，Xi和Xw，前者可以將輸入的one-hot 詞向量映射到詞嵌入空間，而后者用于估計可擴展詞分布。

圖3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Neural network structure

模型的輸入為一個長度為N 的one-hot 詞向量wi，如“成功”，其中N為出現(xiàn)在語料中的詞匯總數(shù)。該模型的隱含層使用式（1）將給定的輸入詞向量wi映射成一個詞嵌入向量w：

其中：Xi為N × d維的詞嵌入向量權(quán)重矩陣，d為嵌入維數(shù)，網(wǎng)絡(luò)的輸出層為全連接層，使用式（2）獲取輸出擴展詞分布：

其中：Xw為d × N 維的權(quán)重矩陣，bw為1× N 維的偏置矩陣，σ為激活函數(shù)。

模型的輸出為長度為N 的分布向量，向量中包含了語料空間中所有詞語與輸入詞語間的可擴展性權(quán)值。經(jīng)過全局分析，按照權(quán)值降序獲取應(yīng)當(dāng)擴展的詞語，如成就”“順利”，權(quán)值得分需高于閾值0.5，低于0.5的詞語不作為擴展詞語候選。

2.2 可擴展詞分布

在查詢擴展任務(wù)中，待擴展詞指等待進行擴展的查詢詞，每一個待擴展詞都與詞向量空間中的任何一個詞語存在關(guān)聯(lián)關(guān)系，如圖4 所示，將這些關(guān)聯(lián)關(guān)系的數(shù)值化參數(shù)的集合稱作這個待擴展詞的全局可擴展詞分布。

圖4 可擴展詞分布示意圖Fig.4 Schematic diagram of extensible word distribution

通過使用神經(jīng)網(wǎng)絡(luò)，將局部的詞與詞之間的關(guān)系作為訓(xùn)練數(shù)據(jù)，使得模型迭代學(xué)習(xí)整體的詞與詞之間的擴展關(guān)系。每個輸入的待擴展詞都可能成為另外一組擴展中的輸出擴展詞，所以與普通的擴展詞庫檢索法相比，本文方法可以使模型學(xué)習(xí)到更深層的詞與詞之間的可擴展性。

本文使用哈爾濱工業(yè)大學(xué)（哈工大）提出的“哈工大近義詞林?jǐn)U展版”以及“語言知識庫HowNet義原數(shù)據(jù)”作為提取局部詞與詞關(guān)系的數(shù)據(jù)，在2.2.1節(jié)以及2.2.2節(jié)中將詳細(xì)介紹如何提取局部詞與詞關(guān)系作為訓(xùn)練數(shù)據(jù)。

2.2.1 近義詞林

本文使用“哈工大近義詞林?jǐn)U展版”作為基礎(chǔ)數(shù)據(jù)，利用其中的近義詞關(guān)系獲取局部的詞與詞的可擴展性。“哈工大近義詞林?jǐn)U展版”中，每組近義詞包含多個詞語，這些詞語間存在近義關(guān)系，例如“人、士、人物、人士、人氏、人選”，這些近義詞組之間的詞語為最高級別的近義詞關(guān)系。同時，如表1 所示，“哈工大近義詞林?jǐn)U展版”中給出了5 種級別的近義詞關(guān)系。隨著級別的遞增，詞義刻畫越來越細(xì)，到了第5 層，每個分類里詞語數(shù)量已經(jīng)不大，很多只有一個詞語，已經(jīng)不可再分，被稱為原子詞群、原子類或原子節(jié)點。不同級別的分類結(jié)果可以為自然語言處理提供不同的服務(wù)。例如第4 層的分類和第5 層的分類在信息檢索、文本分類、自動問答等研究領(lǐng)域得到應(yīng)用。實驗證明，對詞義進行有效擴展，或者對關(guān)鍵詞做同義詞替換可以明顯改善信息檢索、文本分類和自動問答系統(tǒng)的性能。

表1 哈工大近義詞林?jǐn)U展版分級示意表Tab.1 HIT thesaurus（extended）classification table

本文將近義詞林中的數(shù)據(jù)格式化成所需的關(guān)系詞組，關(guān)系詞組中包含待擴展詞以及若干個關(guān)系詞，關(guān)系詞是從近義詞林中尋找與待擴展詞擁有指定近義等級的詞語。使用n代表選擇的近義等級，m代表最大的關(guān)系詞數(shù)量：當(dāng)待擴展詞的近義詞數(shù)量大于所需的m 值時，使用隨機抽取的方法抽取m個詞語作為關(guān)系詞；若待擴展詞的近義詞數(shù)量小于等于m 值時，使用所有k個近義詞參與計算。

實驗中為格式化好的關(guān)系詞組中出現(xiàn)的所有詞語創(chuàng)建one-hot向量，并使用式（3）將每個關(guān)系詞組中若干個關(guān)系詞的向量融合獲得待擴展詞的局部可擴展詞分布。

其中：R 為所求局部可擴展詞分布；k 為該關(guān)系詞組中關(guān)系詞的數(shù)量（k ≤m）；wi為第i個關(guān)系詞的one-hot向量。

2.2.2 義原分析

本文在語言知識庫HowNet 的義原標(biāo)注信息中提取具有語義相似的詞語集合作為可擴展詞分布的數(shù)據(jù)。

HowNet 是董振東先生、董強先生父子畢三十年之功標(biāo)注的大型語言知識庫，主要面向中文（也包括英文）的詞匯與概念。HowNet 認(rèn)為詞語可以用更小的語義單位來描述，這種語義單位被稱為“義原”（Sememe），義原就是原子語義，是最基本的、不可再分割的最小語義單位［19］。

本文分析HowNet 義原標(biāo)注數(shù)據(jù)集，將2 188 個義原作為基準(zhǔn)，把數(shù)據(jù)集中126 740 個詞語轉(zhuǎn)化為2 188 維的稀疏詞向量，使用式（4）計算每個詞語的義原關(guān)聯(lián)度：

其中：similarity 代表所求相似度；A、B 分別代表兩個稀疏詞向量，n代表向量維數(shù)。

實驗中使用p 作為判斷詞語間相關(guān)聯(lián)的義原關(guān)聯(lián)度閾值，m 作為每組關(guān)系詞組的最大關(guān)系詞數(shù)量。使用2.2.1 節(jié)中同樣的方法從整理好的關(guān)系詞組中計算出待擴展詞與其對應(yīng)的可擴展詞分布。

3 實驗

語義相關(guān)模型基于全局文檔分析的方法，利用深度學(xué)習(xí)將語義語料中的局部關(guān)聯(lián)關(guān)系擬合為全局關(guān)聯(lián)關(guān)系。在實驗中，為更好地評估全局可擴展詞分布中詞語之間的關(guān)聯(lián)關(guān)系，本文基于搜索熱度抽取若干待擴展詞，使用本文模型與傳統(tǒng)模型對這些詞進行擴展分析，并將返回結(jié)果標(biāo)注以計算擴展分析的效率。

3.1 數(shù)據(jù)來源

如2.2 節(jié)所介紹的，實驗主要使用“哈工大近義詞林?jǐn)U展版”與“語言知識庫HowNet義原標(biāo)注數(shù)據(jù)”作為訓(xùn)練的準(zhǔn)備數(shù)據(jù)。通過局部可擴展詞分布的提取從兩份數(shù)據(jù)中提取訓(xùn)練所需的數(shù)據(jù)。

為了更好地評估查詢擴展中詞擴展的效率，本文使用“搜狗實驗室網(wǎng)頁搜索結(jié)果評價［20］”數(shù)據(jù)集，將30 天內(nèi)的用戶搜索日志進行分詞統(tǒng)計，抽取出用戶搜索最常使用的1 000個熱門搜索詞，對這1 000 個詞語的擴展情況進行評價。分析得出，查詢擴展在熱門查詢詞上的應(yīng)用效果并不明顯，因為足量的數(shù)據(jù)已經(jīng)可以精確返回用戶所需的查詢結(jié)果。但是在不常用的搜索詞中，查詢擴展反而體現(xiàn)了自身的價值。本文在“搜狗實驗室網(wǎng)頁搜索結(jié)果評價”數(shù)據(jù)集中以同樣的方法抽取了用戶最不常用的1 000 個冷門搜索詞，對這1 000 個搜索詞進行擴展評估。

為充分論證語義相關(guān)模型在查詢擴展任務(wù)上的作用，本文使用搜狗實驗室的互聯(lián)網(wǎng)語料庫［21］，該語料庫中包含超過1.3 億個原始網(wǎng)頁，并提取了網(wǎng)頁的頁面原始內(nèi)容。使用該數(shù)據(jù)集作為實驗的文檔集，測試查詢擴展的效率。通過表2詳細(xì)展示本文的數(shù)據(jù)集使用情況。

表2 數(shù)據(jù)集詳細(xì)信息Tab.2 Dataset details

3.2 評估標(biāo)準(zhǔn)

本文在評估擴展結(jié)果的效率時，選擇P@n 指標(biāo)、mAP（mean Average Precision）指標(biāo)以及vmAP（variable mAP）指標(biāo)。

P@n 指標(biāo)是指在返回的前n 個結(jié)果中的精確度，使用式（5）表示：

其中：P@n是所求的指標(biāo)結(jié)果，Nc是前n個結(jié)果中正確的結(jié)果個數(shù)。在本文實驗中，重點留意P@1 指標(biāo)，使用這個值代表至少能擴展一個正確的擴展詞的能力指標(biāo)。

mAP指標(biāo)是對平均精度再做均值，使用式（6）表示：

其中：r 是每個相關(guān)結(jié)果的排名，S 是相關(guān)結(jié)果的總數(shù)，P@r 是前r 個返回得到的相關(guān)結(jié)果的精度。在查詢擴展領(lǐng)域中，將查詢詞的擴展詞加入檢索關(guān)鍵詞中，從而提高檢索效率。在實際使用中往往不需要擴展出過于大量的詞語，因為隨著擴展詞數(shù)量的增加，會出現(xiàn)語義漂移的現(xiàn)象，造成擴展詞與實際查詢中的詞語語義不符，反而降低了查詢效率。本文在mAP指標(biāo)中著重參考mAP@3，將這個值作為查詢擴展的平均擴展能力評估指標(biāo)。

上述兩個指標(biāo)是信息檢索領(lǐng)域常用的指標(biāo)。本文提出一種新的評估指標(biāo)vmAP，在mAP 的基礎(chǔ)上進行改良，使用一組權(quán)值，根據(jù)擴展詞出現(xiàn)的順位不同，對它們的得分進行加權(quán)處理。使得高順位的擴展詞對總得分的影響大于低順位的擴展詞。本文在實驗中重點使用vmAP@5作為評估模型擴展大數(shù)量擴展詞時的能力評估指標(biāo)。

以上給出查詢擴展中詞擴展階段的評估指標(biāo)，在查詢擴展任務(wù)中的綜合性能指標(biāo)使用mAP@10 與vmAP@10，并且使用Recall作為查全率指標(biāo)，查全率的計算方式如式（7）所示：

其中：TP（True Positive）為返回文檔中有效的文檔數(shù)量，F(xiàn)N（False Negative）為未返回的文檔中有效文檔的數(shù)量。

由于查詢?nèi)蝿?wù)中對返回結(jié)果的標(biāo)記過程包含主觀性，并且查全率中FN的全量標(biāo)記任務(wù)量過大，本文在查全率計算時使用互聯(lián)網(wǎng)語料庫中的精簡數(shù)據(jù)集作為測試集，并對返回前100內(nèi)的有效文檔均標(biāo)記為TP，記該評估標(biāo)準(zhǔn)為Recall@100。

3.3 實驗結(jié)果

首先使用“成功”一詞測試語義相關(guān)模型，其擴展的前5順位的擴展詞為“成就、順利、成事、有成、勝利”，而使用傳統(tǒng)Word2vec 擴展的結(jié)果為“順利、失敗、嘗試、取得成功、獲取成功”。可以明顯看出，語義相關(guān)模型的擴展方式是基于語義的，而Word2vec更多是根據(jù)詞語的上下文相似性。

在實驗中，本文使用語義相關(guān)性模型與Word2vec 模型對熱門與冷門的1 000個查詢詞進行擴展效果比對。

在熱門搜索詞的擴展結(jié)果中，發(fā)現(xiàn)語義相關(guān)模型與Word2vec模型均可以表現(xiàn)出不錯的性能，如表3所示，雖然兩種模型擴展的風(fēng)格不同，但是作為擴展詞均可以提供不錯的應(yīng)用效果。但是由于語義相關(guān)模型所需的訓(xùn)練數(shù)據(jù)量遠(yuǎn)遠(yuǎn)小于Word2vec 的訓(xùn)練數(shù)據(jù)，所以在部分詞語的擴展結(jié)果上效果較差于Word2vec。

如表4 所示，語義相關(guān)模型在三種指標(biāo)下的得分較為平均，而Word2vec 模型在單一擴展能力上擁有較高的性能。經(jīng)過實驗比對，在平均擴展能力與大數(shù)量擴展能力上，本文模型基本維持了與Word2vec 相同的水平能力，但是在單一擴展的對比上效果不佳。

表4 熱門搜索詞擴展評估對比單位：%Tab.4 Popular search term extension evaluation comparison unit：%

在此基礎(chǔ)上，本文進一步使用基于Word2vec、近義詞林以及語義相關(guān)模型的查詢擴展方法在真實文檔集中進行查詢擴展性能評估實驗。如表5中所示，基于Word2vec、近義詞林、語義相關(guān)模型的查詢擴展方法得到的評分性能均高于不使用查詢擴展時的評分性能，并且通過分析得到，使用語義相關(guān)模型方法的查全率提升略優(yōu)于基于Word2vec的查詢擴展方法。

表5 熱門搜索詞查詢擴展綜合評估對比單位：%Tab.5 Query extension comprehensive evaluation comparison for popular search terms unit：%

上述實驗僅僅是在熱門搜索詞中的性能表現(xiàn)，而查詢擴展任務(wù)的應(yīng)用場景反而是在冷門查詢中，本文繼續(xù)使用最冷門的1 000個搜索詞作為數(shù)據(jù)進行擴展比對。

在冷門詞語中，發(fā)現(xiàn)Word2vec 的部分?jǐn)U展詞匯呈現(xiàn)出一種混亂的表現(xiàn)，而本文模型卻表現(xiàn)依然穩(wěn)定，甚至更加出眾。如表6所示，當(dāng)對“馬虎”和“村寨”進行擴展時，Word2vec的擴展效果不盡如人意。可以看出，由于冷門詞語在語料中出現(xiàn)的頻率較低，獲得的訓(xùn)練效果較差，并且Word2vec 傾向?qū)⒋龜U展詞擴展為訓(xùn)練語料中上下文相關(guān)的詞語，如“村寨”與“少數(shù)民族”，此時語義相關(guān)模型的擴展效果便更加突出。

通過表7 中的實驗結(jié)果可以看出，在冷門數(shù)據(jù)中，語義相關(guān)模型依然保持了較高的擴展水平，而Word2vec 由于受到冷門詞語的限制，擴展效率大幅度降低。查詢擴展任務(wù)往往在冷門查詢時急需，對于熱門查詢，由于擁有足量的數(shù)據(jù)支持，已經(jīng)可以提供給用戶足夠的返回結(jié)果，所以并不需要查詢擴展的過多介入。通過實驗發(fā)現(xiàn)，Word2vec 作為查詢擴展模型對冷門查詢詞進行擴展時，擴展性能急劇下降。而語義相關(guān)模型在面對冷門查詢時依然保持了較高的擴展性能，遠(yuǎn)優(yōu)于傳統(tǒng)Word2vec模型。

表6 冷門搜索詞擴展對比實驗Tab.6 Unpopular search term extension comparison experiment

表7 冷門搜索詞擴展評估對比單位：%Tab.7 Unpopular search term extension evaluation comparison unit：%

根據(jù)表8 分析，在冷門搜索詞進行查詢?nèi)蝿?wù)時，整體查詢性能均有所降低，查全率下降尤其明顯。使用基于Word2vec的查詢擴展方法對冷門搜索進行擴展時由于語義偏離較大，導(dǎo)致整體查詢性能降低。而使用語義相關(guān)模型進行深度語義特征提取后，依然保持了較高的查詢擴展性能。

表8 冷門搜索詞查詢擴展綜合評估對比單位：%Tab.8 Query extensions comprehensive evaluation comparison for unpopular search terms unit：%

3.4 局部可擴展詞分布組合實驗

如2.2 節(jié)所示，本文針對“哈工大近義詞林?jǐn)U展版”與“語言知識庫HowNet 義原標(biāo)注數(shù)據(jù)”進行可擴展詞分布的抽取。如表9 所示，本節(jié)將分別對兩種語義語料的可擴展詞分布進行訓(xùn)練，以此來分析兩種語料對模型整體效果的作用，使用1 000 個冷門查詢詞作為測試數(shù)據(jù)。實驗結(jié)果展示出兩種語義語料對模型均擁有很強的增強效果：在P@1與mAP@3兩個指標(biāo)中，近義詞林所提取的可擴展詞分布對模型提升擁有更好的效果；vmAP@5 指標(biāo)中，兩種語義語料所提取的可擴展詞分布效果相近，義原分析方法擁有輕微的優(yōu)勢。

表9 語義語料組合實驗結(jié)果Tab.9 Experimental results of semantic corpus combination

將兩種語義語料組合進行模型訓(xùn)練可以獲得更優(yōu)的結(jié)果，根據(jù)實驗結(jié)果分析，近義詞林與義原分析均含有較強的語義信息，并且部分語義信息是重疊，但并非完全重疊。所以多語義語料組合訓(xùn)練時，模型學(xué)習(xí)到了更多的語義信息。

3.5 近義詞林參數(shù)實驗

在2.2.1 節(jié)中，使用兩種參數(shù)控制可擴展詞分布的提取，其中n 代表選擇的近義等級，m 代表最大的關(guān)系詞數(shù)量。當(dāng)待擴展詞的近義詞數(shù)量大于所需的m 值時，使用隨機抽取的方法抽取m個詞語作為關(guān)系詞。

近義等級有1 到5，共5 種級別，本文針對近義等級的差別分別進行實驗，如表10 所示，隨著近義等級的提高，詞語間的語義相似性更加密切，P@1 指數(shù)獲得更好提升。但是隨著近義等級的提升，組內(nèi)近義詞數(shù)量迅速下降，導(dǎo)致vmAP@5指數(shù)降低。分析實驗結(jié)果，發(fā)現(xiàn)降低近義等級可以提高vmAP@5 的評分，但是過低的近義等級，如2 和1，會使得近義性過于泛化，致使vmAP@5降低。本文最終選擇使用近義等級為4作為最優(yōu)參數(shù)。

表10 近義等級選擇實驗結(jié)果單位：%Tab.10 Experimental results of proximity level selection unit：%

本文同樣對最大關(guān)系詞數(shù)量進行比對實驗，如表11 所示，當(dāng)最大關(guān)系詞數(shù)量低于5時，vmAP@5的得分急劇下降，當(dāng)最大關(guān)系詞數(shù)量低于3時，mAP@3的得分開始急劇下降。

表11 最大關(guān)系詞數(shù)量選擇實驗結(jié)果單位：%Tab.11 Experimental results of maximum number of relative words selection unit：%

實驗表明，由于vmAP@5取前5順位的擴展詞進行得分計算，當(dāng)最大關(guān)系詞數(shù)量低于5 時，得分下降非常明顯。同理mAP@3 在最大關(guān)系詞數(shù)量低于3 時，得分下降明顯。P@1 值由于只需要擴展一個詞語，所以最大關(guān)系詞數(shù)量越低，反而精度更高。當(dāng)最大關(guān)系詞數(shù)量高于5 時，由于語義產(chǎn)生泛化，三種得分均呈現(xiàn)不同程度的降低，最終選擇5 作為最大關(guān)系詞數(shù)量的取值。

3.6 義原分析參數(shù)實驗

在2.2.2 節(jié)中，對義原分析同樣提出了兩種參數(shù)，其中使用p作為判斷詞語間相關(guān)聯(lián)的義原關(guān)聯(lián)度閾值，m作為每組關(guān)系詞組的最大關(guān)系詞數(shù)量。義原關(guān)聯(lián)度即通過義原值向量化后，兩個詞語的義原值向量間的余弦相似度。

本文使用一組特殊的數(shù)值作為實驗數(shù)值，如表12所示。

表12 義原關(guān)聯(lián)度閾值選擇實驗結(jié)果單位：%Tab.12 Experimental results of sememe correlation degree threshold selection unit：%

義原關(guān)聯(lián)度閾值的提升會導(dǎo)致計算所得的義原關(guān)聯(lián)詞減少，最終導(dǎo)致mAP@3 與vmAP@5 這類需要計算多個擴展詞的指標(biāo)得分降低，而閾值的提高使得精度提升，會使P@1 得分提高。其中0.5 與0.67 兩個閾值的綜合得分較高，0.5 閾值的mAP@3 與vmAP@5兩組指標(biāo)得分有略微的提升，但是0.67閾值的P@1 得分更為突出，最終綜合考慮，使用義原關(guān)聯(lián)度閾值為0.67 作為最優(yōu)的參數(shù)選擇。在義原分析實驗中，最大關(guān)系詞數(shù)量值m 與3.4 節(jié)中所做的最大關(guān)系詞數(shù)量實驗結(jié)果相近，最終選擇最大關(guān)系詞數(shù)量為5作為最終的參數(shù)。

4 結(jié)語

本文使用一種簡單而有效的神經(jīng)網(wǎng)絡(luò)模型完成查詢擴展任務(wù)。這種模型可以從近義詞林、語言知識庫等數(shù)據(jù)中抽取查詢詞的局部可擴展詞分布，并通過神經(jīng)網(wǎng)絡(luò)將其擬合為全局可擴展詞分布，實現(xiàn)查詢擴展功能。通過多組實驗將本文模型與其他方法進行對比，分析模型的優(yōu)勢，并且進行多組輔助實驗對模型細(xì)節(jié)進行設(shè)計與分析。語義相關(guān)模型的設(shè)計擁有可擴展性，本文提到使用近義詞林與語言知識庫作為主要的訓(xùn)練語料，并且取得不錯的實驗效果；但是語義相關(guān)度的提煉可以使用更多的基礎(chǔ)語料。未來我們計劃進一步增加可擴展詞分布提取層面的工作，使用更多基礎(chǔ)語料獲取語義相關(guān)性。本文使用簡單而有效的淺層神經(jīng)網(wǎng)絡(luò)將局部可擴展詞分布訓(xùn)練擬合為全局可擴展詞分布，未來計劃將該模塊接入到其他深度學(xué)習(xí)模型中，進行實驗論證，從而獲取更佳效果。