基于ERNIE的文獻(xiàn)搜索排序

2025-09-10 00:00:00劉曉旭馬國樂

信息系統(tǒng)工程 2025年8期

一、前言

隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展，搜索引擎已成為現(xiàn)代信息檢索的核心引擎[-2]，為用戶在茫茫信息海洋中迅速定位所需內(nèi)容提供了強大的支持。然而，傳統(tǒng)的搜索引擎在召回與排序機制上仍存局限，特別是在處理復(fù)雜查詢、捕捉用戶意圖及實現(xiàn)精準(zhǔn)排序方面。因此，本研究致力于深入探索預(yù)訓(xùn)練語言模型在搜索排序系統(tǒng)中的獨特價值與應(yīng)用潛力。預(yù)訓(xùn)練語言模型的引入，為搜索引擎帶來了一定程度上的召回率提升。相較于傳統(tǒng)的關(guān)鍵詞匹配和倒排索引技術(shù)，預(yù)訓(xùn)練模型通過在大規(guī)模語料庫上的深度訓(xùn)練，能夠精準(zhǔn)捕捉文本的語義內(nèi)涵，從而實現(xiàn)對用戶查詢意圖的深入理解。即便在文檔中沒有明確出現(xiàn)查詢中的關(guān)鍵詞時，模型依然能夠憑借對語義的敏銳洞察，召回高度相關(guān)的文檔，極大地拓展了搜索的范圍與深度。在排序環(huán)節(jié)，預(yù)訓(xùn)練語言模型同樣展現(xiàn)出卓越的性能。傳統(tǒng)的排序技術(shù)往往受限于對數(shù)據(jù)集的依賴以及標(biāo)注數(shù)據(jù)的稀缺性[4，預(yù)訓(xùn)練模型則能夠憑借其在無監(jiān)督或半監(jiān)督環(huán)境下的學(xué)習(xí)能力，靈活應(yīng)對各種排序任務(wù)。通過計算查詢與文檔之間的語義相似度，模型能夠精準(zhǔn)判斷文檔與查詢的相關(guān)性，從而為用戶呈現(xiàn)更為精準(zhǔn)的搜索結(jié)果排序。此外，預(yù)訓(xùn)練語言模型的引入還極大地提升了搜索引擎的智能化水平。這些模型不僅能夠理解和處理人類語言的復(fù)雜性和多樣性，更能夠深入洞察用戶的查詢意圖，為用戶提供更加個性化、智能化的搜索體驗。綜上所述，本研究通過引入預(yù)訓(xùn)練語言模型，為搜索排序系統(tǒng)注人了新的活力與智慧，不僅有助于提升搜索引擎的性能和用戶體驗，更為信息檢索領(lǐng)域的技術(shù)創(chuàng)新開辟了新的道路。因此，本研究具有重要的理論價值和實踐意義，值得深入探討和應(yīng)用推廣。

二、ERNIE的結(jié)構(gòu)介紹

ERNIE模型是百度研發(fā)的先進預(yù)訓(xùn)練模型，它以Transformer架構(gòu)為核心骨架，采用持續(xù)學(xué)習(xí)的語義理解框架，通過引入多層次知識掩碼機制，深度挖掘語言知識，如圖1所示。Transformer作為當(dāng)前自然語言處理領(lǐng)域的主流架構(gòu)，以其強大的自注意力機制，能高效捕捉文本中的長距離依賴關(guān)系，為ERNIE模型的語義理解能力奠定基礎(chǔ)。在具體設(shè)計上，ERNIE模型支持從詞匯、語法、語義三個層次增量引人自定義預(yù)訓(xùn)練任務(wù)。這些任務(wù)通過多任務(wù)學(xué)習(xí)模式實現(xiàn)迭代優(yōu)化，使模型能夠全面捕捉訓(xùn)練語料中的詞法結(jié)構(gòu)、語法規(guī)則與語義信息。獨特的持續(xù)學(xué)習(xí)框架賦予ERNIE“不遺忘”特性，在學(xué)習(xí)新任務(wù)的同時，仍能保留先前積累的知識，顯著提升語義理解精度。憑借對Transformer架構(gòu)的深度優(yōu)化與獨特的知識學(xué)習(xí)機制，ERNIE已成為當(dāng)前NLP領(lǐng)域極具代表性的中文預(yù)訓(xùn)練模型之一。

三、相關(guān)技術(shù)簡介

基于ERNIE的文獻(xiàn)搜索排序主要涉及了兩個技術(shù)，一個是召回階段的ANN，另一個是排序階段的Pairwise，以下對兩種技術(shù)分別敘述。

（一）ANN

ANN向量檢索是一種在大規(guī)模向量數(shù)據(jù)集中進行快速相似度搜索的技術(shù)。它的核心思想是通過使用近似算法來找到與查詢向量最相似的向量，從而在大規(guī)模數(shù)據(jù)集中實現(xiàn)高效檢索。在ANN向量檢索中，通常涉及以下幾個關(guān)鍵步驟。首先，需要將數(shù)據(jù)集中的數(shù)據(jù)點轉(zhuǎn)化為ANN算法所需的特定格式（如特征向量或哈希碼）。這一步的目的是提取能夠代表數(shù)據(jù)點特征的信息，以便后續(xù)進行相似度計算。接下來，將數(shù)據(jù)集中的數(shù)據(jù)點組織成索引結(jié)構(gòu)，以便快速檢索。常用的索引結(jié)構(gòu)包括KD樹、球樹、哈希表等。這些索引結(jié)構(gòu)能夠根據(jù)向量的某些特性（如距離、角度等）將向量空間進行劃分，從而加速檢索過程。對于輸入的查詢向量，通過索引結(jié)構(gòu)進行相似度計算和候選集篩選。在這一步中，ANN算法會根據(jù)一定的條件提前終止計算過程，從而在保證一定準(zhǔn)確性的前提下提高檢索速度。最后，根據(jù)相似度計算結(jié)果，返回與查詢向量最相似的向量或向量集合。

圖1ERNIE模型

圖2召回模塊

（二）Pairwise

在本文的研究中，創(chuàng)新性地引入Pairwise方法來攻克排序問題這一難題。作為信息檢索和機器學(xué)習(xí)領(lǐng)域的前沿技術(shù)，Pairwise方法巧妙地將復(fù)雜的全局排序任務(wù)解構(gòu)為一系列文檔對的相對順序預(yù)測子任務(wù)。具體而言，該方法通過構(gòu)建大規(guī)模的文檔對樣本空間，對每一對文檔進行細(xì)致入微的特征對比與語義分析，挖掘其中蘊含的重要性差異線索。隨后，利用這些豐富的對比數(shù)據(jù)，訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)模型或傳統(tǒng)機器學(xué)習(xí)模型。在訓(xùn)練過程中，模型不斷優(yōu)化參數(shù)，學(xué)習(xí)捕捉文檔對之間的細(xì)微差異，從而能夠精準(zhǔn)預(yù)測任意兩個文檔在目標(biāo)排序標(biāo)準(zhǔn)下的相對位置關(guān)系。通過這種方式，將所有文檔對的預(yù)測結(jié)果進行整合，最終實現(xiàn)對整個文檔集合的高效、精準(zhǔn)排序，為后續(xù)的信息篩選與知識挖掘奠定堅實基礎(chǔ)。

四、模塊介紹

基于ERNIE的文獻(xiàn)搜索排序主要涉及了兩個模塊，一個是召回模塊，另一個是排序模塊，以下對兩種模塊分別敘述。

（一）召回模塊

召回模塊融合了多個組件，以實現(xiàn)對文檔的高效和精準(zhǔn)召回，如圖2所示。首要組成部分是預(yù)訓(xùn)練模型ERNIE，其將輸入的文本數(shù)據(jù)轉(zhuǎn)化為富含語義信息的向量表示。其次是線性層，該層將ERNIE輸出的高維向量降低至指定的維度。最后是dropout層，該層通過隨機丟棄部分神經(jīng)元的輸出，使得模型在訓(xùn)練時不會過分依賴某些特定的神經(jīng)元，進而提高了模型的泛化能力。

（二）排序模塊

排序模塊包含三個關(guān)鍵層次，每個層次各司其職，共同確保排序的精準(zhǔn)性。首先是預(yù)訓(xùn)練模型ERNIE層，它的作用是將輸入的數(shù)據(jù)精妙地轉(zhuǎn)換為語義向量，深入理解數(shù)據(jù)的內(nèi)在含義。接下來是dropout層，在訓(xùn)練階段，這一層會隨機“屏蔽”部分神經(jīng)元，此舉旨在避免模型過度擬合，從而有效增強其廣泛適用性。最后是相似度計算層，它的核心任務(wù)是將前面生成的語義向量轉(zhuǎn)化為具體的相似度評分，這一層與排序結(jié)果的準(zhǔn)確性息息相關(guān)，如圖3所示。在模型訓(xùn)練階段，通過深人學(xué)習(xí)句子對之間的相對相似度來不斷調(diào)整和優(yōu)化模型參數(shù)，力求實現(xiàn)排序精度的最大化。

五、數(shù)據(jù)集介紹

本文一共采用了兩種數(shù)據(jù)集，分別是召回數(shù)據(jù)集和排序數(shù)據(jù)集，以下對兩種數(shù)據(jù)集進行介紹。

（一）召回數(shù)據(jù)集

數(shù)據(jù)集為百度提供的某文獻(xiàn)檢索平臺的數(shù)據(jù)。其中，訓(xùn)練集有4000條數(shù)據(jù)，每行都由一對語義相似的文本對構(gòu)成，第一個數(shù)據(jù)是查詢語句，第二個數(shù)據(jù)是相關(guān)文獻(xiàn)標(biāo)題 + 關(guān)鍵字，如圖4、圖5所示。

（二）排序數(shù)據(jù)集

排序模型的數(shù)據(jù)集是百度提供的數(shù)據(jù)集，訓(xùn)練集中有大約197萬條數(shù)據(jù)，每條數(shù)據(jù)都由三部分組成，分別是查詢語句、相關(guān)的文獻(xiàn)標(biāo)題 + 關(guān)鍵字（即正樣本）、不相關(guān)的文獻(xiàn)標(biāo)題 + 關(guān)鍵字（即負(fù)樣本），如圖6所示。

六、環(huán)境安裝

分為安裝服務(wù)器與構(gòu)建Python環(huán)境，以下對兩者進行介紹。

（一）華為云

1.硬件準(zhǔn)備

在安裝華為云服務(wù)器之前，確保已經(jīng)準(zhǔn)備好了必要的硬件設(shè)備，包括服務(wù)器主機、網(wǎng)卡、電源適配器和風(fēng)扇等。這些設(shè)備是安裝和運行服務(wù)器的基礎(chǔ)。

2.選擇并購買云服務(wù)器

登錄華為云官網(wǎng)，根據(jù)自己的需求選擇合適的服務(wù)器類型。同時，根據(jù)業(yè)務(wù)需求和預(yù)算，選擇適合的服務(wù)器配置。完成購買后，將獲得云服務(wù)器的賬號和密碼。

3.登錄云服務(wù)器

使用獲得的賬號和密碼登錄云服務(wù)器。

4.安裝操作系統(tǒng)

登錄云服務(wù)器后，首先需要安裝操作系統(tǒng)。

5.網(wǎng)絡(luò)配置和安全設(shè)置

配置網(wǎng)絡(luò)參數(shù)：進入云服務(wù)器的操作系統(tǒng)界面，打開網(wǎng)絡(luò)設(shè)置，配置IP地址、子網(wǎng)掩碼、網(wǎng)關(guān)等網(wǎng)絡(luò)參數(shù)，以確保服務(wù)器能夠正常訪問網(wǎng)絡(luò)。配置安全組規(guī)則：在華為云控制臺中配置安全組規(guī)則，限定開放端口的源地址IP，以增加服務(wù)器的安全性。

圖3排序模塊

（二）Python環(huán)境

登錄Python官網(wǎng)打開Windows對應(yīng)的較新版本，同時選擇符合需求的64位版本，選擇安裝包進行下載，雙擊下載好的安裝程序以啟動安裝向?qū)В⑦x擇指定路徑安裝。安裝后通過“win+r”調(diào)出“運行”彈窗，輸入“cmd”之后打開“命令提示符”，在命令行界面上輸Python，并回車，來測試Python是否已經(jīng)安裝成功，同時添加Python路徑到Path環(huán)境變量中，以便在任何目錄下都能使用Python。

七、結(jié)語

基于ERNIE模型，成功構(gòu)建了高效的召回模型和排序模型，并對二者進行了專門的訓(xùn)練。測試集上的性能測試顯示，召回模型的召回率達(dá)到了 recall@20=0.813 ，排序模型的AUC值也高達(dá) 0.773 。這一成果得益于預(yù)訓(xùn)練的ERNE模型層，它出色地將輸入數(shù)據(jù)轉(zhuǎn)化為語義向量，為后續(xù)計算余弦相似度等操作奠定了堅實基礎(chǔ)。相較于傳統(tǒng)搜索引擎，本文的搜索排序系統(tǒng)融合了文本處理和語義信息提取等先進技術(shù)，顯著提升了搜索的效率和準(zhǔn)確性。在召回階段，傳統(tǒng)方法通常依賴倒排索引技術(shù)，但這種方式可能會遺漏那些與查詢語義相似而關(guān)鍵字不重復(fù)的文檔。本文的召回模型基于ERN，能夠?qū)⑽谋揪幋a成語義向量，根據(jù)語義相似度來召回文檔，從而避免了這一問題。在排序階段，傳統(tǒng)方法（如leamingtorank技術(shù)）需要大量的人工標(biāo)注數(shù)據(jù)或搜索日志來提取特征，工作量大且效果受限于數(shù)據(jù)質(zhì)量。本文的排序模型同樣基于ERNIE，能夠自動提取語義特征進行排序，無需人工標(biāo)注，既降低了工作負(fù)擔(dān)，又提高了排序的準(zhǔn)確性。此外，整個搜索排序系統(tǒng)在保證搜索精度的同時，也實現(xiàn)了高效的響應(yīng)時間。針對一個查詢，系統(tǒng)僅需約0.009秒即可召回50條相關(guān)文獻(xiàn)信息，這在處理大規(guī)模數(shù)據(jù)集時具有顯著優(yōu)勢。綜上所述，通過結(jié)合召回模型和排序模型，搜索排序系統(tǒng)不僅提升了搜索結(jié)果的準(zhǔn)確性和相關(guān)性，還實現(xiàn)了高效的響應(yīng)速度和自動化的特征提取，為搜索技術(shù)帶來了新的突破。

參考文獻(xiàn)

[1]韋輝華.基于搜索相關(guān)性的移動App排序算法及應(yīng)用[D].哈爾

濱：哈爾濱工業(yè)大學(xué)，2021.

[2]黃際洲，孫雅銘，王海峰，等.面向搜索引擎的實體推薦綜述[J]計算機學(xué)報，2019，42（07）：1467-1494.

[3]王海濤.面向商品的垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)[D].北京：北京交通大學(xué)，2018.

[4]薛曉慧，芮光輝，李煒東，等.基于排序式SVM的搜索自適應(yīng)排序系統(tǒng)實現(xiàn)[J].計算機技術(shù)與發(fā)展，2021，31（10）：203-208+214.

[5]郭朋偉.基于一詞多義的搜索排序和查詢擴展方法研究[D].沈陽：東北大學(xué)，2020.

[6]于陽.基于改進禁忌搜索算法的滌綸纖維生產(chǎn)排序研究[D].錦州：遼寧工業(yè)大學(xué)，2021.

作者單位：山東正云信息科技有限公司

責(zé)任編輯：張津平尚丹

信息系統(tǒng)工程2025年8期

信息系統(tǒng)工程的其它文章: 基于輕量化YOLO的實時檢測系統(tǒng)實現(xiàn)研究; 基于VDI架構(gòu)的考試環(huán)境效能評估與風(fēng)險防控研究; 油田智能化井場技術(shù)研究與應(yīng)用實踐; 軌道交通信號系統(tǒng)安全認(rèn)證技術(shù)研究; AI助教賦能高校課堂教學(xué)模式創(chuàng)新研究與實踐; 三周期極小曲面結(jié)構(gòu)對流傳熱關(guān)系式研究進展