一、前言
隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,搜索引擎已成為現(xiàn)代信息檢索的核心引擎[-2],為用戶在茫茫信息海洋中迅速定位所需內(nèi)容提供了強大的支持。然而,傳統(tǒng)的搜索引擎在召回與排序機制上仍存局限,特別是在處理復(fù)雜查詢、捕捉用戶意圖及實現(xiàn)精準(zhǔn)排序方面。因此,本研究致力于深入探索預(yù)訓(xùn)練語言模型在搜索排序系統(tǒng)中的獨特價值與應(yīng)用潛力。預(yù)訓(xùn)練語言模型的引入,為搜索引擎帶來了一定程度上的召回率提升。相較于傳統(tǒng)的關(guān)鍵詞匹配和倒排索引技術(shù),預(yù)訓(xùn)練模型通過在大規(guī)模語料庫上的深度訓(xùn)練,能夠精準(zhǔn)捕捉文本的語義內(nèi)涵,從而實現(xiàn)對用戶查詢意圖的深入理解。即便在文檔中沒有明確出現(xiàn)查詢中的關(guān)鍵詞時,模型依然能夠憑借對語義的敏銳洞察,召回高度相關(guān)的文檔,極大地拓展了搜索的范圍與深度。在排序環(huán)節(jié),預(yù)訓(xùn)練語言模型同樣展現(xiàn)出卓越的性能。傳統(tǒng)的排序技術(shù)往往受限于對數(shù)據(jù)集的依賴以及標(biāo)注數(shù)據(jù)的稀缺性[4,預(yù)訓(xùn)練模型則能夠憑借其在無監(jiān)督或半監(jiān)督環(huán)境下的學(xué)習(xí)能力,靈活應(yīng)對各種排序任務(wù)。通過計算查詢與文檔之間的語義相似度,模型能夠精準(zhǔn)判斷文檔與查詢的相關(guān)性,從而為用戶呈現(xiàn)更為精準(zhǔn)的搜索結(jié)果排序。此外,預(yù)訓(xùn)練語言模型的引入還極大地提升了搜索引擎的智能化水平。這些模型不僅能夠理解和處理人類語言的復(fù)雜性和多樣性,更能夠深入洞察用戶的查詢意圖,為用戶提供更加個性化、智能化的搜索體驗。綜上所述,本研究通過引入預(yù)訓(xùn)練語言模型,為搜索排序系統(tǒng)注人了新的活力與智慧,不僅有助于提升搜索引擎的性能和用戶體驗,更為信息檢索領(lǐng)域的技術(shù)創(chuàng)新開辟了新的道路。因此,本研究具有重要的理論價值和實踐意義,值得深入探討和應(yīng)用推廣。
二、ERNIE的結(jié)構(gòu)介紹
ERNIE模型是百度研發(fā)的先進預(yù)訓(xùn)練模型,它以Transformer架構(gòu)為核心骨架,采用持續(xù)學(xué)習(xí)的語義理解框架,通過引入多層次知識掩碼機制,深度挖掘語言知識,如圖1所示。Transformer作為當(dāng)前自然語言處理領(lǐng)域的主流架構(gòu),以其強大的自注意力機制,能高效捕捉文本中的長距離依賴關(guān)系,為ERNIE模型的語義理解能力奠定基礎(chǔ)。在具體設(shè)計上,ERNIE模型支持從詞匯、語法、語義三個層次增量引人自定義預(yù)訓(xùn)練任務(wù)。這些任務(wù)通過多任務(wù)學(xué)習(xí)模式實現(xiàn)迭代優(yōu)化,使模型能夠全面捕捉訓(xùn)練語料中的詞法結(jié)構(gòu)、語法規(guī)則與語義信息。獨特的持續(xù)學(xué)習(xí)框架賦予ERNIE“不遺忘”特性,在學(xué)習(xí)新任務(wù)的同時,仍能保留先前積累的知識,顯著提升語義理解精度。憑借對Transformer架構(gòu)的深度優(yōu)化與獨特的知識學(xué)習(xí)機制,ERNIE已成為當(dāng)前NLP領(lǐng)域極具代表性的中文預(yù)訓(xùn)練模型之一。
三、相關(guān)技術(shù)簡介
基于ERNIE的文獻(xiàn)搜索排序主要涉及了兩個技術(shù),一個是召回階段的ANN,另一個是排序階段的Pairwise,以下對兩種技術(shù)分別敘述。
(一)ANN
ANN向量檢索是一種在大規(guī)模向量數(shù)據(jù)集中進行快速相似度搜索的技術(shù)。它的核心思想是通過使用近似算法來找到與查詢向量最相似的向量,從而在大規(guī)模數(shù)據(jù)集中實現(xiàn)高效檢索。在ANN向量檢索中,通常涉及以下幾個關(guān)鍵步驟。首先,需要將數(shù)據(jù)集中的數(shù)據(jù)點轉(zhuǎn)化為ANN算法所需的特定格式(如特征向量或哈希碼)。這一步的目的是提取能夠代表數(shù)據(jù)點特征的信息,以便后續(xù)進行相似度計算。接下來,將數(shù)據(jù)集中的數(shù)據(jù)點組織成索引結(jié)構(gòu),以便快速檢索。常用的索引結(jié)構(gòu)包括KD樹、球樹、哈希表等。這些索引結(jié)構(gòu)能夠根據(jù)向量的某些特性(如距離、角度等)將向量空間進行劃分,從而加速檢索過程。對于輸入的查詢向量,通過索引結(jié)構(gòu)進行相似度計算和候選集篩選。在這一步中,ANN算法會根據(jù)一定的條件提前終止計算過程,從而在保證一定準(zhǔn)確性的前提下提高檢索速度。最后,根據(jù)相似度計算結(jié)果,返回與查詢向量最相似的向量或向量集合。
圖1ERNIE模型

圖2召回模塊

(二)Pairwise
在本文的研究中,創(chuàng)新性地引入Pairwise方法來攻克排序問題這一難題。作為信息檢索和機器學(xué)習(xí)領(lǐng)域的前沿技術(shù),Pairwise方法巧妙地將復(fù)雜的全局排序任務(wù)解構(gòu)為一系列文檔對的相對順序預(yù)測子任務(wù)。具體而言,該方法通過構(gòu)建大規(guī)模的文檔對樣本空間,對每一對文檔進行細(xì)致入微的特征對比與語義分析,挖掘其中蘊含的重要性差異線索。隨后,利用這些豐富的對比數(shù)據(jù),訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)模型或傳統(tǒng)機器學(xué)習(xí)模型。在訓(xùn)練過程中,模型不斷優(yōu)化參數(shù),學(xué)習(xí)捕捉文檔對之間的細(xì)微差異,從而能夠精準(zhǔn)預(yù)測任意兩個文檔在目標(biāo)排序標(biāo)準(zhǔn)下的相對位置關(guān)系。通過這種方式,將所有文檔對的預(yù)測結(jié)果進行整合,最終實現(xiàn)對整個文檔集合的高效、精準(zhǔn)排序,為后續(xù)的信息篩選與知識挖掘奠定堅實基礎(chǔ)。
四、模塊介紹
基于ERNIE的文獻(xiàn)搜索排序主要涉及了兩個模塊,一個是召回模塊,另一個是排序模塊,以下對兩種模塊分別敘述。
(一)召回模塊
召回模塊融合了多個組件,以實現(xiàn)對文檔的高效和精準(zhǔn)召回,如圖2所示。首要組成部分是預(yù)訓(xùn)練模型ERNIE,其將輸入的文本數(shù)據(jù)轉(zhuǎn)化為富含語義信息的向量表示。其次是線性層,該層將ERNIE輸出的高維向量降低至指定的維度。最后是dropout層,該層通過隨機丟棄部分神經(jīng)元的輸出,使得模型在訓(xùn)練時不會過分依賴某些特定的神經(jīng)元,進而提高了模型的泛化能力。
(二)排序模塊
排序模塊包含三個關(guān)鍵層次,每個層次各司其職,共同確保排序的精準(zhǔn)性。首先是預(yù)訓(xùn)練模型ERNIE層,它的作用是將輸入的數(shù)據(jù)精妙地轉(zhuǎn)換為語義向量,深入理解數(shù)據(jù)的內(nèi)在含義。接下來是dropout層,在訓(xùn)練階段,這一層會隨機“屏蔽”部分神經(jīng)元,此舉旨在避免模型過度擬合,從而有效增強其廣泛適用性。最后是相似度計算層,它的核心任務(wù)是將前面生成的語義向量轉(zhuǎn)化為具體的相似度評分,這一層與排序結(jié)果的準(zhǔn)確性息息相關(guān),如圖3所示。在模型訓(xùn)練階段,通過深人學(xué)習(xí)句子對之間的相對相似度來不斷調(diào)整和優(yōu)化模型參數(shù),力求實現(xiàn)排序精度的最大化。
五、數(shù)據(jù)集介紹
本文一共采用了兩種數(shù)據(jù)集,分別是召回數(shù)據(jù)集和排序數(shù)據(jù)集,以下對兩種數(shù)據(jù)集進行介紹。
(一)召回數(shù)據(jù)集
數(shù)據(jù)集為百度提供的某文獻(xiàn)檢索平臺的數(shù)據(jù)。其中,訓(xùn)練集有4000條數(shù)據(jù),每行都由一對語義相似的文本對構(gòu)成,第一個數(shù)據(jù)是查詢語句,第二個數(shù)據(jù)是相關(guān)文獻(xiàn)標(biāo)題 + 關(guān)鍵字,如圖4、圖5所示。
(二)排序數(shù)據(jù)集
排序模型的數(shù)據(jù)集是百度提供的數(shù)據(jù)集,訓(xùn)練集中有大約197萬條數(shù)據(jù),每條數(shù)據(jù)都由三部分組成,分別是查詢語句、相關(guān)的文獻(xiàn)標(biāo)題 + 關(guān)鍵字(即正樣本)、不相關(guān)的文獻(xiàn)標(biāo)題 + 關(guān)鍵字(即負(fù)樣本),如圖6所示。
六、環(huán)境安裝
分為安裝服務(wù)器與構(gòu)建Python環(huán)境,以下對兩者進行介紹。
(一)華為云
1.硬件準(zhǔn)備
在安裝華為云服務(wù)器之前,確保已經(jīng)準(zhǔn)備好了必要的硬件設(shè)備,包括服務(wù)器主機、網(wǎng)卡、電源適配器和風(fēng)扇等。這些設(shè)備是安裝和運行服務(wù)器的基礎(chǔ)。
2.選擇并購買云服務(wù)器
登錄華為云官網(wǎng),根據(jù)自己的需求選擇合適的服務(wù)器類型。同時,根據(jù)業(yè)務(wù)需求和預(yù)算,選擇適合的服務(wù)器配置。完成購買后,將獲得云服務(wù)器的賬號和密碼。
3.登錄云服務(wù)器
使用獲得的賬號和密碼登錄云服務(wù)器。
4.安裝操作系統(tǒng)
登錄云服務(wù)器后,首先需要安裝操作系統(tǒng)。
5.網(wǎng)絡(luò)配置和安全設(shè)置
配置網(wǎng)絡(luò)參數(shù):進入云服務(wù)器的操作系統(tǒng)界面,打開網(wǎng)絡(luò)設(shè)置,配置IP地址、子網(wǎng)掩碼、網(wǎng)關(guān)等網(wǎng)絡(luò)參數(shù),以確保服務(wù)器能夠正常訪問網(wǎng)絡(luò)。配置安全組規(guī)則:在華為云控制臺中配置安全組規(guī)則,限定開放端口的源地址IP,以增加服務(wù)器的安全性。
圖3排序模塊

(二)Python環(huán)境
登錄Python官網(wǎng)打開Windows對應(yīng)的較新版本,同時選擇符合需求的64位版本,選擇安裝包進行下載,雙擊下載好的安裝程序以啟動安裝向?qū)В⑦x擇指定路徑安裝。安裝后通過“win+r”調(diào)出“運行”彈窗,輸入“cmd”之后打開“命令提示符”,在命令行界面上輸Python,并回車,來測試Python是否已經(jīng)安裝成功,同時添加Python路徑到Path環(huán)境變量中,以便在任何目錄下都能使用Python。
七、結(jié)語
基于ERNIE模型,成功構(gòu)建了高效的召回模型和排序模型,并對二者進行了專門的訓(xùn)練。測試集上的性能測試顯示,召回模型的召回率達(dá)到了 recall@20=0.813 ,排序模型的AUC值也高達(dá) 0.773 。這一成果得益于預(yù)訓(xùn)練的ERNE模型層,它出色地將輸入數(shù)據(jù)轉(zhuǎn)化為語義向量,為后續(xù)計算余弦相似度等操作奠定了堅實基礎(chǔ)。相較于傳統(tǒng)搜索引擎,本文的搜索排序系統(tǒng)融合了文本處理和語義信息提取等先進技術(shù),顯著提升了搜索的效率和準(zhǔn)確性。在召回階段,傳統(tǒng)方法通常依賴倒排索引技術(shù),但這種方式可能會遺漏那些與查詢語義相似而關(guān)鍵字不重復(fù)的文檔。本文的召回模型基于ERN,能夠?qū)⑽谋揪幋a成語義向量,根據(jù)語義相似度來召回文檔,從而避免了這一問題。在排序階段,傳統(tǒng)方法(如leamingtorank技術(shù))需要大量的人工標(biāo)注數(shù)據(jù)或搜索日志來提取特征,工作量大且效果受限于數(shù)據(jù)質(zhì)量。本文的排序模型同樣基于ERNIE,能夠自動提取語義特征進行排序,無需人工標(biāo)注,既降低了工作負(fù)擔(dān),又提高了排序的準(zhǔn)確性。此外,整個搜索排序系統(tǒng)在保證搜索精度的同時,也實現(xiàn)了高效的響應(yīng)時間。針對一個查詢,系統(tǒng)僅需約0.009秒即可召回50條相關(guān)文獻(xiàn)信息,這在處理大規(guī)模數(shù)據(jù)集時具有顯著優(yōu)勢。綜上所述,通過結(jié)合召回模型和排序模型,搜索排序系統(tǒng)不僅提升了搜索結(jié)果的準(zhǔn)確性和相關(guān)性,還實現(xiàn)了高效的響應(yīng)速度和自動化的特征提取,為搜索技術(shù)帶來了新的突破。



參考文獻(xiàn)
[1]韋輝華.基于搜索相關(guān)性的移動App排序算法及應(yīng)用[D].哈爾
濱:哈爾濱工業(yè)大學(xué),2021.
[2]黃際洲,孫雅銘,王海峰,等.面向搜索引擎的實體推薦綜述[J]計算機學(xué)報,2019,42(07):1467-1494.
[3]王海濤.面向商品的垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)[D].北京:北京交通大學(xué),2018.
[4]薛曉慧,芮光輝,李煒東,等.基于排序式SVM的搜索自適應(yīng)排序系統(tǒng)實現(xiàn)[J].計算機技術(shù)與發(fā)展,2021,31(10):203-208+214.
[5]郭朋偉.基于一詞多義的搜索排序和查詢擴展方法研究[D].沈陽:東北大學(xué),2020.
[6]于陽.基于改進禁忌搜索算法的滌綸纖維生產(chǎn)排序研究[D].錦州:遼寧工業(yè)大學(xué),2021.
作者單位:山東正云信息科技有限公司
責(zé)任編輯:張津平尚丹