基于預訓練的谷歌搜索結果判定

2024-05-09 02:29:30張恩偉卓俊杰陳志立

中文信息學報 2024年3期

張恩偉,胡凱, 卓俊杰,陳志立

(1. 南京信息工程大學自動化學院,江蘇南京 210044;2. 上海傳英信息技術有限公司 AI技術部,上海 201203;3. 江蘇省大氣環境與裝備技術協同創新中心,江蘇南京 210044)

0 引言

如今隨著互聯網的不斷普及,網絡搜索技術已經主導了最近的網絡研究和開發活動。然而,從計算機科學和用戶角度上來看,一個非常重要的問題頻頻出現在眼前——搜索引擎返回的結果是有意義的嗎?判斷搜索結果是否有意義是處理網頁中大量信息的初級階段,為信息過濾、情感分析、信息抽取、搜索引擎優化等任務提供了基礎[1-4]。例如,通過判斷查詢的結果是否有意義,可以過濾掉低質量的關鍵字查詢。通過判斷返回的結果是否有意義,可以對網站進行優化,提升排名和質量[5]。通過初步判斷過濾掉無意義的返回結果,可以避免在信息抽取過程中抽取到低質量的信息。

在所有的搜索引擎中,自1998年谷歌公司成立以來,谷歌搜索引擎逐漸占據主導地位。根據研究,當前網絡上有75%的網絡搜索都是由谷歌搜索引擎直接或者間接處理的[6]。所以在本文中,我們選擇谷歌搜索返回的結果作為我們的訓練數據。

對文本數據進行特定類別的劃分稱為文本分類,其是從海量的文本數據中提取有用信息的重要手段,對谷歌搜索結果的判定屬于文本分類的領域。傳統的基于機器學習的分類方法包括樸素貝葉斯分類器[7]、決策樹分類器[8]、支持向量機[9]等。其中,樸素貝葉斯分類器基于文本中詞語出現的概率和分類先驗條件,計算給定文本屬于某類別的概率,計算速度快,對高維數據表現良好,但是對輸入數據的特征分布要求很高,由于該模型是一個詞袋模型,所以它容易受到停用詞等非信息詞的影響,影響分類準確性;決策樹分類器采用一種基于樹形結構的文本分類方法,但不適用于高維的大規模文本數據;支持向量機在處理高維度、高稀疏的數據時表現優異,但是容易受到輸入噪聲的干擾,并且對大規模的數據處理速度較慢。

上述基于機器學習的方法大多依賴于先驗知識,無法處理較為復雜的問題。近年來,深度學習的迅速發展使得其在不同的領域都取得了成功,與傳統方法不同,深度學習方法是通過學習一組非線性轉換,將特征工程集成到模型擬合過程中,從而將特征直接映射到輸出。如今,以卷積神經網絡(CNN)[10]。循環神經網絡(RNN)[11]、長短時記憶網絡(LSTM)[12]為基礎的深度神經網絡模型在自然語言處理領域被廣泛應用。例如,黃磊等人[13]研究了基于長短時記憶(LSTM)和門控遞歸單元(GRU)計算節點的雙向遞歸神經網絡在文本分類中的應用,在計算過程中保留了原文本中語義組合的方式,緩解了傳統文本分類方法無法關注文本內部語義特征之間關系的不足。曾經,許多研究者通過改進CNN、RNN和融入注意力等方法來提高不同任務下的文本分類性能[14-16],直到后來BERT的出現,成為文本分類和其他自然語言處理技術發展的一個重要的轉折點,眾多的研究者研究了基于BERT[17]的文本分類模型,該模型在包括文本分類在內的多個NLP任務中都取得了比上述模型更優的性能[18-19]。然而,由于谷歌搜索返回的結果復雜多樣,其中不僅僅包含文本信息,還包含有圖片、結果數量等一系列因素,單一的文本模型已經無法滿足任務的需求。所以如何從返回結果中有選擇地提取出模型需要的輸入特征顯得至關重要。

上述研究雖然在文本分類領域取得了不錯的成績,但是對于谷歌搜索結果的判定這種特定任務的研究卻顯得不足。針對以上問題,本文研究了谷歌搜索返回的結果,主要貢獻如下:

(1) 為了方便研究,構建了一個適用于谷歌搜索結果判定的數據集(GSD)(1)GSD數據集可以從以下鏈接獲取(由于query字段涉及到個人隱私,將這一部分進行了馬賽克處理): https://github.com/DHASJ/web_search,用于模型性能的檢驗。

(2) 提出了一種將BERT和CNN結合起來的雙通道模型(DCFE),用于實現對谷歌搜索結果的判定,填補了當前這類任務上的空白。

(3) 通過基于真實數據下自建的數據集對提出的模型進行了性能評估,證明了本文提出的模型的有效性。

1 相關工作

在過去的工作中,研究者們大都使用機器學習的方法進行分類,后來深度學習的興起使得研究者們將目光投向了這一技術。當前在文本分類任務中使用較多的模型有卷積神經網絡(CNN)、循環神經網絡(RNN)、門控神經網絡(GRU)[20],長短時記憶網絡(LSTM)、基于注意力機制的網絡等。

1.1 基于卷積神經網絡(CNN)的模型

卷積神經網絡起初主要被應用于視覺領域[21-23],然而后來一些研究者發現將其用于自然語言處理中也可以產生較好的效果。CNN通過使用連續的卷積層和池化層對圖像或文本進行分類,其中池化操作能夠識別顯著特征并大大降低卷積操作帶來的計算復雜度。Chen等人[24]提出了一種基于TextCNN的文本信息提取模型,對檢查文本中涉及的電力設備的風險等級進行分類,用于局部電力設備狀態的評估。Zhang等人[25]對字符級卷積神經網絡(ConvNets)在文本分類中的應用進行了研究。Liu等人[26]首次嘗試將CNN應用于極端多標簽分類(XMTC)問題中,結果證明了在極其嚴重的數據稀疏性和可伸縮性下,CNN可以取得不錯的成績。劉龍飛等人[27]將字級別詞向量和詞級別詞向量作為原始特征,利用卷積神經網絡來對微博中的情感傾向進行分析。卷積可以通過滑動窗口的方式在文本中尋找不同的特征模式,能夠有效地捕捉不同類型的局部特征。然而,由于卷積只能捕捉到局部信息,對長距離地上下文依賴關系的關注度不夠,在較為復雜的任務中無法滿足任務需求。

1.2 基于循環神經網絡(RNN)的模型

RNN通過將文本視為單詞序列,其隱藏層能夠捕獲單詞之間的依賴關系和文本結構,實現上下文的理解和表示。Liu等人[28]曾基于RNN提出了三種不同的信息共享機制,以特定的共享層來建模文本,目的是跨多個任務來進行聯合學習。然而,RNN在訓練過程中容易出現梯度消失和梯度爆炸的問題,導致長期依賴信息無法被有效處理,對長文本不太友好。正是由于這些原因,后來GRU、LSTM等網絡才相繼被提出。

1.3 基于門控神經網絡(GRU)和長短時記憶網絡(LSTM)的模型

GRU和LSTM通過引入門控機制和記憶單元來控制和保留長期依賴信息,解決了之前RNN出現的梯度爆炸和消失的問題,提高了模型的訓練速度,同時減少了模型過擬合的風險。Johnson等人[29]利用LSTM研究了一種更加復雜的區域嵌入方法,將區域嵌入以LSTM和卷積層的形式結合在未標記數據上訓練,可以得到較好的結果。Tai等人[30]提出了一種Tree-LSTM模型,通過將LSTM推廣到樹狀結構的網絡模型來學習豐富的語義表示。然而,由于GRU和LSTM復雜的結構和門控機制,導致訓練和推理速度較慢,相對于注意力機制的網絡來說,模型的輸出不夠直觀,并缺少可解釋性。

1.4 基于注意力機制的模型

注意力機制被證明在識別文本中的相關詞方面是有效的,并且如今已經成為了深度學習模型中被普遍使用的方法[31]。在語言模型中,注意力可以被認為是重要性權重的向量,可以用于估計其與其他單詞之間的相關性或者“關注”程度。Alshubaily[32]在TextCNN中融入注意力機制來提高網絡的性能,并且提出了一種新的詞匯選擇方式來減少網絡的嵌入參數,通過以最小的精度損失來加速模型訓練。Yang等人[33]在單詞和句子層面使用兩層注意力機制,構造了一種用于文本分類的分層注意力網絡,能夠在構建文檔表示時區別關注重要和不重要的內容。注意力機制在文本分類任務中起到了重要的作用,可幫助模型更好地理解和利用輸入特征,建立長距離的依賴關系,為模型提供更加靈活、精細的方式來處理文本數據,如今在文本任務中被普遍應用。

2 模型

本文提出的DCFE模型的整體結構如圖1所示,該模型接受兩條通道的輸入特征,左邊通道用于提取文本內容中的語義特征,該通道的輸入是輸入查詢和搜索返回的結果;右邊通道作為輔助通道,對搜索頁面的參數信息進行特征提取,該通道的輸入是搜索返回結果中的各種參數。該模型一共包含三個部分:

圖1 DCFE的整體結構圖

語義信息提取模塊: 利用基于預訓練的BERT模型對搜索頁面返回的結果進行文本信息的語義提取,并且通過提取輸入查詢和返回結果之間的關聯信息,為接下來的分類過程提供語義信息的參考。

參數特征提取模塊: 用于對搜索返回結果中的量化信息進行編碼和特征的提取,用于指導對語義信息的分類

多尺度特征注意力TextCNN:對已經得到的語義信息和參數特征信息融合后進行二次特征的提取,并且生成最終的分類結果。

針對本文所應用的特定的任務,本文基于預訓練的BERT模型進行改進與優化,并且提出了一種新的網絡結構(DCFE),用于對谷歌搜索返回結果是否有意義的判定。

2.1 語義信息提取模塊

BERT是一種強大的語言表示模型,以往的研究表明它在不同的語言理解基準中表現出強大的優勢,并且具有捕獲語言結構信息的可能性。Jawahar 等人[34]研究了BERT模型在學習英文語言結構時在不同的網絡層次中都學習到了什么。由于BERT在不同的層次中提取的信息互不相同,同樣的信息并不會出現在不同的層中,例如來自低層的短語級信息在高層中會被逐漸稀釋,所以單一地使用最后一層的偏向于語法粒度的特征是不充分的。本文將提取到的不同層的特征進行融合,實現了在保留文本中語義屬性的情況下, 對輸入特征進行不同層次的信息提取的過程,從而解決了在提取文本信息過程中產生的信息丟失的問題。

在具體實現過程中,本文使用了基于預訓練的24層BERT模型,在語義信息提取模塊中返回每一層的特征表達,并且將其進行拼接用于后續的處理,如式(1)、式(2)所示。

其中,Hi表示前一層隱藏層的輸出,Hi+1表示當前層的輸出,i∈[1,2,3],TransformerEncoder(·)表示BERT中的每一層隱藏層,Concate(·)表示拼接操作。

2.2 參數特征提取模塊

在谷歌搜索返回的量化信息中,經過處理是一串長序列S={x1,x2,…,xn}。其中每一個元素都包含不同的信息,首先需要對它們進行編碼操作,所以我們使用詞嵌入層(Embedding)將其編碼為一個低維的向量,同時保留其實際含義。將每一個元素進行單獨的編碼之后,我們可以得到多個長序列,每個序列的表示Y如式(3)所示。

其中,Y∈Rn×d,n表示序列長度,d表示詞向量的維度。

由于循環神經網絡(RNN)可以表征序列數據的內部關聯,在層之間的神經元也可以建立權連接。在這里,我們利用RNN再次對輸出的長序列進行輔助特征的提取。RNN內部的計算可以通過式(4)表示。

其中,St-1是前一層隱藏層的輸出,St是當前隱藏層的輸出,Xt表示t時刻的輸入,U和W表示權重參數。經過RNN的過濾,編碼之后的序列內部關聯更加合理,接下來與語義信息提取模塊的信息進行融合后,可以有效地指導其分類。

2.3 多尺度特征注意力TextCNN

對于一個分類任務來說,文本序列中的關鍵詞短語對最終的分類結果顯得十分重要,關鍵詞或者短語通常由較短的文本形式出現,所以對其中局部特征的提取能力十分重要。卷積神經網絡(CNN)所具有的稀疏交互和參數共享能力,使得其擁有強大的局部信息提取能力,通常被應用于計算機視覺領域。然而,TextCNN的出現表明CNN在自然語言處理領域中被應用的可能性,TextCNN在掌握序列上下文意義的過程中同時收集信息,通過不同大小的卷積核可以有效地捕捉不同長度的關鍵詞和短語,得到不同尺度的特征表示,這種多尺度的融合操作有利于捕獲不同粒度的語義信息,并且由于采用了卷積的結構,大大降低了模型的參數量,適合作為本文模型最終的分類器使用。

這里,本文提出了一種改進的多尺度特征注意力TextCNN,在TextCNN原來的基礎上對其進行改進,圖2展示了本文提出的多尺度特征注意力TextCNN的內部結構。

圖2 多尺度特征注意力TextCNN的整體結構

如圖2所示,本文利用不同大小的卷積核進行不同尺度的特征提取,并且在其中融入注意力機制。其中,不同大小的卷積核用于提取不同尺度的特征權重, 采用卷積核高度為1的卷積對原始序列進行維度的調整,接著將得到的不同尺度的特征權重與調整后的序列進行乘積運算,得到計算過后的特征序列。定義卷積核大小分別是w∈Rn×k,其中n是卷積核的高度,表示提取長度為n的局部特征,k表示詞向量的維度。卷積過程的計算如式(5)所示。

其中,X表示輸入序列,Y表示輸出序列,b表示偏置項,F(·)表示非線性激活函數,本文使用的是ReLu激活函數,其計算如式(6)所示。

在經過卷積注意力權重的計算后,會得到新的特征序列:S={x1,x2,x3},接著使用最大池化層對得到的特征序列進行處理,保留全局的序列信息,即C′=MAX(C)。接著,我們將得到的帶有不同尺度特征的序列進行拼接,最終生成包含多尺度信息的長序列,這里還引入了一個可學習的參數Parms,用于對結果的微調。最后,將得到的長序列向量經過一個三層的多層感知機(MLP)分類器輸出最終的分類標簽。整個模塊的計算過程如式(7)～式(9)所示。

其中,X表示輸入序列,wi表示不同的卷積層的權重,bi表示偏置項,F(·)表示非線性激活函數,Concate(·)表示拼接操作,M(·)表示最大池化層,P是一個可學習的參數,MLP(·)表示多層感知機。多層感知機的內部結構如式(10)所示。

其中,i作為上一層神經元的下標,即輸入層節點;j作為當前層神經元的下標,即隱藏層神經元;k作為下一層神經元的下標,即輸出層神經元。xij表示當前層各神經元的輸入,即前一層的輸出值;wij表示上一層各神經元到當前神經元的權重,也就是當前層神經元的權重。g(·)代表激活函數,hj表示當前層所有節點的輸入權重之和,yj=xjk表示當前層各神經元的輸出,即下一層各神經元的輸入。

3 實驗

對谷歌搜索返回結果是否有意義的判定是一個文本二分類的任務,其中對模型輸入特征的選取尤其重要,本文提出了一個用于此任務的數據集,并且將提出的模型應用于此數據集上進行訓練,判斷所查詢的問題通過谷歌搜索返回的結果是否具有意義。

3.1 GSD數據集介紹

GSD數據集是我們自建的一個數據集,用于谷歌搜索返回結果是否有意義的判定,判斷搜索返回的結果是否有意義取決于用戶是否能夠從搜索結果中獲取查詢問題所需的信息。

表1展示了數據集中所包含的各類特征及其說明。由于谷歌搜索返回的結果多且復雜,我們在意的是谷歌自然搜索結果中所包含的標題、摘要、問題和結果的關聯等信息,但是自然結果中往往包含地圖、圖片等不相關的信息。所以,需要對返回的結果進行篩選,將無用的特征進行剔除,最終我們選擇進入到模型之中的特征信息如表1所示。

表1 GSD數據集特征說明

在整個數據集中,本文共標注了6 508條數據,查詢問題來自于人們的日常提問,其中搜索返回的結果有意義的問題共有2 358條。搜索返回的結果無意義的問題共有4 150條,將所有數據按照8∶2的比例將其隨機分為訓練集和驗證集。同時,整理了1 000條沒有進行標注的數據作為測試集。

在返回的結果中,由于result_count特征的分布差異較大,所以需要首先對其進行預處理才能送入模型中進行訓練。圖3顯示了所有的result_count特征的分布范圍,其中橫坐標result_count表示返回的結果總數,縱坐標表示查詢問題的序號。從圖中可以看出,大部分的result_count處于0～0.5 區間內,隨著值增大,分布變得越來越稀疏。所以本文首先對其按照集中性進行區間劃分,再將其作為輸入,表2是其劃分的規則。

表2 result_count區間劃分規則

圖3 result_count特征分布

3.2 實驗細節

3.2.1 評價指標

本文中使用準確率(Acc)和F1-measure(F1)來評估模型的性能,其計算如式(11)～式(14)所示,其中準確率表示預測正確的樣本數占總樣本數的比例,精確率(P)表示在所有預測為真的樣本中預測正確的比例,召回率(R)表示在所有的正樣本中預測正確的比例,F1-measure是一個綜合指標,綜合了精確率和召回率之后的分數。

在上式中,TP表示被預測為真的正樣本數,FN表示被預測為假的正樣本數,TN表示被預測為假的負樣本數,FP表示被預測為真的負樣本數。

3.2.2 實驗設置

本文實驗基于Pytorch深度學習框架,版本號為1.12.1,Python版本為3.8.12。硬件環境包括NVIDIA系列顯卡,顯卡型號為NVIDIA GeForce RTX 3090,顯存為24GB。在訓練過程中,本文采用交叉熵損失函數,對于二分類任務,其計算如式(15)所示。

表3 實驗參數設置

3.3 對比實驗

在這一節中,將本文提出的模型與其他模型在GSD數據集上進行了對比實驗,這里共選取了11種不同類型的模型作為對比模型,包括機器學習方法與深度學習方法。由于對比模型大多只有一個輸入通道,無法使用輔助支路進行特征提取,所以在本文的對比實驗中,對比模型僅僅使用數據集中的文本信息作為輸入。將文本內容經過相同的分詞方式和編碼方式后送入模型中進行訓練。

MultinomialNB[7]: 多項式樸素貝葉斯是基于原始的貝葉斯理論,通過特征計算分類的概率,然后選取最大的情況進行分類,這是一種基于概率論的機器學習分類方法。

DecisionTree[8]: 決策樹(Decision Tree)是一種基于實例的歸納學習算法,包括兩個階段: 歸納和剪枝。決策樹的歸納可以從給定的數據樣本中提煉出樹狀的分類模型。樹中的每個非葉子節點記錄了使用哪個特征來進行類別的判斷,每個葉子節點則表示最后的判斷類別。而決策樹的剪枝是使其停止分裂的方法,對已經生成的樹進行自下而上的剪枝操作,將樹變得簡單,從而使其擁有更好的泛化能力。

吳赫，韓國音樂人，獨立樂隊hyukoh主唱兼吉他手，曾在中國生活，大學時期返回韓國，喜歡有境界、不過于刻意，且同時具有光明與黑暗面的東西，他認為“音樂人不只是做音樂就好,包括專輯設計、MV、造型等整體風格都須相當契合”。

RandomForest[35]: 隨機森林(Random Forest)是通過集成學習的思想將多棵樹集成的一種算法,能夠有效地運行在大數據集上,有效地處理高維特征,無需降維操作。

SVC[9]: 支持向量機(SVC)是一種二分類算法,其基本模型是一個特征空間上的間隔最大的線性分類器,通過尋求結構化風險最小來提高學習機泛化能力,實現經驗風險和置信范圍的最小化,從而達到在統計樣本量較少的情況下,亦能獲得良好統計規律的目的。

KNeighbors[36]: K近鄰算法(KNN)采用投票機制,通過計算測試樣本和所有訓練樣本的距離,根據最近的K個訓練樣本的類別,使用多數投票的方式進行預測。

MLP[37]: 多層感知機(MLP)算法也被稱為前饋神經網絡,是一種最簡單的深度學習模型。MLP在訓練時將特征值傳入隱藏層當中,通過帶有結果的數據來訓練其參數,接著使用帶有權重參數的模型即可用于任務的分類。

TextCNN[38]: 將卷積神經網絡CNN應用于文本分類任務,利用多個不同尺寸的卷積核來提取句子中的關鍵信息,從而更好地捕捉局部相關性。

Bi-LSTM[12]: 雙向長短時記憶網絡(Bi-LSTM)使用了兩層方向相反的長短時記憶網絡(LSTM)模型,結合了輸入序列在前向和后向兩個方向上的信息,不僅可以關注到上文的信息,還可以考慮到下文的信息,大大增強了模型對上下文信息的理解程度。

BERT[17]: 在文本分類領域中,利用BERT模型進行分類是最常見的,這得益于其擁有多種基于大樣本的預訓練權重,使得研究者只需要在下游任務中進行很小的微調訓練就可以得到不錯的效果。

VGCN-BERT[40]: 該模型將BERT和詞匯圖卷積網絡 (VGCN)相結合,使局部信息和全局信息通過BERT的不同層進行交互來表示最終的分類。

對比實驗結果如表4所示。這里使用Acc和F1作為評價指標來評估不同方法的性能。從表中可以看出,采用機器學習的算法進行預測的結果普遍較差,例如Decision Tree[8]算法,這是因為谷歌搜索返回的結果中通常包含許多復雜的內容,變量與變量之間的相關性無法得到保障,這對Decision Tree算法是及其不利的。同時Decision Tree對噪聲的變化十分敏感,具有極大的不穩定性,所以其最終獲得了極低的分類準確率,Acc和F1值僅有0.69和0.81。

表4 不同方法的實驗結果對比

RandomForest[35]在GSD數據集上的效果略好于Decision Tree算法,其主要原因是RandomForest采用將多個決策樹進行集成的方式,通過結合內部不同的樹的選擇來綜合評判提取的特征。這樣緩解了單個樹進行預測所出現的不穩定性,可以平衡數據內部的誤差,在特征很多的數據上效果要優于DecisionTree算法。RandomForest在GSD數據集上表現出優于其他機器學習算法的性能,最終準確率達到0.76。然而,由于RandomForest在噪聲非常大的分類問題上仍然會過擬合,對于有不同取值屬性的數據,取值劃分較多的屬性仍然會對其產生較大的影響,所以其最終的準確率仍遠遠低于本文提出的算法。

對于其他基于機器學習的算法,各有自身的優缺點,所以最終預測的準確率表現得較為相近。由于基于機器學習的算法較為簡單,對文本的深層特征的提取不充分,并且容易缺失其中的語義信息。

MLP[37]是最簡單的神經網絡,這里只含有一個隱藏層,整體是一個三層的結構,由于結構過于簡單,無法提取文本向量更深層的特征,并且沒有利用到上下文信息,所以最終的結果十分糟糕,僅僅適用于一些簡單的任務。所以MLP在本文的任務中表現出最差的性能,最終的預測準確率僅有0.67。

TextCNN[38]和Bi-LSTM[12]采用兩種不同的方式來對輸入序列中的特征進行提取,卷積更多地關注局部信息,然后利用最大池化獲得最重要的影響因子,這對于保留重要的特征、提高模型效率是有利的。而Bi-LSTM是由兩層方向相反的LSTM組合而成,更多地是考慮文本的上下文信息,能夠更多地獲得上下文信息之間的關聯。最終TextCNN和Bi-LSTM在本文的任務中便顯出相近的效果,兩者的分類準確率分別是0.81和0.80。

BERT[17]和VGCN-BERT[40]在所有的方法中表現出僅次于本文方法的性能,這主要得益于其使用了強大的自注意力機制,BERT中有多個Transformer模塊[41],通過自注意力機制實現快速并行,能夠關注到文本序列中重要的信息,并且其強大的全局信息提取能力也是卷積無法比擬的。而VGCN-BERT通過將詞嵌入模塊和BERT結合,接著將不同類型的信息通過注意力機制層進行交互,從而提高性能,最終表現出僅次于本文模型的準確率。從表中可以看出,這兩個模型最終的分類準確率都達到了0.83。

本文首先使用BERT強大的全局信息提取能力來提取文本序列中的全局語義信息,通過RNN來提取編碼后的量化信息作為輔助特征,雙通道的結構使模型可以對搜索頁面包含的信息擁有一個更加全面的把控。接著將BERT提取到的不同層次的信息與輔助特征進行融合后送入多尺度特征注意力TextCNN中進行局部特征的強化,最終輸出預測類別。由于BERT在較低的層中對短語級信息的提取能力十分優秀,中間層編碼了豐富的語言學特征,高層中包含有大量的語義信息特征。本文將不同層的特征進行融合,大大增強了模型對不同特征的提取能力,有利于模型把握不同層次的語義特征。

本文提出的方法結合了Transformer與卷積的特性,彌補了當前方法只關注全局或者局部特征的缺點,能夠同時關注全局上下文特征和局部信息,關注到深層語義信息,所以最終實現了最高的分類準確率。本文提出的模型最終在GSD數據集中的分類準確率和F1分數分別為0.85和0.91。

3.4 消融實驗

為了研究本文提出的模型中不同模塊的實際效果,本文對其進行了消融實驗,實驗結果如表5所示。

表5 消融實驗結果

組合1: 在完整模型的基礎上去掉參數特征提取模塊和多尺度特征注意力TextCNN,僅僅使用BERT作為語義信息提取模塊提取查詢問題和返回結果中的語義信息。由于組合1只能獲取文本之間的語義關聯等內容,缺少對關鍵詞的關注,所以最終的準確率是最低的,僅有0.834。

組合2: 在組合1的基礎上加入輔助支路,即參數特征提取模塊,將兩條支路的特征進行融合后經過分類器的作用進行輸出,此時由于有更多參考信息輸入,對主干支路提供了一定的指導作用,最終的準確率有了一定的提升,為0.841。

組合3: 在組合2的基礎上加入多尺度特征注意力TextCNN,即最終完整的模型結構。多尺度特征注意力TextCNN的加入,使得模型擁有了更加全面的能力,不僅能夠提取文本信息中的語義特征,還能抓取其中的關鍵詞和短語,平衡全局特征和局部特征之間的關系,有助于模型實現更好的精度。

4 總結

本文針對目前缺少用于判定搜索返回結果的數據,采用谷歌搜索引擎制作了一個數據集(GSD),用于對谷歌搜索返回結果是否有意義的判定,填補了目前業界此類數據集的空缺,為信息過濾、信息抽取、搜索引擎優化等任務奠定了基礎。同時,本文基于預訓練模型設計了一種雙通道模型DCFE來實現對谷歌搜索返回結果的自動判定,利用預訓練語言模型的全局信息感知能力以及卷積結構的局部信息提取能力,將兩者充分結合,彌補了單一方法的局限性。文中,利用預訓練語言模型BERT提取返回結果中的不同層次的全局語義信息,利用RNN對返回結果中存在的量化信息進行編碼以及特征提取來輔助模型的分類,最終使用一個改進的多尺度特征注意力TextCNN提取融合后的特征中的局部關聯作為分類器,輸出最終的判定結果。實驗結果表明,本文提出的模型在對搜索結果的判定任務中表現出優秀的性能,最終的分類準確率達到85.74%,有效地證明了本文提出的方法的合理性以及科學性。

未來工作中,我們將繼續致力于網絡信息的探索。結合當前的研究成果繼續深入研究,對搜索引擎返回的大量信息進行分析,并且對模型進一步優化,使之能夠適應多種任務的需要。