基于深度學習的Web網頁信息標注方法研究

2021-05-16 17:25:00董亞男

現代信息科技 2021年22期

摘? 要：為了提升網頁信息標注的整體效果，同時降低標注失誤的概率，通過三元組構造標注預處理，在深度學習技術下標注描述目標設定，設計深度重疊標注模型，在深度學習下通過邏輯回歸實現Web網頁信息的標注。相較于傳統的特征提取標注測試組和傳統的自定義標注測試組，文章設計的深度學習標注測試組最終得出的標注完成率相對較高，標注失誤率相對較低，具有實際應用意義。

關鍵詞：深度學習;Web網頁;標注方法;深度控制

中圖分類號：G202? 文獻標識碼：A文章編號：2096-4706（2021）22-0089-03

Abstract： In order to improve the overall effect of web page information tagging and reduce the probability of tagging errors， the tagging preprocessing is constructed through triples， description goal setting is tagged under the deep learning technology， the deep overlapping tagging model is designed， and the tagging of web page information is realized through logical regression under the deep learning technology. Compared with the traditional feature extraction tagging test group and the traditional self-defined tagging test group， the tagging completion rate of the deep learning tagging test group designed in this paper is relatively high， the tagging error rate is relatively low， which has practical application significance.

Keywords： deep learning; Web page; tagging method; depth control

0? 引? 言

近年來，計算機技術和互聯網技術的不斷創新，極大地促進了我國網絡環境的充分發展[1]。傳統的互聯網網頁都是以關聯靜態的形式呈現的，同時網頁中所承載的相關數據信息也是靜態的，具有一定的穩定性，且大多數都是以HTML語言來書寫，比較適合持續性閱讀;另外，還有一部分網頁，數據信息是以流動的形態存在的，且具有可下載的優勢，當用戶需要瀏覽或使用這部分網頁中的數據信息時，可以通過特定的位置、按鈕進行資料數據的檢索及下載，而網頁中的數據仍會繼續存在，不會影響未來其他用戶的使用[2]。

部分用戶在應用過程中，需要對所閱讀的內容做出標注，以此達到有序學習的目的。而傳統的系統對于標注的設定較為單一，僅僅是對所閱讀的段落或字數進行匯總整合，并做下腳標注，形式老化，缺少新意，雖然可以達到預期的目標，但在實際應用過程中，仍然存在一些問題和缺陷，給用戶最終的使用帶來較大的負面影響[3]。鑒于此，結合深度學習技術，進行標準方法的創新與優化。深度學習技術是一項較為嚴密的數據信息處理技術，近幾年被廣泛應用于各個行業，取得一定的成效。因此，深度學習技術可助力開發人員設計出更加靈活的標注方式，實現更為高效的處理效果。

1? Web網頁信息標注方法設計

1.1? 三元組構造標注預處理

在設計Web網頁信息標注方法之前，需要先進行三元組構造標注的預處理。具體來說就是依據用戶的需求，做出相應的結構創新。通常，網頁后臺均會設置自身的數據處理程序，同時也會配備一個數據庫，數據庫的作用不僅僅是提供資源信息，同時也會對相關的分詞、語料以及詞性進行相應的處理與標注[4]。這樣在用戶的實際應用過程中，一定程度上可以提升資料查詢的速度與質量，方便于語句標注處理?？梢越Y合Web網頁自身的編輯結構，再加上對應的三元組構造模式，對資源庫中的信息數據進行多重雙向定位，每一組定位都需要設立獨立的執行單元，同時可以結合標注實行分句處理。然而在此過程中，需要首先確定三元組的覆蓋作用范圍，并計算出三元覆蓋系數，具體如式（1）所示。

其中，Y表示三元覆蓋系數，λ表示覆蓋范圍，R表示三元處置指數，表示目標極限值。通過上述計算，最終可以得出實際的三元覆蓋系數。隨后，設定具體的構造標注處理范圍，同時，根據實際情況與需求，進行三元預處理規則的描述?？梢酝ㄟ^設定處理域的方式來劃定相應的標注范圍，進而為后續的標注工作奠定基礎。

1.2? 深度學習技術下標注描述目標設定

在完成對三元組構造標注的預處理之后，接下來，需要在深度學習技術下標注描述目標設定[5]?？梢韵葘eb網頁中的信息資源數據庫進行層級的劃定，結合特定的信息抽取方法，將存在的文檔關系形成預設的結構，在語句處理結構之中，建立詞或詞類間句法的關系，將標注的程序與執行的結構相融合，結合深度學習技術，設計深度自動化架構，但架構的設定不可以一味地遵循傳統的標注描述方式，而是需要定期對架構內部的識別制度以及抽取規則進行更新，形成更加智能化的處理方式[6]。

基于此，將Web信息的抽取作為標注本體的核心，建立深度層級標注格式，根據分類層次、關系、函數、公理以及實例等劃定控制范圍，設定具體的描述目標，但是目標的執行也是獨立單一的，這樣做的目的是為了確保標注定位的精準性與穩定性，避免出現大范圍的關聯性故障[7]。將深度學習的層級與自然語言相融合，利用RDF的陳述模式對文章中標注的詞語進行二次標注，此時，網頁會留存相應的執行記憶，在這個過程中可以進一步完成對描述標注目標的執行與控制，進一步擴大了標注的范圍。

1.3? 深度重疊標注模型設計

在完成對深度學習技術下標注描述目標的設定之后，接下來，需要深度重疊標注模型的設計。通常情況下，在對Web網頁信息進行標注的過程中，需要依據預設的結構設定（可以通過標注模型的規范來降低異常）。可以先依據用戶的實際需求，劃定具體的重疊標注范圍，并計算出深度重疊系數，具體如式（2）所示。

其中，T表示深度重疊系數，λ表示雙向應變指數，F表示預設標注時間，表示極限覆蓋值。通過上述計算，最終可以得出實際的深度重疊系數。結合深度重疊系數設定深度重疊的網頁標注范圍，并設定具體的執行標注環節，具體如圖1所示。

根據圖1所示步驟，可以完成對執行標注環節的預設?？梢栽诔跏紭俗⒔Y構的基礎之上，設計頂層的處理結構，分目標設定，確保在實際應用的過程中，可以深化標注的位置。

1.4? 深度學習下通過邏輯回歸實現Web網頁信息的標注

在完成對深度重疊標注模型的設計之后，接下來，需要通過邏輯回歸實現Web網頁信息的標注。首先，在所建立的特定標注的模型中，設計相關的邏輯回歸標注程序，在模型中設定相應數量的執行節點，根據編碼，調整網頁的處理極限標準，計算出交互的迭代回歸指數，具體如式（3）所示。

其中，U表示交互的迭代回歸指數，表示節點變化距離，π表示重疊范圍，表示單一邏輯值。通過上述計算，最終可以得出實際交互的迭代回歸指數，設立迭代邏輯回歸范圍，同時，根據相應的回歸邏輯標注規則，構建與Web網頁執行一致的深度作用結構。在深度重疊標注模型中，對文章中的標注劃定層級，依據不同的目標標定對應層級的信息資源，提升整體的標注效果。

2? 方法測試

本次測試的主要目的是對基于深度學習的Web網頁信息標注方法應用效果進行驗證與分析，測試共分為3個小組：第一組為傳統的特征提取標注方法，將其設定為傳統特征提取標注測試組;第二組為傳統的自定義標注方法，將其設定為傳統自定義標注測試組;第三組為本文所設計的標注方法，將其設定為深度學習標注測試組。在相同的環境下同時采用3組標注方法進行測試，測試的系統也一致，對得出的結果進行對比分析，最終完成方法的驗證。

2.1? 測試準備

在進行測試前，需要先搭建相應的測試環境。對所應用的網頁標注特征進行提取設定，具體如表1所示。

根據表1中的數據信息，最終可以完成對應用網頁標注特征提取的設定。隨后，可以在網頁中建立相應的依賴標注關系，主要是將網頁標注結構與深度學習技術相關聯，可以先計算出標注的路徑距離，具體如式（4）所示。

其中，M表示標注的路徑距離，α表示深度范圍值，表示標注預設系數，d表示變化比。通過上述計算，最終可以完成對標注路徑距離的測定。結合得出的數值，設定相應的網頁標注路徑，進行標注訓練，可以在相同的網絡環境下，依次訓練3次，并記錄下相應的訓練結果。

設定消岐標注框架，所謂消岐標注主要是指用戶在實際應用過程中，自動識別文章內部的歧義數據資源目標，消岐標注還會通過設定不同的框架和層級來分離劃分，在用戶對相關的數據信息做出標注時，系統會依據資料的層級進行單一標注，不同層級的標注均是不同的，具有一定的差異，體現在各個方面，例如顏色、大小、結構等，用以區分對應的資料重要程度。完成消岐標注的層級框架設定之后，進行實體測試資料的預處理?？梢岳脪呙柩b備來掃描文章，以特殊的格式將其導入系統的網頁之中，隨后，結合相應的架構，對標注的召回率進行分析，具體如式（5）所示。

其中，K表示對標注的召回率，k表示默認節點極限值，δ表示召回范圍，η表示實際覆蓋范圍。通過上述計算，最終可以得出實際的標注召回率。

2.2? 測試過程及結果分析

經過上述測試環境的搭建，接下來開始實施具體的測試。選取300名用戶作為本次測試的目標對象，準備一份材料進行標注，預設需要標注的位置共45處。在測試的過程中，同時采用三種測試方法分別對100名用戶進行標注測試?？梢韵葘ξ恼轮邢嗨贫葮O高的詞語進行排序，以避免對測試造成不同程度的影響?？梢圆捎迷O立目標的方式實現，選取一個詞作為單一目標，通過特區詞語的特征，設定在識別的程序之中，結合排序的處理結構，關聯成為一個更加精細的標注處理結構，同時還可以明確對應的標注范圍。在所設定的范圍之內開始測試，并對最終得出的測試結果進行對比分析，具體如表2所示。

根據表2中的數據信息，最終可以完成對測試結果的分析與驗證。從測試結果分析可以看出，本文設計的深度學習標注測試組最終得出的標注完成率相對較高，標注失誤率相對較低，具有實際應用價值。

3? 結? 論

綜上所述，相較于傳統的標注方法，本文設計的方法更加靈活多元，在面對復雜的網絡環境時，可以通過多目標共同執行的方式來降低網頁數據信息標注的實際誤差。同時，在網頁處理更改的過程中，深度學習還可以最大限度地保證網頁的執行程度，以此來提升整體的應用效果。

參考文獻：

[1] 陳前華，胡嘉杰，江吉，等.采用長短期記憶網絡的深度學習方法進行網頁正文提取 [J].計算機應用，2021，41（S1）：20-24.

[2] 印杰，蔣宇翔，牛博威，等.基于深度學習的網頁篡改遠程檢測研究 [J].南京理工大學學報，2020，44（1）：49-54.

[3] 嚴靚，周欣，何小海，等.基于集成分類的暴恐圖像自動標注方法 [J].太赫茲科學與電子信息學報，2020，18（2）：306-312.

[4] 趙顏利，董博，雷燕.我國語義標注領域研究現狀分析 [J].福建師范大學學報（自然科學版），2020，36（4）：17-24+36.

[5] 桂思思，張曉娟，王鑫.查詢歧義性程度自動標注指標的替代性驗證研究 [J].數據分析與知識發現，2019，3（2）：79-89.

[6] 俞鑫，吳明暉.基于深度學習的Web信息抽取模型研究與應用 [J].計算機時代，2019（9）：30-32.

[7] 南楠.基于SPOC與深度學習的“網頁設計與布局”課程教學模式重構 [J].內江科技，2019，40（8）：62-63.

作者簡介：董亞男（1987.05—），女，漢族，吉林長春人，講師，碩士，研究方向：計算機系統結構。