999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合局部語義特征的學(xué)者細(xì)粒度信息提取方法

2023-09-27 06:31:02田悅霖黃瑞章任麗娜
計算機應(yīng)用 2023年9期
關(guān)鍵詞:頁面語義文本

田悅霖,黃瑞章*,任麗娜

(1.公共大數(shù)據(jù)國家重點實驗室(貴州大學(xué)),貴陽 550025;2.貴州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,貴陽 550025)

0 引言

截至2022 年1 月31 日,世界互聯(lián)網(wǎng)滲透率達66.2%,2000—2022 年增長1 355%[1]。信息技術(shù)迅速發(fā)展,萬維網(wǎng)信息量暴增,網(wǎng)頁資源或成為信息獲取第一選擇。全球?qū)<覍W(xué)者數(shù)量眾多,且大部分學(xué)者在網(wǎng)站中建立個人主頁并定期維護更新,主頁中記錄的學(xué)者的研究方向、工作履歷、所獲成就等信息可作為學(xué)者畫像[2]、人才引進[3-4]、公司專家資源庫的建立[5]等任務(wù)的重要支撐。因此,精確地提取學(xué)者主頁細(xì)粒度信息至關(guān)重要。

學(xué)者個人主頁廣泛分布于不同站點,如采用人工方式進行信息整合,需要提取每個頁面中的有效信息,再重新組織整理獲得的大量數(shù)據(jù)。顯然,這種工作非常繁瑣且隨著頁面信息的不斷變化,成本逐漸提高。因此,使用機器學(xué)習(xí)的方法進行學(xué)者主頁信息抽取的任務(wù)具有必要性且持續(xù)存在。根據(jù)抽取的頁面內(nèi)容,學(xué)者主頁信息抽取可以分為細(xì)粒度信息抽取和粗粒度信息抽取。粗粒度信息的抽取主要是抽取網(wǎng)頁中除導(dǎo)航欄、推薦欄等噪聲之外的有效信息,如網(wǎng)頁新聞?wù)某槿 <?xì)粒度信息的抽取主要是抽取感興趣的屬性、部分標(biāo)簽信息等多種類型。細(xì)粒度信息應(yīng)用范圍更廣泛,如學(xué)者畫像的生成等均需要學(xué)者的細(xì)粒度信息,細(xì)粒度信息提取比粗粒度信息提取明顯更符合人們的需要與個性化需求。因此本文將提取學(xué)者細(xì)粒度對象,將學(xué)者主頁原始數(shù)據(jù)轉(zhuǎn)換并映射到更結(jié)構(gòu)化的格式。在學(xué)者頁面中,學(xué)者的細(xì)粒度對象即學(xué)者的研究方向、工作履歷、社會兼職等信息,同組細(xì)粒度對象具有語義相似、結(jié)構(gòu)相似等特征。

傳統(tǒng)方法普遍將頁面信息抽取問題描述為樹節(jié)點的標(biāo)記任務(wù),高度依賴于HTML(HyperText Mark-up Language)模板。但學(xué)者信息頁面廣泛分布于不同站點,隨著HTML 標(biāo)準(zhǔn)的不斷更新與不同站點HTML 風(fēng)格的變化,抽取效果會出現(xiàn)不同程度的降低,去除HTML 依賴后單一的語句語義分析常會導(dǎo)致信息判斷失誤。一般學(xué)者個人主頁通常僅包含一位學(xué)者信息,但學(xué)者可能會對他的學(xué)生的基本信息、入學(xué)情況等內(nèi)容進行介紹,也會出現(xiàn)存在其他教師推薦欄的情況,此類情況的上文往往會有“碩博情況”“相似導(dǎo)師推薦”等提示信息,融合局部語義信息能夠有效排查錯誤。另外,在學(xué)者信息提取任務(wù)中,一類細(xì)粒度信息往往處于頁面相近位置,它的上文常出現(xiàn)有效提示信息“教育經(jīng)歷”“社會服務(wù)”等。本文重點研究對文本的局部上下文結(jié)構(gòu)與語義信息進行建模以豐富目標(biāo)句特征,從而提升學(xué)者細(xì)粒度信息的抽取效果。

本文提出一種融合局部語義特征的學(xué)者細(xì)粒度信息提取方法。該方法通過數(shù)據(jù)預(yù)處理獲取網(wǎng)頁純文本,解除HTML DOM(Document Object Model)樹依賴,經(jīng)預(yù)訓(xùn)練模型RoBERTa-wwm-ext[6]微調(diào)獲得更高層次的語義表征,充分考慮頁面中句子前后語義關(guān)系,使單句向量融合局部上下文特征共同輸入卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)得到更豐富的語義表示,增強細(xì)粒度信息提取的效果,最終實現(xiàn)學(xué)者主頁細(xì)粒度信息的獲取。由于學(xué)者主頁信息提取粒度為由單句構(gòu)成的文本行,文本行平均字符數(shù)為39,文本長度較短。面對短文本,淺層語義表征可以達到更好的提取效果,因此,本文設(shè)計一種簡化的CNN,僅使用單層文本卷積層與全連接層實現(xiàn)語義特征的融合,因池化操作無參數(shù),無法對特征向量進一步學(xué)習(xí),反而會導(dǎo)致特征降維,丟失目標(biāo)文本語義信息,故去掉結(jié)構(gòu)中的池化層。簡化CNN 的使用提高了學(xué)者細(xì)粒度信息抽取的效率與效果。另外,本文提出一個新的學(xué)者信息抽取數(shù)據(jù)集Scholars 用于驗證在學(xué)者信息抽取領(lǐng)域中融合局部上下文語義特征的有效性。

1 相關(guān)工作

自網(wǎng)頁出現(xiàn)以來,網(wǎng)頁信息的抽取研究一直是信息技術(shù)領(lǐng)域的熱點,許多研究都闡明了如何從頁面中提取所需信息[7]。目前較成熟的網(wǎng)頁信息抽取方法有基于統(tǒng)計信息的方法、基于視覺分塊的方法和基于模板的信息抽取方法。

基于統(tǒng)計信息的方法包括統(tǒng)計文本密度、標(biāo)簽密度和行塊分布等。文獻[8]中提出基于文本密度的內(nèi)容抽取方法,首先統(tǒng)計HTML 文檔的每行的文本數(shù),分析后給出一個正文所在行數(shù)的閾值,然后抽取正文。之后文獻[9]又在文獻[8]的基礎(chǔ)上增加視覺特征來對DOM 樹節(jié)點進行特征值計算,最后再根據(jù)節(jié)點信息作信息提取。文獻[10]中提出了一種基于后綴樹的信息抽取方法:首先從Web 頁面的標(biāo)記路徑中提取一個標(biāo)識符序列,然后在此序列構(gòu)建一個后綴樹,并提出4 個精煉過濾器來篩選可能不包含數(shù)據(jù)記錄的數(shù)據(jù)區(qū)域?qū)崿F(xiàn)信息抽取。文獻[11]中通過將頁面劃分信息塊,對信息塊中純文本及超鏈接進行統(tǒng)計的方法判別正文內(nèi)容。文獻[12]中提出一種基于文本塊密度和標(biāo)簽路徑特征的網(wǎng)頁文本提取算法,利用正文與標(biāo)簽路徑和文本塊密度的潛在相關(guān)性,設(shè)計了一種融合策略解決網(wǎng)頁文本提取準(zhǔn)確率低的問題。文獻[13]中提出一種提取簡歷信息的端到端框架,從簡歷文檔提取原始數(shù)據(jù)并使用語言學(xué)模式將它分割為語義一致部分,之后對各段落使用命名實體識別(Named Entity Recognition,NER)算法進一步處理,最終獲取人力資源專家所需信息。文獻[14]中提出一種基于多特征融合的網(wǎng)頁內(nèi)容提取方法,根據(jù)網(wǎng)頁的文本信息特征,以DOM 節(jié)點為基本提取單元設(shè)計多個統(tǒng)計特征并根據(jù)啟發(fā)式策略設(shè)計高階特征。該方法具有良好的網(wǎng)頁文本提取能力,能夠避免需人工閾值確定的問題,但仍需人工設(shè)計統(tǒng)計特征。目前基于統(tǒng)計的方法需要人工提取文本特征,但是細(xì)粒度信息種類較多、結(jié)構(gòu)多樣,因此人工特征提取復(fù)雜度較高。

文獻[15]中提出了基于視覺分塊的VIPS(VIsion-based Page Segmentation)算法,利用網(wǎng)頁中的視覺特征并結(jié)合啟發(fā)式規(guī)則將網(wǎng)頁分塊,從而識別網(wǎng)頁正文塊來獲取網(wǎng)頁主要內(nèi)容。文獻[16]中使用一個呈現(xiàn)引擎來獲取Web 頁面的圖像,獲取該圖像的最小呈現(xiàn)元素后使用定制算法進行集群,并生成給定粒度的一組平面片段,從而實現(xiàn)網(wǎng)頁分割。文獻[17]中將DOM 樹與CNN 相結(jié)合,提出了一種基于視覺的VBF 方法,通過獲取網(wǎng)頁的HTML 代碼和截圖,建立DOM樹,計算神經(jīng)網(wǎng)絡(luò)和表單識別、匹配、生成,從網(wǎng)頁中提取信息表單。文獻[18]中通過假設(shè)網(wǎng)頁的中心內(nèi)容最重要,將網(wǎng)頁劃分網(wǎng)格并從質(zhì)心逐步展開直到主內(nèi)容核心中的子樹包含整個主內(nèi)容的方法來提取主內(nèi)容。文獻[19]中應(yīng)用卷積與長短期記憶(Long Short-Term Memory,LSTM)深度學(xué)習(xí)網(wǎng)絡(luò)實現(xiàn)Web 數(shù)據(jù)提取,使用YOLO 算法和Tesseract LSTM 算法提取網(wǎng)頁的圖像來對比頁面差異等內(nèi)容,實現(xiàn)自動網(wǎng)頁檢測從而提取數(shù)據(jù)。學(xué)者主頁信息一般會實時更新,基于視覺分塊的方法往往需要先進行頁面渲染,這會耗費大量資源。

基于模板的信息抽取方法包含傳統(tǒng)機器學(xué)習(xí)方法與神經(jīng)網(wǎng)絡(luò)算法。早期的手工構(gòu)造模板的方法主要用來解決特定網(wǎng)站的信息抽取問題,使用該類方法不需要構(gòu)建數(shù)據(jù)集,但是需要大量的人工分析且不同的站點需要不同模板,費時費力且通用性較差。于是大量研究集中于如何自動生成模板的方法上,文獻[20]中提出了一種全自動生成模板的算法,利用網(wǎng)頁鏈接分類算法和網(wǎng)頁結(jié)構(gòu)分離算法,經(jīng)過大量計算后抽取出網(wǎng)頁中各個信息單元,從而生成模板,但是該算法需要對同類網(wǎng)站進行觀察,計算量較大。文獻[21]中通過對網(wǎng)頁DIV(DIVision)塊進行分類,篩選出待抽取的DIV塊并構(gòu)建DIV 塊模板,再對塊內(nèi)的文本定位建立關(guān)鍵信息模板。此類方法的預(yù)處理部分過于繁雜,且仍需要人工構(gòu)建可擴展標(biāo)記語言(Extensible Markup Language,XML)模板。文獻[22]中提出可擴展的網(wǎng)頁關(guān)鍵信息抽取方法,它的核心是全自動模板生成技術(shù),其中的生成算法需要訓(xùn)練預(yù)先準(zhǔn)備的數(shù)據(jù)集,而且通用性依賴于訓(xùn)練集的覆蓋率,如果一個訓(xùn)練集覆蓋較窄,則可能導(dǎo)致對某些頁面的抽取失敗。文獻[23]中采用網(wǎng)頁分隔和逆向解析DOM 樹,得到相應(yīng)的Xpath(XML path language)抽取規(guī)則,實現(xiàn)新聞網(wǎng)頁中新聞內(nèi)容、標(biāo)題、新聞代理和發(fā)布時間等信息的抽取,由于該方法是針對新聞網(wǎng)頁,在異構(gòu)Web 中信息提取效果不佳。隨著網(wǎng)頁結(jié)構(gòu)的不斷變化,越發(fā)顯現(xiàn)出傳統(tǒng)機器學(xué)習(xí)方法的局限性。隨著神經(jīng)網(wǎng)絡(luò)的興起,現(xiàn)有方法開始結(jié)合HTML 模板節(jié)點與神經(jīng)網(wǎng)絡(luò)進行信息抽取任務(wù),降低對人工定義特征的依賴。文獻[24]中使用BERT(Bidirectional Encoder Representation form Transformers)獲取詞的通用語義表征,之后輸入雙向長短期記憶(Bidirectional Long Short-Term Memory,BiLSTM)網(wǎng)絡(luò)對上下文進行編碼,使用條件隨機場(Conditional Random Field,CRF)進行標(biāo)簽標(biāo)注獲取學(xué)者主頁信息。文獻[25]中利用簡化的DOM 樹結(jié)構(gòu)有效地檢索每個節(jié)點的上下文,將節(jié)點的文本特征分別由LSTM 和CNN 在單詞級別和字符級別進行編碼,通過分類器最終獲取目標(biāo)屬性。文獻[26]中提出一種基于HTML 中DOM 節(jié)點的網(wǎng)頁結(jié)構(gòu)信息提取方法,為每個DOM 節(jié)點設(shè)計HTML 標(biāo)記并與文本標(biāo)記構(gòu)建豐富的注意力模式,利用主頁的頁面布局進行注意力權(quán)重計算最終獲取頁面結(jié)構(gòu)化信息。文獻[27]中提出了一種基于DOM 樹中節(jié)點的信息熵的新聞網(wǎng)頁自動提取方法,首先對網(wǎng)頁標(biāo)簽進行分類選取影響頁面結(jié)構(gòu)的標(biāo)簽,之后考慮DOM 樹節(jié)點的內(nèi)容與結(jié)構(gòu)特征進行節(jié)點融合獲得分割結(jié)果,從而實現(xiàn)對網(wǎng)頁新聞內(nèi)容的提取。文獻[28]中提供了一個站點級模板提取器,結(jié)合了站點級模板檢測方法TeMex 與內(nèi)容提取方法ConEx,在TeMex 中進行預(yù)處理去除頁面級ConEx 推斷的主要內(nèi)容從而進行站點模板提取。

使用基于模板的信息抽取方法,隨著HTML 標(biāo)準(zhǔn)及風(fēng)格的變化會導(dǎo)致模型提取效果降低;而使用基于統(tǒng)計信息的方法與基于視覺分塊的方法一般需要人工進行部分特征提取,耗費資源且復(fù)雜度高。因此,本文不再對HTML 模板進行建模,而建立文本分類模型重點分析文本語義特征,針對頁面純文本信息進行細(xì)粒度信息提取。然而文本分類模型通常只需對單一語義信息進行建模,但學(xué)者信息抽取任務(wù)中上下文具有語義與結(jié)構(gòu)上的相關(guān)性,因此,本文對傳統(tǒng)的分類方法加以改進,提出基于局部語義融合的學(xué)者主頁細(xì)粒度信息提取模型,引入提取目標(biāo)外局部上下文語義信息,豐富目標(biāo)語義表征,實現(xiàn)了學(xué)者主頁細(xì)粒度信息提取。

2 學(xué)者主頁細(xì)粒度信息提取方法

本文方法由學(xué)者主頁純文本信息提取模塊、語義編碼層、局部語義特征融合層、細(xì)粒度信息計算層組成。模型體系結(jié)構(gòu)如圖1 所示。

圖1 模型體系結(jié)構(gòu)Fig.1 Model architecture

2.1 學(xué)者主頁純文本信息提取模塊

原始數(shù)據(jù)為學(xué)者主頁超鏈接。根據(jù)鏈接獲取對應(yīng)的HTML 文檔,利用HTML 中普遍存在的
與其他具有換行功能的標(biāo)簽對文檔內(nèi)容進行換行處理,之后使用Python 庫BeautifulSoup 去除標(biāo)簽,提取頁面純文本信息,在此過程中,純文本對應(yīng)行數(shù)與HTML 文檔相對位置保持一致。最終進行長段落分句換行,獲取網(wǎng)頁文本語料S={s1,s2,…,sn},S中的每個元素表示網(wǎng)頁文本中的一個行塊,即為處理后的頁面純文本的一行,以此粒度為基本單位實現(xiàn)對學(xué)者主頁細(xì)粒度信息的提取。在文本語料S中的每個元素的開頭添加特殊符號“[CLS]”,經(jīng)預(yù)訓(xùn)練模型訓(xùn)練后該無明顯語義信息的特殊符號能夠更公平地融合句子中各個詞的語義信息,從而更好地表示每個行塊的語義。圖1 中sk-1,sk,sk+1為輸入預(yù)訓(xùn)練模型的文本語料示例,設(shè)文本語料sk為提取目標(biāo),則sk-1和sk+1為提取目標(biāo)局部上下文信息。

2.2 語義編碼層

純文本信息提取與處理完成后,將行塊輸入語義編碼層使用中文RoBERTa-wwm-ext[6]預(yù)訓(xùn)練模型學(xué)習(xí)語義表征。學(xué)者主頁以行塊為單位進行抽取,RoBERTa-wwm-ext 能夠很好地對中文文本中句子級別的語義信息及相對位置信息進行建模,而行塊通常為一個自然句,因此,本文使用該模型實現(xiàn)行塊粒度上的語義編碼。RoBERTa-wwm-ext 由哈工大訊飛聯(lián)合實驗室發(fā)布的BERT 模型演化而來,嵌入層使用中文維基百科與新聞、問答等作為預(yù)訓(xùn)練語料,哈工大語言技術(shù)平臺(Language Technology Platform,LTP)分詞工具進行分詞實現(xiàn)全詞mask,使它能夠獲取更精準(zhǔn)豐富的語義信息。

RoBERTa-wwm-ext 結(jié)合了中文全詞掩碼技術(shù)與RoBERTa 的優(yōu)勢,相較于經(jīng)典BERT 模型,具有以下特點:

1)使用全詞掩碼(Whole Word Masking,WWM)策略。在以詞為最小造句單位的中國語言體系中,詞語的識別與使用很有必要。WWM 將經(jīng)典模型中以字為單位的mask 方法轉(zhuǎn)換為更符合中文文本特點的以詞為單位的mask 方式。表1為WWM 的示例,通過符合中文結(jié)構(gòu)特點的全詞掩碼策略,有效提升了文本表征的效果。

表1 掩碼方式示例Tab.1 Examples of masking modes

2)模型訓(xùn)練階段的訓(xùn)練數(shù)據(jù)量規(guī)模增大、模型參數(shù)量增加、batch_size 增大,且直接使用max_length=512 的訓(xùn)練序列進行訓(xùn)練。訓(xùn)練步數(shù)延長,共計訓(xùn)練106步。

3)去除下句預(yù)測(Next Sentence Prediction,NSP)任務(wù)。在保證模型預(yù)訓(xùn)練最終效果的基礎(chǔ)上,NSP 任務(wù)的去除提高了計算效率。

RoBERTa-wwm-ext 由12 層Transformer 構(gòu)建,輸入為分類任務(wù)中的單文本或文本匹配任務(wù)的文本對,如圖2 所示。

圖2 RoBERTa-wwm-ext模型結(jié)構(gòu)Fig.2 Structure of RoBERTa-wwm-ext model

因RoBERTa-wwm-ext 預(yù)訓(xùn)練模型在中文語義編碼上的特殊優(yōu)勢與自然語言處理任務(wù)中較好的實驗效果,本文選擇它進行文本語義編碼。語義編碼層包括嵌入層與表征層。網(wǎng)頁文本語料S通過嵌入層將字序列{[ CLS],W1,W2,…,Wn}映射為包含字向量信息、位置向量信息與輸入序列向量信息的多維空間向量(E[CLS],E1,E2,…,En),用RoBERTa-wwm-ext的多個雙向Transformer 自編碼器(圖1 中簡寫為Trm)。對上述多維空間向量進行編碼操作,處于低層次的自編碼器獲取字向量的短語級別的信息,中層次自編碼器獲取單句的語法特征,高層次的自編碼器獲取單句語義特征,最后一層將文本語料映射到高維語義空間得到文本表征向量。每個行塊的特殊符號“[CLS]”對應(yīng)輸出的特征向量(C1,C2,…,Cn)為局部語義特征融合層的輸入。

2.3 局部語義特征融合層

局部語義特征融合層使用簡化的卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行局部上下文特征提取。CNN 的原理在于捕捉信息的局部相關(guān)信息,具體到此任務(wù)可以用來捕捉目標(biāo)句局部上下文的關(guān)鍵信息。CNN 通常由五層組成:數(shù)據(jù)輸入層、卷積層、激勵層、池化層與全連接層。本文的目標(biāo)句通常為短句,池化層會導(dǎo)致特征降維從而丟失目標(biāo)文本語義信息,故去掉池化層,并且讓模型深度盡可能淺。在對短文本進行特征提取時,深層神經(jīng)網(wǎng)絡(luò)獲取的特征更抽象,同樣會導(dǎo)致語義信息的丟失。因此本文使用簡化的CNN,僅使用它的數(shù)據(jù)輸入層、單層文本卷積操作層、激勵層、單層全連接層實現(xiàn)局部語義特征的融合提取。主要利用CNN 中卷積層能夠有效提取上下文的特性對目標(biāo)句及它的上下文進行乘積求和,豐富提取目標(biāo)句語義特征。

將語義編碼層的輸出(C1,C2,…,Cn)作為卷積層的輸入,進行局部語義融合,得到目標(biāo)句更豐富的高維度語義信息。在學(xué)者主頁細(xì)粒度信息抽取任務(wù)中,經(jīng)過詞向量表達的文本為一維數(shù)據(jù),因此通過一維卷積操作對局部信息進行語義融合,卷積層的輸入維度為(N,Gin,Lin),輸出維度為(N,Gout,Lout),卷積層的輸出值為:

其中:*表示有效的互相關(guān)操作;N為更新模型參數(shù)之前通過網(wǎng)絡(luò)傳播的樣本數(shù)量;G表示通道的個數(shù);L為輸入信號序列的長度。在神經(jīng)網(wǎng)絡(luò)卷積過程中可調(diào)節(jié)感受野,即在適宜范圍內(nèi)融合目標(biāo)局部上下文語義信息,使目標(biāo)語義表示更加豐富。本文將感受野大小設(shè)置為7,即將目標(biāo)行塊與它的局部范圍內(nèi)6 個行塊進行融合,原因在實驗部分說明。

傳統(tǒng)分類方法因一般不需要參考上下文信息,不會進行局部上下文特征與目標(biāo)句特征的交互運算。但是考慮到學(xué)者細(xì)粒度信息抽取任務(wù)局部語義相關(guān)聯(lián)的結(jié)構(gòu)性,本文提出融合局部語義特征的方法,將一個CNN 卷積核設(shè)置為Ki∈Wl×d,其中,Ki表示第i個卷積核,每個卷積核都是一個l×d大小的矩陣,l表示卷積核的窗口大小,d表示輸入句子的維度;W是指卷積層的卷積核集合代表一個l個句子的窗口,窗口覆蓋目標(biāo)行塊與局部上下文向量,通過卷積層生成一個語義更豐富的目標(biāo)行塊表征向量H=(h1,h2,…,hl)。

2.4 細(xì)粒度信息計算層

將卷積層的輸出H=(h1,h2,…,hl)輸入全連接層(Linear),將目標(biāo)句表征向量從高維度空間映射到低維度標(biāo)簽空間,返回未經(jīng)過歸一化的概率Logits={z1,z2,…,zl}。細(xì)粒度信息計算層主要進行Softmax 操作。使用Softmax 進行歸一化文本分類,計算出目標(biāo)句在細(xì)粒度信息標(biāo)簽中的概率P=(p1,p2,…,p11),選擇最大值代表的細(xì)粒度信息標(biāo)簽作為最終輸出的細(xì)粒度信息標(biāo)簽。細(xì)粒度信息計算層表述公式如下:

其中:zl為Logits的第i個元素,l為Logits向量的長度。

3 實驗與結(jié)果分析

3.1 數(shù)據(jù)集介紹

本文所用數(shù)據(jù)集由AMiner 平臺獲取。該數(shù)據(jù)集為學(xué)者個人主頁,共2 149 個頁面,其中高校官網(wǎng)、網(wǎng)絡(luò)百科全書、學(xué)術(shù)機構(gòu)網(wǎng)站、醫(yī)院官網(wǎng)、公司網(wǎng)站的頁面占比分別為86%、8%、3%、2%與1%。研究學(xué)者普遍在高校官網(wǎng)中建立個人主頁,因此該類占比最高。本文將學(xué)者個人主頁分為11 類細(xì)粒度信息,包含學(xué)者基本信息、教育經(jīng)歷、研究方向等,其中“other”非學(xué)者信息,為頁面導(dǎo)航欄、版權(quán)內(nèi)容等噪聲信息。詳細(xì)信息如表2 所示。

表2 學(xué)者主頁的細(xì)粒度信息詳解Tab.2 Detailed explanation of fine-grained information on scholar homepage

學(xué)者主頁數(shù)據(jù)集Scholars 由人工標(biāo)注并逐句進行二次復(fù)核以確定分類的正確性。本文將2 149 個學(xué)者主頁頁面作為數(shù)據(jù)集,按8∶1∶1 的比例隨機劃分1 719 個頁面作為訓(xùn)練集,驗證集與測試集各215 個頁面。對所有頁面中各類細(xì)粒度信息的數(shù)量進行統(tǒng)計,除“other”內(nèi)容噪聲信息外,10 類學(xué)者細(xì)粒度信息樣本分布如圖3 所示,其中每個類別標(biāo)簽具有3項,第1 項為類別名稱,第2 項為類別樣本數(shù),第3 項為該類別在全部類別中的占比。

圖3 學(xué)者主頁的細(xì)粒度信息樣本分布Fig.3 Samples distribution of scholar homepage fine-grained information

3.2 實驗評價指標(biāo)

為了評價學(xué)者細(xì)粒度信息提取實驗的效果,本文采用評價指標(biāo)精確率P(Precision)、召回率R(Recall)和加權(quán)調(diào)和平均值F1(F1-score)對模型效果進行評估。公式如下:

令細(xì)粒度信息所屬類別原本為X,則TP(True Positive)表示細(xì)粒度信息所屬類別被正確預(yù)測為X的樣本數(shù)量;FP(False Positive)表示細(xì)粒度信息原本不屬于類別X,但被錯誤預(yù)測為X的樣本數(shù)量;FN(False Negative)表示細(xì)粒度信息被錯誤預(yù)測的樣本數(shù)量;TN(True Negative)表示細(xì)粒度信息所屬類別本來不是X,預(yù)測出的結(jié)果也不是X的樣本數(shù)量。

本文需要根據(jù)所有細(xì)粒度信息分類情況整體評估模型效果,因此還使用宏平均精確率(Pmacro)、宏平均召回率(Rmacro)、宏平均F1 值(F1macro)作為整體評價指標(biāo):

宏平均評價指標(biāo)為每種細(xì)粒度信息類別評價指標(biāo)的均值。

3.3 實驗環(huán)境與模型設(shè)置

本文實驗使用基于CUDA 11.4 的深度學(xué)習(xí)框架PyTorch1.9.0 構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。在模型訓(xùn)練過程中使用交叉熵?fù)p失函數(shù)、Adam 優(yōu)化器。Epoch 設(shè)置為動態(tài)數(shù)值,達到最優(yōu)效果之后繼續(xù)運行6 次保持不變則實驗停止。模型訓(xùn)練過程中超參數(shù)設(shè)置如表3 所示。

表3 超參數(shù)設(shè)置Tab.3 Hyperparameter setting

3.4 實驗結(jié)果及分析

3.4.1 對比實驗

為了驗證局部語義特征融合方法的有效性,本文采用以下4 種基線模型與融合局部語義特征的模型進行對比實驗。對比實驗中超參數(shù)一致部分均設(shè)置為相同數(shù)值。

1)BERT[29]:傳統(tǒng)的預(yù)訓(xùn)練語言表征模型。

2)ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)[30]:生成判別模型。

3)RoBERTa-wwm-ext(后文簡寫為RoBERTa)[6]:基于全詞掩碼及強優(yōu)化的BERT 方法。

4)RoBERTa-wwm-ext-TextCNN(后文簡寫為RoBERTa-TextCNN)[31-32]:近期取得顯著效果的文本分類模型。

由于本文方法為保留短文本語義豐富性,采用無池化層以降低擬合性,在對比實驗中本文方法使用K-Fold 交叉驗證,其中K為子集個數(shù)。將本文數(shù)據(jù)集劃分為5 個子集,每部分大小相等,選取其中1 個子集作為驗證集,其余4 個子集用作訓(xùn)練集,重復(fù)5 次,直到每個子集均用作驗證集,其余子集用作訓(xùn)練集。模型最終精度取使用5-Fold 方法訓(xùn)練出的5個模型的驗證集數(shù)據(jù)的平均精度。使用宏平均值評價指標(biāo)來評估本文方法,實驗結(jié)果如表4 所示。

表4 學(xué)者信息提取結(jié)果對比 單位:%Tab.4 Comparison of scholar information extraction results unit:%

表4 中“Ours”表示本文融合局部語義特征的方法;“Ours+ELECTRA-CNN”表示使用局部語義特征融合方法的ELECTRA-CNN 模型;“Ours+RoBERTa-CNN”表示使用局部語義特征融合方法的RoBERTa-wwm-ext-CNN 模型。通過對ELECTRA、BERT、RoBERTa3 種預(yù)訓(xùn)練模型提取效果進行對比,發(fā)現(xiàn)RoBERTa 預(yù)訓(xùn)練模型效果最優(yōu),因此選取RoBERTa作為本實驗的語義表征模型。

實驗結(jié)果表明,使用此融合局部語義特征的方法進行學(xué)者細(xì)粒度信息提取F1macro達到93.43%。對比發(fā)現(xiàn)RoBERTa-TextCNN 模型的F1macro值比RoBERTa 模型降低1.10 個百分點,說明效果顯著的純文本分類模型在學(xué)者信息提取任務(wù)上并不能取得很好的效果。融合局部語義特征的RoBERTa-CNN 方法與未融合局部語義的最優(yōu)純文本分類方法RoBERTa-TextCNN 相比,F(xiàn)1macro提高了8.60 個百分點。由此可見,在學(xué)者細(xì)粒度信息抽取實驗中,使用融合局部語義特征的方法對學(xué)者細(xì)粒度信息提取具有顯著效果。

3.4.2 學(xué)者主頁細(xì)粒度信息提取實驗結(jié)果

使用上述K-Fold 交叉驗證方法進行實驗,融合局部語義特征的學(xué)者主頁細(xì)粒度信息提取模型在Scholars 數(shù)據(jù)集上提取結(jié)果如表5 所示。共提取了10 種學(xué)者相關(guān)細(xì)粒度信息,其中,頁面噪聲信息other 包含頁面導(dǎo)航欄、版權(quán)信息、學(xué)生介紹等內(nèi)容。實驗結(jié)果表明,本文模型在細(xì)粒度信息的提取中取得了較好的效果。achievement 類別的提取效果相對較差,因為學(xué)者所獲成就范圍較廣且沒有穩(wěn)定的格式,之后將對此項加以改進;提取結(jié)果中other 的F1 達到98.55%,說明本文方法對學(xué)者主頁整體的學(xué)者信息的提取效果同樣顯著。

3.4.3 消融實驗

1)感受野范圍對模型效果的影響評估。

本文重點在于局部語義特征的融合,選定一個合適的局部語義融合范圍至關(guān)重要。模型的感受野范圍控制了局部語義特征融合的范圍。本文實驗在CNN 卷積過程中逐步擴大感受野范圍,從而增加目標(biāo)局部上下文語義信息融合范圍,并查看模型提取效果。感受野大小由卷積過程中的卷積窗口控制,即卷積層中的kernel_size 控制。當(dāng)kernel_size=0時,僅卷積當(dāng)前目標(biāo)句;當(dāng)kernel_size=3 時,將融合目標(biāo)句及其上句與下句的語義特征,以此類推。

實驗結(jié)果如表6 所示。當(dāng)kernel_size=1 時,僅對目標(biāo)句進行卷積,沒有融合局部語義特征,F(xiàn)1marco明顯較低,說明了融合局部語義特征的重要性;當(dāng)kernel_size=3 時,融合了局部上下文,提取效果開始具有明顯的提升。此時繼續(xù)擴大感受野范圍,效果繼續(xù)提升;直到kernel_size=7 后,模型趨于平穩(wěn),評估指標(biāo)波動范圍控制在1 個百分點以內(nèi),不再有明顯的提升或降低;當(dāng)kernel_size=13 時,得到最優(yōu)提取結(jié)果為93.03%。顯而易見,本文提出的融合局部語義特征的方法對學(xué)者細(xì)粒度信息抽取具有明顯效果。因為kernel_size=7時F1marco達到了第一個穩(wěn)定峰值,之后開始波動,波動范圍較小,而卷積核越小運算速度越快,根據(jù)時間效率本文將kernel_size=7 設(shè)置為模型感受野大小。

表6 感受野大小與模型效果間的關(guān)系Tab.6 Relationship between receptive field size and model effect

2)池化層影響評估。

為了驗證簡化的CNN 模型的效果,本文將無池化層模型(No-pooling)、在一維卷積后添加最大池化層的模型(+maxpooling)與在一維卷積后添加平均池化層的模型(+avgpooling)這3 個模型進行學(xué)者主頁細(xì)粒度信息抽取對比,實驗結(jié)果如表7 所示。顯然,本文無池化層的模型綜合指標(biāo)F1macro優(yōu)于具有池化層的模型,因此,本文使用無池化層的簡化CNN 進行學(xué)者細(xì)粒度信息抽取。

表7 池化層效果對比 單位:%Tab.7 Effect comparison of pooling layer unit:%

3.4.4 通用性實驗

本文在公開數(shù)據(jù)集上驗證所提模型與方法的通用性。因任務(wù)特殊,較難得到公開個人信息數(shù)據(jù)集,但本文模型為基于分類模型上的改進模型,因此選擇情感分析公開數(shù)據(jù)集NLPCC2014、waimai_10k 與新聞文本分類公開數(shù)據(jù)集toutiaonews38w 數(shù)據(jù)集進行驗證,結(jié)果如表8 所示。實驗發(fā)現(xiàn),在情感分析與分類任務(wù)上,本文模型(Ours+RoBERTa-CNN)與近期取得顯著效果的文本分類模型相比仍具有優(yōu)勢,實驗效果略好。且因CNN 滑動窗口相對較少、執(zhí)行效率高,使用本文模型在保證精確率的同時也能提高任務(wù)的完成速度,說明了本文模型的通用性。但因waimai_10k、toutiaonews38w 數(shù)據(jù)集不具備局部上下文語義相關(guān)聯(lián)的特征,未能利用模型的最大優(yōu)勢。NLPCC2014 為情感分析數(shù)據(jù)集,本文實驗對微博每條評論中每句的情感進行分析,情感分為7 類,任務(wù)難度較高,微博同一條評論的每句話上下文相關(guān)聯(lián),雖語義與結(jié)構(gòu)聯(lián)系不緊密,但在此任務(wù)上F1macro仍有明顯提高,由此驗證了本文方法與模型的通用性與有效性。

表8 不同數(shù)據(jù)集上不同模型的通用性實驗結(jié)果對比 單位:%Tab.8 Experimental results of universality of different models on different datasets unit:%

4 結(jié)語

學(xué)者主頁廣泛分布于不同站點,為了避免學(xué)者主頁信息提取過程受到站點HTML 風(fēng)格變化的影響,本文進行學(xué)者頁面純文本語義分析與頁面相對位置分析,從而進行細(xì)粒度信息提取。分析發(fā)現(xiàn),同種粒度信息常處于頁面相近位置,因此本文提出一種基于局部語義融合的學(xué)者細(xì)粒度信息提取方法,通過融合句外局部語義信息豐富目標(biāo)語義,使目標(biāo)語義特征更飽滿,更有利于學(xué)者主頁細(xì)粒度信息的提取。在自建Scholars 數(shù)據(jù)集上進行驗證,實驗結(jié)果表明本文方法在學(xué)者信息提取任務(wù)上取得了顯著效果。但是本文方法對學(xué)者所獲成就信息的提取效果相對一般,因為學(xué)者所獲成就具有范圍較廣且形式多樣化的特點,未來的工作將對此項加以改進。

猜你喜歡
頁面語義文本
大狗熊在睡覺
刷新生活的頁面
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
同一Word文檔 縱橫頁面并存
主站蜘蛛池模板: 久青草国产高清在线视频| 亚洲综合欧美在线一区在线播放| 久久精品人人做人人爽| 久久久久青草大香线综合精品 | 2021无码专区人妻系列日韩| 午夜欧美在线| 欧美视频在线观看第一页| 国产亚洲精品yxsp| 米奇精品一区二区三区| 精品一区二区三区视频免费观看| 毛片三级在线观看| 色屁屁一区二区三区视频国产| 日韩无码真实干出血视频| 国产三级视频网站| 天堂岛国av无码免费无禁网站| 亚洲一区毛片| 高清不卡一区二区三区香蕉| 亚洲精品你懂的| 久久亚洲国产一区二区| 中文精品久久久久国产网址| 婷婷六月天激情| 亚洲丝袜第一页| 亚洲精品大秀视频| 国产成本人片免费a∨短片| 欧美精品亚洲日韩a| 激情综合网址| 九色在线观看视频| 国产一区亚洲一区| 久久久久久尹人网香蕉| 国产 日韩 欧美 第二页| 91av国产在线| 亚洲首页国产精品丝袜| 国产黄色片在线看| 欧美亚洲另类在线观看| 国产成人精品综合| 日韩一二三区视频精品| 丰满少妇αⅴ无码区| 成年人福利视频| 国产高清在线精品一区二区三区 | 亚洲精品高清视频| 日本久久网站| 毛片视频网| 欧美亚洲网| 国产精品成人AⅤ在线一二三四| 四虎影视库国产精品一区| 亚洲爱婷婷色69堂| 亚洲人成人伊人成综合网无码| 国产婬乱a一级毛片多女| 国产精品刺激对白在线 | 91成人在线免费视频| 999国产精品| 亚洲第一在线播放| 久久精品人妻中文系列| 久久青草视频| 亚洲人成网站在线观看播放不卡| 久久a级片| 中文字幕精品一区二区三区视频| 久久a级片| 久久久久无码国产精品不卡| 国产啪在线| 尤物亚洲最大AV无码网站| 国产精品无码AV中文| 91无码人妻精品一区| 成人福利在线视频| 日韩av高清无码一区二区三区| 国产黑人在线| 亚洲精品视频免费看| 亚洲浓毛av| 亚洲色图欧美| 国产精彩视频在线观看| 自拍欧美亚洲| 在线国产三级| 欧美国产菊爆免费观看| 视频二区亚洲精品| 2020亚洲精品无码| 香蕉综合在线视频91| 欧美一级专区免费大片| 亚洲高清资源| 国产成人乱无码视频| 国产无码网站在线观看| 亚洲高清资源| 日韩性网站|