章成志,胡少虎,張穎怡
(南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院信息管理系,南京210094)
關(guān)鍵詞通常為描述文檔的主題信息的詞語[1]。隨著信息資源的快速增長(zhǎng),人工標(biāo)注文本關(guān)鍵詞的方式已經(jīng)無法滿足實(shí)際需求。因此,關(guān)鍵詞自動(dòng)抽取研究逐漸引起了學(xué)術(shù)界的重視。此外,關(guān)鍵詞抽取可以作為文本摘要、文本聚類、文本分類等任務(wù)的基礎(chǔ)。
在線社交媒體是網(wǎng)民發(fā)表個(gè)人見解、分享個(gè)人狀態(tài)的重要載體。在線社交媒體每天產(chǎn)生海量的用戶生成內(nèi)容(user generated content,UGC)。如何高效地組織用戶生成內(nèi)容已成為業(yè)界與學(xué)術(shù)界共同關(guān)注的問題。從海量的用戶生成內(nèi)容中及時(shí)有效地抽取關(guān)鍵詞,對(duì)于在線社交網(wǎng)絡(luò)的信息組織尤為關(guān)鍵。因此,許多關(guān)鍵詞抽取研究選擇微博語料作為研究對(duì)象,本文的研究同樣將在推特語料上開展。
目前,機(jī)器學(xué)習(xí)方法被廣泛應(yīng)用于關(guān)鍵詞抽取任務(wù)。具體來說,基于機(jī)器學(xué)習(xí)的關(guān)鍵詞抽取研究可以分為非監(jiān)督的抽取方法與有監(jiān)督的抽取方法[2]。關(guān)鍵詞抽取結(jié)果的評(píng)估,一般都以關(guān)鍵詞標(biāo)注數(shù)據(jù)作為依據(jù)。標(biāo)注員在標(biāo)注關(guān)鍵詞時(shí),首先閱讀待標(biāo)注文檔的全文,然后根據(jù)理解標(biāo)識(shí)出有代表性的若干詞語。已有研究表明,當(dāng)人們?cè)陂喿x文檔的時(shí)候,對(duì)于文本中的所有單詞的關(guān)注程度并不均等[3]。這說明人們?cè)陂喿x時(shí)的注意力并非均勻地分布在每一個(gè)單詞上,讀者更有可能將注意力集中在有助于其理解文本含義的詞匯上。根據(jù)這一觀察,研究者可以度量閱讀者對(duì)不同單詞上的注意力強(qiáng)弱,并將該信息用于關(guān)鍵詞抽取,提升抽取的性能[4]。
度量讀者閱讀文檔時(shí)在不同詞語上的注意力強(qiáng)弱,較為直觀的方式是比較讀者在閱讀不同詞匯時(shí)眼動(dòng)行為上的差異。眼動(dòng)數(shù)據(jù)集記錄了被試者在閱讀時(shí)的眼動(dòng)行為數(shù)據(jù),可以利用這些眼動(dòng)數(shù)據(jù)來度量讀者在不同詞匯上的注意力強(qiáng)弱。例如,Zhang等[4]根據(jù)該方式,依據(jù)通用語料蓋科(Ghent Eye-Tracking Corpus,GECO)眼動(dòng)數(shù)據(jù)集①http://expsy.ugent.be/downloads/geco,訪問日期:2020年3月30日。在推特文本上進(jìn)行關(guān)鍵詞抽取實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,考慮詞語的注意力強(qiáng)弱可提升關(guān)鍵詞抽取模型的性能。需要指出的是,通用語料眼動(dòng)數(shù)據(jù)集中包含豐富的眼動(dòng)行為數(shù)據(jù),如何將這些數(shù)據(jù)用于關(guān)鍵詞抽取等自然語言處理任務(wù)、全面深入地分析眼動(dòng)數(shù)據(jù)在自然處理抽取任務(wù)上的作用,尚值得深入探索。因此,本文從眼動(dòng)特征的選擇、眼動(dòng)特征與其他特征組合兩個(gè)方面,探究通用語料的眼動(dòng)數(shù)據(jù)對(duì)微博關(guān)鍵詞提取任務(wù)性能的影響。同時(shí),由于眼動(dòng)數(shù)據(jù)集與測(cè)試數(shù)據(jù)集在詞匯規(guī)模上的差距較大,使得眼動(dòng)特征過于稀疏進(jìn)而影響了其作用的發(fā)揮,所以本文還提出了一個(gè)眼動(dòng)數(shù)據(jù)擴(kuò)充方案。需要說明的是,本文通過關(guān)鍵詞抽取模型在測(cè)試集上抽取結(jié)果的變化,來評(píng)判模型抽取性能的強(qiáng)弱。總的來說,本文的貢獻(xiàn)體現(xiàn)在如下三個(gè)方面:
(1)本文分別將總注視時(shí)長(zhǎng)、注視次數(shù)、平均注視時(shí)長(zhǎng)、初次注視時(shí)長(zhǎng)等眼動(dòng)特征應(yīng)用于微博關(guān)鍵詞抽取任務(wù),證明在僅考慮眼動(dòng)特征的情況下,總注視時(shí)長(zhǎng)對(duì)抽取模型的性能提升最為明顯。
(2)將上述眼動(dòng)特征與單詞的詞性、詞長(zhǎng)、相對(duì)位置等文本內(nèi)容特征共同應(yīng)用于微博關(guān)鍵詞抽取任務(wù)后,平均注視時(shí)長(zhǎng)與文本特征的組合達(dá)到了最優(yōu)效果,證明平均注視時(shí)長(zhǎng)這一眼動(dòng)特征在關(guān)鍵詞抽取任務(wù)的整體上來看更有價(jià)值。
(3)在基于眼動(dòng)特征的微博關(guān)鍵詞抽取中,通過單詞詞形之間的相似程度對(duì)眼動(dòng)數(shù)據(jù)進(jìn)行擴(kuò)充的方法可以有效地解決眼動(dòng)數(shù)據(jù)稀疏的問題。
本文旨在對(duì)通用語料的眼動(dòng)數(shù)據(jù)對(duì)微博關(guān)鍵詞抽取任務(wù)性能的影響進(jìn)行分析,同時(shí),提出相應(yīng)的方案解決眼動(dòng)數(shù)據(jù)在應(yīng)用時(shí)存在的問題,因此,與本文相關(guān)的研究工作主要包括關(guān)鍵詞抽取方法與眼動(dòng)數(shù)據(jù)的應(yīng)用兩個(gè)方面。本節(jié)將從這兩個(gè)方面對(duì)相關(guān)工作進(jìn)行總結(jié)。
關(guān)鍵詞抽取研究方法主要分為無監(jiān)督的方法和有監(jiān)督的方法兩大類[2]。早期用于關(guān)鍵詞抽取的方法主要為無監(jiān)督方法,無監(jiān)督的方法按照類別可以分為基于簡(jiǎn)單統(tǒng)計(jì)的方法、基于圖結(jié)構(gòu)的方法、基于詞嵌入的方法和基于語言模型的方法。除了基于圖結(jié)構(gòu)的方法以外,其他三種方法很少單獨(dú)使用,多作為關(guān)鍵詞抽取的輔助手段出現(xiàn)。如doc2vec[5]、sent2vec[6]以及GloVe[7]等就屬于基于詞嵌入的方法,但很少有研究純粹使用詞嵌入來抽取關(guān)鍵詞,基本均會(huì)與其他的模型方法結(jié)合使用。
有監(jiān)督的方法分為傳統(tǒng)的機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)模型兩類。在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中主要存在兩種思路:一種將關(guān)鍵詞抽取任務(wù)視為分類任務(wù);另一種將其視為序列標(biāo)注任務(wù)。如Witten等[8]提出的KEA(keyphrase extraction algorithm)算法與Jiang等[9]提 出 的Ranking SVM(support vector machine)算法就是通過分類模型對(duì)候選詞進(jìn)行分類從而得到關(guān)鍵詞。章成志等[10]通過序列標(biāo)注模型CRF(conditional random field)實(shí)現(xiàn)了對(duì)中文文本中關(guān)鍵詞的標(biāo)引。而Gollapalli等[11]同樣利用CRF模型對(duì)英文文本中的關(guān)鍵詞進(jìn)行了抽取,在構(gòu)建單詞的特征時(shí)引入了外部資源。
隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)模型在多項(xiàng)自然語言任務(wù)中均取得了出色的成績(jī),自然也被應(yīng)用于關(guān)鍵詞抽取任務(wù)。Zhang等[12]為了研究如何從推特中抽取關(guān)鍵詞,提出了擁有兩個(gè)隱層的深度遞歸神經(jīng)網(wǎng)絡(luò)模型:在第一層中捕獲關(guān)鍵詞的相關(guān)信息,在第二層基于第一層獲得的關(guān)鍵詞信息進(jìn)行序列標(biāo)注。Meng等[13]在2017年提出了基于編碼器-解碼器框架seq2seq,該框架使用CopyRNN捕獲內(nèi)容的語義信息,并將數(shù)據(jù)轉(zhuǎn)化為“文本-關(guān)鍵詞”的鍵值對(duì),然后使用RNN(recurrent neural network)模型學(xué)習(xí)源序列與目標(biāo)序列之間的映射關(guān)系。雖然深度學(xué)習(xí)的模型種類眾多,但在關(guān)鍵詞抽取任務(wù)中,最為常見的是BiLSTM(bidirectional long shortterm memory)模型。BiLSTM屬于序列標(biāo)注模型,其同時(shí)考慮了文本信息正向和逆向的傳遞,能夠很好地記錄句子的結(jié)構(gòu)信息,因而受到許多研究者的青睞[14]。Zhang等[15]在對(duì)微博文本進(jìn)行關(guān)鍵詞抽取時(shí)就使用了BiLSTM模型,并證明了其性能相較于CRF等傳統(tǒng)的機(jī)器學(xué)習(xí)模型更為優(yōu)異。
關(guān)鍵詞抽取是一項(xiàng)重要的自然語言處理任務(wù),科研工作者針對(duì)該任務(wù)提出了許多研究方法。從研究對(duì)象上來看,由于微博文本數(shù)據(jù)規(guī)模大、更新速度快且與人們?nèi)粘I盥?lián)系緊密的特性,許多關(guān)鍵詞抽取研究都是在微博文本上開展的。從研究方法上來看,由于深度學(xué)習(xí)模型較強(qiáng)的泛化性與抽取的準(zhǔn)確性,基于深度學(xué)習(xí)的關(guān)鍵詞抽取方法已經(jīng)成為了主流。本文將使用深度學(xué)習(xí)模型抽取微博文本中的關(guān)鍵詞,并深入分析眼動(dòng)特征這一新的特征對(duì)微博關(guān)鍵詞抽取任務(wù)性能的影響。
閱讀是人類認(rèn)識(shí)世界的重要途徑,人類通過閱讀獲取語言文字中的信息后才能對(duì)文本進(jìn)行更深入的思考,人類的閱讀行為從一定程度上能夠反映人類的認(rèn)知過程。早在20世紀(jì)80年代,人們就意識(shí)到了眼動(dòng)數(shù)據(jù)的重要性,并建立了大量的眼動(dòng)數(shù)據(jù)集,這些數(shù)據(jù)集涉及了語言學(xué)各個(gè)方面的研究[16]。隨著采集設(shè)備和采集標(biāo)準(zhǔn)的規(guī)范化,進(jìn)入21世紀(jì)后,出現(xiàn)了大批的眼動(dòng)數(shù)據(jù)集。其中較為著名的有鄧迪(Dundee)語料庫[17]、波茨坦(Potsdam)語料庫[18]、普羅沃(Provo)語料庫[19]、GECO語料庫[20]、祖 科(Zurich Cognitive Language Processing Corpus,ZuCo)語料庫[21]等。
眼動(dòng)數(shù)據(jù)集已在多項(xiàng)自然語言處理任務(wù)中取得較好效果。Barrett等[22]提取出鄧迪語料庫中的眼動(dòng)數(shù)據(jù),結(jié)合SHMM-ME模型[23]提出一種弱監(jiān)督的詞性標(biāo)注方法。在該研究中,其還將眼動(dòng)數(shù)據(jù)集中采集的眼動(dòng)行為數(shù)據(jù)分為多個(gè)類別,并比較了各個(gè)類別下的眼動(dòng)特征的作用。Mishra等[24]將單詞的注視時(shí)長(zhǎng)、注視次數(shù)等眼動(dòng)行為數(shù)據(jù)轉(zhuǎn)化為眼動(dòng)特征,與單詞的詞向量、詞性等特征組合,利用SVM、樸素貝葉斯模型和多層感知機(jī)模型對(duì)文本進(jìn)行情感分析并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。
上述研究的共同之處在于均需要在實(shí)驗(yàn)前招募志愿者來閱讀相關(guān)語料并采集志愿者的眼動(dòng)數(shù)據(jù),這極大地限制了眼動(dòng)數(shù)據(jù)的使用。Barrett等[25]的一項(xiàng)實(shí)驗(yàn)極大地拓寬了眼動(dòng)數(shù)據(jù)的應(yīng)用范圍,其利用鄧迪眼動(dòng)數(shù)據(jù)集在其他五種不同的語料上進(jìn)行詞性標(biāo)注實(shí)驗(yàn),證明眼動(dòng)特征可以應(yīng)用于不同種類的語料上。Barrett等[26]在2018年的一項(xiàng)工作中表明,眼動(dòng)數(shù)據(jù)在其他語料的情緒分類、錯(cuò)誤語法檢測(cè)、侮辱語言檢測(cè)等任務(wù)上都可以起到較好的效果。在該項(xiàng)任務(wù)中,研究者將單詞的眼動(dòng)特征通過注意力機(jī)制融入深度學(xué)習(xí)模型中,使得模型在訓(xùn)練時(shí)更關(guān)注文本的關(guān)鍵部分,并取得了較好的效果。
需要指出的是,Zhang等[4]同樣利用注意力機(jī)制在推特?cái)?shù)據(jù)上進(jìn)行關(guān)鍵詞抽取研究,該研究證明將讀者對(duì)詞匯的總注視時(shí)長(zhǎng)這一眼動(dòng)行為數(shù)據(jù)進(jìn)行一定的處理后,單獨(dú)加入關(guān)鍵詞抽取模型可以提升模型的抽取效果。但該研究未考慮使用其他眼動(dòng)行為數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn),也未從整體上考察眼動(dòng)特征在推特關(guān)鍵詞抽取任務(wù)上的作用,同時(shí)針對(duì)實(shí)驗(yàn)中存在的眼動(dòng)數(shù)據(jù)稀疏問題也只是給出簡(jiǎn)單的均值方案。為了更加全面地分析眼動(dòng)數(shù)據(jù)在微博關(guān)鍵詞抽取任務(wù)上的作用,本文將設(shè)置三組對(duì)照實(shí)驗(yàn)從眼動(dòng)特征的選擇、眼動(dòng)特征與其他特征組合,以及眼動(dòng)數(shù)據(jù)的擴(kuò)充三個(gè)方面進(jìn)行更為深入的探究。
本文研究思路為:①http://www.natcorp.ox.ac.uk/,訪問日期:2020年3月30日。數(shù)據(jù)準(zhǔn)備:選擇合適的眼動(dòng)數(shù)據(jù)集與用于關(guān)鍵詞抽取實(shí)驗(yàn)的微博數(shù)據(jù)集;②數(shù)據(jù)預(yù)處理:對(duì)微博文本中的非法字符進(jìn)行替換,以句為單位對(duì)文本進(jìn)行編碼處理,對(duì)眼動(dòng)數(shù)據(jù)集中的眼動(dòng)數(shù)值進(jìn)行歸一化處理,并提出眼動(dòng)數(shù)據(jù)的擴(kuò)充方案;③眼動(dòng)特征與文本特征概述:對(duì)本文所使用的眼動(dòng)特征與文本特征進(jìn)行概述,包括特征的來源、特征的處理和選擇該特征的原因;④關(guān)鍵詞抽取模型構(gòu)建:針對(duì)本研究的任務(wù)構(gòu)建關(guān)鍵詞抽取模型;⑤眼動(dòng)數(shù)據(jù)作用分析:說明實(shí)驗(yàn)設(shè)置與評(píng)價(jià)指標(biāo),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,主要從眼動(dòng)特征的選擇、眼動(dòng)特征與其他文本特征的組合、眼動(dòng)數(shù)據(jù)擴(kuò)充方案的評(píng)估三個(gè)角度進(jìn)行分析。具體思路如圖1所示。

圖1 研究思路圖
本文所使用的數(shù)據(jù)集可分為兩類:第一類數(shù)據(jù)集以眼動(dòng)數(shù)據(jù)為主,用于生成人在閱讀時(shí)對(duì)單詞的注意力值,即單詞的眼動(dòng)特征;第二類數(shù)據(jù)集以推特?cái)?shù)據(jù)集為主,用于訓(xùn)練關(guān)鍵詞抽取模型并評(píng)估模型性能。本小節(jié)將從這兩個(gè)方面對(duì)文中所使用的數(shù)據(jù)集進(jìn)行概述。
3.2.1 通用領(lǐng)域眼動(dòng)數(shù)據(jù)集
目前,開源的眼動(dòng)數(shù)據(jù)集數(shù)量較為有限,并且不是所有的眼動(dòng)數(shù)據(jù)都適用于本實(shí)驗(yàn)。部分眼動(dòng)數(shù)據(jù)集會(huì)在采集數(shù)據(jù)前,給被試者提供若干與閱讀文本相關(guān)的問題,使得被試者在閱讀時(shí)帶有目的性。盡管沒有直接的研究表明這會(huì)顯著地影響人的閱讀行為,但為了盡可能地減少潛在的干擾因素,本文選擇規(guī)避這類數(shù)據(jù)集。由于過于稀疏的眼動(dòng)數(shù)據(jù)分布可能導(dǎo)致實(shí)驗(yàn)結(jié)果不顯著甚至起到反作用,所選的眼動(dòng)數(shù)據(jù)集規(guī)模不能過小。以ZuCo數(shù)據(jù)集[21]為例,該數(shù)據(jù)集中符合要求的部分僅包含700個(gè)句子與2206個(gè)單詞,并不利于后續(xù)研究的展開。綜合多種因素的考量,本文最終選擇了GECO數(shù)據(jù)集[20],該數(shù)據(jù)集選擇了以英語為母語的6名男性與7名女性作為數(shù)據(jù)采集對(duì)象,采集了其在一般狀態(tài)下閱讀小說時(shí)的眼動(dòng)行為數(shù)據(jù),共囊括了5031個(gè)句子,5749個(gè)單詞,較為符合本文的要求。
本文使用眼動(dòng)數(shù)據(jù)來表示人類在閱讀時(shí)注意力的分布情況,但是直接使用眼動(dòng)數(shù)據(jù)來度量閱讀者對(duì)該單詞的注意力強(qiáng)弱并不合理。在日常生活中,人們接觸各個(gè)單詞的概率并不相同,相較于熟悉的單詞,人們需要花更多的時(shí)間去理解較為陌生的單詞。這并不表明閱讀者更加關(guān)注這類單詞,只是閱讀者對(duì)其更為陌生。因此,本文參照文獻(xiàn)[4]引入英國(guó)國(guó)家語料庫①http://www.natcorp.ox.ac.uk/,訪問日期:2020年3月30日。(The British National Corpus,BNC),該語料庫中收錄了海量的英文文本數(shù)據(jù),單詞在該語料庫中出現(xiàn)的頻率可以從一定程度上度量普通閱讀者接觸該單詞的概率與熟悉程度。GECO數(shù)據(jù)集中共有5037個(gè)單詞,可以在英國(guó)國(guó)家語料庫中找到對(duì)應(yīng)的詞頻。
3.2.2 關(guān)鍵詞抽取測(cè)試數(shù)據(jù)集
影響人眼動(dòng)行為的因素十分復(fù)雜,為了獲取有效的眼動(dòng)數(shù)據(jù),數(shù)據(jù)采集者會(huì)選擇句子長(zhǎng)度較短、內(nèi)容更易理解的文本作為采集文本。本文使用的GECO數(shù)據(jù)集同樣符合這些特點(diǎn),所以在選擇用于進(jìn)行關(guān)鍵詞抽取實(shí)驗(yàn)的測(cè)試數(shù)據(jù)集時(shí),本文選擇了句子長(zhǎng)度較短的推特文本作為測(cè)試數(shù)據(jù)集。同時(shí),為了確保實(shí)驗(yàn)結(jié)果不受特定數(shù)據(jù)集的影響,本文選擇了兩個(gè)不同來源的推特?cái)?shù)據(jù)集作為對(duì)照組。兩個(gè)數(shù)據(jù)集分別名為Daily-Life數(shù)據(jù)集和Election-Trec數(shù)據(jù)集[27]。這兩個(gè)數(shù)據(jù)集都采集自推特,前者是根據(jù)日常生活詞匯通過Twitter API抓取的2018年1月至4月的用戶推文;后者是TREC 2011比賽中的一個(gè)子數(shù)據(jù)集。這兩個(gè)數(shù)據(jù)集與GECO數(shù)據(jù)集、BNC數(shù)據(jù)集詞匯(不含標(biāo)點(diǎn)符號(hào))的相關(guān)統(tǒng)計(jì)如表1所示。

表1 測(cè)試數(shù)據(jù)集詞匯統(tǒng)計(jì)表
本文的數(shù)據(jù)預(yù)處理工作主要分為兩個(gè)部分:第一部分是對(duì)推特?cái)?shù)據(jù)集的非法字符進(jìn)行替換,并對(duì)文本數(shù)據(jù)進(jìn)行編碼處理;第二個(gè)部分是將眼動(dòng)行為數(shù)據(jù)處理為眼動(dòng)特征,并提出眼動(dòng)數(shù)據(jù)的擴(kuò)充方案。
3.3.1 推特?cái)?shù)據(jù)集預(yù)處理
由于本文的測(cè)試數(shù)據(jù)來自推特,其文本的規(guī)范性難以得到保證,在推文中摻雜了較多無法識(shí)別的字符以及網(wǎng)址。為了得到規(guī)范化的文本,本文通過字符的編碼判斷字符串是否是英文單詞,對(duì)無法識(shí)別的字符串用“UNKNOWN”標(biāo)簽代替,同時(shí)使用正則表達(dá)式識(shí)別推文中的網(wǎng)址并將其以“URL”標(biāo)簽代替。
由于本文使用序列標(biāo)注模型來解決關(guān)鍵詞抽取任務(wù),需要將文本處理成向量的形式,故本文在對(duì)文本進(jìn)行規(guī)范化后,對(duì)文本以句子為單位進(jìn)行了獨(dú)熱編碼(One-Hot)處理。獨(dú)熱編碼的流程大致可以分為三步:第一步,是為文本中所有的單詞編號(hào),使每個(gè)單詞擁有唯一的編號(hào);第二步,是將句子序列中所有的單詞以編號(hào)表示;第三步,是根據(jù)數(shù)據(jù)集中最長(zhǎng)序列的長(zhǎng)度為其他序列進(jìn)行補(bǔ)齊。
3.3.2 眼動(dòng)數(shù)據(jù)擴(kuò)充方案
本文對(duì)眼動(dòng)數(shù)據(jù)的處理參照了文獻(xiàn)[4],單詞的眼動(dòng)特征由歸一化后的眼動(dòng)數(shù)值與BNC中歸一化后的詞頻相乘得到,區(qū)別在于該研究中使用眼動(dòng)特征的均值來代替缺失值,而本文采用了眼動(dòng)數(shù)據(jù)擴(kuò)充方案來應(yīng)對(duì)缺失值。
從表1不難看出,GECO與BNC數(shù)據(jù)集在兩個(gè)推特?cái)?shù)據(jù)集上的詞匯覆蓋情況并不理想,只有不足10%的詞匯能夠找到對(duì)應(yīng)的眼動(dòng)數(shù)值。如果單純地以眼動(dòng)特征的均值來代替缺失值容易衍生出兩個(gè)關(guān)鍵的問題:一是以均值表示的詞匯數(shù)量相較于擁有眼動(dòng)特征的詞匯來說更多,這就使得擁有眼動(dòng)特征的詞匯顯得更為“特殊”,僅從實(shí)驗(yàn)結(jié)果來看很難解釋究竟是眼動(dòng)特征發(fā)揮了作用,還是因?yàn)閾碛醒蹌?dòng)特征的詞匯更為“特殊”,從而使得關(guān)鍵詞抽取模型的效果得到了提升;二是過于稀疏的眼動(dòng)特征會(huì)限制其在關(guān)鍵詞抽取任務(wù)上的作用,影響模型的抽取結(jié)果。
為此,本文提出了一個(gè)眼動(dòng)數(shù)據(jù)擴(kuò)充方案,該方案的目的是賦予盡可能多的詞匯一個(gè)近似的眼動(dòng)特征,以緩解眼動(dòng)數(shù)據(jù)稀疏的問題。在該方案中,本文假設(shè)單詞的眼動(dòng)數(shù)值是與其詞形是存在一定程度的關(guān)聯(lián)的,那么該方案的目的是通過單詞之間詞形上的相似來賦予其一個(gè)近似的眼動(dòng)數(shù)值。本文首先取出測(cè)試集中無法在GECO數(shù)據(jù)集或是英國(guó)國(guó)家語料庫中找到對(duì)應(yīng)數(shù)值的單詞,遍歷上述兩個(gè)數(shù)據(jù)集中的所有單詞,如果該單詞為某一單詞的子字符串,則認(rèn)為兩者之間存在關(guān)聯(lián),該單詞的眼動(dòng)數(shù)值為所有與其相關(guān)聯(lián)詞匯的眼動(dòng)數(shù)據(jù)均值。通過這種方式,3432個(gè)單詞獲得了一個(gè)近似的眼動(dòng)數(shù)值,302個(gè)單詞獲得了近似的詞頻,一共有39302個(gè)單詞至少擁有眼動(dòng)數(shù)值或詞頻之間的一個(gè)值,這個(gè)數(shù)量遠(yuǎn)遠(yuǎn)超過了單純采用均值的方案。本文將在第4節(jié)通過對(duì)比實(shí)驗(yàn)來說明該方案的有效性。
本文需要使用兩類特征:第一類特征是來自GECO數(shù)據(jù)集的眼動(dòng)特征,目的是探究哪一類眼動(dòng)行為數(shù)據(jù)可以更好地度量閱讀者的注意力;第二類特征是來自BNC數(shù)據(jù)集與推特?cái)?shù)據(jù)集的文本特征,目的是探究眼動(dòng)特征與文本特征結(jié)合后,能否從整體上提升微博關(guān)鍵詞抽取任務(wù)。本節(jié)將分別闡述這兩類特征。
3.4.1 通用領(lǐng)域眼動(dòng)特征
GECO數(shù)據(jù)集中采集了被試者的多種眼動(dòng)行為,如被試者注視某個(gè)單詞的時(shí)長(zhǎng)、閱讀單詞的順序、注視某個(gè)單詞的次數(shù)等。本文選擇了其中的初次注視時(shí)長(zhǎng)、總注視時(shí)長(zhǎng)和注視次數(shù)這三組數(shù)據(jù)。其中,初次注視時(shí)長(zhǎng)表示被試者在某個(gè)單詞上發(fā)生注視行為的時(shí)間跨度,表示被試者對(duì)單詞進(jìn)行初步加工的時(shí)間;總注視時(shí)長(zhǎng)是被測(cè)者在某個(gè)單詞上發(fā)生注視行為的時(shí)間跨度總和;注視次數(shù)表示被測(cè)試者在整個(gè)閱讀過程中,在該單詞上發(fā)生注視行為的次數(shù)。
總注視時(shí)長(zhǎng)表示被試者在閱讀時(shí)在該單詞上發(fā)生注視行為的時(shí)長(zhǎng)總和,能較好地體現(xiàn)閱讀者在整個(gè)閱讀的過程中消耗在該單詞上的注意力,在許多研究[4,26]中均選擇了用其來度量閱讀者對(duì)該單詞的注意力。但由于總注視時(shí)長(zhǎng)容易受到讀者個(gè)人興趣等因素的影響,故本文加入了閱讀者的初次注視時(shí)長(zhǎng)數(shù)據(jù)作為對(duì)照組。同時(shí),本文也加入了被試者在單詞上發(fā)生注視行為的次數(shù),以及由總注視時(shí)長(zhǎng)與注視次數(shù)求得的平均注視時(shí)長(zhǎng)這兩組數(shù)據(jù)作為對(duì)照組。
3.4.2 微博數(shù)據(jù)文本特征
在文本特征選擇方面,本文選擇了單詞的詞性、詞長(zhǎng)與相對(duì)位置特征,這三個(gè)特征常被用于關(guān)鍵詞的抽取研究中,且能顯著地提高模型性能。例如,YAKE中使用了單詞的詞長(zhǎng)、相對(duì)位置等特征用于關(guān)鍵詞抽取研究[28],而Chen等[29]則在篩選候選關(guān)鍵詞時(shí),考慮了單詞的詞性特征,說明了上述三個(gè)特征均是有助于關(guān)鍵詞抽取任務(wù)的。
單詞的詞長(zhǎng)與相對(duì)位置特征的獲取并不困難,前者只需統(tǒng)計(jì)單詞中所包含的字符個(gè)數(shù),而后者可以通過單詞在句子中的位置除以該句的長(zhǎng)度得到。這兩個(gè)特征都可以直接用一維向量表示,而詞性特征則需要進(jìn)行不同的處理步驟。詞性特征來源于BNC數(shù)據(jù)集,其中共標(biāo)識(shí)了62種不同的詞性標(biāo)記,考慮到英國(guó)國(guó)家語料庫中的詞匯并不能完全覆蓋測(cè)試集中的所有單詞,包括“缺失”標(biāo)簽在內(nèi)共有63種詞性標(biāo)簽,故本文使用63維的向量來表示每個(gè)單詞的詞性。
本文使用的關(guān)鍵詞抽取模型由兩個(gè)模塊組成,即序列標(biāo)注模塊與注意力機(jī)制模塊。序列標(biāo)注模塊主要負(fù)責(zé)對(duì)輸入序列進(jìn)行標(biāo)注,標(biāo)識(shí)出句子中的關(guān)鍵詞;注意力機(jī)制模塊的主要任務(wù)是為了引導(dǎo)模型在訓(xùn)練時(shí)更關(guān)注句子的關(guān)鍵部分。句子的關(guān)鍵部分或者說句子中各個(gè)詞匯的重要程度則是通過人們?cè)陂喿x該單詞時(shí)的眼動(dòng)行為,即單詞的眼動(dòng)特征來度量的。該模型結(jié)構(gòu)如圖2所示。
在序列標(biāo)注模塊中,本文采用了BiLSTM模型。該模型是一種循環(huán)神經(jīng)網(wǎng)絡(luò)模型,其在訓(xùn)練時(shí)會(huì)同時(shí)考慮文本信息正向與逆向的傳遞,是關(guān)鍵詞抽取任務(wù)中較為常見且性能較好的模型。因?yàn)锽iLSTM是一種序列標(biāo)模型,所以本文需要將推文轉(zhuǎn)化成模型可以識(shí)別的輸入與輸出序列。目標(biāo)推文首先經(jīng)由獨(dú)熱編碼后生成形如<Xi,1,Xi,2,…,Xi,|x|>的序列,其中|x|表示推文的長(zhǎng)度。本文的目標(biāo)是在模型中輸入該序列,從模型的輸出中得到形如<Yi,1,Yi,2,…,Yi,w>的結(jié)果,其中,Yi,w表示Xi,w是否表示關(guān)鍵詞或關(guān)鍵詞組的一部分。
在序列標(biāo)注模塊中,BiLSTM模型的輸入由三個(gè)部分拼接而成,分別為詞向量、字符級(jí)詞向量以及文本特征。其中,Xi,w表示第i句中的第w個(gè)單詞所表示的詞向量。<…,Xi,w,c-1,Xi,w,c,Xi,w,c+1…>表示單詞字符級(jí)的序列,是每個(gè)單詞經(jīng)由獨(dú)熱編碼轉(zhuǎn)換后形成的由字母組成序列,將其通過BiLSTM模型訓(xùn)練得到單詞字符級(jí)的詞向量,Jebbara等[30]已通過實(shí)驗(yàn)證明了,將該向量與單詞的詞向量拼接后,可以有效地提高模型的性能。文本特征為單詞的詞性、詞長(zhǎng)與相對(duì)位置特征,其中詞長(zhǎng)與相對(duì)位置特征分別轉(zhuǎn)化為一維向量后直接拼接在詞向量之后,詞性特征則是通過獨(dú)熱編碼后生成多維的向量后進(jìn)行拼接,最終得到模型的輸入Vi,wc。

圖2 關(guān)鍵詞抽取模型結(jié)構(gòu)圖
BiLSTM模型可以表示為

其中,hi,w表示Vi,wc通過BiLSTM層訓(xùn)練后得到的向量;Wy與by則是模型σ(.)通過訓(xùn)練需要學(xué)習(xí)得到的參數(shù);而Wy~與by~則是tanh(.)訓(xùn)練所得到的。yi,w為最后模型的輸出,是一個(gè)五維的張量,代表了五種標(biāo)簽,這五種標(biāo)簽分別為
y∈{Single;Begin;Middle;End;Not}
其中,Single標(biāo)簽表示該關(guān)鍵詞為單個(gè)單詞;Begin、Middle、End標(biāo)簽則分別表示關(guān)鍵詞詞組的起始、中間與結(jié)束部分;Not標(biāo)簽表示該單詞不屬于關(guān)鍵詞。
除了序列標(biāo)注模塊之外,本文還引入了注意力機(jī)制模塊,該模塊的主要作用是模擬閱讀者閱讀時(shí)在不同單詞上的注意力分布,從而引導(dǎo)模型在進(jìn)行訓(xùn)練時(shí)更關(guān)注句子的關(guān)鍵部分。該模塊的輸入為單詞的眼動(dòng)特征,即本文通過眼動(dòng)特征來度量閱讀者對(duì)該單詞的注意力強(qiáng)弱。該模塊可以表示為

序列標(biāo)注模塊中BiLSTM模型的輸出hi,w首先通過激活函數(shù)為tanh(·)的全連接層得到ei,w,再將其通過歸一化指數(shù)函數(shù)(Softmax(·))進(jìn)行歸一化后與單詞的注意力值ai,w進(jìn)行擬合。其中,Wa、We、ba、be為模型通過訓(xùn)練得到的參數(shù)。因?yàn)槟P驮谟?xùn)練時(shí)需要兼顧兩個(gè)模塊的擬合情況,所以本模型的損失函數(shù)由兩個(gè)部分組成,分別為序列標(biāo)注模塊的損失函數(shù)

與注意力機(jī)制模塊的損失函數(shù)

其中,yi,w與ai,w表示樣本的真實(shí)值;而y~i,w與a~i,w表示樣本的預(yù)測(cè)值。該模型整體的損失函數(shù)為上述兩個(gè)損失函數(shù)的加權(quán)和,λword與λatt分別表示其對(duì)應(yīng)的權(quán)重,計(jì)算公式為

本文使用Keras庫①https://keras.io/,訪問日期:2020年3月30日。對(duì)本文使用的關(guān)鍵詞抽取模型進(jìn)行了實(shí)現(xiàn)。兩個(gè)測(cè)試數(shù)據(jù)集均等分為10份,并且以8∶1∶1的比例分別作為訓(xùn)練集、驗(yàn)證集與測(cè)試集。模型序列標(biāo)注模塊的參數(shù)參照文獻(xiàn)[4]設(shè)置,BiLSTM層的輸出維度為300,字符級(jí)詞向量的輸出維度設(shè)置為20,所以每個(gè)單詞在考慮文本特征的情況下應(yīng)當(dāng)由285維的向量表示,其中包括200維預(yù)訓(xùn)練得到的詞向量、20維的字符級(jí)詞向量、63維的詞性向量、各1維的詞長(zhǎng)與相對(duì)位置向量。需要說明的是,考慮到兩個(gè)測(cè)試數(shù)據(jù)集的數(shù)據(jù)規(guī)模并不大,直接使用這兩個(gè)數(shù)據(jù)集訓(xùn)練得到的詞向量并不合適,因此,本文中的詞向量參照文獻(xiàn)[15],在更大規(guī)模的推特?cái)?shù)據(jù)集上進(jìn)行訓(xùn)練,并將維度設(shè)置為200,該推特?cái)?shù)據(jù)集中共包含9900萬條推文和460萬個(gè)不同的單詞。
此外,本文提出的關(guān)鍵詞抽取模型的序列標(biāo)注模塊在訓(xùn)練時(shí)所使用的優(yōu)化器為RMSProp[31],損失函數(shù)為交叉熵函數(shù)(categorical_cross-entropy),見公式(5),注意力機(jī)制模塊的損失函數(shù)為均方誤差(mean squared error),見公式(6),模型的訓(xùn)練輪次設(shè)置為5。經(jīng)過初步的實(shí)驗(yàn),兩個(gè)損失函數(shù)λword與λatt的比例最終確定為6∶4。為了避免實(shí)驗(yàn)的偶然性導(dǎo)致的誤差,本文中的所有實(shí)驗(yàn)均重復(fù)5次,取5次實(shí)驗(yàn)的均值作為最終的結(jié)果。
為了探究眼動(dòng)特征的作用,本文設(shè)置了兩個(gè)基準(zhǔn)模型,這兩個(gè)基準(zhǔn)模型均是BiLSTM模型,區(qū)別在于前者僅以詞向量與字符級(jí)向量作為輸入,用于探究在僅加入眼動(dòng)特征的情況下眼動(dòng)特征的作用,在圖表中以BiLSTM表示;后者以詞向量、字符級(jí)向量與文本特征為輸入,用于探究與文本特征結(jié)合后眼動(dòng)特征的作用,在圖表中以BiLSTM+POS+LEN+RP(BPLR)表示。
本節(jié)將通過實(shí)驗(yàn)結(jié)果對(duì)眼動(dòng)數(shù)據(jù)在推特關(guān)鍵詞抽取任務(wù)中的作用進(jìn)行分析,首先需要說明本文所使用的評(píng)價(jià)指標(biāo)。本文以關(guān)鍵詞抽取結(jié)果的F1值作為模型抽取效果的評(píng)價(jià)指標(biāo),該指標(biāo)由準(zhǔn)確率與召回率計(jì)算得到,準(zhǔn)確率P與召回率R的計(jì)算公式為


其中,TP表示預(yù)測(cè)準(zhǔn)確的正例個(gè)數(shù);FP表示預(yù)測(cè)為正例但實(shí)際為負(fù)例的個(gè)數(shù);FN表示預(yù)測(cè)為負(fù)例但實(shí)際為正例的個(gè)數(shù)。F1值的計(jì)算公式為

為了探究不同的眼動(dòng)行為數(shù)據(jù)是否同樣可以度量讀者對(duì)單詞的注意力強(qiáng)弱,本文分別將眼動(dòng)數(shù)據(jù)集中的總注視時(shí)長(zhǎng)(total reading time,TRT)、注視次數(shù)(number of fixation,F(xiàn)IX)、平均注視時(shí)長(zhǎng)(average fixation duration,AFT)和初次注視時(shí)長(zhǎng)(first fixation duration,F(xiàn)FD)處理得到的眼動(dòng)特征融入關(guān)鍵詞抽取模型中。在僅加入眼動(dòng)特征的情況下,各個(gè)對(duì)照組的實(shí)驗(yàn)結(jié)果如表2所示。

表2 單獨(dú)加入眼動(dòng)特征的模型F1值(%)
通過對(duì)比表2中各組別的結(jié)果,可以得出兩個(gè)結(jié)論:首先,以總注視時(shí)長(zhǎng)、注視次數(shù)、平均注視時(shí)長(zhǎng)和初次注視時(shí)長(zhǎng)作為眼動(dòng)特征加入抽取模型的組別結(jié)果均高于基準(zhǔn)模型BiLSTM,說明了這四類眼動(dòng)特征都可以從一定程度上度量讀者閱讀時(shí)在不同詞匯上的注意力強(qiáng)弱。其次,從對(duì)模型抽取結(jié)果的提升幅度來看,使用總注視時(shí)長(zhǎng)這一眼動(dòng)特征的組別在兩個(gè)數(shù)據(jù)集上均取得了最好的結(jié)果,說明了在僅加入眼動(dòng)特征的情況下,總注視時(shí)長(zhǎng)相較于其他三類眼動(dòng)特征來說更有價(jià)值。
在理想的情況下,不加入眼動(dòng)特征的模型對(duì)每個(gè)單詞的注意力應(yīng)當(dāng)是相同的,模型在關(guān)鍵詞上的注意力應(yīng)當(dāng)為關(guān)鍵詞個(gè)數(shù)與句子所包含單詞數(shù)的比值。相應(yīng)地,在加入眼動(dòng)特征的情況下,模型在關(guān)鍵詞上的注意力應(yīng)當(dāng)為關(guān)鍵詞所對(duì)應(yīng)的眼動(dòng)數(shù)值與整句所對(duì)應(yīng)的眼動(dòng)數(shù)值和的比值。如表3所示,本文選取了若干例句加以說明,其中粗體為該句的關(guān)鍵詞部分。
在表4中,本文計(jì)算了關(guān)鍵詞在例句中所占的注意力比值,其計(jì)算公式為

表3 推特關(guān)鍵詞抽取例句

其中,分子表示句子中關(guān)鍵詞所對(duì)應(yīng)的眼動(dòng)數(shù)值的和,分母表示句子中所有單詞所對(duì)應(yīng)的眼動(dòng)數(shù)值的和。為了對(duì)比在不考慮眼動(dòng)特征的狀態(tài)下,關(guān)鍵詞在句子所受到的注意力,本文設(shè)置了基準(zhǔn)組,即將所有單詞的眼動(dòng)數(shù)值視為相等的值。
從表4中可以發(fā)現(xiàn),依據(jù)眼動(dòng)特征為單詞賦予不同的注意力值,可以使得句子的關(guān)鍵詞部分獲得更大的權(quán)重,從而引導(dǎo)模型在訓(xùn)練時(shí)更加關(guān)注句子的關(guān)鍵部分,從一定程度上也增強(qiáng)了模型的解釋性。

表4 關(guān)鍵詞所占注意力比值
關(guān)鍵詞抽取任務(wù)中存在多種有用的特征,而特征之間又會(huì)相互影響,想要評(píng)價(jià)眼動(dòng)特征在微博關(guān)鍵詞抽取整個(gè)任務(wù)上的作用,僅單獨(dú)考慮眼動(dòng)特征是不合理的。因此,本文在關(guān)鍵詞抽取模型中加入了單詞的詞性(part of speech,POS)、詞長(zhǎng)(length of word,LEN)、相對(duì)位置(relative position,RP)等文本特征,用于考察與文本特征結(jié)合后的眼動(dòng)特征作用。本文首先僅在BiLSTM模型中分別加入了各個(gè)文本特征,用于探究這三種文本特征為抽取模型帶來的提升。僅加入文本特征的關(guān)鍵詞抽取實(shí)驗(yàn)結(jié)果如表5所示。
從表5可以看出上述三種文本特征均能較為顯著地提升模型的抽取結(jié)果,同時(shí)加入三種特征可以最大限度地提升模型的性能,但三種特征的作用機(jī)理之間存在一定程度上的重復(fù),從整體上來看其對(duì)模型的提升并非簡(jiǎn)單地累加。在此基礎(chǔ)上,本文在關(guān)鍵詞抽取模型中同時(shí)加入了眼動(dòng)特征與上述文本特征得到表6。

表5 加入文本特征的模型F1值(%)

表6 眼動(dòng)特征與文本特征結(jié)合的模型F1值(%)
為了更加直觀地說明文本特征的加入如何影響眼動(dòng)特征作用的發(fā)揮,本文結(jié)合了表2、表5與表6的實(shí)驗(yàn)結(jié)果生成了圖3與圖4。

圖3 結(jié)合文本特征前后眼動(dòng)特征作用差異圖(Daily-Life)

圖4 結(jié)合文本特征前后眼動(dòng)特征作用差異圖(Election-Trec)
從圖3與圖4可以看出,將眼動(dòng)特征與文本特征同時(shí)加入模型后,模型的結(jié)果均高于只加入文本特征的基準(zhǔn)模型,這就說明了眼動(dòng)特征的確可以從整體上提升微博關(guān)鍵詞抽取模型的性能。同時(shí),對(duì)比加入文本特征前后眼動(dòng)特征的作用可以發(fā)現(xiàn),使用總注視時(shí)長(zhǎng)這一眼動(dòng)特征的組別的實(shí)驗(yàn)結(jié)果不再具有優(yōu)勢(shì)。相反地,使用平均注視時(shí)長(zhǎng)這一眼動(dòng)特征的組別的實(shí)驗(yàn)結(jié)果,在兩個(gè)數(shù)據(jù)集上都有了顯著地提升,具體如圖5所示。

圖5 加入文本特征后模型F1值提升數(shù)值圖
由圖5可以看出,相對(duì)于其他特征,平均注視時(shí)長(zhǎng)這一眼動(dòng)特征在微博關(guān)鍵詞抽取任務(wù)上的價(jià)值更大。單純考慮眼動(dòng)特征時(shí),使用平均注視時(shí)長(zhǎng)的組別表現(xiàn)并不優(yōu)異,說明該眼動(dòng)特征中所包含的有效信息并不如其他眼動(dòng)特征來得多,但是一旦與文本特征結(jié)合后,這個(gè)缺陷就會(huì)被文本特征所彌補(bǔ)。同時(shí),由于其中包含了更多一般的文本特征無法涵蓋的信息,平均注視時(shí)長(zhǎng)這一眼動(dòng)特征相較于其他眼動(dòng)特征來說更有價(jià)值。
在第3.3.2節(jié)中,本文說明了在關(guān)鍵詞抽取任務(wù)中使用眼動(dòng)數(shù)據(jù)時(shí)會(huì)遇到的眼動(dòng)數(shù)據(jù)稀疏的問題,并提出了一個(gè)基于詞形對(duì)眼動(dòng)數(shù)據(jù)進(jìn)行擴(kuò)充的方案。第4.2節(jié)與第4.3節(jié)中的實(shí)驗(yàn)均是使用了擴(kuò)充之后的眼動(dòng)數(shù)據(jù)。為了更加直觀地展示本文所提出的眼動(dòng)數(shù)據(jù)擴(kuò)充方案的效果與必要性,本文使用了未經(jīng)擴(kuò)充的眼動(dòng)數(shù)據(jù)集作為對(duì)照組,其中的數(shù)據(jù)缺失值以均值代替,實(shí)驗(yàn)結(jié)果如表7所示。其中,BiLSTM組與BiLSTM+POS+LEN+RP組的模型并不涉及眼動(dòng)特征,故在擴(kuò)充前后的結(jié)果相同,僅作為基準(zhǔn)模型用于比較眼動(dòng)特征的作用。
為了更加直觀地展示對(duì)眼動(dòng)數(shù)據(jù)進(jìn)行擴(kuò)充的必要性,本文分別繪制了圖6與圖7。

表7 眼動(dòng)數(shù)據(jù)擴(kuò)充前后的模型F1值(%)
從圖6與圖7可以明顯看出,對(duì)眼動(dòng)數(shù)據(jù)進(jìn)行擴(kuò)充可以較為顯著地提升模型的抽取效果。對(duì)比兩個(gè)基準(zhǔn)模型來看,所有采用擴(kuò)充后眼動(dòng)特征的組別結(jié)果均高于基準(zhǔn)模型,而單純采用均值策略來處理缺失值的部分組別結(jié)果甚至低于基準(zhǔn)模型,即過于稀疏的眼動(dòng)數(shù)據(jù)甚至起到了相反的作用,這也進(jìn)一步說明了對(duì)眼動(dòng)數(shù)據(jù)進(jìn)行擴(kuò)充的重要性。同時(shí),由于本文采用的眼動(dòng)數(shù)據(jù)擴(kuò)充方案本質(zhì)上是基于單詞詞形上的相似程度對(duì)眼動(dòng)數(shù)據(jù)進(jìn)行擴(kuò)充的,因此,有理由相信字形是影響單詞眼動(dòng)特征的重要因素,這為未來更細(xì)致全面的眼動(dòng)數(shù)據(jù)擴(kuò)充方案提供了方向。
綜上所述,眼動(dòng)特征在微博關(guān)鍵詞抽取任務(wù)中有著較高的價(jià)值。總注視時(shí)長(zhǎng)、注視次數(shù)、平均注視時(shí)長(zhǎng)、初次注視時(shí)長(zhǎng)等眼動(dòng)特征均能提高微博關(guān)鍵詞抽取模型的性能,只考慮眼動(dòng)特征時(shí),總注視時(shí)長(zhǎng)對(duì)模型帶來的提升效果最為明顯,而在結(jié)合單詞的詞性、詞長(zhǎng)和相對(duì)位置等文本特征時(shí),平均注視時(shí)長(zhǎng)的表現(xiàn)更為優(yōu)異。同時(shí),眼動(dòng)數(shù)據(jù)的稀疏問題是影響眼動(dòng)特征在微博關(guān)鍵詞抽取任務(wù)中作用的重要因素,過于稀疏的眼動(dòng)數(shù)據(jù)甚至?xí)档统槿∧P偷男阅埽赏ㄟ^單詞詞形上的相似程度對(duì)眼動(dòng)數(shù)據(jù)進(jìn)行一定程度上的擴(kuò)充,從而緩解這一現(xiàn)狀。

圖6 眼動(dòng)數(shù)據(jù)擴(kuò)充前后實(shí)驗(yàn)結(jié)果圖(Daily-Life)
現(xiàn)有工作證明了,可以使用眼動(dòng)數(shù)據(jù)中被采集者在不同詞匯上的總注視時(shí)長(zhǎng),來度量其對(duì)該詞匯的注意力強(qiáng)弱,在關(guān)鍵詞抽取模型訓(xùn)練時(shí),引導(dǎo)模型更關(guān)注句子的關(guān)鍵部分,從而提升關(guān)鍵詞抽取的效果。本文在現(xiàn)有工作的基礎(chǔ)上,從眼動(dòng)特征的選擇、眼動(dòng)特征與文本特征的組合和眼動(dòng)數(shù)據(jù)的擴(kuò)充三個(gè)方面,對(duì)眼動(dòng)數(shù)據(jù)在微博文本關(guān)鍵詞抽取任務(wù)上的作用進(jìn)行了更為深入的分析。通過實(shí)驗(yàn)發(fā)現(xiàn)在僅考慮眼動(dòng)特征的情況下,總注視時(shí)長(zhǎng)為微博關(guān)鍵詞抽取任務(wù)所帶來的性能提升最為明顯,但將眼動(dòng)特征與單詞的詞性、詞長(zhǎng)與相對(duì)位置等文本特征結(jié)合使用后,發(fā)現(xiàn)平均注視時(shí)長(zhǎng)的作用得到了顯著的提升。同時(shí),本文在研究中注意到,眼動(dòng)特征的稀疏問題會(huì)顯著地影響眼動(dòng)特征作用的發(fā)揮,本文通過基于字形的眼動(dòng)數(shù)據(jù)擴(kuò)充方案有效地緩解了這一問題。
在未來,本課題組將針對(duì)眼動(dòng)數(shù)據(jù)現(xiàn)有的問題進(jìn)行更為深入的研究。首先,需要解決的是眼動(dòng)數(shù)據(jù)的稀疏問題,在現(xiàn)有方案的基礎(chǔ)上,將從更多的角度考慮影響眼動(dòng)數(shù)據(jù)的因素,并依此來完善眼動(dòng)數(shù)據(jù)的擴(kuò)充方案。其次,本文只采用了單一的眼動(dòng)行為數(shù)據(jù)來度量讀者對(duì)單詞的注意力強(qiáng)弱,但在實(shí)驗(yàn)中發(fā)現(xiàn),某些眼動(dòng)特征的效果會(huì)隨著文本特征的加入發(fā)生非常顯著地變化,這從另一個(gè)角度說明了,單一的眼動(dòng)行為數(shù)據(jù)并不能很好地度量讀者的注意力強(qiáng)弱,可以嘗試將多種特征進(jìn)行組合,以尋求更好的度量讀者注意力的方式。