張洋寧,朱 靜,董 瑞,尤澤順,王 震
1.新疆農業大學計算機與信息工程學院,烏魯木齊 830052
2.中國科學院新疆理化技術研究所,烏魯木齊 830011
3.中國科學院大學,北京 100049
隨著信息時代的到來,網絡上的數據呈爆炸式增長,用戶如何獲取感興趣的信息,減輕信息負載成為研究熱點。目前,話題分割是一種有效的提取信息方法,它可以揭露文本的潛在結構,增強文本可讀性,并為信息檢索[1]、文本摘要[2]、話題檢測[3]等下游任務提供基礎。
話題分割定義為按照話題相關的原則將一篇較長的文本劃分為語義段落序列,使得各個語義段落內部具有最大的話題相關性,而語義段落之間具有最小的話題相關性。現有的話題分割方法分為兩類,無監督和有監督方法。傳統的無監督方法利用向量相似度來判斷話題是否發生變化[4]。有監督方法[5]將篇章中每個句子進行一次二分類任務,判斷其是否為分割邊界。然而現有話題分割仍存在一些問題,以表1為例,句子2和3語義關聯性小,僅靠句子語義信息無法判定是否屬于同一話題,但是它們分別依靠關鍵詞“Record”和“release”與句子1存在關聯,因此三句話屬于同一話題“發行”。而句子4“WWE選集在商業上取得了成功”雖然與句子1也存在共現詞“WWE”“Anthology”,但是這兩個詞匯在文章出現頻率過高,并且與上一話題沒有其他關鍵詞信息,話題語義從發行過渡到反響,因此關鍵詞信息是對該處進行分割的關鍵。

表1 部分節選內容Table 1 Partial excerpts
從上面分析,為進一步提高話題分割效果,目前話題分割任務主要存在以下挑戰:(1)如何提取句子的語義特征,句子中存在復雜的語義關系,加大了句子語義特征提取的難度,挖掘句子語義信息是話題分割任務的基礎。(2)如何聚合多層次信息來提高篇章內容建模能力,篇章中存在多種層級單元(段落、語句、單詞),具有不同級別粒度的信息,有助于建模并分割篇章話題,但層級與粒度的差異增加了建模難度。(3)如何構建上下文信息交互來加強文本單元全局特征表示,在不同語境上下文中,文本單元的語義特征存在很大差異。
本文提出了多層級信息增強異構圖的篇章級話題分割模型(a discourse-level topic segmentation model with multi-level information enhanced heterogeneous graphs network,MHG-TS)。針對挑戰(1),模型使用預訓練語言模型進行句子語義特征提取,利用大規模語料訓練的外部知識和Transformer提取的語義關系增強句子語義信息表達;針對挑戰(2),模型引入關鍵詞信息來加強層次信息,通過不同粒度的語義節點充當句子節點之間的中介,拓展了圖中的節點與邊的類型,構建了句子節點間的遠距離跨句信息交互,增強了全局語義信息建模能力;針對挑戰(3),模型利用圖的非歐幾里得結構來表示篇章中的非序列關系,基于圖注意力機制在不同層級中的節點間消息傳遞,有側重的聚合節點信息,融合一階鄰域、關鍵詞和高階鄰域等層級信息彌補句子在上下文中的全局信息交互不足的缺陷。實驗表明本文提出模型MHG-TS在多個基準數據集上實現了最佳性能。
早期話題分割任務通過觀測詞匯變化來判別話題變化,例如相鄰片段的詞共現、線索詞、詞的轉移與變換等。1997年,Hearst[6]提出TextTiling模型用于話題分割任務,該模型利用詞頻統計構建句子塊特征向量,比較向量余弦相似度判斷話題變化。該方法構建的特征向量稀疏,只考慮了表層的詞統計信息,未考慮語義以及文本單元之間依賴等潛在信息。2003年,Dennis等人[7]使用潛在語義分析(latent semantic analysis,LSA)對詞頻統計向量進行奇異值分解,使用前k個最大奇異值計算出k維特征向量來近似代替原向量。2012年,Riedl等人[8]使用潛在狄利克雷分配(latent Dirichlet allocations,LDA)主題模型得到句子中單詞的主題ID,將原先方法中的單詞向量空間降維到主題向量空間,根據主題向量計算相似度來判定話題是否變化。上述兩種方法雖然通過特征降維得到了較為密集的向量表示,但是仍未考慮到文本單元之間的信息交互問題。
后來隨著深度學習的發展,國內外很多研究學者將深度學習方法運用到話題分割任務。例如,2017 年Wang 等人[9]使用卷積神經網絡(convolutional neural network,CNN)提取文本特征,但CNN提取特征為局部特征,全局信息交互能力不強。2018年Li等人[10]提出使用門控循環網絡(gated recurrent unit,GRU)結合指針網絡進行話題分割;同年Koshorek等人[5]提出使用兩層雙向長短期記憶(bidirectional long short-term memory,Bi-LSTM)進行話題分割;2020年,Barrow等人[11]提出將話題分割和話題分類兩個任務進行聯合學習提升分割效果。上述方法雖然考慮到了文本單元之間的交互問題,但基本是利用循環神經網絡(recurrent neural network,RNN)按序列順序捕獲特征信息,忽略了單元之間的語法結構等非序列關系。Shi等人[12]將輸入單詞序列轉換成樹形結構,通過Tree-LSTM和池化獲得句子向量,該方法使用樹形結構構建詞之間的非序列關系,但模型本質還是基于LSTM 模型,時間空間復雜度較高,文本單元交互能力存在欠缺。Somasundaran[13]提出使用兩部分Transformer 來進行話題分割,第一部分將輸入單詞向量轉換為句子向量表示,第二部分得到加入上下文信息的句子表示,該方法能夠同時考慮單詞級和句子級文本單元間的非序列關系,但是未考慮篇章中的層次信息。
近年來,隨著BERT(bidirectional encoder representation from Transformers)[14]的提出,出現了許多以BERT為基礎的話題分割模型。2020 年Lukasik 等人[15]使用BERT+Bi-LSTM 進行話題分割,使用BERT 的[CLS]向量作為句子語義表示,然后將向量放入負責捕獲句子序列關系的Bi-LSTM中進行分割判定。該方法在單詞級文本單元考慮了結構信息,取得了不錯的效果提升,但是句子級文本單元仍只能提取到序列信息,在上下文信息建模上存在缺陷。
受到上述研究工作的啟發,研究人員意識到利用圖的非歐幾里得結構模擬文本單元之間非序列關系的效果更佳。2019 年,Yao 等人[16]提出TextGCN(text graph convolutional network)模型應用于文本分類任務,該模型使用語料中的文章和單詞作為節點構建異構圖,節點初始化特征為獨熱(one-hot)編碼,使用逐點互信息(point-wise mutual information,PMI)作為單詞節點之間的邊權值,使用詞頻-逆文本頻率指數(term frequencyinverse document frequency,TF-IDF)作為單詞與文章節點之間邊的權重,通過圖卷積網絡(graph convolutional networks,GCN)進行迭代,最終取出文章節點的特征作為向量表示進行文本分類,該模型證明圖結構應用于文本語義信息挖掘的有效性,但模型將整個語料構建成圖,而GCN是full-batch更新(全圖更新),節點較多和圖較大時全圖更新計算慢且內存占用大。2021 年,Lin 等人[17]使用BERT 等預訓練語言模型初始化圖中文檔節點的表示。該方法加強了TextGCN 中使用獨熱編碼而損失的文本語義特征。為解決TextGCN 計算速度的問題,DSG-SEG 模型[18]使用句子節點替代文章節點建立異構圖,并使用門控圖神經網絡(gated graph neural network,GGNN)迭代獲取具有全局信息的句子編碼,但GGNN會在全部節點上多次運行遞歸函數,需要將全部節點的中間狀態存儲下來。
為了解決句子的語義特征提取不足、忽略篇章中的層次信息和上下文信息交互等問題,本文提出了一個融合圖注意機制的話題分割模型MHG-TS,如圖1 所示,模型包括三個模塊:(1)圖初始化模塊,分為節點特征初始化和邊權值的構造編碼,節點特征初始化使用預訓練模型初始化節點表示,邊權值的構造編碼根據節點之間關系進行邊初始化編碼;(2)圖聚合模塊,分為一階鄰域層級,關鍵詞層級,高階鄰域層級,基于圖注意力機制完成層級中的消息傳遞聚合;(3)分割邊界預測模塊,將是否為邊界視為二分類任務,概率大的標簽為預測結果。

圖1 MHG-TS模型流程Fig.1 MHG-TS model process
構建一張圖G={V,E},節點集V可以定義為V=Vw∪Vs,其中Vw=w1,w2,…,wm表示文檔的m個不重復的單詞,Vs={s1,s2,…,sn}對應于文檔中的n個句子;E代表節點之間所有邊的集合,表示為E=Eii∪Eij,Eii為句子節點之間的邊,Eij為單詞節點與句子節點之間的邊。圖的初始化包括節點特征的初始化和邊的構建編碼兩部分。
2.1.1 節點特征初始化
由于該模型將篇章中的句子以及單詞作為節點,因此需要初始化這兩種節點。W∈Rm×d和S∈Rn×d分別表示單詞和句子節點的輸入特征矩陣,Rm表示為m個單詞節點,Rn表示為n個句子節點,d為節點特征的維度,圖中得到的節點特征矩陣表示為X=W∪S,X的前m行存放單詞節點,從m+1 行開始存放n個句子節點,如式(1)所示:
(1)句子向量表示使用預訓練語言模型中每一層的[CLS]向量相加,該方法不僅考慮了預訓練語言模型深層提取到的語義信息,更能結合表層提取到的局部短語結構等信息,豐富了句子向量的表達。
(2)單詞嵌入向量引入預訓練語言模型的詞嵌入層進行嵌入,為單詞嵌入帶來經過大規模語料訓練的更準確語義信息。
2.1.2 邊權值的構造編碼
在圖結構中,邊的構建對于節點間的信息傳遞有一定的影響。考慮到節點并非篇章級別,為挖掘篇章中的文本結構和上下文等信息,本模型設置三種類型的邊:句子節點之間的邊,單詞節點與句子節點之間的邊,句子節點的自環邊。兩個節點i和j之間的邊的權重定義為:
(1)句子節點之間的邊,考慮到句子節點初始化是句子級別,經過預訓練模型并未考慮到篇章級的上下文語境等信息,所以將篇章中所有句子節點連接在一起,使用圖注意力機制計算節點間的相關性進行信息傳遞。
(2)關鍵詞節點與句子節點之間的邊,為了進一步增強單詞節點與句子節點之間的關系重要性信息,本文對句子節點與其包含的所有單詞節點之間初始化了一條權重為TF-IDF 值的邊。TF-IDF 值[19]的計算公式如(3)~(6)所示:
其中,n表示該單詞節點在當前句子中出現的次數,D表示篇章中句子總個數,Di表示包含指定詞的句子個數,將TFw與IDFw相乘得到初始的TF-IDF值,再進行歐幾里得范數歸一化得到最后的TF-IDF值。
(3)句子節點的自環邊,為了防止網絡在迭代傳遞信息的過程中,過分關注聚合到的鄰居節點信息,而忽略自身節點信息,故在所有句子節點增設自環邊。
2.2.1 一階鄰域層級的消息聚合
經過圖的初始化后,構造出的圖G中具有節點特征矩陣Xi和鄰接矩陣Aij,隸屬于同一話題的句子存在潛在的語義聯系,模型首先在句子節點之間利用圖注意力機制GAT傳遞信息獲取初步的全局特征表示。計算過程如下所示:
其中,Wa、Wq、Wk、Wv是可訓練的權重參數矩陣,αij是si和sj即句子i和句子j之間的注意力權重,σ為非線性激活函數,為全面表示句子節點信息,將多頭注意力學到的特征進行拼接作為最后節點特征的表示ui:
在句子節點得到初步全局信息之后引入Transformer中的前饋網絡(feed forward network,FFN),通過線性變換加強模型提取更深層次特征的能力。
如圖2所示,句子節點聚合一階鄰域內的句子節點信息,從而獲得具有全局信息的篇章級的句子表示,計算過程如下所示:

圖2 句子節點特征更新過程Fig.2 Updating process of sentence node features
2.2.2 關鍵詞層級的消息聚合
圖初始化在關鍵詞節點與句子節點之間的邊引入了TF-IDF 值作為初始化邊權重eij,因此將等式(7)改為(12),得到新的GATsw:
其次通過引入句子內的關鍵詞特征信息,豐富句子節點特征的層次信息,使用GATsw和FFN 層實現一階鄰域內關鍵詞節點信息向句子節點的聚合,計算過程如下所示:
2.2.3 高階鄰域層級的消息聚合
如圖3 所示,為加強間接相鄰的跨句信息交互,實現高階鄰域節點間的信息傳遞,本方法以關鍵詞節點為中介,使聚合關鍵詞層級信息的句子節點反向傳遞信息給單詞節點得到新的單詞節點表示Mw,再迭代更新句子節點表示Ms,每次迭代都包含一次上述更新過程。n次迭代過程可表示為:

圖3 句子節點與單詞節點間的特征更新過程Fig.3 Feature update process between sentence nodes and word nodes
通過上述過程,模型得到了篇章中的句子向量序列(m1,m2,…,mi,…,mn),由于上述圖模型更關注跨句之間的聯系,為了加強句子之間的序列關系,本文將該句子向量序列放入Bi-LSTM[20]中,得到隱藏層的向量序列表示(h1,h2,…,hi,…,hn),如下所示:
然后將上述向量序列表示經過全連接層分類器,再使用softmax輸出一個(0,1)的概率分布,作為每個句子作為分割邊界的概率,同Omri Koshorek提出模型一樣,對于包含n個句子的篇章,通過降低前n-1 個句子的損失來訓練模型,為解決分割點與非分割點的樣本不平衡造成數據的長尾問題,本文使用Polyloss 損失函數[21],如式(16)、(17)所示:
其中,Pt為模型對目標分類的預測概率。
實驗中為驗證本文提出模型的有效性,模型在英文數據集中使用一個較大規模的訓練集進行訓練,在6個數據集上進行測試,中文數據集使用一個進行訓練測試,有關數據集的部分信息如表2所示。

表2 有關數據集的部分信息Table 2 Some information about datasets
3.1.1 數據集
實驗選擇話題分割領域常用的7 個數據集:WIKI-727K、SECTION、CHOI、ELEMENTS、CITIES、WIKI-50、Weibo等。其中WIKI-727K作為訓練語料,從它的訓練集、驗證集、測試集中分別抽取8000、1 000、1 000 條數據,組成新的包含10 000 條數據的WIKI-10K,使用WIKI-10K中的8 000條數據作為訓練集,訓練出的模型在除中文數據集Weibo外的幾個數據集上進行測試:
WIKI-10K(Koshorek 等人[5])測試集由WIKI-727K測試集中隨機抽取的1 000條數據組成。
SECTION(Arnold 等人[22])數據集由38 000 個英文和德文維基百科文檔組成,本實驗使用其中英文語料,包含21 376 個英文文檔,數據集主要包含疾病和城市等,本文使用7∶1∶2比例劃分該數據集,最終得到4 142個數據作為測試集對模型進行測試。
Weibo(Zhang 等人[23])數據集包括20 000 個中文文檔,由微博上爬取微博新聞拼接而成,按16∶4∶5的比例劃分數據集,4 000條作為測試集。
CHOI(Choi[24])數據集由920 個人工生成的文檔組成,每個文檔都是布朗語料庫中10個隨機段落的拼接。
ELEMENTS(Chen 等人[25])數據集包含118 篇從維基百科抽取的文檔,主要內容包括周期表中化學元素的作用、發生率以及同位素等。
CITIES(Chen 等人[25])數據集是作者從英文維基百科抽取的100 篇文檔,主要內容包括城市的歷史、文化和人口統計信息等。
WIKI-50(Koshorek等人[5])數據集是由作者從WIKI-727k數據集中隨機抽樣取得的50個測試文檔。
7個數據集中除前3個進行了數據集劃分使用測試集測試,其余數據集皆使用全部數據對模型進行測試。
3.1.2 評價指標
本實驗使用Pk[26]、WindowDiff(WD)[27]、B(boun-dary similarity)[28]等三個指標來評估模型的性能。具體計算如下所示:
由Pk和WD公式定義可知,值越小代表真實分割和預測分割的差異越小,模型的性能越好;由B的定義可知,B的值為1減去每個邊界對的不正確性除以邊界對的總數,故B的值越大,模型性能越好。
3.2.1 基線模型
為驗證本文提出模型在話題分割任務上的有效性以及融合多層級信息捕獲篇章全局信息的能力,本文設置實驗將模型與多種句向量嵌入模型進行對比。
表3說明了本次實驗所涉及的模型:

表3 模型的測試效果指標Table 3 Test effect indicators of models 單位:%
Latent 方法根據n個句子中出現的m個單詞構成n×m維的詞頻矩陣,其次使用奇異值分解,選擇前300個最大奇異值計算出300 維特征向量來近似代替原矩陣,再將特征向量放入分割點預測層;
Tree-left方法模型首先使用靜態詞向量將每個單詞進行初始化,再將單詞序列放入Tree-LSTM 模型中,通過注意力池化得到300維的句子向量表示,最后將向量表示放入分割點預測層,本方法使用左平衡樹結構;
Freq代表詞頻方法,取10 000個高頻單詞和兩個特殊標識符
Text-Segmentation 模型[5],首先使用靜態預訓練詞向量初始化單詞序列,再通過雙層Bi-LSTM 模型和最大池化輸出512維的句子向量表示,最后進行分割點預測;
TextING 模型[18]使用篇章中的單詞構建圖網絡,使用詞嵌入模型進行初始化,通過GGNN網絡迭代更新單詞節點,然后通過讀出函數(readout function)融合所有單詞節點得到句子的向量表示,最終進行分割預測;
BERT+Bi-LSTM 模型[15]將句子輸入BERT,使用768 維[CLS]字符向量代表句子向量,再通過256 維Bi-LSTM預測分割點;
DSG-SEG 模型[18]首先將篇章構建成圖,使用靜態預訓練詞向量初始化詞節以及和最大池化詞向量的方式初始化句子節點,再使用GGNN網絡進行迭代得到句子的向量表達,接著將得到的句子向量進行分割點預測。
3.2.2 實驗參數
初始化模型:Tree-left、Text-Segmentation、TextING、DSG-SEG 四個模型分別使用300 維的中英文詞向量模型Google News Word2Vec、SGNS Weibo;BERT+Bi-LSTM(ft)、BERT+Bi-LSTM、MHG-TS使用的中英文預訓練語言模型為BERT-base-uncased、wobert-Chinese-base。
MHG-TS模型參數:高階鄰域信息迭代模塊的迭代次數設為1,GAT層維度為512,注意力個數為8,Bi-LSTM隱藏層維度為128。
訓練與預測參數:batch-size 設置為8,優化器選擇Adam[29],初始化學習率設置為2.5E-4,損失函數Polyloss中的超參數α和γ分別為0.4(中文0.25)和2。若模型指標在驗證集超過5 輪未提升,訓練結束。同Text-Segmentation 模型一樣,模型驗證過程中會優化一個閾值,在預測階段,當句子預測概率超過該閾值,句子預測標簽為1,反之為0。
實驗設備:24 GB 顯存的NVIDIA GeForce RTX 3090。
表3 顯示了MHG-TS 與其他基線模型在多個數據集上的測試效果,實驗結果表明:
(1)MHG-TS 模型在多個數據集取得了最好的結果,在三個指標上分別比最優基線模型的實驗結果平均值提高了3.08%、2.56%、5.92%,證明了模型的穩定性;由于多個數據集的數據分布不同,證明了MHG-TS模型的魯棒性。
(2)從提升效果來看,CHOI、ELEMENTS、CITIES三個數據集提升最多,從數據集信息可知,這三個數據集的話題轉換次數最多,分割點密集,上下文交互信息復雜。證明MHG-TS 模型引入的層次信息加強句子聯系,以及通過圖注意力機制有側重的相關語義信息聚合,有助于提取到更適合話題分割任務的語義特征。
(3)在中文數據集Weibo未取得最優的原因可能是中文分詞過程中專有名詞未被保留,導致關鍵詞提取不夠準確,該問題同樣出現在使用圖網絡的TextlNG、DSG-SEG模型中。
(4)在所有模型中,TextlNG、DSG-SEG、BERT+Bi-LSTM和MHG-TS取得了較好的結果,表明了圖網絡所構建的非序列關系以及預訓練模型注入的先驗知識對話題分割任務的有效性。
3.4.1 消融實驗分析
為了研究異構圖中不同層級信息:句子節點一階鄰域的層級信息;以及關鍵詞節點層級信息和句子節點高階鄰域的層級信息,對模型性能的影響,故設置如下消融實驗:
(1)模型不包含關鍵詞層級信息和高階鄰域層級信息,僅保留句子節點一階鄰域中的信息傳遞(記作w/o word)。
(2)模型去除句子節點之間的一階鄰域層級信息,使用單詞與句子之間的迭代傳遞信息,只通過中介節點構建跨句關系(記作w/o sentence)。
表4顯示了消融實驗的結果,實驗表明:

表4 消融實驗結果Table 4 Results of ablation test 單位:%
(1)不使用單詞與句子節點之間的信息傳遞的w/o word模型,在所有數據集上,三個指標性能分別比原模型平均下降了1.62%、1.4%、2.96%。這一結果表明,在模型中引入附加層次信息,通過將附加節點作為媒介聚合高階鄰域層級信息的有效性。
(2)沒有使用句子節點之間圖注意力的w/o sentence模型,在所有數據集上的性能出現了下降,三個指標性能分別平均下降了1.25%、1.24%、1.29%,證明使用句子節點一階鄰域中圖注意機制可以提取到對話題分割任務有效的語義信息。
(3)從指標變化分析,SECTION 這個數據集上Pk值出現不穩定的消融效果,可能的原因是,句子之間共現詞過多,導致引入詞節點間接信息交換出現不穩定。Weibo數據集在w/o word模型上性能提升,原因可能是中文數據集中有太多專有名詞或生僻詞,導致分詞過程引入了數據噪音,對模型產生影響。
(4)三個模型在CHOI、ELEMENTS 兩個數據集上差距最大,w/o sentence模型強于w/o word模型證明了利用關鍵詞節點增強層次信息和高階鄰域信息在話題轉變較多數據集中的有效性。
3.4.2 不同句向量初始化分析
表5 展示了使用三種預訓練語言模型常用句向量表示方法的實驗結果,以驗證預訓練語言模型不同句向量表示方法對后續分割效果的影響。三種表示方法分別為使用BERT所有層的[CLS]字符向量相加(記為All-CLS)、僅使用最后一層[CLS]字符向量(記為Last-CLS)、第一層與最后一層隱藏向量平均池化(記為First+Last)

表5 不同句向量表示的實驗結果Table 5 Experimental results expressed by different sentence vectors 單位:%
表5 結果說明,本文模型在上述數據集中All-CLS作為句子向量表示要優于Last-CLS 和First+Last 方法,其原因可能為:引入不同層的向量信息可以豐富句子向量表達,融合了深層的語義信息和表層的短語結構和句法信息。
3.4.3 樣例分析
該樣例出自WIKI-10K 測試集,介紹了一個名叫Amguri的地方,包含六個話題片段:0~2、3~6、7~13、14~17、18~19、20~21,分別為地理、人口統計、教育、文化、政治和健康。如表6 所示,分別為真實分割結果以及DSG-SEG、BERT-Bi-LSTM和MHG-TS模型分割結果。

表6 樣例分析結果Table 6 Sample analysis results
從分割結果可以看出,只有MHG-TS模型預測到了17、19這兩個分割點。這兩處分割點話題段落較短,話題轉移頻率較高,證明了MHG-TS模型應對話題分割任務的有效性。
BERT+Bi-LSTM和MHG-TS模型都錯誤地在第9句話分割的可能原因是:7~9和10~13雖然都是在講Amguri的教育,但是話題主語從Amguri轉移到Rameswar Dutta高中,序列關系上出現了話題的遞進。
MHG-TS 和DSG-SEG 模型將第12 句話預測為分割點的可能原因是10~12句著重描寫了Rameswar Dutta高中的由來,Dutta關鍵詞出現頻繁,模型受到關鍵詞語信息的影響,進而導致分割錯誤。
由上所述,MHG-TS模型取得更好的分割結果,成功結合了不同粒度文本單元的信息,適用于話題分割任務。
本文針對現階段模型對句子的語義特征提取不足、忽略篇章中的層次信息和上下文信息交互等問題,提出一個話題分割模型MHG-TS,該模型首先使用預訓練語言模型初始化圖中關鍵詞與句子節點表示,再通過圖注意力網絡進行圖中句子節點一階鄰域層級的信息傳遞,初步得到具有全局信息的句子節點表示;再通過引入更細粒度的文本單元構建關鍵詞層級,注入外部知識;利用關鍵詞節點充當中介,幫助模型建立更復雜的句子間關系,將信息傳遞推廣到高階鄰域以加強局部句子節點間的信息交互;最后使用Bi-LSTM 網絡提取序列關系進行分割邊界預測。在七個數據集上的對比實驗結果證明了MHG-TS模型在話題分割任務中的有效性,并驗證了多層級信息增強全局語義信息提取的合理性。
在接下來的研究中,將探索中文語料中關鍵詞節點的抽取和句子節點的信息挖掘,同時根據節點之間的潛在語義聯系,對節點之間的邊進行篩選,保證模型性能的同時,降低模型計算復雜度。