朱小虎 周艷平 姜 濤 陳顯利
(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院 青島 266061)
隨著社會(huì)發(fā)展和技術(shù)進(jìn)步,人們的日常生活和互聯(lián)網(wǎng)技術(shù)越來(lái)越密切,每天產(chǎn)生海量的信息[1]。一些文本信息篇幅較長(zhǎng),長(zhǎng)篇文章的敘述會(huì)導(dǎo)致用戶閱讀理解效率低下[2]。在問(wèn)答系統(tǒng)中,答案過(guò)于冗長(zhǎng)[3]會(huì)大大降低答案質(zhì)量,影響用戶體驗(yàn)[4~5]。如何從文本信息中提取摘要信息,使人們?cè)诙虝r(shí)間內(nèi)快速了解文本核心內(nèi)容[6]是自然語(yǔ)言處理領(lǐng)域中一個(gè)極為重要的課題[7]。
文本摘要提取技術(shù)興起于20 世紀(jì)50 年代,最初是依靠統(tǒng)計(jì)學(xué)為基礎(chǔ),依據(jù)詞頻、位置等信息為格式較為規(guī)范的文章生成摘要[8~9]。隨著機(jī)器學(xué)習(xí)在自然語(yǔ)言處理方面的應(yīng)用,20世紀(jì)90年代開(kāi)始,文本摘要提取融入了人工智能的元素[10~11]。近些年,隨著深度學(xué)習(xí)的流行,文本摘要提取與深度學(xué)習(xí)結(jié)合[12~13]也取得了一定的進(jìn)展。文本摘要提取根據(jù)生成方式不同,分為抽取式和生成式[14~15],根據(jù)處理文檔的數(shù)量不同,分為單文本提取和多文本提取[16]。
研究發(fā)現(xiàn),文本信息中的文本內(nèi)容大多包含多個(gè)主題,傳統(tǒng)的文本摘要提取方法忽視了各個(gè)主題的作用[17],不僅導(dǎo)致摘要提取結(jié)果不全面,也造成了算法發(fā)揮效果不好。本文針對(duì)這一問(wèn)題,借鑒英文文本摘要提取方法、TF-IDF 算法[18]和大量的對(duì)比實(shí)驗(yàn),提出一種中文的段落摘要提取方法。該方法首先對(duì)依據(jù)段落表達(dá)的主題進(jìn)行分割,其次對(duì)分割的段落提取中心思想,最后將中心思想連貫成摘要,進(jìn)而表達(dá)整個(gè)段落的完整意思。該方法不僅能解決傳統(tǒng)摘要提取算法中對(duì)主題類別區(qū)別不強(qiáng)的缺點(diǎn),還能有效提升摘要提取的結(jié)果質(zhì)量。
在日常接觸的文章當(dāng)中,我們?nèi)〕銎渲械囊欢?,此段落往往表達(dá)了一個(gè)中心思想,而這個(gè)中心思想往往由許多片段的主題思想結(jié)合而成,片段的主題思想又由中文的漢字、詞語(yǔ)等合成。一般來(lái)說(shuō)同一主題中的段落關(guān)聯(lián)性高,而不同主題的段落關(guān)聯(lián)性相對(duì)較低。因此將關(guān)聯(lián)性強(qiáng)的段落劃分到同一個(gè)主題中,更容易抓住文本主題,提高文本包含的信息質(zhì)量。
傳統(tǒng)的主題劃分是統(tǒng)計(jì)兩個(gè)段落所含的特征詞的共現(xiàn)次數(shù)多少,共現(xiàn)次數(shù)越多說(shuō)明這兩個(gè)段落具有較高的重復(fù)性和關(guān)聯(lián)度,甚至可以認(rèn)定表達(dá)同樣的中心思想。但在實(shí)驗(yàn)中發(fā)現(xiàn),不僅共現(xiàn)詞能作為兩個(gè)句子表達(dá)意思的依據(jù),核心重點(diǎn)詞匯也能表達(dá)兩個(gè)句子之間的關(guān)聯(lián)性。
一個(gè)段落中現(xiàn)有兩個(gè)句子:D1=“疫情期間,學(xué)生參加學(xué)校組織的線上課程學(xué)習(xí)和考試”。D2=“老師制定相應(yīng)的教學(xué)計(jì)劃,確定學(xué)生考核要求”。D1、D2均出現(xiàn)詞語(yǔ)“學(xué)生”,但實(shí)際上D1、D2表達(dá)的是與“教學(xué)”有關(guān)的話題,D1、D2 中的詞語(yǔ)“考核”、“教學(xué)”之間具有關(guān)聯(lián),為了直觀了解文本各個(gè)段落之間的聯(lián)系性和相關(guān)性,對(duì)全文所有段落與其他所有段落進(jìn)行段落相似度計(jì)算,然后以矩陣的形式列出文本每個(gè)段落之間的相似度,通過(guò)評(píng)價(jià)機(jī)制對(duì)段落矩陣表進(jìn)行分析,從而達(dá)到段落劃分的目的。
假設(shè)文本共有m 段,記為D1,D2,…,Dm,每段提取特征詞有n個(gè),記為T1,T2,…,Tn,用Word2vec[19]將特征詞轉(zhuǎn)換為詞向量,計(jì)算兩個(gè)特征詞之間的相似度S(Ti,Tj),兩個(gè)段落所有特征詞相似度計(jì)算后,將其平均值作為兩個(gè)段落之間的相似度Sim(D1,D2),計(jì)算公示如下:

通過(guò)計(jì)算段落之間的相似度,即可得到相似度矩陣,矩陣中第i 行第j 列上的值代表Sim(Di,Dj),每個(gè)段落與自身的相似度為1。通過(guò)計(jì)算百度百科中一篇文獻(xiàn)所構(gòu)成的段落的相似度得到相似度矩陣,如表1所示。

表1 段落之間相似度矩陣表
從表1 中可以分析出,D1 與D2 的相似度為0.97,D1 與其他段落的相似度較低,所以D1、D2 劃分為同一個(gè)主題。D3 與D4、D5、D6 的相似度比較高,與其他段落的相似度較低,因此D3、D4、D5、D6劃分為同一個(gè)主題。同理D7、D8、D9 劃分為同一個(gè)主題。經(jīng)過(guò)與原文意思對(duì)照,此劃分方法準(zhǔn)確。
通過(guò)矩陣表中的相似度情況能夠很容易地劃分出屬于統(tǒng)一主題的段落,因此可以通過(guò)該規(guī)律設(shè)計(jì)相應(yīng)的算法來(lái)劃分段落,使同一主題的段落劃分在同一集合。不同主題的相鄰段落之間的相似度差值一般都較大,因此我們將相鄰段落的相似度做差來(lái)觀察其變化程度,公式如下:

其中di表示矩陣i行中相鄰段落之間相似度的差值,ri 表示矩陣i 行中差值絕對(duì)值的最大值。對(duì)前面例子中的文獻(xiàn),根據(jù)式(2)兩兩相鄰段落計(jì)算差值后,每行最大差值作標(biāo)記。計(jì)算結(jié)果如表2 所示。

表2 各行段落相似度差值結(jié)果
相似度的最大差值代表了段落之間聯(lián)系程度的變化,若差值大,如果變化明顯,兩個(gè)段落極大可能不是一個(gè)主題,如果變化不劇烈,說(shuō)明兩個(gè)段落很大可能是一個(gè)主題。
據(jù)此提出三個(gè)主題劃分的原則:
1)相似度最大差值原則。從矩陣表中可以直觀的看出,D1、D2段落和D3段落的差值最大,因此把D3 段落作為主題劃分位置,從而把D1、D2 段落劃分到同一主題當(dāng)中。
2)段落最多區(qū)分度原則。如果根據(jù)相似度最大差值原則會(huì)將D3~D6 分成D3、D4、D5~D6 三個(gè)主題,與原文不符。一般而言,同一主題的段落一般是連續(xù)的,因此可以依據(jù)段落的連續(xù)情況對(duì)主題進(jìn)行劃分,如D3~D6連續(xù)段落,最大差值位置D7出現(xiàn)了3 次(D3、D5、D6),而D8 位置出現(xiàn)一次(D4),因此選擇區(qū)分度最多的位置D7段落為主題段落劃分位置,從而D3、D4、D5、D6 段落會(huì)被劃入一個(gè)主題中。
3)特殊結(jié)尾劃分原則。研究發(fā)現(xiàn),一個(gè)段落作為一個(gè)主題的情況非常少,因此最后結(jié)尾劃分主題時(shí),不能少于兩個(gè)段落,并且結(jié)尾段落最大差值不能低于前面段落劃分所有最大差值的最小值,例如D1~D6 的所有最大差值的最小值為0.37,而D7、D8、D9 的最大差值分別為0.08、0.14、0.00 都小于0.37,因此都不足以單獨(dú)成為主題,故將D7、D8、D9劃分為同一主題。
從實(shí)用性方面講,簡(jiǎn)短的信息往往更容易被人接受。當(dāng)我們對(duì)文本進(jìn)行主題劃分后,有一定的幾率會(huì)發(fā)生多數(shù)段落同時(shí)存在于一個(gè)主題中的情況,因此,迫切需要一種方法將主體的中心句取出并作為摘要,其既能減少無(wú)效信息的擾亂、烘托出該主題的作用,又能使摘要通俗易懂、簡(jiǎn)潔明了。通過(guò)計(jì)算得出不同主題中不同句子的權(quán)重,按照權(quán)重大小進(jìn)行排序,找出主題句中的中心句并生成摘要是本文使用的TF-IDF算法的主要功能。
TF-IDF 實(shí)際上是TF(Term Frequency)×IDF(Inverse Document Frequency),假設(shè)某個(gè)詞語(yǔ)或者短句在一篇特定的文章中出現(xiàn)的頻率較高,但是在其他的文本中出現(xiàn)的頻率很低,那么我們就可以認(rèn)為這個(gè)詞語(yǔ)或短句的類別區(qū)分能力很好、代表性很強(qiáng),甚至能夠代表該文章,這就是TF-IDF的中心思想。計(jì)算公式如下:

TF 表示一個(gè)給定的詞語(yǔ)在整篇文章中的出現(xiàn)次數(shù),其計(jì)算公式如下,其中cout(w)表示文章中詞條w 的出現(xiàn)次數(shù),|Di|表示文章Di 中所有詞條的個(gè)數(shù):

IDF 表示逆向文檔頻率,其計(jì)算公式如下,其中N 表示語(yǔ)料庫(kù)的文檔總數(shù),I(w,Di)表示文檔Di是否包含關(guān)鍵詞,包含為1,不包含為0:

可想而知,當(dāng)通過(guò)TF 進(jìn)行詞頻統(tǒng)計(jì),出現(xiàn)最多的是“的、在、是”這一類停留詞,因此我們?cè)谥黝}中的段落進(jìn)行分詞操作之后,將停留詞和標(biāo)點(diǎn)符號(hào)過(guò)濾去除,留下特征詞,再針對(duì)不同的詞語(yǔ),分別計(jì)算TF-IDF 的結(jié)果,再對(duì)結(jié)果取平均值來(lái)表示當(dāng)前句子在當(dāng)前主題內(nèi)的權(quán)重,計(jì)算公式如下:

其中n代表句子中詞語(yǔ)的個(gè)數(shù),對(duì)得到的TS進(jìn)行排序,優(yōu)先選擇權(quán)重高的作為當(dāng)前主題的中心句。
例如某一主題段落中有三個(gè)句子分別如下:
D1:疫情期間,學(xué)生參加學(xué)校組織的線上課程學(xué)習(xí)和考試。
D2:老師制定相應(yīng)的教學(xué)計(jì)劃,確定學(xué)生考核要求。
D3:同學(xué)們要主動(dòng)適應(yīng)全新教學(xué)模式,積極配合任課老師。
三個(gè)句子依次用D1、D2、D3 表示,分別對(duì)三個(gè)句子進(jìn)行分詞、去標(biāo)點(diǎn)符號(hào)、去停留詞操作,D1、D2、D變?yōu)椋?/p>
D1:疫情期間學(xué)生參加學(xué)校組織線上課程學(xué)習(xí)考試
D2:老師制定教學(xué)計(jì)劃確定學(xué)生考核要求
D3:同學(xué)們主動(dòng)適應(yīng)全新教學(xué)模式積極配合任課老師
然后根據(jù)式(3)、(4)、(5)、(6)計(jì)算權(quán)重:


D1 權(quán)重最高,將選擇D1 對(duì)應(yīng)的句子作為該主題的中心句,因此將其作為文本主題摘要。
在實(shí)際抽取中心句的過(guò)程中,主題劃分之后的各個(gè)主題段落包含句子數(shù)量各不相等,包含一個(gè)至兩個(gè)句子的可以直接將所有句子作為當(dāng)前主題的摘要,包含三個(gè)及以上的句子,提取多少中心句作為摘要是一個(gè)需要解決的問(wèn)題。經(jīng)過(guò)人工實(shí)驗(yàn)經(jīng)驗(yàn),選取閾值σ=0.05,當(dāng)句子TS 值大于等于σ,提取當(dāng)前句子為中心句,當(dāng)句子TS 值小于σ,舍棄當(dāng)前句子。最后將每個(gè)主題段落提取的中心句合并成為當(dāng)前主題的摘要,再將文本各個(gè)主題段落的摘要組合形成文本摘要。
根據(jù)前面的分析和設(shè)計(jì),本文提出一種基于主題劃分及TF-IDF 的文本摘要提取方法(Text topic division and TD-IDF abstract extraction,TDTAE),該方法具體流程為
1)設(shè)待處理文本有m 個(gè)段落為D1,D2,…,Dm,將每個(gè)段落處理,保留特征詞。
2)為得到段落相似度矩陣表,首先將不同段落之間的特征詞進(jìn)行相似度計(jì)算,可使用Word2vec方法,在依據(jù)上述式(1)計(jì)算獲得不同段落的相似度值。
3)最大差值按照式(2)將每行兩個(gè)相鄰的段落帶入來(lái)計(jì)算。
4)根據(jù)上述所闡述的主題劃分思想,按照順序選擇出不同段落的主題。
5)根據(jù)式(3)、(4)、(5)、(6)計(jì)算每個(gè)主題段落中句子的TS值。
6)若句子數(shù)量小于等于2,則選取全部句子作為當(dāng)前主題摘要,句子數(shù)量大于2,則根據(jù)閾值σ來(lái)選取中心句作為主題摘要。
7)將文本所有主題摘要按順序合成文本摘要。
文本摘要抽取分為兩個(gè)實(shí)驗(yàn),選取不同數(shù)據(jù)集進(jìn)行測(cè)試,并和傳統(tǒng)文本摘要處理方法對(duì)比。
1)實(shí)驗(yàn)1
從知網(wǎng)中抽取400 篇不同領(lǐng)域的論文,構(gòu)建知網(wǎng)論文數(shù)據(jù)集,使用本節(jié)提出方法提取正文摘要,并與論文摘要進(jìn)行cos 余弦相似度計(jì)算,余弦值大于0.6的記為提取的摘要合格。該實(shí)驗(yàn)使用“結(jié)巴”進(jìn)行分詞處理,使用Word2vec 訓(xùn)練詞向量模型,使用準(zhǔn)確率(Precision)、召回率(Recall)和F值(F-Measure)三個(gè)指標(biāo)來(lái)評(píng)估本章算法的性能。

其中TrueResultRow為返回結(jié)果中屬于文本摘要內(nèi)容的行數(shù),ResultRow為算法返回結(jié)果的總行數(shù),TextRow為文章摘要的總行數(shù),將本文提出的基于文本主題劃分與TD-IDF的文本摘要抽取方法(TDTAE)與TF-IDF 提取方法、TextRank 提取方法進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表3。

表3 TDTAE與TF-IDF、TextRank對(duì)比結(jié)果
通過(guò)表3 可以看出,在知網(wǎng)論文數(shù)據(jù)集摘要抽取方面,TDTAE方法相比TF-IDF、TextRank方法準(zhǔn)確率召回率都有提高,這說(shuō)明TDTAE 方法是可行有效的。
2)實(shí)驗(yàn)2
此部分實(shí)驗(yàn)采用DUC 數(shù)據(jù)集及其摘要評(píng)價(jià)方法來(lái)相對(duì)客觀、真實(shí)、有說(shuō)服力的突出TDTAE 方法的可靠性、高效性、準(zhǔn)確性等性能優(yōu)勢(shì),其采用Rouge-N 和Rouge-L 方法作為內(nèi)部評(píng)價(jià)指標(biāo),該評(píng)價(jià)方法是國(guó)際通用且相對(duì)客觀的評(píng)價(jià)方法。從維基百科的英文語(yǔ)料庫(kù)中選取本實(shí)驗(yàn)所要用到的Word2vec 詞向量模型,Word2vec 模型占用約1.26G的存儲(chǔ)空間,為從多方面突出TDTAE 方法的性能,將其與MDT方法進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表4。
從表4 可以得出結(jié)論,TDTAE 方法與MDT 方法相比,其他因素相同的條件下,TDTAE 方法在任務(wù)Rouge2、Rouge3、Rouge4 中得到的結(jié)果更優(yōu),這也從側(cè)面反映出由TDTAE 方法生成的摘要與文獻(xiàn)中真正的摘要在詞順序和結(jié)構(gòu)上相似性更好、一致性更強(qiáng),因此得到的語(yǔ)句可讀性更強(qiáng),更加易懂、通俗、順暢。盡管準(zhǔn)確率、F 值這兩個(gè)指標(biāo)在Rouge1、RougeL 兩個(gè)通道中TDTAE 方法要稍微遜色于MDT方法,但是顯而易見(jiàn),表中TDTAE方法的召回率數(shù)據(jù)更優(yōu)于MDT 方法,因此我們可以就重避輕,盡可能地去放大其優(yōu)點(diǎn)、弱化其缺點(diǎn),更多地去注意獲取文本主題的中心內(nèi)容。段落之間的關(guān)聯(lián)、依賴關(guān)系是導(dǎo)致TDTAE 方法產(chǎn)生這一性質(zhì)的主要因素。

表4 TDTAE與MDT對(duì)比結(jié)果
本文提出一種基于文本主題劃分及TF-IDF的單文本抽取式摘要提取方法,該算法無(wú)論是在知網(wǎng)論文數(shù)據(jù)集還是在DUC 公共數(shù)據(jù)集中準(zhǔn)確率、召回率、F 值均比傳統(tǒng)算法要好,并且該方法適用范圍廣。后續(xù)研究中,將進(jìn)一步簡(jiǎn)化該方法的計(jì)算復(fù)雜度,提升算法效率。