楊 丹,邵玉斌,張海玲,龍 華,杜慶治
(昆明理工大學 信息工程與自動化學院,昆明 650500)
并列結構作為漢語中常見的語言結構,成為句法分析的底層研究領域,其正確識別對漢語句法分析有著至關重要的作用.隨著漢語研究從中文信息處理到自然語言處理的發展,并列結構的影響范圍也隨之擴大,從淺層句法分析到機器翻譯、信息抽取,此研究都有較為重要的意義.由于漢語本身的復雜性,并列短語形式多樣,結構繁雜,左右邊界難以界定,從而給并列結構識別研究增加了不小難度,加上無標記結構對并列關系表現“乏力”[1],目前對并列結構的研究以有標記結構為主.
并列結構的識別問題可轉化為序列標注問題,因而目前主流的識別方法是基于統計[2-6]的有監督學習方法,利用機器學習模型與語言學特征的有機結合來選取最佳標注序列,完全依賴于標注語料進行研究.另外,還有基于規則[7-9]和規則與統計相融合[10-12]的方法.基于規則即由人為制定符合并列結構形式的規則,根據一系列規則“套出”句子中的并列短語.以往研究表明基于統計較基于規則的方法效果相對較優,原因主要是規則的建立具有較強的主觀性,“機動性”較差,且規則之間易產生互斥,并列短語除單層短語外還存在著復雜多變的嵌套結構,這使規則無法完全覆蓋.基于統計的方法取得的效果相對較好,但其對標注語料的依賴難以適應小語料研究,從語料中獲取的有監督特征涵蓋面狹隘,無法有效利用未標注語料信息補足特征單一的缺陷,而人工擴大標注語料庫則需要付出大量的人力、時間成本.因此并列結構研究語料不足也成為其自動識別的一道障礙.
鑒于擴大標注語料耗費時間長,而存在的未標注語料豐富,可以充分利用未標注語料內容來影響基于有監督學習的并列結構的識別效果.隨著自然語言中詞向量[13]的引入,如何將詞向量更好的應用于半監督模型這一問題由GUO等人[14]做了探索,并在命名體識別中得到了有效驗證[15].本文由此根據詞向量的應用,在CRF模型中融合無監督學習特征,提出基于半監督的并列結構自動識別方法.首先,本文參照王東波[2]的研究方法,根據并列結構的外部特征和內部成分的語義相似性,在CRF模型中融入詞語長度、是否連接詞、同義詞編碼3個語言學特征,考察不同語言學特征及其組合對并列結構的識別效果的影響;其次,利用大量未標注語料訓練詞向量,再將訓練出的連續的詞向量轉化為離散高維的適合線性CRF的表達[14],此種表達即作為無監督特征融入到CRF模型中,考察不同無監督特征及其組合的識別效果.最后,將語言學特征與無監督特征作不同的組合實驗,考察兩種類型特征的共同作用是否會對識別效果產生更大的影響.
周強最先把并列結構放在整個句子生成的層面驗證,得出了聯合結構的識別“錯誤很嚴重”的結論[16].孫宏林也曾利用并列成分之間的對稱性構建概率模型來識別并列結構的邊界,而效果也不太理想[17].吳云芳在分析了僅依靠成分的相似性來判定并列結構似有所不足后,探討了漢語并列結構可能存在的邊界標記,為之后基于規則的并列結構識別研究做了準備[18].并在之后的論文中從句法和語義兩個層面考察并列成分間的約束關系,將這些約束關系以規則的形式描述出來,從而基于規則識別并列結構的邊界[7].由于之前對并列結構的自動識別研究幾乎大多圍繞并列成分的相似性來進行,吳云芳又基于中文概念詞典(CCD)對名詞性并列結構的成分相似性進行“逆向”考察,為名詞性并列結構的自動識別奠定了一定的理論基礎[19].王東波繼以吳云芳的聯合結構具有中心語相似和結構平行的特性為理論基礎,從單層單標記聯合結構的句法結構和語法功能中統計出規則模板,結合詞語的語義相似度進行單層聯合結構自動識別研究,最終由于規則模板顆粒度過于粗糙和詞語語義計算的粗略得出“僅依靠聯合結構各成分間的相似性進行識別的方法行不通”的結論[8].接著在之后的論文中引入基于統計的方法,利用條件隨機場為基本框架,使用7詞位標注集和18個特征模板,同時結合4個語言學特征對有無嵌套及最長聯合結構進行識別研究,取得了相對滿意的結果[2].
自此,對并列結構的自動識別研究基本朝著基于規則與基于統計的方向發展.王浩在條件隨機場的基礎上增加隱結構感知模型來處理并列短語中的隱含信息,在特征選擇一致的并列名詞短語任務中較條件隨機場的精度更高[6].劉小蝶從多個角度對專利中的并列結構進行標注,制定217條規則融入HNC系統中對專利中的并列結構進行識別研究.而苗艷軍則提出一種規則和統計相結合的方法,先用最大熵模型識別出并列結構的左右邊界,再用制定的規則對識別出的左右邊界進行處理得到最終識別結果[10].
在以往的研究中,基于統計的方法較基于規則的方法取得的效果較明顯,但由于有監督方法完全建立在標注語料上進行研究,無法獲取未標注語料中隱含的語義信息,并且之前的研究并未使用半監督學習方法.為充分利用未標注語料,從中獲取對識別模型有利的特征,本文提出基于條件隨機場和半監督學習的方法,將從未標注語料中提取的無監督特征融入條件隨機場中,構建半監督模型進行考察.
本文以CRF模型與詞性特征結合為基本框架,首先逐一加入詞語長度、是否連接詞、同義詞編碼3個不同語言學特征以及不同特征組合進行考察.接著利用《人民日報》的大量未標注語料訓練詞向量,通過對詞向量進行二值化、聚類和取相似詞得到無監督特征,將詞向量特征、二值化特征、聚類特征以及相似詞特征4個不同無監督特征及其不同組合特征加入基本框架中進行實驗.最后將語言學特征和無監督特征進行交叉組合實驗查看識別效果以進行結果分析.實驗流程如圖1所示.

圖1 半監督學習實驗流程
在此部分中,首先介紹整個模型的基本框架——條件隨機場模型,再對選取的特征及其特征模板的設定作一個簡要說明.
條件隨機場(conditional random field,CRF)最早由Lafferty[20]提出,是一種用于標注和切分有序數據的條件概率模型,它從形式上看是一種無向圖模型.條件隨機場模型作為一個整句聯合標定的判別式概率模型,同時具有很強的特征融入能力,是目前解決自然語言序列標注問題最好的統計模型之一,在NLP領域有很多應用,如詞性標注、淺層句法分析、命名體識別等任務.
假設X=(x1,x2,…,xn),Y=(y1,y2,…,yn)均為線性鏈表示的隨機變量序列,若在給定的隨機變量序列X的條件下,隨機變量Y的條件概率分布P(Y|X)構成條件隨機場,即滿足馬爾可夫性:
P(yi|y,y1,…,yi-1,yi+1,…,yn)=P(yi|x,yi-1,yi+1),i=1,2,…,n
(1)
則P(Y|X)為線性條件隨機場.其參數化形式為:
(2)
其中tk是轉移特征,Sl是狀態特征,λk,μl為特征函數對應的權重,而Z(x)是規范化因子:
(3)
后將轉移特征和狀態特征及其權值用統一符號來表示,設有K1個轉移特征,K2個狀態特征,記為:
(4)
并列結構識別作為淺層句法分析的一個研究領域,可被轉化為序列標注問題,對句子進行最優標注,通過標注的標簽則可自動提取出其中最佳范圍的并列結構.條件隨機場除了特征設計靈活,可容納上下文信息外,還通過計算全局最優輸出節點的條件概率,解決了標記偏置的問題.因此基于統計學習對并列結構的研究中,采用CRF模型是相對比較理想的.
CRF是一個序列化標注算法,接受一個輸入序列如X=(x1,x2,…,xn),并且輸出目標序列Y=(y1,y2,…,yn),此處的X假設是將要被標注的含并列結構的句子,Y是與之對應的標簽序列,n是序列長度,如圖2所示.

圖2 并列結構標注示例
在CRF模型中,特征的加入會使其性能受到不同程度的影響,優質特征會使其識別效果得到提升,因此特征的選取較為重要.根據并列結構的內外部特征,選擇3個語言學特征結合CRF模型進行實驗,同時充分利用未標注語料,從中獲取無監督特征.不同特征對整個模型的影響面不同,每個特征對應的特征模板也會直接影響識別效果,為使每個特征對模型的影響較優,且耗費時間短,本文為不同特征配置相對適宜的特征模板.特征表示中W指的是詞語(word),P是詞性(pos),由于詞性是最基本特征,故不歸入語言學特征中,而直接加入基礎模型中.基礎模型的特征模板如表1所示.

表1 基礎模型特征模板
之后每個特征的總特征模板都是在基礎模型的特征模板基礎上增加列出的每個特征對應的特征模板塊.
3.2.1 語言學特征
1)詞語長度(word_length,WL)
在標注語料中詞語長度為1-3個單位的詞語量占比約為95%,從分布上看,詞長為2個單位的居多.這在漢語中似乎是個比較“普通”的特征,但僅從并列結構的外部形態上看,詞長仍然是一個顯性特征存在,或多或少會對并列結構產生影響,因而依然將此列為一個語言學特征,作為對比實驗進行考察.其特征模板為:
W|P|WL-2;W|P|WL-1;
P|WL-1|WL-2;P|P-1|WL-1
2)是否是連接詞(conj,C)
并列連接詞是并列結構的一個顯象標志,是各個并列成分的“紐帶”.從語義上看,連接詞將兩個相近的成分結合在一起,使句子意思更進一步;從外部形態上看,連接詞標示了并列結構的位置,是并列結構存在的“地標”.當前詞是連接詞時為“Y”,不是為“N”.其特征模板為:
C-i,C,C+i(i=1,2);W|P|C-1;
P|C-1|C-2;P|P+1|C-1
3)同義詞編碼(Synonym_coding,SC)
基于《哈工大信息檢索研究室同義詞詞林擴展版》(1)http://www.ir-lab.org/.2019.(HIT IR-Lab Tongyici Cilin(Extended)),選擇出詞語對應的小類代碼,即第3級編碼.詞典中將詞匯分成大中小3類,每個類又根據詞義的遠近和相關性分成了若干個詞群,進一步分成若干行,同一行的詞語要么詞義相同或很相近,要么詞義有很強的相關性,詞語編碼表如表2所示.隨著級別的遞增,詞義刻畫越來越細.

表2 詞語編碼表
表2中的編碼位是按照從左到右的順序排列.第8位的標記有3 種,分別是“=”、“#”、“@”,“=”代表“相等”、“同義”.末尾的“#”代表“不等”、“同類”,屬于相關詞語.末尾的“@”代表“自我封閉”、“獨立”,它在詞典中既沒有同義詞,也沒有相關詞.
由于并列結構中各成分之間存在一定的相似性,有相同編碼的詞表示屬于同一類,有一定的語義相關性,因此根據編碼來判斷詞語的相似性.編碼粒度過細可能會使在識別過程中遺漏有一定作用的語義信息,同時為訓練增加負擔,因此本文根據詞義標注語料選取第3級編碼.其特征模板為:
SC-i|SC|SC+i(i=1,2);W|P|SC-1
4)組合特征
將不同語言學特征組合考察其結合之后的識別效果,特征模板如圖3所示.

圖3 語言學特征組合特征模板
3.2.2 無監督特征
詞向量是將詞表示成一個定長的連續稠密向量的分布式表示,在自然語言處理中有著廣泛應用,現已成為改進各項NLP任務不可或缺的基礎技術.同時詞向量的獲取與語料是否標注無關,可充分利用未標注語料,因而也成為改進有監督系統性能的一個重要工具.本文利用大規模未標注語料訓練不同維度的詞向量,將詞向量作為額外特征加入模型中.由于線性適合離散高維特征空間,非線性適合低維連續特征空間,而CRF屬于線性模型,詞向量則是連續的低維的矢量表達,因此再將詞向量轉化為一種高維離散的適合線性CRF系統的表達[14],將這種表達作為特征加入基礎模型中.
1)詞向量(Embedding,emb)
本文利用Google開源推出的word2vec工具包訓練詞向量,word2vec工具主要包含兩個模型:跳字模型(Skip-gram)和連續詞袋模型(continuous bag of words,CBOW),Skip-gram模型是根據目標詞預測語境,CBOW模型則是根據語境預測目標詞,分別用這兩種模型訓練詞向量進行實驗,同時訓練不同維度的詞向量以觀察維度對識別效果的影響.由于詞向量帶有與詞義相關的信息,仍將詞向量作為一個特征進行實驗.其特征模板如下:
emb-i|emb|emb+i(i=1,2);
W|emb+2;W|P-1|emb-2
2)詞向量二值化(Binary,Bi)
二值化是GUO[14]等人提出的一種將詞向量轉化為高維離散表達的一種方法,對詞向量二值化之后降低了詞向量的復雜度,使模型訓練時長減短.對詞向量進行二值化在形式上是將連續值的詞向量矩陣EV×D轉變為離散值的矩陣BV×D,其中V是指詞典大小,D是指詞向量的維度.首先詞向量第j列中的值Ei,j分為正負兩部分,Ei,j>0表示為Ej+,Ei,j<0表示為Ej-.接著計算正負兩部分的均值,正均值記為mean(Ei+),負均值記為mean(Ei-),計算公式如下:
(5)
(6)
其中nj+是指Ej+的個數,nj-是指Ej-的個數.最后將詞向量矩陣EV×D中的連續值轉化為離散值,構成二值化矩陣BV×D.轉化函數如下:
(7)
其特征模板如下:
Bi-2|Bi-1|Bi;W|P-1|Bi-2
3)k-means聚類(Cluster,Clu)
由于并列結構具有平衡性和語義相似性特征[19],即并列短語中各成分之間語義相近,為表現其這一特性,再對詞向量進行聚類,將聚類后所得每個詞對應的簇序號作為特征.聚類算法很多,而在詞向量的聚類算法中大多應用K-means聚類,原因可能是其作為一種經典算法,有著出色的速度和良好的可擴展性.在K-means聚類算法中用歐氏距離來衡量樣本與各個簇的距離,將詞歸入距離最近的簇中,計算公式如下:
(8)
聚類后的不同簇包含不同的語義信息,聚類的個數直接決定詞語間的相似關系.尤其對于訓練模型,聚類粒度的選擇尤為重要,因此在聚類時設置不同的聚類數以獲得不同的序列標簽,進行粒度分析.其特征模板如下:
clu-2|clu-1|clu;W|P-1|clu-2
4)相似詞(Similar_word,Sim)
詞向量能夠揭示詞語之間潛在的語義聯系,由此可通過詞向量獲得某個詞的相近詞,將獲取的相似詞作為一個特征.訓練得到詞向量后,計算特定詞向量與其他詞語向量之間的余弦相似度,選擇5個相似詞作為特征引入.例如有n維詞語向量a和b,分別表示為:a=[x1,x2,x3,…,xn],b=[y1,y2,y3,…,yn]余弦相似度計算公式如下式:
(9)
相似度Similarity的范圍在[-1,1],1表示兩個向量的指向完全相同,-1表示完全相反,則當Similarity越接近1時,表示兩個詞語之間的相似度越高.由此選出相似度較高的前5個詞作為實驗特征,且每個詞不能重復出現.其特征模板如下:
sim-2|sim-1|sim;sim|sim+1|sim+2;W|P-1|sim-2
5)組合特征
將二值化特征、聚類特征和相似詞特征分別組合,考察特征結合后對識別效果的影響.特征模板如表3所示.

表3 無監督組合特征模板
首先介紹實驗數據及對數據的處理工作,列出實驗的評價指標,然后將實驗大體分為3個部分展開:1)對語言學特征及其組合特征的實驗分析;2)對無監督特征及其組合特征的實驗分析;3)對語言學特征和無監督特征兩類特征組合的實驗分析.
實驗中用于訓練詞向量提取無監督特征的未標注語料為《人民日報》1998年與2014年的語料整合(分詞后約2894個詞),訓練集和測試集為吳云芳(2)https://opendata.pku.edu.cn/dataverse/icl.2018.標注的《人民日報》并列結構標注語料(約56萬字),其中用“{ }”標示出并列結構,有7215個并列短語.本文參考王東波[2]的實驗,將標注語料按9:1的比例隨機抽取分成訓練集和測試集兩部分,并采用7詞位標注集T={B,F,G,I,M,E,S}對語料進行標注,其中B是并列結構的開始詞,F是第2個詞,G是第3個詞,I是第4個詞,M是第5個及以上的詞,E是結尾詞,S是并列結構外部的詞.實驗前對數據做了如下處理:
1)剔除語料中每行開頭的日期信息,如:1998-01-001-001/m.
2)將句子按,.!?4類標點符號分割成小句,為避免之后因句子冗長給模型增加訓練負擔.
3)篩選出語料中含有并列結構的小句作為新語料,從中提取訓練集和測試集,減小標注標簽工作量及多余信息的融入.
準確率,召回率和F值的計算公式如式(10)-式(12)所示,本文以F值作為最終評價指標.
(10)
(11)
(12)
本文將詞語(word)和詞性(pos)與CRF框架的結合作為基本模型(Baseline),在此基本模型中逐一添加各項特征進行對比實驗.實驗部分主要從3個模塊展開:1)語言學特征及其組合特征對識別效果的影響及分析;2)無監督特征及其組合特征對識別效果的影響,這部分中考察Skip-gram和CBOW兩個模型分別訓練出的不同維度的詞向量和不同個數的聚類集的影響程度,選擇其中效果最好的參數進行下一步實驗;3)將語言學特征和無監督特征任意組合進行實驗,作效果對比.
4.3.1 語言學特征組合實驗
并列結構本身的特征會對模型的識別產生影響,為考察不同語言學特征的影響程度,分別將詞語長度(word_length)、是否連接詞(conj)、同義詞編碼(Syn_coding)3個語言學特征加入基本模型,同時將3個特征隨意組合,其識別結果如表4所示.

表4 不同語言學特征組合實驗
從結果中看出分別加入詞語長度特征和是否連接詞特征后F值提高0.21%,兩者組合加入Baseline后提高0.61%,說明這兩個語言學特征對并列結構的識別影響較小,而兩者同時融入模型時的效果稍優于單獨融入的效果,提升依然較小.可能由于并列短語的組成結構多樣,除了在整個語料中占比較大的單層并列結構的形式相對穩定,易于識別,其余復雜多變的并列結構如嵌套結構組成成分各異,在這部分的識別上依然存在很大難度.同時各項成分的詞語長度是取決于語料本身的分詞方法,大多詞語長度分布在1-4,此語言學特征無法作為一個影響很大的因素,對并列結構的識別效果影響較小.在句中確定并列連接詞的位置相當于找到并列結構的中心,在主觀上根據并列結構的是否連接詞特征可以有效影響識別效果,但同樣由于并列嵌套結構的復雜性,并列中會包含另外一個或多個并列,并列詞的位置有助于對并列結構實行“定位”,卻無法保證并列結構邊界識別的準確性.從實驗結果看,同義詞編碼的加入反而使整個模型的識別效果呈“負增長”,原因可能是3級編碼標注語料中包含的詞語較少,測試集和訓練集中的很多詞語無法獲得“編碼”,致使識別效果不佳.
4.3.2 無監督特征組合實驗
在工作原理上看,Skip-gram模型是“逆向”的CBOW模型,兩種模型訓練出的詞向量有一定差異,因而這部分中用了兩種模型分別訓練詞向量,繼而進行詞向量的二值化及聚類,通過實驗效果選擇更適合并列結構識別模型的方法.不同維度的詞向量會使詞之間的關系發生變化,因此訓練不同維度的詞向量進行對比實驗以獲取最適宜的詞向量,同時,在聚類時改變參數以產生不同個數的簇.
1)不同模型及維數下的單特征實驗
通過兩個不同模型分別訓練不同維度的詞向量,依據實驗所用的數據量設置詞向量維度為50、100、150,將這3個維度下的詞向量特征、二值化特征及聚類特征分別加入基本模型進行對比實驗,詞向量和二值化特征的對比結果如圖4所示.單從維度上看且忽略模型類別時,50維時的數據較為穩定,此時詞向量特征和二值化特征的F值幾乎接近且都達到全部數據的最高值:F1max(Embedding)=85.12%,F1max(Binary)=85.22%100維時詞向量特征的F值為最低值84.62%,而二值化特征的F值達到最大;150維時兩個特征的F值都較最大值85.22%低.綜合看來,在3個維度中,詞向量維度為50維時效果較其他的更好.
從圖4中可見兩個模型下的詞向量特征在50維時的F值都為85.12%,在另外兩個維度時F值的差值也都控制在0.3%以內;對于二值化特征,兩個模型下的F值在100維時均達到最高值85.22%,另外兩個維度下的值相差也不大.從兩個特征在各個維度上的差值上看,模型的類別對兩個特征的識別效果影響較小.

圖4 不同維度及模型下的詞向量、二值化特征對比
在不同模型下訓練出不同維度的詞向量后進行聚類,分別聚類出100、300、500、700、800、1000、2000、3000個簇,將8組聚類中不同聚類簇標簽作為特征進行實驗,結果如圖5(橫坐標聚類組x=1時,簇個數N(x=1)=100;N(x=2)=300;N(x=3)=500;N(x=4)=700;N(x=5)=800;N(x=6)=1000;N(x=7)=2000;N(x=8)=3000).在CBOW模型下,詞向量為50維時,聚類數N(x=2)=300、N(x=7)=1000、N(x=8)=3000時F值都達到最高85.32%;100維時,聚類數N(x=8)=3000時達到最高85.32%;150維時,聚類數N(x=3)=500、N(x=8)=3000時達到最高85.32%.在Skip-gram模型下只有在150維、N(x=6)=1000時達到最高值85.32%.兩個模型下得到的數據相差不大,若將數據一一對比,總體情況下CBOW模型的識別效果比Skip-gram模型的稍好.在CBOW模型的條件下,50維時多個值達到最高值;在聚類數N(x=8)=3000時3個維度的F值都達到最高值,效果較其他幾組更好.

圖5 不同維度及模型下的聚類簇對比
2)不同無監督特征組合實驗
為考察不同無監督特征組合加入基本模型后性能是否在單特征的基礎上提高,此部分將CBOW模型下訓練出的詞向量為50維的二值化特征與同等條件下聚類數為3000的聚類特征以及相似詞特征組合進行實驗.因詞向量特征耗時較長,效果與二值化特征相近,此部分實驗不加入詞向量特征.實驗結果如表5所示.

表5 不同無監督特征組合實驗
從表5中看出詞向量的二值化特征、聚類特征和相似詞特征的加入都使并列結構的識別效果有所提高,3個特征加入后的F值分別提高了1.52、1.62、1.22個百分點,3個特征組合加入后F值達到85.71,較基礎模型提高了1.95%.說明無監督特征的加入能夠有效提升并列結構的識別效果.
4.3.3 語言學特征與無監督特征組合實驗
在以上實驗的基礎上,將語言學特征與無監督特征任意組合,考察不同類型的特征對模型性能的影響,混合特征的特征模板為兩種特征的模板結合.由于語言學特征中的同義詞編碼特征起了“負作用”,不考慮加入此部分實驗.實驗結果如表6所示.

表6 不同類別特征的組合實驗
從表6中看出無論是語言學特征還是無監督特征,對并列結構的識別效果都有一定的影響,而語言學特征的影響較無監督特征的影響較弱.語言學特征組合后的F值為84.41%,無監督特征組合后的F值為85.75%,而全部特征混合后的F值達到85.77%,較基礎模型提升了1.97%,兩種特征結合后的效果與無監督特征組合后的效果相差不大.說明無監督特征的加入為識別“注入”了豐富的語義信息,在一定程度上減少人工選取繁多特征的工作量.
4.3.4 CRF模型與神經網絡模型的對比實驗
隨著深度學習在自然語言處理任務中取得越來越好的效果,大多自然語言處理任務如情感分析、命名體識別等都采用了較為“流行”的神經網絡模型.本文采用Bi-LSTM-CRF模型對并列結構進行識別測試,與CRF模型進行對比.實驗中使用的詞向量除本文中自訓練的50維詞向量,還引入3個公開詞向量集,根據預訓練好的模型獲取詞向量,考察不同質量的詞向量對識別效果的影響,詞向量預訓練模型的語料規模和維度如表7所示.其中詞向量預訓練模型1和模型2生成靜態詞向量;模型3生成動態詞向量.

表7 詞向量預訓練模型
由不同的詞向量提取出無監督特征,將3個無監督特征融入CRF模型,并與Bi-LSTM-CRF作比較,識別結果如表8所示.不同質量詞向量的引入會使識別結果產生波動,對于CRF模型,引入Bert訓練的詞向量(D=768)時F值較原模型提高0.23%,D=300時提高0.1%,提升百分比很小.對于Bi-LSTM-CRF模型,在不同詞向量下識別F值都低于CRF模型,原因是語料規模還是偏小,在訓練時易造成過擬合,同時動態詞向量(D=768)的識別效果較好,F值提升了1.23%.

表8 模型識別結果對比
在實際應用中,模型的性能也是考量其實用性的一個重要因素,因此通過模型的耗時情況來查看模型的性能如何.表9是兩個模型性能對比,CRF在CPU(i5-8300H@2.3GHz)、GPU為4GB的設備上進行訓練;Bi-LSTM-CRF在CPU(i9-9900H@3.6GHz)、GPU為8GB的設備上進行訓練,迭代次數為100.Bi-LSTM-CRF中不引入無監督特征,故不存在詞向量聚類耗時.從表9可見Bi-LSTM-CRF模型訓練耗費的時間要比CRF模型多,且對設備有一定要求,需要耗費更多成本.而從獲取詞向量時間及詞向量聚類時間看,雖然Bert訓練出的動態詞向量效果稍好,但在小語料規模的任務中優勢不太明顯,且需付出大量時間成本.

表9 模型性能對比
本文針對目前研究方法完全依賴標注語料進行,而并列結構標注語料規模較小的問題,引入半監督學習方法.利用未標注語料訓練詞向量,并轉化為無監督特征加入以CRF為基本框架的模型中.實驗中加入語言學特征作為對比實驗,將提取出的無監督特征——詞向量特征,二值化特征,聚類特征和相似詞特征分別加入基礎模型,并將特征進行組合實驗.實驗表明,無監督特征和語言學特征對并列結構的識別都有影響,但無監督特征的影響比語言學特征的影響大得多.無監督特征的引入能夠充分利用未標注語料中的語義信息,用詞向量來揭示單個詞與上下文的語義聯系,并體現詞語之間的相似性,可以在減少人工選取特征工作量的同時將豐富的語義信息通過較為簡單的形式傳遞到識別過程中.實驗結果表明本文引入的半監督方法能夠有效影響并列結構的識別效果.
實驗方法對并列結構的識別研究有一定的正面影響,但識別準確率的上升仍然處于“瓶頸期”.實驗結果中單層并列結構的識別準確率較高,例如:“各/r 條/q 戰線/n {改革/v 和/c 發展/v} 的/u 任務/n 都/d 十分/m 繁重/a”.原因是單層結構是并列結構中最為簡單的一種類型,且它在整個標注語料中的占比達到39.84%[8],在訓練時有較大優勢.但其余結構中包含的復雜多變的長句結構和嵌套結構就難以準確識別出.如:“保持/v {社會/n政治/n、/w 經濟/n、/w 文化/n} {協調/v 發展/n 和/n 全面/ad 進步/v} 的/u 興盛/a 局面/n”,易錯誤識別成“保持/v {社會/n政治/n、/w 經濟/n、/w 文化/n 協調/v 發展/n 和/n 全面/ad 進步/v} 的/u 興盛/a 局面/n”,難以識別多重并列結構,其中一個主要原因是漢語本身的復雜性,還有一個原因是訓練語料中出現的類似的句式較少,復雜嵌套句形式多變而每個句式在語料中出現的次數較為稀少.
目前并列標注語料規模較小,無法滿足大數據量研究的需要,阻礙了對并列結構識別研究的發展.在之后的研究中,將通過半監督方法對標注語料進行擴展,然后利用神經網絡模型自動提取特征對并列結構進行識別研究.