張引兵,宋繼華,彭煒明,趙亞偉,宋天寶
(1. 北京師范大學 信息科學與技術學院,北京100875;2. 淮北師范大學 數學科學學院,安徽 淮北235000)
樹庫是標注了句法信息的語料庫,是一種深度標注的語言知識資源。一般來說,一個句子雖然表面上呈現詞語的線性排列,但其內部的成分組織還是存在一定層次結構的。這種層次結構通常用“樹”這種形式工具來表示,大量句子及其對應的樹結構的集合就構成了樹庫[1]。然而,標注樹庫是一項費時費力的工作,需要完善的標注體系和規范的標注流程以保證標注的質量。另一方面,由于標注規范的復雜性,需要標注者擁有相關的專業背景。即使這樣,標注者對句子不同的理解也會產生不同的標注結果,這為樹庫的建設帶來了一定的困難。
基于上述弊端,目前樹庫的構建主要有兩種方法: 一是構建自動句法分析器;二是對標注好的另一種體系下的高質量語料進行轉換。對于第一種方法,梁欣、臧德滋等人[2]已做了相關的研究;對于第二種方法,黨政法[3]、李正華[4]、邱立坤[5-6]以及周惠巍等人[7]的研究也具有十分重要的意義。在樹庫的轉換研究中,Lin[8]較早地進行了將短語結構樹庫向依存結構樹庫轉換的嘗試。Fei Xia[9]在Lin的基礎上對其算法進行了進一步的完善,完成了從Penn Treebank到依存樹庫的轉換,取得了較好的效果。另外,Hiroyasu Yamada[10]、Joakim Nivre[11]和Tylman Ule[12]等也進行過一些樹庫轉換相關的研究。縱觀各種不同結構的樹庫,之所以能夠從一種結構的樹庫向另一種結構的樹庫進行轉換,是因為這些不同結構的樹庫標注方法雖然不同,但它們主要描述的都是句法結構,在更深層次上具有一致性。
目前計算語言學研究者已經為世界上許多語言構造了一定規模的樹庫,漢語方面也有一定數量的樹庫。因此如何減少樹庫建設中的工作量就成為一個重要的研究課題。利用已有的樹庫向目標樹庫進行轉換,不僅可以減少重復勞動,還能提高工作效率。針對漢語樹庫,短語結構和依存結構的研究工作已經相當成熟,而句式結構的研究才剛剛起步,其相關研究主要在北京師范大學語言與文字資源研究中心開展。所謂句式結構,即以句本位語法為理論指導的一種圖解語法結構。北京師范大學語言與文字資源研究中心在句本位理論的研究基礎之上,開發了句式圖解標注系統,進行句式結構樹庫的構建。實現了經典的語法理論與現代信息技術的結合,將復雜的句式結構通過句式圖解的方式直觀展現,更好地揭示了蘊含在語言內部的層次關系,從而使學習者更容易理清句子各成分間的邏輯關系,把握整個句子的句式結構。無論在中小學語文教學中,還是在國際漢語教學中都有著廣泛的應用前景。本文旨在實現短語結構向句式結構的轉換,提高句式結構樹庫的構建效率,擴充現有的句式結構樹庫的規模。
目前,世界上成規模的樹庫主要有短語結構樹庫和依存結構樹庫兩種類型。在中文領域,成規模的中文樹庫主要有賓州中文樹庫、Sinica中文樹庫、清華中文樹庫、國家語委中文樹庫、北大中文樹庫、哈工大中文依存樹庫及北師大句本位句式結構樹庫。其中,賓州中文樹庫、清華中文樹庫、國家語委中文樹庫、北大中文樹庫均為短語結構樹庫[5]。下文給出了本文所采用的實驗語料——清華短語結構樹庫(如無特殊說明,后文短語結構樹庫均指此庫)和北師大句式結構樹庫的基本情況介紹與比較分析。
清華短語結構樹庫由清華大學周強[13]等人構建。語料規模約五萬句子、100萬詞,涵蓋文學、學術、新聞、應用文等多個領域。以“美國 T.A.愛迪生發明了白熾燈。”為例,其存儲形式為“[zj-XX [dj-ZW [np-DZ 美國/nS T.A.愛迪生/nP ] [vp-PO [vp-AD 發明/v 了/u ] 白熾燈/n ] ] 。/。 ]”,圖 1展示了其短語結構樹。

圖1 清華短語結構樹示例
從圖1中可見,除了詞性節點(若不計詞形節點,可視為葉節點)外,非葉節點均按“功能標記—結構標記”格式標記短語信息,例如,其中的“dj-ZW”節點,“dj”是其外部功能標記,表明這是一個單句;“ZW”是內部結構標記,表明其子節點是主謂關系。由于可以借助“短語”節點的層級嵌套,它可以刻畫較為細致的層次結構(數據存儲時通過括號的嵌套層級表示)。
在清華短語結構樹庫的標注體系中,采用了16個短語功能標記和27個句法關系標記,詳細信息可以參考文獻[13]。
1.2.1 句本位語法理論
在所有樹庫項目的開發過程中,一個特別值得重視的發展趨勢是樹庫構建與語法理論研究的緊密結合[7]。句本位語法是黎錦熙先生在《新著國語文法》中建立的語法理論體系。其主張是在以句子為研究對象的基礎上來研究語法,指出: “句本位的文法,退而分析,便是詞類底細目;進而綜合,便成段落篇章之大觀。”[14]句本位語法以句子作為觀察點和立足點,以句子成分和句法格局為主要特征,著力研究各類句式的結構規律。這種語法體系是在借鑒西方傳統語法理論和體系,考慮漢語這種分析性語言的特殊性的基礎上建立起來的,注重句法與語義的統一[15]。
關于句本位語法的學術思想和理論價值,黃昌寧先生曾經指出: “黎錦熙先生在《新著國語文法》中倡導的句本位語法體系和中心詞分析法具有鮮活的生命力。”[16]所謂句本位語法,主要體現在兩個方面: 1)詞類上“依句辨品、離句無品”; 2)句法上采用中心詞分析法,并以圖解法作為析句工具。
1.2.2 句式結構圖解標注平臺
北京師范大學語言與文字資源研究中心的研究
著眼于現代漢語語法教學的實際需求,對黎氏體系中一些術語和圖形展現方式進行了調整和完善。何靜[17]、彭煒明[18-21]、楊天心[22]等在圖解法的形式化及其樹庫的構建方面進行了深入的系統研究。在堅持黎氏語法句本位析句思想的同時,改進了部分陳舊的術語和分析方式,力求實現與經過多年發展的主流教學語法體系的兼容。按照“基本句式→擴展句式→復雜句式”的思路設計出一套形式化的句式圖解系統方案,并實現了一個基于句本位語法的圖解標注系統(見圖2),為漢語句式結構圖解樹庫的構建奠定了基礎。

圖2 基于句本位的句式圖解標注平臺
圖解析句法形式化設計方案,包括可視化的圖解樣式與XML格式的數據存儲結構兩個方面,二者是一種編碼與解碼的關系。一個具體例句的圖解及其XML結構分別如圖3和圖 4所示,標記集如表1和表2所示。

圖3 句式圖解結構示例

圖4 XML結構存儲示例

序號結構成分標記序號詞類標記1整句ju1名詞n2小句xj2時間詞t3主語sbj3方位詞f4謂語prd4數詞m5賓語obj5量詞q6定語att6代詞r7狀語adv7動詞v8補語cmp8形容詞a9獨立語ind9副詞d10介詞位pp10介詞p11連詞位cc11連詞c12助詞位1uu12助詞u13助詞位2un13嘆詞e14助詞位3uv14擬聲詞o15方位詞位ff15標點w

表2 屬性標記集
從圖、表中可見句式結構特色主要有如下兩點,更多的詳細信息可參考文獻[21]。
(1) 動態詞。對詞庫中未收錄,而又不適合進行句子成分切分的一些結構做詞法標注,即設置動態詞單位。如圖3中的“修路工”“準備了”。
(2) 虛詞位。對于不單獨充當句子成分的虛詞(主要有介詞、連詞、助詞等),在結構中設置“虛詞位”結點,如圖4中“的”標記為“
樹庫的構建都是在特定的語法理論的框架下制定標注規范的,不同結構類型的樹庫之間最本質的區別不在于采用了何種標注體系,而在于依照何種語法體系制定的該標注體系。從這個角度上講,短語結構樹庫最本質的特征在于其標注體系的制定是站在“短語”的角度,采用了“短語中心”的語法理論,這種語法理論是通過直接描寫句子“直接成分”(如主謂、定中、述賓、附加等)的方式分析句子的結構,進而制定標注體系。而句式結構樹庫是站在“句子”的角度,采用了“句子中心”的語法理論,是通過傳統語法中的主語、謂語、賓語等句子成分分析句子的結構,進而制定標注體系的,進一步的論述可以參考文獻[23]。
句式結構樹庫構建過程中所采用的標注體系為“句子成分分析法”,以“句子成分”作為節點;而短語結構體系采用“直接成分分析法”,句子成分信息蘊含在“直接成分”節點的“結構標記”中。從短語結構到句式結構主要依據“結構標記”進行轉換,而忽略“NP、VP”等“功能標記”。基本思路是,逐層地將句子成分從節點“結構標記”信息中提取出來,用于對應轉換規則的確定。而對于一般的葉子節點則直接進行轉換,即將“詞/詞性”直接轉換為“”。對于標點符號,可以看作這里的“詞”,而詞性統一使用“w”。
在具體轉換規則的制定過程中,將要轉換的對象分成兩類。一類是只涉及兩種體系下所采用的標注體系不同,而不涉及體系本質的不同。對于這一類,只需按照兩種體系的對應關系,制定對應的轉換規則,直接按照對應轉換規則進行轉換即可。另一類是由于兩種不同的標注體系之間某些部分具有完全不同的本質區別,因而需要進行特殊結構的單獨處理,進行必要的人工干預。
在短語結構的標注體系中,大部分節點是二分結構,也有少量是多分結構,對于不同的情況應區別對待。此處是否“二分”的判斷,僅從實義節點考慮,暫不計標點符號、連詞、助詞等形式節點的影響。
2.1.1 二分結構
短語結構標注體系中的二分結構主要有缺省(XX)、主謂(ZW)、述賓(PO)、述補(SB)、定中(DZ)、狀中(ZZ)、連謂(LW)、介賓(JB)、方位(FW)等九種結構形式,各節點的左右子樹分別以【LP】、【RP】表示。其轉換舉例如表 3所示。

表3 二分結構的轉換規則

續表
2.1.2 多分結構
短語結構標注體系中的多分結構主要有聯合(LH)、兼語(JY)、框式(KS)等三種結構形式。轉換舉例如表 4所示。

表4 非二分結構的轉換規則
2.1.3 詞法結構轉換規則
正如朱德熙先生所說: “句法研究的是句子的內部構造,以詞為基本單位;詞法研究的是詞的內部構造,以語素為基本單位。可見句法和詞法是兩個平面的東西。”[24]句式結構樹庫中的動態詞結構來源有二: 一是漢語中的構形,二是句法構詞。
根據葛本儀先生的研究[25],漢語中構形分為附加式和重疊式兩類。附加式構形主要是: 名詞加詞尾“們”表示多數,動詞加詞尾“著”“了”“過”表示進行態、完成態和經歷態。重疊式構形主要有: “VV”“V了V”“V一V”“V不V”等,分別對應短語結構中的附加結構(AD)和重疊結構(CD),轉換規則如表5所示。
句式結構中定義的句法構詞種類很多,常見的如“數詞-量詞”構成的數量詞結構、“單音名詞+方位詞”構成的處所名詞、動結式動詞、動趨式動詞,以及圖 3中的“修路工”等,并且句法構詞與短語結構之間的對應關系相對復雜,轉換時具有一定的歧義性,詳見2.2節。

表5 詞法結構轉換規則

續表
在由短語結構向句式結構進行轉換的過程中,除了按照如上所述的對應轉換規則進行轉換之外,由于兩種體系結構之間的差異及漢語語法及句式的復雜性、靈活性,在實際的轉換過程中,會出現轉換的歧義現象以及某些特定情形的不可預期性。
在短語結構體系中關系標記區分了各種復句類型,而句本位語法體系著重于對小句的分析,所以對于一般的復句結構,簡單地轉換為若干小句即可。例如,“財政是一個歷史范疇,它隨著國家的產生而產生。”其短語結構字符串為: “[zj-XX [fj-LS [dj-ZW 財政/n [vp-PO 是/vC [np-DZ [mp-DZ 一/m 個/qN ] [np-DZ 歷史/n 范疇/n ] ] ] ],/,[dj-ZW 它/rN [vp-ZZ [pp-JB 隨著/p [np-DZ 國家/n 的/u 產生/vN ] ] [vp-XX 而/c 產生/v ] ] ] ] 。/。 ]”而在句式結構語法體系中是將其分為“財政是一個歷史范疇,”“它隨著國家的產生而產生。”兩個單句來進行處理的。故從這個角度而言,從短語結構向句式結構的轉換無法做到轉換的完全對應。
2.2.1 緊縮復句
需要注意的是,短語結構體系中的“緊縮復句”在句式結構體系中分析為“聯合謂語”句。緊縮復句一般也為二分結構,其轉換規則為:
[fj-JS 【LP】【RP】] → 【LP】
2.2.2 含能愿動詞的狀中結構
在短語結構中,“能愿動詞+VP”的組合歸為狀中結構,例如,[vp-ZZ 能夠/vM 演化/v]。而句式結構語法中能愿動詞稱為“助動詞”,其與VP的組合按“合成謂語”分析。因此,修正ZZ結構的轉換規則為:
當【LP】為: “助動詞/vM”時,[vp-ZZ 【LP】【RP】] →
2.2.3 連謂結構
一般而言,短語結構中的“連謂結構”(LW)主要對應句式結構中的“連動句”結構。但句式結構的“連動句”定義更為嚴格,要求前后VP之間:
① 無關聯詞語;
② 為序列關系。
因此,表3中的[vp-LW 【LP】【RP】]的轉換規則需考慮以上兩種例外情形,例如:
① 在形式上多順應中國戲曲及文明戲以適應觀眾的欣賞趣味。
② 在雷達發明之前,利用脈沖無線電裝置測量電離層高度的工作已進行多年。
按照句本位語法,①應轉為聯合謂語句,可以通過判斷【RP】中連詞或關聯副詞的存在來識別;②應轉為狀中結構,其轉換規則需要判斷兩個VP之間的語義關系,而并無具體的形式標記可資利用。這可視為轉換中需要消解的結構歧義之一。
2.2.4 動態詞情形
分析短語結構樹庫和句式結構樹庫的語料標注情況,可以看出在詞語層面分歧較多,主要表現在對“動態詞”切分粒度的不同。句式結構樹庫中“動態詞”是指一般詞庫中沒有收錄,而在句法分析時又不適宜做進一步句子成分切分的造句單位。動態詞范圍非常廣泛,除專有名詞、慣用語外還包括大量的臨時性句法構詞,如全校、桌椅、張老師、家里、看清、舉起、每天、五六年等[26]。
句式結構樹庫中定義的句法構詞種類很多,常見的如“數詞+量詞”構成的數量詞結構、“單音名詞+方位詞”構成的處所名詞、動結式動詞、動趨式動詞等。為此,文獻[19]專門構建了動態詞結構模式知識庫,以輔助句式結構析句時的動態詞識別。部分常用的動態詞結構模式如圖 5所示。

圖5 動態詞結構模式知識庫示例
動態詞在短語結構樹庫中又分為兩種情形:
① 是直接作為單詞標記為葉子節點;
② 是按短語結構分析。
在句式結構中,動態詞則直接進行詞法分析(見圖 3和圖 4)。在轉換過程中,①的情形因為沒有對應的內部結構信息,故直接轉換,留待后續人工分析;②則需要根據短語結構類型及其內部成分的音節數、語素是否自由及語義整合程度等約束條件進行綜合判斷。具體可參考文獻[27]中所構建的動態詞結構模式知識庫的應用。
從短語結構樹庫向句式結構樹庫的轉換包括兩個方面: 一是在兩種不同的語法結構體系下詞性標記集的轉換;二是兩種不同句法結構體系下對應結構層次的轉換。
3.1.1 數據預處理
句式結構體系中詞性標記粒度比短語結構更粗,只設置了15個大詞類,轉換時一般取短語結構體系中詞性標記的第一個字母即可。如短語結構中的詞性vN、rN、qC、nS、dN、aD等,在句式結構體系下對應的詞性分別為v、r、q、n、d、a等。特殊情況做相應映射即可。短語結構樹庫中的標點符號是用其自身標記的,句式結構樹庫中標點符號統一轉為“w”。采用這種轉換映射處理方式,使得詞性信息粒度變粗了,但并不會丟失詞性的大類信息,而句本位語法體系對詞類的劃分不要求太細,故可以滿足后繼應用的需要。
3.1.2 算法
結合清華短語結構樹庫存儲結構信息,算法1給出了短語結構向句式結構的轉換方法的算法描述。

算法1: 短語結構向句式結構的轉換方法輸入: 短語結構字符串輸出: 句式結構的XML數據
算法流程:
(1) 針對輸入的短語結構形式的字符串,進行數據的預處理操作。將短語結構字符串中的詞性標記符號和標點標記符號轉換為句式結構對應的詞性標記符號和標點標記符號。
(2) 小句獲取。如果是復句,則先將其切分成小句;如果是單句,則可以直接對所輸入的數據進行解析,構造短語結構樹。
(3) 從短語結構樹的根節點出發,逐層掃描短語結構樹。針對掃描到的當前節點,判斷其是否為葉子節點(不計詞語節點,視詞性節點為葉子節點)。
① 如果當前節點不是葉子節點,首先判斷其是否滿足句法處理的要求,若滿足,則將節點的結構標記與句法結構轉換規則中的結構標記進行匹配并進行對應轉換;若不滿足,則結合動態詞模式庫按照詞法轉換規則進行對應轉換。
② 如果當前節點是葉子節點,則繼續判別其父節點的功能標記是否為VP。若其父節點的功能標記為VP,則直接將該葉節點轉換為謂語成分,其轉換得到的句式結構的形式為: “
(4) 生成句式結構的XML文件。
算法1對應的流程如圖6所示。

圖6 轉換算法流程圖
以“美國 T.A.愛迪生發明了白熾燈。”一句為例,其短語結構字符串為 “[zj-XX [dj-ZW [np-DZ 美國/nS T.A.愛迪生/nP ] [vp-PO [vp-AD 發明/v 了/u ] 白熾燈/n ] ] 。/。 ]”。由于該句是單句,所以無需再切分。接著由預處理過的短語結構字符串構造類似于圖 1的短語結構樹,結果如圖7所示。經過算法1各步執行之后,最后生成句式結構的XML文件,如圖 8所示。
為了更加形象地對語料轉換前后的結構進行對比,搭建了一套可擴展的可視化平臺,用于不同句法結構語料的可視化查看。圖 9為兩種結構下的可視化展示界面。在圖 9所示的系統中,不僅能夠可視化查看不同的句法結構,而且可以對轉換后的語料是否正確進行校對,后期將陸續完善相關功能,將短語結構向句式結構、依存結構向句式結構的轉換集成其中。
在測試過程中,經過對轉換結果的初步分析,我們發現句子的長度對轉換正確率有著較大的影響。在對文獻[28]中關于“清華漢語樹庫”語料句子長度分析的基礎上,綜合考慮了語料庫中全部句子的平均句長、簡單句的平均句長及復雜句的平均句長等因素,我們選取了句子長度為20個漢字和句子長度為30個漢字作為斷點,對不同區間的轉換正確率進行了統計。對清華短語結構樹庫中的1 000條文本進行了轉換正確率的測試,通過對轉換結果的校對統計,發現其中轉換正確的句子有929句,總體正確率為92.9%。表 6給出了不同區間的句子長度對應的轉換統計情況。

圖7 數據預處理后生成的短語結構樹

圖8 轉換后的XML數據

圖9 多視圖可視化界面

表6 轉換正確率
由表6可以看出,當句子長度在30個漢字以下時,轉換的正確率都在90%以上。而當句子長度在30個漢字以上時,轉換的正確率則明顯地降低。在1 000句被測試的句子中,30個漢字以下的句子有829句,所以整體的轉換正確率還是比較理想的。實驗結果表明: ①所設計的從短語結構向句式結構轉換的算法是切實可行的; ②轉換結果的總體正確率為92.9%,對于不是太長的句子而言,轉換結果的正確率都在90%以上; ③最終轉換結果的正確率與句子的長度密切相關。如果有些句子比較復雜,大多句子的長度達到了30字以上,其正確率會有明顯的下降。
通過對轉換不準確的語料進行分析,可以看出轉換不準確的原因主要有兩個方面,一是原始標注語料不一致。例如,在短語結構語料中“專家學者”有的標注為“[ np-DZ 專家/n 學者/n ]”,有的標注為“[np-LH 專家/n 學者/n ]”,“小白菜”有的標注為“小白菜/n”,有的標注為“[ np-DZ 小/a 白菜/n ]” 等。二是動態詞模式庫中所收集的結構模式有限。由于動態詞的結構模式繁多,動態詞知識庫中動態詞的結構模式不可能窮盡收集所有的結構模式。因此,在由短語結構向句式結構進行轉換的過程中,該部分內容僅僅靠程序自動地進行轉換則無法達到完全的一致,這更多地依賴于動態詞知識庫應用過程中的不斷完善。
本文從短語結構和句式結構的區別與聯系入手,設計了一種將短語結構自動轉換為句式結構的算法,實現了從短語結構向句式結構的自動轉換。為句式樹庫的構建提供了一種由已有的短語結構樹庫通過自動轉換的方式快速構建樹庫的方法。并以清華短語結構樹庫(TCT)為測試語料,實現了將大規模短語結構語料向句式結構語料的轉換。
另外,本文在設計了從短語結構向句式結構自動轉換算法的基礎之上,還搭建了一套可擴展的可視化系統,用于不同句法結構語料的可視化查看。通過句法結構體系分析的可視化系統,我們可以方便地比較從短語結構向句式結構轉換的正確情況,研究兩種體系下的語料規律。下一步的工作主要是從轉換不準確的語料入手,特別是對于較長的句子,找出影響轉換正確性的因素,進一步提高轉換算法的精度,同時向系統中添加依存結構向句式結構的轉換模塊,實現一套多視圖的漢語樹庫自動轉換系統。
[1] 王躍龍,姬東鴻. 漢語樹庫綜述[J]. 當代語言學,2009,(01): 47-55,94.
[2] 梁欣,臧德滋.自然語言句法分析器自動構造系統[C]. 全國計算機語言系聯合學術會議,1993.
[3] 黨政法,周強. 短語樹到依存樹的自動轉換研究[J]. 中文信息學報,2005,19(03): 21-27.
[4] 李正華,車萬翔,劉挺,等.短語結構樹庫向依存結構樹庫轉化研究[J].中文信息學報, 2008, 22(6): 14-19.
[5] 邱立坤. 多視圖漢語樹庫構建的理論研究與實踐[R]. 北京: 北京大學博士后研究工作報告,2012.
[6] 邱立坤,金澎,王厚峰. 基于依存語法構建多視圖漢語樹庫[J]. 中文信息學報, 2015,29: 9-15.
[7] 周惠巍,黃德根. 短語結構到依存結構樹庫轉換研究[J]. 大連理工大學學報,2010(04): 609-613.
[8] Lin D. A dependency-based method for evaluating broad-coverage parsers[C]//Proceedings of IJCAI. Montreal, Quebec, Canada, 1995: 97-114.
[9] Fei Xia, Martha Palmer. Converting dependency structures to phrase structures[C]//Proceedings of the Human Language Technology Conference(HLT). San Diego, CA, 2001: 1-5.
[10] Hiroyasu Yamada, Yuji Matsumoto. Statistical dependency analysis with support vector machines[C]//Proceedings of 8th International Workshop on Parsing Technologies, 2003: 195-206.
[11] Joakim Nivre, Mario Scholz. Deterministic dependency parsing of English text [C]//Proceedings of COLING,2004.
[12] Tylman Ule, Sandra Kǜbler: From phrase structure to dependencies, and Back[C]//Proceedings of the International Conference on Linguistic Evidence, Tǜbingen, Germany, January , 2004.
[13] 周強. 漢語句法樹庫標注體系[J]. 中文信息學報,2004,18(04): 1-8.
[14] 黎錦熙. 新著國語文法[M]. 北京: 商務印書館, 1992.
[15] 廖序東. 論句本位語法[J]. 北京師范大學學報,1990,(02): 7-14.
[16] 黃昌寧,李玉梅.從樹庫的實踐看句本位和中心詞分析法的生命力[J].北京師范大學學報(社會科學版),2010,(5): 53-58.
[17] Jing He, Weiming Peng, Jihua Song, et al. Annotation schema for contemporary Chinese based on JinXi Li’s grammar system[C]//Proceedings of the 14th Chinese Lexical Semantics Workshop(CLSW2013), LNAI,Volume 8229, Springer,2013: 668-681.
[18] 彭煒明,宋繼華,王寧. 基于句式結構的漢語圖解析句法設計[J]. 計算機工程與應用,2014,06: 11-18.
[19] 彭煒明,宋繼華,俞士汶. 中文信息處理的詞法問題——以句本位語法圖解樹庫構建為背景[J]. 中文信息學報,2014,28(02): 1-7.
[20] 彭煒明. 析句圖解法及其信息化[J]. 暨南學報(哲學社會科學版), 2014, 36(7): 106-112.
[21] 彭煒明. 句本位語法樹庫構建及其在對外漢語教學中的應用[R]. 北京: 北京大學博士后研究工作報告,2014.
[22] 楊天心,彭煒明,宋繼華. 基于句式結構的高效語法圖解標注系統[J]. 中文信息學報, 2014,28(04): 43-49,67.
[23] 何靜,彭煒明,宋繼華. 漢語句式結構的數字化——句本位語法與“圖解法”改造[J]. 北京師范大學學報(自然科學版),2016,(04): 413-419.
[24] 朱德熙. 語法講義[M].北京: 商務印書館,1999.
[25] 葛本儀. 漢語詞匯研究[M]. 北京: 外語教學與研究出版社, 2006.
[26] 郭冬冬.句本位樹庫構建中的動態詞及其結構模式分析 [D].北京: 北京師范大學碩士學位論文,2016.
[27] Dongdong Guo, Shuqin Zhu, etc. Construction of the dynamic word structural mode knowledge base for the international Chinese teaching[C]//Proceedings of the 16th Chinese Lexical Semantics Workshop(CLSW2016), 2016: 251-260.
[28] 王東波,謝靖. 基于清華漢語樹庫的有標記聯合結構統計分析[J]. 現代圖書情報技術,2010(04): 12-17.