999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

適應多領域多來源文本的漢語依存句法數據標注規范

2018-11-16 07:57:42郭麗娟李正華
中文信息學報 2018年10期
關鍵詞:句法語義規范

郭麗娟,李正華,彭 雪,張 民

(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)

0 引言

依存句法分析的目標是給定輸入句子,構建一棵依存句法樹,捕捉句子內部詞語之間的修飾或搭配關系,從而刻畫句子的句法和語義結構[1]。圖1為一棵依存句法樹的示例。其中,$表示一個偽詞,指向句子根節點。作為依存樹的最基本單元,一條依存弧包含三要素: 核心詞(父親)、修飾詞(兒子)和依存關系標簽。例如,(我←有, subj)這條依存弧表示“有”為核心詞,“我”為修飾詞,依存關系標簽為subj(主語)。在此約定依存弧的方向由核心詞指向修飾詞。一棵合法的依存樹必須滿足兩個條件: ①單核心,即每個詞只有一個核心詞; ②連通,即$可沿弧的方向到達任何詞。與短語結構句法相比,依存句法的優點是: ①結構扁平,形式簡單,容易理解,因此更適合普通人標注; ②適用于不同語言; ③通過依存關系標簽可以直接表達詞語之間的句法語義關系。因此,在過去十多年里依存句法分析得到越來越多的關注。

圖1 依存句法樹示例

近幾年來,隨著深度學習在自然語言處理領域的快速發展,依存句法分析準確率也有了顯著提高。以CoNLL-2009漢語標注評測數據集為例,基于傳統離散特征的模型最好準確率(LAS)為78.51%[2]。斯坦福大學Chen和Manning提出一個基本的利用前饋神經網絡進行移進歸約分類的依存句法分析方法,準確率為77.29%[3]。Zhou等[4]在Chen和Manning的方法中增加了全局正則化和概率優化,這一思路后來被谷歌采用并做了更好的網絡優化,準確率達到80.85%[2]。斯坦福大學Dozat和Manning提出在基于圖的依存句法分析中,利用深層雙線性神經網絡進行依存弧分值預測,準確率達到驚人的85.38%[5]。

雖然基于深度學習的依存句法分析方法在標準測試集上取得了85.00%的準確率,然而眾所周知,當處理有別于訓練數據的文本時,依存句法分析的準確率會急劇下降。2012年谷歌組織的parsing the web評測,面向郵件、博客、問題答案、新聞組、評論五個來源的英文網絡文本,標注了小規模評測數據,命名為Google English Web Treebank。評測結果發現,在英文新聞文本測試集上最高準確率為91.88%,而在英文網絡文本上的準確率只能達到83.46%[6]。谷歌2016年基于神經網絡的方法在英文新聞文本測試集上的準確率為92.79%,在英文網絡文本上的準確率為87.54%,仍然有約5%的差距[2]。

和英文相比,面向漢語網絡文本的依存句法樹構建進展更為遲緩,研究工作由于缺少一定規模的訓練和評價數據而擱置。

基于上面的討論,我們認為目前依存句法分析的最大挑戰不是算法和模型的創新[注]如何將語義知識,如動詞和名詞之間的配價關系,加入到深度學習模型中,也是很有挑戰且非常有價值的研究方向。,而是如何提高不同類型的網絡文本上的依存句法分析準確率。考慮到自動領域移植方面的研究進展緩慢,我們認為最行之有效的方法就是數據標注。即對不同類型的網絡文本,分別標注一定規模的訓練和測試語料。

然而,現階段依存句法樹庫的構建卻存在很多的問題,主要體現在以下兩個方面。

(1) 目前學術界廣泛使用的依存句法樹庫大部分是由短語結構樹庫基于規則自動轉換而來。知名度很高的Universal Dependency Treebank(UDT)[注]http://universaldependencies.org/treebanks/zh.cfl/index.html中包含了幾十種語言的依存句法樹庫。然而,大部分語言都只有短語結構句法樹庫,需要通過基于規則的方法自動將短語結構轉成依存結構,同時指定依存關系標簽。經過仔細研究,我們認為UDT的依存句法結構和關系標簽并沒有考慮人工標注的需求,無法作為一個嚴格的標注規范指導人工進行高質量的標注。例如,在45種依存關系標簽中,存在一些實際標注中很難區分的關系標簽。

(2) 目前還沒有一個公開、完整、系統的漢語依存句法樹標注規范。哈爾濱工業大學在Linguistic Data Consortium (LDC)[注]https://catalog.ldc.upenn.edu/LDC2012T05上發布了一個5萬句的漢語依存句法樹庫,本文稱之為 Harbin Institute Technology Chinese Dependency Treebank (HIT-CDT)[7]。邱立坤、金澎等標注了一個大規模的漢語依存句法樹庫,但是目前還沒有公開發布這個數據,本文稱之為Peking University Chinese Dependency Treebank (PKU-CDT)。同時,他們對HIT-CDT標注規范進行了擴充,以便將依存結構轉為短語結構[8]。然而,這兩個樹庫并沒有公開發布一個完整、系統的標注規范。

本文提出了一個新的適應多領域多來源文本的漢語依存句法數據標注規范。按照此規范,我們已經標注了約3萬句依存句法樹庫,并將其命名為“Soochow University Chinese Dependency Treebank (SU-CDT)”。最新的標注規范(不斷更新)和最新樹庫(不斷擴大)我們將發布在http://hlt.suda.edu.cn/index.php/SUCDT。

1 編制標注規范的考慮因素

我們的目標是面向多領域多來源文本,不斷積累、構建大規模的依存句法樹庫。為了達到這個目標,我們必須制定一個科學(滿足語言學理論)、系統(條理清晰、容易掌握)、完整(覆蓋各種語言現象)的標注規范,作為整個工作的基礎,從而提高不同標注者之間的一致性,保證標注質量。本文第二作者于2010年夏,主持了哈工大HIT-CDT樹庫的整個標注過程。本文提出的標注規范充分借鑒了哈工大標注規范,同時吸取了HIT-CDT標注過程中的經驗教訓。在此,標注規范編制的初衷和考慮因素總結如下:

(1) 針對漢語,設計一個盡可能精簡的依存關系標簽集合。依存關系標簽數量過多,會大大增加標注難度。例如,目前UDT的依存關系標簽有40多種。但是我們仔細研究后認為,UDT中關系標簽存在兩個問題: ①主要面向英語等印歐語系語言設計;②關系標簽分類過細,實際標注時區分難度很大。哈工大標注規范一共只有14種依存關系標簽,我們進一步精簡。例如,哈工大規范中左附加(LAD)和右附加(RAD),只是根據依存弧的方向區分,因此合并為一個附加關系(adjct)。

(2) 設計一個完整的依存關系標簽集合,充分刻畫漢語的不同語言現象。我們在哈工大標注規范的基礎上,增加了一些關系,如app(稱呼)、exp(進一步解釋)、frag(片段)等,以刻畫不同語言現象(口語化、不規范表達,甚至病句)。目前我們的規范包含了20種依存關系標簽,如表1所示。

表1 依存關系標簽匯總表

(3) 以謂語為核心,盡可能豐富地刻畫復雜句子內部結構。哈工大規范使用一個獨立結構關系(IS)來標注并列謂語之間的關系。我們將其細化為sasubj(同主語)、sasubj-obj(同主同賓)和dfsubj(不同主語)三種依存關系標簽,從而更深入地表示句子內多個謂語之間的關系,并為上層語義分析提供支持。

(4) 適應不同分詞粒度。由于漢語中由詞素組成詞,由詞組成短語時,界線很模糊,因此學術界對于分詞的粒度沒有一個統一的界定。我們在規范制定過程中充分考慮了這一因素,并給出一些不同分詞粒度下的標注示例。例如,“走向世界”中,如果“走向”作為一個詞,那么“世界”為賓語;如果作為兩個詞,那么“世界”是“向”的介詞賓語,“向”作為補語修飾“走”。

(5) 盡可能準確地刻畫語義結構。在滿足規范中闡述的具體規則的前提下,選擇最能準確表達語義關系的依存樹。如圖2所示,“預計”的主語省略,而不是“教學樓”,將“教學樓明年竣工”標注成“預計”的賓語從句,這樣才最能準確表達語義。這種存在交叉弧的依存樹又稱為非投影樹。我們發現,由于漢語語序靈活,一小部分句子的確需要用非投影樹標注。

圖2 非投影樹示例

(6) 當兩種標注都滿足規范,且符合語義時,我們一定會明確規定一個優先順序,幫助標注者選擇,從而有效提高標注一致性。

隨著標注實踐的進行,我們會深入研究實際標注中遇到的問題,積極與其他專家交流,不斷學習語言學論著,持續完善和更新我們的規范。

2 依存關系標簽詳細介紹

此規范目前包含了20種關系標簽,分為三個大類:

(1) 謂語對應的依存關系標簽: root, sasubj-obj, sasubj和dfsubj,此類依存關系標簽全部為右弧,用于標注主要謂語關系;

(2) 單句內部主干關系標簽: subj, subj-in, obj, pred, att, adv和cmp,用于標注漢語句子中的主謂賓定狀補關系結構;

(3) 單句內部其他關系標簽: coo, pobj, iobj, de, adjct, app, exp, punc和frag,用于輔助標注漢語句子的其他關系結構。

以下將對這些依存關系標簽逐一展開介紹。

2.1 謂語對應的依存關系標簽

漢語中謂語是用于說明或陳述主語的動作或狀態。動詞、形容詞、名詞、介詞、主謂結構等都可以充當謂語。

root(sentence root,根節點): 規定句子的第一個主要謂語以root關系修飾偽節點$。因為句子是可以嵌套的,即可以有主語從句、賓語從句、定語從句等,所謂“主要謂語”是指句子最頂層的一個或多個謂語,而不是在從句中的謂語。

sasubj-obj(same subject and object,同主語同賓語): 規定當兩個同級的謂語共享主語和賓語時,后一個謂語以sasubj-obj關系修飾前一個謂語。

sasubj(same subject,同主語): 規定當兩個同級的謂語共享主語但不共享賓語時,后一個謂語以sasubj關系修飾前一個謂語。

dfsubj(different subject,不同主語): 規定當兩個同級的謂語具有不同主語時,后一個謂語以dfsubj關系修飾前一個謂語。

2.2 單句內部主干關系標簽

用于標注主謂賓定狀補結構。

subj(subject,主語): 主語是謂語的描述對象、施事或受事。由于這三種情況屬于語義的范疇,并且區分起來對標注者的要求過高,因此大多數情況下我們不對其進行詳細區分,具體介紹見第4節中對主語和賓語的明確規定。

subj-in(subject inside a subject-predicate pr-edicate,主謂謂語中的內部主語): 句子中一個主謂短語整體作為謂語,稱為主謂謂語[9]。以subj-in專門標注主謂謂語的內部主語。

obj(object,賓語): 和主語類似,賓語是謂語的受事或施事,但通常位于謂語的后面。

pred(predicate,謂語): 用來刻畫漢語中獨特的兼語結構,如圖1所示。

att(attribute modifier,定語): 定語是名詞或代詞的修飾成分,通常位于核心詞的前面。

adv(adverbial modifier,狀語): 狀語是動詞或形容詞的修飾成分,通常位于核心詞的前面。

cmp(complement modifier,補語): 補語是動詞或形容詞的修飾成分,通常位于核心詞的后面。

2.3 單句內部其他關系標簽

coo(coordination construction,并列): 多個句法功能相同的詞(非謂語)并列在一起,通常中間會用“和”“與”或頓號連接,我們規定后一個詞以coo關系修飾前一個詞,形成波浪狀。

pobj(preposition object,介賓): 介詞和賓語構成介賓短語時,賓語用pobj關系修飾介詞。

iobj(indirect-object,間賓): “給/送/授予/稱呼/叫”等動詞后面可以跟兩個名詞性賓語,為了區分,第一個賓語稱為間接賓語,以iobj關系修飾動詞。

de(de-construction,“的”字結構): “的”字后面的名詞或代詞明顯省略的情況,例如,“我喜歡紅色的”,修飾詞“紅色”以de關系修飾“的”。

adjct(adjunct,附加成分): 句子中沒有實際意義的、只是為了讓句子結構完整、或者講起來更有韻味(抑揚頓挫)的詞,統一標注為附加關系。

app(appellation,稱呼): 口語中句子最前面對人的稱呼語,以app關系修飾句子第一個主要謂語。

exp(explanation,進一步解釋): 漢語中常用括號中的內容或者冒號后面的內容,對前面的詞、短語或句子進一步解釋說明,規定解釋性的內容以exp關系修飾被解釋的內容。

punc(punctuation,標點): 規定標點以punc關系修飾核心詞。

frag(fragment,片段): 網絡文本中出現的不符合語法、支離破碎的病句,后一個成分以 frag關系修飾前一個成分,形成波浪狀。

3 標注規范的幾點重要創新

同主語關系: 從句法的角度看,謂詞是句子中最重要的詞。和英語不同,漢語中可以使用標點符號直接將幾個謂語句連成一個句子。如何確定多個謂語之間的搭配關系,是標注規范必須妥善回答的問題。哈工大規范使用獨立結構關系(IS)和并列關系(COO)來標注多個謂語之間的關系,然而實際標注中很難把握其界線,標注者甚至需要考慮多個謂語句之間的語義邏輯關系,導致很多分歧。

根據目前學術界的標準,多個謂語詞之間的邏輯語義關系,屬于語義和篇章分析的范疇,因此一般作為語義和篇章分析任務的處理對象。我們的規范的主要目標是: 在保證標注一致性和質量的前提下,充分刻畫句子的句法結構。而多個謂語之間的邏輯語義關系確實太復雜了,因此我們的規范明確規定不考慮多個謂語句之間的語義邏輯關系,僅僅考慮句法關系。根據多個謂語是否共享主語和賓語,細分出三種依存關系標簽: sasubj、sasubj-obj和dfsubj,以便更深入地表示多個謂語之間的關系。這樣不僅可以標注出句子的謂語信息,同時為上層語義標注和分析提供支持,示例如圖3所示。

我們規劃未來在目前句法結構的基礎上,進一步標注語義信息,即作為一個新的語義標注任務,制定規范,進而人工標注。而不是嘗試在一個任務下把所有的信息都標注上。

內部主語關系: 趙元任先生提出“漢語句子里主語和謂語的語法意義是主題(topic)和述語(comment),而不是施動者(actor)和動作(action)”的觀點[10],引發了漢語研究的新一輪思考。石定栩先生的文章中講到“大部分語言學家主張主題和主語都是漢語句子的成分,而且具有不同的句法地位(省略原文中的引用)。不過,對于主題和主語的定義及其在句法過程中的地位,則還沒有定論。常見的做法之一是將主題或主語的功能和分布情況一一列舉。然后以這些功能和分布作為標準,判斷某一成分是主語還是主題。”[11]

從以上討論可以看出,漢語中主題和主語的區分,是非常困難的事情,需要很強的語言學專業背景和細膩的語感。哈工大標注規范采用了回避和簡化的策略,將主題也當作主語,允許一個謂語具有多個主語,如圖4所示。我們延續哈工大標注規范的策略,不區分主題和主語,從而保證標注者的一致性。

圖4 哈工大規范雙主語標注示例按照哈工大規范,“慌張”對應兩個主語“奶奶”和“心里”,并且將謂語“慌張”和“打轉”以COO標注為并列。

俞士汶先生等在其《現代漢語語法信息詞典詳解》前言(第2版)中提到: “在主謂結構中,不僅主語可以由另一個主謂結構來充任,而且謂語也可以由另一個主謂結構來充任(這就形成了所謂的‘主謂謂語句’或‘主謂謂語短語’)。”[9]這一觀點在朱德熙先生的《語法講義》[12]中也得到印證。受這種觀點的啟發,我們提出subj-in這個依存關系標簽,專門標注主謂謂語的內部主語。雖然我們不刻意區分主題和主語,但在很多情況下,subj-in可以標注出主謂謂語的內部主語(一般是謂語詞的主語),而subj可以標注出主謂結構的主語(一般是句子的主題)。如圖5所示,“奶奶”實際上是整個句子的主題,同時也是主謂謂語“心里很慌張”和“淚水在打轉”的主語;“心里”是“很慌張”這個謂語詞的主語;“淚水”是“打轉”這個謂語詞的主語。對比圖4和圖5,我們認為subj-in帶來幾點優勢: ①將主謂謂語動詞的主語和句子的主題區分開;②方便刻畫多個謂語的同主語關系;③體現主謂謂語整體作為一個組塊的信息(傳統依存結構實際上沒有組塊信息)。

圖5 蘇大規范雙主語標注示例按照我們的規范,“奶奶”是主謂謂語“心里很慌”和“淚水在打轉”的主語,并且以sasubj將兩個主謂謂語標注為同主語關系;“心里”是“很慌張”這個謂語詞的主語;“淚水”是“打轉”這個謂語詞的主語。

自從增加了subj-in這個依存關系標簽后,我們標注實踐時發現,符合“N1+N2+謂語”結構的句子(其中N1和N2分別表示兩個名詞),通常都適合標注為含有subj-in結構(N1←謂語, subj; N2←謂語, subj-in),因此從一定程度上驗證了主述位理論的合理性。然而,這樣的句子同樣也可以按照傳統的att結構標注(N1←, att; N2←謂語, subj),兩種標注之間的界線很難區分,我們既不能規定全部標注為att,也不能全部標注為subj-in。為了提高標注結果一致性,我們明確規定當兩種標注方法都適用時,只有下面兩種情況標注為 subj-in :

(1) 標注為 subj-in,可以進一步捕獲同主語關系,如圖5所示;

(2) 標注為 subj-in,可以避免交叉弧的出現,如圖6所示。

圖6 標注subj-in避免交叉弧示例若標注為(公司←效益, att ;確實←不佳, adv),會產生交叉,所以標注為subj-in。

除以上兩種情況外,我們的規范將這種結構標注成(N1←, att;N2←謂語, subj)

對主語和賓語的明確規定: 我們了解到,從語言學角度上看,“施事”和“受事”屬于語義范疇,而主語和賓語屬于句法層面,并且目前句法分析標注規范通常都只標注到句法層面。我們在哈工大依存樹庫標注中發現,對主語進行語義上的細分有時候非常困難,很難給出一個統一的標準。例如“經濟發展得很快”這個句子中,有的標注者認為 “經濟”是“發展”的對象(即受事),有的標注者則認為“發展”是對“經濟”的狀態的描述(即描述對象),標注一致性很低。因此我們要求標注者根據焦點詞和謂語的相對位置,選擇subj或obj。也就是說,在實際標注過程中,標注人員大多數情況下不用區分“施事”和“受事”,直接將謂語前面的作為主語,謂語后面的作為賓語,如圖7所示。

圖7 對主語和賓語的明確確定示例1

當“施事”和“受事”同時在謂語的左邊或右邊出現時,為了避免一個謂語有兩個主語或兩個賓語,我們要求標注者嚴格區分“施事”和“受事”,將“施事”標為主語,“受事”標為賓語,如圖8所示。我們發現,這種情況在實際標注中遇到的概率非常低,并且標注者很容易區分 “施事”和“受事”,歧義很小,一致性很高。

圖8 對主語和賓語的明確確定示例2

兼語結構的標注: 兼語結構(V1+N+V2)是漢語中的一種非常獨特的語法結構,其中N是V1的賓語,同時又是V2的主語。為了準確表達這種結構,我們引入pred這個關系標簽,打破主語修飾謂語的慣例,讓謂語V2直接修飾主語N,如圖1所示(有→同學, obj; 同學→叫, pred)。和HIT-CDT中(有→同學, DBL; 有→叫, VOB)的標注形式相比,我們認為pred的引入,讓語義上更為緊密的N和V2直接連接,因此是一種更好的表達形式。

復合名詞短語內部結構的標注: 漢語中有很多形如“W1W2W3”的復合名詞短語,名詞“W3”是整個短語的核心詞,難點在于其內部的結構如何標注,即需要確定(W1←W2, att)或(W1←W2W3, att),這里可以把“W2W3”看成一個詞。我們的規范首次明確規定了復合名詞內部標注的優先級規則: 仔細分析內部的語義搭配強度(W1←W2W3, att) vs.(W1←W2, att);如果兩個標注強度沒有明顯的差別,則優先標注成(W1←W2W3, att),如圖9所示;如果兩個標注強度有明顯的差別,則按照標注強度標注,如圖10所示。

圖9 復合名詞短語內部標注示例1(全國←常委會, att ;人大←常委會, att)的修飾強度和(全國←人大, att ;人大←常委會, att)沒有明顯的差別,所以規定標注為前者。

圖10 復合名詞短語內部標注示例2(俄羅斯←總統, att ;總統←普京, att)的修飾強度要高于(俄羅斯←總統, att ;俄羅斯←普京, att),所以規定標注為前者。

4 漢語依存句法樹標注規范的標注實踐

為了更好地支持依存句法分析樹的標注,我們自2014年起開發了一個標注系統,并根據實際需求不斷完善。此標注系統中主要設計了三種核心角色: ①標注人員,標注分配的任務,也可以對專家的答案提出投訴;②審核專家,對兩個標注人員標注不一致的任務進行審核,并確定唯一答案。需要注意的是,同一個標注任務的兩個標注結果中只要有一條依存弧不相同,就會觸發審核。審核界面中會把不相同的地方突出出來,以方便標注人員對比;③高級專家處理標注人員的投訴任務,確定最終答案。

圖11給出了一個任務(句子)的標注流程。首先,標注系統會將一個任務隨機分配給兩個標注人員標注。標注完成后,如果兩個標注結果完全一致,那么就認為已確定答案,流程結束。如果兩個標注結果至少有一條弧不一致,就會觸發審核機制,系統會將這個任務隨機分配給一位專家進行審核,確定唯一答案。進而,標注系統會將審核過的答案,反饋給出錯的標注人員進行學習。學習過程中,如果標注人員對答案不認可,可以提出投訴。如果沒有出現投訴,那么就認為已確定答案,流程結束。如果出現投訴,系統會將投訴任務隨機分配給一位高級專家,確定唯一答案。標注人員投訴、審核專家審核及高級專家處理投訴時,可以把各自的理由寫出來,從而實現非常有效的異步溝通。除此之外,我們還會在線下通過在線聊天工具就一些問題進行交流、搜集反饋、修改答案、完善規范。

圖11 標注流程圖

為了最大程度降低人工付出,一方面我們開發了一個基于瀏覽器的在線標注系統,減輕了數據標注管理者的負擔;另一方面對于選取的數據,我們采用局部標注的方式,即只選擇句子中模型置信度較低的一定比例的詞,進行標注[13],從而節省標注時間和成本,并且增強標注者的注意力。同時,在一批新的數據批次中我們會將以前標注過的有答案的任務作為地雷混入,我們稱之為地雷機制。我們放入地雷有兩大作用: ①自動評價標注人員的標注情況;②進一步檢查之前的標注結果,以便提高標注答案質量。標注的過程中,隨著規范的更新,也需要更新以前的標注結果。

總之,我們希望標注系統設計和標注流程管理處處從提高質量的目標出發,并且最大程度減少數據標注管理者的工作,將數據管理盡可能科學化、系統化,為大規模數據標注提供便利。

為了持續標注大規模的依存句法數據,我們組織了幾十位蘇州大學本科生作為兼職數據標注人員。首先我們向標注人員詳細介紹我們的規范以及標注系統的使用。進而,標注人員系統學習標注規范,并且在標注系統上模擬訓練。最后,標注人員進行真實數據標注工作。經過一定時間考察,我們會選擇標注質量高的標注人員作為審核專家。到目前為止我們通過標注系統共標注了約3萬句依存句法數據,數據的來源見表2。

表2 數據來源說明表

我們通過對句子的標注結果進行統計與分析發現,和最終答案相比,標注者的平均依存弧準確率為87.6%,標注者之間的平均依存弧一致率為76.5%。而標注者之間平均句子級別的一致率只有43.7%,即56.3%的句子需要審核專家進一步檢查。這表明了句法標注工作的困難性,以及為了保證標注質量,需要嚴格雙人標注的重要性。

5 結語與展望

本文提出了一個新的適應多領域多來源文本的漢語依存句法數據標注規范,以指導大規模實際標注工作。該規范考慮了多方面的因素,同時參考一些經典的語言學著作,設計了20個依存關系標簽,適應于多領域多來源文本的漢語依存句法數據標注,且可以盡可能準確地刻畫大部分漢語文本的句子級句法結構;同時,該規范對很多難以理解并區分的語言現象進行了比較詳細的總結。實際標注結果表明,根據我們的標注規范,可以達到較高的標注一致性。

未來我們會按照該規范持續標注多領域多來源文本,提高依存句法分析準確率,也為領域移植研究工作提供數據支持。同時,我們會總結實際標注過程中遇到的問題,不斷完善和更新。目前的規范可以滿足表2中數據的標注需求,但是未來如果遇到規范不能涵蓋的語言現象,我們會增加新的依存關系標簽,擴充我們的規范。

猜你喜歡
句法語義規范
來稿規范
來稿規范
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
PDCA法在除顫儀規范操作中的應用
述謂結構與英語句法配置
來稿規范
語言與語義
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 亚洲午夜国产片在线观看| 国产真实二区一区在线亚洲| 青青久久91| 成人国产一区二区三区| 免费国产在线精品一区| 亚洲美女AV免费一区| 国产亚洲精品无码专| 日韩国产 在线| 五月天综合网亚洲综合天堂网| 国产最新无码专区在线| 98精品全国免费观看视频| 亚洲AV无码不卡无码| 99精品福利视频| 国产精鲁鲁网在线视频| 亚洲热线99精品视频| 一本一道波多野结衣av黑人在线| 人人爽人人爽人人片| 亚洲美女一级毛片| 亚洲最新在线| 97影院午夜在线观看视频| 伊人激情综合| 91久久天天躁狠狠躁夜夜| 亚洲Aⅴ无码专区在线观看q| 欧美视频免费一区二区三区| 国产精品手机视频| 婷婷亚洲最大| 精品福利国产| 国产视频入口| 国产精品第页| 国产精品污污在线观看网站| 国产超碰一区二区三区| 免费毛片全部不收费的| 996免费视频国产在线播放| 成人国产免费| 99视频在线免费| 色天天综合| 亚洲国产中文在线二区三区免| 国产精品任我爽爆在线播放6080 | 91网红精品在线观看| 久久这里只有精品国产99| 国产成人精品一区二区三在线观看| 国产网站一区二区三区| 国产av无码日韩av无码网站| 91偷拍一区| 青青青草国产| 99久久精彩视频| 精品一区二区无码av| 日韩资源站| 韩国自拍偷自拍亚洲精品| 人人看人人鲁狠狠高清| 欧美日韩精品综合在线一区| 亚洲Aⅴ无码专区在线观看q| 97在线碰| 热re99久久精品国99热| 欧美a在线视频| 九色综合伊人久久富二代| 久久www视频| 亚洲无限乱码一二三四区| 97国产精品视频自在拍| 四虎成人在线视频| 国产美女无遮挡免费视频网站| 国产一区二区色淫影院| 国产精品亚洲五月天高清| 久久久久人妻精品一区三寸蜜桃| 国产精品亚洲天堂| 日本一区二区三区精品视频| 欧美一区精品| 真人免费一级毛片一区二区| 日本黄色a视频| 亚洲精品男人天堂| 久久这里只有精品国产99| 在线99视频| 人妻丰满熟妇αv无码| 99久久亚洲精品影院| 永久天堂网Av| 国产激情第一页| 亚洲男人天堂久久| a亚洲天堂| 亚洲第一精品福利| 一本大道香蕉高清久久| 欧美午夜一区| 狠狠综合久久|