面向智能服務系統的時間語義理解

2018-05-21 00:49:59賈圣賓

計算機應用 2018年3期

賈圣賓，向陽

(同濟大學電子與信息工程學院，上海 201804)

0 引言

時間是客觀存在的，但在人類日常生活中，時間的表達需要借助自然語言描述出來。時間信息是自然語言表達中必不可少的一種語義信息。時間語義理解是自然語言處理的重要部分。

時間語義[1]即為描述事件發生、發展的時序信息。時間語義理解是將自然語言描述的時間語義信息以計算機可以處理的方式進行量化表示。本文將時間語義理解過程定義為，經過時間信息的抽取、映射和對時間語義的建模等一系列處理后，構建時間語義模型，從而結構化表達時間信息與語義理解結果。時間語義理解過程描述如圖1所示。

如何有效地計算和理解自然語言中的時間語義，在人工智能領域，特別是智能服務行業具備重要的研究價值，如個人事務助理、智能聊天機器人等。智能服務系統中的自然語言文本富含時間信息，獲取其時間語義，準確理解服務需求的時間語境，對智能服務的制定與提供非常關鍵。

圖1 時間語義理解模型 Fig. 1 Model of temporal semantic understanding

這些時間信息具有如下特點：1)未來傾向性，服務文本中的時間大多是一個未來的時間，是對需求服務的時間條件的表達。2)獨立性，服務消息文本一般為短句子，簡要明確，幾乎不存在句群的聯合指代現象。3)實時性，消息文本具有實時特點，參考時間容易確定，一般為系統當前時間。不同于其他類型文本如新聞文本，發布具有滯后性，參考時間難以確定。4)明確性，服務消息中的時間短語表達往往可以明確一個時間點或時間段，但如“每天”“年年”這種表示頻率的時間短語因不能明確地表達服務的時間需求，因此很少出現在智能服務系統。本文方法的研究是在上述服務信息文本時間信息特點基礎上開展的。

人們的時間概念具有一致性，但對時間概念的描述卻因語言表達的多樣化而使得時間信息的表現形式具有靈活性和多樣性[2]，從而使得時間語言理解具有很大難度。目前時間語義理解方面的研究水平較低。文獻[3]以概念網絡為基礎，構建了一種自然語言時間語義模型。文獻[4]利用時間語法詞典和時間本體庫實現時間語義自動提取及時間語義結構填充。文獻[5]提出了一種多層次時間語義表達結構和一種通用時間語義計算方法。時間語義理解是一個系統、復雜的研究任務。許多學者僅致力于其中子模塊，如時間信息抽取、時間信息映射等的研究。

時間信息抽取一般采用基于規則的方法或基于序列標注的方法。基于規則的方法，通過手工制定規則來識別時間短語[6-10]，如：文獻[11]手工定義了24種規則模板匹配時間表達；文獻[12]根據人工構建的啟發式規則抽取時間短語并分解為一系列的時間基元，構建時間基元的規則庫，以此抽取復雜的時間表達。此類方法使用簡單，易于理解，但需要預備的詞典和專家知識，工作量大，很難構建全面的規則庫。基于序列標注的方法[13]，如采用條件隨機場[14-17]或最大熵模型[18-19]的序列標注機器學習算法，構建完善的特征向量是關鍵，如采用詞匯特征[15-16]、位置特征[15]、依存特征[16, 19]、語義角色特征[14]等。基于序列標注的方法效果較好，但是結果好壞過分依賴于預先手工標注的訓練語料的質量，還存在數據稀疏和詞序依賴等問題。

時間信息映射方面，由于時間信息表現形式靈活多樣，導致中文時間信息映射存在諸多難點，如相對時間轉化問題、不完整時間補全問題等，導致時間短語規范化效果欠佳[8,20-21]。文獻[10]利用6種時間轉換算子及時間沖突處理算子輸出其時間的規范化格式。文獻[20]利用時間表達式模式及時間詞典、近義詞詞典，采用模式匹配的方法把語料中的時間映射并轉化為確定的時間值，需要制定精致的詞典。

本文分析服務自然語言文本中時間信息表達規律，創建一套面向智能服務系統的時間語義理解模型，該模型研究主要從時間信息的抽取、映射和時間語義建模三個模塊展開，最終設計時間語義模型表達時間語義信息，為一般的智能服務系統提供一種通用的時間表達模式。

1 基本概念

時間信息的表現形式具有靈活性和多樣性。1)同一個時間可以有多種表述形式，比如“2017年10月1日”，可以簡寫成“2017-10-01”，也可以寫成“國慶節”“十一”。2)時間語義信息會和上下文以及句義信息結合在一起，時間短語附加某些介詞或方位詞組合表達不同的時間語義。如“在12點時”表達了一個時點語義信息，“在12點以后”表達了一個時段語義信息。3)用戶對時間表述時參照基準不一產生“絕對時間”和“相對時間”兩種，比如，絕對時間“2005年9月30日”在某些語境下可以描述為相對時間“明天”。絕對時間可明確地表示時間軸上確切的一點。相對時間需要一個參照點才能表達明確的時間信息，在不同的參照點下，相對時間所表達的時間信息不同。參考時間可以是消息文本內容時間，也可能是當前時間 (即消息發布時間)。

時間信息主要以時間短語的形式出現。時間短語可描述兩類時間對象：時點時間和時段時間，映射到時間軸上分別用點和區間來表示。時點時間表示某個事件發生的特定時間，可以用來回答“什么時候”的問題，也可以為事件發生的時間定位。時段時間表示具有起點、終點的或長或短的一段時間。時段大多可以回答“多長時間”的提問，可以標注事件可能發生的時間域。

時間短語是由時間基元構成的，時間基元即為時間要素的基本單元，如“2017年6月20日8點12分”由2017年、6月、20日、8點、12分5個時間基元構成。不同的時間基元表示不同的時間粒度。考慮服務系統中常用的時間信息，本文涉及5種不同的時間粒度，由粗至細分別為年(year)、月(month)、日(day)、時(hour)和分(minute)。

2 時間語義理解模型

2.1 時間信息抽取

本文設計了一個基于啟發式策略的自動抽取時間信息算法。該方法并不依賴于時間觸發詞詞典，無需人工制定規則模板，而是根據分詞詞性去抽取候選時間短語，通過限制策略過濾低質量時間短語，可以很好地解決時間表達模板的識別歧義問題。時間表達模板是最大化相鄰時間單元的序列，即最長時間名詞短語，通過啟發式探索時間短語兩端的介詞和方位詞，反復迭代，靈活地判斷時間表達式的上下邊界。自動抽取算法如圖2所示。

圖2 時間信息自動抽取算法 Fig. 2 Automatic extraction algorithm for temporal information

由于高質量的服務文本語料較少，本文收集大量網絡新聞文本以及文學作品等，這些文本中也包含大量的時間信息，可以起到一定的補充作用，待處理文本共約10 GB。為了避免分詞與詞性標注錯誤帶來的干擾，本文利用集成學習的思想，利用四種分詞工具對文本分別進行處理。

候選時間表達模板庫中存儲大量的候選時間短語，每個時間短語以三元組的數據結構存儲，包括時間短語自動轉化而來的時間短語正則表達式、頻數、時間基元的正則表達式三部分。候選介詞詞庫存儲二元組形式的數據，包括介詞本身和頻數；同理，候選方位詞詞庫存儲由方位詞本身和頻數構成的二元組。

經過上述自動抽取過程后得到了候選的時間模板庫、介詞庫以及方位詞庫。庫中各條記錄的統計頻數越大，說明其越具有普遍性，轉化為模板的正確率越高。因此，基于頻數的過濾策略可以很好地降低抽取錯誤率，提高庫的質量。根據各自的頻數，低于設定閾值的將被過濾。更進一步，將過濾后的候選時間表達模板分解的時間基元構建“候選時間基元庫”，并為每個時間基元統計頻數，將頻數低于閾值的過濾。不同的時間基元所表達的時間粒度不同，然后將這些時間基元進行聚類，聚類主題包括9大類，如表1所示。聚類方法采用K均值聚類算法，這里K取值9，各聚類中心點初始化時，分別指定為各主題中的一個實例。此外，未正則化的時間基元是一個個的名詞，采用word2vec將它們轉化為詞向量，從而輸入聚類模型。根據聚類結果，將離散的時間基元篩除，相應地把包含該時間基元的候選時間表達模板刪除。經過雙重過濾之后，可以得到高質量的時間信息庫。

表1 時間基元聚類主題分類Tab. 1 Clustering theme classification of temporal unit

2.2 時間語義模型

時間語義模型是一種時間信息規范表達與時間語義表示的數據組織形式，目的是將服務文本中的時間信息抽取出來并進一步理解其語義，以結構化形式存起來，因此模型要盡可能全面地包含時間短語原始信息、規范化后信息和語義理解結果等，為后續服務制定提供充足的數據基礎。

本文將時間語義模型定義為五元組TSM= (AT,RTP,PP,PD,ST)。其中:

RTP(Raw Temporal Phrase)，是從文本中抽取出來的未經處理的原始時間短語表達。

AT(Absolute Time)，為RTP所映射的一個規范絕對時間表達式。

PP(Pre-Preposition)，為位于RTP前面的相關介詞。

PD(Post-Direction)，為位于RTP后面的相關的時間方位詞。

ST(Semantic Type)，為該時間短語在原文本中表達的語義類型。

本文采用基于多粒度時間基元的時間表達方式，將散亂的文本時間信息規范為結構化的時間表達。因此，AT定義為{year-month-day hour: minute}。其中的每個元素代表對應時間粒度下的時間信息。相鄰的時間單位之間都具有一定的數量轉換關系。時間單位系統是一種可擴展層級結構，可以方便地往其中添加具備轉換關系的時間單位。該時間表達式為絕對時間的表達方式，相對時間經過推理映射也可以表達為這種形式。

時間短語可描述時點時間和時段時間兩類時間對象。因此，時間語義類型定義為時點Tpoint和時段Tperiod兩類。時點可以表示事件發生的開始時間、結束時間，或是事件執行過程中的某個特殊時間點。一個時段可以由二元組Tperiod(Tpoint1,Tpoint2)表示。Tpoint1表示事件發生的開始時間，或允許事件發生的最早時間；Tpoint2表示事件完成的結束時間，或允許事件開始的最遲時間，或允許事件完成的最晚時間。可能存在僅知時段的一個端點的特例情況，此時可表示為Tperiod(PAST,Tpoint2)或者Tperiod(Tpoint1, FUTURE)。

時間短語可以與時間介詞PP或方位詞PD聯合表達多樣的時間語義。例如對于時間短語“5月20日”，可以衍生出“截止5月20日”“在5月20日”“5月20日之后”等，這些短語包含不同的時間語義。因此，時間介詞和方位詞對于時間語義表達都具有重要意義。

2.3 時間信息映射

本文提出一種基于時間基元的映射方法，在已建立好的時間信息知識庫基礎上，首先建立起時間基元與規范時間單位的映射關系。從消息文本中根據時間表達模板抽取出每一個時間短語，依次自動地將其映射為絕對時間表達式。

對信息完整的時間表達短語，如“2017年10月1日15點30分”，它的AT比較容易得到，但是服務消息中大多是包含信息不完整的時間短語，本文總結了在時間信息映射過程中存在的幾個難題：

1)相對時間轉換。如“今天”“明年”等，需要參考一個日期才能確定。有的相對時間，如泛指時段，需要將其轉換為一個時段。

2)不完整時間短語補全。需要確定一個參考時間，如“5月1日”需要參考一個年份才能映射到時間軸上。

3)時間未來傾向判定。比如在2017年6月20日發布消息中抽取出時間短語“明天下午5點40分”或“明天17點40分”，可以明確地判斷該時間為2017年6月21日17時40分。但是對于時間短語為“5點40分”，如果消息發布是在同一天早晨的4時，該時間應該判定為2017年6月20日5時40分(當日早晨)；若消息發布時間是下午2時，該時間應該判定為2017年6月20日17時40分(當日下午)；再或者消息發布是在晚上8時，該時間應該判定為2017年6月21日5時40分(次日早晨)。人們在日常社交中十二小時制和二十四小時制的混用給時間標準化帶來困難。

對于相對時間的處理，時間信息為時點或時段的判斷將在下一節中描述。這里定義一組規則映射函數Rr，利用該函數集在絕對時間Ta的參照下，將目標相對時間Ti映射為絕對時間Tr：

Rr:{Ti,Ta,unit}→Tr

假設當前時間為2017年6月20日，相對時間“明天”，包含日粒度的時間基元“明天”，表示為unit。其屬性是“將來”(ATT(Ta)=FUTURE)。參考時間是一般時TENSE(Ta) =PRESENT，和目標時間基元邏輯加所得結果為目標時間和參考時間的關系是“將來”。此關系包涵了時間的演化方向，與時間差量ΔTi(unit)=1 (單位日)邏輯乘，得到時間偏移量(符號為+或-)，絕對時間的對應時間基元值與時間偏移量相加得到目標絕對時間Ti(unit)=21 (單位日)，因此目標相對時間可以轉化為絕對時間2017年6月21日。

結合泛指時段和參考時間判定目標時間的未來傾向，把時間判定為未來的一個距離參考時間最近的正確表達。涉及時間未來傾向判定問題的時間粒度主要包括周、時粒度。如果時間基元(unit)表示周(week)粒度，根據目標時間基元Ti(unit)與參考時間相應基元Ta(unit)的大小關系，計算目標時間時粒度基元Ti(day)的偏移量。如果unit表示時(hour)粒度，當其為24小時制時無需處理；否則，可根據時間短語Ti中存在的泛指時段GTP，將某些存在歧義的時間基元轉化為24小時制。最后以參考時間為基準，計算目標時間的未來傾向偏移量，或是二分之一時單位周期時間halfCycle(hour)(12小時)，或是全周期時間Cycle(hour)(24小時)。詳情見算法1。

算法1 目標時間的未來傾向判定算法。

ifunitis week then

//時間基元(unit)表示周(week)粒度

ifTi(unit)

//目標時間基元Ti(unit)小于參考時間相應基元Ta(unit)

Ti(day) +=Ti(unit) -Ta(unit) + Cycle(week)(=7)

//計算目標時間時粒度基元Ti(hour)的偏移量

else

Ti(day) +=Ti(unit) -Ta(unit)

else ifunitis hour &Ti(unit)(0, 12) then

//時間基元(unit)表示時(hour)粒度, 當其為12小時制時需處理

ifGTPis existed then

//時間短語Ti中存在泛指時段GTP

//將歧義的時間基元轉化為24小時制

ifGTP[h1,h2] &Ti(unit)[max(0,h1-12), min(12,h2-12)] then

//以參考時間為基準，計算目標時間的未來傾向偏移量

Ti(unit) += halfCycle(hour)(=12)

el se ifTi(unit) <=Ta(unit) then

Ti(unit) += Cycle(hour)

end if

else ifGTPis not existed then

//時間短語Ti中不存在泛指時段GTP

//將歧義的時間基元轉化為24小時制

ifTi(unit) <=Ta(unit) then

Ti(unit) += halfCycle(hour)

ifTi(unit) <=Ta(unit) then

Ti(unit) += halfCycle(hour)

end if

服務信息文本中，不完整時間表達現象普遍存在。例如“預定10月11日從北京到上海的高鐵，最好在上午9點前發車，同時預定靜安寺附近的酒店，12日入住。”對于該句服務信息，其中包含“10月11日”“上午9點”“12日”三個不完整的時間短語。處于同一條信息語句中，因此它們處于同一時間語境內。考慮人們日常語言表達的省略習慣和參照信息發布時間(2017年10月9日星期一)，可以將其盡可能地補全為“2017年10月11日”“2017年10月11日上午9點”和“2017年10月12日”。

本文刻畫了3條不完整時間短語補全策略，用約束滿足方法將文本中的模糊信息精確化：

1)同文本中抽取的其他時間短語分解出的更大粒度的時間基元可以補充目標時間短語的對應省略時間基元。如第一個時間短語中的時間基元“10月”和“11日”可以補充第二個時間短語，構成更加完善的時間表達“10月11日上午9點”，相反，“9點”不可以去補充第一個時間短語省略的時粒度基元。

2)同文本中先出現的時間短語分解的時間基元可以補充后出現的時間短語，反之不成立。例中第二個時間短語中日粒度基元根據第一個時間短語補全為“11日”是正確的，但由第三個時間短語中的“12日”來補全則是錯誤的。

3)同文本中時間短語互補操作執行后，時間短語仍無法補全的，可以利用信息發布時間去補充。因此，例中三個時間短語的年粒度基元均補全為“2017年”。

上述補全策略只適用于粒度為年、月、日的時間基元，時、分粒度的時間基元省略采用補零策略。上述策略可以根據時間語境信息較好地克服時間短語的不完整缺陷，對于時間信息量稀少的文本，如語句中只包含一個時間短語，可能效果欠佳。

2.4 時間語義建模

時間語義信息會和上下文以及句義信息結合在一起，時間短語附加某些介詞或方位詞組合形成混合時間短語，時間詞蘊含時點語義，其中介詞和部分方位詞可以表達時點語義傾向；同時，存在多時間短語聯合表達時段語義信息的情況，如“從2018年2月1號到3月15號我們要去北京實習培訓”，事件開始時間為2018年2月1號；同時，結束時間也繼承上文時間，為2018年3月15號。此外，泛指時段(GTP)用法較特殊：一方面它還可以和其他時間基元組合使用，如“下午4點20分”，指示時間基元“4點”的未來傾向；另一方面GTP可以單獨使用，表示一個時段。

時間語義建模是在時間短語抽取和時間信息映射的基礎上，考慮時間信息與上下文之間以及多個時間之間的關系處理，進一步判定時間信息的語義類型，從而構建并完善時間語義模型五元組TSM。時間語義類型的判定主要考慮泛指時段、混合時間短語和多時間短語聯合表達這三種特殊情況下的識別，本文采用算法2。

算法2 時間語義建模算法。

forTiinTPList

ifTEXT.StrngAt(RTPi.endLocRTPi+1.startLoc)KBprepthen

//判斷相鄰時間短語之間的字符串是否存在于介詞知識庫中

//識別多時間短語聯合表達的情況

STi=STi+1=Tperiod(AT(RTPi),AT(RTPi+1))

TSMi+1=(AT(RTPi+1),RTPi-RTPi+1,PPi,PDi+1,STi+1)

i++

else ifPPi!= null orPDi!=null then

//根據時間介詞或方位詞的語義傾向PPi.sorient、

//PDi.sorient選擇合適的時段語義類型

ifPDi.sorientis Forward orPPi.sorientis Forward then

STi=Tperiod(AT(RTPi), future)

else ifPDi.sorientis Backward orPPi.sorientis Backward then

ifAT(now)

STi=Tperiod(AT(now),AT(RTPi))

else

STi=Tperiod(past,AT(RTPi))

end if

else ifRTPiisGTPand alone then

// 處理泛指時段GTP的語義類型

STi=Tperiod(AT(RTPi.GTP.period))

end if

TSMi=(AT(RTPi),RTPi,PPi,PDi,STi)

end for

// 以上為時段語義類型的識別

從文本TEXT中抽取所有時間信息Ti存儲在列表TPList中，首先判斷相鄰兩時間短語RTPi和RTPi+1之間的字符串是否存在于介詞知識庫KBprep中，從而識別多時間短語聯合表達的情況；然后根據時間短語兩側的介詞或方位詞的語義傾向PPi.sorient、PDi.sorient，選擇合適的時段語義類型；最后處理泛指時段GTP的語義類型。以上為時段語義類型的識別，剩余的全部識別為時點語義類型，構建并完善時間語義模型五元組TSMi。

3 實驗

本文收集智能服務系統消息文本300條構建測試集，驗證語義理解模型各模塊在智能服務系統自然語言文本分析中的效果，并展示了模型語義建模結果。

本文利用準確率(Precision)、召回率(Recall)和F-measure值作為實驗的評測標準。

由表2知，本文提出的時間信息抽取方法取得了不錯的效果。基于規則的方法需要手工制定規則模板，與其相比，本文方法基于大規模語料自動抽取時間表達模板的方法在準確率和召回率上都有提升。基于監督訓練算法條件隨機場(Conditional Random Field, CRF)的序列標注方法,參照文獻[15]的方法，取得了比本文方法稍好的效果，但該方法需要人工標注訓練集，費時費力;而本文方法抽取過程是自動的，無需人工干預，因此本文方法在犧牲部分性能的基礎上大大降低了人工成本。

由表3知，本文模型在服務消息文本上時間信息映射模塊準確率也達到了87.88%。統計結果顯示，在服務文本中相對時間表達占了一半以上，本文提出的專門針對相對時間轉化的方法取得較好效果。此外，對時間未來傾向判定的處理效果最差，因為它是在其他處理結果之上的再處理，會有錯誤傳遞現象的發生。

表4為語義建模結果的示例，其中消息發布時間設定為2017年6月23日星期五12時13分。

表2 時間信息抽取模塊測試結果比較Tab. 2 Comparison of results in temporal information extracting

表4 時間語義建模結果展示Tab. 4 Results of temporal semantic modeling

4 結語

時間信息是智能服務制定的基礎，時間語義理解在智能服務系統中發揮著重要作用。本文構建的針對服務消息文本的自然語言時間語義理解模型，實現了對時間信息的抽取、映射和語義建模，可以為智能信息系統提供通用的時間表達模式。本文實現了自動抽取時間表達模板，并構建時間信息知識庫，無需人工建立抽取規則，無需人力搜集時間詞詞典，也不必人工標注訓練集，大大節省人力資源。時間信息映射模塊是基于時間基元開展的，這樣的方法能夠有效處理不同粒度的時間單位之間的影響關系。最后，綜合利用時間自身信息與上下文信息設計時間語義建模算法，判定時間信息的語義類型，從而構建時間語義模型。本文方法也存在不足，比如，本文只涉及一般時間短語的處理，對于事件時間短語，如“他去上海之前”等，本文模型沒有考慮。時間表達模板是基于序列匹配的，會錯誤識別非時間短語。

未來，可以研究如何進一步提高時間信息映射算法的泛化能力，使之適應更廣泛的應用領域，同時進一步完善時間語義模型，使其表達更豐富的時間語義。

參考文獻(References)

[1] STEEDMAN M. 21—temporality [M]// van BENTHEM J, TER MEULEN A. 2nd ed. Handbook of Logic and Language. Amsterdam: Elsevier, 2011: 925-969.

[2] 賀瑞芳,秦兵,劉挺,等.基于依存分析和錯誤驅動的中文時間表達式識別[J].中文信息學報,2007,21(5):36-40.(HE R F, QIN B, LIU T, et al. Recognizing the extent of Chinese time expressions based on the dependency parsing and error-driven learning [J]. Journal of Chinese Information Processing, 2007, 21(5): 36-40.)

[3] 杜津.自然語言時間語義信息處理[D].北京：中國科學院自動化研究所,2005:25-34.(DU J. Natural language temporal semantic information processing [D]. Beijing: Institute of Automation, Chinese Academy of Sciences, 2005: 25-34.)

[4] 成斌.漢語時間語義分析及推理[D].長沙：國防科學技術大學,2005:49-58.(CHENG B. Analysis and inference of Chinese temporal semantics [D]. Changsha: National University of Defense Technology, 2005: 49-58.)

[5] 郭宏蕾,姚天順.自然語言中時間信息的模型化[J].軟件學報,1997,8(6):432-440.(GUO H L, YAO T S. Modeling of temporal information in natural language [J]. Journal of Software, 1997, 8(6): 432-440.)

[6] WU M, LI W, LU Q, et al. CTEMP: a Chinese temporal parser for extracting and normalizing temporal information [C]// Proceedings of the 2005 International Conference on Natural Language Processing, LNCS 3651. Berlin: Springer, 2005: 694-706.

[7] CHAMBERS N. Navytime: event and time ordering from raw text [EB/OL]. [2017- 04- 11]. https://www.cs.york.ac.uk/semeval-2013/accepted/75_Paper.pdf.

[8] 左亞堯,龍耀發,李杰駿.基于規則的中文時間表達式識別與規范化[J].廣東工業大學學報,2014, 31(3):88-94.(ZUO Y Y, LONG Y F, LI J J. Recognition and normalization of Chinese time expressions based on rules [J]. Journal of Guangdong University of Technology, 2014, 31(3):88-94.)

[9] 林靜,曹德芳,苑春法.中文時間信息的TIMEX2自動標注[J]. 清華大學學報(自然科學版), 2008, 48(1):117-120.(LIN J, CAO D F, YUAN C F. Automatic TIMEX2 tagging of Chinese temporal information [J]. Journal of Tsinghua University (Science and Technology), 2008, 48(1): 117-120.)

[10] 李明月,王樹鵬,王海平,等.面向安全事件新聞的時間抽取與轉換[J].高技術通訊,2015,25(12):1040-1046.(LI M Y, WANG S P, WANG H P, et al. Extraction and normalization of temporal expressions for news reports on security events [J]. Chinese High Technology Letters, 2015, 25(12):1040-1046.)

[11] 趙國榮.中文新聞語料中的時間短語識別方法研究[D].太原：山西大學,2006:11-15.(ZHAO G R. Research into temporal expressions of Chinese news [D]. Taiyuan: Shanxi University, 2006: 11-15.)

[12] 鄔桐,周雅倩,黃萱菁,等.自動構建時間基元規則庫的中文時間表達式識別[J].中文信息學報,2010,24(4):3-10.(WU T, ZHOU Y Q, HUANG X J, et al. Chinese time expression recognition based on automatically generated basic-time-unit rules [J]. Journal of Chinese Information Processing, 2010, 24(4): 3-10.)

[13] ZHAO H, JI X. English temporal expression recognition based on conditional random fields [C]// Proceedings of the 2013 9th International Conference on Natural Computation. Piscataway, NJ: IEEE, 2013: 1088-1092.

[14] 劉莉,何中市,邢欣來,等.基于語義角色的中文時間表達式識別[J].計算機應用研究,2011,28(7):2543-2545.(LIU L, HE Z S, XING X L, et al. Chinese time expression recognition based on semantic role [J]. Application Research of Computers, 2011, 28(7):2543-2545.)

[15] 朱莎莎,劉宗田,付劍鋒,等.基于條件隨機場的中文時間短語識別[J].計算機工程,2011,37(15):164-167.(ZHU S S, LIU Z T, FU J F, et al. Chinese temporal phrase recognition based on conditional random fields [J]. Computer Engineering, 2011, 37(15): 164-167.)

[16] 高源,席耀一,李弼程,等.基于詞典特征優化和依存關系的中文時間表達式識別[J].信息工程大學學報,2016,17(4):490-495.(GAO Y, XI Y Y, LI B C, et al. Chinese temporal expression recognition algorithm based on optimization of dictionary features and dependency parsing [J]. Journal of Information Engineering University, 2016, 17(4): 490-495.)

[17] 吳瓊,黃德根.基于條件隨機場與時間詞庫的中文時間表達式識別[J].中文信息學報,2014,28(6):169-174.(WU Q, HUANG D G. Temporal information extraction based on CRF and time thesaurus [J]. Journal of Chinese Information Processing, 2014, 28(6): 169-174.)

[18] 李君嬋,譚紅葉,王風娥.中文時間表達式及類型識別[J].計算機科學,2012,39(S3):191-194.(LI Y C, TAN H Y, WANG F E. Recognition of temporal expressions and their types in Chinese [J]. Computer Science, 2012, 39(S3): 191-194.)

[19] 王風娥. 漢語文本中的時間關系識別技術研究[D]. 太原：山西大學, 2012:9-14.(WANG F E. Recognition of temporal relation in Chinese texts [D]. Taiyuan: Shanxi University, 2012: 9-14.)

[20] 溫艷霞.中文時間規范化方法研究[D].太原:山西大學,2010:19-24.(WEN Y X. Research on time standardization in Chinese [D]. Taiyuan: Shanxi University, 2010: 19-24.)

[21] 鄭立洲.短文本信息抽取若干技術研究[D].合肥:中國科學技術大學,2016:40-45.(ZHENG L Z. Research on some key issues in short text information extraction [D]. Hefei: University of Science and Technology of China, 2016: 40-45.)

[22] 左亞堯,龍耀發,李杰駿.中文時間關鍵詞識別研究[J].計算機應用研究,2017,34(4):981-985.(ZUO Y Y, LONG Y F, LI J J. Extraction of Chinese temporal keywords [J]. Application Research of Computers, 2017, 34(4): 981-985.)

This work is partially supported by the National Natural Science Foundation of China (71571136), the National Basic Research Program (973 Program) of China (2014CB340404), the Basic Research Project of Science and Technology Commission of Shanghai Municipality (16JC1403000).

JIAShengbin, born in 1994, Ph. D. candidate. His research interests include natural language processing, service computing.

XIANGYang, born in 1962, Ph. D., professor. His research interests include natural language processing, service computing.