羅 明,黃海量,2
(1.上海財經大學 信息管理與工程學院,上海 200433; 2.上海財經大學 上海市金融信息技術研究重點實驗室,上海 200433)(*通信作者電子郵箱hlhuang@shufe.edu.cn)
信息抽取是指從自然語言形式的文檔中抽取人們所感興趣的信息,并將其轉變為結構化信息的過程。信息抽取研究的范疇包括:命名實體識別(如:人名、地名、機構名等),關系信息抽取,事件信息抽取(與事件有關的事件類別、時間、地點、參與者等)。本文所研究的對象是與金融事件有關的信息抽取。
一直以來,信息抽取工作所面臨的主要困難之一是如何解決“自然語言表達的多樣性、歧義性和結構性”[1]的問題,多樣性是指同一種意思可以有多種表達方式,例如對公司收購事件,既可以用“A公司收購B公司”,也可以用“A公司買下B公司”來表達;歧義性是指同一詞語在不同的上下文語境中存在著不同的含義,例如:“蘋果公布iOS 9新系統”中的“蘋果”指美國蘋果公司,而“近日蘋果批發價格一路走低”中“蘋果”則是指一種水果;結構性是指自然語言所具有的內在結構,例如:“他從北京來到上海”和“他從上海來到北京”兩個句子雖然都使用了相同的詞語,但由于句子詞語成分結構不同導致所表達的語義也不相同。如何采用語義分析的方法來解決這些問題一直以來都是自然語言處理研究領域所關注的核心問題之一。
事件信息抽取是信息抽取研究的一個重要子任務,ACE(Automatic Content Extraction) 2005將事件抽取任務定義成法律制裁(Justice)、沖突(Conflict)、商業(Business)等8個大類32種子類型任務[2],但是ACE 2005所定義的事件類型存在著類型過于寬泛、針對性不強的問題,例如Business中的Start-Org(組織成立)、Movement中的Transport(中轉站)在使用中并無實際價值,不能真正滿足現實社會對事件抽取的需求,因此還必須針對特定專業領域重新進行事模型和類型的定義。
本文針對以上問題,以中文金融新聞文本為研究對象,首先定義了一個包含5個大類、26種子類事件的金融事件表示模型;其次采用深度學習中的詞向量(word vector)方法通過從新聞語料中提取出概念同義詞來自動構建概念詞典;最后采取基于有限狀態機驅動的層次化的詞匯-語義規則模式實現了從新聞文本中提取出與金融事件有關的大量關鍵信息(例如:事件類型、時間、地點、事件施事者、受事者、交易金額、交易數量等)。采用本文方法,在專業領域內能較好地解決以上存在的問題,具有一定的研究價值和實際意義。
信息抽取的研究,按所采用的基本方法可以分為基于規則模式的方法和基于機器學習的方法兩類。基于規則模式的方法的優點是所需要的標注語料較少,甚至可以不需要標注語料,規則可解釋性強,易于調整,但這種方法存在著靈活性差、查全率較低、可移植性不好等問題[3]。目前基于規則模式的信息抽取所采用的主要方法有:正則表達式方法[4]、半結構化樹(文檔對象化模型樹(Document Object Model Tree,DOM Tree))方法[5]、詞匯-句法模式(Lexical-Syntactical)[6]和詞匯-語義模式(Lexical-Semantic Pattern, LSP)[7]。基于機器學習的方法在實施中存在的主要困難是:學習模型效果的好壞在很大程度上依賴于訓練語料的規模和標注質量,并且運行時間和效率均會隨著語料中符號類別的多少呈線性增長[8]。
本文采用的詞匯-語義模式是目前規則模式方法中所采用的主要方法之一。它針對詞匯-句法模式所存在的對句法分析結果依賴性過強,不能精確描述同義詞、反義詞以及上位詞之間的聯系,不能按專業領域業務需求實現對詞匯的概念化抽象等問題[9]進行了進一步的改進和語義增強。近年來的研究成果中,文獻[10]通過先對事件動詞采取同義詞表達,再通過迭代匹配的方法來實現簡單語義類型的事件抽取;文獻[11]則采用更加復雜的基于本體的詞匯-語義模式來實現命名實體和事件的抽取,這種方法的優點在于可以通過在本體中定義更加復雜的概念、類別、實例以及類別間的關系、限制條件等元素,使語義匹配引擎具有更加復雜的邏輯判斷推理能力;在此基礎上還進一步發展出了基于知識圖譜[12]等輔助手段的方法。但以上研究中存在的顯著問題是對同義詞或本體概念、類別的定義都是通過手工方式完成的,所需要的工作量較大,而且同義詞覆蓋范圍有限。文獻[13]提出了一種采用Word2Vec來獲得確定維度的詞向量,并將其用于短文本分類中的方法,受其啟發本文也通過采用Word2Vec的近義詞識別功能來自動構建概念同義詞典。
本文采用一種自然語言文本處理框架——通用文本處理框架(General Architecture for Text Engineering, GATE)[14]中的Java標注模式引擎(Java Annotation Pattern Engine, JAPE)語言[15]來開發詞匯-語義規則模式并實現語義標注工作。這種采用JAPE語言來編寫詞匯-語義規則模式的方法已經被用于文檔檢索服務[16]、處理病歷中的指代消解[17]、社交網絡中的個體語言特征分析[18]和本體自動填充[19]等研究工作中,均取得了較好的效果。
本文根據金融新聞事件的特點的定義了一個金融事件的表示模型e:
e=Ke∪Ae∪Re
(1)

定義1e由關鍵事件要素集合Ke、輔助事件要素集合Ae和推理事件要素集合Re構成。
定義2 關鍵事件要素集合Ke中定義的事件元素有:事件施事者(主體)Arg0,事件受事者(客體)Arg1,事件謂語動詞類型Predicate,事件發生時間TMP,事件發布者Pub。關鍵事件要素是判斷一個事件是否成立的充分必要條件,如果一條新聞語句中含有Ke中的元素,則可以判定該條新聞語句具有事件信息價值。
定義3 輔助事件要素集合Ae中定義的事件元素有:事件發生地點LOC,事件類型EventType,事件原因Cause,事件狀態EventState。輔助事件要素集合是對事件信息的補充和完善。
定義4 推理事件要素集合Re中定義的事件元素有:標注類型為Lookup的中間過程元素Lookuptaggers,標注類型為Token的中間過程元素Tokentaggers以及其他一些標注類型為Event的過程元素。推理事件要素是本文詞匯-語義模式在識別判斷及抽取事件關鍵和輔助要素過程中使用的中間過程的概念語義元素,這類元素不構成最終的事件要素,但它們是規則模板用來推理判斷事件類型和其他關鍵要素的重要依據。
本文定義了需要抽取的26種金融事件類別及其他要素如表1所示(鑒于篇幅有限,表1只列出部分內容)。

表1 事件類別及其他要素定義
概念詞典是詞匯-語義模式開展語義抽取工作的基礎,它用于語義處理過程中的同義詞識別和概念識別處理。本文采取詞列表(Word List)的方式來表示概念詞典。概念詞典由一系列詞表文件構成,概念詞典文件的層次結構設計如圖1所示。
概念詞典的索引文件名稱為list.def,它是所有概念詞典文件的入口,該文件為純文本文件格式,按每行一條進行內容安排,具體內容如下所示:
event_Verb_Statement.lst:事件動詞類型:正式公告
event_Verb_Restruct.lst:事件動詞類型:重組
…
每行由“:”分割為三部分:第1部分表示該類別概念所對應的詞列表文件名;第2部分表示預定義的主類別(MajorType)如:事件動詞類型;第3部分可選,表示預定義的次級類別(MinorType),例如:重組。在二級詞列表文件中也是按每行一條的形式來定義具有相同MajorType和MinorType的詞組集合,例如:event_Verb_Restruct.lst是與重組事件關鍵謂詞對應的詞列表文件,其具體內容為:
重組 方案
重組 預案
資產 重組
…
當文本中存在與以上任何一行相同的一組詞條時,例如:“正泰電器(601877)11月9日晚間發布重組預案,…”,系統會采用最大后向匹配算法在“重組 預案”這兩個詞條節點上標注上類型為Lookup的標注,其屬性MajorType=事件動詞類型,MinorType=重組。

圖1 概念詞典的層次結構
本文采用Word2Vec[20]中的基于Negative Sampling算法的連續詞袋模型(Continuous Bag Of Words, CBOW)來訓練詞向量,并提取生成概念詞典。對于給定的需要預測的正樣本詞w及其上下文context(w),希望獲得的最大似然概率為:

(2)
其中:context(w)表示需要預測的詞w的上下文窗口內的詞,NEG(w)表示預測不是w的結果,也就是負樣本的情況。p(u|context(w))可表示為:
p(u|context(w))=(σ(xwTθu))Lw(u)·
(1-σ(xwTθu))1-Lw(u)
(3)
其中:xw表示context(w)中各詞的向量之和;θu表示詞u所對應的輔助向量,它是待訓練參數;Lw(u)是指示函數,當u=w時為1,否則為0;σ(xwTθu)表示當預測值為u(u∈{w}∪NEG(w))時的概率。
將式(3)代入式(2)可得:
(4)
由式(4)可知,最大化g(w)的過程就是最大化正樣本概率σ(xwTθw),同時最小化負樣本概率σ(xwTθu)的過程,因此對于給定的語料庫C,總體的優化目標為:


(5)

當采用Word2Vec完成詞向量訓練后,采用以下概念詞典的構建算法來完成同義概念詞典的構建工作。
構建同義概念詞典算法:
Input:同義詞種子集合seed_set;已經訓練完成的Word2Vec模型word2vec_model。
Output:同義詞典文件synonym_dict。
Loadword2Vec_modelandseed_set
//加載Word2Vec模型和種子文件seed_set
dictionary={}
//擴展字典集合dictionary初始化
FOR eachwinseed_set:
//遍歷種子集合
sim_words=word2vec.most_similar(w,k)
//word2vec模型中從獲取與w近似值最大的前k個詞
FOR each item insim_words:
//遍歷集合
IF(item.sim>=0.7):
//保留近似值大于0.7的詞
dictionary.put(item)
total_words=concatenate(seed_set,dictionary)
//拼接合并種子集合與擴展字典集合
total_words_permu=permutation(total_words)
//對total_words
//集合中的元素,固定種子詞組為首詞后進行排列組合
FOR eachwinseed_set:
FOR eachpermu_wordsintotal_words_permu:
IF(n_similarity(w,permu_words)>=0.7):
//遍歷排列
//組合后的集合,并將與種子詞組w之間相似度大于0.7的
//多元詞組納入擴展字典中
dictionary.put(pair_words)
Savedictionarytosynonym_dict
//將擴展字典保存到同義詞文件中
詞匯-語義模式的規則表達式由3種元素構成,即:詞匯信息(即標點符號、字、詞的符號信息,如:“收購”),句法信息(即詞性信息,如:動詞)和語義信息(即概念信息,如:“收購事件動詞”)。本文定義的標注類型如表2所示。
由于各標注類型在詞匯-語義規則中存在著逐次提煉升華的內在關系,因此本文設計了一個層次化的標注結構,如圖2所示。
其中:Layer0詞條層是由完成分詞后的詞條節點Node集合。Layer1層是由標注類型為Token的節點構成的,它的每個節點與Layer0層中的詞條節點構成一一對應的關系,Layer1上的節點主要用來存儲詞性標注信息。Layer2層是由標注類型為Lookup的節點構成的,它的每個節點與Layer0的節點是1∶n的關系,Layer2上的節點主要用來存儲依據概念詞典而自動標注的基本語義概念信息。Layer3層由標注類型為Event的節點構成,Event節點由詞匯-語義規則在Token節點和Lookup節點的基礎上產生,它主要存儲更加高級的和面向領域的事件概念信息。

表2 語義標注類型

圖2 層次化標注結構
采用這種層次化標注結構的優點在于:使用者可以根據需要在詞匯-語義規則文件中靈活地抽出或插入某一標注層,這樣在編寫詞匯-語義規則時不必考慮某種標注類型對規則語法的影響,從而極大地簡化了規則編寫的工作。
本文基于有限狀態機理論定義的詞匯-語義規則標注模型為:
M=(Σ,Q,q0,F,Δ)
(6)
其中:
1)Σ為模型M的輸入Token信息的集合,Σ={a1,a2,…,an},a1,a2,…,an為分詞處理后形成的Token序列。
2)Q為模型M中有限的狀態集合,在本文中Q指每條規則中的滿足匹配語句的狀態集合,例如對于以下所示例的詞匯-語義規則文件:(括號內的字為對規則含義解釋)。
Phase: Event_MiscBusProcess
//規則文件名
Input: Token Lookup Event
//引入規則中需要使用的標注層
Options: control=Appelt debug=true
//匹配優先級控制
Macro:ORG
//定義一個宏名
…
Rule: OrgRule
//定義規則左式
Priority: 100 (定義規則優先級)
(
({Lookup.minorType==~"(country|province|city)"})+
①
({Token.string!=~"[,,。::;;、d]+",
Lookup.majorType!=~"(title)"})[1,6]
②
(ORG_KEY_COMPANY)
③
(
{Token.string==~"[((]"}
({Token.string!=~"[。]"})[1,15]
{Token.string==~"[))]"}
)?
④
):MyOrg
-->//規則左式到右式轉換符
{
//定義規則右式邏輯處理語句
gate.AnnotationSet org=
(gate.AnnotationSet) bindings.get("MyOrg");
gate.FeatureMap features=Factory.newFeatureMap();
…
outputAS.add(org.firstNode(),org.lastNode(),"Event",
features);
outputAS.removeAll(org);
}
Rule:BusIncomeRule2(開始一條新的規則)
Priority: 100
…
在這條規則中,Q共有6個狀態即:初始狀態q0和接受終止狀態qf、規則中的①~④四條語句判斷為真時所對應的狀態分別為q1~q4,因此Q={q0,q1,q2,q3,q4,qf}。
3)q0代表模型M的初始狀態,q0=?。
4)F代表模型M的最終可接受狀態集,F?Q,F={qf}。

qi=δi(qi-1,ai)
(7)
其中ai為當前的輸入Token。
6)對一個特定的輸入Token序列,例如:Σ*={中南建設,6月,8日,晚間,公告,,,公司,擬,出資, 10億,元,…},在狀態機M上的匹配執行結果是一個狀態序列:q0,q1,…,qn,qn表示終止狀態,如果qn∈F則表示該Token序列被狀態機接受(即匹配成功);否則被拒絕。
7)為了簡化模型表示,M中不記錄拒絕狀態和轉向拒絕狀態的轉移函數。
詞匯-語義規則標注算法如下。
Input:D,表示采用GATE ANNIE插件預處理后,已經標注有Token 和Lookup標注類型的輸入文檔;P,表示滿足JAPE語法規則的詞匯-語義規則文件集合。
Output:MLAnnotateSet,表示輸出的標注類型為Event的語義標注集合。
FOR eachphaseiinP
//phasei為P中的某一規則文件
Getting all annotations fromoutASList of Last (i-1) phase and put them ininASlist
//將上一個規則文件的處理
//結果取出放入當前處理序列inAS中
FOR eachrulejinphasei.Rules:
//對phasei中的規則進行遍歷
FOR eachD.NodeskinD:
//D.Nodesk為文檔
//D中的Token節點
L.put(D.Nodesk)
//將D.Nodesk放入列表L中
Initialization Finite State MachineMjrespect torulej,LetQ={q0,qf},Δ={δ1,δ2,…,δn},q0=?
//初始化狀態機Mj
IF( {L1,L2,…,Ln} are accepted byMj):
//當滿足規則子句匹配條件時
①Feed annotation set ininASwhich cover {L1,L2,…,Ln} to RHS for creating new semantic annotation and put computing results intooutASlist
//將匹配的標注集合
//送入詞匯-語義規則右式(RHS)進行程序邏輯處理,
//并產生新的語義標注信息
②L=L-{L1,L2,…,Ln}
//繼續執行下一段Token的
//規則匹配操作
ELSE:
Search nextMj+1
//查找規則文件中的下一條
//規則再重新開始匹配操作
Getting all semantic annotation which type is "MLTag" fromoutASlist, and put them inMLAnnotateSet
//獲得類型為MLTag的
//語義標注集合
算法的空間復雜度是指一個算法在運行過程中臨時占用存儲空間大小的度量,一般用:S(n)=O(f(n))來表示,其中n表示問題規模的大小,在本文中指需要進行語義標注的新聞文本語料的大小。標注算法在計算機存儲器上存儲的空間S由算法本身的空間S1,輸入輸出數據所占據的存儲空間S2和算法在運行過程中臨時占用的存儲空間S3組成,即:
S=S1+S2+S3
(8)
在本文中標注算法本身由固定數目的程序行組成,而不受問題規模n的大小影響,因此:S1=O(1);S2與輸入輸出語料的規模n一階線性相關,因此可表示為:S2=O(n);在標注算法中由于不存在遞歸調用和二分法查找的情況,S3的大小只與問題規模n一階線性相關,因此:S3=O(n)。綜合以上分析標注算法的空間復雜度為:
S=S1+S2+S3=O(1)+2O(n)
(9)
算法的時間復雜度是指當問題規模為n時,算法所需要的最長運行時間,一般用T(n)=O(f(n))來表示,在本文標注算法中問題規模n指需要進行標注的新聞語料大小。由4.3節所示,標注算法主要由:對所有輸入語料文檔的遍歷循環T1(假設輸入文檔的個數為n1),對所有規則文件的遍歷循環T2(假設規則文件的個數為n2),對單個規則文件內的子規則遍歷循環T3(假設每個規則文件內平均子規則個數為n3),對單個輸入文檔內Token層節點的遍歷循環T4(假設每個輸入文檔內的平均Token節點個數為n4)組成,則本文標注算法的時間復雜度可用式(10)表示:
T=T1×T2×T3×T4=O(n1×n2×n3×n4)
(10)
采用網絡爬蟲技術從東方財富網的公司新聞頻道和新浪財經上市公司新聞頻道爬取了2015年全年共計122 366條金融類新聞報道,并從中隨機抽取了5 000條不重復的新聞報道作為測試樣本進行了事件類別手工標注處理,選取文本中的首段前2句作為語料來驗證事件信息抽取效果。本文3.2節中Word2Vec所采用的模型訓練語料則是來自東方財富網公司新聞頻道2015—2017年共計194 466篇新聞報道全文,累計1.59億漢字的訓練規模。
實驗中共計生成5 000篇信息標注XML文檔,本文選用一個例子來說明事件信息抽取的實際效果。
1)原始語料:27日晚間,臨時停牌一天的暴風科技在晚間揭曉了停牌原因。公司正在籌劃重大資產重組事項,擬以發行股份及支付現金方式收購專業從事文學作品版權運營的公司,交易金額預計不低于6億元。
2)經過詞匯-語義規則處理后事件信息的最終標注的結果部分內容是:
a)AnnotationImpl:id=79;type=FinalTag;features={rule=Event_BuyRule,time=2015年10月27日20時,transaction_method=擬以發行股份及支付現金方式,event_type=PlanBuy,agents=[{string=暴風科技,label=已識別機構名}],patients=[{string=事項,label=非機構名,type=直接標的物},{string=專業從事文學作品版權運營的公司,label=非機構名,type=直接標的物}]};start=NodeImpl:id=64;offset=88;end=NodeImpl:id=65;offset=90。
b)AnnotationImpl:id=80;type=FinalTag;features={rule=Event_WantCapitalRule,time=2015年10月27日20時,wantCapital_type=非公開發行,event_type=PlanWantCapital,agents=(略)。
c)AnnotationImpl:id=81;type=FinalTag;features={rule=Event_RestructRule,time=2015年10月27日20時,event_type=PlanRestr,agents=(略)。
結果分析:
1)所有抽取的事件要素都實現了以屬性的形式存儲于features集合中。本例中,共從實例文本中共抽取出了三類事件及其屬性信息(擬收購、擬募資、擬重組),分別處理為三條類型為FinalTag的標注。
2)本例中抽取的所有事件要素匯總如表3所示。

表3 事件要素抽取結果匯總
為了考察本文方法對事件類型識別的能力,對屬于26類金融事件的2 414條測試樣本進行了事件類別識別測試,測試樣本數排名前10位的事件類別識別結果如表4所示。其中:P(Precision)為準確率,R(Recall)為召回率,F1(F1 Measure)為F1測量值。
26種事件類型總的識別結果如圖3所示,分類指標的微平均值為:Micro_F1=0.903,Micro_Precision=0.939,Micro_Recall=0.869。
重大合同事件雖然樣本數較多(105個)但召回率指標表現較低(R=0.563,P=0.952,F1=0.708),其原因是針對重大合同事件的詞匯-語義規則語句的覆蓋程度不夠,還有待進一步拓展提升。而“重組通過”這類事件指標表現較低的原因一方面同樣是因為針對該類事件的詞匯-語義規則語句的覆蓋程度不夠,另一方面也與樣本數過少(僅16個)有關,因此需要增加更多的該類事件的測試樣本。

圖3 26類金融事件類別識別結果

Tab. 4 Event identification results of top 10 samples
為了進一步分析本文所提出的基于規則模式方法與機器學習方法在事件分類方面的效果差異,在使用相同測試樣本數據集的基礎上,分別采用本文方法(Lexical-Semantic Pattern, LSP)與基于支持向量機(Support Vector Machine, SVM)[21]、樸素貝葉斯(Na?ve Bayes, NB)[22]、K近鄰(K-Nearest Neighbor,KNN)[23]3種機器學習分類算法(輸入特征分別采取:文本分詞并去除停用詞后的詞條作為輸入特征集合(Segmentation, SEG)和通過本文方法獲取的事件要素(語義標注)作為輸入特征集合(Semantic, SEM)兩種方式),進行綜合比較,所有事件類型的微平均結果如表5所示。
從表5可知采用本文所述方法(LSP)比所有的機器學習方法所獲得的分類指標結果都有較大幅度的提升,例如:本文方法的微平均F1(Micro_F1)值(0.903)比3種機器學習方法中最高的F1值(0.814)(NB+SEM方法)提高了8.9個百分點)。這說明基于詞匯-語義規則模式的事件分類方法雖然相比機器學習方法存在靈活性和通用性差,而且規則編制的手工工作量大等缺點;但當其應用于特定行業領域時,與機器學習方法相比往往能夠獲得更好的事件分類效果,并且隨著規則的不斷完善和優化,指標提升的空間也很大。
從與其他文獻的研究結果比較來看,在各自使用不同數據和所處場景的條件下,本文方法獲得的3種指標的微平均值都超過了0.85,其效果要略好于文獻[24]的結果,該文獻采用統計學習方式(基于Labed_LDA(Latent Dirichlet Allocation)模型)在最大10個主題類別上獲得的事件分類指標Micor_F1值為0.908;而普通的SVM方法在10類時Micro_F1的值只有0.85左右,而本文方法獲得的Micor_F1指標為0.903,且本文涉及的事件分類數目是26種,分類的難度高于10種類別。

表5 多種方法的微平均指標匯總
本文采用基于層次化詞匯-語義規則模式的方法從金融新聞文本中提取出事件類別、參與人、時間、地點、交易金額等大量與金融事件相關的語義要素信息。本文的創新之處在于:1)定義了一個面向實際行業應用的金融事件表示模型;2)采用一種新的基于深度學習方法(Word2Vector)來自動生成概念同義詞典的方法,解決了傳統手工方式編制概念同義詞典費時費力的問題;3)設計了一種基于有限狀態機驅動的層次化的詞匯-語義規則標注模式方法,從而實現了對事件語義標注信息的層次化提取和抽象。
采用本文方法可以有效地解決傳統的基于詞匯或詞匯-句法規則方法中所存著的:對句法分析結果依賴性過強,不能精確描述同義詞、反義詞以及上位詞之間的聯系,不能按專業領域業務需求實現對詞匯的概念化抽象等問題。本文存在的不足是由于這種層次化詞匯-語義模式方法是面向專業領域的,因此針對其他專業領域的文本信息抽取任務還需要設計不同的信息表示模型,編制不同的規則語句來實現。
References)
[1] 中國中文信息學會.中文信息處理發展報告[EB/OL].(2016- 12- 23) [2017- 01- 15].http://cips-upload.bj.bcebos.com/cips2016.pdf.(Chinese Information Processing Society of China. Chinese information processing development report[EB/OL].(2016- 12- 23) [2017- 01- 15]. http://cips-upload.bj.bcebos.com/cips2016.pdf.)
[2] LI P, ZHU Q, DIAO H, et al. Joint modeling of trigger identification and event type determination in Chinese event extraction [C]// COLING 2012: Proceedings of the 24th International Conference on Computational Linguistics. Mumbai: [s.n.], 2012: 1635-1652.
[3] HOGENBOOM F, FRASINCAR F, KAYMAK U, et al. A survey of event extraction methods from text for decision support systems [J]. Decision Support Systems, 2016, 85: 12-22.
[4] 羅明,黃海量.一種基于有限狀態機的中文地址標準化方法[J].計算機應用研究,2016,33(12):3691-3695.(LUO M, HUANG H L. New method of Chinese address standardization based on finite state machine theory [J]. Application Research of Computers, 2016, 33(12): 3691-3695.)
[5] CHANG C H, CHUANG H M, HUANG C Y, et al. Enhancing POI search on maps via online address extraction and associated information segmentation [J]. Applied Intelligence, 2016, 44(3): 539-556.
[6] AL ZAMIL M G H, CAN A B, et al. ROLEX-SP: rules of lexical syntactic patterns for free text categorization [J]. Knowledge-Based Systems, 2011, 24(1): 58-65.
[7] 劉丹丹,彭成,錢龍華,等.詞匯語義信息對中文實體關系抽取影響的比較[J].計算機應用,2012,32(8):2238-2244.(LIU D D, PENG C, QIAN L H, et al. Comparative analysis of impact of lexical semantic information on Chinese entity relation extraction [J].Journal of Computer Applications, 2012, 32(8): 2238-2244.)
[8] 宗成慶.統計自然語言處理[M].2版.北京:清華大學出版社,2013:110-128.(ZONG C Q. Statistical Natural Language Processing [M]. 2nd ed. Beijing: Tsinghua University Press, 2013: 110-128.)
[9] 李培峰,周國棟,朱巧明.基于語義的中文事件觸發詞抽取聯合模型[J].軟件學報,2016,27(2): 280-294.(LI P F, ZHOU G D, ZHU Q M. Semantics-based joint model of Chinese event trigger extraction [J]. Journal of Software, 2016, 27(2): 280-294.)
[10] ATKINSON M, DU M, PISKORSKI J, et al. Techniques for multilingual security-related event extraction from online news [M]// Computational Linguistics. Berlin: Springer, 2013: 163-186.
[11] 孫明.語義Web使用挖掘若干關鍵技術研究[D].成都:電子科技大學,2009:37-49.(SUN M. Research on some key issues for semantic Web usage mining [D]. Chengdu: University of Electronic Science and Technology of China, 2009: 37-49.)
[12] WANG W, ZHAO D, et al. Ontology-based event modeling for semantic understanding of Chinese news story [M]// Natural Language Processing and Chinese Computing. Berlin: Springer, 2012: 58-68.
[13] ZHANG Y, LIU J. Microblogging short text classification based on Word2Vec [C]// Proceedings of the 2016 International Conference on Electronic, Mechanical, Information and Management. [S.l.]: Atlantis Press, 2016: 395-401.
[14] CUNNINGHAM H, MAYNARD D, BONTCHEVA K, et al. GATE: a framework and graphical development environment for robust NLP tools and applications [C]// Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Oxford: Oxford University Press, 2002: 47-51.
[15] CUNNINGHAM H, MAYNARD D, TABLAN V, et al. JAPE: a Java Annotation Patterns Engine [EB/OL]. (2000- 10- 12)[2016- 06- 12]. http://www.dcs.shef.ac.uk/intranet/research/public/resmes/CS0010.pdf.
[16] FUENTES-LORENZO D, NDEZ N, FISTEUS J, et al. Improving large-scale search engines with semantic annotations [J]. Expert Systems with Applications, 2013, 40(6): 2287-2296.
[17] GOOCH P, ROUDSARI A. Lexical patterns, features and knowledge resources for conference resolution in clinical notes [J]. Journal of Biomedical Informatics, 2012, 45(5): 901-912.
[18] FERNANDEZ M, PICCOLO L S G, MAYNARD D, et al. Talking climate change via social media: communication, engagement and behavior [C]// Proceedings of the 2016 ACM Conference on Web Science. New York: ACM, 2016: 85-94.
[19] 王俊華,左萬利,彭濤.面向文本的本體學習方法[J].吉林大學學報(工學版),2015,45(1): 236-244.(WANG J H, ZUO W L, PENG T. Test-oriented ontology learning methods [J]. Journal of Jilin University (Engineering and Technology Edition), 2015, 45(1): 236-244.)
[20] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [C]// Proceedings of the 2013 International Conference on Neural Information Processing Systems. West Chester, OH: Curran Associates Inc., 2013: 3111-3119.
[21] ALTINEL B, DIRI B, GANIZ M C. A novel semantic smoothing kernel for text classification with class-based weighting [J]. Knowledge-Based Systems, 2015, 89: 265-277.
[22] ZHANG L, JIANG L, LI C, et al. Two feature weighting approaches for naive Bayes text classifiers [J]. Knowledge-Based Systems, 2016, 100:137-144.
[23] ZHANG X, LI Y, KOTAGIRI R, et al.KRNN:K, Rare-class nearest neighbour classification [J]. Pattern Recognition, 2016, 62:33-44.
[24] 李文波,孫樂,張大鯤.基于Labeled-LDA模型的文本分類新算法[J].計算機學報,2008,31(4): 620-627.(LI W B, SUN L, ZHANG D K. Text classification based on labeled-LDA model [J]. Chinese Journal of Computers, 2008, 31(4): 620-627.)
This work is partially supported by the Shanghai Science and Technology Talents Project (14XD1421000), the Shanghai Science and Technology Innovation Action Plan Project (16511102900).
LUOMing, born in 1974, Ph. D., senior engineer. His research interests include data mining, natural language processing, artificial intelligence.
HUANGHailiang, born in 1975, Ph. D., professor. His research interests include big data technology, AI method and their applications in field of finance and economics.