田家源,楊東華,2+,王宏志
1.哈爾濱工業大學 計算機科學與技術學院,哈爾濱 150001
2.哈爾濱工業大學 基礎與交叉科學研究院,哈爾濱 150001
醫學信息化是當今研究的熱點,醫學信息系統的實現需要醫學知識庫的支撐。醫學信息大都以自然語言形式書寫保存,這對機器而言是非結構化的、不能直接利用的。為此,必須要有一種從非結構化的數據中提取出特定信息并整理為結構化數據的有效手段,信息提取(information extraction,IE)任務就此誕生。在對信息提取任務進行探索的過程中,人們發現對文本中各種專有名詞的識別會對提取效果起到至關重要的作用,這種對專有名詞的識別被稱為命名實體識別(name entity recognition,NER)[1]。在MUC-6會議上,命名實體識別被正式提出并作為第一項子任務引入到信息提取之中。
在命名實體識別的早期,人們主要關注3類命名實體:人名、地名、機構名。后來隨著MUC-7、IEER、CoNLL等一系列國際會議的發展,命名實體識別任務也進一步細化,如地名可以細分為國家名、州名、城市名等[2],人名可以細分為政客、藝人等[3]。除此之外,各個領域的命名實體識別任務也逐漸展開。如在生物醫學領域有大量研究針對蛋白質名、基因名等專有名詞進行識別[4],在商業領域有人對各種產品名稱進行實體識別[5]。根據領域的不同,命名實體識別任務也會發生相應的變化。
從技術方法上來說,命名實體識別與諸多自然語言處理技術歷史相似,存在著基于規則的方法和基于統計的方法。早期,命名實體識別以基于規則的方法為主,在MUC-7會議評測中,大多數參賽系統均使用此類方法。這類方法大多依賴于人工構造的規則和命名實體詞典,覆蓋面較窄,對時間和人力的消耗很高且編寫的規則移植性差。Wang等人曾使用基于規則的方法來對金融公司名進行識別,其在開放測試中的實驗結果也說明了規則方法的局限性[6]。
基于統計的方法則不再需要依靠語言學知識構建規則,取而代之的是使用帶有標注的語料庫進行訓練,從語料中對特征進行統計,并建立模型。在CoNLL-2003會議上,所有參賽系統均采用基于統計的方法,此類方法已成為研究的主流。具體而言,如果將命名實體識別看作分類問題,可以使用最大熵模型(maximum entropy,ME)[7]、支持向量機(support vector machine,SVM)[8]等模型建模。如果將命名實體識別看作序列標注問題,則可以使用隱馬爾可夫模型(hidden Markov model,HMM)[9]、條件隨機場(conditional random field,CRF)[10]等模型建模。
在醫學領域,命名實體識別得到了很廣泛的關注,其技術方法與一般的命名實體識別并無大的區別。如Li等人[11]曾使用CRF和SVM兩種模型,并結合相關醫學詞典對醫學命名實體進行識別,實驗結果中CRF模型取得了更好的效果;Wang等人[12]使用了多種監督方法專門對中醫癥狀實體進行識別,比較了HMM、CRF、MEMM模型的效果,最終CRF模型實驗F值更高;葉楓等人[13]也使用了CRF模型在自建語料上對3類醫學命名實體進行識別,F值均在90%以上。
在相關的工作中,制約醫學命名實體識別的最大問題在于公開標注語料的缺乏。事實上,已有工作基本上都依靠與醫院合作,獲取少量語料,一般為幾十篇到上百篇不等。然后再自行對其進行手工標注,并在手工標注的集合上進行后續研究。這種方法對人工勞動的引入較大,成本較高,而且體量較小,不能很好地進行推廣。因此,本文認為,使用自動方法構建較大規模的語料是一種更合理的選擇。
互聯網作為大量數據的聚集地,存在很多醫學網站。這些網站中存儲著大量包含醫學知識的醫學文本,可以當作原始資料來使用。本文還注意到,醫學網站大都維護著用于搜索的醫學詞匯索引,這可以作為一種詞典資源使用。針對互聯網資源的特點,本文主要進行了以下研究:
(1)考慮到自動標注方法能力的有限性和詞典資源的非完整性,提出了一種迭代式框架來自擴展地使用互聯網資源。首先基于初始設置進行標注,在一輪訓練后,將模型中找到的新詞補充入詞典,并再次標注訓練,如此迭代進行數遍,提高識別精度。
(2)已有的自然語言處理工具大都基于幾個較大的通用語料庫。研究表明[14],如果直接使用通用語料構建標注器來標注其他領域的語料,效果會出現明顯的下降。為此,在通用模型中融入了詞典資源,有效提高了領域文本標注的準確性。同時,模型具有只讀特性,適合在迭代框架中使用。
(3)考慮到互聯網較大的文本規模和迭代式的框架,如果采取整體重新訓練的方式,時間代價會過高。為此,在命名實體識別過程中使用了平均感知器模型來進行增量訓練,并使用了啟發式的特征剪枝方法對模型進行壓縮。
(4)在命名實體識別過程中,引入了多種特征,包括詞法特征、詞綴特征、詞長特征等。通過實驗對這些特征的效果進行了檢驗測試,并說明了這些特征對模型具有提升作用。
本文組織結構如下:第2章對整體框架進行了描述;第3章給出了語料的自動標注方法;第4章介紹了命名實體識別中使用的模型和策略;第5章給出了實驗結果和相應分析;第6章總結全文。
互聯網中有著大量的醫學網站,維護著較為豐富的醫學相關文本。這些文本人類可以直接閱讀,但機器卻無法直接使用,必須對其進行信息提取。但是,使用統計方法需要帶有標注的語料,這些無標注的文本必須進行標注后才可使用。人工標注成本高,效率低,體量小,因此需要采用自動標注的方法。
自動方法進行標注在體量上比較有利,但在精度上必然比不過人工標注。為此,本文提出了一種迭代式框架來自擴展地使用互聯網資源,挖掘其潛力,如圖1所示。

Fig.1 Iterative named entity recognition framework based on Internet resources圖1 基于互聯網資源的迭代式命名實體識別框架
首先,從醫療網站上爬取原始的醫療文本,并利用醫療網站的索引構建初始詞典。然后,將醫學詞典與通用模型結合,對語料進行自動標注。在標注后的語料上,對疾病和癥狀兩類醫學實體進行識別。根據迭代次數進行判斷,若尚未達到迭代次數,則將識別出現次數較高的部分實體合并入詞典之中進行增量訓練,若達到迭代次數,則循環停止,得到最終模型。
由于互聯網資源相對規模較大,如果使用傳統方法,模型需要整體重新訓練,時間代價過高。因此,本文在標注部分使用的是一種只讀方法,原始模型不必修改,可重復使用。而在訓練部分,則使用了在線學習方法,可以以單條數據為單位對模型進行調整,從而保證了較高的效率。此外,本文還使用了啟發式的方法對特征進行選擇,從而降低模型規模。
對語料進行標注的首要任務在于分詞,分詞正確,后續的任務才有可能正確,分詞錯誤,后續的識別工作不可能正確。事實上通用中文分詞的精度已經很高,足夠一般文本的使用。但在領域文本上分詞效果會出現下降,主要問題在于不能很好地識別領域詞匯,而這一點可以用領域詞典來進行補充。
分詞是一項重視精度的任務,在前人的研究中,CRF模型對歧義詞和未登錄詞有較好的處理能力,往往可以取得最好的效果,本文在CRF模型中加入特定的詞典特征來使用領域詞典。在訓練時,無需進行更改;在解碼時,額外加入領域詞典用于特征的提取。在整個過程中,領域詞典并不介入模型的學習,而只用于解碼,從而能夠在不改變原有模型的基礎上,對領域詞匯進行有效改善,后續實驗也證明了這一點。
條件隨機場模型是由Lafferty等人[15]于2001年提出的一個概率無向圖模型,在解決序列標注問題上表現優秀,目前廣泛應用于自然語言處理領域。在序列標注問題中,變量結構通常為線性結構,人們通常使用CRF的簡化形式——線性鏈條件隨機場,其結構如圖2所示。

Fig.2 Linear chain CRF model圖2 線性鏈條件隨機場模型
給定兩個隨機變量X、Y,其中X=(x1,x2,…,xn)為輸入變量,表示一組觀察序列,Y=(y1,y2,…,yn)為輸出變量,表示標記序列。CRF在給定觀察序列X的情況下,計算了對標記序列Y的條件概率P(Y|X)。在輸入變量X取x,輸出變量Y取y的情況下,線性鏈條件隨機場的條件概率符合下列公式:

其中,tk和sl為不同類型的特征函數,通過設計特征模板來定義;λk和μl表示對應的權重;Z(x)是歸一化因子,用以保證概率定義。CRF的訓練過程即是使用訓練集對權重參數進行學習的過程,而解碼過程則是針對給定數據輸出條件概率最大序列的過程。
在分詞過程中,本文使用以下特征作為基礎特征,其內容如表1所示。

Table 1 Basic features for word segmentation表1 分詞模型的基礎特征
其中Unigram代表單個字符的特征;Bigram代表相鄰兩個字符的聯合特征;Reduplication代表是否兩個字符相同;Type代表字符類別,包括標點、數字、字母等。方括號里的數字代表下標,ch[i]代表其相對于當前位置偏移i個位置的字符。
為了保證模型的只讀性,詞典特征不能直接使用詞典單詞本身,否則就會引起模型整體的變化。本文使用以詞典進行最大匹配得到的詞長度信息作為特征,從而讓字符依據其位于詞首、詞中、詞尾等不同位置得到具有區分性的特征,如此就可以在無需改變原有模型的情況下使用領域詞典解碼。
設有句子S=S1S2…Sn和詞典D,對于第i個位置的字符,定義以下函數:


式(3)、式(4)分別代表了在進行正向匹配時,該字符作為詞首、詞中使用詞典匹配時能得到的最大詞長。式(5)則代表了在使用逆向匹配時,該字符作為詞尾能得到的最大詞長。
舉例說明,給定句子“牙槽骨骨折以上頜前部較多見”,詞典里有“牙,槽骨,骨折”等詞。考慮句中“牙”字,有LB=1,LM=0,LE=0;句中“折”字,有LB=0,LM=0,LE=2。若詞典加入“牙槽骨骨折”后,則對“牙”字,有LB=5,LM=0,LE=0;對“折”字,有LB=0,LM=0,LE=5。這樣,在加入領域詞典后,字的特征便出現了變化。
本文基于這3個函數進行組合構造詞典特征,如表2所示。

Table 2 Dictionary features for word segmentation表2 分詞模型的詞典特征
在定義詞典特征的基礎上,本文的標注工作按照圖3的框架進行。
對醫學文本進行分詞后,需要繼續對其進行詞性標注工作,這一步使用通用的詞性標注器即可,本文選用中科院的ICTCLAS作為文本的詞性標注工具。
在此之后,分別使用兩個詞典掃描文本,為文本添加命名實體標記。若該詞在疾病詞典里,為其附加標記Nd;若該詞在癥狀詞典里,為其附加標記Ns;若該詞不在上述兩類詞典里,為其附加標記O。若詞語單獨匹配詞典成功,則附屬標注為S(single)。若詞語在詞典里可以匹配前綴,則嘗試使用后續詞語繼續匹配,如果按此法匹配成功,則首個單詞附屬標注為B(begin),后續單詞附屬標注為I(inside)。一段經過標注的語句如圖4所示。

Fig.3 Annotation framework for medical texts圖3 醫學文本的標注框架

Fig.4 Results for automatic annotation圖4 自動標注結果
在傳統方法中,模型一旦訓練完成,新的語料便無法加入到模型中,只能對模型進行重新訓練。而在線方法每次訓練時只使用一個樣例對參數進行更新,可以很好地解決這一問題。為了適應迭代式的訓練框架,本文也使用在線方法構建模型。在線學習算法中,感知器[16]模型是最為經典的模型,它具有模型簡單,訓練快速等特點。而且前人研究表明,在較大數據量的情況下,感知器模型與傳統模型相比效果基本相當。
感知器是一個二分類模型,對于多分類問題,可以建立多個感知器來處理。每個感知器將某類視為正例,而將其他類視為反例,而最終分類結果,由分數最高的感知器決定。
對于序列標注問題而言,可以使用結構化感知器[17]建模。其中一個詞的標注即可視為一個多分類問題。而整個序列的標注需要引入解碼過程,即找到分值最高的那個序列,這一過程可使用Viterbi算法完成,其結構如圖5所示。只要得到了句子對應的實體標簽序列,就可通過組合標簽對應的單詞獲得對應的實體。

Fig.5 Decoding process of Viterbi algorithm圖5 維特比算法解碼過程
結構化感知器的更新規則較普通感知器有所區別,但仍是一種試錯調整模式。若最終標注結果z出錯,得分高于真實結果y,則對權值作以下調整:

感知器算法容易出現過擬合問題。為了緩解此現象,對模型參數進行平均化處理,將多輪權重的平均值作為最終結果。平均感知器如算法1所示。
算法1平均感知器訓練算法


對自然語言處理任務而言,特征帶來的影響往往比模型的選擇更為重要。應當在模型中引入可能包含語言語義信息的特征,從而期望模型可以基于這些特征對標注進行區分。
4.2.1 基礎特征
詞是語言中的基本單元,單詞特征被用于多項中文自然語言處理任務中。本文在分詞基礎上,使用單詞本身作為特征。
詞性可以看作是詞的一種泛化或分類,蘊含著詞的深層信息,也是自然語言處理中常用的特征。本文使用自動詞性標注結果作為詞性特征。
一個詞的語義不僅與其本身有關,也與其所處的上下文相關。多個字符間詞特征的組合可以視為新的特征。本文分別對單詞特征和詞性特征加以組合,構造其Unigram和Bigram。對單詞特征,將兩類組合的窗口均設置為5;對詞性特征,將Unigram窗口設置為5,Bigram窗口設置為3。
本文將以上3種特征作為基礎特征集,具體定義如表3所示。

Table 3 Basic features for named entity recognition表3 命名實體識別基礎特征集
4.2.2 拓展特征
單詞的長度某種程度上反映出單詞的特點,統計顯示,詞的長度越大,承載詞義越少。專用詞語的平均長度往往大于通用詞語的平均長度,因此本文引入長度信息作為特征。
詞綴特征即每個單詞的前后綴特征,詞語往往具有某種內在的模式,使用細粒度的特征往往對實體識別有益。本文對每個單詞分別取1、2、3個字符的前綴和后綴作為作為該單詞的詞綴特征。
一些單詞之間的組合會經常出現,這也會使得其擁有相同的首尾字,如很多疾病都以“病”、“癥”等字結尾。使用首尾字特征,有利于實體邊緣的確立。本文使用相鄰單詞的首尾字組合作為一項特征。
本文將以上3種特征作為拓展特征集,具體形式如表4所示。

Table 4 Extended features for named entity recognition表4 命名實體識別拓展特征
從解碼算法框架圖5來看,其時間復雜度為O(|S|2L),其中|S|是可選的狀態數,L為序列長度。而在每個位置,其訓練又與特征數有關。在實際情況中,狀態數是一固定值,往往不大;序列長度與語料相關,不能更改;特征數量成為影響模型規模的最大因素。
在自然語言問題中,特征大都是二元布爾形函數,表達的是某一條件的成立與否。這種形式會導致模型的特征極其龐大,很容易達到百萬維以上。但事實上,大部分特征對最終分類并不起什么作用。如果理想的話,無關特征的權重會在訓練中自動被調整為0。但是,實踐中更可能的情況是,權重在訓練中被調整為一個較小的對決策影響不大的值,這會最終導致模型變得稠密。
一種常用的壓縮模型的手段是,刪去模型中出現次數較少的特征,這在很多時候也的確有效。但是一個特征即使出現了很多次,它也很可能是一個對分類意義不大的特征,因此這種方法對于壓縮模型不夠優秀。
感知器模型是一種錯誤驅動的模型,在分類錯誤時,才會對權重進行更新。起初,所有權重都被設置為0,這相當于認為所有特征均是無用的。只有在后續訓練過程中,相關特征導致了模型出錯,這些權重才會調整,視為有用特征。直觀上來說,那些對分類更有意義的特征應當會被多次更新,而很少被更新的特征應當對類別區分用處不大。基于這個直觀想法,本文維護一個額外向量,記錄特征空間中每個特征參與更新的次數。只有那些更新次數超過最小更新閾值的特征才得以留存,而更新次數低于閾值的特征則被從模型中刪除。
本文將從若干醫療網站上爬取了2 000余篇醫療文本作為初始未標注數據,有100余萬字,同時利用醫療網站的檢索索引構造了疾病詞典和癥狀詞典,其中疾病詞典含詞6 000余個,癥狀詞典含詞10 000余個。本文使用前文所述的標注方法對這些文本進行標注,并將之用作訓練集。由于自動標注本身會引入錯誤,不適合直接用作測試集,本文在自動標注基礎上手工修正了1 000句文本用作測試集。
本文使用經典的準確率P(precision)、召回率R(recall)和F值(F-measure)作為評價指標,其定義如下:

5.2.1 自動標注方法效果實驗
本小節設置對照實驗評價使用詞典策略的自動標注對命名實體識別的影響。在分詞過程中,一組使用融合模型,另一組則僅使用通用分詞器。在分詞后用領域詞典對結果進行標注,并使用基礎特征集進行實體識別,結果如表5所示。
從實驗結果來看,分詞策略對實驗影響巨大。這是因為領域詞匯具有不同的詞匯特點,如長度、用詞等,在不融合領域詞典的情況下,大量領域詞匯不能被通用分詞策略正確劃分。一旦分詞發生錯誤,后續的詞性標注工作和實體標注都不可能正確,相當于擴大了錯誤。在這種情況下,只有一些經常使用的醫學詞匯才可能正確識別。而使用融合領域詞典的策略,可以有效地提高領域詞匯分詞的準確性,之后再進行標注,就能獲得良好的效果。兩種情況下實驗結果的對比,說明了本文標注方法的有效性。在后續實驗中,將使用融合模型標注和基礎特征集的模型視為Baseline。

Table 5 Impact of annotation strategy on results表5 標注策略對結果的影響
5.2.2 迭代框架效果實驗
本小節設置實驗測試不同迭代次數下對疾病實體識別的結果。初始時迭代輪數為1,按照基本設置進行;后續迭代過程中,使用當輪相應的訓練數據。最后給出參數平均化后感知器的結果,如表6所示。

Table 6 Results of each iteration表6 各輪迭代的結果
從實驗結果可以看出,迭代模型對命名實體識別效果有提升作用。在最初幾輪,模型的F值有明顯提高,但隨著輪數繼續增高,F值反而出現少量下降,這可能跟模型發生了一定的過擬合有關。在進行平均化后,模型取得了最優效果,比任何單輪結果都要好,這也說明了參數平均化方法是有效的。
5.2.3 拓展特征集效果實驗
本小節測試拓展特征集對實體識別效果的影響,結果如表7所示。

Table 7 Impact of extended features on results表7 擴展特征集對結果的影響
實驗結果中,擴展特征集中的特征均對實體識別有提升作用。其中詞綴特征和長度特征提升效果較大,首尾字特征相對提升效果較小。將3種特征聯合使用時效果最好,最終可使疾病的F值提高了0.95%,癥狀的F值提升了0.43%。由此可見,本文提出的擴展特征信息確實有利于實體的識別。
5.2.4 模型壓縮效果實驗
本小節測試特征剪枝方法對模型的壓縮效果。為此,需要設定最小更新閾值,當它為0時,相當于不做處理。在實驗中不斷增加閾值大小,觀察模型對應的效果和模型大小,結果如表8所示。

Table 8 Results of model compression表8 模型壓縮結果
實驗結果中,最初模型大小為127 MB。隨著剪枝閾值的增加,模型大小出現明顯下降。到閾值為5時,模型大小已經不到原來的一半,而此時F值卻只下降了0.21%,幾乎可以忽略不計。實驗說明了本文模型壓縮方法的有效性,也證明了模型中確實存在著大量基本無用的特征。
本文針對醫學領域無公開語料的情況,選擇使用互聯網資源對命名實體識別進行研究。本文對任務進行了分析,提出了一種迭代式框架來自擴展地使用互聯網資源。在標注過程中,使用了一種融合通用模型和詞典資源的方法,既保持了較高的標注精度,又保證了模型的只讀性。在實體識別過程中,在模型中引入了多種特征來提高識別能力。為了適應迭代框架的特點,本文沒有使用傳統批處理模型,而是使用在線方法進行學習,有效降低了學習成本。本文還使用了一種啟發式的方法對特征進行剪枝來壓縮模型。大量相關實驗證明,本文提出的方法和策略是有效的。
:
[1]Grishman R,Sundheim B.Message understanding conference-6:a brief history[C]//Proceedings of the 16th International Conference on Computational Linguistics,Copenhagen,Aug 5-9,1996.Stroudsburg:ACL,1996:466-471.
[2]Lee S,Lee G G.Heuristic methods for reducing errors of geographic named entities learned by bootstrapping[C]//LNCS 3651:Proceedings of the 2nd International Joint Conference on Natural Language Processing,Jeju Island,Oct 11-13,2005.Berlin,Heidelberg:Springer,2005:658-669.
[3]Fleischman M,Hovy E H.Fine grained classification of named entities[C]//Proceedings of the 19th International Conference on Computational Linguistics,Taipei,China,Aug 24-Sep 1,2002.Stroudsburg:ACL,2002:1-7.
[4]Sun Chengjie,Guan Yi,Wang Xiaolong,et al.Biomedical named entities recognition using conditional random fields model[C]//LNCS 4223:Proceedings of the 2006 International Conference on Fuzzy Systems and Knowledge Discovery,Xi’;an,Sep 24-28,2006.Berlin,Heidelberg:Springer,2006:1279-1288.
[5]Liu Feifan,Zhao Jun,Lv Bibo,et al.Study on product named entity recognition for business information extraction[J].Journal of Chinese Information Processing,2006,20(1):7-13.
[6]Wang Ning,Ge Ruifang,Yuan Chunfa,et al.Company name identification in Chinese financial domain[J].Journal of Chinese Information Processing,2002,16(2):1-6.
[7]Chieu H L,Ng H T.Named entity recognition with a maximum entropy approach[C]//Proceedings of the 7th Conference on Natural Language Learning,Edmonton,May 31-Jun 1,2003.Stroudsburg:ACL,2003:160-163.
[8]Lee K J,Hwang Y S,Kim S,et al.Biomedical named entity recognition using two-phase model based on SVMs[J].Journal of Biomedical Informatics,2004,37(6):436-447.
[9]Bikel D M,Schwartz R,Weischedel R M.An algorithm that learns what’s in a name[J].Machine Learning,1999,34(1/3):211-231.
[10]McCallum A,Li Wei.Early results for named entity recognition with conditional random fields,feature induction and web-enhanced lexicons[C]//Proceedings of the 7th Conference on Natural Language Learning,Edmonton,May 31-Jun 1,2003.Stroudsburg:ACL,2003:188-191.
[11]Li Dingcheng,Kipper-Schuler K,Savova G.Conditional random fields and support vector machines for disorder named entity recognition in clinical texts[C]//Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing,Columbus,Jun 19,2008.Stroudsburg:ACL,2008:94-95.
[12]Wang Yaqiang,Yu Zhonghua,Chen Li,et al.Supervised methods for symptom name recognition in free-text clinical records of traditional Chinese medicine:an empirical study[J].Journal of Biomedical Informatics,2014,47(2):91-104.
[13]Ye Feng,Chen Yingying,Zhou Gengui,et al.Intelligent recognition of named entity in electronic medical records[J].Chinese Journal of Biomedical Engineering,2011,30(2):256-262.
[14]Jiang Jing,Zhai Chengxiang.Instance weighting for domain adaptation in NLP[C]//Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics,Prague,Jun 23-30,2007.Stroudsburg:ACL,2007:264-271.
[15]Lafferty J D,McCallum A,Pereira F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning,Williamstown,Jun 28-Jul 1,2001.San Mateo:Morgan Kaufmann,2001:282-289.
[16]Rosenblatt F.The perceptron:a probabilistic model for information storage and organization in the brain[J].Psychological Review,1958,65(6):386-408.
[17]Collins M.Discriminative training methods for hidden Markov models:theory and experiments with perceptron algorithms[C]//Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing,Philadelphia,Jul 6-7,2002.Stroudsburg:ACL,2002:1-8.
附中文參考文獻:
[5]劉非凡,趙軍,呂碧波,等.面向商務信息抽取的產品命名實體識別研究[J].中文信息學報,2006,20(1):7-13.
[6]王寧,葛瑞芳,苑春法,等.中文金融新聞中公司名的識別[J].中文信息學報,2002,16(2):1-6.
[13]葉楓,陳鶯鶯,周根貴,等.電子病歷中命名實體的智能識別[J].中國生物醫學工程學報,2011,30(2):256-262.