999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體特征的汽車領域命名實體識別

2016-03-08 09:03:34張永平朱艷輝朱道杰王天吉
湖南工業大學學報 2016年6期
關鍵詞:特征汽車

張永平,朱艷輝,朱道杰,王天吉,李 飛

(湖南工業大學 計算機學院,湖南 株洲 412007)

基于本體特征的汽車領域命名實體識別

張永平,朱艷輝,朱道杰,王天吉,李 飛

(湖南工業大學 計算機學院,湖南 株洲 412007)

針對汽車領域命名實體識別中汽車屬性名識別的準確率和召回率較低的問題,提出了一種基于本體特征的汽車領域命名實體識別方法。通過擴展現有敘詞表,基于敘詞表構建汽車領域本體,提取語料中的本體特征,利用CRFs模型對汽車領域命名實體進行識別。實驗結果表明,本體特征能夠有效地識別出汽車屬性實體,準確率、召回率和F值分別為75.60%, 66.12%和70.54%。

命名實體識別;汽車領域;CRFs;本體;敘詞表

0 引言

隨著計算機的快速普及,互聯網的迅猛發展,各式各樣的信息呈爆炸式增長,如何從海量的數據中精準地抽取用戶所需信息已成為研究者關注的課題。信息抽取的主要目的是將非結構化的自然語言文本轉化成半結構化或者結構化數據,以便人們準確快速地獲取信息。命名實體識別[1]作為信息抽取的子任務,已經成為研究的熱點。其研究方法分別有基于規則[2]、基于統計[3]以及基于規則和統計[4]相結合的方法,研究領域從通用領域擴展到專業領域。在專業領域中,由于語料缺乏和屬性名難以識別的特點,使其成為命名實體識別中的難點。

本文針對汽車領域命名實體進行識別,選擇COAE會議[5]提供的汽車類語料,通過對汽車語料的深入分析,發現汽車屬性具有以下特點:1)數量多,汽車的結構、零部件、內飾和動力總成等名稱都是汽車的屬性;2)口語化,比如句子“這車皮薄”中的實體“皮薄”,句子“20寸大腳太霸氣”中的實體“大腳”等,這使得汽車命名實體中屬性名的抽取難度較大。針對這些問題,本文通過基于敘詞表[6-7]的方法構建汽車領域本體[8],并以本體為特征,采用條件隨機場(conditional random fields,CRFs)模型[9]對汽車領域命名實體進行識別,有效提高識別的準確率。

1 基于敘詞表的汽車本體構建

本研究選用的敘詞表是《汽車工程敘詞表》,但由于這個敘詞表發行時間較早,沒有進行更新修訂,有很多新概念及屬性都沒有,所以首先要對敘詞表進行升級優化,優化算法如下。

Step 1 從《汽車工程敘詞表》中取出“汽車結構”概念為新敘詞表,其中包括“汽車結構”和“汽車零部件”的概念、定義以及等級關系。

Step 2 從汽車百科網上獲取關于汽車的所有名詞以及釋義。

Step 3 把Step1和Step2得到的內容組合去重。

Step 4 按照老敘詞表中概念的等級關系框架,逐個把Step 3的概念和釋義添加到新敘詞表中。

基于敘詞表構建汽車領域本體,基本思路是:1)根據敘詞表確定核心概念集;2)確定概念間關系;3)添加汽車領域概念屬性;4)為本體添加實例。具體算法如下。

Step 1 選擇敘詞表中“汽車種類”和“汽車結構”下的名稱為父親概念,然后添加敘詞表中相應的子概念,得到核心概念集。

Step 2 確定概念間關系:確定了核心概念集后,利用中間展開[10]的方法,在敘詞表中逐步抽取概念間的關系。

Step 3 添加概念屬性,把敘詞表中對概念的釋義當作屬性。

Step 4 添加實例,實例是對概念的舉例,可以從“太平洋汽車”網中“分類”板塊獲得,添加到本體相應的概念中。

2 汽車命名實體識別

條件隨機場模型是給定一組輸入隨機變量,求另外一組具有隱馬爾可夫性質的輸出隨機變量的條件概率分布的無向圖。在自然語言處理任務中,很多地方都用到了條件隨機場,例如新詞識別、中文分詞、依存關系等?;跅l件隨機場的主要實現工具有CRF++,FlexCRF等,本文使用的模型訓練和測試工具為CRF++。

本文提出的基于領域本體的汽車命名實體識別方法的基本流程圖如圖1所示。

圖1 汽車領域命名實體識別流程圖Fig.1 Named entity recognition process in the automotive field

2.1 特征抽取

汽車領域本體特征表示的是詞匯單元所具備的領域及其語義特征,反映領域屬性共識。汽車命名實體識別最大的難度是汽車屬性名的識別,課題組利用汽車本體可以對汽車屬性名和其它實體之間的關系進行描述,從而建立起了屬性名和其它實體之間的關系。通過這種“關系”,可以對汽車屬性進行有效的識別。為了進行對比,除了本體特征外,本文還提取了詞和詞性、指示詞、情感傾向這3個特征,并組成特征模板。

1)詞和詞性特征

詞特征為實驗語料經過分詞后的詞匯單元本身,即將分詞后的結果作為一類特征,可以表示詞在句子中的位置;詞性特征表示詞在句子中的詞性標注,利用NLPIR[11]分詞工具可以獲得這2個特征。詞和詞性特征模板如表1所示。

表1 詞和詞性特征模板Table 1 A feature template for words and its part of speech

2)指示詞特征

指示詞是指在命名實體周圍具有指示性的詞語,如:“新款馬自達阿特茲在性能方面很可靠”中的“性能”、“進口的A4和國產的A4L有啥區別?”中的“進口”和“國產”就是指示詞。本文提出的指示詞抽取算法如下。

Step 1 建立一個空的指示詞庫。

Step 2 依次讀取已經經過分詞處理的詞匯。

Step 3 若當前詞是命名實體,則轉到Step 4,否則轉到Step 2。

Step 4 以命名實體為中心,選擇窗口大小N,即取當前詞的前N個詞和后N個詞共同組成集合boundary。

Step 5 把集合boundary中的詞和指示詞庫中的詞一一對比,若有相同的詞,則該詞的詞頻加1;若無相同的詞,則把該詞加入到指示詞庫,并將詞頻設為1。

Step 6 判斷當前詞是否為語料的最后一個詞,是則轉到Step 7,否則轉到Step 2。

Step 7 設置一個閾值,將指示詞庫中的詞頻小于閾值的詞移出指示詞庫。

指示詞特征模板如表2所示。

表2 指示詞特征模板Table 2 A feature template for demonstratives

3)情感傾向特征

文本的情感傾向是指文本中的用戶所表達的態度,通過對情感傾向的分析可以看出評論者對事物態度是積極還是消極,其中評論者和評論對象很有可能是命名實體。本文采用文獻[12]的方法抽取情感特征,情感特征模板如表3所示。

表3 情感特征模板Table 3 A feature template for affective words

4)本體特征

領域本體中的類別有概念、屬性和實例,本體特征是指分詞后的詞語是否屬于本體類別中的種類,提取過程是將分詞后的詞匯在構建的本體系統中進行等級關系的判定,返回詞匯所屬的類別。本體特征模板如表4所示。

表4 本體特征模板Table 4 Ontology template

2.2 特征轉換

本次實驗所使用的工具是CRF++0.54[13],使用時須把具體特征轉變為標注符,稱為特征標記取值,結合2.1節所介紹特征,為各個特征制定一個轉換標注,具體如表5所示。

表5 特征標記取值Table 5 Characteristic marks

2.3 結果標注集

在利用CRFs進行訓練和測試時,要指定一個標注集,本文采用的標注集如表6所示。

表6 結果標注集Table 6 Result annotation set

3 實驗結果及分析

3.1 實驗語料

本次實驗選取了從COAE2008至COAE2015所有的汽車類語料,從中篩選出22 303句,其中14 000句為訓練語料,剩下的句子為測試語料。

3.2 實驗工具介紹

本實驗采用CRF++外部開發包來完成CRFs模型的訓練和測試。CRF++是目前綜合性能最佳的條件隨機場開源工具,其對訓練語料的格式要求是:訓練語料的列為特征,并且至少有兩列。使用CRF++工具包還需要定義一個特征模板文件,也就是特征的組合方式,本文的特征組合方式總共有6種,在下一節詳細介紹。訓練過程中只要把訓練語料和特征模板作為輸入,利用CRF++工具訓練,輸出就是訓練好的模型,這個模型可以用來做測試。

3.3 實驗結果與分析

本實驗采用CRF++外部開發包來完成CRFs模型的訓練和測試,實驗結果如表7所示。

表7 實驗對比結果Table 7 Contrast of experimental results %

在表7中,特征組合②、③、④的對比實驗表明,本體特征要優于情感傾向特征和指示詞特征,其中準確率比②高4.75%;特征組合④、⑤的對比實驗表明,雖然⑤在特征數量上比④更多,但識別效果卻并不比其好,說明本體特征要優于同時擁有指示詞和情感傾向特征的模板,并且在模型訓練時效上特征組合④也優于⑤;特征組合⑤、⑥的對比實驗表明,在⑤的基礎上加入本體特征,準確率、召回率和F值分別高出3.09%, 15.12%和10.66%,特別在召回率上大幅領先;以上幾組對比數據表明,本體特征能夠對汽車命名實體進行有效的識別。

4 結語

本文提出了基于本體特征的汽車領域命名實體識別方法,首先通過敘詞表構建了汽車領域本體,并選擇本體作為特征,基于CRFs模型進行汽車命名實體識別。通過與指示詞特征、情感特征進行對比,實驗表明,基于本體特征的識別效果最好,特別是在屬性名的識別上。雖然本文研究取得了一定成果,但不足之處是本體的構建方法偏于簡單,導致命名實體識別效果整體偏低,因此構建一個質量較優的本體是將來要進一步研究的工作。

[1]張曉艷,王 挺,陳火旺. 命名實體識別研究[J]. 計算機科學,2005,32(4):44-48. ZHANG Xiaoyan,WANG Ting,CHEN Huowang. Research on Named Entity Recognition[J]. Computer Science,2005,32(4):44-48.

[2]周 昆. 基于規則的命名實體識別研究[D]. 合肥:合肥工業大學,2010. ZHOU Kun. Research on Named Entity Recognition Basd on Rules[D]. Hefei:HeFei University of Technology,2010.

[3]俞鴻魁,張華平,劉 群,等. 基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 通信學報,2006,27(2):87-94. YU Hongkui,ZHANG Huaping,LIU Qun,et al. Chinese Named Entity Identification Using Cascaded Hidden Markov Model[J]. Journal of Communications,2006,27(2):87-94.

[4]向曉雯,史曉東,曾華琳. 一個統計與規則相結合的中文命名實體識別系統[J]. 計算機應用,2005,25(10):2404-2406. XIANG Xiaowen,SHI Xiaodong,ZENG Hualin. Chinese Named Entity Recognition System Using Statistics-Based and Rules-Based Method[J]. Computer Application,2005,25(10):2404-2406.

[5]廖祥文,許洪波,孫 樂,等. 第三屆中文傾向性分析評測(COAE2011)語料的構建與分析[J]. 中文信息學報,2013,27(1):56-63. LIAO Xiangwen,XU Hongbo,SUN Le,et al. Construction and Analysis of the Third Chinese Opinion Analysis Evaluation (COAE2011) Corpus[J]. Journal of Chinese Information Processing,2013,27(1):56-63.

[6]常 春,盧文林. 敘詞表編制歷史、現狀與發展[J]. 農業圖書情報學刊,2002(5):25-28.CHANG chun,LU Wenlin. The History,Current Situation and Development of Compilation of the Thesaurus [J]. Journal of Library and Information Science in Aricultural,2002(5):25-28.

[7]楊秋芬,陳躍新. Ontology方法學綜述[J]. 計算機應用研究,2002,19(4):5-7. YANG Qiufen,CHEN Yuexin. A Survey of Ontology Methodology[J]. Computer Application Research,2002,19 (4):5-7.

[8]BORST W N. Construction of Engineering Ontologies for Knowledge Sharing and Reuse[J]. Universiteit Twente,1997,18(1):44-57.

[9]LAFFERTY J D,Mccallum A,Pereira F C N. Conditional Random Fields:Probabilistic Models For Segmenting And Labeling Sequence Data[C]// ICML 2001 Proceedings of the Eithteenth International Conference on Machine. San Francisco:Morgan Kaufmann Publishers,2001:282-289.

[10]唐愛民,真 溱,樊 靜. 基于敘詞表的領域本體構建研究[J]. 現代圖書情報技術,2005(4):1-5. TANG Aimin,ZHEN Zhen,FAN Jing. Thesaurus-Based Approach to Build Domain Ontology[J]. New Technology of Library and Information Service,2005(4):1-5.

[11]ZHOU L,ZHANG D. NLPIR:A Theoretical Framework for Applying Natural Language Processing to Information Retrieval[J]. Journal of the American Society for Information Science & Technology,2003,54(2):115-123.

[12]朱艷輝,栗春亮,徐葉強,等. 一種基于多重詞典的中文文本情感特征抽取方法[J]. 湖南工業大學學報,2011,25(2):42-46. ZHU Yanhui,LI Chunliang,XU Yeqiang, et al. A Method of Emotional Feature Extraction in Chinese Text Based on Multiple Lexicons[J]. Journal of Hunan University of Technology,2011,25(2):42-46.

[13]Source Forge. CRF++[EB/OL]. [2016-07-19]. https:// sourceforge.net/projects/crfpp/.

(責任編輯:申 劍)

An Ontology-Based Named Entity Recognition in Automotive Industry

ZHANG Yongping,ZHU Yanhui,ZHU Daojie,WANG Tianji,LI Fei
(School of Computer,Hunan University of Technology,Zhuzhou Hunan 412007,China)

In view of a low accuracy rate and recall rate of named entity recognition in the automotive industry, a new method of named entity recognition based on ontology has thus been proposed. By extending the existing thesauri, and constructing an automobile domain ontology, the ontology features are to be extracted from the corpus, and a named entity recognition based on a CRFs model can be achieved. The experimental results show that the ontology features can effectively identify the vehicle attribute entities, with its accuracy rate as high as 75.60%, a recall rate as high as 66.12% and aF-value as high as 70.54% respectively.

named entity recognition;automotive field;CRFs;ontology;thesaurus

TP391.4

A

1673-9833(2016)06-0039-05

10.3969/j.issn.1673-9833.2016.06.08

2016-10-13

國家自然科學基金資助項目(61170102),國家社會科學基金資助項目(12BYY045),湖南省教育廳基金資助重點項目(15A049)

張永平(1989-),男,貴州習水人,湖南工業大學碩士生,主要研究方向為自然語言處理,E-mail:780235260@qq.com

朱艷輝(1968-),女,湖南湘潭人,湖南工業大學教授,碩士生導師,主要從事自然語言處理方面的研究,E-mail:swayhzhu@163.com

猜你喜歡
特征汽車
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
2019年8月汽車產銷環比增長 同比仍呈下降
汽車與安全(2019年9期)2019-11-22 09:48:03
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
汽車的“出賣”
抓住特征巧觀察
汽車們的喜怒哀樂
3D 打印汽車等
決策探索(2014年21期)2014-11-25 12:29:50
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 114级毛片免费观看| 伊人成人在线视频| 国产亚洲欧美另类一区二区| 成人午夜视频免费看欧美| 在线播放国产一区| 亚洲欧美在线看片AI| 手机在线免费毛片| 精品在线免费播放| 日韩AV手机在线观看蜜芽| 久久精品aⅴ无码中文字幕| 毛片卡一卡二| 国产成人精品第一区二区| 国产第一页屁屁影院| 91精选国产大片| 国产日韩欧美黄色片免费观看| 国内视频精品| 欧美一区二区啪啪| 中文字幕人成乱码熟女免费| 欧美三级自拍| 欧美yw精品日本国产精品| 亚洲欧美国产五月天综合| 亚洲精品中文字幕午夜| 18禁不卡免费网站| 四虎永久免费在线| 久久国产亚洲偷自| 又大又硬又爽免费视频| 欧美色视频在线| 中文字幕乱码中文乱码51精品| 一级毛片在线免费看| 国产麻豆另类AV| 亚洲综合色婷婷| 国产97公开成人免费视频| 真实国产精品vr专区| 亚洲无码一区在线观看| 亚洲精品国产自在现线最新| 国产久操视频| 久久精品娱乐亚洲领先| 国产区福利小视频在线观看尤物| 亚洲婷婷丁香| 色综合久久88| 欧美a级在线| 无码福利视频| 国产女人在线视频| 日韩中文字幕亚洲无线码| 国产打屁股免费区网站| 亚洲aaa视频| 国产不卡网| 精品丝袜美腿国产一区| 欧美亚洲综合免费精品高清在线观看| 亚洲最新在线| 天天爽免费视频| 久久国产亚洲偷自| 欧美精品亚洲二区| 欧美另类精品一区二区三区| 91区国产福利在线观看午夜| 亚洲无码电影| 欧美国产在线一区| 久久五月视频| 伊人91视频| 在线国产三级| 青青久久91| 色九九视频| 人妻精品久久无码区| 五月天综合网亚洲综合天堂网| 一级毛片免费不卡在线视频| 尤物特级无码毛片免费| 亚洲欧美色中文字幕| 亚洲综合一区国产精品| 欧美日韩另类在线| 东京热高清无码精品| 欧美无专区| 人妻丝袜无码视频| 亚洲一区二区三区麻豆| 91国内视频在线观看| 国产精品污视频| 色香蕉网站| 91激情视频| 一级毛片不卡片免费观看| 啪啪永久免费av| 欧美日韩精品综合在线一区| 国产激情第一页| 亚洲天堂久久新|