999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向食品安全裁判文書的命名實(shí)體識別方法研究

2020-11-09 07:29:18李書欽劉召史運(yùn)濤
計(jì)算機(jī)時(shí)代 2020年10期
關(guān)鍵詞:食品安全

李書欽 劉召 史運(yùn)濤

摘? 要: 針對食品安全領(lǐng)域案件高發(fā)的突出問題,采用條件隨機(jī)場模型對食品安全裁判文書的命名實(shí)體進(jìn)行識別?;贖anLP平臺和引入自定義詞典,識別裁判文書中的人名、地名、機(jī)構(gòu)名、食品、毒害物、危害后果等命名實(shí)體,取得了較好的識別效果。實(shí)驗(yàn)結(jié)果表明,基于條件隨機(jī)場模型的命名實(shí)體識別方法是有效的,有助于自動識別食品安全裁判文書中的相關(guān)實(shí)體,構(gòu)建食品安全知識圖譜。

關(guān)鍵詞: 食品安全; 裁判文書; 條件隨機(jī)場; 命名實(shí)體識別

中圖分類號:TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2020)10-01-03

Abstract: Aiming at the prominent problem of high incidence of cases in the field of food safety, the conditional random field model is adopted to identify named entities of food safety judgment documents. Based on HanLP platform, the custom dictionary was introduced to identify the person name, place name, organization name, food name, poison content and harmful consequences, and other named entities in the food safety judgment documents, which achieves good recognition effect. The experimental results show that the named entity recognition method based on conditional random field model is effective, which can help to automatically identify the related entities in the food safety judgment documents and construct the food safety knowledge graph.

Key words: food safety; judgment document; conditional random field; named entity recognition

0 引言

在命名實(shí)體識別研究領(lǐng)域,徐飛等[1]根據(jù)食品安全事件語料庫,構(gòu)造內(nèi)部和外部特征模板,實(shí)現(xiàn)了人名和機(jī)構(gòu)名兩類命名實(shí)體的識別。唐釗[2]基于條件隨機(jī)場模型,通過二次識別,解決了上下文環(huán)境中的人名識別問題。張劍[3]等用自定義標(biāo)注集對農(nóng)業(yè)命名實(shí)體進(jìn)行標(biāo)注,通過ICTCLAS分詞系統(tǒng)進(jìn)行分詞,添加多種特征提高了識別率。張華平等[4]采用Viterbi算法進(jìn)行模式匹配和角色標(biāo)注,實(shí)現(xiàn)了真實(shí)語料庫中的中國人名識別。俞鴻魁等[5]采用層疊隱馬爾科夫模型,識別出大規(guī)模真實(shí)語料庫中的人名、地名和機(jī)構(gòu)名。郭劍毅等[6]基于層疊條件隨機(jī)場模型,結(jié)合旅游景點(diǎn)常用特征詞典和復(fù)雜特征,實(shí)現(xiàn)旅游領(lǐng)域景點(diǎn)、特產(chǎn)風(fēng)味和地點(diǎn)的識別,相比HMM模型,具有較高的正確率和召回率。葉楓等[7]利用條件隨機(jī)場工具CRF++,以詞性、詞邊界、構(gòu)詞特征、上下文等為特征集,對中文病歷中的疾病、臨床癥狀和手術(shù)操作三類命名實(shí)體進(jìn)行識別,取得了良好效果。楊錦鋒等[8]構(gòu)建了中文電子病歷標(biāo)注語料庫,用于電子病例命名實(shí)體識別,對于個(gè)性化醫(yī)療服務(wù)和臨床決策支持具有重要意義。鞠久朋等[9]提出一種CRF與規(guī)則相結(jié)合的方法,識別地理空間中的地名及機(jī)構(gòu)名,具有較高的識別準(zhǔn)確率。

2014年1月1日,《最高人民法院關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》正式實(shí)施,覆蓋民事、刑事、賠償、執(zhí)行等不同案件類型的裁判文書在互聯(lián)網(wǎng)公開。本文擬面向食品安全裁判文書,識別其中的人名、地名、機(jī)構(gòu)名、食品、毒害物、危害后果等命名的實(shí)體,對食品安全案件的預(yù)測預(yù)警和情報(bào)分析提供參考,顯著提升針對食品犯罪活動的主動發(fā)現(xiàn)能力。

1 命名實(shí)體識別

命名實(shí)體識別(Named Entity Recognition,NER)是自然語言處理中重要的預(yù)處理模塊,是機(jī)器翻譯、句法分析、信息抽取等任務(wù)的基礎(chǔ)。MUC-7(The Seventh Message Understanding Conferences)會議將命名實(shí)體細(xì)化為7類:人名(Person)、地名(Location)、機(jī)構(gòu)名(Organization)、日期(data)、時(shí)間(time)、百分?jǐn)?shù)(percentage)、金額(monetary value)等。中文命名實(shí)體識別的核心在于確定文本中命名實(shí)體的邊界,由于中文不同于西方語言,沒有明確的詞語邊界,不具備良好的字形特征,在實(shí)體詞之間,實(shí)體詞與非實(shí)體詞之間存在邊界模糊等問題,使得中文命名實(shí)體識別難度較大。

本文從食品安全裁判文書中,快速、準(zhǔn)確地識別相關(guān)命名實(shí)體,先提取人名、地名、組織機(jī)構(gòu)名,比如人名實(shí)體包括:原告、被告、法官、委托代理人等;組織機(jī)構(gòu)名主要指與案情相關(guān)的機(jī)構(gòu),如公安機(jī)關(guān)、法院、律師事務(wù)所等;地名實(shí)體用來表達(dá)案發(fā)地點(diǎn)。由于面向食品安全領(lǐng)域,在對通用的命名實(shí)體進(jìn)行識別之后,還需識別食品、毒害物、危害后果等命名實(shí)體。本文采用的命名實(shí)體識別流程如圖1所示,首先對食品安全裁判文書中的文本進(jìn)行句子分割,得到字符串序列,然后進(jìn)行中文分詞,得到標(biāo)識后的句子,接著進(jìn)行詞性標(biāo)注,返回標(biāo)注后的句子,在此基礎(chǔ)上,進(jìn)行命名實(shí)體識別,最終得到分塊后的句子,即命名實(shí)體。

2 基于條件隨機(jī)場的命名實(shí)體識別

條件隨機(jī)場CRF(Conditional Random Fields)是一種無向圖模型,在給定輸入結(jié)點(diǎn)值時(shí),計(jì)算指定輸出結(jié)點(diǎn)值的條件概率,該模型有效地解決了隱馬爾科夫模型的獨(dú)立性假設(shè)、基于最大熵的馬爾科夫模型標(biāo)記偏執(zhí)等問題,在分詞和命名實(shí)體識別領(lǐng)域有較高的識別率。CRF采用基于序列標(biāo)注的機(jī)器學(xué)習(xí)方法,主要涉及中文分詞、詞性標(biāo)注、訓(xùn)練語料生成、特征定義和模型訓(xùn)練。

則稱[P(Y|X)]為線性鏈CRF。在標(biāo)注問題中,[X]表示輸入觀測序列,[Y]表示對應(yīng)的狀態(tài)序列或輸出標(biāo)記序列。已知訓(xùn)練數(shù)據(jù)集,線性鏈CRF可通過極大似然估計(jì)得到條件概率模型。CRF通過定義權(quán)重系數(shù)和特征函數(shù)轉(zhuǎn)化為機(jī)器學(xué)習(xí)問題,具有如下形式:

其中,[P(y|x)]表示某個(gè)標(biāo)簽序列的概率,[λa]和[μb]表示對應(yīng)特征函數(shù)的權(quán)重參數(shù),[ta]代表定義在[Y]節(jié)點(diǎn)上下文的特征函數(shù),[Sb]為定義在[Y]節(jié)點(diǎn)上的特征函數(shù)[10]。CRF的預(yù)測問題是在給定[P(Y|X)]和輸入序列[x]的前提下,求條件概率最大的輸出序列[y*]。CRF預(yù)測算法如下所示。

3 實(shí)驗(yàn)結(jié)果與分析

本研究從無訟網(wǎng)公開的裁判文書中,下載3000余份食品安全相關(guān)文書,使用語言技術(shù)平臺HanLP[11]進(jìn)行分詞、詞性標(biāo)注及命名實(shí)體識別處理,與名詞實(shí)體相關(guān)的HanLP詞性標(biāo)注集如表1所示。

以裁判文書文本“2017年1月19日,被告人王從華在蕭縣文化路某排檔鹵制羊蹄時(shí)添加了過量的亞硝酸鹽。被害人金某食用后發(fā)生中毒。被告人王從華于2017年3月15日17時(shí)許到蕭縣公安局投案?!睘槔衷~結(jié)果為“2017/m,年/qt,1月/t,19/m,日/b,,/w,被告人/n,王從華/nr,在/p,蕭縣/ns,文化路/ns,某/rz,排檔/nz,鹵制/n,羊蹄/nz,時(shí)/qt,添加/v,了/ule,過量/vi,的/ude1,亞硝酸鹽/n,。/w,被害人/n,金某/nr,食用/vn,后/f,發(fā)生/v,中毒/vi,。/w,被告人/n,王從華/nr,于/p,2017/m,年/qt,3月/t,15/m,日/b,17/m,時(shí)許/nr,到/v,蕭縣公安局/nto,投案/vi,。/w”。統(tǒng)計(jì)出的命名實(shí)體如表2所示。

參考一系列食品安全國家標(biāo)準(zhǔn)(GB 2760-2017,GB 2761-2017等),收集整理食品詞典共370個(gè)詞,毒害物詞典320個(gè)詞,危害后果詞典30個(gè)詞,將上述詞典增加到HanLP平臺的自定義詞典中,重新分詞,結(jié)果為“/w,2017/m,年/qt,1月/t,19/m,日/b,,/w,被告人/n,王從華/nr,在/p,蕭縣/ns,文化路/ns,某/rz,排檔/nz,鹵/n,制/v,羊蹄/food,時(shí)/qt,添加/v,了/ule,過量/vi,的/ude1,亞硝酸鹽/poison,。/w,被害人/n,金某/nr,食用/vn,后/f,發(fā)生/v,中毒/consequence,。/w,被告人/n,王從華/nr,于/p,2017/m,年/qt,3月/t,15/m,日/b,17/m,時(shí)許/nr,到/v,蕭縣公安局/nt,投案/vi,。/w”。自定義詞典識別出的命名實(shí)體為:食品/羊蹄,毒害物/亞硝酸鹽,危害后果/中毒。

從以上結(jié)果可以看出,默認(rèn)情況下,HanLP平臺將食品“羊蹄”識別為“其他專名”,將毒害物“亞硝酸鹽”識別為“名詞”,將危害后果“中毒”識別為“動詞”。在加入自定義詞典后,將“羊蹄”識別為“食品名稱”,將“亞硝酸鹽”識別為“毒害物名稱”,將 “中毒”識別為“危害后果”,模型對食品安全相關(guān)命名實(shí)體的識別效果也有了相應(yīng)的提高。

4 結(jié)束語

本研究采用基于條件隨機(jī)場的命名實(shí)體識別方法,以無訟案例網(wǎng)中3000余例食品安全裁判文書為數(shù)據(jù)樣本,進(jìn)行自然語言分析,實(shí)現(xiàn)了非結(jié)構(gòu)化文本數(shù)據(jù)中關(guān)鍵命名實(shí)體(人名、地名、組織機(jī)構(gòu)名、食品、毒害物、危害后果)的提取,取得了比較好的效果,對于食品安全相關(guān)案件的犯罪預(yù)測預(yù)警,具有重要的理論和實(shí)踐意義。下一步,在命名實(shí)體識別的基礎(chǔ)上,繼續(xù)研究食品安全實(shí)體關(guān)系抽取,進(jìn)而構(gòu)建食品安全知識圖譜。

參考文獻(xiàn)(References):

[1] 徐飛,宋英華.海量食品安全事件下的命名實(shí)體識別研究[J].科研管理,2018.39(7):131-138

[2] 唐釗.條件隨機(jī)場模型在中文人名識別中的研究與實(shí)現(xiàn)[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2012.21:3-7

[3] 張劍,吳青,羊昕旖等.基于條件隨機(jī)場的農(nóng)業(yè)命名實(shí)體識別[J].計(jì)算機(jī)與現(xiàn)代化,2018.1:123-126

[4] 張華平,劉群.基于角色標(biāo)注的中國人名自動識別研究[J].計(jì)算機(jī)學(xué)報(bào),2004.1:85-91

[5] 俞鴻魁,張華平,劉群等.基于層疊隱馬爾可夫模型的中文命名實(shí)體識別[J].通信學(xué)報(bào),2006.2:87-94

[6] 郭劍毅,薛征山,余正濤等.基于層疊條件隨機(jī)場的旅游領(lǐng)域命名實(shí)體識別[J].中文信息學(xué)報(bào),2009.23(5):47-52

[7] 葉楓,陳鶯鶯,周根貴等.電子病歷中命名實(shí)體的智能識別[J].中國生物醫(yī)學(xué)工程學(xué)報(bào),2011.30(2):256-262

[8] 楊錦鋒,關(guān)毅,何彬等.中文電子病歷命名實(shí)體和實(shí)體關(guān)系語料庫構(gòu)建[J].軟件學(xué)報(bào),2016.27(11):2725-2746

[9] 鞠久朋,張偉偉,寧建軍,等.CRF與規(guī)則相結(jié)合的地理空間命名實(shí)體識別[J].計(jì)算機(jī)工程,2011.37(7):210-212,215

[10] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].清華大學(xué)出版社,2012.

[11] https://github.com/hankcs/HanLP.

猜你喜歡
食品安全
關(guān)于加強(qiáng)食品安全政府監(jiān)管的若干思考
完善我國食品召回制度的法律思考
淺析食品安全犯罪的成因及其對策
食品安全檢測技術(shù)研究現(xiàn)狀
經(jīng)濟(jì)法視角下大學(xué)生網(wǎng)絡(luò)訂餐食品安全問題分析
市場經(jīng)濟(jì)下食品安全對經(jīng)濟(jì)發(fā)展的意義
新媒體在食品安全監(jiān)管工作中的特點(diǎn)和作用
食品安全存在的問題和解決對策
我國食品安全監(jiān)管面臨的挑戰(zhàn)及應(yīng)對措施分析
科技視界(2016年21期)2016-10-17 20:50:50
食品安全體系中物流的重要性
主站蜘蛛池模板: 一本久道久久综合多人| 中文字幕在线视频免费| 国产在线观看成人91| 免费人成视网站在线不卡| 久久99国产乱子伦精品免| 精品久久777| 九九热免费在线视频| 在线欧美日韩国产| 超碰91免费人妻| 性喷潮久久久久久久久| 无码AV动漫| 成人va亚洲va欧美天堂| 婷婷色一二三区波多野衣| 日韩成人免费网站| 亚洲一区二区成人| 日本免费福利视频| 久久婷婷国产综合尤物精品| 中文字幕无码电影| 青青操国产视频| 亚洲永久精品ww47国产| 精品99在线观看| 在线观看视频99| av在线手机播放| 国产欧美高清| 成人中文在线| 国产97视频在线| 色成人综合| 综合五月天网| 亚洲国产中文在线二区三区免| 国产白浆视频| 98精品全国免费观看视频| 亚洲日韩每日更新| 国产精品成人第一区| 伦精品一区二区三区视频| 在线播放真实国产乱子伦| 狠狠躁天天躁夜夜躁婷婷| 手机成人午夜在线视频| 久久综合结合久久狠狠狠97色| m男亚洲一区中文字幕| 国产在线专区| 欧美性猛交一区二区三区| 亚洲精品在线影院| 久久精品女人天堂aaa| 国产成人高清精品免费| 538国产视频| 国产成年无码AⅤ片在线| 色天天综合久久久久综合片| 特级毛片8级毛片免费观看| 欧美不卡二区| 国产成人精品一区二区三区| 青草国产在线视频| 91精品国产一区| 国产精品无码一区二区桃花视频| 精品福利视频网| 精品在线免费播放| 亚洲精品片911| 国产精品区网红主播在线观看| 精品人妻系列无码专区久久| 99re在线免费视频| 国产一区二区色淫影院| 亚洲美女久久| 99久久人妻精品免费二区| 在线免费观看AV| www成人国产在线观看网站| 狠狠躁天天躁夜夜躁婷婷| 国产91视频观看| 超碰免费91| 亚洲—日韩aV在线| 91在线精品麻豆欧美在线| 成人免费网站久久久| 激情综合网激情综合| 国产精品网拍在线| 亚洲色欲色欲www在线观看| 成人另类稀缺在线观看| 国产成人av大片在线播放| 国产精品亚欧美一区二区| 亚洲综合专区| 国产粉嫩粉嫩的18在线播放91| 色综合狠狠操| 在线免费亚洲无码视频| 毛片国产精品完整版| 极品国产在线|