999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特征條件隨機場的《金匱要略》癥狀藥物信息抽取研究

2016-10-22 03:41:30葉輝姬東鴻
關(guān)鍵詞:特征文本癥狀

葉輝,姬東鴻

1.廣州中醫(yī)藥大學(xué),廣東 廣州 510016;2.武漢大學(xué),湖北 武漢 430007

基于多特征條件隨機場的《金匱要略》癥狀藥物信息抽取研究

葉輝1,姬東鴻2

1.廣州中醫(yī)藥大學(xué),廣東 廣州 510016;2.武漢大學(xué),湖北 武漢 430007

目的 結(jié)合自然語言處理方法,研究可以有效抽取中醫(yī)古籍中所含癥狀和藥物文本實體信息的方法。方法 以《金匱要略》為例,采用條件隨機場(CRF)算法,先將文本進行分詞處理,然后以詞性、基于鍵值對的中醫(yī)診斷標記集作為輔助特征,通過癥狀-藥物 BlO標簽為訓(xùn)練特征來訓(xùn)練出模型,然后利用該模型對測試集文本進行自動標簽標注。結(jié)果 基于多特征CRF自動標注的結(jié)果準確率達到84.5%,召回率達到70.9%,F(xiàn)測度值達到77.1%。結(jié)論 運用CRF方法加入詞性、中醫(yī)診斷標記集特征集進行訓(xùn)練得出的多特征模型,能有效提高CRF算法對中醫(yī)古籍的實體抽取能力,生成的模型可用來自動化抽取中醫(yī)古籍文本的癥狀藥物實體信息。

條件隨機場;《金匱要略》;癥狀藥物信息抽取;中醫(yī)古籍

中國醫(yī)學(xué)存在大量的醫(yī)藥病案和古籍,如《傷寒論》《金匱要略》等中醫(yī)藥經(jīng)典。后人通過閱讀理解這些經(jīng)典,能夠?qū)W習(xí)名醫(yī)的經(jīng)典藥方和治療思路,甚至可以挖掘在古籍中的藥物信息,通過現(xiàn)代技術(shù)的藥物提純提煉,找出治療某種疾病的特效藥物。但由于中醫(yī)藥術(shù)語一直缺乏標準,古籍中的古文又偏澀難懂,科研人員想要獲取古籍中的癥狀和藥物信息比較費時,因此研究利用計算機自然語言處理中的算法高效地自動識別古籍里的中醫(yī)藥治療信息具有實際的應(yīng)用價值。

目前,醫(yī)學(xué)實體識別的方法主要有基于字典、基于規(guī)則和基于機器學(xué)習(xí)的方法[1],而基于機器學(xué)習(xí)的方法是主流。例如基于隱馬爾可夫模型、決策樹、支持向量機、最大熵、隨機條件場等方法等,這些方法把詞性、詞形等特征融入到機器學(xué)習(xí)模型中,利用訓(xùn)練得到的學(xué)習(xí)模型從生物醫(yī)學(xué)文本集合中識別出指定類型的名稱。

2001年,條件隨機場(conditional random fields, CRF)由美國Lafferty等人提出[2],結(jié)合了最大熵模型和隱馬爾可夫模型的特點,是一種無向圖模型,近年來在分詞、詞性標注和命名實體識別等序列標注任務(wù)中取得了很好的效果,該模型的特性表明它非常適用于醫(yī)學(xué)領(lǐng)域的命名實體識別研究。有鑒于此,本文采用CRF算法對中醫(yī)古籍《金匱要略》的醫(yī)學(xué)癥狀和藥物實體識別進行研究。

1 研究方法

在自然語言處理領(lǐng)域中,CRF模型可以使用字、詞、詞性等上下文特征,也可以引用詞典等外部特征,即可以將任意相關(guān)知識源融入文本特征中,解決了序列標注和文本切分的問題,且在英文序列標記名詞短語識別等方面取得了較好效果。CRF最常用的結(jié)構(gòu)為線性鏈,可以有效克服隱馬爾可夫模型假設(shè)條件的限制及最大熵模型標記偏執(zhí)的問題。

一般采用CRF做醫(yī)學(xué)術(shù)語抽取包括特征選取、參數(shù)估計和結(jié)果標注 3個步驟,首先選擇相關(guān)特征,然后利用所選特征對數(shù)據(jù)進行訓(xùn)練,得出特征函數(shù)權(quán)重參數(shù),最后通過輸入測試數(shù)據(jù),使用訓(xùn)練好的模型對文本進行序列標記,完成醫(yī)學(xué)命名實體識別。

1.1 數(shù)據(jù)準備與分詞

CRF的訓(xùn)練和測試選用了 CRF++工具包來實現(xiàn),CRF++工具包是一個可用于分詞、連續(xù)數(shù)據(jù)標注的簡單、可定制的開源的條件隨機場工具。首先要對《金匱要略》文本進行語料預(yù)處理和標注,然,后將其標注的語料分為 2個部分,70%的部分作為訓(xùn)練語料,30%的部分作為測試語料。利用CRF訓(xùn)練測試的步驟概括如圖1。

圖1 基于多特征的條件隨機場的中醫(yī)癥狀-藥物抽取步驟

《金匱要略》全書共25篇,方劑262首,列舉內(nèi)外科病癥60余種。由于年代久遠,古文意思較為難懂,又兼具通假字較多,所以首先要進行必要的數(shù)據(jù)清洗,如古文中的“之乎者也”不影響上下文醫(yī)學(xué)表達的詞都去掉。分詞處理使用中國科學(xué)院計算技術(shù)研究所開發(fā)的 ICTCLAS 2015分詞工具,此版本比過往版本對中文分詞處理更加完善。但由于分詞系統(tǒng)沒有經(jīng)過大量古文的自然語言方面的優(yōu)化,所以分出來的詞匯偏向以單字的形式出現(xiàn)比較多。最后本文采用書中前 1~22篇的文本清洗后的分詞結(jié)果共15 525詞條作為實驗數(shù)據(jù)集。

1.2 多特征選擇

術(shù)語識別中可以利用的特征有很多,根據(jù)不同的文本和識別任務(wù)可以引入不同的特征,如字符、拼音、詞性、詞邊界、各類命名實體列表、引導(dǎo)信息和頻次統(tǒng)計及語法依賴關(guān)系和句子傾向性等,不同的特征對術(shù)語識別有不同的影響[3]。同時,特征數(shù)的增加對抽取效果的改善有積極作用。根據(jù)《金匱要略》的文本特征,本實驗選用以下3個特征。

特征 1:詞性。詞性是中文文本處理中常用的一項特征,詞性特征指當前字符的詞性,本研究釆用 ICTCLAS2015的二級標注對語料庫的詞條進行自動詞性標注,如:“極寒傷經(jīng)”被系統(tǒng)標注為“極/d寒/a傷/v經(jīng)/n”,其中d、a、v、n分別代表該詞詞性為副詞、形容詞、動詞、名詞。

特征 2:采用鍵值對模型的中醫(yī)診斷標記集進行診斷標注。王國龍等[4]發(fā)現(xiàn),使用基于鍵值對模型的中醫(yī)診斷標記集標注的中醫(yī)古文在基于詞匯聯(lián)系的隱馬爾可夫模型測試中得到比較好的結(jié)果,因此本文參考鍵值對模型的中醫(yī)診斷標記集作為輔助特征引入到實驗中。其中剔去時機、屬性、附加描述這幾個標記,簡化后的鍵值對模型的中醫(yī)診斷標記如表1。

表1 鍵值對模型的中醫(yī)診斷標記集的標注情況

特征 3:癥狀-藥物類別標簽。該特征作為術(shù)語識別過程中的狀態(tài)值特征。中醫(yī)癥狀一般包括主癥、舌象及脈象、部位、部位表征描述等信息,藥物包括方劑和治法。本文通過總結(jié)中醫(yī)對癥狀和藥物的處理方式,形成表 2的標記集。在識別類別的基礎(chǔ)上采用“BIO”法標記[5],其中 B(beginning)表示術(shù)語的首字符,I(intermediate)表示術(shù)語的非首字符和結(jié)束字符,O(outside)表示非術(shù)語字符。由于中醫(yī)診斷中對于脈象比較關(guān)注,因此在癥狀-脈象中特別標簽了癥狀-脈類和癥狀-脈象,以提取其中的脈診知識。另外對癥狀也進行了標簽處理。

表2 CRF基于癥狀-藥物的類別標簽

1.3 語料訓(xùn)練與測試

應(yīng)用 CRF++要求事先指定一種功能模板。本文根據(jù)《金匱要略》文本特點設(shè)定一個特征模板,該模板用于描述訓(xùn)練文本和測試文本中的特征,進而提取訓(xùn)練集中的特征參數(shù)來實現(xiàn)測試文本標簽的計算。模板文件中的每一行表示一個子模版,表達方式為:%X[row, col],一個子模板表示輸入數(shù)據(jù)的一個 Token。本文設(shè)計將相鄰位置的特征進行聯(lián)合,有助于識別錯分詞或長距離詞。本實驗1和2選擇模板窗口的大小為前后兩行[-2,+2]。實驗2設(shè)計例子見表3。

表3 CRF實驗2設(shè)計例子

利用CRF++train訓(xùn)練工具,按照表3的訓(xùn)練集格式進行訓(xùn)練得出模型文件 model,然后再利用CRF++test工具將該模型應(yīng)用到測試集中去,最后得出帶有癥狀-藥物自動標簽的測試集。

1.4 實驗設(shè)計

本文設(shè)計了 2組實驗,通過對照組與實驗組的對比,測試采用不同特征的基于 CRF的《金匱要略》癥狀-藥物識別的性能及不同特征對性能的影響情況。實驗 1是單一特征對照實驗,僅選用詞本身、癥狀-藥物標記(參見表 2)進行實驗作為基準。實驗 2選用詞、詞性、簡化的中醫(yī)診斷標記集(參見表 1),癥狀-方劑-藥物標記(參見表 2)的多特征進行實驗,然后對以上 2組實驗的結(jié)果用conlleval工具進行測評,分析多特征對實驗識別效能的影響。

1.5 評價標準

基于CRF的中醫(yī)專業(yè)術(shù)語識別性能的評估采用3個指標:準確率(precision, P)、召回率(recall,R)和 F測度值(F-Measure)。P指抽取的信息中正確抽取的比例;R指正確抽取的信息占應(yīng)抽取信息的比例;F測度值即為正確率和召回率的調(diào)和平均值。其中 F測度值能比較合理地反映該信息抽取的有效程度。

2 結(jié)果與分析

實驗組1為實驗的基準,采用單一特征的CRF方法,得到抽取詞組準確率 P為 72.0%,召回率 R 為55.3%,F(xiàn)測度值為62.5%;而實驗組2引入多特征,再采用CRF處理后,得到抽取詞組準確率P為84.5%,召回率R為70.9%,F(xiàn)測度值為77.1%。見表4。單一特征進行分詞和癥狀藥物BIO標簽訓(xùn)練的F測度值比較低,而運用了分詞、詞性、中醫(yī)診斷簡化標記和癥狀藥物 BIO多特征標簽后,F(xiàn)測度值結(jié)果升高到 77.1%,說明引入該組合特征模型的識別效能較優(yōu)。可見對于中醫(yī)古籍的實體信息抽取,采用診斷標記和語言學(xué)規(guī)則(如詞性、分詞等)相結(jié)合的多特征模型,可令CRF抽取信息效果提高。

表4 CRF2個實驗組結(jié)果分析

3 小結(jié)

本文主要通過CRF工具對《金匱要略》進行癥狀-藥物信息提取,首先經(jīng)過分詞處理語料,然后加入詞性、中醫(yī)診斷標記等多個標注特征對中醫(yī)癥狀-藥物 BIO標簽進行訓(xùn)練和測試,得到 F測度值77.1%,比只運用單一特征的 CRF抽取的結(jié)果效率更高,可見利用本文提出的多特征模型的CRF提取方法對中醫(yī)古籍的信息抽取有良好的效果。通過對《金匱要略》等中醫(yī)古籍的信息抽取研究,為將來建立中醫(yī)藥搜索引擎及新藥物發(fā)掘等方面提供了一種可行的方法。

[1] 馬瑞民,馬民艷.基于CRFs的多策略生物醫(yī)學(xué)命名實體識別[J].齊齊哈爾大學(xué)學(xué)報,2011,27(1):39-42.

[2] LAFFERTY JD, MCCALLUM A, PEREIRA FCN. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//The 18th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc. ,2001:282-289.

[3] 孟洪宇.基于條件隨機場的《傷寒論》中醫(yī)術(shù)語自動識別研究[D].北京:北京中醫(yī)藥大學(xué),2014:33-34

[4] 王國龍,杜建強,郝竹林,等.中醫(yī)診斷古文的詞性標注與特征重組[J].計算機工程與設(shè)計,2015,36(3):836-841.

[5] 魏尊強,舒紅平,王亞強.基于序列標注的中醫(yī)癥狀名識別技術(shù)研究[J].山東工業(yè)技術(shù),2015(8):237-238.

Research on Symptom and Medicine Information Abstraction of TCM Book Jin Gui Yao Lue Based on Conditional Random Field

YE Hui1, JI Dong-hong2
(1. Guangzhou Chinese Medicine University, Guangzhou Guangdong 510006, China; 2. Wuhan University,Wuhan Hubei 430007, China)

Objective To find an efficient way to abstract symptoms and medicine information from TCM book Jin Gui Yao Lue through combination of natural language processing method. Methods Taking Jin Gui Yao Lue as an example and by using conditional random fields (CRF), texts were processed according to words, and then part of speech and key assignments based on TCM diagnosis marker group were set as auxiliary features. Symptom-medicine BIO labels were set as the training features to train the model. Then this model was used to conduct automatic labeling to tested texts. Results The accuracy rate of automatic labeling based on multifeature CRF was 84.5%, recall rate 70.9%, F measure value 77.1%. Conclusion The multi-feature model trained through CRF combined with part of speech and TCM diagnosis marker group can successfully improve abstraction entity information ability from ancient TCM books. The model can be used to automatically abstract symptom and medicine entity information from ancient TCM books.

conditional random fields (CRF); Jin Gui Yao Lue; symptom and medicine information abstraction; ancient TCM books

R222.3

A

2095-5707(2016)05-0014-04

葉輝,姬東鴻.基于多特征條件隨機場的《金匱要略》癥狀藥物信息抽取研究[J].中國中醫(yī)藥圖書情報雜志,2016,40(5):14-17. DOI: 10.3969/j.issn.2095-5707.2016.05.004

2016-06-08)

2016-08-08;編輯:魏民)

2014廣東省中醫(yī)藥局建設(shè)中醫(yī)藥強省科研課題(20141073);廣東財政專項(2013170)

葉輝,講師,研究方向為醫(yī)學(xué)信息學(xué)。E-mail:yehui@gzucm.edu.cn

猜你喜歡
特征文本癥狀
Don’t Be Addicted To The Internet
有癥狀立即治療,別“梗”了再搶救
可改善咳嗽癥狀的兩款藥膳
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
夏季豬高熱病的癥狀與防治
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 国产黄视频网站| 亚洲av片在线免费观看| 青青青视频91在线 | 日韩毛片免费观看| 日本成人一区| 欧美精品v欧洲精品| 亚洲天天更新| 久久毛片网| 免费A级毛片无码免费视频| 免费毛片全部不收费的| 国产福利大秀91| 久久精品无码一区二区日韩免费| 亚洲最新地址| 91青青草视频| 国内丰满少妇猛烈精品播| 国产成人毛片| 国产福利影院在线观看| 午夜毛片免费看| 五月丁香在线视频| 亚洲欧洲日韩国产综合在线二区| 中文字幕欧美日韩| 天天综合网站| 久草国产在线观看| 国产美女91呻吟求| 欧美日韩中文国产| 国产成人高清在线精品| 国产又黄又硬又粗| 青青操国产视频| 欧美激情网址| 好久久免费视频高清| 久久精品国产国语对白| 国产丝袜第一页| 日韩欧美国产综合| 伊人激情久久综合中文字幕| 国产av无码日韩av无码网站 | 欧美精品一区在线看| 狠狠色噜噜狠狠狠狠奇米777| 亚洲中文字幕日产无码2021| 国产精品短篇二区| 丝袜无码一区二区三区| av在线5g无码天天| 国产一区二区三区免费观看| 激情综合激情| 国产福利不卡视频| 制服丝袜在线视频香蕉| 免费三A级毛片视频| 欧美精品xx| 国产亚洲欧美另类一区二区| 91九色最新地址| 欧美成人手机在线视频| 国产产在线精品亚洲aavv| 1024你懂的国产精品| 日韩av在线直播| 色综合五月| 亚洲欧美一区二区三区图片| 国产黄在线免费观看| 亚洲色图综合在线| 国产情侣一区| 亚洲精品无码av中文字幕| 日韩精品成人在线| 国产日韩精品一区在线不卡| 一级黄色片网| 中日韩一区二区三区中文免费视频| 日本高清有码人妻| 日韩A级毛片一区二区三区| 中文字幕天无码久久精品视频免费| 中文字幕久久波多野结衣| 三上悠亚在线精品二区| 亚洲国产日韩在线观看| 国产在线拍偷自揄拍精品| 国产福利免费观看| 亚洲Va中文字幕久久一区| 成人在线亚洲| 免费欧美一级| 国产精品制服| 美女黄网十八禁免费看| 波多野结衣无码视频在线观看| 丁香六月激情综合| 日本少妇又色又爽又高潮| 国产成人综合日韩精品无码首页| 国产亚洲精久久久久久久91| 亚洲天堂久久新|