999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文分詞系統(tǒng)在中醫(yī)藥科研中的應(yīng)用

2014-11-17 17:16:18謝松
科技創(chuàng)新與應(yīng)用 2014年33期

謝松

摘 要:中文分詞與數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥領(lǐng)域應(yīng)用越來(lái)越廣泛,文章分析比較了目前的常用的幾種中文分詞算法,采用其中逆向最長(zhǎng)匹配算法,以《中醫(yī)藥大詞典》為輔助詞典,設(shè)計(jì)開(kāi)發(fā)了適用于中醫(yī)藥科研的中文分詞系統(tǒng),在多項(xiàng)中醫(yī)藥數(shù)據(jù)挖掘科研工作中得到了廣泛的應(yīng)用。

關(guān)鍵詞:中文分詞;逆向最長(zhǎng)匹配算法;中藥方劑

1 概述

中醫(yī)藥是中華民族的傳統(tǒng)瑰寶,經(jīng)過(guò)幾千年的傳承和發(fā)展,積累了豐富的臨床經(jīng)驗(yàn)和浩瀚的文獻(xiàn)資料,為實(shí)現(xiàn)中醫(yī)藥現(xiàn)代化,需要將古今中醫(yī)藥信息資源和現(xiàn)代先進(jìn)的信息技術(shù)相結(jié)合。通過(guò)應(yīng)用現(xiàn)代計(jì)算機(jī)技術(shù)對(duì)浩如煙海的中醫(yī)藥文獻(xiàn)資料進(jìn)行信息資源處理,可以促進(jìn)中醫(yī)藥知識(shí)的利用轉(zhuǎn)化及傳播推廣。

分詞是中文信息處理的基礎(chǔ),對(duì)于輸入的一段中文,成功的進(jìn)行中文分詞,可以達(dá)到計(jì)算機(jī)自動(dòng)識(shí)別語(yǔ)句含義的效果。中文分詞是自動(dòng)翻譯、數(shù)據(jù)挖掘技術(shù)、自然語(yǔ)言處理等信息處理領(lǐng)域的基礎(chǔ)環(huán)節(jié),長(zhǎng)期以來(lái)一直是研究的重點(diǎn)。近年來(lái)數(shù)據(jù)挖掘技術(shù)越來(lái)越受到中醫(yī)藥學(xué)者的重視,中文分詞在中醫(yī)藥領(lǐng)域也得到越來(lái)越廣泛地應(yīng)用。

2 中文分詞技術(shù)的算法

現(xiàn)有的分詞算法可分為三大類(lèi): 基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法[1]。

2.1 基于字符串匹配的分詞方法

基于字符串匹配的分詞方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最小(最短)匹配。基于字符串匹配的分詞方法優(yōu)點(diǎn)是分詞速度快,算法簡(jiǎn)單且易于實(shí)現(xiàn),但是不具備歧義處理能力。

2.2 基于理解的分詞方法

基于理解的分詞方法是通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。

2.3 基于統(tǒng)計(jì)的分詞方法

基于統(tǒng)計(jì)的分詞方法對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì)分詞,不需要切分詞典,因而又叫做無(wú)詞典分詞法或統(tǒng)計(jì)取詞方法。其理論依據(jù)是在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。

但這種方法也有一定的局限性,會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”等,并且對(duì)常用詞的識(shí)別精度差。

到底哪種分詞算法的準(zhǔn)確度更高,目前并無(wú)定論。對(duì)于任何一個(gè)成熟的分詞系統(tǒng)來(lái)說(shuō),不可能單獨(dú)依靠某一種算法來(lái)實(shí)現(xiàn),都需要綜合不同的算法。

3 運(yùn)用中文分詞系統(tǒng)分析中藥用藥規(guī)律

3.1 系統(tǒng)分析與設(shè)計(jì)

數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域亦具有廣闊的應(yīng)用前景,可用于預(yù)測(cè)推斷手術(shù)、臨床試驗(yàn)以及藥物治療的效果,在分析中藥方劑或古今醫(yī)案中的用藥規(guī)律時(shí),也經(jīng)常運(yùn)用數(shù)據(jù)挖掘的方法,而前提之一就是對(duì)數(shù)以萬(wàn)計(jì)的浩瀚文獻(xiàn)資料進(jìn)行預(yù)處理,在這個(gè)過(guò)程中,中文分詞系統(tǒng)可以發(fā)揮重要的作用。

由于中醫(yī)方劑的基本組成單位為藥材,而關(guān)于的藥材名稱(chēng)在藥典里已經(jīng)做了記載,中藥藥材的名稱(chēng)相對(duì)已經(jīng)固定,新出現(xiàn)的中藥材不多,因此在數(shù)據(jù)挖掘時(shí)根據(jù)標(biāo)準(zhǔn)藥典作為詞典,運(yùn)用基于字符串匹配的分詞方法處理中藥方劑用藥規(guī)律具有天然的優(yōu)勢(shì)。一般說(shuō)來(lái),逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。由于漢語(yǔ)單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。綜合以上幾點(diǎn)考慮,該研究在設(shè)計(jì)中文分詞系統(tǒng)時(shí),采取基于詞典的逆向最長(zhǎng)匹配算法,系統(tǒng)的流程圖如圖1。

3.2 中藥詞典的構(gòu)造

由于基于字符串匹配的分詞方法是從一個(gè)“充分大的”機(jī)器詞典中進(jìn)行詞條匹配,詞典的構(gòu)造是切詞的基礎(chǔ)。設(shè)計(jì)的詞典機(jī)制和詞條的完備率對(duì)分詞結(jié)果的準(zhǔn)確性將產(chǎn)生重要影響,詞典的性能在一定程度上決定著整個(gè)系統(tǒng)的性能[2]。目前構(gòu)造分詞詞典主要有三種設(shè)計(jì)方法:第一種方法,以機(jī)器做輔助,主要靠人工輸入信息的方式構(gòu)造詞典。第二種方法,從印刷版的詞典里獲取信息來(lái)構(gòu)造分詞詞典。第三種方法,通過(guò)對(duì)語(yǔ)料庫(kù)的加工處理和分析,抽取相關(guān)信息來(lái)實(shí)現(xiàn)分詞詞典的設(shè)計(jì)。

該項(xiàng)研究采取的是第二種方法。南京中醫(yī)藥大學(xué)編著的《中藥大辭典》,全書(shū)分上、下、附編三冊(cè),上、下冊(cè)為正文,收載6008味藥物及其有關(guān)栽培(飼養(yǎng))技術(shù)、藥材鑒定、化學(xué)成分、藥理作用、炮制、現(xiàn)代臨床研究等方面的中藥研究成果,反映了當(dāng)代中藥學(xué)的研究水平。該項(xiàng)研究以《中藥大辭典》為依據(jù),將其收錄的藥材名稱(chēng)編成電子版詞典,編好之后存入SQL Server數(shù)據(jù)庫(kù)作為分詞基礎(chǔ)。

3.3 逆向最長(zhǎng)匹配算法

逆向最大匹配法通常簡(jiǎn)稱(chēng)為RMM法,取詞典中單詞長(zhǎng)度最大值作為第一次取字?jǐn)?shù)量,從文章或者句子(字串)的末尾開(kāi)始切分,然后到詞典中進(jìn)行掃描。其流程圖如圖2。

偽代碼如下:

maxcibiao=詞表最大長(zhǎng)度

While Not EOF(1)

Line Input #1,Line1

subsen1=Line1

Do While Len(subsen1)>0/*要切分的句子長(zhǎng)度大于0*/

jiequ_now=Right(subsen1,maxcibiao)

/*從句子最右面截取詞表最大長(zhǎng)度的字符串*/

If vIsFound=1 Then

subsen1=Left(subsen1,Len(subsen1)-Len(jiequ_now))

/*判斷是否詞表中是否匹配,如果匹配則將這個(gè)詞記錄下來(lái),然后從原字符串中去除當(dāng)前截取,作為新的子串*/

Else

For k=1 To maxcibiao-1

LenJiequ=maxcibiao-k

tempWord=Right(jiequ_now,LenJiequ)

/*從詞表最大長(zhǎng)度減少1開(kāi)始循環(huán)處理,直到一個(gè)字符,到詞表中判斷是否匹配*/

/*如果匹配則將這個(gè)詞記錄下來(lái),再重新截取子串,否則將原字符串長(zhǎng)度減1之后重復(fù)上述過(guò)程*/

Next k

subsen1=Left(subsen1,Len(subsen1)-Len(temp Word))

End If

Loop

Wend

3.4 應(yīng)用舉例

文章設(shè)計(jì)的中文分詞系統(tǒng),既可以單獨(dú)使用,也可以作為數(shù)據(jù)挖掘的前期步驟,在中醫(yī)藥方劑挖掘分析的多項(xiàng)課題中得到了廣泛的應(yīng)用,以針對(duì)糖尿病的某項(xiàng)課題為例,通過(guò)在數(shù)據(jù)庫(kù)中以“糖尿病”為主題檢索,經(jīng)過(guò)篩選整理得到2369篇相關(guān)文獻(xiàn),每篇文獻(xiàn)使用不同的方劑與中藥藥材,以其中的五篇文獻(xiàn)為例,用到了下列藥材:

(1)“黃芪、生地黃、地骨皮、黃柏、黃連、水蛭等”。(2)“生黃芪30g、山藥30g、生地30g、茯苓15g、天花粉15g、麥冬12g、白術(shù)12g”。(3)“川穹12g、郁金12g、丹參12g、生黃芪30g、草決明10g、知母12g、生地黃12g”。(4)“熟地20g,枸杞子12g,山茱萸12g,黃芪30g,黃連10g,地龍12g,丹參20g,川芎12g,水蛭8g,石菖蒲8g”。(5)“熟地黃20 g,枸杞子12g,山茱萸12g,黃芪30g,黃連l0g,地龍12g,丹參20g,川芎12g,水蛭8g,石菖蒲8g”。

系統(tǒng)在處理第一條記錄時(shí),可以準(zhǔn)確地依次切分出水蛭、黃連、黃柏、地骨皮、生地黃、黃芪,其他的記錄也都準(zhǔn)確地一一切分出來(lái)。當(dāng)文獻(xiàn)量很大時(shí),手工摘出這些藥材并進(jìn)行統(tǒng)計(jì)分析是項(xiàng)勞動(dòng)量巨大的工作,通過(guò)分詞系統(tǒng)可以很快的得到統(tǒng)計(jì)結(jié)果,并且準(zhǔn)確率非常高。按照頻次統(tǒng)計(jì)的前20味藥材如表1。

表1 糖尿病方劑研究中藥材統(tǒng)計(jì)

3.5 存在的問(wèn)題與后續(xù)研究

中藥名稱(chēng)由于因時(shí)代不同、地域有別而產(chǎn)生差異,出現(xiàn)同藥異名現(xiàn)象,如龍腦又稱(chēng)冰片何首烏又稱(chēng)首烏。而醫(yī)生在開(kāi)處方時(shí),也會(huì)因?yàn)閭€(gè)人習(xí)慣對(duì)同一味藥材使用不同的名稱(chēng),例如將生地黃、熟地黃簡(jiǎn)稱(chēng)為生地、熟地、生熟地,貝母分為為川貝、浙貝,這些異名如在詞表中未收錄,分詞時(shí)則切分不出。有時(shí)因?yàn)閷?shí)際需要,同一味藥材炮制前后當(dāng)作不同的藥材,在分詞完成后,根據(jù)需要對(duì)這些藥材進(jìn)行單獨(dú)處理或是合并處理。在后續(xù)的研究中,以此中文分詞系統(tǒng)為子系統(tǒng),開(kāi)發(fā)出中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng),為科研工作提供了有力的工具。

4 結(jié)束語(yǔ)

中醫(yī)藥是我國(guó)獨(dú)具特色和優(yōu)勢(shì)的傳統(tǒng)醫(yī)學(xué),積淀了數(shù)千年的理論知識(shí)和臨床經(jīng)驗(yàn)。我們需要繼承珍貴的傳統(tǒng)經(jīng)驗(yàn),而發(fā)展更是首要任務(wù)。在信息技術(shù)高速發(fā)展的今天,中醫(yī)藥信息化建設(shè)是使中醫(yī)藥走向現(xiàn)代化的必然選擇,是中醫(yī)藥事業(yè)發(fā)展的重要保障。充分利用信息技術(shù),促進(jìn)中醫(yī)藥信息資源的開(kāi)發(fā)、利用和共享,對(duì)于促進(jìn)中醫(yī)藥事業(yè)加速發(fā)展水平和創(chuàng)新能力,實(shí)現(xiàn)中醫(yī)藥現(xiàn)代化具有十分重要的意義。利用中文分詞系統(tǒng)和數(shù)據(jù)挖掘技術(shù)可以對(duì)積累的臨床經(jīng)驗(yàn)挖掘出更多的價(jià)值,因此具有廣闊的應(yīng)用前景。目前在自然語(yǔ)言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很多,就是因?yàn)橹形谋匦栌蟹衷~這道工序。如何提高中文分詞技術(shù)的準(zhǔn)確性、更好地服務(wù)于中醫(yī)藥領(lǐng)域,還需要付出更多的努力。

參考文獻(xiàn)

[1]付年鈞,彭昌水,王慰.中文分詞技術(shù)及其實(shí)現(xiàn)[J].軟件導(dǎo)刊,2011,10(1):18-20.

[2]宗中.中文信息檢索中詞典機(jī)制分詞算法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(4):118-121.

If vIsFound=1 Then

subsen1=Left(subsen1,Len(subsen1)-Len(jiequ_now))

/*判斷是否詞表中是否匹配,如果匹配則將這個(gè)詞記錄下來(lái),然后從原字符串中去除當(dāng)前截取,作為新的子串*/

Else

For k=1 To maxcibiao-1

LenJiequ=maxcibiao-k

tempWord=Right(jiequ_now,LenJiequ)

/*從詞表最大長(zhǎng)度減少1開(kāi)始循環(huán)處理,直到一個(gè)字符,到詞表中判斷是否匹配*/

/*如果匹配則將這個(gè)詞記錄下來(lái),再重新截取子串,否則將原字符串長(zhǎng)度減1之后重復(fù)上述過(guò)程*/

Next k

subsen1=Left(subsen1,Len(subsen1)-Len(temp Word))

End If

Loop

Wend

3.4 應(yīng)用舉例

文章設(shè)計(jì)的中文分詞系統(tǒng),既可以單獨(dú)使用,也可以作為數(shù)據(jù)挖掘的前期步驟,在中醫(yī)藥方劑挖掘分析的多項(xiàng)課題中得到了廣泛的應(yīng)用,以針對(duì)糖尿病的某項(xiàng)課題為例,通過(guò)在數(shù)據(jù)庫(kù)中以“糖尿病”為主題檢索,經(jīng)過(guò)篩選整理得到2369篇相關(guān)文獻(xiàn),每篇文獻(xiàn)使用不同的方劑與中藥藥材,以其中的五篇文獻(xiàn)為例,用到了下列藥材:

(1)“黃芪、生地黃、地骨皮、黃柏、黃連、水蛭等”。(2)“生黃芪30g、山藥30g、生地30g、茯苓15g、天花粉15g、麥冬12g、白術(shù)12g”。(3)“川穹12g、郁金12g、丹參12g、生黃芪30g、草決明10g、知母12g、生地黃12g”。(4)“熟地20g,枸杞子12g,山茱萸12g,黃芪30g,黃連10g,地龍12g,丹參20g,川芎12g,水蛭8g,石菖蒲8g”。(5)“熟地黃20 g,枸杞子12g,山茱萸12g,黃芪30g,黃連l0g,地龍12g,丹參20g,川芎12g,水蛭8g,石菖蒲8g”。

系統(tǒng)在處理第一條記錄時(shí),可以準(zhǔn)確地依次切分出水蛭、黃連、黃柏、地骨皮、生地黃、黃芪,其他的記錄也都準(zhǔn)確地一一切分出來(lái)。當(dāng)文獻(xiàn)量很大時(shí),手工摘出這些藥材并進(jìn)行統(tǒng)計(jì)分析是項(xiàng)勞動(dòng)量巨大的工作,通過(guò)分詞系統(tǒng)可以很快的得到統(tǒng)計(jì)結(jié)果,并且準(zhǔn)確率非常高。按照頻次統(tǒng)計(jì)的前20味藥材如表1。

表1 糖尿病方劑研究中藥材統(tǒng)計(jì)

3.5 存在的問(wèn)題與后續(xù)研究

中藥名稱(chēng)由于因時(shí)代不同、地域有別而產(chǎn)生差異,出現(xiàn)同藥異名現(xiàn)象,如龍腦又稱(chēng)冰片何首烏又稱(chēng)首烏。而醫(yī)生在開(kāi)處方時(shí),也會(huì)因?yàn)閭€(gè)人習(xí)慣對(duì)同一味藥材使用不同的名稱(chēng),例如將生地黃、熟地黃簡(jiǎn)稱(chēng)為生地、熟地、生熟地,貝母分為為川貝、浙貝,這些異名如在詞表中未收錄,分詞時(shí)則切分不出。有時(shí)因?yàn)閷?shí)際需要,同一味藥材炮制前后當(dāng)作不同的藥材,在分詞完成后,根據(jù)需要對(duì)這些藥材進(jìn)行單獨(dú)處理或是合并處理。在后續(xù)的研究中,以此中文分詞系統(tǒng)為子系統(tǒng),開(kāi)發(fā)出中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng),為科研工作提供了有力的工具。

4 結(jié)束語(yǔ)

中醫(yī)藥是我國(guó)獨(dú)具特色和優(yōu)勢(shì)的傳統(tǒng)醫(yī)學(xué),積淀了數(shù)千年的理論知識(shí)和臨床經(jīng)驗(yàn)。我們需要繼承珍貴的傳統(tǒng)經(jīng)驗(yàn),而發(fā)展更是首要任務(wù)。在信息技術(shù)高速發(fā)展的今天,中醫(yī)藥信息化建設(shè)是使中醫(yī)藥走向現(xiàn)代化的必然選擇,是中醫(yī)藥事業(yè)發(fā)展的重要保障。充分利用信息技術(shù),促進(jìn)中醫(yī)藥信息資源的開(kāi)發(fā)、利用和共享,對(duì)于促進(jìn)中醫(yī)藥事業(yè)加速發(fā)展水平和創(chuàng)新能力,實(shí)現(xiàn)中醫(yī)藥現(xiàn)代化具有十分重要的意義。利用中文分詞系統(tǒng)和數(shù)據(jù)挖掘技術(shù)可以對(duì)積累的臨床經(jīng)驗(yàn)挖掘出更多的價(jià)值,因此具有廣闊的應(yīng)用前景。目前在自然語(yǔ)言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很多,就是因?yàn)橹形谋匦栌蟹衷~這道工序。如何提高中文分詞技術(shù)的準(zhǔn)確性、更好地服務(wù)于中醫(yī)藥領(lǐng)域,還需要付出更多的努力。

參考文獻(xiàn)

[1]付年鈞,彭昌水,王慰.中文分詞技術(shù)及其實(shí)現(xiàn)[J].軟件導(dǎo)刊,2011,10(1):18-20.

[2]宗中.中文信息檢索中詞典機(jī)制分詞算法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(4):118-121.

If vIsFound=1 Then

subsen1=Left(subsen1,Len(subsen1)-Len(jiequ_now))

/*判斷是否詞表中是否匹配,如果匹配則將這個(gè)詞記錄下來(lái),然后從原字符串中去除當(dāng)前截取,作為新的子串*/

Else

For k=1 To maxcibiao-1

LenJiequ=maxcibiao-k

tempWord=Right(jiequ_now,LenJiequ)

/*從詞表最大長(zhǎng)度減少1開(kāi)始循環(huán)處理,直到一個(gè)字符,到詞表中判斷是否匹配*/

/*如果匹配則將這個(gè)詞記錄下來(lái),再重新截取子串,否則將原字符串長(zhǎng)度減1之后重復(fù)上述過(guò)程*/

Next k

subsen1=Left(subsen1,Len(subsen1)-Len(temp Word))

End If

Loop

Wend

3.4 應(yīng)用舉例

文章設(shè)計(jì)的中文分詞系統(tǒng),既可以單獨(dú)使用,也可以作為數(shù)據(jù)挖掘的前期步驟,在中醫(yī)藥方劑挖掘分析的多項(xiàng)課題中得到了廣泛的應(yīng)用,以針對(duì)糖尿病的某項(xiàng)課題為例,通過(guò)在數(shù)據(jù)庫(kù)中以“糖尿病”為主題檢索,經(jīng)過(guò)篩選整理得到2369篇相關(guān)文獻(xiàn),每篇文獻(xiàn)使用不同的方劑與中藥藥材,以其中的五篇文獻(xiàn)為例,用到了下列藥材:

(1)“黃芪、生地黃、地骨皮、黃柏、黃連、水蛭等”。(2)“生黃芪30g、山藥30g、生地30g、茯苓15g、天花粉15g、麥冬12g、白術(shù)12g”。(3)“川穹12g、郁金12g、丹參12g、生黃芪30g、草決明10g、知母12g、生地黃12g”。(4)“熟地20g,枸杞子12g,山茱萸12g,黃芪30g,黃連10g,地龍12g,丹參20g,川芎12g,水蛭8g,石菖蒲8g”。(5)“熟地黃20 g,枸杞子12g,山茱萸12g,黃芪30g,黃連l0g,地龍12g,丹參20g,川芎12g,水蛭8g,石菖蒲8g”。

系統(tǒng)在處理第一條記錄時(shí),可以準(zhǔn)確地依次切分出水蛭、黃連、黃柏、地骨皮、生地黃、黃芪,其他的記錄也都準(zhǔn)確地一一切分出來(lái)。當(dāng)文獻(xiàn)量很大時(shí),手工摘出這些藥材并進(jìn)行統(tǒng)計(jì)分析是項(xiàng)勞動(dòng)量巨大的工作,通過(guò)分詞系統(tǒng)可以很快的得到統(tǒng)計(jì)結(jié)果,并且準(zhǔn)確率非常高。按照頻次統(tǒng)計(jì)的前20味藥材如表1。

表1 糖尿病方劑研究中藥材統(tǒng)計(jì)

3.5 存在的問(wèn)題與后續(xù)研究

中藥名稱(chēng)由于因時(shí)代不同、地域有別而產(chǎn)生差異,出現(xiàn)同藥異名現(xiàn)象,如龍腦又稱(chēng)冰片何首烏又稱(chēng)首烏。而醫(yī)生在開(kāi)處方時(shí),也會(huì)因?yàn)閭€(gè)人習(xí)慣對(duì)同一味藥材使用不同的名稱(chēng),例如將生地黃、熟地黃簡(jiǎn)稱(chēng)為生地、熟地、生熟地,貝母分為為川貝、浙貝,這些異名如在詞表中未收錄,分詞時(shí)則切分不出。有時(shí)因?yàn)閷?shí)際需要,同一味藥材炮制前后當(dāng)作不同的藥材,在分詞完成后,根據(jù)需要對(duì)這些藥材進(jìn)行單獨(dú)處理或是合并處理。在后續(xù)的研究中,以此中文分詞系統(tǒng)為子系統(tǒng),開(kāi)發(fā)出中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng),為科研工作提供了有力的工具。

4 結(jié)束語(yǔ)

中醫(yī)藥是我國(guó)獨(dú)具特色和優(yōu)勢(shì)的傳統(tǒng)醫(yī)學(xué),積淀了數(shù)千年的理論知識(shí)和臨床經(jīng)驗(yàn)。我們需要繼承珍貴的傳統(tǒng)經(jīng)驗(yàn),而發(fā)展更是首要任務(wù)。在信息技術(shù)高速發(fā)展的今天,中醫(yī)藥信息化建設(shè)是使中醫(yī)藥走向現(xiàn)代化的必然選擇,是中醫(yī)藥事業(yè)發(fā)展的重要保障。充分利用信息技術(shù),促進(jìn)中醫(yī)藥信息資源的開(kāi)發(fā)、利用和共享,對(duì)于促進(jìn)中醫(yī)藥事業(yè)加速發(fā)展水平和創(chuàng)新能力,實(shí)現(xiàn)中醫(yī)藥現(xiàn)代化具有十分重要的意義。利用中文分詞系統(tǒng)和數(shù)據(jù)挖掘技術(shù)可以對(duì)積累的臨床經(jīng)驗(yàn)挖掘出更多的價(jià)值,因此具有廣闊的應(yīng)用前景。目前在自然語(yǔ)言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很多,就是因?yàn)橹形谋匦栌蟹衷~這道工序。如何提高中文分詞技術(shù)的準(zhǔn)確性、更好地服務(wù)于中醫(yī)藥領(lǐng)域,還需要付出更多的努力。

參考文獻(xiàn)

[1]付年鈞,彭昌水,王慰.中文分詞技術(shù)及其實(shí)現(xiàn)[J].軟件導(dǎo)刊,2011,10(1):18-20.

[2]宗中.中文信息檢索中詞典機(jī)制分詞算法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(4):118-121.

主站蜘蛛池模板: 熟妇丰满人妻| 国产成人精品男人的天堂| 亚洲AV无码一区二区三区牲色| 午夜精品久久久久久久2023| 久久a毛片| 免费欧美一级| 精品一区二区三区无码视频无码| 四虎精品国产AV二区| 久热99这里只有精品视频6| 国产综合在线观看视频| 久久综合亚洲色一区二区三区| 四虎国产在线观看| 欧美视频免费一区二区三区| 国产素人在线| 国产综合精品一区二区| 91亚洲免费| 欧美综合成人| 国产精品久久久久久久久kt| 国产视频久久久久| 永久成人无码激情视频免费| 久久久久久久久久国产精品| 97在线免费视频| 亚洲成人黄色在线| 精品人妻无码中字系列| 国产黄色爱视频| 日本三区视频| 亚洲精品视频免费| 亚洲综合九九| 91色爱欧美精品www| 国产综合亚洲欧洲区精品无码| 国模私拍一区二区| 久久国产精品麻豆系列| 国产在线日本| 国产精品久久久久久久久久98| 欧美日韩在线亚洲国产人| 四虎永久在线视频| 日韩中文欧美| 亚洲精品无码抽插日韩| 超清无码熟妇人妻AV在线绿巨人| 国产视频你懂得| 中文无码毛片又爽又刺激| 亚洲v日韩v欧美在线观看| 国产精品私拍99pans大尺度| 无码专区在线观看| 国产乱子伦一区二区=| 亚洲欧美成人在线视频| www欧美在线观看| 国产一级在线观看www色 | 青青青伊人色综合久久| 国产激情无码一区二区三区免费| 伊在人亚洲香蕉精品播放| 又爽又大又黄a级毛片在线视频 | 国产午夜人做人免费视频| 无码视频国产精品一区二区| 成人精品在线观看| 久久一本日韩精品中文字幕屁孩| 久久综合丝袜长腿丝袜| 成人国产一区二区三区| 日韩一区二区三免费高清| 亚洲欧美日本国产综合在线| 欧美一区中文字幕| 精品无码日韩国产不卡av | 欧美午夜在线视频| 九色91在线视频| 日本一区二区三区精品视频| 久久香蕉欧美精品| 国产精品午夜电影| 国产一二三区在线| 天天综合网站| 在线观看精品自拍视频| 亚洲人成网18禁| 麻豆国产精品视频| 国产精品对白刺激| 国产在线无码av完整版在线观看| 国产欧美日韩精品第二区| 欧美精品综合视频一区二区| 亚洲人精品亚洲人成在线| 亚洲精品无码AV电影在线播放| 亚洲综合第一页| 99九九成人免费视频精品| 91麻豆国产在线| 欧美一级片在线|