999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)技術(shù)的在線(xiàn)疾病診療方案傾向性識(shí)別研究

2018-03-22 03:53:10,,
關(guān)鍵詞:分類(lèi)文本

,,

隨著互聯(lián)網(wǎng)的快速發(fā)展,在線(xiàn)醫(yī)療咨詢(xún)受到廣大互聯(lián)網(wǎng)用戶(hù)的青睞。根據(jù)2018年1月發(fā)布的第41次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]可知,在線(xiàn)醫(yī)療已取得了快速發(fā)展。

近年來(lái),民眾進(jìn)行健康咨詢(xún)時(shí),對(duì)西醫(yī)和中醫(yī)治療效果的關(guān)注有增加趨勢(shì)。不同病癥有各自適合的治療方案,因此有必要分析具體病癥的西醫(yī)或中醫(yī)治療方案的傾向性。如果能從疾病癥狀描述中提取有用信息,識(shí)別出適合的治療方案,則可快速為用戶(hù)提供具有針對(duì)性的備選治療方案。心血管疾病癥狀典型,既有西醫(yī)也有中西醫(yī)結(jié)合治療方案,適合用作研究對(duì)象[2]。

鑒于此,本文抓取在線(xiàn)醫(yī)療網(wǎng)站的疾病信息,以心血管疾病作為具體對(duì)象,采用機(jī)器學(xué)習(xí)技術(shù)識(shí)別其治療方案的傾向性。

1 研究方法

隨著數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,醫(yī)學(xué)文本挖掘已經(jīng)成為醫(yī)學(xué)研究的一個(gè)重要方向。在中醫(yī)藥治療哮喘處方規(guī)律的研究上,孟繁璞[3]采用文本挖掘技術(shù),從中國(guó)生物文獻(xiàn)數(shù)據(jù)庫(kù)以及中國(guó)學(xué)術(shù)期刊數(shù)據(jù)庫(kù)中總結(jié)出治療支氣管哮喘的常用藥劑;劉俊麗等[4]以萬(wàn)方醫(yī)學(xué)網(wǎng)收錄的乙肝研究的期刊文獻(xiàn)為數(shù)據(jù)源,采用文本挖掘技術(shù),構(gòu)建了共詞矩陣并繪制乙型肝炎相關(guān)文獻(xiàn)的知識(shí)圖譜;姜春燕[5]利用文本挖掘技術(shù)分析銀屑病中醫(yī)用藥規(guī)律和中醫(yī)治療銀屑病的核心藥物及其組合配伍關(guān)系。以上相關(guān)研究大都側(cè)重對(duì)已有文本數(shù)據(jù)的挖掘和統(tǒng)計(jì),缺乏對(duì)挖掘出來(lái)的信息進(jìn)行有效預(yù)測(cè)。從應(yīng)用角度上講,對(duì)于新病例的咨詢(xún)預(yù)測(cè),是需要重點(diǎn)解決的核心問(wèn)題。

機(jī)器學(xué)習(xí)技術(shù)為醫(yī)學(xué)文本挖掘提供了有效的支持。如楊帆[6]通過(guò)計(jì)算病人與各種不良反應(yīng)的關(guān)聯(lián)強(qiáng)度建立的個(gè)性化藥物不良反應(yīng)排序表,實(shí)現(xiàn)了基于機(jī)器學(xué)習(xí)的藥物不良反應(yīng)預(yù)測(cè)及分析;葉雷[7]引入4種機(jī)器學(xué)習(xí)算法(k近鄰、決策樹(shù)、支持向量機(jī)和隨機(jī)森林),實(shí)現(xiàn)了對(duì)慢性腎病數(shù)據(jù)的分類(lèi)預(yù)測(cè)。盡管機(jī)器學(xué)習(xí)已在醫(yī)療領(lǐng)域取得廣泛應(yīng)用,但有關(guān)在線(xiàn)醫(yī)療數(shù)據(jù)診療方案傾向性的研究鮮有涉足。本文以中、西醫(yī)分類(lèi)作為切入點(diǎn),對(duì)疾病的癥狀進(jìn)行分析,預(yù)測(cè)出該疾病適合的診療方案,證明機(jī)器學(xué)習(xí)技術(shù)對(duì)在線(xiàn)醫(yī)療數(shù)據(jù)的預(yù)測(cè)效果。

網(wǎng)絡(luò)爬蟲(chóng)(web crawler)技術(shù)是獲取互聯(lián)網(wǎng)資源的一種有效方法。在網(wǎng)絡(luò)爬蟲(chóng)與醫(yī)療領(lǐng)域相結(jié)合方面,卞偉瑋[8]利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),構(gòu)建了健康醫(yī)療大數(shù)據(jù),實(shí)現(xiàn)了對(duì)多類(lèi)型醫(yī)療數(shù)據(jù)的自動(dòng)爬取;為構(gòu)建醫(yī)療主題搜索引擎,陳祖德[9]通過(guò)Map/Reduce框架,創(chuàng)建了面向醫(yī)療主題的網(wǎng)絡(luò)爬蟲(chóng)。但在現(xiàn)有基于網(wǎng)絡(luò)爬蟲(chóng)的醫(yī)療數(shù)據(jù)分析研究中,通常僅對(duì)數(shù)據(jù)做簡(jiǎn)單統(tǒng)計(jì),有必要將機(jī)器學(xué)習(xí)技術(shù)與醫(yī)療主題的爬蟲(chóng)系統(tǒng)結(jié)合,實(shí)現(xiàn)對(duì)在線(xiàn)醫(yī)療數(shù)據(jù)的分析與預(yù)測(cè)。

2 研究設(shè)計(jì)

基于上述分析,本文使用網(wǎng)絡(luò)爬蟲(chóng)從互聯(lián)網(wǎng)上采集疾病癥狀數(shù)據(jù),利用文本挖掘技術(shù)提取特征向量,以疾病的中、西醫(yī)診療方案傾向性為分類(lèi)目標(biāo),采用機(jī)器學(xué)習(xí)分類(lèi)算法(支持向量機(jī)、決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)等)構(gòu)建分類(lèi)模型,有效識(shí)別病癥數(shù)據(jù)的中、西醫(yī)診療方案傾向性。

具體流程設(shè)計(jì)如下:獲取在線(xiàn)醫(yī)療數(shù)據(jù)→文本分詞和過(guò)濾→提取特征關(guān)鍵詞→文本向量化→分類(lèi)算法訓(xùn)練→對(duì)新的文本數(shù)據(jù)進(jìn)行預(yù)測(cè)。其中,醫(yī)療數(shù)據(jù)的獲取是通過(guò)網(wǎng)絡(luò)爬蟲(chóng)對(duì)病癥信息進(jìn)行爬取;文本分詞和過(guò)濾,采用分詞技術(shù)對(duì)文本進(jìn)行預(yù)處理,使用停用詞字典將高頻但對(duì)研究無(wú)意義的詞去除;提取特征關(guān)鍵詞,是使用詞頻-逆向文件頻率方法實(shí)現(xiàn)關(guān)鍵詞的自動(dòng)抽取;文本向量化,即使用Python機(jī)器學(xué)習(xí)工具包scikit-learn完成文本向量化;分類(lèi)算法訓(xùn)練,是采用機(jī)器學(xué)習(xí)分類(lèi)算法,構(gòu)建分類(lèi)模型;對(duì)新的文本數(shù)據(jù)進(jìn)行預(yù)測(cè),是指對(duì)新采集的文本預(yù)處理,并輸入分類(lèi)模型進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)流程如圖1所示。

2.1 數(shù)據(jù)來(lái)源與獲取

以39健康網(wǎng)的子網(wǎng)站39疾病百科網(wǎng)作為數(shù)據(jù)來(lái)源。該網(wǎng)站所提供的信息來(lái)自中國(guó)前100名三甲醫(yī)院的健康科普內(nèi)容和一線(xiàn)專(zhuān)家的原創(chuàng)健康科普視頻和文章,數(shù)據(jù)可靠性較高。該網(wǎng)站收錄了14 502種疾病,并提供了病因、癥狀、預(yù)防以及治療等內(nèi)容。其中“治療”鏈接中,為有的病例提供了西醫(yī)治療方案或中西醫(yī)結(jié)合的治療方案。通過(guò)對(duì)病例的“癥狀”和“治療”2個(gè)模塊的獲取,可以得到該病例的癥狀數(shù)據(jù)和治療方案類(lèi)別標(biāo)簽。本文使用Python語(yǔ)言編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng),共獲取439條有效的癥狀數(shù)據(jù)。

2.2 文本處理

首先,使用“結(jié)巴”中文分詞工具[10],對(duì)爬取到的數(shù)據(jù)進(jìn)行中文分詞、過(guò)濾停用詞及初步精簡(jiǎn);其次,通過(guò)TF-IDF算法提取出文本中的關(guān)鍵詞。詞頻-逆向文件頻率(TF-IDF)[11]可以過(guò)濾掉一些常見(jiàn)的無(wú)關(guān)緊要的詞語(yǔ),同時(shí)保留影響整個(gè)文本的重要字詞。對(duì)每條病例進(jìn)行特征關(guān)鍵詞統(tǒng)計(jì),計(jì)算特征關(guān)鍵詞頻率,組成一個(gè)詞頻矩陣,得到病癥的特征向量。

圖1基于機(jī)器學(xué)習(xí)的治療方案類(lèi)別預(yù)測(cè)流程

由于不同病例中特征關(guān)鍵詞的分布和頻率差異較大,所以對(duì)關(guān)鍵詞進(jìn)行分析,有助于發(fā)現(xiàn)疾病癥狀與治療方案傾向性的內(nèi)在關(guān)系。部分特征關(guān)鍵詞及對(duì)應(yīng)詞頻見(jiàn)表1。

表1 排名前20的高頻特征詞及詞頻

以心臟病和血栓病為例,心臟病的治療方案有西醫(yī)治療方案和中醫(yī)治療方案,血栓病的治療方案只有西醫(yī)治療方案,二者在疾病癥狀上的特征關(guān)鍵詞的頻率存在較大差異:心臟病的部分高頻特征關(guān)鍵詞,如“心臟”“心力衰竭”“呼吸困難”“心悸”等,在血栓癥癥狀中恰恰是低頻詞;而血栓癥中的部分高頻特征關(guān)鍵詞,如“動(dòng)脈”“血管”“靜脈”“梗死”等,在心臟病癥狀中卻是低頻詞。從關(guān)鍵詞集合可以發(fā)現(xiàn),適用于西醫(yī)方案的特征關(guān)鍵詞多趨向于一個(gè)集合,而適合中西醫(yī)結(jié)合方案的特征關(guān)鍵詞多存在于另一個(gè)集合。

西醫(yī)治療方案、中西醫(yī)結(jié)合治療方案的部分高頻關(guān)鍵詞見(jiàn)表2、表3。從表2、表3可以看出,不同疾病的治療方案所對(duì)應(yīng)的特征關(guān)鍵詞集合不同,如西醫(yī)治療方案高頻關(guān)鍵詞是“雜音”“狹窄”等,而中西醫(yī)結(jié)合方案高頻關(guān)鍵詞為“心絞痛”“發(fā)作”等。正是由于這兩種分類(lèi)所包含的關(guān)鍵詞存在較大區(qū)別,數(shù)據(jù)有明確的可分性,因此適合建立機(jī)器學(xué)習(xí)分類(lèi)模型進(jìn)行識(shí)別。

表2 西醫(yī)治療方案的部分高頻關(guān)鍵詞

表3 中西醫(yī)結(jié)合治療方案的部分高頻關(guān)鍵詞

同時(shí),考慮到高維特征向量對(duì)識(shí)別效果的影響,需要對(duì)其進(jìn)行主成分分析(Principal Component Analysis,PCA)降維操作,使高維數(shù)據(jù)投影到較低維空間,盡可能少丟失信息,增加數(shù)據(jù)的可分性。

2.3 分類(lèi)標(biāo)簽處理

為每條疾病的特征向量添加類(lèi)別標(biāo)簽,如心肌炎對(duì)應(yīng)西醫(yī)治療方案標(biāo)簽,心源性休克對(duì)應(yīng)西醫(yī)治療方案標(biāo)簽,心臟病對(duì)應(yīng)中西醫(yī)結(jié)合治療方案標(biāo)簽,低血壓對(duì)應(yīng)中西醫(yī)結(jié)合治療方案標(biāo)簽等。每條疾病癥狀都對(duì)應(yīng)了一條西醫(yī)方案治療方案或者中西醫(yī)結(jié)合治療方案,將疾病特征向量和對(duì)應(yīng)的治療方案類(lèi)別結(jié)合,最終得到樣本集。

2.4 分類(lèi)實(shí)驗(yàn)設(shè)計(jì)

本文選用3種機(jī)器學(xué)習(xí)算法構(gòu)建分類(lèi)模型,具體如下。

支持向量機(jī)(Support Vector Machine,SVM)[12]是一種有監(jiān)督的分類(lèi)算法。通過(guò)構(gòu)造一個(gè)最優(yōu)超平面,令正負(fù)類(lèi)別樣本之間距離最大,從而達(dá)到最佳預(yù)測(cè)效果。SVM在解決小樣本、非線(xiàn)性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),取得了廣泛應(yīng)用。其原理如圖2所示。圖中,五角星和圓形分別代表西醫(yī)和中西醫(yī)結(jié)合2類(lèi)樣本,中間的紅色斜線(xiàn)為分類(lèi)線(xiàn)。SVM基本思想就是計(jì)算能夠正確分類(lèi)盡可能多樣本,并且使分類(lèi)間隔最大的分類(lèi)線(xiàn)作為最優(yōu)分類(lèi)模型。

決策樹(shù)[13]是一種基于信息熵的分類(lèi)算法。通過(guò)計(jì)算對(duì)象屬性與類(lèi)別值之間的信息增益,并利用一系列規(guī)則對(duì)樣本進(jìn)行分類(lèi)。因其輸出結(jié)果易于理解和解釋而被廣泛應(yīng)用于醫(yī)學(xué)信息領(lǐng)域。

圖2 支持向量機(jī)的分類(lèi)示意圖

人工神經(jīng)網(wǎng)絡(luò)[14]是模仿生物神經(jīng)作用模式而提出的一種機(jī)器學(xué)習(xí)算法,是機(jī)器學(xué)習(xí)分類(lèi)的重要方法,其基本思路是通過(guò)激活函數(shù)來(lái)模擬非線(xiàn)性映射,從而實(shí)現(xiàn)非線(xiàn)性分類(lèi)。

實(shí)驗(yàn)中,首先是將樣本集隨機(jī)打散,隨機(jī)選取70%的樣本作為訓(xùn)練集,剩下的30%作為測(cè)試集;其次是采用PCA將原始特征向量從10 583維降到300維;最后,對(duì)測(cè)試集進(jìn)行預(yù)測(cè),采用準(zhǔn)確率(accuracy)、查準(zhǔn)率(precision)、查全率(recall)評(píng)判效果。其中查準(zhǔn)率衡量分類(lèi)的效果,查全率衡量分類(lèi)的效率。此外,本文引入ROC曲線(xiàn)來(lái)評(píng)判綜合分類(lèi)性能。

(1)

(2)

(3)

式中,TP在對(duì)中醫(yī)西醫(yī)類(lèi)別的分類(lèi)預(yù)測(cè)中被正確劃分為中醫(yī)西醫(yī)類(lèi)別的數(shù)量,F(xiàn)P在對(duì)西醫(yī)類(lèi)別的分類(lèi)預(yù)測(cè)中被錯(cuò)誤劃分為中醫(yī)西醫(yī)類(lèi)別的數(shù)量,F(xiàn)N在對(duì)中醫(yī)西醫(yī)類(lèi)別的分類(lèi)預(yù)測(cè)中被錯(cuò)誤劃分為西醫(yī)類(lèi)別的數(shù)量,TN在對(duì)西醫(yī)類(lèi)別的分類(lèi)預(yù)測(cè)中被正確劃分為西醫(yī)類(lèi)別的數(shù)量。

3 結(jié)果分析

實(shí)驗(yàn)中采用Python環(huán)境下的scikit-learn工具包。其中,支持向量機(jī)采用C-SVM算法,決策樹(shù)采用C5.0,神經(jīng)網(wǎng)絡(luò)采用多層感知機(jī)網(wǎng)絡(luò)MLP Network。支持向量機(jī)下正則化系數(shù)C設(shè)為1,該值越大對(duì)分錯(cuò)樣本的懲罰程度越大,訓(xùn)練精度越高。核函數(shù)采用RBF高斯核函數(shù),核參數(shù)gamma設(shè)為樣本特征數(shù)的倒數(shù)。MLP網(wǎng)絡(luò)采用單隱層結(jié)構(gòu),有100個(gè)神經(jīng)元。

每次實(shí)驗(yàn)樣本集都是隨機(jī)的,導(dǎo)致每次結(jié)果有輕微波動(dòng)。因此,循環(huán)運(yùn)行實(shí)驗(yàn)100次,取預(yù)測(cè)正確率的平均值和標(biāo)準(zhǔn)差(表4)。從表4可看出,3種分類(lèi)算法結(jié)果的區(qū)別不大,均保持在92%左右,表明利用疾病的癥狀特征對(duì)疾病治療方案進(jìn)行預(yù)測(cè)的方法是可行的。

表4 100次試驗(yàn)的平均精準(zhǔn)度和標(biāo)準(zhǔn)差

3種分類(lèi)器的查準(zhǔn)率和查全率見(jiàn)表5。從表5可以看出,查全率均接近100%或?yàn)?00%,查準(zhǔn)率為90%左右,表明分類(lèi)效果和效率均比較理想。3種分類(lèi)算法的ROC曲線(xiàn)對(duì)比見(jiàn)圖3。從圖3中3條曲線(xiàn)可以看出,3種分類(lèi)器最終分類(lèi)結(jié)果基本相似,驗(yàn)證了3種分類(lèi)器的合理性和可行性。

表5 3種分類(lèi)算法的查準(zhǔn)率和查全率

圖3 3種分類(lèi)算法的ROC曲線(xiàn)對(duì)比

4 結(jié)語(yǔ)

本文運(yùn)用機(jī)器學(xué)習(xí)技術(shù)對(duì)在線(xiàn)醫(yī)療網(wǎng)站數(shù)據(jù)內(nèi)容進(jìn)行的實(shí)證分析,檢驗(yàn)了機(jī)器學(xué)習(xí)技術(shù)在在線(xiàn)醫(yī)療網(wǎng)站文本分析中的有效性,實(shí)現(xiàn)了對(duì)心血管類(lèi)疾病治療方案的預(yù)測(cè)和推薦,最終揭示了疾病癥狀和治療方案之間內(nèi)在的聯(lián)系,并可推廣至其他類(lèi)似病例。本文的不足之處在于未能將治療方案進(jìn)行細(xì)分,也未能將實(shí)驗(yàn)結(jié)果與用戶(hù)的實(shí)際需求相結(jié)合。下一步擬將機(jī)器學(xué)習(xí)運(yùn)用到其他具有多種治療方案選擇的疾病,并對(duì)治療方案進(jìn)一步細(xì)分,同時(shí)將此實(shí)驗(yàn)結(jié)果應(yīng)用到實(shí)際需求當(dāng)中,使之更加貼合用戶(hù)的信息需求和使用習(xí)慣等。

猜你喜歡
分類(lèi)文本
分類(lèi)算一算
垃圾分類(lèi)的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類(lèi)討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀(guān)天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 日本高清有码人妻| 97久久超碰极品视觉盛宴| 人妻91无码色偷偷色噜噜噜| 亚洲欧美成人在线视频| lhav亚洲精品| 久久a级片| 麻豆精选在线| 黄色网页在线观看| 精品99在线观看| a毛片基地免费大全| 亚洲高清日韩heyzo| 91视频青青草| 日韩国产综合精选| 2021亚洲精品不卡a| 国产精品污污在线观看网站| 国产精品露脸视频| 国产福利在线免费观看| 四虎精品黑人视频| 色婷婷丁香| 久草国产在线观看| 在线精品欧美日韩| 日韩中文无码av超清| 在线国产91| 中文字幕亚洲乱码熟女1区2区| 91热爆在线| 99精品视频在线观看免费播放| 国产精品无码作爱| 2021国产精品自产拍在线| 性做久久久久久久免费看| 国产在线91在线电影| 国产白丝av| 国产精品手机在线观看你懂的| 国产精品七七在线播放| 热久久综合这里只有精品电影| 国产激情无码一区二区三区免费| a级毛片免费播放| 亚洲中文精品人人永久免费| 波多野结衣的av一区二区三区| 欧美在线一二区| 亚洲第一黄色网址| 免费在线观看av| 国产成人综合在线观看| 亚洲日本在线免费观看| 国产91蝌蚪窝| 欧美午夜性视频| 亚洲精品制服丝袜二区| 亚洲熟女中文字幕男人总站| 欧美精品高清| 国产91视频免费观看| 欧美色综合网站| 亚洲欧美在线综合一区二区三区| 国产精品久久久精品三级| 日本亚洲成高清一区二区三区| 亚洲欧美日韩综合二区三区| 国产在线第二页| 久久久久青草大香线综合精品| 人妻91无码色偷偷色噜噜噜| 久久久精品无码一区二区三区| 成年女人a毛片免费视频| 91在线国内在线播放老师| hezyo加勒比一区二区三区| 欧美亚洲国产视频| 国产丝袜无码精品| 国产成人综合久久精品尤物| 嫩草国产在线| 亚洲精品亚洲人成在线| 亚洲Aⅴ无码专区在线观看q| 制服丝袜无码每日更新| 成年人视频一区二区| 国产精品国产主播在线观看| 在线观看国产网址你懂的| 久视频免费精品6| 国产精品久线在线观看| 欧美97欧美综合色伦图| aⅴ免费在线观看| 国产日韩欧美中文| 免费国产好深啊好涨好硬视频| 一级一级特黄女人精品毛片| 国产免费羞羞视频| 激情综合网址| 国产香蕉在线| 日韩毛片在线播放|