999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的針灸相關疾病、基因、藥物新關聯挖掘

2019-12-04 02:18:06
中華醫學圖書情報雜志 2019年8期
關鍵詞:關聯針灸

科學文獻是生物數據最可靠的來源之一[1]。利用機器學習的方法能在海量資料中挖掘出有效知識,并實時整合以往的經驗教訓[2]。目前,絕大部分生物醫學實體(如疾病、基因、藥物)的關聯存儲在各種生物信息學和臨床數據庫中,并以文本形式記錄在數據庫中,研究者需要用關聯挖掘工具識別文本中的實體及其之間的語義關聯,構建關聯網絡以描述實體之間的相互作用。近年來,國內外對生物實體間關聯進行了較多的研究,如蛋白質與蛋白質的關聯[3]、蛋白質與基因的關聯[4]、藥物與藥物的關聯[5]、藥物與疾病的關聯[6]等。

針灸是在中醫學中采用針刺或火灸人體穴位治療疾病的方法[7],是聯合國教科文組織認定的人類非物質文化遺產代表作之一,在中國已有幾千年歷史。針灸用于緩解人體各種疼痛已得到越來越多專家的認可,但其治療機制尚不明確[8],與基因和藥物之間的關聯也不明確,需要深入挖掘探討。

本文基于機器學習中的支持向量機(Support Vector Machine,SVM)方法,以針灸為例,識別疾病、基因和藥物實體,挖掘三者之間的關聯,構建出3個關聯網絡,預測實體間新關聯,提出實驗性研究假設,為研究人員今后進行有關針灸治療、疾病候選、基因篩選、靶向藥物和個性化醫療等研究提供數據支持和新的研究思路。

1 數據與方法

為順利完成本次研究,制定了如下研究步驟:構建詞典并獲取針灸相關英文文獻,基于詞典和SVM方法對文獻摘要進行實體識別,基于SVM方法挖掘針灸相關疾病、基因和藥物的關聯,設定最小Lift閾值并依據關聯規則計算并排序疾病-基因-藥物之間的關聯,利用R語言實現關聯網絡的可視化和分析新關聯,使用ROC曲線驗證本文算法的準確性。

1.1 構建詞典

首先從國際疾病分類-10(International Statistical Classification of Diseases and Related Health Problems 10th Revision,ICD-10)[9]、Entrez GENE[10-11]、Gene Ontology[12]、OMIM[13]、DrugBank[14]等數據庫中獲取并建立疾病、基因和藥物詞典,命名為“Disease_Dictionary”(共計2 036個類目)、“Gene_Dictionary”(共計4 0172個人類基因詞條)和“Drug_Dictionary”(共計1 763種藥物詞條)。

詞典包括每個基因(藥物)的標準名稱、別名、同義詞、標準編號等屬性。以這3個詞典為標準進行命名實體識別。

1.2 獲取數據

在PubMed數據庫中以“"acupuncture"[MeSH Terms] OR "acupuncture"[All Fields] OR "acupuncture therapy"[MeSH Terms] OR ("acupuncture"[All Fields] AND "therapy"[All Fields]) OR "acupuncture therapy"[All Fields]”為關鍵詞進行檢索,截止日期為2017年2月13日,得到25 777篇相關文獻,其中18 333篇含有摘要。本文以這18 333篇文獻摘要為主要對象進行文本關聯挖掘研究。

考慮到醫學文獻專業性較高及后期數據處理的實際需求,采用以下方法對文獻摘要進行預處理:去除所有與本文無關的信息,如作者信息、發表日期等;由于摘要中出現的“BACKGROUND:”“METHODS:”“RESULTS:”“CONCLUSION:”等部分期刊的標準格式,不影響最終處理結果,所以本文將這些單詞全部移除;保留文獻摘要部分,合計18 333篇;通過斷句法把這些摘要轉化為單獨語句,得到有764 308條語句的語料庫;將希臘字母變為英文音譯,如“α→Alpha”等;采用BIO方法對每個單詞進行標注,使之變成規范文本語料庫,以便進行實體識別和關聯提取;基于詞典在語料庫中識別3種不同實體,提取并標注,同一句中出現不同的實體則假定該實體對具有關聯。

需要說明的是,由于文獻量較大,很難準確且完全將文中的疾病是由藥物副作用引起的還是其他原因引起的區分開;本文是以“針灸”這個治療方法為關鍵字進行檢索的,得到的資料大多是治療效果的展示。所以,本文設定為識別出的藥物用于治療疾病,而不是導致疾病的原因。

1.3 支持向量機

本文使用機器學習算法中的SVM方法是一種二元分類器,屬于有監督機器學習方法。對于二值問題,SVM通過一條清晰的間距區分不同類別中的數據點,其中“間距”通過優化使分割的距離最大,間距邊界上的樣本一般稱為“支持向量”;處理非線性的數據時,SVM挑選出一個內核函數(Kernel Function)將低維數據映射到高維空間解決該問題,相當于直接在特征空間內直接計算內積。

本文采用的內核函數是Huber損失函數[15],它是支持SVM分類器中的一種變體函數。Smith[16]對比多種生物實體關聯提取算法時,發現Huber損失函數效率最高。該函數公式中的T表示整個訓練集大小,訓練集中第i對二進制特征向量定義為Xi,若關聯對被標記為正數,則yi=1,否則yi=-1。令ω為特征向量權重,距離相同的為Xi;令θ為閾值參數;令λ為正則化參數。由此,本文使用的損失函數定義如下:

在R語言中,可以在svmMLiA.py文件中添加函數kernelTrans(),然后對optStruct類進行修改,即可實現Huber損失核函數。部分關鍵代碼如圖1所示。

圖1 部分關鍵代碼

1.4 關聯規則

對生物醫學實體間的關聯進行度量時,需要用以下度量指標。

支持度support用于衡量集合內各項出現的頻次閾值。

support(A)=P(A)=a/N

置信度confidence可以度量關聯規則的屬性。

提升指數lift能夠評估一個預測模型是否有效,體現集合{A}對{B}的重要性。

若值為1,則A與B無關聯;若值小于1,則A與B相斥;若值大于1,則值越高,A與B之間的關聯規則越有價值[17]。由于life閾值為3時,相當于99.8%百分位臨界值或連續標準正態分布的標準差,因此lift大于3的關聯對具有更強關聯性。

1.5 R語言實現和ROC曲線驗證

R語言是一種進行統計計算和繪圖的語言和環境,能夠實現網絡模型的構建和分析算法[18]。ROC曲線檢測算法的準確性適用于二分類情況,現廣泛應用于醫學診斷實驗性能的評價[19],同樣也適用于本文算法性能的評價。因此,本文采用R語言實現關聯網絡模型構建,并用ROC曲線判別算法性能。

2 結果與討論

2.1 疾病、基因和藥物識別

本文以針灸相關文獻摘要為研究的數據基礎,以“Disease_Dictionary”、“Gene_Dictionary”和“Drug_Dictionary”為標準,基于SVM方法對針灸相關文獻摘要進行識別,去重后得到與針灸相關的包括抑郁癥等在內的296種疾病、神經生長因子(Nerve Growth Factor,NGF)等在內的51種基因和納洛酮等在內的278種藥物。

在識別疾病實體時,由于ICD-10內所有疾病名稱都有明確分類,疾病名稱含有具體部位(或原因),如查詢“疼痛(Pain)”時,得到“眼疼(H57.1-Ocular Pain)、關節痛(M25.5-Pain in joint)、腰背疼痛(M54.5-LowBackPain)等”。但在實際文本挖掘過程中,由于很多文獻摘要中的醫學詞匯沒有嚴格按照標準進行撰寫,因此本文在挖掘過程中直接引用此類沒有嚴格限定的疾病實體,并標注上“不明原因(not otherwise specified,NOS)”,如“PainNOS”等,以示區別。可以發現,針灸主要用于治療疼痛、皰疹樣皮炎、緊張、焦慮等病征,其中疼痛包括頭痛、腰背疼痛、偏頭痛、不明原因疼痛等。

針灸與基因的關聯研究較少,相關研究最多的是NGF。該蛋白質具有刺激神經增長的活性,其突變與遺傳性感覺和自主性神經障礙相關,其基因表達失調與過敏性鼻炎有關[20]。在治療慢性疼痛和中風過程中使用電針刺療法(electroacupuncture,EA),可顯著上調NGF水平[21-22]。針灸相關藥物研究最多的是納洛酮,它能起到預防或逆轉阿片樣物質的作用,包括呼吸抑制、鎮靜和低血壓。電針刺療法結合納洛酮可以緩解急性內臟痛覺過敏[23]。

2.2 疾病-基因關聯網絡

針灸相關38種疾病與29種基因存在關聯的有81種,Lift閾值超過3的有70種。

使用R語言構建的針灸相關疾病-基因關聯網絡如圖2所示。

圖2 疾病-基因關聯網絡

疾病-基因中單關聯的有2對,即SMO-惡心與嘔吐(Nausea And Vomiting)和NRG1-精神分裂癥(Schizophrenia),基因NGF、CORT、APP(Amyloid beta Precursor Protein,淀粉樣β蛋白前體)分別與15、8、7種疾病具有關聯,炎癥(Inflammation)、緊張(Stress)、阿茲海默病(Alzheimer’s Disease)、壞死(Necrosis)分別與11、6、5、5種基因具有關聯。

2.3 疾病-藥物關聯網絡

得到443種關聯,大于Lift閾值3的關聯有285種。針灸相關疾病-藥物關聯網絡如圖3所示。

疾病-藥物之間具有單關聯的有4對,即焦慮-阿普唑侖(Anxiety-Alprazolam)、消化不良-多潘立酮(Dyspepsia-Domperidone)、炎癥-納洛酮(Inflammation-Naloxone)、哮喘-地塞米松(Asthma-Dexamethasone)。惡心嘔吐(Nausea And Vomiting)與昂丹司瓊(Ondansetron)、順鉑(Cisplatin)、胃復安(Metoclopramide)3種藥物存在關聯,尼莫地平(Nimodipine)與血管性癡呆(VascularDementia)、癡呆(Dementia)、梗塞(Infarction)3種疾病存在關聯。可以發現,疼痛與藥物的關聯最多。

圖3 疾病-藥物關聯網絡

此外,本文得到的藥物與疾病的關聯,都是與針灸相關的,因此可以預測這些藥物與針灸共同治療的療效可能會更佳。

2.4 基因-藥物關聯網絡

得到39種不同關聯,大于Lift閾值3的關聯有38種。針灸相關基因-藥物關聯網絡如圖4所示。

圖4 基因-藥物關聯網絡

基因-藥物之間具有單關聯的有2對,即DICER1-黃體酮(DICER1-Progesterone)、MYD88-秋水仙堿(MYD88-Colchicine)。一氧化氮(Nitric Oxide)只與基因S100B、NOS2有關,基因NGF與9種不同藥物存在關聯,基因CORT與7種藥物存在關聯,基因APP和CYP2C8分別與4種不同藥物關聯。普魯卡因可以抑制基因STAT3在mRNA和蛋白質水平表達,是一種治療神經性疼痛很有潛力的治療藥物[24]。

2.5 疾病-基因-藥物關聯網絡

同樣,得到疾病-基因-藥物兩兩之間有704種關聯,經過驗證得到預測性關聯(即假陽性關聯)262種。使用R語言構建的針灸相關疾病-基因-藥物關聯網絡如圖5所示。

圖5 疾病-基因-藥物關聯網絡

可以發現,阿茲海默病(Alzheimer's Disease)與基因APP、NGF和藥物腺苷(Adenosine)、銀杏(Ginkgo biloba)、異氟烷(Isoflurane)、鏈脲菌素(Streptozocin)具有關聯。由此推測這2種基因與這4種藥物也可能具有關聯。

3 新關聯預測

本文通過計算得到一些關聯程度較高,但尚未被證實的實體關聯對(表1)。

在疾病-基因新關聯預測中,便秘可能與基因NGF、CORT有關。NGF相關疾病有腦梗、帕金森病、小兒腦癱、視神經相關疾病、過敏性鼻炎等[25],NGF醫藥產品主要有蘇肽生、金路捷和恩經復。皮質醇穩定蛋白[26](cortistatin,CORT)的基因編碼是一種類似生長激素抑制素的神經肽,與抑郁癥相關。便秘是由多種病因引起的,如胃腸道疾病;不少藥物也可導致該疾病,如抗精神病藥“奮乃靜”“氯氮平”等、精神活性藥“丙戊酸鈉”等、阿片類鎮痛藥“可卡因”“嗎啡”等、抗抑郁藥“氟西汀”“阿米替林”等。可以發現,服用抗抑郁藥可能會導致便秘,而基因CORT又與抑郁癥相關,那么便秘可能與CORT某種變異具有關聯。同理,服用精神活性藥可能導致便秘,而NGF又與神經性疾病息息相關,針灸對治療便秘具有一定的功效[27]。所以,便秘與NGF也可能具有關聯,針灸在治療便秘的同時,也可能改變了基因NGF的性狀。

表1 關聯程度較高的預測性實體對

在疾病-藥物新關聯預測中,抑郁癥(Depression)可能與藥物巴氯芬(Baclofen)有關。巴氯芬用于改善錐體束損害造成的肌張力增高的痙攣癥狀、不同原因造成的痙攣性偏癱和截癱,針灸可以通過一定程度上激活細胞外信號調節激酶(Extracellular Signal-regulated Kinase,ERK)來緩解重度抑郁癥癥狀[28]。因此,巴氯芬結合針灸可能會對抑郁癥產生更好的療效。

潛在關聯對Amyloidosis-Ondansetron中的淀粉樣變(Amyloidosis)指淀粉樣蛋白沉積于組織或器官引起的慢性代謝性疾病,可侵犯全身多種器官,分為系統性和皮膚淀粉樣變,是一組表現各異的臨床綜合征,目前尚無特效治療方法。對原發性及合并于多發性骨髓瘤的A1型淀粉樣變,二甲硫氧化物顯示較好的療效,可與環磷酰胺等烷化劑并用;對于皮膚淀粉樣變,針灸可以顯著緩解[29];昂丹司瓊用于預防或治療化療藥物(如“順鉑”“阿霉素”等)和放射治療引起的惡心嘔吐。因此,這二者的關聯,必須考慮患者淀粉樣變器官(或部位)及并發癥的不同,需要進一步探討。

在基因-藥物新關聯預測中,基因APP可能與硼替佐米、布托啡諾、多潘立酮等8種藥物有關。以新關聯APP-氟桂利嗪為例進行分析,APP經β和γ分泌酶水解產生的β淀粉樣蛋白,會對血管形態及血管功能產生影響,導致血管硬化,在大腦內引起與阿爾茨海默病相似的病理變化——神經突退縮和神經元變性[30]。氟桂利嗪對血管收縮物質引起的血管收縮有持久的抑制作用,保護腦組織,所以APP與氟桂利嗪可能會具有某種關聯。因此,氟桂利嗪結合針灸對阿爾茨海默病或偏頭痛的療效更好。同樣,在治療APP/PS1雙轉基因阿爾茨海默病小鼠時,能提高它們的空間學習和記憶能力[31],由此可以推測針灸與APP可能具有關聯。針灸在治療多發性骨髓瘤癌癥患者使用硼替佐米而導致的周圍神經性病變時,有較好的療效[32];在治療偏頭痛時,針灸可能比用常規藥物(如氟桂利嗪)的療效更好[33]。在動物實驗中表明,在治療術后疼痛時,針灸比布托啡諾等阿片類鎮痛藥的效果更好[34]。但是目前尚無大規模臨床實驗證明針灸與前述藥物共同治療會產生更好的療效,也沒有證據表明針灸會導致這些基因突變。

4 算法驗證

將針灸相關疾病-基因、疾病-藥物和基因-藥物間的關聯結果導入SPSS 20.0軟件,使用ROC曲線判斷算法性能(圖6)。

圖6 ROC曲線驗證

從圖6看出,得到ROC曲線下的面積分別為0.749、0.840和0.806,關聯準確度中等偏上,相應的標準誤差分別為0.072、0.032和0.071,P值均為0.000,95%置信區間分別為(0.607,0.890)、(0.777,0.903)和(0.667,0.945),說明算法性能中等偏上,優于CoPub[35]生物實體關聯提取算法。本文也得到了一些尚未驗證的實體關聯對,即有一些假陽性的預測性結果[36],這也是生物醫學實體關聯提取的目標之一:提出的預測性的研究假設,可幫助科研人員設計相關實驗方向[37]。

5 結語

文獻數量飛速增長,PubMed約每分鐘增加2篇論文[38],每位研究者不可能全面閱讀與研究相關領域的所有文獻。文本挖掘的目標是增強從不斷增長的文獻語料庫中提取信息的能力,從而更為有效地提取及合成信息。在醫學生物領域,文本挖掘越來越多地用于支持新知識發現和假設生成[39],如現有藥物新用途、疾病候選基因、發病機制等相關科學假設[40]。同時,通過信息可視化技術,可對現有知識點進行概述,幫助學者更高效地獲取生物醫學文獻關鍵內容。隨著生物醫學大數據的進一步發展,各種文本挖掘算法和技術將會呈現越來越重要的作用。

本文基于機器學習方法成功地在針灸相關文獻中進行疾病-基因-藥物新關聯的挖掘與預測,但只對3種實體進行了關聯挖掘,并僅限于PubMed數據庫,不夠全面。因此,下一步的研究計劃是在更大規模數據(包括臨床平臺獲得的數據)中,嘗試對生物醫學數據中多種實體(如基因、蛋白質、通路、疾病、致病機制、藥物、臨床檢查、基因組和藥物不良反應等)進行關聯挖掘與預測。

猜你喜歡
關聯針灸
Las nueve agujas de Fuxi Cómo surgieron estos implementos para practicar la acupuntura
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
飛蚊癥 不妨一試針灸
基層中醫藥(2021年6期)2021-11-02 05:46:04
愛眼有道系列之三十三 為什么治療眼病也需要針灸
基層中醫藥(2020年9期)2020-11-27 01:55:16
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
Acupuncture as a potential approach to improving the health of women with obesity
奇趣搭配
中醫針灸的發展與傳承
智趣
讀者(2017年5期)2017-02-15 18:04:18
主站蜘蛛池模板: 国产精品成人免费视频99| 亚欧美国产综合| 欧美啪啪视频免码| 亚洲人成网站色7799在线播放| 日韩欧美国产精品| 亚洲最新地址| 呦女亚洲一区精品| 国产AV无码专区亚洲A∨毛片| 尤物国产在线| 美女国产在线| 福利在线不卡| 东京热高清无码精品| 午夜色综合| 一级毛片基地| 亚洲天堂2014| 四虎成人免费毛片| 亚洲综合精品香蕉久久网| 国产精品19p| 国产日产欧美精品| 九色视频一区| 欧美日韩国产在线观看一区二区三区| 精品丝袜美腿国产一区| 日本91在线| 美女被操91视频| 日韩福利视频导航| 国产尤物在线播放| 呦系列视频一区二区三区| 中文字幕在线免费看| 国产成人高清精品免费5388| 国产91在线|日本| 69国产精品视频免费| 最新无码专区超级碰碰碰| 99草精品视频| 亚洲专区一区二区在线观看| 亚洲首页在线观看| 国产高清不卡| 69av在线| 亚洲黄色激情网站| 日韩一区二区三免费高清| 亚洲日韩久久综合中文字幕| 亚洲第一色视频| 日韩欧美国产精品| 视频二区国产精品职场同事| 亚洲无码不卡网| 丁香婷婷激情网| AV熟女乱| 成年人国产网站| 国产农村妇女精品一二区| 亚洲乱码精品久久久久..| 久青草网站| 自拍偷拍欧美日韩| 亚洲成人精品| 国产日韩久久久久无码精品| 欧美成人一级| 国产一级二级在线观看| 一级爆乳无码av| 国产在线精彩视频论坛| 国产欧美日韩精品第二区| 久久伊伊香蕉综合精品| 最新国产在线| 天堂网国产| 91啦中文字幕| 扒开粉嫩的小缝隙喷白浆视频| 99久久国产自偷自偷免费一区| 中字无码av在线电影| 亚洲精品欧美日本中文字幕| 国产精品专区第一页在线观看| 免费无码AV片在线观看中文| 国产三级视频网站| 国产精品白浆在线播放| 欧美精品不卡| 国产91精品久久| 国产成a人片在线播放| 亚洲第一成年网| 久久亚洲精少妇毛片午夜无码 | 国内精品免费| 动漫精品中文字幕无码| www.亚洲色图.com| 欧美a级在线| 色综合久久88| 免费观看男人免费桶女人视频| 九九九国产|