,,
[作者單位]1.上海財經大學信息管理與工程學院,上海 200433;2.上海交通大學醫學院附屬新華醫院中醫科,上海 200092
大氣污染問題日益突出,對人類健康尤其是對呼吸系統的威脅越來越嚴重。鼻炎作為主要的呼吸道疾病之一,其全球發病率約為10%~25%;我國高發地區已達37.9%[1],且呈逐年上升趨勢。鼻炎發病率高、病程長、容易反復發作且難治愈,引起的鼻塞、頭痛、記憶力衰退、食欲不振、失眠、易疲倦等給患者工作、學習和生活都帶來了巨大影響。
隨著信息技術的高速發展,網絡數據資源呈爆炸式增長。網絡中存在大量的文本數據,傳統的信息檢索技術不能滿足用戶需求。文本挖掘作為數據挖掘的一個分支,從非結構化或者半結構化的文本中檢索信息,并將提取的知識呈現給用戶。近年來,文本挖掘技術在醫療健康領域的運用逐漸成為研究熱點。
本文基于在線醫療網站的醫患互動信息和中國知網的文獻信息,采用文本挖掘技術,發現鼻炎及其并發癥的常用中西藥、非藥物治療規律。
文本挖掘技術能抽取分散在文本數據中未被發現的、有價值的、能被用戶理解的知識,隨著自然語言處理技術的進步,近年發展迅速。國外基于文本挖掘技術的醫學疾病研究應用廣泛,但由于漢字分詞、數據來源的限制,現階段國內并沒有普遍的研究與應用。
隨著醫療信息文獻數據庫的建立和完善,目前很多國內學者青睞基于文獻數據利用文本挖掘技術研究某種中藥成分(如玉屏風散[2]、青風藤[3]等)的用藥規律,研究某種病(如慢性腎臟疾病[4]、乙型肝炎[5]等)的中醫治療用藥規律,以及對中藥的病證方藥相應規律[6]等的研究。由于中醫藥自身注重藥材、藥方的特點,學者基于文本挖掘技術對中醫藥的研究較多,西醫方面的文章較少。在數據來源上,多來自中國生物醫學文獻數據庫(CBM),來自網絡的數據源則較少使用,也未與臨床數據相結合。在國外,有許多基于網絡和社會媒體數據相關的研究,如進行疾病監測和生物事件的探測[7],提取藥物不良反應信息[8],探索自我披露健康信息支持公共健康監測和醫療保健[9],監控濫用處方藥[10]等。
國內相關文獻中并無實質的基于文本挖掘的鼻炎治療研究,目前研究主要采用三種方式。第一種是以文本數據作為數據來源做數據挖掘,把文本數據轉成數值數據來處理。蘇奎國等[11]以《中醫方劑大辭典精選本》作為方劑基本信息來源采集文本,結合《中華醫典》《方劑學》做文本篩選,挖出治療變應性鼻炎的方劑信息;韓東岳等[12]在PubMed、Embase、中國生物醫學文獻數據庫、中國知網數據庫、萬方數據庫和維普全文期刊數據庫中檢索采集關鍵詞為鼻炎、過敏性、變應性、穴位敷貼的文獻,通過閱讀文獻的題目、關鍵詞和摘要篩選文獻,結合《經絡腧穴學》和《中藥學》做數據清理后把數據錄入Excel做詞頻統計,運用SPSS軟件進行分層聚類挖掘出穴位貼敷治療鼻炎的選、配穴規律和用藥規律。第二種是采用文獻計量學的方法進行研究。如劉妮波等[13]對《中國學術期刊網絡出版總庫》中關于鼻炎相關的醫學科技論文進行分析,分別從載文量、高頻作者、研究機構和關鍵詞等方面進行深度挖掘;王鵬等[14]檢索CNKI 2006—2010年間的針灸治療鼻炎研究的全部文獻,采用文獻計量學方法進行統計分析。第三是基于現成文本分析軟件進行分析。如宋立家等[15]收集CNKI中運用中醫藥方劑治療變應性鼻炎的文獻,篩選并建立方劑數據庫,運用中醫傳承輔助平臺軟件挖掘其中的用藥規律。
主要使用文本挖掘方法,分為文本采集、文本預處理、文本分析、知識獲取和相關性分析5個過程。
文本采集:從中國知網導出相關文獻,從在線醫療網站上抓取醫患互動論壇的問答帖。
文本預處理:將文本轉化成文本挖掘工具可以處理的形式,去掉不需要的部分,主要包括文本分詞和文本清洗。文本分詞的準確性和質量好壞對后繼工作有很大影響,分詞僅針對中文,需要導入專業研究相關的詞典以提高分詞質量;文本清洗是把分詞后的文本去除對研究無意義的停用詞,如標點符號、連詞、助詞、語氣詞等,避免干擾后續文本挖掘,另外也要考慮同義詞和近義詞的合并。
文本分析:用詞頻統計、特征提取等方法,找出一些特征以便分析使用。
知識獲取:結合專業知識對整理分析后的文本進行解釋,獲取有用的知識。
相關性分析:從一個同類或不同類的文檔集合中尋找某些關鍵詞之間的相關性,根據某兩個或多個詞同時出現的頻率找出相關系數。相關系數主要通過詞頻統計來計算,例如包含氯雷他定的文本數有100個,同時包含粉塵螨的文本有50個,二者相關系數為0.5=50/100。本文用相關性分析方法分析鼻炎常見并發癥的思路步驟是:篩選出含有鼻炎的某個常見并發癥的文本,在這些文本中查找癥狀或藥物名詞進行合并和抓取原詞;統計詞頻和計算相關系數。
同時,使用文獻研究法梳理文本挖掘在醫學中的研究現狀,綜述當前文本挖掘研究鼻炎的方式,并對比驗證本文的一些研究結論。
2.2.1 文本數據采集
綜上所述,在初中英語教學中,做好教學目標設計尤為重要,教師應該從明確教學目標設計依據、加強自身目標設計意識、掌握正確的目標設計方法與策略等方面有效設計好課堂教學目標,有效保證課堂教學質量,提升學生綜合素質與能力。
文本來源于中國知網CNKI、好大夫在線網(http://www.haodf.com)和尋醫問藥網(http://www.xywy.com)。中國知網的內容以數據庫形式進行有序管理,有明確的來源、出處,內容可信度很高,可以作為學術研究、科學決策的依據;好大夫在線網和尋醫問藥網是我國當前醫療信息較為完備,用戶較多的醫患互動平臺。
選用八爪魚采集器獲取醫患互動文本。分別在好大夫在線網站和尋醫問藥網鼻炎專題“患者咨詢”下提取文本,每條文本內容包括發帖時間、性別、年齡、標題、病人描述、醫生回答;在中國知網中以主題詞“鼻炎”為搜索條件搜索到1950年2月至2016年2月間的相關文獻,導出題名、關鍵詞、摘要;最終醫患互動平臺采集到文本37 809條,中國知網采集到文本19 318條,共計57 127條文本數據(已去重)。
將相關文獻的文本數據拆分為title,keyword,summary 3個數據集,合并兩個醫患互動論壇數據,然后拆分病人咨詢文本數據和醫生診斷文本數據,得到patient_desc和doctor_diag數據集。
2.2.2 文本數據處理
新詞典的安裝及特殊新詞的手動添加是兩項很重要的工作。下載搜狗細胞詞庫,使用深藍詞庫轉換工具2.0版本,將.scel的搜狗細胞詞庫格式轉換成.txt格式。文本處理中特征詞的定義將決定最后分詞質量的好壞。由于事先沒有一個相對完整的特征詞,這里主要對采集文本進行觀察,在網絡上搜集相關信息,然后針對藥品、非藥物治療手段定義特征詞(例如藥品的特征詞如噴霧、噴劑、顆粒、沖劑、他定、西替、咪唑、滴鼻液、鼻炎水、膠囊、片等,非藥物的特征詞有激素、針灸、清洗、治法、清潔、清除、充血劑、鹽水、洗鼻、冷水、慢跑、鍛煉等),并把這些特征詞加入到自定義詞典中。
Keyword數據集中的文本是由一個個詞語組成,不需要分詞,直接對keyword數據集做文本清洗;title、summary、patient_desc和doctor_diag中的文本均為句子,需要分別進行分詞處理。將之前提取的keyword關鍵詞也加入到詞典中,然后基于詞典使用Rwordseg包進行分詞處理和文本清洗。
詞頻統計分別見表1-表3,圖1-圖3。從表1-表3,圖1-圖3可見根據頻次由多到少治療鼻炎相關的西藥依次是氯雷他定、粉塵螨、布地奈德、西替利嗪、輔舒良等,根據頻次多少治療鼻炎用的中藥依次是玉屏風散或顆粒、蒼耳子等。 在鼻炎的非藥物治療手段的關鍵詞中,“針灸”的詞頻最高,然后依次是糖皮質激素、生理鹽水、脫敏療法、激素、免疫療法、減充血劑、針刺、按摩等,中西醫結合療法詞頻也較高。鼻炎并發癥發病較高的依次是鼻竇炎、氣管炎、咽炎、中耳炎、肺炎等。

表1 鼻炎的治療藥物及詞頻

表2 鼻炎的非藥物治療方法及詞頻

表3 鼻炎的并發癥及其詞頻

圖1 鼻炎的藥物治療方法詞云

圖2 鼻炎的非藥物治療方法詞云

圖3 鼻炎的并發癥詞云
基于詞頻統計的分析,以采集到的原始文本(病人描述+醫生描述)為單位,選擇鼻炎最常見三種并發癥(鼻竇炎、氣管炎、咽炎)為對象,分析某個并發癥的癥狀和治療用藥特點。各并發癥狀及相關用藥見表4-表9。癥狀表示的是鼻炎并發某種并發癥的癥狀。如表4中,鼻粘膜問題是鼻炎并發鼻竇炎的表現癥狀,目前基于我們的數據樣本看,與其他癥狀相比,鼻炎并發鼻竇炎的相關度高,是表現得比較多的癥狀;與鼻炎并發鼻竇炎相關的用藥,蒼耳子的使用沒有通竅鼻炎片多,并發癥的相關程度排在第二。

表4 鼻炎并發鼻竇炎相關癥狀

表5 鼻炎并發鼻竇炎相關用藥

表6 鼻炎并發氣管炎相關癥狀

表7 鼻炎并發氣管炎相關用藥

表8 鼻炎并發咽炎相關癥狀

表9 鼻炎并發咽炎相關用藥
研究發現,中藥蒼耳子被普遍應用于鼻炎的治療,對緩解鼻塞、鼻炎、抑制變態反應具有一定的療效,但蒼耳子具有一定毒性,超過劑量或長期使用可致神經系統及肝腎損害,需要在醫生指導下謹慎、小劑量使用。
中藥方劑玉屏風由黃芪、白術、防風組成,具有益氣固表抗過敏的功效,大量臨床研究證實“玉屏風顆粒”或“玉屏風散”治療鼻炎療效確切,是治療鼻炎的重要中成藥之一。
中醫外治療法被廣泛應用于鼻炎臨床。如針灸通過辨證取穴,可應用于過敏性鼻炎的急性期和緩解期,有良好療效[16];穴位敷貼通過中藥藥物或者遠紅外磁熱材料,刺激相應穴位,療效好、無針刺痛苦,是代替傳統針灸的外治方法,經臨床證明療效顯著;鐘娟等[17]確認了針刺、艾灸、推拿、拔罐、刺血療法、穴位埋線、耳穴壓丸等鼻炎的非藥物治療的有效性。但我們的數據里,拔罐、刺血、埋線等療法的頻次較低或未出現,尚待進一步探究。
糖皮質激素主要用于急性感染、自身免疫性和過敏性疾病,可以明顯緩解哮喘、鼻炎的氣道炎癥。
利用生理鹽水沖洗鼻腔可以獲得較好療效,趙秀華[18]和劉杰等[19]等認為生理鹽水沖洗對小兒鼻炎更加有效。
隨著醫學的進步,免疫療法和脫敏療法逐漸成為研究的熱點,通過調節免疫進而間接治療鼻炎,從詞頻上來看,這個治療思路更容易被患者接受。
鼻炎的并發癥較多,依次為鼻竇炎、氣管炎、咽炎、中耳炎、肺炎等,前三個并發癥均有咳嗽、流涕、鼻出血等癥狀,除共有癥狀外,經詞頻統計,鼻炎并發鼻竇炎還有嗅覺減退、呼吸困難等癥狀。鼻炎并發咽炎可伴有下鼻甲肥大、扁桃體肥大等。通過區分鼻炎并發癥,可指導臨床精準用藥。
文本挖掘發現治療鼻炎并發鼻竇炎藥物有:鼻炎片、蒼耳子、糖皮質激素、布地奈德等。由于鼻炎與鼻竇炎常常相伴發生,同為鼻腔內黏膜炎癥,僅僅是發病部位不同,因此鼻炎并發鼻竇炎的相關藥品與鼻炎的藥品一致。
鼻炎并發氣管炎的治療藥物為磺胺類藥物、糖皮質激素、鵝不食草等,鼻炎并發咽炎藥物有咽喉噴劑、地氯雷他定、抗組胺藥等。
目前中醫藥人研究治療鼻炎的用藥規律時基本上都是基于文獻數據庫。雖然文獻數據更具有權威性,但已被人為處理過。
國外的研究成果證明,網絡數據在醫學某方面應用的有效性,直接從網上抓取的數據更新及時,具有客觀性、先進性以及臨床價值。因此,本文在研究方法和數據源選擇方面進行了新的嘗試,驗證網絡數據源的可用性和運用文本挖掘技術的可行性。
本文存在以下4個方面的局限性。
4.3.1 醫生的回答權威性不足
文本數據源中2/3來自醫患互動論壇的醫患問答。盡管回答問題的醫生都是在全國各地醫院持證問診的醫生,但是無法與患者面對面診斷,對疾病或患者信息了解得不夠全面,可能導致醫生的回答權威性不足。
4.3.2 文本挖掘分詞的準確性和有效性有待提高
研究課題涉及了大量醫學方面的專業知識。由于經驗不足,在文本挖掘的分詞過程中對專業字典的構造不夠理想,會影響分詞的準確性和有效性,使得個別干擾詞匯出現。
4.3.3 特征詞的定義存在主觀性
文本處理中特征詞的定義基于觀察和分析,具有主觀性,定義好壞會影響分詞的質量,進而影響研究結果。以后要研究更為科學合理的特征詞提取方法,減少主觀隨意性,避免遺漏。
4.3.4 文本數據量有限
文本數據量不夠大,不能夠完全覆蓋龐大的鼻炎患者群體,詞頻統計未必能精準地反映出相關信息,得到結論可能會有偏差。
治療,特別是中醫治療,多強調單個臨床試驗的療效情況。挖掘技術能從大量散在的臨床試驗中,把握共性的規律,為今后指導臨床用藥或標準化臨床治療提供參考。本文嘗試基于網絡數據和文獻數據用文本挖掘方法來研究鼻炎問題,只是對新數據源、新方法的初步探索,希望拋磚引玉,引發更多的思考和研究。