,,,,
花粉過敏癥,簡稱“花粉癥(Polinosis)”,是最具代表性的變態反應疾病之一。隨著社會工業化進程的加速,花粉癥發病率迅速上升,已成為世界性衛生問題,被 WHO 列入21世紀重點防治的三大疾病之一[1-2]。預計在今后20年內,工業化國家50%的人將患上花粉癥[3]。花粉癥發病率逐年上升,但卻難以根治。花粉癥患者由于每年與過敏原不可避免地反復接觸,疾病不斷復發,癥狀逐漸加重,甚至危及生命[4]。因此,如何提高公民花粉過敏預防意識,為其提供便捷的防治信息,為花粉癥患者提供全面而準確的花粉過敏預警信息,為從事變態反應工作的科研人員提供基本的花粉癥參考資料等,對有效降低我國花粉癥發病率和減少衛生經濟負擔都具有非常重要的現實意義。筆者結合自然語言處理、光學字符識別(Optical Character Recognition,OCR)、信息可視化、信息檢索等技術,構建一個基于花粉過敏的知識服務與過敏預警分析系統,為用戶提供知識科普、知識圖譜、知識檢索和花粉過敏預警等服務。
本文首先對花粉過敏預警系統的相關研究進行評述,并介紹現有的幾種花粉過敏預警模型;其次是介紹所構建的花粉癥知識圖譜與過敏預警分析系統的整體思路和系統架構,并描述本系統整體架構核心功能的實現過程,然后對完成的系統進行評價;最后針對本系統存在的不足就未來研究工作進行展望。
花粉過敏預警分析系統是隨著花粉癥發病率逐年上升,為了有效降低花粉癥的發病率、提高公民預防意識而產生的過敏預警系統。國外花粉過敏預警分析系統起步較早,如美國天氣公司(The Weather Company)開發的天氣預報系統“The Weather Channel”[5]將花粉分為樹木、草本、豚草花粉3類,可預測當日及未來7天某城市的花粉濃度和呼吸舒適度;艾美仕市場研究公司開發的花粉過敏預警網站“Pollen.com”[6]將花粉分為草本和樹木兩類,可預測美國各地區當日及未來5天花粉過敏的風險程度,并提供過去30天該地區的歷史花粉濃度。我國對于花粉癥的研究起步較晚,20世紀80年代才開展了第一次大范圍的氣傳致敏花粉分布狀況調查工作。我國現有系統主要面臨以下問題:鮮見獨立花粉過敏預警系統,花粉過敏預警多為其他主題系統的子功能模塊,位置較為隱秘,不便于用戶查看信息,如上海氣象局花粉濃度指數的預報[7];系統服務內容較為單一,僅提供花粉濃度報告、過敏預警或相關預防指南,未向用戶提供花粉過敏病因、癥狀及防治信息,較難提高公民花粉過敏預防意識及為其提供相關便捷信息服務;花粉過敏預警功能不成熟,缺乏精確性,且某些系統并不能保證每日為用戶提供花粉過敏預警的信息,嚴重影響了系統的用戶黏性和用戶對系統預測結果的信任度。因此開發專業的花粉癥知識科普及過敏預警分析系統勢在必行。
國內外學者對花粉過敏預測算法研究較少,比較流行的有神經網絡模型和多元回歸算法。如Puc[8]采用人工神經網絡預測日平均樺樹花粉濃度,Sánchez-Mesa等[9]利用共生演化神經網絡模型預測波蘭樺樹每日花粉濃度。Kim等人[10]改進了傳統的回歸模型,開發了一種綜合建模方法,首先使用威布爾概率密度函數確定空氣傳播花粉的最大可能性,然后使用多元回歸模型估計每日花粉濃度。該模型成功預測了韓國2010-2012年花粉過敏風險等級,準確率可達85%~95%。吳振玲等[11]使用1999-2004年3-10月天津市河西區鐵塔花粉監測數據和氣象資料,利用多元線性和非線性回歸方法分別建立了全花粉季、分季節(春、夏、秋)、分階段的花粉預測模型。實驗發現,除夏季以外,多元非線性預測模型優于多元線性回歸預測模型,分階段預測方案優于全花粉季和分季節預測方案。
利用神經網絡模型預測花粉濃度是當今研究的熱點,也是未來研究的方向。由于我國具體情況,如歷史花粉濃度數據較少且缺乏連續數據,地域遼闊、植物種類較多,四季分明、南北花期差異較大等原因,本系統采用由中國氣象局新技術推廣項目“花粉檢測預報與服務”資助的天津氣象局發布的氣傳花粉預測模型——分階段多元非線性預測模型預測每日花粉濃度。該模型是根據整個花粉期的特點,按照花粉量高、低、平穩發展趨勢將花粉期分成6個時段分別建立階段性預測模型即春季花粉開始至高峰期是階段1,高峰期下降至春季次高峰期為階段2,次高峰期下降至夏季6 月上旬為階段3,6月中旬至8月初為階段4,8月上旬末至秋季高峰期為階段5,高峰期后下降至花粉季結束為階段6。階段性預測模型能夠更好地彌補因地區花期差異帶來的預測誤差,提高預測結果的準確度。
基于我國當前花粉過敏預警系統的不足,參考用戶需求和國外花粉過敏預警系統,筆者認為構建花粉癥知識圖譜與過敏預警分析系統的核心任務“花粉癥相關診療數據的整合”和“花粉過敏預警模塊的構建”。其實現的具體步驟如下。
2.1.1 知識抽取
利用網絡爬蟲技術、API接口和OCR等技術從期刊、圖書和中國公眾健康網、中國天氣網、百度百科等網站中獲取花粉濃度數據、醫療數據、氣象數據、地理數據。
2.1.2 數據融合
首先對獲取的數據進行分類存儲,構建醫生、醫院、藥品和花粉數據庫;然后從空間、時間、疾病各維度進行關聯分析,構建全國氣傳致敏花粉地方譜、月份譜、疾病譜,深度挖掘花粉濃度與地區、氣候類型、時間之間的關聯關系和氣傳致敏花粉對不同過敏性疾病的陽性反應率和地區、氣候對其的影響。
2.1.3 知識圖譜
利用構建的醫生、醫院、藥品數據庫,在專家輔助構建花粉過敏相關疾病數據模型的基礎上,利用可視化技術以知識圖譜的形式展示靜態無法容納或無法表現的花粉過敏診療知識,為用戶提供知識的動態呈現和更為細粒度的檢索服務。
2.1.4 過敏預警
結合我國國情,本系統引用天津氣象局發布的花粉過敏預測模型,首先利用歷史花粉濃度數據和氣象數據完成花粉濃度預測,實現花粉過敏預警功能。其次利用歷史花粉過敏就診率和花粉濃度數據,從多方面多角度預測每日花粉濃度,以期提高預測結果準確度。
根據系統設計思路與SOA架構進行系統設計,本系統架構主要分為4個層次(圖1)。

圖1 花粉過敏預警分析系統總體架構
2.2.1 基礎層
基礎層是系統構建的基礎保障,包括網絡系統、服務器、多媒體設備等建設。本系統采用WAMP模式:Windows+Apache+MongoDB+ PHP搭建動態網站。
2.2.2 數據層
數據層是系統數據資源的保障。本系統采用網絡爬蟲、數據接口等以機器采集為主,人工采集為輔的方式進行多源數據采集。數據層包括用戶數據、醫療數據、地理數據、林業數據和氣象數據。用戶數據指如用戶賬號和密碼、系統推送消息、用戶關注等個人信息數據,醫療數據包括與花粉癥相關的疾病、醫生、醫院、藥品和檢查等數據,地理數據指全國各城市的氣候類型和地區分布,林業數據包括氣傳致敏花粉的基本信息、花粉濃度及與花粉過敏相關的新聞等,氣象數據是指各城市的溫度、風力、氣壓、降雨量、濕度等氣象信息。
2.2.3 功能層
采集完成的數據將通過資源分析管理機制實現資源的有效管理與展現,具體包括首先對收集到的數據進行標準化處理和分類整合存儲,然后對數據進行數據挖掘、關聯分析和統計分析,最后以可視化的方式展示分析結果。
2.2.4 應用層
應用層展示系統的主要功能包括檢索服務、知識科普、知識地圖、氣傳致敏花粉地圖、過敏預警和個性化服務。
本系統主要以花粉過敏相關疾病為核心,實現花粉癥知識圖譜和過敏預警分析。其核心功能主要包括花粉癥知識圖譜和氣傳致敏花粉地圖的構建及過敏預警的實現,具體實現過程框架見圖2。實現過程分為3個步驟:一是原始數據采集及處理,構建數據庫并建立索引;二是功能模塊實現,系統的主要功能模塊有信息檢索、知識圖譜模塊、花粉地圖模塊和過敏預警模塊;三是用戶界面設計和結果可視化。各個步驟及實現過程中需要解決的問題如下。

圖2 花粉過敏預警分析系統數據集成流程
在系統首次數據采集中,首先采用人工收集的方式從中國知網和萬方數據獲取自2000年1月1日至2017年8月31日涉及實地檢測花粉量和花粉過敏陽性反應率的相關文獻共172篇,鑒于學術資源的動態性,系統根據需要可實現數據的動態增量獲取;其次是利用光學字符識別技術(Optical Character Recognition,OCR)將《中國氣傳花粉和植物彩色圖譜》[12]數字化,存儲在計算機中作為構建花粉數據庫的主要數據源;第三是利用網絡爬蟲技術,爬取“中國公眾健康網”“好大夫在線”和“百度百科”中關于花粉癥、過敏性鼻炎、蕁麻疹等疾病的概述和相關診治信息;第四是利用API接口定期采集信息定期采取氣象信息、新聞熱點等更新速度快的數據,以保證數據的時效性;最后將收集到的數據存儲在臨時數據庫中,經數據清洗、轉換、規范化處理、整合后,分類存儲,構建醫院、醫生、藥品和花粉數據庫并建立索引,以便進行后期的數據挖掘和分析。
3.2.1 信息檢索模塊的實現
本模塊包含綜合檢索和專題檢索兩個子模塊。前者主要為有明確檢索目標的用戶提供跨庫檢索服務,實現對疾病、藥物、醫生等信息的精確查詢;后者主要為有檢索目的但無明確檢索對象的用戶,因此需要系統利用導航模塊輔助引導用戶進行信息查詢。專題檢索的用戶首先選擇進入某一專題數據庫,如醫生數據庫、醫院數據庫、藥品庫或花粉庫,然后通過數據庫的導航模塊進行信息查詢。如在醫院數據庫中,用戶首先可利用導航模塊中的“中國地圖”選擇醫院所在省份,然后通過醫院等級篩選醫院或通過模糊匹配的方式查詢醫院。
3.2.2 知識圖譜模塊的實現
對花粉過敏相關疾病治療信息的整體把握,有助于提高用戶對花粉過敏的認知及預防診療的自我意識。如系統地為用戶展示花粉癥的常見并發癥,需要做的相關檢查,擅長治療該疾病的醫生、醫院及常用藥物。由于此類信息過于龐大,簡單的圖表無法清晰展示,需要利用知識圖譜技術動態呈現并管理,靜態展示無法容納或無法表現的枯燥數據,使數據變得絢麗震撼。在知識圖譜模塊,我們首先構建了一個以花粉過敏相關疾病為核心的數據模型(圖3),用以指導知識圖譜的構建。該數據模型包括疾病、并發癥、藥品、檢查、藥企、醫生、醫院7類實體,以及檢查、治療、屬于、生產4種關系。基于已建立的數據模型和醫生、醫院、藥品數據庫,利用圖存儲技術將數據存儲到Neoj4圖數據庫中進行數據整合,并以知識圖譜的形式進行可視化展示。該知識圖譜不僅有助于實體關系間的語義推理,還提供智能搜索功能,支持用戶對知識圖譜進行疾病、實體、關系篩選。同時,配以智能統計分析服務,自動為用戶統計知識圖譜中各類實體及關系的數量,并推薦與之相關的醫生、醫院、藥品等信息,使用戶對相關疾病的治療信息一目了然。

圖3 花粉過敏相關疾病數據模型
3.2.3 氣傳致敏花粉地圖模塊的實現
花粉地圖模塊能夠通過跨界數據融合和多維關聯分析滿足用戶尤其是從事變態反應研究的科研人員關于我國氣傳致敏花粉的散播情況及月份分布情況、各地區的花粉高峰期、各城市花粉量散播趨勢、同一疾病對不同花粉類型的過敏陽性反應率有何不同、氣傳致敏花粉對常見花粉過敏相關疾病的陽性反應率及地區不同對其的影響等的信息需求。
在氣傳致敏花粉地圖模塊,我們利用從網絡中采集的氣象數據和地理數據,從文獻中獲取的關于花粉采集時間、地點、取樣器及方法、氣候類型、花粉類型和致敏季節、花粉數量等數據,從空間、時間、疾病3個維度分別構建了全國氣傳致敏花粉地方譜、月份譜和疾病譜。在地方譜部分,首先根據各省花粉過敏相關文獻的數量構建“中國氣傳致敏花粉文獻分布地圖”,分省份統計分析各城市各月份的花粉濃度散播趨勢及花粉類型分布情況,為花粉過敏基礎研究提供科學數據;其次根據我國地理區劃,分地區統計各地區典型城市的花粉濃度和氣候類型,對全國花粉高峰期進行統計分析,并繪制了全國氣傳致敏花粉高峰期列表,探究地區分布、氣候類型對氣傳致敏花粉高峰期的影響;最后繪制了“典型城市花粉散播趨勢圖”及“兩城市花粉量比較的復式柱形圖”。在月份譜部分,系統以月份為單位統計分析全國各城市各月份的花粉計數,并利用環形圖清晰地展示某月全國各城市花粉量所占比例。在疾病譜部分,系統統計了文獻中各類花粉對不同花粉過敏疾病的陽性反應率及各城市的地理分區和氣候類型,構建了氣傳致敏花粉疾病譜列表,探究氣傳致敏花粉與疾病、地區、氣候類型之間的關系。
3.2.4 過敏預警
對于花粉過敏預警,用戶往往不僅想了解當日的花粉濃度和過敏風險,還希望了解未來幾天的花粉濃度及過敏風險以便進行提前預防。針對這一需求,過敏預警模塊可以通過過敏追蹤、未來展望、文獻預測滿足用戶的需求。首先,系統利用氣象數據及歷史花粉濃度數據,根據天津氣象局發布的氣傳致敏花粉預測模型預測當日及未來7日的花粉濃度;其次根據中國氣象局發布的《中華人民共和國氣象行業標準》中的花粉過敏氣象指數推測過敏風險,并針對預測結果給出相應建議;最后,系統利用從文獻中采集的氣傳致敏花粉量和歷史就診率構建“歷史花粉量散點圖”和“歷史就診率面積圖”,以輔助和佐證實時過敏追蹤和未來展望,提高系統花粉過敏預警的準確率。
系統以B/S架構設計,使用Java語言編寫,利用Mysql、Neo4j數據庫存儲數據,并提供基于Web檢索接口,利用Web前端可視化工具D3.js 和ECharts對結果進行可視化處理。
系統主要向用戶提供花粉過敏相關疾病知識圖譜服務和花粉過敏預警服務。系統首頁如圖4所示。

圖4 花粉過敏預警分析系統首頁可視化呈現
花粉過敏相關疾病知識圖譜服務是從實體粒度層次對花粉過敏相關疾病的診療知識進行可視化展示,分析挖掘各實體之間的語義關系。圖5是進入知識圖譜界面的可視化結果,為用戶呈現了一個包含花粉癥、過敏性鼻炎、過敏性哮喘等6種常見花粉過敏相關疾病的知識圖譜。系統用不同的顏色代表不同的實體類型,如紅色代表花粉過敏相關疾病、綠色代表醫生以方便用戶清晰查找各類實體,知識圖譜中的一個節點代表一個實體,點擊節點可見實體的詳細信息。在知識圖譜上方的搜索部分,用戶可自主篩選疾病、實體或關系的類型,系統將返回相應的子圖譜。圖6是用戶檢索“疾病-花粉癥”、“實體-醫生”的可視化呈現結果。此外,系統知識圖譜有智能統計分析和推薦功能,系統可自動分析當前知識圖譜中各類實體和關系的數量,為用戶推薦疾病的常見檢查及醫生、藥物、醫院等信息。知識圖譜的右上角顯示的是分享、保存、放大和縮小功能,支持用戶將當前知識圖譜分享到微博、QQ等社交軟件上進行知識傳遞與共享。

圖5 知識圖譜界面可視化呈現

圖6 花粉癥知識圖譜相關醫生的檢索結果可視化呈現
花粉過敏預警服務包括過敏追蹤、未來展望、文獻分析預測及過敏新聞4部分。圖7是2018年6月24日北京市的花粉過敏預測情況。系統過敏追蹤模塊既可實時定位當前城市,也可點擊過敏追蹤右側的“切換城市”,查看目標地區。在過敏預警界面,系統以生動形象的可視化方式呈現預警結果,增強了系統的觀賞性,如以趣味性的象形圖表示花粉濃度,用儀表盤展示當日過敏風險,并針對預測結果給出相應建議。

圖7 過敏預警界面可視化呈現
隨著我國花粉癥發病率的持續上升,構建一個能滿足用戶花粉過敏知識服務和過敏預警的系統勢在必行。國內很多學者從理論上論證了花粉過敏預防的重要性,然而卻鮮見關于花粉過敏知識服務和過敏預警系統構建的探討。本文從應用的角度出發設計了一個花粉癥知識圖譜與過敏預警分析系統,并采用網絡爬蟲、OCR、信息可視化等技術實現了花粉過敏信息檢索、知識科普、知識圖譜、花粉地圖和過敏預警等功能。雖然取得了一些效果,但仍需要進一步完善。我們將在以后的研究中進一步增強系統對多格式、多來源數據的兼容性,在CNKI數據庫和萬方數據的基礎上,尋求相關氣象部門及醫院過敏反應科合作,構建更大的花粉濃度數據集、氣象信息數據集和花粉過敏歷史就診率數據集,為科研人員提供更全面的參考資料,提高花粉過敏預測的準確性。分階段多元非線性預測模型雖然能較好地對花粉濃度進行預測,但其準確度只是70%~80%。下一步可以考慮借助大數據,通過構建神經網絡模型預測花粉濃度,提高花粉濃度預測的準確率。