謝文瀾,孫雨圻
1寧波幼兒師范高等專科學(xué)校兒童研究院,浙江寧波,315000;2 德國漢堡大學(xué)艾本多夫醫(yī)學(xué)院,德國漢堡,20251
與新型冠狀病毒肺炎斗爭中,大數(shù)據(jù)發(fā)揮了重要的作用,將大數(shù)據(jù)納入公共衛(wèi)生系統(tǒng)已得到全球共識[1]。精準(zhǔn)公共衛(wèi)生(Precision Public Health)是受技術(shù)進(jìn)步推動的新領(lǐng)域,可以對個人和人群進(jìn)行更精細(xì)的描述和分析,以期改善人群的整體健康狀況[2]。其中,使用數(shù)據(jù)更有效指導(dǎo)造福人群的策略稱為精準(zhǔn)公共衛(wèi)生策略,它需要強(qiáng)大的基礎(chǔ)監(jiān)控數(shù)據(jù),快速精細(xì)復(fù)雜的分析來跟蹤疾病的地理分布,以及根據(jù)此類信息采取行動的能力[3]。大數(shù)據(jù)及其支持技術(shù)作為一種新興實踐,可以幫助精準(zhǔn)公共衛(wèi)生實現(xiàn)以前無法達(dá)到的目標(biāo)和速度,更精細(xì)地預(yù)測和了解公共衛(wèi)生風(fēng)險,并制定相應(yīng)的策略和治療方案[4]。基于此,本研究首先概述大數(shù)據(jù)在精準(zhǔn)公共衛(wèi)生領(lǐng)域中的應(yīng)用,并以新冠肺炎疫情為例重點介紹大數(shù)據(jù)在突發(fā)公共衛(wèi)生事件中的精準(zhǔn)應(yīng)用,闡述可能面臨的困難和挑戰(zhàn),以期為大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域中更好的應(yīng)用提供新視角。
“大數(shù)據(jù)”是指大量、復(fù)雜、可鏈接的信息[5],主要應(yīng)用于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計算等平臺中。公共衛(wèi)生大數(shù)據(jù)通常包括: ①通過生物和環(huán)境測量的數(shù)據(jù);②行政方式收集的病歷數(shù)據(jù);③由全球定位系統(tǒng)(GPS)設(shè)備或FitBit以極高的頻率間隔自動進(jìn)行的測量數(shù)據(jù);④電子媒體所產(chǎn)生的數(shù)據(jù)流,例如搜索詞記錄,社交媒體發(fā)布的帖子等[6]。
大量臨床實踐和研究已經(jīng)證明大數(shù)據(jù)可以提高多個公共衛(wèi)生領(lǐng)域的準(zhǔn)確性。如大數(shù)據(jù)能精準(zhǔn)檢測相關(guān)疾病信號,實時監(jiān)控公眾健康狀態(tài),建立相關(guān)疾病發(fā)生的數(shù)據(jù)庫[7],而這些數(shù)據(jù)將會用于后期公共衛(wèi)生風(fēng)險的預(yù)測。此外,研究者利用大數(shù)據(jù)對各種健康問題和風(fēng)險人群進(jìn)行細(xì)分,促進(jìn)相關(guān)研究和實驗更加具體和可操作,提供更具針對性的治療干預(yù)措施。同時,大數(shù)據(jù)還為精準(zhǔn)公共衛(wèi)生決策和管理提供循證。如中國研究者通過開發(fā)大數(shù)據(jù)智能平臺,將電子健康記錄數(shù)據(jù)二次使用,促進(jìn)鼻咽癌研究,該研究為多醫(yī)療機(jī)構(gòu)之間的數(shù)據(jù)共享提供支持,為后期基于數(shù)據(jù)的醫(yī)療公共衛(wèi)生決策提供技術(shù)支撐[8]。
總的來說,大數(shù)據(jù)相關(guān)研究和干預(yù)結(jié)果都積極表明其在精準(zhǔn)公共衛(wèi)生中的價值。隨著技術(shù)創(chuàng)新的步伐以及精準(zhǔn)醫(yī)療從業(yè)人員接納大數(shù)據(jù)的速度,大數(shù)據(jù)將在更多的公共衛(wèi)生領(lǐng)域發(fā)揮支持性作用。
早在1854年,現(xiàn)代流行病學(xué)之父約翰·斯諾(John Snow)就已具備大數(shù)據(jù)思維,通過記錄霍亂病例家庭位置繪制“地圖”,推斷Broad Street水泵附近可能是疫情暴發(fā)源頭,并建議移除水泵來阻止疫情傳播。但如今,可以想象擁有大數(shù)據(jù)技術(shù)的斯諾,可能已經(jīng)通過全球定位系統(tǒng)信息和流行疾病數(shù)據(jù),在數(shù)小時內(nèi)解決了問題[5]。由此可見,大數(shù)據(jù)及其相關(guān)技術(shù)在公共衛(wèi)生事件精準(zhǔn)應(yīng)對上起著巨大作用。首先,與疾病相關(guān)的醫(yī)學(xué)和遺傳學(xué)數(shù)據(jù)為研發(fā)治療方案,制定應(yīng)對措施提供了基礎(chǔ)。當(dāng)新的或再生的病原體引起大暴發(fā)時,快速獲取原始數(shù)據(jù)、分析數(shù)據(jù),或與疾病相關(guān)研究結(jié)果對于制定快速有效的公共衛(wèi)生應(yīng)對措施至關(guān)重要[9]。來自社交定性評估和社交媒體對話的非結(jié)構(gòu)化數(shù)據(jù)(如,自由文本)為遠(yuǎn)程監(jiān)控危險行為和疾病暴發(fā)提供了重要途徑[10],如研究人員使用來自Twitter的數(shù)據(jù)預(yù)測流感傳播趨勢[11]。 除此之外,相關(guān)的疾病監(jiān)測(通常包括跟蹤受影響的個體,即人類攜帶者,患者或受害者)所提供的數(shù)據(jù)可有效預(yù)測疾病擴(kuò)散趨勢,為非醫(yī)療干預(yù)措施提供數(shù)據(jù)支持[12]。
新冠肺炎疫情暴發(fā)時,我國迅速采取相關(guān)應(yīng)對措施,包括早期人口流動管理、交通管制政策出臺,實時疫情地圖和數(shù)據(jù)更新,后期的個體健康電子檔案(如微信、支付寶綠碼)的建立并確保居民生活無接觸。這些措施都體現(xiàn)了大數(shù)據(jù)在此次疫情中的精準(zhǔn)應(yīng)對作用。
在疫情暴發(fā)初期,對新冠肺炎相關(guān)的數(shù)據(jù)信息進(jìn)行收集,并進(jìn)行全球分享,為全球精準(zhǔn)抗疫提供有力支持 。中國疾病預(yù)防控制中心病毒預(yù)防控制所在1月2日接到標(biāo)本后,1月7日從臨床樣本中成功分離病毒,1月24日全球首發(fā)了第一株新型冠狀病毒毒株信息[13]。根據(jù)中國提供的相關(guān)數(shù)據(jù),國內(nèi)外研究者對病毒結(jié)構(gòu)、起源、致病機(jī)制等做了大量的研究和報告。除了疾病大數(shù)據(jù)分享,中國還將大數(shù)據(jù)及其相關(guān)技術(shù)充分應(yīng)用到病情診斷、藥物篩選、醫(yī)療輔助等與醫(yī)護(hù)工作直接相關(guān)的情境中。如通過病毒RNA序列構(gòu)建蛋白3D模型,并采用深度學(xué)習(xí)對蛋白質(zhì)-配體進(jìn)行虛擬篩選,尋找能治療新冠病毒肺炎的潛在藥物[14]。此外,為緩解疫情期間醫(yī)療資源緊缺,避免聚集性交叉感染,許多“互聯(lián)網(wǎng)+醫(yī)療”平臺推出“在線問診”服務(wù)等。
在疫情暴發(fā)中期,大數(shù)據(jù)主要通過疾病監(jiān)測,精準(zhǔn)鎖定人員流動軌跡。通過電信運營商、交通部門、互聯(lián)網(wǎng)等提供的大數(shù)據(jù)對確診病患、疑似病患和相關(guān)接觸者的地理位置和時間戳數(shù)據(jù)的挖掘,繪制患者行動軌跡,并根據(jù)患者確診前一段時間的行動軌跡,來推斷密切接觸者[15]。這些個體流動數(shù)據(jù)可提供不同類別人群的區(qū)域內(nèi)、區(qū)域間的流動情況。騰訊、百度等APP則通過繪制疫情地圖將這些復(fù)雜流動數(shù)據(jù)可視化。每個用戶均可查看每個城市的遷入、遷出走勢。這些數(shù)據(jù)抓捕和挖掘,為精準(zhǔn)施策提供有力指導(dǎo),也為預(yù)測高危地區(qū)和潛在高危地區(qū)提供精準(zhǔn)依據(jù)。
通過對疫情暴發(fā)早期的數(shù)據(jù)收集,以及中期的人員流動數(shù)據(jù)來構(gòu)建模型,精準(zhǔn)預(yù)測疫情傳播趨勢。疫情期間,依托于國家衛(wèi)健委公開透明的實時最新大數(shù)據(jù),研究者們掌握了疫情擴(kuò)散模式,構(gòu)建了傳播動力模型,對預(yù)測和防控進(jìn)行了大量的研究。如研究者根據(jù)百度地圖上交通流量數(shù)據(jù),以及1月1日至1月26日離開武漢的航空旅客數(shù)量,以當(dāng)?shù)厝丝诤秃娇章每腿藬?shù)作為預(yù)測變量,構(gòu)建多重線性模型解釋中國每個城市確診病例的方差,從而量化潛在的感染人群。研究結(jié)果發(fā)現(xiàn),武漢航空旅客的貢獻(xiàn)逐漸減少,但當(dāng)?shù)厝丝诘挠绊憛s在增加,這表明了疫情控制在本地,且本地傳播趨勢緩慢。這說明政府和社區(qū)采取了嚴(yán)格的控制措施[16]。
此外,研究者還根據(jù)武漢,以及從武漢遷徙到中國大陸以外城市的病例數(shù),建立人口遷移模型,模擬了新冠疫情在中國大陸的傳播。如研究者采集了2019年12月31日至2020年1月28日《官方航空指南》和騰訊數(shù)據(jù)庫在中國大陸300多個地級市的人口流動數(shù)據(jù)。結(jié)果發(fā)現(xiàn)北京、上海、廣州和深圳這些城市合計占中國所有大陸城市出境國際航空旅行的53%,占亞洲以外的國際航空旅行的69%。但武漢市的社區(qū)隔離措施,以及其他非藥物干預(yù)(使用口罩,注意個人衛(wèi)生)等措施的實施,可降低疫情的傳播率。研究者認(rèn)為,在“人傳人”的感染期間,報告病例人數(shù)呈指數(shù)級增加時,實時分析和預(yù)測對于國內(nèi)外突發(fā)公共衛(wèi)生事件的規(guī)劃和控制至關(guān)重要[17]。
在疫情穩(wěn)定期和恢復(fù)期階段,個人申報的“健康碼”數(shù)據(jù),為地方政府精準(zhǔn)施策助力。多地方通過個人“健康碼”等數(shù)字平臺,對社區(qū),交通出行,復(fù)工復(fù)產(chǎn)等進(jìn)行疫情防控管理。針對重點地區(qū),重點場所形成分級管理。例如浙江省等地區(qū)通過“健康碼”作為本地區(qū)出入通行的電子憑證。市民或返工返崗人員自行在微信、支付寶等平臺自主申報,實現(xiàn)一次申報,全市通用。公共場所也通過“健康碼”,采取對應(yīng)的措施,降低疫情傳染風(fēng)險。
政府機(jī)構(gòu)根據(jù)上述大數(shù)據(jù)提供的疫情信息(病毒相關(guān)數(shù)據(jù)信息、人員流動、疫情傳播速度與趨勢預(yù)測、個人健康信息(健康碼)等信息),有效的開展動態(tài)疫情監(jiān)控、醫(yī)療物資統(tǒng)籌分配、民生物資供應(yīng)、交通管制等策略,實現(xiàn)精準(zhǔn)控疫。
2.3.1 需完善數(shù)據(jù)采集流程和管理制度。用于疫情分析的數(shù)據(jù)大部分來源于政府公開數(shù)據(jù)或企業(yè)根據(jù)自身產(chǎn)品采集的數(shù)據(jù)。而目前公開渠道獲取的數(shù)據(jù)口徑、統(tǒng)計時間維度不一致,數(shù)據(jù)源重復(fù)雜亂,影響真實數(shù)據(jù)獲取。此外,數(shù)據(jù)收集過程中,往往采用人海戰(zhàn)術(shù),通過手工填表,電話問詢等方式。這不僅給基層工作人員增加負(fù)擔(dān),也無法保證數(shù)據(jù)質(zhì)量。如,在采集患者個人信息時,未區(qū)分手機(jī)號為病患或病患家屬,可能導(dǎo)致運營系統(tǒng)核驗過程中出現(xiàn)身份證號與手機(jī)號不一致結(jié)果,影響后續(xù)數(shù)據(jù)分析的準(zhǔn)確性[15]。
2.3.2 需平衡公眾知情權(quán)與公民隱私保護(hù)。疫情防控期間,多地區(qū)都在排查上報重點地區(qū)返鄉(xiāng)人員和確診信息,這能幫助衛(wèi)生監(jiān)察機(jī)構(gòu)及時掌握信息,爭取第一時間做出干預(yù)。尤其在疫情期間,盡管保障公眾知情權(quán)和公共安全是穩(wěn)定人心,幫助公眾掌握疫情發(fā)展的重要環(huán)節(jié),但是公民個人隱私仍然屬于最重要的基本權(quán)利,因而如何平衡兼顧公眾知情信息與公民個人隱私就顯得尤為重要。
2.3.3 需甄別大數(shù)據(jù)中的“誤差”(Big Error)。這些誤差可能來源于早期的數(shù)據(jù)收集、預(yù)處理,也可能來源于后期不同模型帶來的差異。此外,在大規(guī)模檢查與疾病結(jié)果相關(guān)的推斷時,可能引發(fā)許多錯誤警報。而當(dāng)人們可以測量更多東西時,“發(fā)現(xiàn)”中的虛假警報比例可能會增加[18]。對于非基因組關(guān)聯(lián)的數(shù)據(jù),即使研究本身具有非常大的規(guī)模,但研究數(shù)據(jù)中存在的廣泛的復(fù)制和強(qiáng)信號,也會由于混雜變量或其他偏差而導(dǎo)致誤報。因此,在衛(wèi)生健康大數(shù)據(jù)中,大數(shù)據(jù)的優(yōu)勢在于發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián),但這些關(guān)聯(lián)本身的意義并不會得到深究,因而需要認(rèn)識到大數(shù)據(jù)研究中的數(shù)據(jù)可能存在虛假性[5]。
2.3.4 要正確處理數(shù)據(jù)輿情。在當(dāng)今這個數(shù)據(jù)信息飛速迭代、移動網(wǎng)絡(luò)和自媒體產(chǎn)業(yè)快速蔓延的時代,人們獲得信息的方式更加多樣,信息的種類更加繁多。新冠疫情期間,社交媒體傳遞出巨大的信息,同時也包含了巨大的噪音和干擾。一方面研究者可以根據(jù)社交媒體提供的生物醫(yī)學(xué)數(shù)據(jù)對疫情進(jìn)行分析;另一方面,公眾通過社交平臺可以了解疫情的相關(guān)信息。但是由于信息的延遲性獲取等原因,使得大數(shù)據(jù)在早期并未發(fā)生期待性的作用[19];而巨大紛繁的信息中包裹著大量噪音信息也使得公眾對疫情的認(rèn)知產(chǎn)生了偏差,削弱了對疫情的精準(zhǔn)解讀。
首先,完善數(shù)據(jù)采集、管理、使用制度,平衡數(shù)據(jù)使用中的隱私、共享、安全等倫理問題。政府、醫(yī)院、研究所等部門在采集、管理、使用個人健康數(shù)據(jù)過程中,需要形成統(tǒng)一標(biāo)準(zhǔn),方便(不同機(jī)構(gòu))數(shù)據(jù)匯總和比較。此外,數(shù)據(jù)使用過程中還會涉及到個人隱私。一般情況下,個人健康數(shù)據(jù)在被加入到用于預(yù)測分析的數(shù)據(jù)庫前,會隱去相關(guān)的個人信息,只包含用于分析的數(shù)據(jù)。這在一定程度上,可以解決個人隱私被泄露這一問題。但是,如果在醫(yī)療系統(tǒng)中不存儲個人相關(guān)信息,則更難探索疾病因果關(guān)系[1]。為了解決這一問題,一種方式是將個人信息加密或去識別化,但這一過程,也面臨著個人信息被盜用的風(fēng)險。此外,大規(guī)模的數(shù)據(jù)收集,不僅涉及到個人隱私問題,還與公眾利益、國家安全息息相關(guān)。因此,需要完善的制度來規(guī)范數(shù)據(jù)收集、管理和使用過程。在共享和開放的同時,也要保護(hù)個人隱私,維護(hù)公眾利益,守護(hù)國家安全。
其次,甄別數(shù)據(jù)誤差,完善分析方法。健康大數(shù)據(jù)是產(chǎn)生假設(shè)的機(jī)器,但是即使建立了牢固的關(guān)聯(lián),仍然需要與相關(guān)證據(jù)來支持其可能的因果關(guān)系。約翰·斯諾就是從一個合理的假設(shè)開始,至關(guān)重要的是,斯諾為了驗證假設(shè)“做了這個實驗”:他從水泵上拆下手柄,大大減少了霍亂的傳播,證實了干預(yù)的有效性。這一過程,將結(jié)果從相關(guān)轉(zhuǎn)向因果。此外,研究者需要明確大數(shù)據(jù)的分析潛力,不斷完善分析方法,創(chuàng)新分析方法。在研發(fā)新方法(包括數(shù)據(jù)挖掘,豐富開放數(shù)據(jù)存儲庫等)時,需要更加關(guān)注臨床數(shù)據(jù)(例如生物醫(yī)學(xué),基因組數(shù)據(jù))與真實世界數(shù)據(jù)的整合。
第三,社交媒體數(shù)據(jù)正在迅速影響大數(shù)據(jù)研究,并已成為該新興領(lǐng)域中使用的主流工具之一[20]。互聯(lián)網(wǎng)提供了這些情境化健康數(shù)據(jù)的平臺,人們愿意在社交媒體自由共享個人健康信息。實時地圖(例如Google Maps),或者其他可視化技術(shù),例如GeoCommons(http://geocommons.com),Google Public Data Explorer(http://www.google.com/publicdata/directory),可非常便捷獲取這些數(shù)據(jù)。而這些數(shù)據(jù)可幫助監(jiān)測傳染性或慢性疾病的發(fā)展趨勢。因此,監(jiān)測社交數(shù)據(jù)可提供更多樣的流行病學(xué)數(shù)據(jù),用來預(yù)測與健康、疾病相關(guān)信息,提高通過大數(shù)據(jù)改善健康和預(yù)防疾病的潛力。政府、公共衛(wèi)生當(dāng)局需要關(guān)注社交媒體的重要性,并合理利用社交媒體提供的信息來評估、保護(hù)、促進(jìn)公眾健康[21]。當(dāng)然,社交媒體的數(shù)據(jù)也可能存在局限性。比如,大數(shù)據(jù)分析主要基于互聯(lián)網(wǎng)上的方便人群樣本,容易影響結(jié)果的準(zhǔn)確性。如果研究者將健康大數(shù)據(jù)分析嵌入到流行病學(xué)特征鮮明且具有代表性的人群中則可提高數(shù)據(jù)質(zhì)量。因此,探索解決這些局限性的方法將提高媒體數(shù)據(jù)在監(jiān)測健康行為和疾病暴發(fā)中的價值。同時,建立和記錄在大數(shù)據(jù)研究中使用社交媒體的方法很重要,這樣社交媒體數(shù)據(jù)才能更廣泛地影響公共衛(wèi)生和社會科學(xué)(例如基礎(chǔ)科學(xué)和基因組學(xué))以外的領(lǐng)域。
此外,重視大數(shù)據(jù)對個體健康的早期干預(yù),創(chuàng)新大數(shù)據(jù)應(yīng)用。以往公共健康領(lǐng)域的專家更關(guān)注基因、藥物、疾病等,而忽視能夠改善個體健康的社會決策。而大數(shù)據(jù)不僅能夠繼續(xù)在診斷、治療上提供幫助,還幫助醫(yī)療科研人員更好的將視角前移,從“治療疾病”,轉(zhuǎn)移到通過“預(yù)測、預(yù)防”,改變發(fā)病率和死亡率,提高公眾整體健康水平。大數(shù)據(jù)架起了基礎(chǔ)研究和公共衛(wèi)生應(yīng)用之間的橋梁,將基礎(chǔ)醫(yī)學(xué)研究成果向疾病預(yù)防模式轉(zhuǎn)化[22]。公共衛(wèi)生領(lǐng)域的大數(shù)據(jù)應(yīng)用也隨著研究成果不斷擴(kuò)展、前移、創(chuàng)新,一方面大數(shù)據(jù)對醫(yī)療診斷、基因測序、疫苗藥物研發(fā)等提供支持,另一方面通過公眾健康大數(shù)據(jù)進(jìn)行疾病預(yù)測,為改善個體健康的政策實施提供支持,促進(jìn)大數(shù)據(jù)在公共衛(wèi)生分析、預(yù)警、防治等方面創(chuàng)新應(yīng)用。