方陵生/編譯
信息科學與數據合成
方陵生/編譯

●本文作者莫納什大學教授朱利安·艾略特(Julian H.Elliott)、渥太華大學教授杰里米·格里姆肖(Jeremy Grimshaw)和他們的同事們堅持認為,數據合成科學的發展,必須要與各種類型的大量健康信息結合起來。
如果你想知道,接觸某些化學物質是否會增加你患結腸癌的幾率,你可以很容易地從動物實驗中找到支持證據,然而你有可能發現,流行病學研究告訴我們的卻是一個完全不同的結果。
沒有比涉及個人健康問題時所需要考慮因素更多的了。我們可以對人類的整個基因組,以及細菌、病毒和腫瘤的基因組進行測序,基本上,每一個來就診的患者,都可以通過其電子醫療記錄跟蹤到他們的病史;來自可穿戴設備、智能手機應用程序以及社交網絡站點等關于人們的生理、行為、飲食、運動,以及與他人互動的各種數據信息。由于數據開放和數據共享規范等的諸多變化,從而獲得更多可以公開獲取的數據。
然而,通過篩選信息來尋找關于健康問題的答案卻變得越來越困難,甚至對于一些專家來說也是如此。數據通過不同的渠道獲取,使用各種不同的方法生成,并且存儲在不同的基礎設施上。這些設施包括醫院專用服務器和全球性的數據平臺,如dbGaP、開放型基因數據庫和臨床信息數據庫等。
要將來自不同數據源的數據匯集到綜合性的數據庫中來作為決策者做決定時的依據和證據,研究人員需要在當前的數據合成方法和工具的基礎上,開發出更高層次的數據處理工具。研究人員通常通過一些相同類型的數據,例如臨床試驗的結果,以獲得他們想要的信息。不同的研究方式和數據類型,都存有各自不同的優缺點,而將各種不同的信息綜合起來,往往可以獲得對問題更深刻的理解。
舉個例子來說,治療胃灼熱的鎮吐藥西沙必利(Cisapride)于1993年在美國獲得批準生產,但臨床試驗收集數據的過程卻超過了整整十年,而這種藥物產生的一種副作用,即導致威脅生命的心臟節律紊亂,是在結合對眾多患者進行長期大規模研究后得到的臨床數據中發現并最后得到確認的。
同樣,從流感監測網上獲得的數據(包括從初級保健診所收集到的數據),可能與實際情況不符。比如,在谷歌上搜索相關流感癥狀時,可以實時收集到這些信息,但是其中的一些數據也有可能是不準確的。幾乎可以肯定的是,最好的數據信息是來自各類不同數據的結合。
那么,我們如何將獲得的極其多樣化的數據信息匯集在一起呢?
正式形成“數據合成”,即將多個來源的數據結合在一起,以獲得新的理解的方法首次出現于1970年代的社會科學領域內,并應用于其多個分支領域,支持了一些高影響力的決策,如藥物批準等。通常,“數據合成”包括對所有相關、可用的數據進行辨別和排序,并對每一來源數據的優劣進行評估,同時根據數據的嚴謹程度和所要解決的問題,決定如何對不同來源的數據進行處理(有些數據可能會被排除),然后,結合數據庫中的相關信息進行薈萃分析(譯注:元分析或薈萃分析,其概念為對以往研究結果進行系統的定量分析)或定性評估。
例如,一家英國集團公司將來自臨床試驗的數據與薈萃分析的群組研究結合在一起,對一種孕婦服用的、用于預防她們體內產生對嬰兒不利抗體的藥物的有效性進行評估。在此例中,群組研究中不同護理條件所產生的潛在偏差得到了確認,其對研究結果的影響可降至最低。
然而,許多對大型數據集進行組合和分析的研究人員,很容易受到一些偽造的基因組數據或電子病歷數據的影響,未能意識到數據綜合工具及其潛在的效用。事實上,許多數據合成專家對常用的與醫療衛生相關的大型數據集分析工具并不熟悉。
我們認為,數據合成的核心元素必須與其他數據科學地結合起來,以開發出使不同數據具有更大意義的新途徑。

科學家需要明確將不同數據結合在一起的目的、時機以及具體方法。例如,科學家需明確是否要把臨床記錄中的身體鍛煉數據、在線問卷調查以及可穿戴設備的數據結合在一起。以及需明確何時并如何結合不同層面的數據。科學家還需要知曉將各種類型數據結合在一起可能產生的風險,并考慮將相關風險納入分析的可能性。對于干預措施對臨床試驗和觀察性研究的影響,分析師可使用風險偏差評估工具以及其他一些類似方法,以檢測到并減少其他類型數據產生的偏差。這些其他類型數據是指源自于社交網絡和移動電話等的數據。
另外,還需要在捕捉和呈現潛在信息源偏差的具體途徑上取得共識。致力于醫療衛生數據基礎設施和標準建設的公司或組織,需要將這一層面的元數據(關于數據的數據)結合到他們的系統中。
處理偏差的方法必須納入到新開發的指導醫療衛生保健決策的分析系統內,包括那些基于自然語言處理過程和機器學習過程。透明與獨立地評估這些新系統也將是重要的一環。
就中短期而言,大學和研究機構的資助項目和部門重組對于計算生物學家、計算機科學家、臨床與人口健康研究人員以及數據合成專家之間的合作非常關鍵。例如,主要授予機構應投資于類似于英國國家健康研究所的專門研究項目。另外,有必要針對性地在貧困地區和國家投資開發數據的基礎設施。從長遠來看,適合于對不同類型數據進行分析、評價和整合的新型分析師將應運而生。
這些變化在醫療保健實踐中將意味著什么呢?美國精準醫療計劃(PMI)的目的之一是對癌癥的預防。這意味著對各種基因產生的影響和行為因素、環境因素及其相互作用的充分理解。如果將不同領域的數據適當并迅速地整合起來,這一計劃的價值將得到很大的提高。
PMI的另一個目的是開發新的癌癥療法。而更好的數據合成系統將促成更精準的藥物開發途徑的完善,同時對基因組學、動物實驗和人體試驗也將有更精準的了解。此外,一些醫療衛生保健資助機構,如英國的國民醫療服務機構和美國的醫療保險機構,也可以在臨床試驗、群組研究成果和手機及其他軟件等途徑獲得的數據信息中,更好地了解到相關藥物的療效和副作用。包括美國藥物安全主動監測計劃和加拿大藥物作用觀察研究網在內,都在從不同的醫療衛生保健系統收集和匯集數據,以監控獲得生產許可的藥物可能產生的副作用。
我們不建議采用千篇一律的方法,但是社會也不需要太多的數據分析方法來支持各種有沖突的推論。隨著數據集的日益龐大和豐富多樣,我們必須確保通過運用嚴格和值得信賴的方法更好地對數據進行分析理解,并行不悖地開發利用這些數據。
[資料來源:Nature][責任編輯:遙醒]