目前可供個人使用的大數據工具主要有兩類,一類是來自醫學監測機構的大數據,類似中國的疾控中心,美國的Carolinas Health Care,日本京都大學荒牧研究所等,以來自就診患者統計為主,輔以大數據分析手段,以顯示某地區目前流行病的發病情況為主,預測疾病流行走向為輔;另一類則來自搜索引擎和數據分析機構,包括Google Trends的疾病預測,百度預測的疾病預測,以及基于社交搜索的sickwether、patientslikeme和融合性的Healthmap等,以預測疾病流行走向為主,展示區域發病情況為輔。
兩種數據工具的手段大同小異,區別只在于前者提供的數據多是針對大區域的、服務機構的數據需要,后者則多針對小區域甚至某個城市商圈,為個人消費者服務。
Google 預測曾經很準
谷歌流感預測(www.google.org/flutrends)早在2008年即已推出,原理是采用流感趨勢系統監測全美的網絡搜索,尋找與流感相關的詞語,比如“咳嗽”和“發燒”等,并利用這些搜索結果來提前9個星期預測可能與流感相關的就醫量。
2009年在H1N1爆發幾周前,谷歌公司的工程師們在《Nature》上發表了一篇論文,介紹了GFT,成功預測了H1N1在全美范圍的傳播,甚至具體到特定的地區和州,而且判斷非常及時,令公共衛生官員們和計算機科學家們倍感震驚。
這個工具最初運行表現很好,許多國家的研究人員已經證實,其流感樣疾病(influenza-like illness, ILI)的估計是準確的,并且可以提前數周乃至數月,不像疾控中心一樣要在流感爆發一兩周之后才可以做到。
但此后的2013年,《新科學家》發現,在過去3年,該系統一直高估與流感相關的就醫量,在這類數據最有用的流感季節高峰期尤其預測不準確。在2012/2013流感季節,它預測的就醫量是美國疾控中心(CDC)最終記錄結果的兩倍;在2011/2012流感季節,它高估了逾50%。
《scientists》雜志認為,錯誤源自一種被稱作大數據浮夸(Big Data Hubris)的算法變化,例如對模型的人工優化,或是模型對某些不當關鍵詞的自動調整(例如某些搜索其實源于季節而非真實發?。?。
芝加哥大學衛生促進研究中心博士后、衛生經濟學者陳茁也曾撰文分析了其中的原因。他認為,谷歌搜索的結果和使用者人群“自我估計”的流感發病率相關。但在現實中,普通感冒在不同個體身上的嚴重程度上會有差別,有些患者因為擔心,便搜索了相關信息。這些搜索構成了類流感“自我估計”中的“噪聲”。如果只用“谷歌流感趨勢”預測流感發病率就會存在問題。
陳茁認為“谷歌流感趨勢”項目失誤的另外一個原因是在數據分析方面存在欠缺。哈佛大學Gary King和搭檔的研究就指出了谷歌項目在分析上的不足。首先,這個項目沒有盡可能利用傳統的統計分析手段來剔除系統誤差,比如殘差的自相關性和季節性;其次,“谷歌流感趨勢”忽略了其他數據的作用。如果結合美國疾控中心的數據,谷歌的預測其實有可能被大大改善。
百度預測野心很大
百度的疾病預測(http://trends.baidu.com/disease/)于2014年6月上線,目前可以對全國34個省區、331個地市、2870個區縣、19個城市的2558個商圈的11種疾病進行未來趨勢的預測,包括提供流感、肝炎、肺結核和性病等疾病的活躍度、流行指數,以及各種疾病相關的城市和醫院排行榜,用戶可以查看過去 30 天以內的數據和未來 7 天的預測趨勢。而且百度還在疾病預測的頁面上,整合了百度旗下其他優勢產品資源,比如在頁面右下角提供了百度百科和百度健康的鏈接,用戶點擊過去就可以了解到有關當前頁面疾病的各種相關知識。
百度疾病預測還加入了一些最新的技術成果和數據采集結果。例如,從公開資料來看,該產品模型的搭建一是通過歷史數據構建統計規律性,比如流感或者手足口等疾病具有季節性周期的規律,二是通過研究疾病人數與其他相關數據的相關性來計算預測結果,同時從統計的角度來驗證數據的正確性,以機器提供的數據為基礎,加入對異常數據的監控和分析。
而為了讓預測的準確率更高,百度還做了另外兩方面的努力。其一是在數據合作上,不僅引入權威機構的相關數據而且保持同步更新,這其中不僅包含數據互通,同時也會與合作方的專家進行產品交流。
另一點不同在于,百度預測引入社交、天氣、人群遷徙等搜索之外的數據,在搜索數據上,Google的query數據依賴于Google Correlation產品,而百度則是直接從原始日志中進行清洗、消岐、擴展和分析,相對來說,理論上更容易避免“春天感冒怎么辦”這樣的查詢影響結果。此外,百度的地理劃分可以細化到城市商圈,可以查詢的疾病也比Google多。
事實上,百度的“野心”遠不止簡單的疾病預測,讓“大數據落地”是如今互聯網公司不得不做出的改進,而百度也將在醫療領域深化定制化的健康信息服務。
為了讓疾病預測不只是一堆數據的堆積,而成為“中國人的健康圖譜,老百姓實用的生活助手”,百度正在對此產品進行優化,希望繼續增加病種,以覆蓋常見傳染病和慢性病。
此外,“除了時空數據,我們還會增加天氣、環境污染、用戶屬性數據,希望能夠針對不同用戶,提供個性化的防病、健康信息推送。”百度相關負責人透露,百度疾病預測還將提供每日疾病指數等細化數據,日后有望增加個人健康顧問、預防治療措施、求醫用藥指導等功能。
來源:ITBear、健康LIFE
《中國科學報》