孟彥霖 王祖維 葉力銘 王嘉雯 劉天華 夏輝
摘要:從大數據和醫藥健康問題出發,首先闡述了大數據對醫藥健康行業的促進作用,介紹了相應的背景知識。據此設計出一個基于大數據的醫藥健康平臺,導入了2017-2018年度部分藥品銷售數據進行分析及展示了系統效果。最后對醫藥健康大數據目前存在的問題進行了分析總結。
關鍵詞:大數據;生物醫藥;健康和醫療;聚類分析
隨著移動互聯網的普及、各種智能數據采集和數據存儲技術的進步,人類活動產生的數據正以驚人的速度增長,這些數據往往難以被傳統的管理系統有效的整理,而能在各種各樣類型的數據中,能夠快速獲得有價值信息的大數據技術被人們所熟知起來。大數據是一種以PB為單位的數據集,能夠有效且經濟地存儲、管理、處理的復雜的數據。如今,大數據已經滲透到人們生活與社會發展的各個方面,
隨著互聯網技術的日新月異,數據采集變得方便,數據分析也變得尤為重要。大數據在生活,工業,醫藥,體育等眾多領域都得到廣泛應用。在生物醫藥領域,大數據發揮的作用也愈發關鍵。由于我國老齡化人口數量不斷增加和慢性病患者數量龐大,導致醫藥數據量大,類型復雜。醫藥大數據可提高服務效率.例如歷史用藥信息可提高醫生診療速度和準確性。醫藥大數據也可以減少醫療資源浪費,提高其利用率。例如藥品監管可減少藥品浪費,減少無效診療,醫保欺詐。大數據還能夠幫助醫生更好的了解病人;快速根據病情進行個性化治療,通過數據預測疾病爆發等等。
1、醫藥健康大數據平臺
為了能夠更好的處理醫藥健康問題,我們根據醫藥大數據的特點提出了醫藥健康大數據平臺。首先,醫院治療并錄入患者的信息,并將數據以安全的信道傳輸到管理平臺,管理者及時反饋并收集用戶的信息,由數據分析師進行評估,再傳遞給私人醫生,社區醫生等,給患者合理的建議。主要的平臺流程如下圖所示。
1.1 k-means聚類分析算法
數據采集是數據分析中必不可少的,在本文中,我們采用K-means聚類分析來采集數據,k-meons算法由MacQueen在1967年提出,屬于基于距離的聚類方法中的一種基本的劃分方法,其函數定義為:
其中,uj是類Wj中數據對象的均值,uj是C個聚類中心,分別代表C個類。K- Means算法首先初始化C個類簇中心,然后計算各個數據對象到聚類中心的距離,并對其分類,把數據對象劃分至距離其最近的聚類中心所在類簇中,接著根據所得類簇,繼續更新類簇中心,一直迭代到最大次數。或者兩次迭代Jc的差值小于某一閾值時,迭代終止,得到最終的聚類結果。由于K-Means算法易于描述,工作效率高。在文本聚類領域,K-Meons算法已經成為基本的算法。
1.2 設計流程
首先,通過sporkstreaming實時從flume獲取數據并將數據導人數據庫,在ideo集成開發環境下編寫spark程序,將程序通過maven打包成jar包提交到spark集群,然后在spark環境下運行jar包來分析數據存人數據庫,再通過JavaWeb進行前端布局與連接數據庫操作,最后通過echarts的web項目從數據庫提取數據,將分析得到的數據以更加直觀,科學的形式呈現在系統管理者面前。
1.3 平臺效果
由數據提供方提供的‘2017-2018年藥品銷售數據’截取5000條藥品銷售情況,進行數值分析并導人平臺,在管理者模塊中,分析得出的結果以六大板塊展示出來分別為:患者購藥行為對比、購買某類藥物的患者的性別對比、購買某類藥物的患者痊愈后回饋某類藥物的評分對比各省份的某類藥物的銷量對比另女患者各個年齡段對比、針對某病癥的各類藥物銷量對比、各省份的某類藥物的銷量對比和患者痊愈后回饋藥物評分對比。由于數據提供方表示不能在作品中出現真實名稱,所以我們用某類代替。具體數據如圖所示。
2、問題與挑戰
通過可視化數據分析,系統管理者能較為直觀,清晰的分析數據。盡管如此.在實際應用中還面臨許多問題和挑戰。
2.1 數據處理
對小數據而言,最基本就是要減少錯誤,保證質量,但是對于大數據來講,允許個別不精確的出現是其基本的特征,而非缺點。由于分散在醫療藥物信息共享平臺下各類醫療機構中的大量異常數據,將這些數據進行采集,整合十分困難。對個人信息來講,對每一次的歷史診療都必須準確無誤,但是只看重這些高質量精確數據,而忽視那些不精確數據的利用將無法適應大數據時代,所以對數據的處理就顯得尤為重要。
2.2 醫藥數據標準不統一,難于共享
雖然醫藥大數據已經研發十幾年,我國也擁有海量的大數據資源,但現在各大醫院的大量信息還沒有互通起來,同時缺少有效分類。其中數據信息標準不統一是最大的問題,各家醫院的信息標準,接口都不盡相同。有些數據是視頻,音頻等。非傳統結構化的文本,導致難于導入程序中,使醫藥數據利用率低,難于共享。
2.3 安全隱私缺少保障
數據的安全與隱私缺少保障;同時醫藥大數據相關領域的法律體系不太完善,醫院等醫療機構服務器存人大量個人私密信息,一旦被敵手獲取,對個人安全造成嚴重威脅。
3、結束語
通過我們的大數據平臺,管理者和分析師能更為直觀的整理分析醫藥數據。目前大數據在醫藥方面還處于探索階段,但是已經展現了顛覆醫藥行業的潛力。我們要積極解決目前存在的數據處理,標準不統一等有關問題,不斷完善數據平臺。相信隨著大數據的發展,生物醫藥大數據技術會更加改變人類的生活。
參考文獻
[1]馬家奇,公共衛生大數據應用叨.中國衛生信息管理雜志,2014.
[2]俞國培,包小源,黃新霆等,醫療健康大數據的種類、性質及有關問題[J].醫學信息學雜志,2014, 35(6): 9-12.
[3]張巍,大數據以及火數據處理技術在醫院信息化建設中的應用,《科技風》,2018(1):58-58
[4]程方慧,泥瑾,大數據處理技術在醫院信息化中的應用,《網絡安全技術與應用》,2017(10J:67-67
[5] Carolinas heahhcare system[EB/OL]. http://www.ehoose carolinasheahheare. ore,/, 2015.
[6] Sharma S,Mangat V.Technology and trends to handlebig data: survey. Proceedings of the 5th InternationalConference on Advanced Computing&CommunicationTechnologies(ACCT),Haryana, India, 2015: 266~271
[7] Kelly J. Big data vendor revenue and market forecast.http://www.kdnuggets. com/2014/04/big-data-vendor-analysis-clusters.html, 2014