崔雨晴
(濟寧市第一人民醫(yī)院,山東 濟寧 272000)
醫(yī)院的健康管理信息平臺是信息化建設(shè)的重要組成部分,也是對傳統(tǒng)健康管理業(yè)務(wù)流程的再造[1-4]。根據(jù)國外經(jīng)驗,醫(yī)院信息化投入通常占總收入的5%,而我國的平均水平僅約為2%。創(chuàng)建一套完善、周密及個性化的健康數(shù)據(jù)分析系統(tǒng),其目的在于輔助建立有序、健康的生活方式,進而降低疾病風(fēng)險;而一旦出現(xiàn)臨床癥狀,則可通過智能化就醫(yī)服務(wù),盡快接受診斷治療[5-9]。
基于上述應(yīng)用背景,文中面向醫(yī)院的健康信息管理平臺設(shè)計了醫(yī)療檔案的數(shù)據(jù)分析算法。該方法基于機器視覺技術(shù)(Machine Vision,MV)實現(xiàn)對門診記錄和檢驗報告等信息的提取,再使用K-means算法對提取的信息進行歸類分析,從而提升健康信息管理平臺的數(shù)據(jù)管理效率,并規(guī)范了相關(guān)的業(yè)務(wù)流程。
該算法的應(yīng)用場景為醫(yī)療信息系統(tǒng)相關(guān)檔案的初步自動歸類分析。所選擇的聚類算法是適用于醫(yī)療檔案這類大數(shù)據(jù)應(yīng)用場景的K-means 算法[10-13]。在使用該算法前,首先,要確定醫(yī)療檔案的類別數(shù)量,即k值;然后,在迭代過程中,以每個檔案樣本到聚類中心的距離之和最小作為最佳聚類方案。其基本步驟描述如下:
1)在n個樣本中,選取k個樣本{z1,z2,…,zk}作為所有樣本的初始聚類中心。
2)遍歷n個樣本,對于第i個樣本xi,得到與其距離最近的聚類中心zv,同時將該樣本分配到zv對應(yīng)的類別uv中。
3)根據(jù)平均法,重新分配類別中心。
4)根據(jù)式(1)計算所有樣本到聚類中心的距離D:
5)判斷D的收斂情況,若D不收斂,則重復(fù)步驟2);否則,返回分類結(jié)果,如式(2):
根據(jù)醫(yī)療檔案信息管理系統(tǒng)的需求,聚類方法應(yīng)準(zhǔn)確反映不同檔案樣本間的內(nèi)在結(jié)構(gòu),且類內(nèi)的樣本也需盡可能相似。由于該場景下的數(shù)據(jù)結(jié)構(gòu)復(fù)雜,傳統(tǒng)K-means 算法的分類效果受初始聚類中心的影響較大。因此,文中建立了新的指標(biāo)評價體系。
記聚類空間為K={X,R},其中X是數(shù)量為n、類別為c的樣本集合,R為實數(shù)集合。設(shè)樣本的最小類間距為b,類內(nèi)距離為w,聚類距離為baw,聚類離差距離為bsw,則第j類和第i個樣本下各指標(biāo)的計算方法如下:
綜合式(3)-(6)的相關(guān)指標(biāo),文中在劃分聚類時使用的最終指標(biāo)BWP 的定義如下:
為了提升數(shù)據(jù)的采集效率,該醫(yī)療檔案信息系統(tǒng)還引入了機器視覺的圖像處理相關(guān)方法[14-16]。該方法可以自動識別患者的門診記錄、診斷報告等信息,進而實現(xiàn)數(shù)據(jù)的快速錄入。系統(tǒng)視覺處理模塊如圖1 所示。

圖1 系統(tǒng)視覺處理模塊
視覺處理模塊主要包括三個部分:圖像采集模塊、圖像處理模塊以及數(shù)據(jù)管理與信號控制模塊。其中,圖像采集模塊主要對醫(yī)療信息系統(tǒng)中的相機、光源等設(shè)備的曝光時間、觸發(fā)頻率、環(huán)境亮度和照射角度等參數(shù)進行調(diào)整,以保證醫(yī)療檔案采集的清晰度。圖像處理模塊的主要流程如圖2 所示。

圖2 圖像處理模塊的工作流程
在進行圖像降噪[17-19]時,采用了鄰域平均法。記f(i,j)為相機采集的含有噪聲的圖像,g(i,j)為降噪處理后的圖像,則有:
圖像配準(zhǔn)是指將采集的圖像通過平移、旋轉(zhuǎn)等操作,完成幾何矯正,文中采用基于鄰域搜索的模板匹配法來進行配準(zhǔn)。首先在標(biāo)準(zhǔn)模板中選取兩個小區(qū)域模板T0、T1,并將二者的中心分別設(shè)為(x0,y0)和(x1,y1);記P(X,Y)為(x0,y0)與(x1,y1)連線的中心線,M(x,y)為降噪后圖像的中心點坐標(biāo),則可以得到坐標(biāo)間的對應(yīng)關(guān)系為:
式(9)中,(x′,y′)為降噪后圖像M繞原點O旋轉(zhuǎn)角度θ后的坐標(biāo),并記該點為M′,其坐標(biāo)計算公式為:
其中,γ為OM連線與平面直角坐標(biāo)系中x軸的夾角。其計算公式如下:
最終,可以得到配準(zhǔn)的平移量為:
圖像差分是將配準(zhǔn)后的圖像進行差分,進而獲得差值圖。其可描述兩幅圖像之間的差異,從而為提取有效的患者檔案信息提供基礎(chǔ)。假設(shè)系統(tǒng)預(yù)置的模板圖像灰度矩陣為T,配準(zhǔn)后的圖像記為S,插值圖像記為E,則有:
基于插值圖像,即可最終完成相關(guān)的醫(yī)療檔案信息提取。
在使用醫(yī)療信息系統(tǒng)進行檔案管理時,由于患者人數(shù)多、提取的信息結(jié)構(gòu)復(fù)雜且獲取的數(shù)據(jù)量也較大,此時若采用傳統(tǒng)的K-means 算法進行數(shù)據(jù)處理,不僅迭代過程難以收斂,算法的相關(guān)指標(biāo)也無法令人滿意,因此文中仍基于機器視覺的相關(guān)理論,搭建算法仿真的GPU 并行計算平臺。
GPU 是計算機上用于圖像處理的微處理器,根據(jù)計算機視覺體系下的計算特點,該處理器適用于文中所述的計算密集型場景。CUDA(Compute Unified Device Architecture)是NVIDIA 公司開發(fā)的面向GPU的并行計算平臺,基于該平臺實現(xiàn)醫(yī)療信息管理系統(tǒng)的相關(guān)機器視覺計算任務(wù)與K-means的并行化處理。
為了滿足醫(yī)療機構(gòu)現(xiàn)有數(shù)據(jù)分析系統(tǒng)的接口要求,需要在CUDA 中按照Host 端、Device 端進行數(shù)據(jù)結(jié)構(gòu)體設(shè)計。Host 端主要包含Data 結(jié)構(gòu)體。該結(jié)構(gòu)體的具體描述如表1 所示。

表1 Data結(jié)構(gòu)體屬性設(shè)計
相較于Host 端,Device 端的數(shù)據(jù)結(jié)構(gòu)相對簡單,所有的結(jié)構(gòu)體均為一維數(shù)組。每個結(jié)構(gòu)體的功能描述如表2 所示。

表2 Device端結(jié)構(gòu)體屬性設(shè)計
在進行K-means 算法設(shè)計時,由于不同時間、不同地點醫(yī)療信息系統(tǒng)采集的數(shù)據(jù)規(guī)模是不同的。因此文中對于不同的數(shù)據(jù)集規(guī)模,分別設(shè)計了不同串行、并行的K-means 算法。具體的描述如表3 所示。

表3 系統(tǒng)內(nèi)設(shè)計的聚類算法和處理對象
根據(jù)K-means算法的基礎(chǔ)理論和改進的K-means算法描述,在CUDA 中設(shè)置該算法的相關(guān)參數(shù),如表4所示。

表4 改進K-means算法的參數(shù)
文中使用的算法硬件仿真平臺與CUDA 平臺的相關(guān)參數(shù),如表5-6 所示。

表5 算法仿真硬件平臺

表6 CUDA的相關(guān)參數(shù)
基于上文所述的相關(guān)圖像處理方法共提取了七個數(shù)據(jù)集,不同數(shù)據(jù)集的標(biāo)簽維度數(shù)、提取的時間如表7 所示。

表7 數(shù)據(jù)提取結(jié)果
從表7 中可以看出,圖像處理算法在GPU 上的運行速度是顯著優(yōu)于CPU 的。而在CPU 中,數(shù)據(jù)的提取效率會隨著數(shù)據(jù)維度的提升而降低,在并行的GPU 計算模式下,提取時間的增加速度則小于CPU中的速度。
在完成數(shù)據(jù)提取后,選取編號為6 的數(shù)據(jù)集(64/8 MB)作為測試樣本,并對改進后的K-means 算法在CUDA 中的運行效率進行評估。評估結(jié)果如表8 所示。

表8 不同k值下的運行時間
由表8 可知,不同的k取值會影響K-means 算法的運行效率。在CPU 中進行聚類實驗時,算法的運行時間會隨著k取值的變大而顯著增加;而在GPU中進行計算時,運行時間隨k取值的變化則并不明顯。對比兩個算法,當(dāng)k取值為16、32 時,GPU 的運行時間分別下降了76.79%和82.49%。由此說明,Kmeans 算法越復(fù)雜,GPU 下的計算優(yōu)勢便愈發(fā)明顯。
最后,在編號為7 的數(shù)據(jù)集上對上文所述的聚類算法BWP 評價指標(biāo)體系進行了評估。經(jīng)前期標(biāo)注,已探明該數(shù)據(jù)集的最佳分類數(shù)k為16。在測試時,使用現(xiàn)在常用的CH、DB、KL 等聚類評價指標(biāo)體系作為對比。測試對比結(jié)果如表9 所示。

表9 不同指標(biāo)體系下的聚類效果
從表9 可以看出,CH、DB 算法無法在具有多個類別時正確識別樣本的類別數(shù)量。而KL 與所提BWP 指標(biāo)均能幫助K-means 算法正確識別出樣本的類別數(shù),但后者正確聚類的樣本占比提升了4.88%。
文中面向醫(yī)療信息管理系統(tǒng)設(shè)計了一套基于機器視覺的檔案信息提取算法,并引入改進的Kmeans 算法對提取的檔案信息進行了聚類分析。在實現(xiàn)相關(guān)算法時,文中還使用了基于GPU 的CUDA計算平臺,提升了算法的計算效率。未來,隨著醫(yī)療信息化程度的不斷提升,所提數(shù)據(jù)分析方法將有更廣泛的應(yīng)用。