馬帥營
(大連民族學院現代教育技術中心,遼寧大連 116605)
基于回歸分析的基因芯片圖像傾斜校正方法
馬帥營
(大連民族學院現代教育技術中心,遼寧大連 116605)
基因芯片圖像的傾斜校正對圖像分析有著重要意義。利用投影信號對圖像進行行列分割,對僅包括單行(列)樣點的子圖像運用回歸分析完成初步傾斜校正,利用樣點的質心進行直線擬合,完成精確校正。實驗表明,對基因芯片圖像的傾斜校正有很高的準確性,且算法簡單易行。
基因芯片圖像;投影信號;回歸分析;傾斜校正
基因芯片的檢測與分析是基因芯片技術研究中的重要組成部分,其可靠性、準確性直接影響芯片的推廣與使用。其中包括了圖像預處理、網格定位、背景濾除、熒光信號提取等[1]。要進行芯片分析,首要任務就是進行網格定位[2-4],也就是在基因芯片圖像上確定各探針的雜交信號點的位置,在此基礎上準確地提取各探針的雜交信號。網格定位是進行后續芯片分析的前提。而在基因芯片圖像的采集中不可避免地會存在圖像的旋轉,圖像存在傾斜角。傾斜角的角度判定及校正對后續的網格定位研究意義重大。
目前的網格定位方法中,文獻[2]提出了基于數學形態學的方法,利用基因芯片圖像在水平方向和豎直方向的投影信號,將二維圖像分析問題轉化為一維信號處理問題,完成網格定位。文獻[3]對該方法做了進一步的改進,其中提到“這里所處理的圖像均已經過一定的旋轉處理”。所以這種方法只對無傾斜的圖像才有效,對存在傾斜的圖像的校正是該研究的前提。
文獻[4]中采用變形模板匹配法,通過構造一個感興趣物體的模板,將模板進行各種變形,包括位移、旋轉、縮放。然后將變形模板與圖像的對應區域比較,使模板與圖像的匹配達到最佳。該方法在計算圖像模板與圖像相似度時計算量很大,因為模板旋轉計算的時間復雜度和空間復雜度較大,相對于位移和縮放占主要計算量。所以對圖像進行傾斜校正后,將避免模板的旋轉匹配計算,大大減少該方法的計算量。
目前,基因芯片圖像的研究已經取得一定進展,但如何更加有效地提高網格定位的精確度和速度非常值得研究。本文在前人研究的基礎上提出基因芯片圖像的傾斜校正,可以完善一些研究的前提條件,減少某些研究的算法計算量等等。
本文在對基因芯片圖像的傾斜校正時,包括三個步驟:
(1)通過水平投影信號將基因芯片圖像進行行列分割;
(2)采用回歸分析法,快速的對分割出的行列計算傾斜角及均值,進行初步的傾斜校正;
(3)重復(1),計算基因芯片行列子圖像中樣點的質心,對質心采取直線擬合的方法,完成精確的傾斜校正。
1.1 基于投影信號的基因芯片圖像的行列分割
首先對基因芯片圖像進行預處理,包括濾波、腐蝕、膨脹等數學形態學運算,濾除噪聲,提高圖像質量。然后對圖像進行自適應閥值分割,將基因芯片圖像變為二值圖像,如圖1(圖像中包含10行、10列樣點)。

圖1 預處理后的圖像
在對圖像進行回歸分析前,需要對圖像進行行列分割,獲得只包含單行或單列樣點的子圖像,據此估算各行(列)的傾斜角。本文采用投影方法,對二值圖像f(x,y)沿水平方向計算投影信號,如圖2。投影信號計算公式為

式中,n為圖像f(x,y)的寬度。
投影信號圖中具有波峰波谷特性,其中波谷代表了各行樣點的行間隔。通過對投影信號進行曲線擬合,求出曲線的各個極小值,用其所代表的波谷位置來分割相鄰的兩行樣點圖像,最終分割出芯片陣列的行列子圖像,如圖3。這里,在對列的處理時,將圖像旋轉90°,轉化為對行計算,簡化計算,避免列的斜率為無窮大。

當圖像傾斜角較大時(10°以上),無法直接根據投影信號的波峰波谷準確分割出行列子圖像,如圖4。將圖像進行垂直分割,利用部分圖像投影信號獲得行列子圖像(取圖像的中間1/3部分,如圖5),進而估算傾斜角,以便完成初步的傾斜校正。這種方法,雖然行列子圖像的有效樣點數量較少,傾斜角的估計準確性隨之降低,但作為粗略的傾角估計仍是可行的。在根據估計出的傾角進行校正后,繼續步驟(1)的行列投影,能夠比較好的分割出行列的樣點子圖像,為下一步的精確傾角計算做準備。

回歸泛指變量之間的一般數量關系,一元線性回歸通過找到一條擬合直線,用直線上的點來代表散布圖上所有相關點。滿足“離差平方和最小”條件的直線使得回歸直線與所有檢測數據誤差的平方和達到極小值[5]。一元線性回歸方程的一般形式為

式中,表示是從回歸直線上取得的與xi對應的yi的計算值;是擬和直線的截距;是擬和直線的斜率。離差δi為任一分析點(xi,yi)偏離回歸直線縱坐標方向的距離。離差平方和為

回歸直線應是所有直線中離差平方和最小的一條直線,根據極值原理,對斜率求偏導,并使之為零,解得

針對本文的行列二值圖像,上式中n為文檔圖像中白色像素的個數,(xi,yi)表示每個白色像素點的x坐標和y坐標,i=1……n。傾斜角θ=tan-1(弧度)。這樣,分別對行列子圖像計算傾斜角及均值,按照平均傾斜角對圖像進行初步校正。
本實驗采用模擬的方法,將原基因芯片圖像進行一定角度的旋轉,然后按本文的方法進行傾斜校正,實驗結果見表1。從表中結果可以看到,當傾斜角較小時(10°以下),該方法準確性較高;當傾斜角較大時,誤差較大,需要進一步的精確校正。

表1 初步校正結果
值得注意的是,當圖像的傾斜角較大時,比如表1中15°傾斜角,所分割出的行子圖像中包含了相鄰行的部分樣點,對回歸分析的傾斜角估計有較大影響,所以誤差較大。
經步驟(1)(2)后,原基因芯片圖像完成初步傾斜校正,校正后的圖像傾斜角一般較小。為了進一步的精確校正,再重復步驟(1),此處所獲得行列分割子圖像一般僅包含單個行列的樣點,而相鄰行列的樣點不會被包含進入。為了更加精確地計算傾斜角,取各子圖像中樣點的質心(如圖6),公式為

式中xi,yi為白色樣點坐標。
采用直線擬合如圖7,得到直線的斜率及傾斜角。對所有行列的傾斜角求均值,完成精確的傾斜校正。

對于表1中15°傾斜角經初步校正后,采用質心的直線擬合計算出傾斜角為6.9385°。
本文提出基因芯片圖像中存在傾斜的問題,而對于網格定位,有些方法中傾斜校正是必要的前提,同時也會減少某些算法(如變形模板匹配法)的運算量。根據預處理后的基因芯片圖像,運用行列分割子圖像的回歸分析,初步校正圖像,繼而完成質心直線擬合的精確校正。
[1]邢克禮,丁紅軍.基于MATLAB的基因芯片圖像預處理[J].醫療衛生裝備,2008(4):9-11.
[2]HIRATA J R,BARRERA J,HASHI MOTO R F,et al. Microarray gridding by mathematical morphology[C]. Proceedings of the 14th Brazilian Symposium on Computer Grahics and I mage Processing,Brazil,2001:112-119.
[3]胡園園,孫嘯,何農躍,等.基于圖像投影的基因芯片圖像網格定位[J].生物醫學工程學雜志,2005,22 (4):668-671.
[4]李興珊,孫嘯,袁春偉.基于遺傳算法的基因芯片圖像網格定位[J].生物物理學報,2002(2):223-226.
[5]孔祥玲.直線回歸分析及其數據控制評定[J].計量與測試技術,2007(10):15-17.
A Gene-chip Image Tilt Correction Approach Based on Regression Analysis
MA Shua i-ying
(Modern Educational Technology Center,Dalian NationalitiesUniversity,Dalian Liaoning 116605,China)
Gene-chip image tilt correction isof great significance to i mage analysis.We divided the gene-chip image into rows and columns by projection signals,before using regression analysis to preli minarily correcting sub-images that each includes a single row(or column)of sample points.We finally performed linear fittingwith the centroids of the sample points to complete precise correction.The experiment showed that thismethod has a high accuracy of tilt correction for gene-chip images alongwith a simple and easy-to-use algorithm.
gene-chip image;projection signal;regression analysis;tilt correction
TP391
A
1009-315X(2010)01-0065-03
2009-06-12
馬帥營(1980-),男,河南洛陽人,助工,主要從事神經網絡、模式識別等研究。
(責任編輯 劉敏)