吳洪渝
摘要:目前,我國的醫療資源嚴重的分配不均勻。我國共有醫療衛生機構989,403個,其中基層醫療衛生機構占據了總體的9成以上,而醫院僅有不到3萬個,比例不足3%。并且如今就醫的趨勢進一步向三甲醫院集中。根據統計,在因為癌癥死亡的人數之中,肺癌也是目前世界上死亡率最高的癌癥之一,并且這個數字還在不斷的上升。肺癌有一個最主要的特征就是存在肺結節。如果能在早期發現肺結節的話,早期癌癥的治愈率超過90%,手術后3-5天就可以出院,并發癥少,而且手術費用低廉只要28000元左右。但是由于當今針對肺癌早期診斷效果非常不佳,通?;颊弑辉\斷出肺癌的時候都已經為時已晚,正常的患者往往只能存活5年的時間。但是在這個過程之中會產生大量的CT圖片,會大大增加醫生的工作壓力,在這種情況之下,如何提高就醫的效率以及更加合理的利用醫療資源成為了炙手可熱的問題。本文提出一種,基于深度學習的肺結節檢測方案,能夠合理的利用CT片,并且有效的減輕醫生的負擔,同時也讓患者更加明了自身的病情。
關鍵詞:圖像識別;卷積神經網絡;深度學習;檢測方案
1 前言
隨著人工智能技術的發展,人工智能在生活中的各個方面的應用越來越多??梢哉f現在的人工智能技術取得了很大的發展,在某些領域已經超過人類的水平,比如說圍棋。人工智能在醫療領域上的應用也逐漸增多。在醫療方面也不例外,目前主要分為“AI與影像輔助診斷”、“AI與藥物開發”和“AI與醫療機器人”三個研究方向,在國內,阿里、騰訊、百度、科大訊飛、華大基因都在利用人工智能技術在醫療領域做一些相關的開發,比如2018年騰訊開啟的“騰訊尋影”,2017年阿里在糖尿病這一領域的AI等不同領域的醫療AI。但是目前AI在整個大環境下都是處于一種研發和測試的狀態下,暫時還沒有在各大醫院中盛行。一旦做到可以商用的地步,那對于整個醫療體系來說,都是一個翻天覆地的改革。
2 正文
2.1產品功能概述
在本文中,我們提出的肺結節檢測AI中包括的功能主要有:對標記數據進行解析讀取、對卷積神經網絡模型進行訓練、模型對讀取CT片、對CT片進行識別并且標注和根據計算的結果給出一定的建議以及治療方案。該模型的訓練數據集來自LIDC-IDRI,該數據集是由美國癌癥研究所(National Cancer Institute)收集并且公開的。數據集里面含有胸部CT圖片、X光片(以512*512分辨率的形式存儲)以及專家標注的病變的結果,結果以xml的形式進行儲存。利用專家的標注,將病變的數據提取出來,作為模型的初始訓練數據。在生活中,醫生只需要將患者的CT圖像輸入到該模型中,就能夠得到標注結果之后的圖片。這樣會讓醫生檢驗這張CT片的時候,會格外注意這些有標注的位置。在早期,由于數據的來源比較單一。會出現一些誤檢的情況,醫生在確定之后,可以對其進行標準,作為下一次模型訓練得數據。從而使得模型的正確率越來越高。
2.2產品原理
①醫學影像輸入到模型之中;
②模型對每一個切分單位進行識別;
③根據識別結果對圖片進行標注;
④生成醫療報告;
2.3關鍵技術
2.3.1圖像邊緣填充算法
在整個產品的開發過程中,首先應該先對圖片進行灰度化、二值化處理。然后根據數據集中的標注,對xml文件進行解析,獲取到病變結節的一些主要的屬性。比如圖片的Id號、坐標、半徑。根據統計病變結節在半徑為28像素以下的占總的病變數目的95%,所以這里以28*28的分辨率為一個單位進行處理。在病變結節的半徑大于28像素的時候,選擇以縮放的形式對其進行處理。因為專家在數據集中只標注了病變結節的輪廓,導致要對輪廓進行填充,根據邊緣填充算法實現填充。
2.3.2掃描式匹配算法
在對一張圖片進行識別的時候,在模型中是將CT片或者X光片切割成許許多多的28*28為一個單位的圖片。然后把每一張分割之后的圖片作為輸入,利用之前訓練好的卷積神經網絡進行計算。將分類為病變結節的圖片保存為圖片的編號、病變結節的中心位置、病變結節的半徑等信息。之后再我們利用縮放技術進行更大像素的切割和匹配。
2.3.3 DBSCAN分類聚類算法
DBCSAN(Density-Based Spatial Clustering of Application with Noise)算法是一種非常經典的分類聚類算法,它是基于密度來進行分類聚類的。在該產品中,我們在上述技術之后得到的只是一個病變位置的大概區域,是以28*28為一個基本單位的范圍。產品中想將病變結節很好的提取出來,選用了DBSCAN算法。圖片經過二值化的處理,只存在為0和1的色素。根據九宮格的原理對密度進行設置,最終提取出結節形態,并在原圖中進行展示。
3模型的正確率和產品正確率的檢驗
因為神經網絡的學習能力非常之強,在項目中,總共提取了50000多張正樣本以及等量的負樣本。對整個網絡重復訓練5次,模型的正確率能夠達到95%以上。但是在實際檢測新的CT圖片時候,10張中存在2、3張出現誤檢,正確率大概為70%-75%,這樣的正確率肯定是不能夠用以商用的??赡艽嬖谶^擬合的問題,正在籌劃與醫學院進行合作。從而以更加專業的知識,對模型進行改進。
參考文獻:
[1]周兵 CT影像中肺結節檢測與識別方法的研究 電子科技大學
[2]基于密度的分類聚類算法DBSCAN.https://blog.csdn.net/google19890102/article/details/37656733
[3]LIDC-IDRI數據集以及說明.https://wiki.cancerimagingar chive.net