李燕云王永明周 奇李亦學王 振王 玨孟 妍蔡青青隋 龍華克勤
(1復旦大學附屬婦產科醫院宮頸科,4組織部,5女性生殖內分泌相關疾病重點實驗室,6婦科 上海 200011;2上海長江科技發展有限公司智能醫療業務中心 上海 200233;3中國科學院上海生命科學研究院 上海 200031)
宮頸癌是最常見的婦科惡性腫瘤[1],有明確的癌前病變過程,即人乳頭瘤病毒(human papillomavirus,HPV)感染后出現低度鱗狀上皮內病變(low-grade squamous intraepithelial lesion,LSIL)、高度鱗狀上皮內病變(high-grade squamous intraepithelial lesion,HSIL),最終進展為浸潤癌(invasive carcinoma)。盡管全球范圍內宮頸癌篩查已開展數十年,總體效果卻遠未令人滿意[1-2]。作為宮頸癌早期診斷三階梯“細胞學/HPV初篩→陰道鏡→組織學確診”中的主要瓶頸,陰道鏡的診斷效率及同質化程度一直是國內外宮頸癌防治中的關鍵點和難點。為了規范其圖像評價標準,國際宮頸病理與陰道鏡聯盟(International Federation of Cervical Pathology and Colposcopy,IFCPC)于2011年提出了目前全球最全面的陰道鏡圖像描述體系[3],之后2018年美國陰道鏡與病理協會(American Society for Colposcopy and Cervical Pathology,ASCCP)也對其進行了引用[4]。該術語體系對宮頸上皮和血管的邊界、輪廓、形態等重要解剖部位或組織的圖像特征進行了極為詳盡的定義及科學化歸類,涵蓋了醋酸白上皮、鑲嵌、點狀血管、異形血管等幾十種征象的標準化解析[5-8]。然而,作為相對復雜的描述性分類,其臨床普及尚有難度。尤其在國內,高水平的專業陰道鏡醫生極為短缺,基層醫師水平和能力不足,陰道鏡診斷效能遠不能滿足大量的臨床需求。
近年,深度學習憑借其強大的特征提取能力在提高醫學圖像的診斷效率及標準化方面展示出了極佳的應用前景[9]。然而,由于較平面圖像更為復雜、部位多變、需較強專業背景支撐的跨學科合作等原因,對于陰道鏡圖像的智能化判別這一細分領域,研究成果卻相對較少[10-14]。2015—2018年,有學者曾基于傳統機器學習算法,通過從醋酸或碘試驗圖像中提取的顏色和紋理等特征信息來提高識別精度[15-17]。近年又有學者嘗試利用卷積神經網絡訓練分類器對宮頸病變進行二分類(LSIL和HSIL)或三分類(HSIL、原位癌、浸潤癌)的視覺判別,并取得了一定進展[10-14];基于宮頸照相機攝圖、宮頸醋酸前后比值圖等,深度學習輔助HSIL識別亦獲得尚可的結果[18-19]。然而在推動實際臨床應用方面,上述成果卻遠未取得實質性進展。病變的定性可依靠最終組織病理來彌補,而陰道鏡定位指導活檢或治療則更為重要且無法取代。此外,上述研究目標多為整張圖像的病變分類,無法具體定位病灶區域,且相關報道極少。曾有個別學者嘗試采用分類激活圖譜(class activation mapping,CAM)熱力圖等對宮頸病灶區進行定位識別,但判別效果較差[20]。此外,標注特征量少(1~3個特征)導致的信息較為單一,缺乏專業知識背景對圖像特征的規范化解讀,實驗數據量有限(HSIL例數均<500例),難以與臨床實際情況相符,亦是目前多數研究的短板[10-14]。
本研究借助國際陰道鏡術語背景,將不易掌握的復雜描述性分類術語轉化為實際且便捷的操作體系,彌補了既往研究中標注特征量少、信息單一、實驗數據量有限等短板。同時以臨床意義為導向,基于國內最大陰道鏡中心的大樣本數據,對陰道鏡圖像進行標準化精細標注,并采用經二次遷移學習的特征提取器構建深度學習目標檢測模型,探索智能輔助陰道鏡在宮頸病變區域定位及識別中的可行性,研究成果不僅適用于臨床篩查,亦可指導活檢及后續定位治療。
數據采集回顧性收集2018年3月至2019年7月復旦大學附屬婦產科醫院宮頸疾病診治中心9臺陰道鏡儀器記錄的陰道鏡數據,每位患者包含3~10張不等的陰道鏡圖像以及基本信息文件。陰道鏡檢查儀器包括:3臺美國WALLACH公司生產的光電一體數碼電子陰道鏡(PENTASCOPE)、3臺德國Leisegang公司生產的光電一體數碼電子陰道鏡(BG/LED Y/C)、2臺深圳EDAN公司生產的電子數碼陰道鏡(C6 HD)以及1臺江蘇TRME同人醫療公司生產的電子數碼陰道鏡(TR6000G),光電一體數碼電子陰道鏡均采用Canon EOS600D相機進行拍攝。陰道鏡檢查原因包括:子宮頸細胞學檢查陽性、高危型HPV檢測陽性、細胞學檢查和高危型HPV檢測均陰性但臨床癥狀明顯,以及其他原因如可疑罹患宮頸(或陰道、外陰)病變等。陰道鏡檢查采用常規3%醋酸試驗及5%盧戈(Lugol’s)液碘染色程序,對陰道鏡圖像異常區域行多點活檢,陰道鏡圖像未見異常者行常規時鐘3、6、9、12點宮頸活檢及子宮頸管搔刮術。將活檢組織送病理科檢查,由本院專業婦產科病理醫師閱片后作出診斷。根據2012年版下生殖道和肛門鱗狀上皮病變術語(The Lower Anogenital Squamous Terminology,LAST),病理診斷結果分為:子宮頸正?;蜓装Y、LSIL、HSIL和癌變(包括微浸潤癌和浸潤癌)[21]。
同時,基于患者基本信息文件中的姓名及檢查日期,通過與同一時段內組織學病理報告數據中的患者和送檢日期進行匹配以獲取患者的病理診斷結果。剔除無病理診斷結果以及數據不完整者,共納入最終病理診斷為宮頸LSIL者5 708例、宮頸HSIL者2 206例以及宮頸癌者514例,共計8 428例患者以及28 975張陰道鏡圖像數據。該回顧性研究符合人體試驗倫理標準,并已獲得復旦大學附屬婦產科醫院倫理委員會批準(倫理號:2020-28)。
數據標注
標注規范 依照2011年國際宮頸病理與陰道鏡聯盟IFCPC[3]及2018年美國陰道鏡與病理協會ASCCP陰道鏡標準化術語體系[4],宮頸病變異常征象包括:薄醋酸白上皮、細鑲嵌及細點狀血管,歸為1級(LSIL)征象;厚醋酸白上皮、粗鑲嵌、粗點狀血管、邊界銳利、內部邊界、隆起,歸為2級(HSIL)征象;白斑、侵蝕性病變及碘染不著色,歸為非特異性征象;異形血管、脆性血管、外生型病變、壞疽、潰瘍等,歸為可疑浸潤癌征象;濕疣、息肉、明顯子宮頸觸血等其他征象,歸為雜類。本實驗基于上述體系,對各類上皮與血管征象制定了20類標注標簽,對陰道鏡圖像的病變區域和級別進行像素級語義標注。包括:(1)薄的醋酸白上皮(含不規則地圖樣邊界);(2)細鑲嵌;(3)細點狀血管;(4)致密醋酸白上皮(含袖口狀腺開口隱窩);(5)粗鑲嵌;(6)粗點狀血管;(7)邊界銳利;(8)內部邊界;(9)隆起;(10)異形血管(含非典型血管);(11)脆性血管;(12)表面輪廓不規則;(13)外生型病變;(14)壞疽;(15)潰瘍;(16)宮頸有腫塊或腫瘤形成。其中,1、4、7、8、9、12、13、14、15和16為上皮特征標簽,2、3、5、6、10和11為血管特征標簽。0為無效,檢查不充分或模糊圖像;(17)碘染陰性;(18)陰道圖像;(19)外陰圖像,該四類標簽定義為噪聲圖像不納入模型訓練樣本。
標注過程采用開源標注工具Labelme。候選醫師首先通過規范培訓并在指定測試圖像上的標注準確度不低于65%才可參與數據的標注工作。依據以上標準最終選出了50位熟練掌握2011版IFCPC國際陰道鏡術語且具有5年以上陰道鏡工作經驗的陰道鏡??漆t師。為了便于在標注過程中相互審核,每2名醫師為一小組,按照上述標準規范對圖像進行第一輪標注,標注速度為每人30~50張/天。另由10名具有10年以上陰道鏡工作經驗的陰道鏡醫師進行第二輪專家復審,每5名標注醫師配備1名專家。審核專家應對不同標簽的認定標準達成一致,審核中發現的問題當場修改。最后,由8名算法工程師對標簽的規范性進行第三輪復審。整個標注過程嚴格遵循標注流程,確保圖像標注的準確性、規范性和有效性,標注示例見圖1。

圖1 基于Labelme軟件對20類宮頸上皮與血管征象標簽及區域標準化標注示例Fig 1 Example of standardized labels based on 20 types of cervical epithelial and vascular signs in Labelme
標注后處理將20類標簽歸并為五大類:低級別征象標簽(1、2和3)、高級別征象標簽(4、5、6、7、8和9)、浸潤癌征象標簽(10、11、12、13、14、15和16)、無法分類標簽(17)以及無效噪聲標簽(0、18和19)。無效標簽噪聲數據標簽包括質量較差圖像以及外陰、陰道圖像。碘染圖像由于對上皮和血管的分辨率較差,則歸為無法分類標簽。最終,基于28 975張陰道鏡圖像,共獲得標簽57 618個。剔除無法分類及無效噪聲標簽后,共得到三分類有效標注圖像19 607張,包 括LSIL圖 像11 984張、HSIL圖 像6 871張和癌變圖像752張;共獲取有效標簽39 858個,包括低級別征象標簽24 262個、高級別征象標簽13 199個以及癌變征象標簽2 397個。
建模任務從臨床需求看,宮頸HSIL是目前臨床治療的分界點,國內外均以HSIL識別準確率作為陰道鏡檢查的質控標準[4]。從病變區域特征看,LSIL病變區域特征不明顯,識別難度較大;癌變區域特征明顯,但數據量偏少;而HSIL病變區域的上皮與血管特征較LSIL顯著,且樣本量介于LSIL和癌變之間。因此,本研究將HSIL陰道鏡圖像的病變區域檢測作為主要建模任務。在上述研究的基礎上,進一步對LSIL、HSIL、癌三類別病變區域檢測和類型識別進行了研究。
實驗方法本實驗的建模任務可定義為計算機視覺(computer vision,CV)領域的目標識別和檢測。自2014年以來,基于深度學習的目標檢測框架分為two-stage和one-stage兩大類,前者以經典方法Faster R-CNN[22]為代表,后者以YOLO[23]和SSD[24]為主要框架。由于Faster R-CNN具有更好的檢測精度和魯棒性,本文選擇Faster-RCNN網絡結構來檢測宮頸病變區域。同時,用RestNet101[25]網絡結構作為提取目標特征的主干網絡(backbone)。具體實驗方法如圖2所示。

圖2 深度學習模型構建技術路線圖Fig 2 The technical routes of deep learning models construction
圖像預處理通過剪切、模糊處理、旋轉、翻轉、亮度調節、縮小、放大、不規則變形、對比度調節等操作,進行數據增強,使實驗數據多元化,模擬真實數據,并解決不同標簽類別之間的樣本數量不均衡問題。保留真實的病灶標注,并將標注區域轉化為矩形框,以適應目標檢測任務。將數據按照8∶2分為訓練集和測試集。
基于遷移學習的特征提取器第一次遷移:基于開源自然圖像ImageNet數據集(http://www.image-net.org)訓練的Resnet101模型,利用開源宮頸陰道鏡圖像宮頸轉化區分類數據(https://www.kaggle.com/c/intel-mobileodt-cervical-cancer-screening/data)訓練,進行第一次遷移學習。第二次遷移:基于上述模型,從自有陰道鏡圖像數據中挑選出單一分類(LSIL、HSIL或癌)標簽圖像,以病變類型(LSIL、HSIL、癌)識別為目標繼續對網絡最后幾層進行微調(fine-tuning),為第二次遷移學習。
高級別病變區域檢測將上述預訓練的
Resnet101作為特征提取器作為Faster-RCNN的主干網絡,用于病變區域特征提取。以開源Faster-RCNN代碼進行實驗,參數采用源代碼的默認參數。以嫁接方式進行精調,替換上面數層卷積層,目標輸出為病變區域及類型(參數:BATCH=4,EPOCH=50,RESNET101主干網參數訓練)。用隨機數生成方式,從含有有效標簽的HSIL圖像數據中任意抽取數據,進行算法訓練。用訓練得到的參數對未標注的測試集陰道鏡圖像預測病變區域,獲得算法預測結果圖,與醫生標注的病變區域進行比對,計算出真陽性樣本量(true positive,TP)、假陽性樣本量(false positive,FP)、假陰性樣本量(false negative,FN)、召回率(recall,R)、精確度(precision,P)、交并比(intersection over union,IOU)、平均識別精度均值(mean average precision,mAP)及受試者操作特征曲線(receiver operator characteristic curve,ROC curve)。
三分類區域檢測與病變類型識別用隨機數生成方式,從含有有效標簽的不同病變圖片中任意抽取數據,進行算法訓練。用訓練集得到的參數對測試集圖片進行預測病變區域及病變類型,同上述方法獲得mAP@IOU=0.5值。
本實驗采用的硬件平臺為HPE DL380 gen10服務器。其中,配置2個xeon gold 6148(2.4G 20Core)CPU,2個Nvidia v100 32G GPU顯 卡,512GB內存。軟件環境為Ubuntu16.04操作系統,CUDA9.0,cuDNN7.5 for CUDA9.0,Python3.7,深度學習框架PyTorch 1.0版本的Faster-RCNN(https://github.com/jwyang/faster-rcnn.pytorch.git)。
遷移學習結果第一次遷移學習:1 997張訓練;371張測試,測試集上的分類準確率(分類正確圖片數/總圖片數)為75%(表1)。

表1 基于ImageNet宮頸轉化區分類的第一次遷移學習數據分布Tab 1 Data distribution of the first transfer learning based on ImageNet cervical transformation zone classification(images)
第二次遷移:從自有陰道鏡圖像訓練集中篩選出單分類標簽圖像,即圖片僅包含低級別、高級別或癌變三種標簽中的單一類標簽圖像,共計17 876張高級別圖像。其中,隨機選擇16 108張圖片作為訓練集,1 768張圖片作為測試集,各類別標簽數據分布如表2所示。測試集上的模型區分LSIL、HSIL、癌變的準確率(分類正確圖片數/總圖片數)為70%。

表2 基于自有單分類標簽陰道鏡圖像的第二次遷移學習數據分布Tab 2 Data distribution of the second transfer learning based on colposcopy images of single-lesion labelled classification(images)
高級別病變區域檢測結果從只包含單一HSIL標簽的陰道鏡圖像中隨機抽取出1 790張圖片作為訓練集;61張圖片為測試集。將測試集圖片的檢測結果與醫生標注區域進行比對,獲得真陽性樣本量TP為44;假陽性樣本量FP為17、假陰性樣本量FN為5。計算得到召回率(R)為89.8%,精確率(P)為72.1%,并根據高級別病變區域檢測的結果繪制R-P圖例和ROC曲線(圖3A、B)。當交并比IOU為0.5時,精度 均 值AP@IOU=0.5為0.82。預測模型最終輸出結果示例見圖4。

圖3 深度學習模型對61張高級別病變測試圖像識別的P-R圖例(A)和ROC曲線(B)Fig 3 P-R image recognition(A)and ROC curve(B)of 61 images for high-grade lesion recognized by deep learning model

圖4 IOU為0.5時模型在測試集上輸出結果(A)與醫師標注區域(B)比對示例Fig 4 Example of comparison between model’s result(A)and doctor’s result(B)on the test data when IOU is 0.5
三分類區域檢測與病變類型識別結果用隨機數生成方式,任意抽取5 000張圖片作為訓練集,其中HSIL圖片1 752張,LSIL圖片3 056張,癌圖片192張,另抽取200張圖片作為測試集。將訓練模型對測試集圖片預測病變區域與醫生標注區域進行比對,每個類別的平均識別精度均值mAP@IOU=0.5為0.67。
本研究借助國際陰道鏡標準化術語中多種宮頸上皮及血管征象特征對圖像進行像素級語義標注,采用二次遷移學習的ResNet101預訓練網絡為特征提取器構建Faster-RCNN目標檢測模型,分別實現了對宮頸陰道鏡圖像HSIL單一目標和LSIL、HSIL和癌變三類目標的病變區域定位及識別。證實了基于專業醫學背景和大樣本數據,深度學習技術不僅可輔助陰道鏡診斷分類,且在病灶定位上亦可取得較好效果。
自20世紀60年代陰道鏡在全球廣泛應用至今,影響其準確性和可重復性的主要原因之一是缺乏統一規范的圖像評價標準。盡管多種陰道鏡評分系統曾被運用,如Reid法、改良Reid法以及Swede法等,但其診斷效能卻一直不理想。為此,IFCPC于2011年發布了最新陰道鏡術語系統,對陰道鏡下上皮和血管的邊界、輪廓、形態等重要解剖部位或組織的圖像特征進行了全面解析和科學化歸類。本小組前期曾對IFCPC陰道鏡術語體系進行了前瞻性大樣本臨床比較研究以及多項回顧性隊列研究,證實了其較好的臨床診斷效能,為其實際運用奠定了重要的循證基礎[7-8]。本研究借助該專業陰道鏡背景優勢,對陰道鏡下上皮及血管特征進行統一認知和解讀,基于20類宮頸上皮與血管征象對圖像進行標準化精細標注,歸并形成分類映射,獲得高質量標注數據,輔助計算機識別最具影響的特征群,細化訓練目標,從而構建更為穩定可靠的機器學習模型。本研究將不易掌握的復雜描述性分類術語轉化為實際且便捷的操作體系,彌補了既往研究中標注特征量少、信息單一、實驗數據量有限等短板。
盡管國內外開展宮頸癌智能化檢測的研究已經有十余年,但由于較平面圖像更為復雜、部位多變、需較強專業背景支撐的跨學科合作等原因,對于宮頸癌前病灶陰道鏡圖像的智能化判別,研究成果相對較少。2015年Song等[15]結合臨床診斷結果和5%醋酸試驗后的陰道鏡圖像特征等多模態數據,提出了基于數據驅動病變特征的提取方法,并針對HSIL和LSIL二分類得到了74%的識別精度。之后有學者對上述特征提取或傳統機器學習方法進行了改良,提高識別精度(80.87%和81.3%)[16-17]。也有學者嘗試探索深度學習技術運用于宮頸病變視覺判別的可行性,Xu等[10]利用卷積神經網絡對1 000張陰道鏡宮頸圖像進行訓練,結合宮頸細胞學和HPV檢測結果,最終模型識別LSIL+的準確性為88.91%。也有學者分別基于485張宮頸陰道鏡圖像(142張HSIL、257張原位癌、86張浸潤癌)和330名患者(97例LSIL、213例HSIL),采用深度學習算法構建了三分類(HSIL、原位癌、浸潤癌)和二分類(HSIL和LSIL)模型,分別獲得了平均50%的識別精度和82.3%的準確度[12-14]。近期,Zhang等[11]基于1 709例患者陰道鏡宮頸圖像,利用預訓練DenseNet卷積神經網絡對ImageNet和Kaggle數據集的各層參數進行微調,二分類診斷CIN2+準確率為73.08%(AUC≈0.75)。除陰道鏡圖像之外,亦有學者對宮頸的其他圖像進行過類似研究。2019年通過對哥斯達黎加宮頸癌篩查人群長達7年的隨訪,利用固定焦距攝像機進行數字化宮頸攝圖,以深度學習技術輔助識別CIN2+病變[18]。陸晗[19]則提出了一種用醋酸實驗前后的宮頸比值圖像代替原圖的方法,利用VGGNet-16模型對宮頸癌前病變進行分類識別;但均并未取得比醋酸后陰道鏡圖像明顯優越的識別精度。上述研究均在機器輔助宮頸病變識別的方法探索上取得了一定進展。本研究以臨床意義為導向,基于國內最大陰道鏡中心的大樣本數據,通過跨學科合作,綜合對比了多種目標檢測的深度學習網絡架構,并在數據預處理、數據增強、主干網絡選擇與訓練、模型超參數優化、算法改進等幾個方面對模型進行優化,構建了HSIL單分類模型和三分類(LSIL、HSIL、癌)Faster-RCNN模型,對HSIL及以上病變的識別獲得了89.8%的召回率(即敏感度)和72.1%的精確度,該模型的診斷效能與本研究中心既往資料中,經IFCPC術語培訓的5~10年工作經驗的陰道鏡??漆t師水平相當(敏感度約65%~90%)[7-8]。本研究通過選擇和輸出針對臨床實際數據和應用場景的最優模型,獲得穩定的分類預測效果,更加貼合國內臨床篩查需求。
本研究的另一特點在于對陰道鏡下病變的定位識別。既往報道的研究目標多為圖像級的病變分類,在病變區域的定位識別方面相關報道極少。曾有個別學者嘗試CAM熱力圖等對宮頸病灶區進行定位識別,但效果十分有限,僅能對白色腫脹且伴粗點狀血管的區域作出HSIL判別[20]。然而,定位指導活檢或指導治療是陰道鏡的主要功能之一,有著無法取代的臨床需求。本研究基于對28 975幅不同程度宮頸病變陰道鏡圖像的精準定位標注,結合深度學習中的目標檢測技術,分別實現了對宮頸陰道鏡圖像HSIL單一目標和LSIL、HSIL和癌變三類目標的病變區域定位識別,當目標檢測交并比IOU≥0.5的情況下,兩種模型mAP分別達到0.82和0.67。結果證實了模型用于輔助陰道鏡指導病變區域定位的可行性,不僅適用于臨床篩查,亦可指導活檢及后續定位治療。
本研究模型在陰道鏡圖像的分類和病變定位上均取得了較好成績。盡管在識別精度上仍有進一步提升的空間,但已顯示出其實際臨床應用潛能。本研究不足之處是針對三分類區域檢測只進行了初步的探索,在數據預處理、數據增強、模型調參、遷移學策略等方面還有較大發揮空間。此外,研究推廣仍然面臨瓶頸和挑戰,如不同醫療機構的陰道鏡設備非標準化、計算機硬件及網絡支撐不足等,都將影響未來智能陰道鏡的實際臨床應用。
作者貢獻聲明李燕云數據采集,論文構思、撰寫和修訂。王永明,王振,蔡青青數據統計。周奇,王玨,孟妍數據采集。李亦學,隋龍論文構思和指導。華克勤論文綜合指導。
利益沖突聲明所有作者均聲明不存在利益沖突。