于德利 鄭永煥 陰春霞 江玉娟 高宏英



[摘要] 目的 探討吉林省乳腺癌篩查數據標準化采集系統和大數據平臺的構建及意義。 方法 2016年1月~2018年12月,將原國家衛計委頒布的《乳腺癌篩查信息采集表》利用JAVA語言編寫為乳腺癌篩查數據標準化采集系統,內嵌于可直接接入互聯網匯影iustar 130便攜式彩色超聲診斷系統中。篩查過程中同步完成受篩者身份驗證、篩查數據(圖像、數值、文字說明等)采集。采集的數據經特殊的安全性處理后傳輸至云端進行存儲,云端數據通過多種互聯網終端設備憑權限進行有限制的檢索及利用。省內各個市縣地區的篩查數據在云端服務器匯總后形成吉林省的乳腺癌篩查大數據。 結果 2016年1月~2018年12月吉林省內8個地、市、區乳腺癌及乳腺癌前病變檢出率為80.24/10萬,早期乳腺癌69例,占比63.89%。吉林省乳腺癌篩查數據標準化采集系統實現篩查流程的標準化,提供數據采集的關鍵質控節點,使篩查數據的標準化采集、傳輸和存儲一次性完成。保證了數據采集的準確性,提高了數據采集和使用的效率。 結論 吉林省乳腺癌篩查數據標準化采集系統是一個實用、高效、安全的數據采集、管理及應用系統,也是構建一個專業大數據平臺的基本工具。篩查數據真實有效,可為臨床科研,公共衛生的規劃、管理、決策提供數據支撐。
[關鍵詞] 乳腺癌;篩查;大數據;云存儲
[中圖分類號] R737.9? ? ? ? ? [文獻標識碼] A? ? ? ? ? [文章編號] 1673-7210(2019)09(c)-0167-06
Construction and database management of standardized data acquisition system for breast cancer screening in Jilin Province
YU Deli1? ?ZHENG Yonghuan2? ?YIN Chunxia3? ?JIANG Yujuan1? ?GAO Hongying4
1.Department of Breast, Changchun Obstetrics and Gynecology Hospital, Jilin Province, Changchun? ?130000, China; 2.Maternal and Child Health Service, Health Commission of Jilin Province, Jilin Province, Changchun? ?130000, China; 3.Dean′s Office, Changchun Obstetrics and Gynecology Hospital, Jilin Province, Changchun? ?130000, China; 4.the First Medical Treatment Area, Hepatobiliary Hospital of Jilin, Jilin Province, Changchun? ?130000, China
[Abstract] Objective To explore the construction and significance of standardized data acquisition system and large data platform for breast cancer screening in Jilin Province. Methods From January 2016 to December 2018, the Information Collection Form of Breast Cancer Screening promulgated by the former National Health Planning Commission was compiled into the Standardized Data Collection System of Breast Cancer Screening in JAVA language. It was embedded in the portable color ultrasound diagnostic system of iustar 130, which can be directly connected to the internet. In the process of screening, the identification of the screened person and the collection of screening data (included image, numerical value, text description, etc.) was completed simultaneously. After special security processing, the collected data was transmitted to the cloud for storage, and the cloud data was retrieved and utilized with limited privileges by a variety of Internet terminal devices. The screening data of various cities and counties in the Jilin Province form the large data of breast cancer screening in the province after being aggregated by cloud server. Results From 2016 January to 2018 December, the detection rate of breast cancer and precancerous lesions in eight prefectures, cities and districts in Jilin Province was 80.24/100 000, and early breast cancer accounted for 63.89%. The standardized data acquisition system of breast cancer screening in Jilin Province realized the standardization of screening process, provided key quality control nodes for data acquisition, and made the standardized collection, transmission and storage of screening data complete at one time. It ensured the accuracy of data acquisition and improved the efficiency of data acquisition and use. Conclusion The Standardized Data Acquisition System of Breast Cancer Screening in Jilin Province is a practical, efficient and safe data acquisition, management and application system, as well as a basic tool for building a professional large data platform. Screening data are real and effective, which can provide data support for clinical research, public health planning, management and decision-making.
[Key words] Breast cancer; Screening; Large data; Cloud storage
流行病學調查顯示全球乳腺癌發病率自20世紀70年代末開始一直呈上升趨勢[1-2]。我國雖然不是乳腺癌的高發國家,但近年我國乳腺癌發病率的增長速度要高出高發國家1~2個百分點[2]。據國家癌癥中心和衛生部疾病預防控制局公布最新資料顯示,乳腺癌發病率位居女性惡性腫瘤的第一位[3]。乳腺癌病因復雜,針對病因學的一級預防效果不理想。研究[5]表明,其發病存在一定的規律性,具有乳腺癌高危因素的女性容易患乳腺癌[4]。有臨床實踐和研究[6-7]表明,通過對特定人群的篩查可以早期診斷乳腺癌。早診斷、早治療與該病的預后有明顯的相關性。因此,利用乳腺癌篩查作為二級預防的手段尤顯重要。我國乳腺癌篩查作為“兩癌篩查”中的一項內容,已由原國家衛計委指導并撥出專款,各省市具體負責全面推廣。雖然在乳腺癌的篩查推廣以來積累了一定經驗,但在實際篩查工作中仍存在不少困難與問題。因此,對于乳腺癌篩查數據標準化采集系統的應用研究,具有重要的研究意義與臨床價值。
1 資料與方法
1.1 數據資料
數據資料來源于2016年1月~2018年12月連續3年吉林省內8個地、市、區,21個篩查點,共149 552人次。
1.2 數據采集模塊
采用Windows及Android平臺,用JAVA語言進行程序開發,封裝為乳腺癌篩查數據標準化采集系統,可在Windows及Android平臺上運行。然后Windows版本內嵌于匯影iustar 130便攜彩超內,或在PC工作站上運行。Android版本可在以Android為操作系統各種移動終端上使用。其中Windows版本支持數據采集、存儲、上傳、檢索及分析功能模塊。Android版本主要支持數據檢索、分析功能模塊。
在采集模塊中目前集成包括患者基本信息、病史、觸診、超聲、X線、病理共6個子模塊。未來將增加MRI、CT等子模塊,或新增自定義功能。乳腺彩超和乳腺X線征象參照美國乳腺影像學報告和數據系統(BI-RADS)分級標準[8]進行評估,0級(Ⅰ類):需進一步行影像學檢查;1級(Ⅱ類):超聲無異常,良性;2級(Ⅲ類):超聲良性發現;3級(Ⅳ類):可能良性發現,需短期隨訪;4級(Ⅴ類):疑惡性發現,需活檢進行確認;5級(Ⅵ類):超聲高度提示惡性。≥4級(Ⅴ類)為陽性。乳腺癌TNM分期參照第6版美國癌癥聯合會癌癥分期手冊[9]進行過去傳統的數據采集數和經過完善后的數據采集的流程,見圖1~2。
1.3 數據分布式云端采集
絕大多數的篩查數據通過在系統菜單中選取對應內容采集,還有少量數據以填寫數字的方式進行采集。所有采集獲得的數據不需要進行格式的轉化,經系統進行加密算法加密后可以直接上傳至云服務器存儲。加密算法主要是將篩查設備信息和篩查醫生身份信息與受篩數據進行關聯運算。同時將受篩者的個人隱私信息與篩查數據分別存儲。檢索時根據用戶的權限級別,系統會選擇提供完整數據還是僅提供臨床相關的數據。
1.4 采集系統及管理平臺流程
1.4.1 確認篩查單位以及受篩者身份? 篩查單位在每一臺篩查終端設備(彩超或工作站)中都有確認的篩查終端編碼,同時通過電子身份鎖對篩查醫生進行身份確認。沒有電子鎖將無法啟動篩查功能。每位有資格進行篩查工作的醫生都有自己的電子身份鎖,因此采集的數據可以進行準確的追溯。每一位受篩者的身份也要進行嚴格的確認,杜絕受篩查者身份造假。受篩者需要在系統終端刷身份證確認身份后(新的版本中還可以在刷身份證的同時進行臉部拍照識別),才能接收篩查。當身份證信息重復時,系統會給出報警并請求確認受篩者是否重復篩查。
1.4.2 標準化數據采集流程? 將所需采集的數據盡量使用菜單的方式完成。最大限度的避免篩查醫生主觀因素對于數據準確性的干預,并通過邏輯關系設置質控管理。左右雙側乳房觸診數據的錄入界面。除了目標的直徑數據需要人工填寫外,其余內容完全通過下拉菜單完成。超聲數據采集是乳腺癌篩查的重點內容。既往的篩查流程中只能對超聲的描述和測量數據進行采集,對于超聲的圖像則因無法存儲而放棄采集。但超聲圖像卻是最直觀的數據之一。全新的篩查系統支持圖像的徒步采集功能,同時提供一個完整的包含4個部分的乳腺超聲報告:測量、注釋、圖像選擇和附加信息。測量菜單中包含了超聲可見目標的超聲特征描述和測量值;注釋菜單中為描述性語言(不超過255個漢字),主要是對受篩者的乳腺特征進行描述;圖像選擇菜單中每1位受篩者每一次篩查可以存儲50幅靜態圖像或12 min動態圖像,由于最終生成的可供受篩者檢索的乳腺超聲報告中只能包含4幅圖像,因此篩查醫生可以在這個菜單中進行圖像選擇,以確定最終出現在超聲報告中的圖像是哪4幅;附加信息菜單中允許篩查醫生填寫一些與科研或臨床相關的額外信息,如特殊既往史、特殊病史等。
2 結果
2.1 乳腺癌篩查結果
行乳腺彩超檢查人數為149 552人,超聲陽性率為0.51%(764人),其中0級83人、1級103 601人、2級39007人、3級6097人、4級729人、5級35人;乳腺X線檢查人數為4030人,X線陽性率為2.63%(106),其中Ⅰ類24人、Ⅱ類3064人、Ⅲ類218人Ⅳ類、Ⅴ類95人、Ⅵ類11人;病理檢查240人,乳腺癌及癌前病變120人(50.00%),其中不典型增生7人、小葉原位癌1人、導管原位癌10人、浸潤性導管癌92人、浸潤性小葉癌5人、其他惡性腫瘤5人、乳腺癌及癌前病變120人;早期乳腺癌(臨床分期0~ⅡA期)69例,占比63.89%,乳腺癌TNM分期:0期13人、Ⅰ期13人、ⅡA期43人、ⅡB期31人、Ⅲ期及以上8人,死亡率不在本研究篩查統計之中,篩查結果:2016年1月~2018年12月吉林省內8個地、市、區乳腺癌癌及乳腺癌前病變檢出率:80.24/10萬。
2.2 篩查數據采集的效率提高
系統的操作界面非常簡單,可操作性好,不設隱藏的功能菜單,所有項目一目了然。負責篩查工作的醫生可以在2 h內完全掌握本系統的基本結構和操作方法。完全實現了無紙化的操作。由于患者的基本信息輸入是靠身份證讀卡器完成,可在1 s內完成信息輸入,而傳統的身份信息采集需要2 min。其余的病史、觸診、超聲等基本數據的采集是靠下拉菜單選擇完成,只有受篩者的電話號碼和測量的數值是通過鍵盤輸入的,大大提高了篩查效率。據實際測算,采用本系統后,50人次的平均篩查時間由(180.59±2.36)s縮短到(60.25±3.37)s。
2.3 采集數據的真實性得到保證
由于使用身份證讀卡器直接讀取受篩者身份信息,并可附加臉部照相存檔功能。只有此兩部操作全部完成,才能開始信息填寫,因此,偽造受篩者信息的操作受到根本限制。每一個受篩者的篩查數據都是其本人的真實數據。
2.4 采集數據的可靠性得到保證
數據采集過程中除了具體的測量數據需要手動填寫,其余均采用下拉菜單選擇完成。不存在操作者主觀意識對于數據的影響。所有采集獲得的數據可以直接上傳至云端,不需要數據轉換,沒有數據轉換過程中產生的誤差和錯誤,最大限度的保證了數據的可靠性。
2.5 采集數據的的利用率得到提高
利用省級的大數據,可以對吉林省人群公共衛生服務需求做出精準判定、細分并分別給與支持;可以對公共衛生服務的方向做出快速調整,可以對服務內容進行精準設計;合理分配公共衛生資源,以期對有限的資源實現高效的配置。利用本系統可以在相對較短的時間內構建吉林省的乳腺癌篩查大數據,可以更高效的指導相關的工作。全新的篩查用戶可以借助所有的互聯網終端,憑借有限的權限對篩查數據進行補充、檢索及使用。見表1。
3 討論
乳腺癌篩查數據標準化采集系統和大數據平臺的構建,可以減少過去由于篩查流程不規范、數據采集流程不嚴謹的現象。在總量龐大的數據中選取符合標準、可用于流行病學分析的可靠數據[10]。乳腺癌篩查數據標準化采集系統和大數據平臺的構建不僅可以快速錄入、獲得個人準確信息,讓資源數據得到有效的共享和利用,還可擴充獲取患者信息模塊,有效避免數據丟失,具體優勢有以下4點:
3.1 減少數據采集的失誤
①身份驗證。無論是執行篩查的醫生身份驗證,還是受篩者的身份驗證都要進行。執行篩查的醫生進行身份驗證,數據的真實性和準確性可以追溯,當出現數據失真、失效事件時可以進行追責;受篩者進行身份驗證,則受篩者身份信息不能夠進行造假,與之相關的數據自然具有真實性可言。身份驗證質控的是影響篩查數據真實性和準確性的關鍵問題。②基本信息、病史采集、觸診及超聲篩查4個環節中所有的數據采集均無需手工錄入,可以減少其間產生誤選、誤錄的現象。數據采集過程中,需要多個人為操作的步驟進行數據采集;數據采集完成后的轉換上傳無需人為操作干預,降低數據誤差概率,準確性增加[11-13]。并且可以避免既往的數據采集內容存在缺失,包括:超聲篩查僅有文字說明,缺失圖像的采集;缺失諸如鉬靶、病理等檢查的數據的現象。
3.2 數據有效的管理,利用效率高
由于提供上述身份驗證的質控,數據上傳后可以根據不同用戶的身份權限來開放使用。首先是基層參與篩查的醫療單位和醫生有訪問和使用(實際上省市級的醫療單位也無法使用)的權限,其次受篩者對于自己的篩查結果也有訪問的權限。相當于一個非常有使用價值的數據庫得到應有的利用,發揮其對于工作和科研的指導意義。
3.3 采集表格靈活性和可擴充性
新系統對于數據采集內容進行了模塊化的設計,既可以將不同的篩查標準分別以模塊的形式嵌合于系統中,使系統可以適合任何型別的篩查數據采集(如甲狀腺癌的超聲篩查、宮頸癌的超聲篩查等),也可以對現有的篩查內容進行不斷的補充升級。以本系統為例,既往的篩查中并不包含鉬靶、MRI、CT以及病理等內容。而本系統可以通過追加一個采集模塊,允許受篩者或篩查醫生將相關內容通過移動終端(工作站、PC、手機)補充錄入至數據庫。
3.4 避免數據丟失、查詢困難
紙質資料不易保存,且存在數據難查找、使用繁瑣等問題。全新的篩查系統支持數據采集、存儲和傳輸同步完成,我們對所有的上傳數據進行特殊的算法處理,可以有效的保證數據的安全。算法處理包括幾個主要方面:①每一位受篩者的個人隱私信息與臨床數據是分開存儲的,臨床數據與個人隱私信息之間通過篩查號關聯,篩查醫生只具有訪問臨床數據的權限;②每一位受篩者的全部數據存儲之前與執行篩查的醫生的電子身份鎖信息和用于篩查的終端設備編碼進行關聯計算。由于每一個醫生電子身份鎖只具備有限的訪問權限,因此每一個篩查醫生只能訪問自己篩查過的受篩者臨床數據;區域專家有權限訪問本區內所有受篩者的臨床數據;③每一位受篩者可通過自己的身份證號碼及綁定的手機號碼訪問自己的篩查數據或補充上傳額外的臨床數據,但無法進行數據的修改。④所有數據采用分布式存儲方式,在不同的服務器進行交叉備份存儲,避免極端情況下的數據丟失[14-16]。基于上述的安全措施,系統可以提供多種檢索路徑,授權用戶可以使用任何網絡終端設備訪問與自己權限匹配的數據[17-21]。如果是私人用戶想了解自己的篩查信息,可以憑身份證信息進行完整的個人數據檢索或者補充更多的臨床數據。如果用戶(臨床醫生、主管部門)想將篩查數據用于科研研究,則憑權限可以利用數據庫中涉及臨床部分的內容。
篩查的數據存儲管理,從單純紙質保存到部分數據化到現在的全部數字化保存,已經使數據的存儲能力得到了很大提高。本研究側重于在全部數據化保存的基礎上,實現數據的質量控制和數據的再利用、分析,為今后的工作提供數據支持。在乳腺癌篩查數據采集系統和數據分析平臺的研發進程中遇到了很多困難,有些已經解決,有些還需進一步研究改進,現將經驗和教訓總結如下:①只有找到開放的彩超平臺供研究使用,才能將篩查數據轉化為數字信息,內置于超聲機內,實現一般信息、流行病學信息、臨床體檢信息和超聲信息及超聲圖像相結合,同時還要保證超聲機的正常使用不受影響。②在超聲數據的測量獲取中實現自動生成是研發難點之一,工程師經過了反復設計才得以解決,實現了數據測量后自動在報告單中呈現,避免人工填寫出現誤差。③在大量數據圖片獲取和傳輸過程中,只能保障4幅以內的圖片傳輸,這也是今后應優化的一點。因為有時確診1個乳腺癌需多幅圖片來確認。需要在設備上加以改進。④本研究只解決了超聲和流行病學、臨床體檢、一般情況的信息數字化存儲和平臺傳輸,對于進一步的乳腺X線信息、病理信息等還需手動輸入。如果采用圖片輸入,X線信息、病理信息,只有存儲功能,尚無法進行分析和檢索。換而言之,本研究只解決了乳腺癌篩查的大部分工作的數字化存儲和傳輸及平臺分級工作,還有很多工作需進一步開發和完善。⑤本研究只是初步實現了超聲Ⅰ類診斷的自動化分析,尚不能實現超聲的全部自動化分類,對于超聲有異常發現的,還要篩查醫生進一步判斷。⑥本研究在數字化篩查的推進過程中,還受到篩查人群的認知、醫務工作者的人力、社會財力等多因素的制約,制訂完全數字化篩查模式的路還很長,需更多有志之士參與其中,同時也需要政策的支持和幫助。
綜上所述,乳腺癌篩查數據標準化采集系統是一個實用、高效、安全的數據采集、管理及應用系統,也是構建一個專業大數據平臺的基本工具。篩查數據真實有效,可為臨床科研,公共衛生的規劃、管理、決策提供數據支撐。
[參考文獻]
[1]? Chand P,Garg A,Singla V,et al. Evaluation of Immunohistochemical Profile of Breast Cancer for Prognostics and Therapeutic Use [J]. Niger J Surg,2018,24(2):100-106.
[2]? 鄒興文,楊麗,李偉棟.廣州市173335名農村婦女乳腺癌篩查分析[J].中國腫瘤,2018,27(8):568-572.
[3]? 竇建衛,朱中博,楊碩,等.基于“溫氣化形”法論治乳腺癌癌前病變探析[J].國際中醫中藥雜志,2018,40(11):1088-1089.
[4]? Wang T,Parada H,McClain KM,et al. Pre-diagnostic aspirin use and mortality after breast cancer [J]. Cancer Causes Control,2018,29(4/5):417-425.
[5]? 張瑾,陳薇,劉蕾.2017年《NCCN乳腺癌篩查和診斷臨床實踐指南》(第1版)更新與解讀[J].中國全科醫學,2017,20(24):2939-2943.
[6]? Black E,Richmond R. Improving early detection of breast cancer in sub-Saharan Africa:why mammography may not be the way forward [J]. Global Health,2019,15(1):3.
[7]? 王小松,歐陽取長.4720例女性乳腺癌病例生存分析[J].湖南師范大學學報:醫學版,2014,11(03):35-40.
[8]? Duma MM,Chiorean AR,Chiorean M,et al. Breast Diagnosis:Concordance Analysis Between the BI-RADS Classification and Tsukuba Sonoelastography Score [J]. Clujul Med,2014,87(4):250-257.
[9]? Singletary SE,Allred C,Ashley P,et al. Staging system for breast cancer:revisions for the 6th edition of the AJCC Cancer Staging Manual [J]. Surg Clin North Am,2003,83(4):803-819.
[10]? 趙成,徐娟,杜佳月,等.乳腺癌篩查及衛生經濟學評價研究進展[J].醫學與社會,2018,31(11):17-20.
[11]? Zuo TT,Zheng RS,Zeng HM,et al. Female breast cancer incidence and mortality in China,2013 [J]. Thorac Cancer,2017,8(3):214-218.
[12]? Li T,Mello-Thoms C,Brennan PC,et al. Descriptive epidemiology of breast cancer in China:incidence,mortality,survival and prevalence [J]. Breast Cancer Res Treat,2016,159(3):395-406.
[13]? 侯艷紅.基于數據庫管理的數據采集系統的設計及實現分析[J].微型電腦應用,2016,32(7):78-80.
[14]? Terry MB,Liao Y,Whittemore AS,et al. 10-year performance of four models of breast cancer risk:a validation study [J]. Lancet Oncol,2019,20(4):504-517.
[15]? 黨曉偉.基于網絡編碼的二層分布式存儲及數據修復算法[D].西安:西安電子科技大學,2014.
[16]? Yildirim E,Foran DJ. Parallel Versus Distributed Data Access for Gigapixel-Resolution Histology Images:Challenges and Opportunities [J]. IEEE J Biomed Health Inform,2017,21(4):1049-1057.
[17]? Nelson HD,Weerasinghe R,Martel M,et al. Development of an electronic breast pathology database in a community health system [J]. J Pathol Inform,2014,5(1):26.
[18]? Khakbazan Z,Taghipour A,Latifnejad Roudsari R,et al. Help seeking behavior of women with self-discovered breast cancer symptoms:a meta-ethnographic synthesis of patient delay [J]. PLoS One,2014,9(12):e110262.
[19]? Nelson HD,Weerasinghe R,Martel M,et al. Development of an electronic breast pathology database in a community health system [J]. J Pathol Inform,2014,5(1):26.
[20]? 胡琢瑛.乳腺癌伴隨疾病全方位管理之婦科問題管理[J].中國臨床新醫學,2019,12(2):120-124.
[21]? 段丹.網絡終端安全接入控制技術研究[D].西安:長安大學,2015.
(收稿日期:2019-01-31? 本文編輯:封? ?華)