羅文濤,劉雨楊,楊 鑫,王格格,陳 昶
同濟大學醫學院,上海,200092
近年來,人工智能技術(artificial intelligence,AI)逐漸開始在腫瘤學中應用。AI在癌癥篩查、臨床診斷、放射治療(圖像采集、有風險器官分割、圖像校準和交付)等方面發展迅速。但是醫療AI能否進行社會化推廣,一定程度取決于公眾的態度和接受程度[1]。AI模型所使用的數據類型很敏感,而數據又和用戶互動存在密切關聯[2]。因此,要讓AI真正應用于社會場景,建立AI社會影響評價指標體系不可或缺。如果不能提早建立起監督制度,將會成為對道德、法律和社會的挑戰[3]。以AI輔助癌癥早篩為例,目前公開的較有代表性的產品包括ISICAD、SubsolidCAD、LargeCAD、ETROCAD等[4]。然而,針對這些產品的評價集中在其閱片效率、對肺部小結節發現的靈敏度、對結節性質判斷的準確性等方面,近期的少數研究引入了AI與資深醫師的閱片能力對比[5-8]。總體而言,現有對醫療AI的評價都集中在其基礎效能。需要認識到的是,醫療AI有其社會角色的特性,社會角色在社會實際使用中會與社會多個維度形成不同的主客體關系,因而針對醫療AI的評價也應當全面,而不是局限于某一側面。目前的醫療AI與社會各維度的關系還不夠清晰,在一項研究中,大部分參與者并不在意數據被匿名用于研究目的,也不反對在決策過程中納入個人信息,反對者主要是由于對數據安全性和對應用程序信任不足[9]。還有研究認為醫療AI的社會應用離不開臨床醫生的支持,績效預期與醫護人員利用AI輔助診斷的意愿呈正相關,這提示AI的社會影響力可能在績效預期和醫護人員利用AI輔助診斷的意愿之間起了連鎖和中介作用[10]。更為高效的診斷和不太準確的診斷分別是AI的最大優勢和劣勢,正是這兩種特性造成了人類和AI的沖突[11]。AI輔助肺癌早篩是指利用AI對肺癌早期篩查數據進行分析和處理,通過建立肺部影像學特征模型、生物標志物模型等方法,對肺癌的早期診斷進行輔助和支持,以提高肺癌早期診斷準確率和篩查效率的一種新型技術[12]。AI輔助肺癌早篩是最早研發的醫療AI之一,未來也將進行快速社會化推廣。目前國內外關于AI輔助肺癌早篩的研究多集中于其與某一社會關系的相互影響,例如對AI本身研發的風險評估、醫生對AI的接納程度、民眾對于AI接納程度的研究等,缺乏AI輔助肺癌早篩與社會各層面的綜合評價[13-14]。因此,本研究旨在構建AI輔助肺癌早篩的社會影響評價指標體系,以探討AI輔助肺癌早篩與社會各角色之間的相互影響作用。
基于文獻數據庫進行檢索,包括PubMed、Web of Science、中國期刊全文數據庫(CNKI)、重慶維普中文科技期刊數據庫(VIP)、中國生物醫學文獻數據庫(CBM)、萬方數據庫(Wanfang Database)等,檢索詞由肺癌早篩、人工智能、社會影響以及三者英文相互組合而成,檢索時間從建庫至2023年2月1日,對文獻類型沒有限制,研究對象主要限制為醫療AI,排除標準為非醫療AI的相關文獻,最后對符合研究需要的文獻及其相關文獻進行閱讀。研究人員獨立篩選研究的標題、摘要和全文,并初步構建了評價指標,隨后通過交流對指標進行修改,直至達到一致觀點,以保證準確性。
1.2.1 評價指標體系的初步構建。采用專家法篩選在相關領域具有權威性的專家, 根據入選標準,由同濟大學醫學院多名教授、研究生、本科生組建了專題小組,入選標準為:對研究項目感興趣或有專業知識背景的研究者。采用文獻分析法,從多個數據庫查閱有關AI輔助肺癌早篩的社會影響相關文獻,進行多輪討論,建立遞階層次機構模型,即為評價指標體系初步框架[15]。
1.2.2 第一輪專家咨詢。調查時間為2022年3月,收集有意向參與問卷的社會學、AI輔助肺癌早篩等領域一線專家資料,并通過郵件發送、現場問卷的方式,采用德爾菲法進行專家咨詢,共咨詢專家16名。本輪咨詢的意圖主要是對初步構建的指標進行調整與修改,專家通過打分來決定各級指標的保留與否,若專家意見一致則對指標進行調整。具體方法為:各位專家按照分數1-5對指標構建的合理性進行評判,若各級指標得分均值>3.5、變異系數<0.3則保留,反之刪除。
1.2.3 第二輪專家咨詢。調查時間為2022年6月,將經一輪咨詢調整后的指標體系以郵件形式發送返回各專家。本輪咨詢的意圖主要是比較各級指標相互的重要性,為后續權重計算提供依據。具體方法為:專家根據“稍微重要”“明顯重要”“強烈重要”“極端重要”“同等重要”5個等級對指標體系中同級指標的重要程度進行兩兩比較,以構建判斷矩陣。


采用SPSS 21.0分析專家協調系數并進行χ2檢驗,P<0.05為差異有統計學意義。采用層次分析軟件構建層次模型,將咨詢結果錄入構建判斷矩陣,計算各級指標權重并進行一致性檢驗檢查邏輯。專家權威系數(Cr)和肯德爾(Kendall)協調系數(W)表示專家權威程度和意見協調程度。通過專家對指標重要性和可行性打分數值計算W;Cr值為專家對指標判斷依據系數(Ca)與熟悉程度系數(Cs)的算術平均值,Cr>0.7認為專家權威程度高[16]。
2.1.1 專家基本情況。16名專家中,西南地區專家占12.5%(2/16),華東地區專家占87.5%(14/16);高級職稱專家占43.75%(7/16),中級職稱專家占37.50%(6/16),初級職稱專家占18.75%(3/16);工作單位為醫院占50.00%(8/16),為高等院校占50.00%(8/16);從事專業為醫學占56.25%(9/16),醫療AI占43.75%(7/16);文化程度博士學歷占62.50%(10/16),碩士學歷占37.50%(6/16);工作年限10年及以上占62.50%(10/16),5-10年占37.50%(6/16)。
2.1.2 專家積極系數。專家積極系數即專家對問卷的應答率。第一輪問卷發放16份,16位專家給予回復,專家積極率100%。第二輪問卷發放16份,15位專家給予回復,專家積極率93.75%。
2.1.3 專家權威程度。兩輪問卷咨詢的專家Cr分別為0.8233和0.8125。見表1。

表1 專家權威程度結果
2.1.4 專家意見協調程度。第一輪問卷咨詢各級指標重要性協調系數分0.204、0.120、0.136,專家的W檢驗差異具有統計學意義(P均<0.05)。見表2。

表2 專家肯德爾協調系數
根據專家咨詢結果確定AI輔助肺癌早篩的社會影響評價指標體系最終框架,包括 “自身條件”和“個體關系”“群體關系”“社會關系”4個一級指標,開發團隊、使用者、風險人群、政府管控等12個二級指標及36個三級指標。見表3。

表3 AI輔助肺癌早篩的社會影響評價指標體系
判斷矩陣A中,一級指標“自身條件”權重為0.4615,“個體關系”權重為0.2889,“群體關系”權重為0.1136,“社會關系”權重為0.1360,一級指標CR=0.0197;二級指標“個體關系”權重為0.0921,“軟件性能”權重為0.2865,“維保特性”權重為0.0829,“使用者”權重為0.0487,“醫生”權重為0.1283,“投資者”權重為0.0260,“風險人群”權重為0.2889,“醫院”權重為0.0401,“公眾”權重為0.0249,“政府管控”權重為0.0406,“社會效益”權重為0.0361,“國家層面”權重為0.0594,二級指標CR均<0.10,三級指標CR均<0.10。見表3。
在社會系統中,AI輔助肺癌早篩可被視作一個社會角色,能產生一定的正面或負面社會影響。從使用AI輔助肺癌早篩的個體來看,肺癌早篩是肺癌患者治療的重要一環,其有助于及時發現病灶進而改善肺癌患者的預后效果,降低治療成本。AI在肺癌早篩中的應用,可以提高篩查的準確性和效率,幫助醫生更早地發現患者的肺癌病變,從而提高治療效果和生存率[18]。另外,AI在肺癌早篩的應用能在一定程度上輔助影像科醫生診斷,同時大量節省患者的等候時間。但是,AI輔助肺癌早篩的應用可能會讓部分影像科醫生面臨失業的困境,而AI診斷失誤也會帶來與患者的醫療糾紛,這些都是不可忽視的問題。從使用AI輔助肺癌早篩的群體角度看,少數醫療機構擁有足夠的技術和設備支持可能會導致醫療資源的集中和分配不均,同時其在數據隱私、數據安全、道德問題、技術可靠性、臨床實際應用和報告標準等方面還面臨巨大挑戰[12,19]。從醫療衛生管理管控的層面看,Amy等人認為,衛生系統領導者還必須滿足對強大數據、金融投資、醫療保健部門之間有效溝通和協作、隱私和數據保護以及持續跨學科研究的需求,以發揮這項技術的潛在優勢[20]。綜上所述,在社會系統中,AI輔助肺癌早篩無論是在個體層面還是群體層面都被賦予身份并發揮其功能,它與各種社會角色之間的互動可能會為社會系統的健康運作帶來一些負面影響。因此,為了維持社會系統的穩態,需要全面挖掘那些可能與AI輔助肺癌早篩發生互動的社會角色并研究它們之間的相互影響作用,同時還要對這種影響的程度進行量化評估,以加速AI輔助肺癌早篩系統的更新迭代。
研究還具有一定創新性。首先,本項目以肺癌早篩為小的出發點,將人的勝任素質評判理論運用到AI輔助肺癌早篩上,并深挖該AI勝任素質的評估指標,建立一個相對全面的評估體系以評判其社會影響力。其次,研究對多個數據庫進行了檢索,僅發現從單一角度論述醫療AI與社會角色間影響的文獻,并沒有發現對AI輔助肺癌早篩的社會影響進行系統性論述的研究。研究中不僅包含醫療AI與個體、群體以及社會間的關系,還討論了醫療AI本身,囊括的范圍是綜合的,這是一種突破領域的創新。綜上,研究所建立的指標體系在指標維度的設計上具有一定創新性和應用價值。
各級指標都是基于一定科學方法或是強力的邏輯聯系而構建的,并且每一級指標的確定均通過了專題小組的多輪討論并最終達成一致。一級指標依照“洋蔥模型”自內向外可以劃分出對自身、對個體、對群體、對社會系統的4類應用場景,基本涵蓋所有可能的社會關系。二級指標則為每個應用場景中的12個主要互動者或是互動群體,例如在個體關系的下屬指標中,選擇了在實際中與醫療AI接觸最密切的個體,即需要利用醫療AI進行診斷的患者、醫生以及投資者。最后,通過對12個互動者及群體進行專門分析,最終確立36個關聯者下屬的三級指標,這些指標將定量和定性相結合,客觀且準確地評價了它們的上級指標。各級指標關聯密切,層層決定,對探究醫療AI的臨床應用與社會各成員之間的聯系有重要意義。
在德爾菲法中,專家的權威性是評估意見可靠性的一個重要指標。本項目咨詢的專家組大多為博士,且均涉足醫學或醫療AI領域,有豐富的專業背景及臨床經驗。專家權威系數調查顯示Cr均較高,說明可對指標的構建給予建樹性的指導;專家積極系數結果顯示,各專家對于指標構建有相當的積極性。德爾菲法采用匿名化的專家意見征詢和反饋方式,避免了專家之間的互相影響和壓力,提高了意見的客觀性和獨立性。另外,多輪征詢和反饋的方式也逐步縮小意見差距,最終達成了統一的意見,提高了評價體系的可信度和可靠性[21]。在專家回訪意見的結果中,新增2個指標,即“可以獲得有價值的專業建議”和“認為有可及性及普適性”;刪除1個指標,即“維護成本低”;修改1個指標,即“利于分診”。根據各專家在行業中的實踐發現,很多患者認為影像學診斷報告的專業性太強,如若AI輔助肺癌早篩能增加影像學報告的解讀功能,將有利于提高患者滿意程度,所以增加了“可以獲得有價值的專業建議”指標;醫療器械的臨床應用價值很大程度上決定了其投資價值,如若醫療AI的維護成本太高或是不能大規模應用,投資者不會傾向于對其投資,故增加了“認為有可及性及普適性”指標;專家認為“維護成本低”指標應囊括在“投資者”下屬指標,故刪除;“利于分診”指標描述太過寬泛,更改為“利于診斷危重病人以對其進行優先手術”。綜上所述,指標的構建及調整均經過嚴格的討論及協調,最終消除分歧,總體保證了研究的科學性、獨立性、客觀性及可信度。
3.3.1 醫療AI的自身條件是其最重要的社會特性。研究采用層次分析法構建模型的方法有很強的科學性及適用性,經一致性檢驗,所有判斷均通過說明所構建的指標邏輯性強。一級指標中“自身條件”的權重高達0.4615,因為AI輔助肺癌早篩良好的自身性能及特性是其在社會上進行應用的基礎;而“個體關系”的權重比群體關系和社會關系更高,是因為AI輔助肺癌早篩在日常中主要與患者、醫生等個體進行互動,僅偶爾在大型篩查、醫療AI使用引起的社會輿論等情況中才會更多地與群體及社會發生互動。
3.3.2 醫療AI的性能及其在醫療系統的定位需重點關注。“自身條件”的3個二級指標中,“軟件性能”權重最高。在AI輔助肺癌早篩系統中,診斷的準確性、可及性及效率是核心,其性能的良好可以提高篩查的效率、增加經濟效益、提升診斷質量以及提升患者感知,故最為重要[22]。 另一方面,就目前而言,以CT為主的影像學檢查是臨床上進行肺部腫瘤早期篩查的主要手段。成熟的AI因其閱片效率高、時間場所限制小,有著良好的應用前景。其以準確高效的自身特性能夠有效地輔助影像科醫生做出對應的診斷,因而也最受各行業專家看重[7]。“開發團隊”和“維保特性”權重基本一致。“開發團隊”是人工智能系統的研究者,他們所擁有的能力及資源一定程度上可以反映AI系統的優劣;而優良的“維保特性”則能延長AI系統的使用壽命,開發方不斷進行的模型優化也能更好的提高AI的性能。增加經濟效益。“個體關系”的3個二級指標中,“使用者”一般指使用AI輔助肺癌早篩系統的患者,其與“醫生”的權重相當且遠高于投資者,這與他們平時與人工智能的高互動頻率有關。相比之下“投資者”與AI的日常活動頻率低,故權重較低。“群體關系”的3個二級指標中,“醫院”權重最高,這也與其和該人工智能的高互動頻次緊密相關,相比之下,“風險人群”與“公眾”僅在特定場景如大型肺癌篩查及AI引發社會輿論時與AI有互動。“社會關系”的3個二級指標權重基本相當。“政府管控”主要涉及AI的法律法規,AI給作為社會治理與宏觀經濟調控決策中樞的政府創造了更加精準、真實、全面的決策信息場景,可以有效減少決策的逆預期效果[23]。“社會效益”主要與社會資源的分配相關,AI輔助肺癌早篩帶來的醫療資源優化或是社會輿論的熱度也會反過來助推AI的快速升級。“國家層面”則主要涉及我國的國家安全、國家形象及國家生產力,這亦是一項不容忽略的維度。綜上可知,“社會關系”的3項指標重要程度均衡,各項均需重視。總而言之,軟件的性能及其與醫療系統間各角色的關系所占權重更大,提示如果要通過使用醫療AI為社會帶來良好的影響,需要提高AI輔助診斷的準確率、效率以及明確醫療AI在醫療系統中的定位。
3.3.3 醫療AI的更新迭代需考慮多種因素。在三級指標中,“準確度高”“運算效率高”“多場景兼容性好”綜合權重分別位于第1、第3、第6。AI診斷肺癌的準確度一般要求不低于影像科醫生,運算效率高低主要看每分鐘診斷量,多場景兼容性主要看其是否與多系統兼容,三者均是評判AI輔助肺癌早篩系統性能的重要標準。“診斷具有可持續性”權重第2,如果臨床醫生長時間使用AI,一定程度上會影響其對于肺癌診斷的準確性,所以臨床上使用AI需要注意,對機器的過分依賴,會使人變懶惰。“可以獲得有價值的專業建議”權重第4,其取決于AI診斷之后所生成的診斷報告對于患者及風險人群而言是否專業且友好,在AI輔助肺癌早篩系統開發過程中需注意這一點。“數據來源完善”權重第5,數據庫的完善與否一般與開發團隊合作醫院有關,對于門診量大的醫院,各類肺癌患者數量多,因而數據一般更為權威。另外需要注意“能夠保護用戶隱私”權重第7,大數據平臺作為AI深度學習和決策的基礎,大量的數據涉及個人隱私,一旦受到黑客與不法分子的攻擊,將導致公民個人隱私信息的泄露。要進一步的完善隱私保護法律體系,培養網絡安全人才以減少技術漏洞,進一步降低大數據平臺漏洞帶來的隱患。“利于優化醫院重分工”權重遠高于同級另外兩項指標,AI在不同行業和組織中的應用,加快了組織的信息流動,更新了組織成員的構成,帶來了人機交互的新形態和新模式,推動著行業和組織架構、組織目標與任務的變革與再造[23]。綜上所述,醫療AI的運用關鍵在于是否能夠有效輔助診斷,其更新迭代的突破口在于提升其本身素質。