生成式人工智能在口腔醫學領域應用價值的比較研究

2024-12-16 00:00:00葉元龍曾維陳金龍劉磊

華西口腔醫學雜志 2024年6期

[摘要]目的本研究旨在比較3種生成式人工智能技術（GAI）在中文語境下口腔醫學領域的應用價值及其存在的問題，從而為其應用提供參考依據。方法本研究設計了36個涵盞口腔醫學各專業的問題，包括病歷撰寫、專業知識解答、文章翻譯潤色等多個方面。將這些問題分別輸入至ChatGPT4-turbo、Gemini （2024.2）和文心一言4.0進行回答，邀請3名經驗豐富的口腔醫師采用盲評法對答案進行四級李斯特量表評估，對GAI在不同應用場景的使用價值進行評價。結果在臨床文書撰寫和圖片制作方面，Gemini 45分，文心一言38分，ChatGPT 33分；在科研輔助方面，Gemini 45分，文心一言39分，ChatGPT 35分；在教學輔助能力方面，文心一言54分，Gemini 50分，ChatGPT 48分；在患者咨詢和導診方面，Gemini 78分，文心一言59分，ChatGPT 48分。在總分方面，Gemini 218分，文心一言190分，ChatGPT 164分。在應用場景評價中，得分最高的3項為文章翻譯潤色、醫患溝通文案撰寫和科普宣傳文案撰寫，分別為26、23、23分；得分最低的2項為指定文獻的搜索匯報和圖片生成，分別為13和12分。結論中文語境下在口腔醫學領域應用價值從高到低依次為Gemini、文心一言和ChatGPT。總體來看，GAI在翻譯潤色、醫患溝通文案撰寫和科普文章撰寫方面有較大的應用價值，在指定文獻的搜索匯報和圖片生成方面的應用價值最低。

[關鍵詞]生成式人工智能，Gemini；文心一言；ChatGPT；口腔醫學

[中圖分類號]R78[文獻標志碼]A[doi]10.7518/hxkq.2024.2024144

隨著生成式人工智能（generative artificial intelligence，GAI）技術的快速發展，其在醫療領域的應用日益廣泛，包括提高論文寫作效率、分析數據、個性化醫療、協助臨床工作以及醫學教育等多個方面。在臨床實踐中，GAI能夠協助醫護人員完善醫療文書、放射檢查等工作，簡化流程，提高效率。同時，患者也能通過GAI獲得即時的醫學咨詢。在科研方面，GAI已成為一種強大的工具，特別對于非英語母語的研究人員，能顯著提升論文寫作的質量和效率。在醫學教育領域，GAI不僅為醫學生提供強大的助學支持，還能協助教師進行教學設計和文書生成。然而，GAI技術的應用仍面臨不少挑戰。由于數據集時效性和信息真實性等問題，GAI提供的答案并非完全準確，需要用戶謹慎鑒別和判斷。此外，如何界定GAI輔助與學術剽竊的界限等，也是當前亟待解決的問題。

目前，市場上GAII具眾多，技術水平各異，如何選擇合適的工具以獲得最佳幫助尚無定論。鑒于此，本研究選取了3種知名的GAI工具，分別為ChatGPT4-turbo、Gemini （2024.2）、文心一言40，對其在中文語境下口腔醫學領域的應用表現進行分析，為后續研究和實踐提供參考依據。

1材料和方法

1.13種GAI在口腔醫學多個領域中文環境下的應用表現比較

研究設計了36個問題，旨在考察GAI在口腔醫學多個領域中文環境下的應用表現。這些問題涵蓋了口腔頜面外科學、牙體牙髓病學、牙周病學、黏膜病學、口腔修復學、口腔種植學、正畸學等口腔醫學所有專業方向，并根據其應用場景分為四類，分別為臨床實踐（7個）、科研工作（7個）、教學工作（12個）、患者咨詢及導診（10個）。這些問題涉及病歷撰寫、專業知識解答、文章翻譯潤色等多個方面。通過這些問題來評估3種GAI在口腔醫學領域的專業知識掌握程度，并驗證其在提高醫生工作效率以及為患者提供咨詢和導診服務方面的潛力。

采用ChatGPT4-turbo、Gemini （2024.2）以及文心一言4.0分別對這36個問題進行回答。選取臨床經驗在10年以上的3名口腔醫師獨立采用盲法進行評估。

1.2評估方法

本研究采用一份四級李斯特量表對GAI的回答進行綜合評價。評價系統包括一份3種GAI在相關問題中回答表現的四級李斯特量表，以及一份GAI在不同應用場景中使用價值的調查表。

李斯特量表評分規則：根據其完整性、專業性和可讀性等方面進行綜合評分，分數范圍為0-3分，其中3分代表最佳表現，2分則代表中等表現，1分代表最差表現；若答案中存在可能導致嚴重不良后果（如錯誤決策、錯誤操作、引發并發癥或危及患者）的錯誤、虛構或誤解等風險因素，則該項得分為0分。若某問題的多個答案表現相近，可賦予相同分數（如3項均給2分）。最終，各問題得分累加形成總評價分數，用于各大類及總體表現的對比分析，以得出最終評價結論。

在此基礎上，由上述3名醫生對GAI在不同應用場景中的使用價值進行評分。滿分為10分，分數越高則視為在該條件中幫助越大，并將3位醫生的評分相加獲得最終結果。

2結果

2.13種GAI在口腔醫學多個領域中文環境下的應用表現比較

2.1.1臨床文書撰寫和圖片制作

在臨床文書撰寫和圖片制作方面，3種GAI的應用價值評分從高到低分別為Gemini、文心一言、ChatGPT（表1）。

2.1.2科研輔助能力

在科研輔助方面，3種GAI的應用價值評分從高到低分別為Germini、文心一言、ChatGPT（表2）。

2.1.3教學輔助能力

在教學輔助方面，3種GAI的應用價值評分從高到低分別為：文心一言、Gemini和ChatGPT（表3）。

2.1.4患者咨詢和導診

在患者咨詢和導診方面，3種GAI的應用價值評分從高到低分別為Gemini、文心一言、ChatG-PT（表4）。

2.1.5總分

3種GAI在不同問題類別中的總分見表5，在口腔相關領域應用價值由高到低依次為Gemini、文心一言、ChatGPT。

2.2GAI在不同應用場景中使用價值的調查

GAI在不同應用場景的價值評分見表6。得分最高的3項為文章翻譯潤色、醫患溝通文案撰寫和科普文章文案撰寫，分別為26、23、23分；得分最低的2項為指定文獻的搜索匯報和圖片生成，分別為13和12分。

3討論

近年來，GAI在自然語言處理領域取得了突破性進展，展現出與人類流暢對話和生成連貫文本的能力，并在生物醫學領域引起了廣泛關注。眾多研究者致力于探索人工智能工具在醫學臨床、科研、教學等領域的應用，取得了豐富的成果。多種GAI模型已在口腔醫學領域得到初步應用。然而，且前并未見GAI在口腔醫學領域應用價值的研究。鑒于此，本研究選取了國內外具有代表性的3種GAI模型進行測試，旨在探究它們在口腔醫療領域中的最佳應用效果。

ChatGPT作為OpenAI公司于2022年底推出的大型語言模型聊天機器人，以GAI為技術基礎，已廣泛應用于對話系統、文本摘要和機器翻譯等領域。ChatGPT的出現標志著自然語言處理領域的一大飛躍。2023年2月，谷歌推出了自己的GAI模型Bard，同年12月，谷歌發布了新型多模態模型Gemini，并開始了與Bard的整合與升級，并在2024年2月正式將Bard模型改名為Gemini。在國內，GAI領域仍處于追趕階段。多家廠商紛紛宣布推出自己的人工智能大語言模型，其中百度于2023年8月開放訪問的文心一言大語言模型備受矚目。為全面評估各模型性能，本文將上述3種模型應用于口腔醫學領域，對其進行比較和分析，驗證其與專業醫生專業能力、思維方式等方面的差異。

醫患溝通是臨床工作中非常重要的環節，直接關系到診療過程能否順利推進，良好的醫患溝通能力是每一名口腔醫生都應該具備的專業素養。但在日常工作中，由于患者數量龐大，醫生有時無法做到充分的醫患溝通。此外，醫生還需要承擔部分宣傳、科普、病歷書寫等一系列任務，這都將分散醫生真正投入治療的時間與精力。隨著GAI的逐步發展，通過這一工具減輕口腔醫生工作量的可能性逐步提升，為此本研究設置了一系列問題以驗證可行性。結果表明：在涉及文案撰寫生成的題目中，文心一言表現最佳（2項第一、1項并列第一、2項第二），這可能與其有中文訓練、擁有最佳的中文支持度有關。然而，在臨床方向的總體評分中，文心一言仍低予Gemini，因為文心一言在一道圖片生成題目和一道信息搜索題目中均得分較低，而Gemini則在這兩個問題中均獲得了最高分。這可能與文心一言多模態能力不足、無法聯網搜索有關。雖然文心一言能夠根據關鍵詞生成一些簡單的圖片，但這些圖片可靠性不高。其主要原因是無法聯網搜索導致文心一言只能依賴其內置的數據庫，因其數據庫在內容量、時效性等方面尚存在問題，致使文心一言的部分答案不系統、不準確與不適用。

在科研工作中，文獻的精準檢索與閱讀是開展研究工作的基礎之一，借助人工智能工具快速完成文獻篩選與內容閱讀能夠極大提高科研前期工作效率。本研究的結果顯示：人工智能工具確實可以協助科研工作者完成部分前期文獻搜集閱讀工作，在指定方向的論文檢索中，ChatGPT能夠根據關鍵詞在PubMed網上檢索相關論文并提供鏈接，Genmini則能夠從更多的網站中檢索內容，兩者也能在一定程度上完成相關文獻內容的閱讀、翻譯與總結，對于科研工作者可提供部分幫助。由于無法聯網搜索，文心一言只能夠從其內置數據庫中檢索內容，而這種非及時更新的搜索結果很難真正幫助到研究人員。與此同時，無法聯網也意味著對于指定論文的檢索、閱讀、翻譯與總結等任務幾乎無法完成。

撰寫綜述和課題申請書也是重要的科研工作，因此，本研究設計了相關測試。結果表明，在內容撰寫方面，無論是綜述還是課題申請書，三者都無法直接生成完整的、可用的內容，而只能以大綱的形式完成回答。經過評估，3種GAI生成大綱均有一定的參考價值，可為科研工作者提供一定的指導和幫助。在上述場景中，Oemini的表現最佳。

研究人員在論文寫作時為了完成一篇高水平的文章常需要花費更多的時間在潤色和翻譯等語言工作，這對于非英語母語的人來說往往意味著花費更多的時間。GAI為此提供了新的方法，本研究采用中文文獻輸入GAI中進行文章潤色，結果顯示文心一言完成最好，其內容可以基本滿足文章投稿的要求。

教學工作常從教案書寫與教學PPT的制作開始，與上文中文案撰寫與提綱設計的題目類似，GAI的回答依舊有一定的參考價值，文心一言在這一部分中依舊憑借高中文支持度表現最佳。值得注意的是，在涉及到專業相關知識的簡單問題中，GAI雖然可以完成簡單的答疑工作，但其回答中仍不時存在錯誤，不能替代教師的工作，在使用時需要特別謹慎。在涉及到邏輯推斷和比較的問題中，3種GAI均表現不佳。在涉及到圖片生成的題目中，針對明確規定了要求的圖片，僅Gemini在網絡中找到了合適的模板并成功繪制出具有應用價值的圖片，這再次驗證了其多模態的優勢。

對于患者來說，優質的診前咨詢能夠最大程度地減少由于選錯醫院或科室而帶來的時間成本，也有助于患者和家屬加強對疾病、治療和預后的了解。GAI全天候在線、及時回復、較低使用成本的優勢能夠為滿足患者及時診療的需求提供新的選擇。與第一部分研究結果類似，在文案生成類的題目中，文心一言與Gemini均表現良好。但當涉及到邏輯推斷與比較時（如醫院選擇、導醫、治療方案咨詢等），文心一言往往不能得出最合理的答案，而Gemuu的回答仍具有較高的參考價值。

綜上所述，在中文環境下口腔醫學領域的應用中，3種GAI的總體使用價值從高到低依次為Gemini、文心一言、ChatGPT。Gemini在專業知識介紹、信息檢索、文獻檢索與翻譯、圖片生成方面表現最佳，在各類文案、大綱生成方面的問題，其能力也僅稍弱于文心一言。這與其較高的中文支持度、優秀的多模態性能及強大的互聯網搜索能力相關。文心一言在涉及到中文文案內容生成、中英文互譯的題目中表現出色，該部分評分高于Gemini，但是由于文心一言多模態能力較弱且尚未開放聯網搜索功能，其在涉及圖片生成及無法從其數據庫中獲得答案的題目時表現不佳。ChatGPT總體來看對于中文的支持度并不高，與其他2種GAI相比優勢并不突出。

在上述研究基礎上，本研究還對GAI在口腔醫學各應用場景中的使用價值進行了調查，結果顯示：在醫療文書書寫方面，GAI能夠提取關鍵信息并完善基本結構，具體細節經醫務人員校對修改后即可使用。在醫患溝通文案撰寫環節，GAI能較系統、全面地提供信息，基本滿足患者需求，經醫務人員微調后即可使用。在科普宣傳方面，OAI能全面撰寫相關內容并提供圖片供參考，語法邏輯通順，易于閱讀。然而，在圖片生成方面，3種GAI中僅Gemini可通過互聯網直接引用部分圖片，但仍有待完善。在專業知識問答環節中，GAI提供的內容具有一定的參考價值，但可靠性仍存在一定問題，需要專業人員認真校對。文獻檢索匯報方面，GAI整體表現較差，甚至存在無法檢索或虛構的情況，缺乏實用價值。在文章翻譯潤色方面，GAI表現良好，尤其是文心一言，對研究者具有實際價值。在項目申請撰寫、教學設計和醫療咨詢導診方面，GAI雖能提供一定的參考，但內容中可能存在的紕漏及虛構，需使用者認真查證。

總體來看，GAI在醫患溝通、科普宣傳與文獻翻譯潤色方面能提供較大幫助；在涉及專業知識及實際操作的領域，其幫助有限，僅可作為參考。因此，在使用GAI時，特別是在涉及專業知識的方面，使用者需保持警惕，審慎對待其生成的內容。

目前人工智能評價體系可以分為客觀評價和主觀評價。前者包括準確性、速度、可靠性和靈活性等。這些指標能夠直接反映人工智能系統在處理任務時的性能和質量。后者則包括界面的友好性、功能的實用性、系統的穩定性以及整體的用戶體驗等，能夠集中反映人工智能系統在特定場景的應用價值。本研究的目的是比較3種GAI在中文語境下口腔醫學領域的應用價值及其存在的問題，因此選擇了主觀評價方案。具體來說，本研究選用了李斯特量表對3種人工智能工具進行評價。李斯特量表是由美國社會心理學家倫斯·李斯特（Rensis Likert）于1932年提出的，它是一種評分加總式量表，其設計目的是測量態度、看法或者感受等。李斯特量表最初是為心理學和社會科學研究設計的，但其評分和衡量態度的機制近年來被廣泛用于軟件和人工智能工具的評價。

雖然本研究證明了GAI在口腔醫學領域的廣闊應用前景，但也應注意，GAI在倫理和學術不端方面存在的問題日益凸顯。這主要源于其強大的內容生成能力和可能帶來的誤導性影響。本研究的結果也證明了這一點，對于少數問題，GAI生成的內容可能不準確或誤導用戶。在學術不端方面，GAI的濫用也已成為一個不能忽視的問題。一些學生和研究人員可能利用AII具進行論文和課程作業的抄襲，這不僅損害了學術誠信，也阻礙了知識的創新和進步。因此，針對GAI在口腔醫學的應用，必須通過加強倫理考量、建立嚴格的學術規范和監管機制、加強跨學科合作與交流以及關注可持續發展等方法，才能確保GAI的健康發展。另外，人工智能模型發展迅速，不斷更新，但模型的版本之間具有連貫性，讀者依舊可以參考本研究對更新內容進行評估，選取合適的模型使用。

綜上所述，在口腔醫學領域應用價值從高到低依次為Gemini、文心一言、ChatGPT。總體來看，GAI在翻譯潤色、醫患溝通文案撰寫和科普文章撰寫方面有較大的應用價值，在指定文獻的搜索匯報和圖片生成方面的應用價值最低。

利益沖突聲明：作者聲明本文無利益沖突。

華西口腔醫學雜志2024年6期

華西口腔醫學雜志的其它文章: 不明原因根尖周炎為首診癥狀的低血磷性佝僂病1例; 正頜術中惡性高熱1例; 舌GLI1基因改變的間葉性腫瘤1例并文獻復習; 數字化輔助下雙窗法微創摘除伴高位埋伏尖牙的牙痛1例; 口內掃描配準種植機器人在種植牙手術中的應用; 基于混合現實與人工智能算法在股前外穿支血管定位中的前瞻性研究