




【摘要】 "目的 "評估測試知識增強大語言模型ERNIE Bot(文心一言)在藥學實踐工作中的能力和應用潛力,探討人工智能在藥學服務領域的應用發展前景和藥學應用型AI的持續優化和改進策略。方法 "使用衛生專業技術資格考試模擬系統,對ERNIE Bot進行西藥學中級(主管藥師級別)的四個科目測評,結合中國藥物治療管理(CMTM)社區糖尿病培訓綜合案例考核,評估ERNIE Bot對藥學知識的掌握和藥學實踐能力。結果 "ERNIE Bot在西藥學中級(主管藥師)模擬考試中,基礎知識平均得分為35.5分,相關專業知識平均得分為36.5分,專業知識平均得分為45分,專業實踐能力平均得分為33.5分;盡管未達到60分通過標準,但其準確回答試題的重現率已達到77.71%;答案的輸出解釋在測試中的一致性為87%。案例考核的評估中ERNIE Bot平均分45.5分;未達到可承擔糖尿病藥物治療管理的專業水平,但案例涵蓋的180個指導關鍵知識點,ERNIE Bot準確識別并應用了其中118個,有效應用率達到65.55%。結論 "根據現階段ERNIE Bot在測評中的表現,該人工智能模型對比中級藥師的專業水準仍有明顯差距,但是其潛在的藥物治療管理決策能力仍值得期待。遴選充分可靠的藥學訓練數據集、有專業藥師深度參與AI的反饋訓練和有效防范人工智能模型幻覺,將是藥學應用型AI問世的關鍵。
【關鍵詞】 "人工智能;文心一言;藥學實踐;藥物治療管理;臨床藥學型AI
中圖分類號 "R95 " "文獻標識碼 "A " "文章編號 "1671-0223(2023)18--07
Aplication of the artificial intelligence knowledge enhancement big language model ERNIE Bot in hospital pharmacy practice "Chu Liankai, Zhang Feng. Shijingshan Teaching Hospital, Capital Medical University (Beijing Shijingshan Hospital), Beijing 100043, China
【Abstract】 "Objective To evaluate the ability and application potential of ERNIE Bot (Wen Xin Yi Yan),a knowledge enhanced large language model,in pharmacy practice work,and explore the development prospect and continuous optimization and improvement strategy of AI in the field of pharmacy service. Methods "Using the simulation system of health professional technical qualification examination,the ERNIE Bot was evaluated in four subjects of intermediate western medicine (pharmacist in charge),and combined with the comprehensive case assessment of China Medication Management (CMTM) community diabetes training,the ERNIE Bot's mastery of pharmaceutical knowledge and pharmaceutical practice ability were evaluated. Result "In the intermediate simulation exam of Pharmacy,ERNIE Bot scored an average of 35.5 points in basic knowledge,36.5 points in related professional knowledge,45 points in professional knowledge,and 33.5 points in professional practical ability; Although it did not meet the passing standard of 60 points,its accuracy in answering test questions has reached a recurrence rate of 77.71%; The consistency of the answer output explanation in the test was 87%.The average score of ERNIE Bot in case assessment is 45.5 points; It did not reach the professional level that can undertake the management of diabetes drug treatment,but ERNIE Bot accurately identified and responded to 118 of the 180 guiding key knowledge points covered by the case,with an effective application rate of 65.55%. Conclusion "Based on the current performance of the ERNIE Bot in the evaluation,there is still a significant gap in the professional level of this artificial intelligence model compared to intermediate pharmacists.However,as a knowledge augmentation big language model without receiving medical and pharmaceutical professional training,its potential drug treatment management decision-making ability is still worth looking forward to.The selection of fully reliable pharmaceutical training datasets,deep participation of professional pharmacists in AI feedback training,and effective prevention of Artificial Intelligence Hallucination will be the key to the emergence of pharmaceutical applied AI.
【Key words】 " "Artificial intelligence; ERNIE Bot; Pharmaceutical practice; Medication therapy management; Clinical pharmacy AI
1 "背景與現狀
人工智能(artificial intelligence,AI)目前已經被廣泛地應用于各個領域,尤其在臨床醫學中,AI的應用廣泛地涉及并影響到麻醉學、腫瘤學、影像學、病理診斷、眼科學、外科學、護理學和公共衛生等多個學科和專業的發展[1-5],并且AI已經在藥用化合物遴選、藥理研究以及藥物研發中展現出強大的能力和優勢[6-7]。
隨著近年來醫院藥學的轉型和臨床藥學工作的廣泛開展,更規范的工作模式和更嚴格的行業標準不斷涌現[8-9],因此對藥師參與“以病人為中心”的藥學專業技術服務提出了更高的標準和要求。理論上,臨床藥學型AI可以為臨床藥學服務提供助力,優化患者的藥物治療管理[10-14]。然而目前在國內尚沒有針對藥物治療管理和臨床藥學等工作專門訓練研發的臨床藥學專用型AI。
2 "臨床藥學型AI的能力和標準
美國Open AI研發的人工智能大型語言模型ChatGPT(V3.5版本)在2022年11月30日發布。2023年2月,ChatGPT在沒有任何專業培訓或強化的情況下,通過了美國醫學執照考試(USMLE)[15]。USMLE是獲取美國醫療許可證所必需的準入考試,該考試具有一套三項標準化的專家級知識測試。ChatGPT在所有三項考試中都達到或接近及格的標準,并且顯示出可理解的邏輯性推理和有效的臨床見解。盡管ChatGPT僅僅以達到或接近60%準確度的標準通過USMLE考試,但作為第一個實現這一基準的大型語言模型人工智能,此事件仍被認為是人工智能逐漸成熟的一個里程碑式的事件。
為了評估人工智能在醫院藥學實踐中的應用與發展潛力,探討藥學應用型AI的持續優化和改進策略,我們對百度的知識增強大語言模型ERNIE Bot(文心一言,版本:V1.0.5)在藥學專業能力和實踐應用潛力進行了測試與評估。
3 "ERNIE Bot測試方案與評估標準
本研究的評估分為專業理論測試和綜合案例分析測試兩部分。
3.1 "專業理論測試
第一部分專業理論測試,以人衛智網職稱模擬考試系統[16]的主管藥師(中級)考試的4個科目考試作為測試,見表1。
為確保ERNIE Bot測試準確性和回復一致性,每科考試在非同日開啟新對話的方式,由固定測試藥師進行兩次獨立測試,統計每科平均分為最終成績。
首次測試為封閉式限制性選擇測試,測試藥師強制要求ERNIE Bot提供確定選項,不強制要求其提供答案的解釋;ERNIE Bot答復后藥師將其選定的選答案提交至模擬考試系統進行計分。
第二次測試為開放式提問結合并強制ERNIE Bot分析解釋,測試藥師根據試題內容開放式提問,強制要求ERNIE Bot提供對應的知識背景,并對選中的答案進行分析或解釋。藥師將ERNIE Bot最終的選擇答案提交至模擬考試系統,同時記錄ERNIE Bot兩次考試答案的一致性。
兩次測試完成后統計ERNIE Bot的成績平均分、兩次答案一致性、準確回答重復率,并對第二次測試錯誤答案,按照概念認知性錯誤(conceptual cognitive errors,CCE)、事實理解性錯誤(eactual comprehension error,FCE)和邏輯分析錯誤(logical analysis error,LAE)分類分析,以評估ERNIE Bot對藥學專業知識的掌握以及分析解決能力,測試方案見圖1。
3.2 "綜合案例分析測試
我們選擇中國藥物治療管理(CMTM)2022年社區糖尿病培訓綜合案例考核方案,評估ERNIE Bot在臨床藥學服務實踐中的能力。以一位61歲女性糖尿病患者的藥物治療管理案例考核,其中涵蓋了180個糖尿病藥物治療管理的關鍵知識點。
首先測試藥師將案例信息整理后提交給ERNIE Bot,并向其強調要作為一位臨床藥師,對患者進行藥物治療指導。
案例分析題為不定項的客觀選擇題,包含15個單選和5個多選題;該部分測試涵蓋了糖尿病關鍵知識點82個。測試藥師采用開放式提問,強制ERNIE Bot根據病案資料結合提問,并根據自己的分析和解釋選擇正確答案。
主觀分析及實操模擬,包含4個案例分析問題和1個胰島素注射技術的實操模擬,其中涵蓋了關鍵知識點92個。測試藥師按照開放式提問,ERNIE Bot做文字回答。ERNIE Bot的完整回答,分別交由六名專家獨立評估,記錄ERNIE Bot的案例考核得分、平均分、涉及的有效關鍵知識點、有效利用的關鍵知識點占比;隨后對比2022年培訓學員成績,匯總評估專家對ERNIE Bot的評價要點。對ERNIE Bot的糖尿病綜合案例考核方案,見圖2。
4 "測試結果及分析評估
4.1 "專業理論測試結果及分析
ERNIE Bot四個科目的兩次測試結果,基礎知識平均得分35.5分;相關專業知識平均得分36.5分;專業知識平均得分45分;專業實踐能力平均得分33.5分,并未通過藥學中級藥師的專業資格模擬考試。但兩次測試中,匯總的答案選擇一致性約為87%;兩次測試對比發現,準確回答的重現率達到了77.71%,如下表2所示。
對ERNIE Bot所有回答錯誤的試題分析發現,ERNIE Bot在未使用醫藥專業數據集和專業醫務人員的訓練前提下,對專業知識的認知理解明顯不足;尤其是對專業術語存在較多的認知錯誤和偏倚。匯總四個科目CCE出現229次,是導致整體測試成績較低的首要原因。
ERNIE Bot的首次測試無法確認其是否充分地理解了問題。復測強制其輸出解釋,ERNIE Bot可利用自己輸出的信息糾正原有錯誤和誤判。統計4個科目FCE類型錯誤共出現70次,這類錯誤可能是ERNIE Bot對語義關聯理解不足和專業事實性數據訓練不足所導致。FCE的頻繁出現可能也源于CCE對ERNIE Bot分析能力的干擾影響,是ERNIE Bot成績不佳的關鍵原因。
ERNIE Bot出現邏輯明顯混亂的回答錯誤歸類為LAE。因CCE和FCE的影響,ERNIE Bot會輸出前后矛盾的表述,內容與問題缺乏有效關聯,甚至與正確答案完全相悖。經統計四個科目LAE共出現59次,且LAE的出現提示ERNIE Bot錯選的可能性增加。
在臨床工作中,醫務人員出現的邏輯性錯誤會導致嚴重的不良結局,在AI應用于臨床時,LAE也會導致惡性后果,降低患者對AI的信任度,甚至會影響到醫患關系的健康發展;這也是醫療AI被限制其應用的關鍵因素之一[17]。
4.2 "綜合案例測試結果及分析
綜合案例分析測試中包含82個關鍵知識點,ERNIE Bot準確識別并應用了其中52個。ERNIE Bot在主觀題測試中獲得的最低分為13分,最高分為34分,平均分為20.5分;主觀題測試共包含98個關鍵知識點,ERNIE Bot準確地匹配應用了其中66個。ERNIE Bot的案例考核最終成績為45.5分,關鍵知識點的有效應用率為65.56%。對比通過該項考核的中級及以上藥師的74名學員(平均成績73.5分),ERNIE Bot與中級藥師的平均水平仍有一定差距,綜合案例考核成績,見圖3。
ERNIE Bot在測試中展示出了較強的歸納總結能力和溝通指導潛力。ERNIE Bot較為準確地總結了患者的主要特點,還通過對檢查檢驗結果的判斷,推演了病情發展和治療預期。測試中ERNIE Bot可以計算出包括肌酐清除率、基礎代謝率和每日能量需求,并以此為基礎指導患者治療。這對于藥師在面對較多復雜計算的情況下是非常有效的助力。
5 "討論
盡管ERNIE Bot并未在本研究中通過預設的兩輪測試,但是其強大的學習能力、對提問的快速反饋、對語義的理解能力和流暢的文字溝通能力,仍留給研究小組和評估專家非常深刻的印象。
ERNIE Bot使用的中文語料訓練數據集是迄今為止最大的中文語料庫,體量超過了4TB,主要來源為百度百科、百度搜索、網絡文本、醫學、法律、金融等領域的特定數據以及超5000萬條事實數據的百度知識圖譜[18],是國內目前較為領先的知識增強大語言模型。但根據百度公開的信息,ERNIE Bot并未接受醫藥學專業數據集標注和醫務人員的訓練。
根據本次測試的數據分析結果,研究小組和評估專家在進行深入溝通后,對ERNIE Bot給出了以下六項評估結論:
(1)ERNIE Bot(V1.0.5)未通過中級藥學專業理論知識和綜合案例分析測試,對比中級藥師的平均水平仍存差距。
(2)ERNIE Bot現有的性能還不足以被用于醫院藥學實踐和臨床藥學服務工作中。
(3)ERNIE Bot已經在一定程度上具備對醫藥學術語和醫療文書的識別、理解和分析能力,但是最突出的問題在于缺乏專業訓練。
(4)ERNIE Bot可在一定程度上結合案例對臨床問題進行邏輯推演和分析判斷,并能進行有限的溝通指導,具有極大的提升空間和潛力。
(5)ERNIE Bot對醫學專業術語的概念認知存在較多的誤判和偏差;對復雜語義和醫藥學問題的事實理解能力不足。
(6)ERNIE Bot應用于臨床最大的障礙是其邏輯分析能力并不穩定,且現有AI都面臨著相同人工智能幻覺風險,這是阻礙其進入醫療應用領域的關鍵問題[19]。
目前我國對于AI進入醫療領域的倫理評估和立法工作也都處于起步階段[20-21],從ERNIE Bot的問世、升級到臨床藥學應用型AI真正投入臨床應用,仍然面臨諸多的困難與挑戰。建議ERNIE Bot采用準確標注的專業數據集[22],對醫藥學專業知識深度學習;接受專業醫藥學人員的針對性訓練,其藥物治療管理決策的潛在能力巨大。
5.1 "ERNIE Bot在處方審核和點評中的潛力
近年來AI技術的高速發展,不斷推動處方前置審核系統迭代升級,國內外均已出現基于AI技術設計開發的區域性處方審核系統[23-24]。現有的信息化處方審核系統及處方點評系統,多基于循證指南和臨床合理用藥信息,通過數據比對為核心模式,來執行審核點評。盡管審方系統效率遠超人工,但是審核中出現報警疲勞和延誤治療仍時有發生[25]。而AI審方系統在確保充分訓練,回復可靠的前提下,可同步多線程處理大量問題。例如ERNIE Bot會在短時間內迅速反饋,提高評估分析、干預方案,AI在發現問題、分析問題的同時,就可提供有效的參考建議。
我們可以大膽地設想AI介入處方審核,甚至可以在醫生處方行為啟動時即可提供優化過的治療方案。這一模式不但能降低藥師審方壓力,還可以更早對藥物治療風險進行預判和防范,或對不適宜處方干預。基于語言模型AI優化的前置處方審核系統,很可能會徹底改變現有的處方審核及點評的工作模式。
5.2 "ERNIE Bot用于臨床藥學工作的可靠性和風險
雖然人工智能已經基本實現人類藥師具備的感知、語言理解、推理、學習、計劃和解決問題的基本能力[26],但它同樣具備潛在風險。由于AI訓練的局限性,導致AI會輸出聽起來合理,但并不基于現實,或與現實世界知識不一致的輸出。這種情況通常被稱為人工智能幻覺,這是個可能對醫療決策產生負面影響的風險,甚至可能引發倫理和法律問題。
例如ERNIE Bot體系不完善的醫藥知識和對專業術語概念的認知錯誤,會輸出誤導性信息;即便是專業的醫務人員也不易識別,進而導致錯誤決策可能。由于醫藥學專有術語的復雜性和醫學文書特殊的語言表述形式,ERNIE Bot并不完全適用于處理醫學文書。更為關鍵的問題在于ERNIE Bot并不具備臨床思維和臨床藥學思維,這可能導致其無法有效應對臨床診療中復雜多因的不確定信息,進而引發邏輯混亂和誤判。
5.3 "ERNIE Bot用于藥學實踐中的倫理及法律相關問題
由于AI訓練不可避免地會觸及真實病例,而這一過程可能涉及患者隱私權和病案管理法規,AI的應用也可能使臨床診療面臨法律風險。尤其是AI參與的診療過程,一旦出現糾紛和訴訟,情況可能會變得更為復雜。
AI在臨床廣泛應用也會為醫務人員帶來倫理方面的挑戰[26]。例如ERNIE Bot在測試中為高血壓危象患者錯誤選擇了治療藥物,可能導致患者救治失敗的惡性結局。這類問題也意味著使用AI的醫務人員,不能把自己單純地視為AI用戶,還要警惕AI帶來的連帶責任。
因此,我們對以ERNIE Bot為代表的語言模型AI應用于藥學實踐和臨床藥學服務持謹慎態度,ERNIE Bot目前還達不到開展藥學實踐和服務的水平;不建議依靠ERNIE Bot做出任何治療相關決策,仍需要特別關注倫理、法規相關的風險,尤其是在我國相關法律和行業標準尚未健全的當下。
5.4 "本研究的局限性和不足
本測試和評估仍具有局限性,ERNIE Bot并未以醫藥學專業數據集訓練,AI訓練集與專業書籍中的術語定義存在差異,因此ERNIE Bot對專業知識認知本身存在缺陷。由于藥學專業知識實際上涵蓋了包括生理、微生物、藥理學、藥物治療學等十余個專業領域,400個測試題的樣本量對于ERNIE Bot而言也并不充分。而綜合案例考核只針對糖尿病,并不能充分考量ERNIE Bot全部藥物治療管理方面的能力,這些問題將在后續研究中加以改進。
盡管本研究存在上述不足,但我們已經證明了ERNIE Bot在藥學實踐和臨床藥學服務中的潛力,也對其不足之處提出了建設性的意見建議。同時為后續更為系統的大樣本研究提供了初步證據和技術路線支持。
5.5 "人工智能和醫院藥師在臨床藥學服務工作的合作與共同發展
基于我們對ERNIE Bot的了解,我們鼓勵年輕藥師積極參與AI的互動學習與探索。大量證據都顯示出AI在醫學教育方面的促進作用 [27]。由于ERNIE Bot已經進入并普及到大眾當中,AI技術也會進入健康教育公共服務系統[28]。藥師要緊跟時代發展,需要充分了解大眾健康管理中AI的應用和發展。
藥師也可以利用ERNIE Bot作為學習助手,用于提高專業水平。我們希望ERNIE Bot這樣的AI能被更多的醫藥工作者所重視,至少其廣泛的知識面、強大學習能力、極高的學習效率、快速的信息處理反饋能力都凸顯其優勢。盡管ERNIE Bot在專業水平上還存在不足,但作為國產原研的AI,上市也僅數月的時間,其其能力已經為人矚目,其不完善之處也可以被理解。我們非常期待ERNIE Bot在未來的迭代升級后,能夠快速地突破現有的技術壁壘,達到更高水平。
同時我們也呼吁,希望有更多高水平的藥師參與到臨床藥學應用型AI的技術開發和訓練當中,爭取早日讓我國原研的臨床藥學應用型AI,真正用于藥學實踐工作中,為大眾提供高質量的藥學服務。
6 "參考文獻
[1] "Hashimoto DA,Witkowski E,Gao L,et al.Artificial Intelligence in Anesthesiology: Current techniques,clinical applications,and limitations[J].Anesthesiology,2020,132(2):379-394.
[2] "Hunter B,Hindocha S,Lee RW.The role of artificial intelligence in early cancer diagnosis[J].Cancers(Basel),2022,14(6):1524.
[3] " "Ji Y,Ji Y,Liu Y,et al.Research progress on diagnosing retinal vascular diseases based on artificial intelligence and fundus images[J].Front Cell Dev Biol,2023,28(11):1168327.
[4] " Barragán-Montero A,Javaid U,Valdés G,et al.Artificial intelligence and machine learning for medical imaging:A technology review[J].Phys Med,2021,83:242-256.
[5] "Ronquillo CE,Peltonen LM,Pruinelli L,et al.Artificial intelligence in nursing: Priorities and opportunities from an international invitational think-tank of the nursing and artificial intelligence leadership collaborative[J].J Adv Nurs,2021,77(9):3707-3717.,
[6] " Gupta R,Srivastava D,Sahu M,et al.Artificial intelligence to deep learning: machine intelligence approach for drug discovery[J].Mol Divers,2021,25(3):1315-1360.
[7] " 艾中柱,王皓南,周珊珊,等.SPR天然產物小分子抑制劑的\"人工智能\"藥物篩選和\"網絡藥理\"作用機制研究[J].世界科學技術-中醫藥現代化,2021,23(4):1119-1128.
[8] " 中國醫學科學院北京協和醫院,美國中華醫學基金會,中國醫院協會藥事專業委員會.中國臨床藥師核心勝任力框架專家共識(2023)[J].協和醫學雜志,2023,14(2):257-265.
[9] " 中國醫院協會藥事專業委員會《醫療機構藥學服務規范》編寫組.醫療機構藥學服務規范[J].醫藥導報,2019,38(12):1535-1556.
[10] "Ranchon F,Chanoine S,Lambert-Lacroix S,et al.Development of artificial intelligence powered apps and tools for clinical pharmacy services: A systematic review[J].Int J Med Inform.2023,172:104983.
[11] "姚翀,劉東杰,郭代紅,等.臨床藥物不良事件主動監測與智能評估警示系統Ⅱ的研發[J].中國藥物應用與監測,2020,17(6):387-391.
[12] "劉蕙嘉,馬國.人工智能應用于藥學服務的探索與思考[J].中國臨床藥學雜志,2020,29(3):234-238.
[13] "張穎,于澤,許本善,等.人工智能指導個體化用藥的研究與實踐[J].中國臨床藥學雜志,2022,31(2):151-156.
[14] "宋學武,高慧兒,張弋.基于人工智能的機器學習算法在個體化用藥領域的應用進展[J].中國新藥與臨床雜志,2021,40(10):683-688.
[15] Kung TH,Cheatham M,Medenilla A,et al.Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models[J].PLOS Digit Health,2023,2(2):e0000198.
[16] 人民衛生電子音像出版社.人衛智網-衛生專業技術資格模擬考試系統-藥學中級 [EB/OL].https://exam.ipmph.com/front/myschool/index.html#/publicExam/index?alias=yaoxuezhongji
[17] 劉伶俐,賀一墨,劉祥德.患者對人工智能醫療的認知及信任度調查[J].中國醫學倫理學,2019,32(8):986-990.
[18] "Baidu(京ICP證030173號,京公網安備11000002000001號).文心一言-百度百科[EB/OL].https://baike.baidu.com/item/%E6%96%87%E5%BF%83%E4%B8%80%E8%A8%80/62642976?fr=Aladdin
[19] Jiang L,Wu Z,Xu X,et al.Opportunities and challenges of artificial intelligence in the medical field: current application,emerging problems,and problem-solving strategies[J].J Int Med Res,2021,49(3):3000605211000157.
[20] 李志勇,邱曉嵐,楊建龍,等.WHO《為基于人工智能的醫療設備生成證據:訓練、驗證和評估框架》解析及其對我國醫學裝備行業的啟示[J].中國醫學裝備,2022,19(7):157-167.
[21] "國家互聯網信息辦公室.關于《生成式人工智能服務管理辦法(征求意見稿)》公開征求意見的通知-中共中央網絡安全和信息化委員會辦公室[EB/OL].http://www.cac.gov.cn/2023-04/11/c_1682854275475410.htm
[22] 楊珺,郭強,史文釗等.藥學知識庫發展與建設[J].醫學信息學雜志,2020,41(11):32-36.
[23] 沈峻,魯威.基于人工智能的區域處方前置審核系統建設與應用[J].中國衛生信息管理雜志,2019,16(4):493-496.
[24] "宗宇桐,閆素英,褚燕琦.2種醫囑審核模式的臨床應用及存在問題的文獻分析[J].中國藥房,2020,31(7):879-883.
[25] 李秀榮,斌蘭,張鳳,等.處方前置審核系統在門診處方審核中的作用及用藥分析[J].中國數字醫學,2021,16(10):65-70.
[26] Nabi J.How bioethics can shape artificial intelligence and machine learning[J]. Hastings Cent Rep,2018,48(5):10-13.
[27] Chan KS, Zary N. Applications and challenges of implementing artificial intelligence in medical education: integrative review[J].JMIR Med Educ,2019,15,5(1): e13930.
[28] Zhao J,Fu G.Artificial intelligence-based family health education public service system[J].Front Psychol,2022,11,13:898107.
[2023-07-31收稿]