


摘要:該文研究了基于自然語言處理和深度學習的NL2SQL技術在三級公立醫院績效考核系統中的應用。通過將自然語言查詢轉換為SQL語句,該技術有效提高了數據檢索的效率和準確性,為醫院績效考核提供了更加智能、便捷的工具。案例研究展示了該技術的實際應用效果,并對其未來發展進行了展望。
關鍵詞:自然語言處理;深度學習;NL2SQL;績效考核系統
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2025)05-0064-03 開放科學(資源服務) 標識碼(OSID) :
0 引言
隨著公立醫院績效考核工作的推進,對數據分析效率和便捷性的需求日益增長。NL2SQL技術,即將自然語言查詢轉換為SQL語句的技術,為解決這一問題提供了新的途徑。本文研究了NL2SQL技術在三級公立醫院績效考核系統中的應用,并具體探討了該技術如何通過提高數據檢索的效率和準確性來優化醫院績效考核流程,旨在提升公立醫院績效考核系統的智能化水平。
1 相關技術概念
1.1 深度學習與自然語言處理(NLP)
深度學習是機器學習的一個分支,通過模仿人腦處理信息的方式,利用多層神經網絡發現數據的復雜模式。它在處理復雜任務時表現出色,特別是在圖像識別、語音識別、自然語言處理以及醫學圖像分析等領域。自然語言處理使機器能夠理解和生成語言,而深度學習的進步極大地推動了NLP的發展。RNN、LSTM、Transformer[1]及BERT的應用,使NLP取得了突破性進展,提升了系統性能,拓寬了應用場景,極大地增強了機器的語言能力[2]。
1.2 SQL 與NL2SQL
SQL作為管理和操作關系數據庫的編程語言,能夠執行創建、檢索、更新及刪除等多種數據庫記錄管理任務,是信息化社會中的關鍵技術。然而,對于非專業人員來說,靈活使用SQL進行數據探索存在一定難度。為此,NL2SQL技術應運而生。NL2SQL結合了自然語言處理(NLP) 與數據庫查詢領域的前沿成果,旨在將用戶的自然語言查詢請求轉化為標準的SQL 查詢命令[3]。該技術利用深度學習算法解析自然語言的含義,并準確翻譯成SQL代碼,極大地提升了非專業用戶訪問數據庫的便捷性和效率。NL2SQL技術的實現流程包括:對用戶提供的自然語言輸入進行細致分析,明確查詢的核心要素;運用詞向量表示法、循環神經網絡和注意力模型等先進方法解析自然語言序列,捕捉意義關聯;基于上述信息生成符合數據庫規則的SQL命令,并通過優化措施提升執行效率與準確性。整個NL2SQL架構由前端界面、中間層和目標數據庫三部分組成,其中中間層尤為關鍵,負責將自然語言理解轉化為數據庫操作指令,促進了用戶與數據資源之間的高效溝通[4]。
2 三級公立醫院績效考核系統需求分析
2.1 三級公立醫院績效考核
國家推行三級公立醫院績效考核,旨在全面提升醫院管理和醫療服務質量。該考核機制通過構建科學合理的評價體系,涵蓋醫療質量、運營效能、持續發展能力及滿意度評估等多方面,采用定量與定性指標綜合評定醫院表現,既反映現狀又關注長遠發展。同時,績效考核對醫院信息系統提出了高要求,強調數據處理的準確性、完整性和時效性,以支持高效決策。然而,實際操作中面臨諸多挑戰:傳統績效評估系統依賴人工,效率低下且易出錯;醫療信息量龐大復雜,系統難以應對;現有平臺功能單一,缺乏靈活性,難以滿足個性化需求;且數據分析和圖形展示能力不足,無法為管理層提供深入直觀的見解。因此,醫院須加強信息化建設,提高數據管理水平,以應對績效考核的挑戰。
2.2 基于NL2SQL 技術的績效考核系統需求
在開發基于自然語言處理和深度學習技術的NL2SQL系統在支持三級公立醫院績效評估的過程中,需要具體而全面地掌握系統的功能需求和非功能性要求。
功能需求方面,系統應能夠準確解析并理解用戶以自然語言形式提出的查詢請求,例如查詢“門診患者平均預約診療率”和“門診次均費用增幅”等具體的績效考核指標。系統應能利用深度學習技術,自動將這些查詢轉換成SQL語句,實現對數據庫的有效訪問。此外,系統還應提供可視化展示功能,以便用戶能夠直觀理解和分析績效評估結果,并生成詳盡的評估報告。為了提升用戶體驗,系統將采用AI對話界面設計,使用戶能夠通過自然語言與系統進行交互,例如詢問“今年門診患者的平均預約診療率是多少?”系統將自動理解并生成相應的SQL查詢,返回準確的結果。
非功能性需求方面,系統需要具備高性能、高安全性和用戶友好性等特點。為確保用戶查詢能夠得到及時準確的響應,系統必須具備快速的反應速度和高穩定性。同時,必須實施有效的安全策略,以防止患者和醫療機構的關鍵數據遭到未經授權的訪問或泄露。用戶友好性則要求系統界面簡潔直觀,操作流程簡便,確保用戶能夠輕松上手并高效使用系統進行績效考核工作。AI對話界面的設計將使得用戶無須具備技術背景即可與系統互動,大大簡化操作流程,提升用戶體驗。
3 系統設計
3.1 系統框架設計
構建一個針對三級公立醫院的績效管理系統,該系統在保留通用系統報表數據展現的基礎上,運用了基于自然語言處理及深度學習技術的NL2SQL解決方案,特別是SPAN、X-SQL和BERT等模型。通過結合依存句法分析與時間模板,旨在實現用戶能夠利用自然語言查詢醫院關鍵績效指標(KPIs) 。此系統整合了一個擁有7B規模的開源Llama大型語言模型,以此增強其對于自然語言的理解與生成能力,并采用AI對話界面設計,讓用戶能夠以口語化的方式提出問題并獲得數據洞察。整個系統的架構涵蓋了前端展示、BI后端服務[5]、接口層、讀寫服務及計算引擎等多個組成部分,支持接入多種數據庫類型,確保信息的即時更新與準確性。此外,該平臺將定期同步醫院內部的數據記錄,并通過離線調度服務自動完成枚舉值的計算工作,從而為智能問答功能提供支持。
系統框架設計描述如下。
1) 前端展現及BI模塊:提供用戶界面,允許用戶以自然語言形式輸入查詢請求,如“本月門診患者的平均預約診療率是多少?”,并以文字或圖表界面展示數據。
2) 接口層:作為前端與后端服務之間的橋梁,接收前端的請求并轉發至后臺服務。智能問答接口:接收用戶的自然語言查詢,調用智能問答服務獲取數據后返回給前端展現;數據同步接口:定期從醫院內部數據庫同步數據,生成周期性績效考核報表。
3) 讀寫服務:處理數據庫的讀寫請求,通過緩存機制提高性能。
4) 智能問答及語義解析:利用NL2SQL技術,理解用戶的自然語言查詢,轉換為數據庫查詢,獲取結果后進行語義解析[6],以自然語言形式返回給用戶。
5) SQL 質量檢查:這個模塊會仔細檢查生成的SQL語句,確保每個部分都是正確的。它會驗證公式是否正確無誤,選擇的列是否恰當,以及WHERE條件是否合理等。通過這種方式,可以大大提高最終查詢的質量,確保返回給用戶的信息是準確且有用的。
6) 計算引擎:接收數據同步接口及讀寫服務的調用,返回臨時查詢請求,并生成公立醫院績效考核周期性報表。
具體細節請參見圖1。
3.2 數據準備及訓練
3.2.1 數據準備階段
在數據準備階段,首先需要廣泛搜集三級公立醫院績效考核的相關數據。這些數據來源可能包括醫院的電子健康記錄(EHR) 、醫院信息系統(HIS) 、手術麻醉系統、人力資源管理系統(HRP) 以及國家衛生健康委發布的相關考核指標及操作手冊等。對每項績效指標進行詳細定義,明確其計算方法,并確定所需數據的具體來源。接著,深入研究醫院信息系統(HIS) 的數據庫架構,識別各考核指標與數據庫中相應字段的對應關系。基于這些信息,構建訓練數據集,包括自然語言查詢及其對應的SQL查詢語句。這些訓練樣本應涵蓋多樣化的查詢場景和指標組合,以提升模型對不同查詢類型的適應能力。
3.2.2 模型訓練與優化
在模型訓練階段,選擇一個具有7B參數規模的開源Llama大型語言模型作為基礎,并搭建訓練環境,采用NVIDIA RTX 4090 顯卡、Intel Gold 系列CPU 以及Python和PyTorch深度學習框架進行訓練。使用預處理后的數據集對模型進行訓練,初步訓練后,使用測試數據集評估模型效果,將邏輯準確率作為模型評價方式。邏輯準確率指模型預測的SQL語句結果與實際的SQL語句的一致性。根據反饋進一步優化模型,調整模型參數和優化算法,以提高模型性能和預測準確性,如增加訓練樣本量或調整模型架構,直至達到性能標準[7]。監控損失函數值和準確率等關鍵性能指標,確保模型有效收斂。隨著模型訓練輪數的增加,其預測的準確性也隨之提高。在訓練初期,尤其是當訓練輪數不足5輪時,模型在預測SQL語句方面的準確度顯著提升。然而,一旦訓練輪數超過5輪,準確度的增長速度開始放緩。在經過50輪的訓練后,模型在SQL語句預測方面的性能達到了頂峰,準確度高達91.4%。
3.2.3 輸出結果處理與驗證
在輸出結果處理階段,模型生成的SQL查詢語句需要通過計算引擎執行,并將結果解析為易于理解的格式。這可以通過自定義解析函數或現有的解析工具庫實現。根據應用需求,對解析后的數據進行格式化處理,如轉化為表格或圖表,以增強信息的可讀性。最后,對輸出信息進行驗證,確保準確性和可靠性。
3.2.4 迭代更新
將訓練完成的模型部署到實際應用場景,如醫院績效評估系統。為確保模型的穩定性和可靠性,定期收集用戶反饋,持續進行模型的調整和優化。此外,隨著醫院數據的更新和考核指標的變化,定期重新訓練模型,以適應新的需求。
4 NL2SQL 技術在三級公立醫院績效考核系統中的應用實踐
基于以上AI問答模式設計的系統,在三級公立醫院績效考核的實踐中,通過自然語言到SQL(NL2SQL) 技術,極大地提升了數據處理的效率和準確性。當用戶提出具體查詢需求,如“請查詢2024年11月相對于2023年11月的門診次均費用增長百分比”時,系統能夠迅速理解并自動轉換為SQL查詢語句,直接從數據庫中提取并計算出所需的數據,如圖2所示。
系統也能理解用戶不同的統計區間需求,并自動調整統計范圍。對于已經過訓練的三級公立醫院績效考核指標,如“門診患者平均預約診療率”[8],系統能直接給出用戶所需的答案。基于系統對醫院數據庫的理解,即使對于三級公立醫院績效考核指標以外的HIS數據查詢需求,系統也能保持較高的準確性。得益于大型語言模型的優勢,系統還能對輸出的多個指標值進行比較或趨勢分析,并對輸出的指標進行初步評價。這種自動化處理方式顯著降低了用戶使用系統的學習成本,極大提升了數據處理的速度,系統能夠即時響應查詢請求,無須等待人工分析或開發新的查詢工具,從而減少了對專業數據庫管理人員的依賴。這種及時性對于醫院管理層而言至關重要,因為它使他們能夠基于最新數據做出快速決策,進而提高了醫院的整體運營效率和服務質量[9-10]。
5 結束語
結果表明,NL2SQL技術在三級公立醫院績效考核體系中的應用取得了顯著成效。該技術的應用不僅提升了系統性能、縮短了響應時間,還提高了用戶滿意度及數據處理的準確性。展望未來,隨著技術的持續發展,自然語言SQL(NL2SQL) 技術在醫療領域的應用潛力巨大,特別是在構建智能績效評估體系方面,這項技術正逐漸成為研究的重點領域之一。
參考文獻:
[1] 孫紅,黃甌嚴.融合LSTM的自然語言轉結構化查詢語句算法的研究與設計[J].小型微型計算機系統,2023,44(1):63-67.
[2] 姚俊華,湯代佳.基于自然語言處理技術的政務智能搜索引擎應用探索[J].軟件工程,2023,26(2):59-62,58.
[3] 鄭耀東,李旭峰,陳和平,等.基于中文自然語言的SQL生成綜述[J].計算機系統應用,2023,32(12):32-42.
[4] 曹金超.一種基于深度學習的中文自然語言查詢生成SQL語句技術研究[D].杭州:浙江大學,2020.
[5] 劉譯璟,徐林杰,代其鋒.基于自然語言處理和深度學習的NL2SQL技術及其在BI增強分析中的應用[J].中國信息化,2019(11):62-67.
[6] 周浩冉.基于語義路徑注意力網絡的NL2SQL模型研究及應用[D].上海:東華大學,2023.
[7] 鄧臻凱.面向復雜問句的NL2SQL研究[D].南京:東南大學,2022.
[8] 雷紅娟,李俊華.三級公立醫院績效考核操作手冊及其啟示[J].中國衛生標準管理,2021,12(17):23-26.
[9] 陳曄,董四平.我國三級公立醫院績效考核指標體系解讀與評析[J].中國衛生政策研究,2020,13(2):19-25.
[10] 張友昌.公立醫院績效考核運營效率指標計算和填報探討[J].財務與會計,2024(6): 73-74.
【通聯編輯:代影】