999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的化學發光免疫分析儀溫度控制策略研究

2024-05-06 11:13:58李中偉喬美英王聰
科技創新與應用 2024年13期

李中偉 喬美英 王聰

第一作者簡介:李中偉(1991-),男,碩士研究生。研究方向為信息處理與網絡控制、電子電路設計。

DOI:10.19981/j.CN23-1581/G3.2024.13.010

摘? 要:傳統PID控制作為最常用的控制算法,在全自動化學發光免疫分析儀的溫度控制單元上有著廣泛的應用,但存在PID控制參數整定困難,調節時間長和超調量較大等問題,如何在保證溫度控制精度的情況下,縮短溫度調節時間,減小超調量,進一步提升儀器的檢驗效率,成為需要解決的問題。針對此問題,應用基于深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的溫度控制策略,可以避免依靠人工經驗進行PID參數整定,并縮短溫度調節時間,大幅度減小超調量,通過仿真實驗分析溫度控制的參數指標。結果表明,該算法相較于傳統的PID控制和模糊PID控制策略,在調節時間上分別提升14.9%和6.3%,在超調量上分別提升99.8%和99.2%,對于提升儀器的性能有較大意義。

關鍵詞:發光免疫分析儀;溫度控制;PID;DDPG;強化學習

中圖分類號:TP273? ? ? 文獻標志碼:A? ? ? ? ? 文章編號:2095-2945(2024)13-0039-05

Abstract: Traditional PID control, as the most commonly used control algorithm, has a wide range of applications in the temperature control unit of fully automatic chemiluminescence immunoassay analyzer. However, there are problems such as difficulty in tuning PID control parameters, long adjustment time, and large overshoot. How to shorten temperature adjustment time, reduce overshoot, and further improve instrument inspection efficiency while ensuring temperature control accuracy has become a problem that needs to be solved, To address this issue, a temperature control algorithm based on Deep Deterministic Policy Gradient (DDPG) is applied, which can avoid relying on manual experience for PID parameter tuning, shorten temperature adjustment time, and significantly reduce overshoot. By analyzing the parameter indicators of temperature control through simulation experiments, the results show that this algorithm is superior to traditional PID control and fuzzy PID control algorithms, In terms of adjustment time, it has increased by 14.9% and 6.3% respectively, and in terms of overshoot, it has increased by 99.8% and 99.2% respectively, which is of great significance for improving the performance of the instrument.

Keywords: luminescent immunoassay analyzer; temperature control; PID; DDPG; reinforcement learning

隨著醫學檢驗技術的快速發展,全自動化學發光免疫分析儀作為一種高性能的醫療設備,已經廣泛應用于醫學檢驗中,為各種疾病的診斷提供強有力的依據[1]。溫度控制系統作為全自動化學發光免疫分析儀最重要的子系統之一,其精確的溫度控制能夠為樣本和試劑的反應過程提供適宜的溫度環境,使得化學反應更加充分,從而為獲得可靠的檢驗數據提供保障[2]。溫度控制的參數是決定溫度控制系統性能的重要影響因素,對于溫度控制系統,較多采用傳統的比例-積分-微分(PID)控制策略,但是由于其參數調整復雜、對調試人員的要求較高,且調試后的溫度曲線具有較大的超調量,因此,該策略往往難以獲得較好的控制性能。為了克服這些不足,當前已經有眾多學者對全自動化學發光儀上的溫控PID參數進行了研究,盧雷[3]討論了基于PID線性控溫法,實現了對電化學發光免疫分析儀中的光電倍增管溫度的精確控制,但是使用試湊法進行參數整定時,調試過程需要依靠人工經驗才能調試出合適的PID參數。任浩[4]針對傳統PID控制在孵育箱系統進行溫度控制時,出現的控溫精度不高的問題,對PID控制進行了研究,并改進設計了一種變模糊論域的模糊PID控制方法,該方法雖然提高了恒溫控制精度,但是需要依靠經驗制定模糊規則才能達到最優的控制性能。

本文以全自動化學發光免疫分析儀的溫育盤加熱控制系統為例,構建其數學模型,探討了深度確定性策略梯度(DDPG)算法在溫育盤加熱控制系統策略優化方面的應用,同時也構造出馬爾可夫決策過程 (Markov Decision Process, MDP)模型,并通過仿真實驗驗證了DDPG算法的有效性,根據超調量、上升時間和調節時間等性能指標,對算法的改進效果進行了分析。

1? 溫度控制系統數學模型的建立

全自動化學發光免疫分析儀通過高度集成的自動化流程,結合化學發光技術和免疫分析的原理,實現了對生物樣本中特定抗原或抗體的高靈敏度和高精確度檢測,其系統組成主要包括樣本處理系統、試劑管理系統、溫度控制系統和發光檢測系統等。其中,溫度控制系統分為溫育盤加熱控制系統、底物針加熱控制系統、反應盤加熱控制系統和試劑盤制冷控制系統。

本文以溫育盤加熱控制系統為研究對象并建立數學模型,該系統具有自平衡能力,其數學模型可以用一階純滯后環節來描述,所以,溫育盤加熱控制系統的傳遞函數為

G(s)=■,(1)

式中:K,t0和τ分別為被控對象的靜態增益、純滯后時間常數和慣性時間常數[5]。

在工程上,對被控對象施加階躍信號是一種常用的系統響應分析方法,觀察被控對象在階躍信號作用下的變化過程,記錄數據并繪制出系統的時間響應曲線[6],可以根據響應曲線,結合科恩-庫恩(Cohen-Coon)[7]經驗公式計算出傳遞函數中的參數K,t0和τ。

按照上述方法,為了實驗能夠順利進行,本文選用三線制PT1000作為溫度傳感器,設計了微處理器和數字溫度測量芯片相結合的高精度溫度采集電路。將溫度傳感器安裝在溫育盤模塊上,在測試過程中給定輸入階躍信號為50 ℃,通過溫度采集電路不斷獲取溫度值,每隔30 s記錄一次溫度變化數據,得到的結果見表1。

根據記錄的溫度數據,繪制溫育盤模塊的階躍響應曲線,如圖1所示。

根據科恩-庫恩經驗公式,如式(2)—式(4)所示

K=■,(2)

t0=1.5(t0.632-t0.28),(3)

τ=1.5(t0.28-t0.632/3),(4)

式中:?駐M為溫度控制系統的階躍輸入;?駐C為溫度控制系統的輸出響應;t0.28為階躍響應曲線在0.28?駐C時的時間,s;t0.632為階躍響應曲線在0.632?駐C時的時間,s。

給定輸入階躍信號為50 ℃,即?駐M=50,?駐C=25,根據響應曲線可以得到t0.28=157 s,t0.632=269 s,從而求得K=?駐C/?駐M=0.5,t0=168 s,τ=101 s,由此,通過計算可以得到溫育盤加熱控制系統的傳遞函數為

G(s)=■。(5)

表1? 溫度采集數據

圖1? 溫育盤模塊的階躍響應曲線

2? 基于DDPG的溫度智能優化控制

2.1? 馬爾科夫決策過程

強化學習(Reinforcement Learning,RL)作為機器學習的一個重要子領域,近年來在眾多領域得到了廣泛的應用,如圖2所示,強化學習由2部分組成,即智能體和環境。在進行強化學習的過程中,智能體與環境一直處于交互狀態,智能體不斷地在環境中獲取狀態,并執行相應的動作,然后根據選擇動作的結果,從環境中獲得獎勵或者懲罰,智能體的目的就是盡可能多地從環境中獲取獎勵[8]。

圖2? 強化學習示意圖

馬爾科夫決策過程是一種數學框架,廣泛應用于強化學習和動態規劃等領域,用于描述在隨機環境中進行決策的問題,該過程可以用一個四元組{S,A,P,R}描述[9],其中S是一個有限的狀態空間集合;A是智能體Agent在每個狀態下選擇的動作空間集合;P是智能體在當前狀態s下采取動作a后,轉移到下一個狀態st+1的概率;R是在狀態s時執行動作a,并達到下一個狀態st+1時所能得到的及時獎勵,該獎勵能夠指導智能體學習最優策略。

2.2? DDPG算法

強化學習領域的算法主要包括Q學習算法、Deep Q-Network(DQN)算法、Actor-Critic算法和DDPG算法等。DQN算法是將神經網絡與強化學習相結合,主要用于解決離散動作空間的任務[10]。為了在連續控制問題上有更好的效果,在2016年,DeepMind團隊提出了一種基于深度確定性策略梯度的算法,即DDPG強化學習算法[11]。

DDPG算法的結構框圖如圖3所示,它是基于Actor-Critic架構的一種強化學習算法,該結構由價值網絡Critic和策略網絡Actor組成。Critic網絡根據值函數,向最小化損失函數的方向進行更新,調整其神經網絡的結構參數θQ,以此來實現目標總收益的最大化。Actor網絡基于策略梯度的方式向獎勵最大的方向進行更新,調整其神經網絡的結構參數θμ,選擇需要執行的動作[12]。

根據損失函數更新Critic網絡,損失函數變化如下

L=■∑i(yi-Q(si,ai│θQ))2, (6)

式中:yi=ri+γQ′(si+1,μ′(st+1│θμ′)|θQ′),Q(si,ai│θQ)為Q(si,ai)的估計值。

根據策略梯度更新Actor網絡

?犖θμJ≈■∑i?犖aQ(s,a│θQ)|■·?犖θμμ(s|θμ)|■。(7)

為了避免參數更新較快,且目標值也在不斷更新,造成學習過程不穩定的情況,在DDPG算法中建立了Actor目標網絡和Critic目標網絡。因此,DDPG算法包含4種神經網絡,即Actor網絡、Actor目標網絡、Critic網絡和Critic目標網絡[13]。Actor目標網絡的神經網絡參數為θμ′,Critic目標網絡的神經網絡參數為θQ′,采用更新幅度較小的軟更新方式,如式(8)和式(9),能夠確保學習的穩定性。

θQ′←ωθQ+(1-ω)θQ′,(8)

θμ′←ωθμ+(1-ω)θμ′,(9)

根據歷史經驗,一般取ω為0.001。

在強化學習中,智能體與環境交互產生的數據,在連續時間上的經驗往往高度相關,容易影響長期學習效果,DDPG算法借鑒了DQN算法中經驗回放的方法,來打破訓練數據的相關性問題。將智能體與環境交互產生的經驗數據樣本存儲到經驗池中,然后抽取批量樣本數據進行訓練,減少了數據之間的相關性,增加了算法的穩定性[14]。

為了克服在連續行為空間學習的過程中, 避免陷入局部最優解的問題,提高智能體的探索性,DDPG算法給動作添加一個噪聲Nt,其表達式如式(10)所示

at=μ(s│θμ)+Nt。(10)

2.3? 基于DDPG的溫育盤溫度優化控制策略

用DDPG算法進行全自動化學發光免疫分析儀的溫育盤加熱控制系統控制策略優化時,要建立MDP模型,根據本文所研究的內容,溫育盤加熱控制系統的MDP模型參數如下。

1)狀態空間。環境狀態描述了在任意時刻智能體在環境中的位置信息,對要執行的動作有很重要的意義,考慮到溫度傳感器的讀數是反映分析儀當前溫度狀態的直接指標,本文設置的狀態空間參數為時間、溫育盤的實時溫度和目標溫度。

2)動作空間。DDPG算法在處理連續動作空間問題時,具有較好的效果,智能體根據環境狀態反饋的信息,執行相應的動作。動作空間的設計之間關聯到溫育盤加熱控制系統的調控能力,本文選取加熱裝置的打開和關閉,以及實時功率的調整為智能體的動作。

3)轉移概率。在本文研究的強化學習問題中,轉移概率P是無法確定的,因此,本文采用采樣的方法對P進行無偏估計。

4)獎勵函數。在基于DDPG算法的溫育盤溫控控制策略的研究中,獎勵函數的設計是實現DDPG算法實現有效學習的關鍵之一,直接關系到智能體的學習方向和速度。在溫度控制系統中,目標溫度與當前溫度的差值,即誤差e(t),其大小是衡量控制性能的一個重要指標,引入誤差作為獎勵函數的一部分,能夠激勵智能體更加注重對大偏差的校正。系統的穩定性也是獎勵函數考慮的重要因素,本文采用溫度誤差變化率作為獎勵函數的另一組成部分,以鼓勵智能體采取平滑的控制策略。由此,本文將獎勵函數定義為

Rt=α1r1(t)+α2r2(t),? ? ? ? ? ? (11)

式中:α1和α2分別是誤差和誤差變化率的權重系數,r1(t)和r2(t)分別為誤差和誤差變化率變化的表達式,如式(12)和式(13)所示

r1(t)=0,|e(t)|≤ε1,其他,(12)

r2(t)=0,|e(t)|≤e(t-1)1,其他 ,(13)

式中:ε為允許的誤差變化范圍。

3? 仿真分析

為了驗證DDPG算法的有效性,本文利用Matlab/Simulink,將傳統PID控制、模糊PID控制及DDPG算法對所建立的模型進行對比仿真。

在傳統PID控制進行仿真時,將溫度誤差進行相應的比例、積分和微分計算,得到PID控制器的輸出量,將其作用在溫育盤加熱控制系統的傳遞函數上,獲得最終的輸出結果。通過經驗,調節比例參數Kp為1.3、調節積分參數Ki為0.01和調節微分參數Kd為0.7,溫育盤加熱控制系統達到目標溫度。

模糊PID控制是將模糊控制理論與傳統PID控制相結合的一種控制策略,仿真時,通過制定模糊規則,以誤差和誤差的變化率為輸入進行模糊推理,利用模糊規則對PID參數進行修正,將修正后的PID參數經過計算后作用于溫育盤加熱控制系統的傳遞函數,最終實現溫育盤加熱控制系統達到目標溫度。

DDPG算法通過經驗回放和智能體不斷地根據獎勵函數進行自主學習,執行相應的動作,實現溫育盤加熱控制系統達到目標溫度。DDPG算法的主要參數設置見表2。

表2? DDPG算法的網絡參數

其中,在網絡參數調節過程中,選擇較大的學習率參數時,容易造成學習速度較快,對系統的穩定性有較大的影響,系統不容易收斂,因此選取0.001作為Actor網絡和Critic網絡的學習率;折扣因子作為對未來獎勵的重視程度,選擇不合適時會對溫度的預測帶來影響,經過調試,本文的折扣因子選為0.5。

圖4給出了將目標溫度設定在37 ℃時,傳統PID控制、模糊PID控制以及DDPG算法作用在溫育盤加熱控制系統上,單位階躍輸入指令控制的響應曲線。在圖4中,傳統PID、模糊PID和DDPG分別表示不同算法控制下的溫育盤加熱控制系統響應曲線。

圖4? 仿真結果

從測試數據來看,3種控制策略均能夠將目標溫度控制在±0.1 ℃的范圍內,考慮到超調量、上升時間和調節時間是分析溫度控制系統性能的重要指標,本文以此分析了這3種控制策略所對應的性能指標,見表3。

表3? 3種控制算法的性能指標

由表3可知,基于DDPG算法的溫育盤加熱控制系統,雖然在上升時間上與模糊PID以及傳統PID控制策略上有差異,但是具有更快的調節時間且幾乎沒有出現超調,相較于傳統PID控制算法,DDPG控制算法在超調量上提升了99.8%,在調節時間上提升了14.9%;相較于模糊PID控制算法,DDPG算法在超調量上提升了99.2%,調節時間上提升了6.3%,具有明顯的優越性。

4? 結束語

針對傳統PID控制算法在全自動化學發光免疫分析儀的溫度控制系統應用過程中,存在調節時間長,超調量大,并且在進行PID參數調節時,需要一定的人工經驗等問題,本文提出了基于深度確定性策略梯度的溫度控制算法,并結合全自動化學發光免疫分析儀上的溫育盤加熱控制系統,建立系統傳遞函數,進行仿真驗證。實驗結果表明,基于深度確定性策略的溫度控制算法,在調節時間和超調量上,有明顯的提升,驗證了其有效性,對于進一步提升儀器的溫控性能,具有較大意義。

參考文獻:

[1] 農天雷,林敏.全自動化學發光免疫分析儀臨床應用質量控制探討[J].中外醫學研究,2011,9(21):187-188.

[2] 姚繼承,叢海燕,劉鵬,等.AutolumiS 3000型化學發光分析儀溫度控制系統的結構和功能分析[J].實用檢驗醫師雜志,2019,11(3):183-185.

[3] 盧雷.某型化學發光免疫分析儀的恒溫控制系統設計及實現[D].西安:西安電子科技大學,2014.

[4] 任浩.全自動化學發光免疫分析儀的恒溫孵育箱設計與實現[D].重慶:重慶大學,2018.

[5] 許玉忠.基于自適應模糊PID控制的電阻爐溫度控制系統[J].華北水利水電學院學報,2011,32(2):83-86.

[6] 李瑾.基于STM32的圍術期病員加溫系統的設計[D].鎮江:江蘇大學,2022.

[7] 郝朝會,孫傳祝,蘇夏侃.自適應模糊PID控制在茶葉殺青機中的應用[J].農機化研究,2013,35(2):201-204.

[8] 王琦,楊毅遠,江季.Easy RL:強化學習教程[M].北京:人民郵電出版社,2022.

[9] 周鑫,陳建平,傅啟明.基于DDPG模型的建筑能耗控制方法[J].計算機應用與軟件,2023,40(2):40-47.

[10] 朱永紅,段明明,楊榮杰.基于深度確定性策略梯度的陶瓷梭式窯溫度智能優化控制[J].陶瓷學報,2023,44(2):337-344.

[11] PAUL L T, JAMES H J, DAVID S, et al. Continuous control with deep reinforcement learning[J].2018.

[12] 萬典典,劉智偉,陳語,等.基于DDPG算法的冰蓄冷空調系統運行策略優化[J].控制工程,2022,29(3):441-446.

[13] LIU Y C, HUANG C Y. DDPG-Based Adaptive Robust Tracking Control for Aerial Manipulators With Decoupling Approach[J].IEEE Transactions on Cybernetics, 2021(99):1-14.

[14] 趙子瑞,陶慶,楊濤,等.基于DDPG的下肢康復機器人軌跡跟蹤控制[J].機床與液壓,2023,51(11):13-19.

主站蜘蛛池模板: 香蕉eeww99国产在线观看| 2021国产精品自拍| 红杏AV在线无码| 中文字幕日韩欧美| 亚洲日韩久久综合中文字幕| 精品一区二区三区波多野结衣| 91原创视频在线| 欧美 国产 人人视频| 国产成人高清亚洲一区久久| 日韩黄色精品| 亚洲欧美天堂网| 欧美激情第一区| 国产精品女人呻吟在线观看| av一区二区三区在线观看 | 久久精品国产免费观看频道| 国产精品久久精品| 91精品福利自产拍在线观看| av在线5g无码天天| 国产av色站网站| 91外围女在线观看| 成人中文在线| 久综合日韩| 日本伊人色综合网| 丁香亚洲综合五月天婷婷| 欧美一区二区三区香蕉视| 天堂成人av| 日韩小视频在线播放| 亚洲一区二区成人| 久久青青草原亚洲av无码| 亚洲综合一区国产精品| 久久永久精品免费视频| 久久精品国产一区二区小说| 国产精品一区二区不卡的视频| 国产综合另类小说色区色噜噜 | 狠狠色丁香婷婷综合| 少妇精品网站| 欧美日韩一区二区在线播放| 亚洲首页国产精品丝袜| 久久精品亚洲专区| 国产午夜一级毛片| 天堂网国产| 99久久成人国产精品免费| 性69交片免费看| 丁香五月激情图片| 毛片三级在线观看| 色有码无码视频| 国产欧美日本在线观看| 免费一级无码在线网站 | 3D动漫精品啪啪一区二区下载| 国产在线小视频| 综合五月天网| 欧美人与牲动交a欧美精品 | 国产一级精品毛片基地| 国产精品久久久精品三级| 亚洲精品无码久久久久苍井空| 亚洲天堂网2014| 一级毛片在线播放| 久久亚洲欧美综合| 久久综合结合久久狠狠狠97色| 亚洲无码视频一区二区三区| 国产精品福利一区二区久久| 国产精品女人呻吟在线观看| 日韩 欧美 小说 综合网 另类| 国产后式a一视频| 亚洲欧美综合另类图片小说区| 91综合色区亚洲熟妇p| 欧美成人精品在线| 婷婷在线网站| 日韩欧美中文字幕在线精品| 国产乱人伦AV在线A| 日本一本正道综合久久dvd | 色悠久久综合| 久夜色精品国产噜噜| 91麻豆精品国产91久久久久| 香蕉综合在线视频91| 欧美精品色视频| 欧美自慰一级看片免费| 亚洲欧美日本国产综合在线| 亚洲综合激情另类专区| 国产精品亚洲片在线va| 久久公开视频| 99激情网|