關(guān)鍵詞:LIMS,標(biāo)準(zhǔn)管理,互聯(lián)網(wǎng)爬蟲,DBN,自動(dòng)采集與更新,智能匹配
DOI編碼:10.3969/j.issn.1002-5944.2024.12.024
保障人民群眾的食品藥品安全一直是食品藥品監(jiān)管的重點(diǎn)工作。近年來,各地政府積極支持基層食品藥品承檢機(jī)構(gòu)的檢測能力建設(shè)與發(fā)展。由于機(jī)構(gòu)改革的進(jìn)行,各地組建了新的綜合性的實(shí)驗(yàn)室,在實(shí)際運(yùn)行過程中,基層的檢驗(yàn)檢測機(jī)構(gòu)在標(biāo)準(zhǔn)管理方面往往面臨標(biāo)準(zhǔn)數(shù)據(jù)更新不及時(shí)、人工操作繁瑣等問題[1]。為了加強(qiáng)實(shí)驗(yàn)室規(guī)范化管理,確保實(shí)驗(yàn)結(jié)果準(zhǔn)確可靠,基層檢驗(yàn)機(jī)構(gòu)不斷深入發(fā)展實(shí)驗(yàn)室信息管理系統(tǒng)(LIMS)的建設(shè),促進(jìn)了食藥檢行業(yè)中檢驗(yàn)標(biāo)準(zhǔn)的信息化管理[2]。
結(jié)合工作的需要,我們通過引入互聯(lián)網(wǎng)爬蟲和DBN技術(shù),并在LIMS標(biāo)準(zhǔn)管理系統(tǒng)中進(jìn)行研究與實(shí)踐,旨在通過該項(xiàng)技術(shù)創(chuàng)新提升標(biāo)準(zhǔn)管理的效率和智能化程度,研究通過以下兩方面進(jìn)行。
1 利用精細(xì)化互聯(lián)網(wǎng)爬蟲實(shí)現(xiàn)標(biāo)準(zhǔn)自動(dòng)采集與實(shí)時(shí)更新
1.1 精細(xì)化爬蟲設(shè)計(jì)
為了更高效地抓取和更新標(biāo)準(zhǔn)數(shù)據(jù),我們?cè)O(shè)計(jì)了一種精細(xì)化的互聯(lián)網(wǎng)爬蟲。該爬蟲不僅具備基本的網(wǎng)頁抓取功能,還能通過模擬登錄、處理驗(yàn)證碼等高級(jí)技術(shù)應(yīng)對(duì)數(shù)據(jù)源網(wǎng)站的反爬蟲機(jī)制。同時(shí),我們利用多線程和異步處理技術(shù),大幅提高了數(shù)據(jù)抓取的速度和效率。
1.2 數(shù)據(jù)解析與清洗
爬蟲抓取的數(shù)據(jù)往往包含大量的HTML標(biāo)簽和無關(guān)信息,因此需要進(jìn)行精細(xì)化的數(shù)據(jù)解析和清洗。我們采用正則表達(dá)式、XPath和CSS選擇器等多種技術(shù),準(zhǔn)確提取出所需的標(biāo)準(zhǔn)信息,并通過數(shù)據(jù)清洗算法去除重復(fù)、無效和錯(cuò)誤數(shù)據(jù),確保最終存儲(chǔ)到數(shù)據(jù)庫中的數(shù)據(jù)是準(zhǔn)確、完整和有效的。
1.3 實(shí)時(shí)更新機(jī)制
為了實(shí)現(xiàn)標(biāo)準(zhǔn)的實(shí)時(shí)更新,我們?cè)O(shè)計(jì)了一種基于時(shí)間戳和增量抓取的更新機(jī)制。爬蟲程序會(huì)定期檢查數(shù)據(jù)源網(wǎng)站上標(biāo)準(zhǔn)數(shù)據(jù)的更新時(shí)間戳,并與本地?cái)?shù)據(jù)庫中存儲(chǔ)的時(shí)間戳進(jìn)行對(duì)比。一旦發(fā)現(xiàn)新的更新,爬蟲會(huì)立即啟動(dòng)增量抓取程序,只抓取新增或修改的數(shù)據(jù)部分,從而大大減少了數(shù)據(jù)抓取和更新的時(shí)間和資源消耗。
2 利用DBN構(gòu)建智能匹配模型實(shí)現(xiàn)標(biāo)準(zhǔn)智能推薦
在構(gòu)建LIMS軟件中的標(biāo)準(zhǔn)應(yīng)用智能推薦系統(tǒng)時(shí),我們將檢品名稱、檢品小類和檢驗(yàn)類型作為最重要的要素,這些要素能夠直接關(guān)聯(lián)到實(shí)驗(yàn)室工作中所使用的標(biāo)準(zhǔn),因此它們對(duì)于生成準(zhǔn)確的推薦至關(guān)重要。同時(shí),最近使用的標(biāo)準(zhǔn)通常具有較高的推薦價(jià)值。以下是如何結(jié)合這些要素以及最近使用的標(biāo)準(zhǔn)來構(gòu)建智能推薦系統(tǒng)的簡要說明:
2.1 數(shù)據(jù)整合
首先,確保LIMS系統(tǒng)中包含了檢品名稱、檢品小類、檢驗(yàn)類型以及與之相關(guān)聯(lián)的標(biāo)準(zhǔn)使用記錄。對(duì)于每個(gè)檢品,系統(tǒng)應(yīng)該能夠追蹤其歷史檢驗(yàn)記錄,包括所使用的標(biāo)準(zhǔn)。
2.2 特征工程
將檢品名稱、檢品小類和檢驗(yàn)類型轉(zhuǎn)換為適合機(jī)器學(xué)習(xí)模型處理的特征。例如,可以使用獨(dú)熱編碼(One-Hot Encoding)處理類別數(shù)據(jù),或者使用詞嵌入技術(shù)處理文本數(shù)據(jù)。
對(duì)于最近使用的標(biāo)準(zhǔn),可以引入時(shí)間衰減因子,以便在推薦時(shí)給予更近時(shí)間段內(nèi)的使用記錄更高的權(quán)重。
2.3 模型構(gòu)建
選擇適合的機(jī)器學(xué)習(xí)模型來捕捉特征與標(biāo)準(zhǔn)使用之間的關(guān)系。考慮到推薦的實(shí)時(shí)性和準(zhǔn)確性要求,可以采用如矩陣分解、深度學(xué)習(xí)模型(如循環(huán)神經(jīng)網(wǎng)絡(luò)RNN處理序列數(shù)據(jù))等先進(jìn)算法。
在模型訓(xùn)練過程中,優(yōu)化目標(biāo)應(yīng)該是最大化準(zhǔn)確地推薦與給定檢品名稱、檢品小類和檢驗(yàn)類型相匹配的標(biāo)準(zhǔn)。
2.4 推薦邏輯
當(dāng)用戶輸入檢品名稱、檢品小類和檢驗(yàn)類型時(shí),系統(tǒng)首先檢索與之最相關(guān)的歷史檢驗(yàn)記錄。
接下來,根據(jù)最近使用的標(biāo)準(zhǔn)和其他相關(guān)因素(如標(biāo)準(zhǔn)的熱門程度、用戶的個(gè)性化偏好等),為當(dāng)前檢品生成一個(gè)推薦標(biāo)準(zhǔn)列表。
最后,將推薦列表呈現(xiàn)給用戶,供其選擇和使用。
2.5 反饋循環(huán)與模型更新
用戶對(duì)推薦結(jié)果的反饋(如采用、忽略或提供新的建議)應(yīng)被收集并用于模型的持續(xù)改進(jìn)。
定期組織數(shù)據(jù)更新和模型重訓(xùn)練,以確保推薦系統(tǒng)能夠跟上實(shí)驗(yàn)室標(biāo)準(zhǔn)的變化和用戶需求的發(fā)展。
通過這種方式,LIMS軟件中的標(biāo)準(zhǔn)應(yīng)用智能推薦系統(tǒng)能夠不斷適應(yīng)實(shí)驗(yàn)室工作的動(dòng)態(tài)變化,為用戶提供更加高效和準(zhǔn)確的支持。
3 應(yīng)用效果與展望
通過實(shí)際應(yīng)用驗(yàn)證,我們發(fā)現(xiàn)這兩項(xiàng)創(chuàng)新點(diǎn)在LIMS標(biāo)準(zhǔn)管理中取得了顯著的效果提升。精細(xì)化的互聯(lián)網(wǎng)爬蟲技術(shù)大大提高了標(biāo)準(zhǔn)數(shù)據(jù)的采集效率和更新及時(shí)性,而DBN智能匹配模型則為用戶提供了精準(zhǔn)、個(gè)性化的標(biāo)準(zhǔn)推薦服務(wù)[3]。同時(shí)新的標(biāo)準(zhǔn)管理模式可以實(shí)現(xiàn)對(duì)藥品、食品等行業(yè)的標(biāo)準(zhǔn)方法目錄查詢和電子文檔無紙化管理,標(biāo)準(zhǔn)分類整理、受控、發(fā)放、查新、修訂、變更、作廢回收等環(huán)節(jié)[4-6],建立標(biāo)準(zhǔn)數(shù)據(jù)庫并結(jié)合信息化的科學(xué)管理模式[7-9]。展望未來,我們將繼續(xù)探索更多先進(jìn)的技術(shù)和方法在LIMS標(biāo)準(zhǔn)管理中的應(yīng)用潛力,如利用自然語言處理技術(shù)對(duì)標(biāo)準(zhǔn)文本進(jìn)行更深入的分析和理解,以及結(jié)合用戶反饋數(shù)據(jù)對(duì)智能匹配模型進(jìn)行持續(xù)優(yōu)化和迭代,為信息管理提供電子終端服務(wù)等[10 -11]。相信隨著技術(shù)的不斷進(jìn)步和創(chuàng)新應(yīng)用的深入拓展,LIMS系統(tǒng)中的標(biāo)準(zhǔn)管理將迎來更加智能化、高效化的新時(shí)代。
作者簡介
劉薇,本科,主管藥師,研究方向?yàn)槭称匪幤窐?biāo)準(zhǔn)管理與實(shí)驗(yàn)室質(zhì)量管理。
王琪,通信作者,本科,主管藥師,研究方向?yàn)閷?shí)驗(yàn)室質(zhì)量管理與食品藥品檢驗(yàn)檢測。
涂堅(jiān),本科,高級(jí)工程師,研究方向?yàn)閷?shí)驗(yàn)室軟件系統(tǒng)開發(fā)與設(shè)計(jì)。
(責(zé)任編輯:張瑞洋)