


[摘要]"目的"通過對比分析優化前后的體格數據質量,在隊列現場的實際操作中評估并進一步優化質量控制措施。方法"采用四川大學華西醫院自然人群隊列研究在2020年收集的17"420條體格數據和2021年收集的12"762條體格數據。從規范性、完整性、邏輯性、準確性及一致性等多個維度,對2020年(優化前)與2021年(優化后)的數據進行評估與對比。結果"相較于2020年,2021年的數據質量呈現出顯著提升。異常數據的比例由1978條(11.35%)大幅下降至276條(2.16%),差異有統計學意義(Plt;0.05)。具體而言,血壓異常數據從143條(0.82%)減少至67條(0.52%),腰圍異常數據則從1777條(10.20%)顯著降低至113條(0.89%)。在數據的完整性和邏輯性評估方面,2021年的表現總體優于2020年(Plt;0.05)。結論"優化調整體格數據的采集流程并實現一體化信息系統管理對提升數據質量至關重要。
[關鍵詞]"隊列研究;數據質量;體格檢查
[中圖分類號]"R331""""""[文獻標識碼]"A""""[DOI]"10.3969/j.issn.1673-9701.2025.01.015
Practice"and"reflection"on"quality"control"of"physical"data"in"population"cohort"studies
CHEN"Shujuan1,"HU"Dan1,"WANG"Mingda1,"ZHAO"Xia1,"SHE"Shaorong1,"CHEN"Lei2,3
1.Institute"of"Respiratory"and"Comorbidity,"West"China"Hospital"of"Sichuan"University,"Chengdu"610041,"Sichuan,"China;"2.Department"of"Neurology,"West"China"Hospital"of"Sichuan"University,"Chengdu"610041,"Sichuan,"China;"3.Plateau"Health"Joint"Institute,"West"China"Hospital"of"Sichuan"University,"Chengdu"610041,"Sichuan,"China
[Abstract]"Objective"To"evaluate"and"further"optimize"the"quality"control"measures"in"the"field"of"queue"by"comparing"and"analyzing"the"quality"of"physical"data"before"and"after"optimization."Methods"17"420"physical"data"collected"in"2020"and"12"762"physical"data"collected"in"2021"were"used"in"the"natural"population"cohort"study"of"West"China"Hospital"of"Sichuan"University."The"data"in"2020"(before"optimization)"and"2021"(after"optimization)"were"evaluated"and"compared"from"multiple"dimensions"such"as"normalization,"completeness,"logic,"accuracy"and"consistency."Results"Compared"to"2020,"data"quality"in"2021"showed"a"significant"improvement."The"proportion"of"abnormal"data"decreased"significantly"from"1978"(11.35%)"to"276"(2.16%),"and"the"difference"was"statistically"significant"(Plt;0.05)."Specifically,"the"number"of"abnormal"blood"pressure"data"decreased"from"143"(0.82%)"to"67"(0.52%),"and"waist"circumference"data"decreased"significantly"from"1777"(10.20%)"to"113"(0.89%)."In"terms"of"data"integrity"and"logical"evaluation,"the"performance"in"2021"was"also"generally"better"than"that"in"2020,"and"the"difference"was"also"statistically"significant"(Plt;0.05)."Conclusion"It"is"very"important"to"optimize"and"adjust"the"collection"process"of"physical"data"and"realize"integrated"information"system"management"for"improving"data"quality.
[Key"words]"Cohort"study;"Data"quality;"Physical"examination
中國大型人群隊列研究起步雖晚,但發展迅速[1-2]。在大數據和精準醫學的推動下,研究規模和深度顯著提升,現已涵蓋自然人群、專病、母嬰、職業等多個領域,截至2019年3月已有470項研究發表,其中前瞻性研究占主導[2-3]。諸如中國慢性病前瞻性研究等大型項目已取得顯著科研成果[4]。同時,中國正積極構建百萬級自然人群健康隊列及專病、罕見病隊列。這些研究不僅為疾病預防、診斷和治療提供重要數據支持,還促進公共衛生領域的發展[2]。然而,隊列研究在數據管理、質量控制和長期隨訪等方面仍面臨挑戰[5]。大型隊列研究憑借其數據內容的豐富性和來源的多樣性,在涉及海量人群的大樣本研究中占據重要地位。而數據質量作為衡量隊列建設成效的核心標準,顯得尤為重要[6]。體格檢查涵蓋身高、體質量、腰臀圍、血壓等關鍵指標,這些數據的精確性不僅直接關系到個體醫學問題的判斷,還對其他醫學檢查的準確性產生深遠影響。因此,體格檢查數據的準確率對整個隊列研究的質量具有決定性意義。本研究是由醫院主導、依托醫聯體單位建立的健康檢查和科研于一體的惠民服務。由于項目初期缺乏成熟的預約管理機制,導致參與體檢的人數波動較大,不同時段人員分布不均,尤其在高峰時段出現人員擁擠和秩序混亂等問題[7];項目持續時間較長,工作人員流動性較大,也給項目的考核和推進帶來挑戰;在實際操作過程中,因對細節理解不足及中后期因重復性工作導致的耐心喪失,都可能引發操作失誤。本研究擬通過分析近2年收集的體格數據,從橫向和縱向兩個維度控制數據的一致性、完整性、邏輯性和規范性。
1""資料與方法
1.1""研究數據來源
本研究數據源自于四川大學華西醫院自然人群隊列研究,具體包含2020年采集的17"420條數據與2021年采集的12"762條數據。該項目覆蓋四川省內超過200個社區,收集20歲及以上年齡段、具有當地戶籍或非本地戶籍當地居住時間達6個月以上、近2年沒有搬家或離開計劃人群的相關信息。本研究經四川大學華西醫院生物倫理審查委員會批準[倫理審批號:2020年審(145)號]。
1.2""檢測方法及參照標準
血壓與脈搏的測量采用電子血壓計,并嚴格遵循世界衛生組織于2020年發布的《帶袖套的自動無創血壓測量裝置操作技術規范》[8]進行。身高與體質量的測量使用身高體重儀,而腰圍與臀圍的測量采用軟尺,并按照《中國慢性病及其危險因素監測報告2010》[9]中的操作規范執行。握力的測量使用電子握力計,并參考《捏力測量方法及影響因素研究進展》[10]中的操作規范進行。
1.3""數據評估標準
建立自然人群隊列體格數據質量控制體系,參考《大型人群隊列研究數據處理技術規范(T/CPMA"001-2018)》[11],結合項目中體格數據特征分析數據異常情況,并從規范性、完整性、邏輯性、準確性及一致性評估數據質量,對評估結果采用描述性統計分析。①規范性指錄入數據是否符合本自然人群隊列方案制定的數據規范和要求,比如錄入血壓“13897”“139//97”,或數據中摻入符號,均視為不規范。②完整性指數據是否存在空項、漏項,不包括特殊原因導致的空項,如因手臂創傷或術后無法測量血壓的情況。③邏輯性指在一次測量中,測量前后的值或相關值不符合現實邏輯規則或數據內部邏輯沖突。如臍腰圍與最小腰圍的差值關系,正常情況下臍腰圍應大于最小腰圍,如果臍腰圍小于最小腰圍則視為邏輯異常。④準確性指數值超過界限值(經核實符合實際的特殊情況除外),如體質量gt;150kg或lt;35kg(體質量指數正常除外),脈搏lt;40次/min或gt;200次/min等。⑤一致性指對比同一人群2年的數據,數據是否具有可重復性。通過對比前后2年的數據評估結果,進一步優化現場流程及質控方案。
1.4""數據采集的優化措施
考慮到2020年的數據異常情況,2021年采取以下優化措施以降低數據異常率,提高數據質量。具體包括:①強化現場流程質控:在數據采集過程中加入現場質控環節,即時核查并糾正錯誤的操作方法,確保數據的準確性和可靠性。②實施即時數據質控:對采集到的數據進行即時質控,及時發現并處理數據中的問題,提高數據質量。③異常數據返修機制:針對發現的異常數據,建立返修機制,確保數據的準確性和完整性,為后續分析提供可靠基礎。④定期總結與優化流程:定期對數據采集流程進行總結和評估,根據反饋不斷優化流程,提升數據采集效率和質量。
1.5""統計學方法
采用描述性統計分析的方法對數據質量進行評估。涵蓋計算數據的缺失率、異常率、不準確率等關鍵指標,比較采用χ2檢驗。數據質控采用WPS"Office"6.11.0軟件,數據分析采用R語言(R"version"4.4.1)。雙側Plt;0.05時認為結果具有統計學意義。
2""結果
2.1""兩年的異常數據總體情況
2020年和2021年分別有1978人、276人存在異常數據,異常數量明顯下降(Plt;0.05)。與2020年相比,2021年的身高、體質量、血壓及腰圍異常數據顯著減少(Plt;0.05),但脈搏異常數據有所增加(Plt;0.05),臀圍數據差別不大(Pgt;0.05),見表1。
2.2""規范性評估
2020年和2021年分別有50人、27人存在不規范數據,兩年不規范情況無顯著差異(Pgt;0.05)。兩年的血壓、脈搏、臍腰圍、最小腰圍及臀圍不規范情況比較差異均無統計學意義(Pgt;0.05),見表2。
2.3""完整性評估
2020年和2021年分別有31人、9人數據缺失,2021年的總體缺失情況顯著減少(Plt;0.05)。2021年的血壓數據的異常情況有改善,但脈搏數據的異常情況有增加(Plt;0.05),見表3。
2.4""邏輯性評估
2020年和2021年,存在邏輯性異常的數據分別為1764條(10.13%)和104條(0.81%),比較差異有統計學意義(Plt;0.001)。
2.5""準確性評估
2020年和2021年分別有154人、138人存在不準確數據,兩年總體的不準確情況無顯著差異(Pgt;0.05)。2021年的身高、體質量不準確數據顯著減少,但脈搏的不準確數據有所增加(Plt;0.05),見表4。
2.6""一致性評估
一致性評估主要對比兩年的身高和體質量數據。在身高方面,兩年均有數據的共6475人,剔除異常數據后,有效人數為6469人。其中,兩年身高差值大于5cm的受試者165人,異常率為2.55%。在體質量方面,剔除異常值后,有效人數為5538人。其中,兩年體質量差值大于10kg的受試者51人,異常率為0.92%。
3""討論
3.1""評估結果及原因
從數據異常的具體層面分析,2020年的主要問題聚焦于血壓與腰圍數據兩大模塊,特別是臍腰圍與最小腰圍的數值間存在較多邏輯性問題。2021年腰圍數據的問題取得顯著改善,同時身高、體質量及血壓數據也有所改善,但脈搏與臀圍數據仍面臨挑戰。
從數據異常的分類情況來看,在規范性評估中,主要問題源于血壓數據格式的不規范,雖然存在一定的不規范現象,但整體比例較低。完整性評估結果顯示,整體數據完整度良好,不過2021年的血壓數據完整性比例相較于2020年有所下降,脈搏數據的不完整性則有所增加。邏輯性審查方面,2020年的數據邏輯性異常率較高,2021這方面有顯著進步。在數據準確性層面,兩年的不準確數據情況無明顯差異;具體而言,與2020年相比,2021年的身高、體質量數據的不準確率有所下降,但脈搏數據的不準確率卻有所上升,同時2021年新增握力檢查且其中包含較多不準確數據。一致性方面,身高的一致性差距較大,還需要進一步提升。
針對上述數據異常情況,推測其可能與數據采集過程中的操作規范執行不力及責任管理體制不完善有關。從主觀原因分析,現場工作人員多為兼職流動人員,對操作規范的理解不夠深入,同時缺乏有效的責任管理機制[12]。從客觀角度看,采集的信息系統缺乏即時的反饋機制。大型人群隊列的人群構成復雜,人工反饋存在延遲,且多為遠程分享,難以直觀感知錯誤,缺乏直接且迅速的系統反饋機制以及受試者反饋層面。
3.2""方案及措施
鑒于當前數據管理中存在的問題,建議從以下幾個方面進行優化:①完善一體化信息采集系統:構建一個集成的數據采集、審核、反饋、存儲和輸出系統,實現智能輔助隨訪功能[13]。該系統應包括數據采集端、審核處理端、存儲分析端和數據輸出端。數據采集端應面向工作人員和受試者,涵蓋基線、常規隨訪、專科隨訪等分級功能。數據輸出端應提供數據申請和受試者體檢報告查看功能。同時,優化智能審核規則,確保及時有效反饋。②加強現場工作人員的管理與考核:在項目啟動前,對工作人員進行線下培訓,確保他們全面掌握數據采集和審核的相關知識,并在培訓后進行實操考核,只有完全掌握的員工才能上崗[14]。建立明確的考核機制,通過獎懲制度激勵工作人員,確保數據采集和錄入的準確性。實施簽名制度,將異常率與績效掛鉤,并對表現優秀者給予獎勵。③留存原始文檔:對每位受試者的體格資料,無論是紙質還是電子形式,都應妥善保存,以便在發現異常數據時能夠迅速復核和核實錯誤環節。④增加受試者反饋渠道:為熟練使用智能手機的受試者開通線上實時反饋渠道,使他們能夠及時上傳測量數據,并在發現記錄指標與實際值不符時立即糾正。⑤優化檢查環境和流程:保持室內環境舒適,如維持適宜的溫度和濕度,以減少天氣變化對受試者身體和儀器測量的影響。實施分時就診,避免擁擠和排隊,減少干擾。同時,開通線上和線下預約渠道,合理規劃每天的受試者數量,確保檢查流程的科學性和高效性。⑥細化異常數值處理制度:對審核中發現的異常數據或離群值,首先核對原始數據,然后通過電話聯系受試者進行核實。核實后的數據應有記錄地進行修改。對無法核實的數據,應記錄情況,并在下一次數據收集時再次驗證。
通過這些措施,可有效解決現場工作人員流動性大、操作規范理解不足及信息系統缺乏及時反饋機制等問題,從而提升數據的準確性和完整性。
利益沖突:所有作者均聲明不存在利益沖突。
[參考文獻]
[1] 楊景麗,"黃文雅,"黃佩瑤,"等."中國隊列研究建立和發展現狀[J]."中國公共衛生,"2019,"35(10):"1393–1399.
[2] 王慧,"陳培戰,"張作文,"等."我國人群隊列研究的現狀、機遇與挑戰[J]."中華預防醫學雜志,"2014(11):"1016–1021.
[3] 陳興棟,"蔣艷峰,"徐萍,"等."大型人群隊列遺傳資源建設與利用[J]."遺傳,"2021,"43(10):"980–987.
[4] 郭彧,"余燦清,"呂筠,"等."大型自然人群隊列示范研究進展與成果[J]."中華流行病學雜志,"2023,"44(1):"1–6.
[5] 劉曉宇."大數據時代大型人群隊列研究新趨勢探討[J]."科技視界,"2022(33):"18–20.
[6] 杜江波,"陸群,"靳光付,"等."人群隊列研究的數據管理與質量控制策略[J]."中華預防醫學雜志,"2018,"52(10):"1078–1081.
[7] 熊志剛,"周旖旎."分時段體檢預約管理系統研究與設計[J]."中國數字醫學,"2020,"15(12):"27–29,"97.
[8] World"Health"Organization."WHO"technical"specifications"for"automated"noninvasive"blood"pressure"measuring"devices"with"cuff[EB/OL]."(2020-04-20)"[2024-12-03]."https://www.who.int/publications/i/item/9789240002654.
[9] 中國疾病預防控制中心慢性非傳染性疾病預防控制中心."中國慢性病及其危險因素監測報告2010[M].nbsp;北京:"軍事醫學科學出版社,"2012.
[10] 孫嘉琪,"徐紅旗."捏力測量方法及影響因素研究進展[J]."體育科研,"2018,"39(4):"70–76.
[11] 中華預防醫學會."大型人群隊列研究數據處理技術規范(T/CPMA001-2018)[J]."中華流行病學雜志,"2019,"40(1):"7–11.
[12] 武笑楚,"張天瑤,"鄧一平,"等."前瞻性自然人群隊列研究中現場流行病學調查組織與落地模式研究進展[J]."現代臨床醫學,"2022,"48(3):"219–221,"225.
[13] BIAN"Y,"XIANG"Y,"TONG"B,"et"al."Artificial"intelligence-"assisted"system"in"postoperative"follow-up"of"orthopedic"patients:"Exploratory"quantitative"and"qualitative"study[J]."J"Med"Internet"Res,"2020,"22(5):"e16896.
[14] 中華預防醫學會."大型人群隊列現場調查管理技術規范(T/CPMA001-2019)[J]."中華流行病學雜志,"2019,"40(7):"739–747.
(收稿日期:2024–08–30)
(修回日期:2024–12–09)