楊健健,馬小琴,郭 冉
浙江中醫藥大學護理學院,浙江杭州 310053
隨著新一代信息技術的發展及大數據時代的到來,醫療相關領域的數據正在飛速增長。在醫療護理領域,對數據的初步處理(錄入、查詢及統計等)已經通過護理信息系統得到了較好的解決,但對于數據的深入處理即數據挖掘目前還處于萌芽階段[1]。數據挖掘是指應用數據挖掘技術對存在噪音和缺失的海量數據進行有效分析以獲得潛在有用信息的過程[2]。數據挖掘可以解決目前護理領域中未得到有效利用的護理數據問題。雖然當前數據挖掘在護理學研究中的應用有一定進展,但相對于國外發展仍滯后[3]。為此,本文對已發表的有關數據挖掘在護理領域應用的文獻進行文獻計量學分析,為今后護理人員開展護理學相關研究提供參考。
納入標準:漢語類的一次文獻,包括期刊論文、學位論文。排除標準:會議論文、綜述或理論探討類文獻、專利、報紙;重復發表的文獻。檢索中國期刊全文數據庫(CNKI)和萬方數據庫建庫至2019年12月31日發表的有關數據挖掘在護理領域應用的文獻,分別以“數據挖掘/決策樹/遺傳算法/關聯規則/神經網絡/貝葉斯/粗糙集/聚類分析/主成分分析”“護理”為檢索式進行檢索。
納入的文獻均采用Excel 2013進行資料提取,內容包括文獻的題目、發表年份、地域分布、第一作者單位機構類別、期刊分布情況、作者人數、科研基金資助情況、數據挖掘技術種類及其在護理領域應用情況等,進行描述性統計分析。
初步檢索獲得相關文獻共1 187篇。采用Note Express軟件進行查重后剩余933篇文獻,根據納入標準與排除標準再一次篩選,最終納入文獻351篇,其中期刊論文252篇、學位論文99篇。納入文獻年度分布情況見圖1,相關文獻最早出現于1996年,1996-2019年發文量總體呈上升態勢,自2011年開始發文量呈快速上升趨勢,2019年發文量達89篇。
文獻第一作者分布于26個省、自治區、直轄市。發文數量排名前5的省市為北京(36篇)、江蘇(35篇)、上海(29篇)、山東(26篇)、湖北(24篇),共計150篇(42.74%),見圖2。第一作者所在機構以醫學院校和醫院居多,分別為165篇(47.01%)、 128篇(36.47%),非醫學院校46篇(13.11%),其他機構12篇(3.42%)。

圖2 納入文獻地區分布情況
納入的252篇期刊論文分布于103種期刊,刊均載文量2.45篇,其中刊載文量超過2.45篇的期刊有10種,共刊載論文100篇,占期刊論文總量的39.68%;其中3種期刊為中國科學引文數據庫(2017-2018年度)收錄期刊,該3種期刊發表的文獻占總文獻量的8.55%。刊載文量超過2.45篇的期刊分布情況見表1。

表1 刊載文量超過2.45篇的期刊分布情況(n=100)
收錄的351篇文獻中2人及以上合著132篇,作者人數最多達9人,作者總人數811人,合作撰文率37.61%(132/351),文獻合作度2.31 (811/351)。351篇文獻中被引頻次≥1次的文獻有196篇,其中被引1~10次的文獻有154篇(78.57%),被引頻次>10次有42篇(21.43%)。351篇文獻中基金論文105篇(29.91%),其中國家級課題22篇,省級(含自治區)課題46篇,廳局級及市級課題26篇,院校級課題9篇,醫院級課題2篇。
對納入的351篇文獻進行文獻計量學分析后,得到護理領域使用率排名前5的數據挖掘技術為:聚類分析142篇(40.46%),主成分分析131篇(37.32%),決策樹36篇(10.26%),關聯規則20篇(5.70%),遺傳算法17篇(4.84%)。經研究分析顯示,有關聚類分析的文獻中用于揭示護理領域研究熱點的文獻有81篇,用于提升護理管理效率(包括績效及人力資源管理)的文獻32篇,此外根據患者健康相關數據提取聚類信息,用于提高臨床護理質量的文獻29篇;應用主成分分析作為數據挖掘技術的文獻均是在量表制定過程中被用于檢驗量表的結構效度;36篇應用決策樹挖掘事物影響因素的文獻中,有20篇文獻基于影響因素的挖掘用于構建評價護理質量的體系,有16篇用于構建護理不良事件的預測模型;關聯規則多用于分析事物的影響因素(15篇)及臨床護理的規律(5篇),其中15篇事物影響因素挖掘的文獻中分別是用于分析影響患者滿意度因素、延緩疾病恢復因素及促進不良反應發生因素(各5篇);遺傳算法則均用于解決護士排班問題,以優化護理資源配置,提升護理管理效率。
從圖1可見,數據挖掘應用于護理領域的研究發展可分為兩個階段:起始階段(1996-2010年),發文數54篇,占文獻總量的15.38%,與數據挖掘在護理領域的應用尚處于探索階段,存在資源信息共享不完善及專業人才資源短缺等問題有關[4];快速發展階段(2011-2019年),隨著數據挖掘理論的成熟,應用范圍的擴大,數據挖掘應用于護理領域的成果明顯增多,這可能與2011年護理學成為一級學科,為護理事業與護理信息化發展提供了廣闊的空間有關[5]。
文獻第一作者地區分布廣泛,但發文量存在明顯差異,北京、江蘇、上海、山東、湖北5個發文量最多的省市發文占文獻總量的42.74%。王佳寧等[6]發現一個地區科技的進步和經濟的增長是相輔相成的,科學技術推動著該地區經濟的增長,反過來增長的經濟可通過加大科研經費的投入來促進該地區科技的發展。這也就解釋了為什么北京、江蘇及上海等經濟發達省市發表的有關數據挖掘在護理領域中應用的文獻量較多。醫學院校相比于其他機構在護理領域的科研實力相對較強,其研究成果也相對較多。究其原因可能與高校的職能是培養出臨床和科研能力并重的高水平醫學人才有關。因學科交互已成為不可逆轉的國際趨勢[7],非醫學院校的研究成果也占有一定的比例。
納入的351篇文獻中,學術期刊載文252篇,碩士博士論文99篇。該研究中超過平均載文量2.45篇的10種期刊中僅有3種期刊被收錄中國科學引文數據庫(2017-2018年度)[8],且在該 3種期刊中發表的文獻僅占總文獻量的8.55%,可見數據挖掘應用于護理領域的相關文獻在核心期刊上發表較少,表明該領域相關研究的深度和廣度不夠,這可能與護理人員對數據挖掘技術掌握度不夠、未能充分運用該技術對臨床護理數據進行全面挖掘有關。
研究結果顯示,本研究的文獻合作度為2.31,遠未達到中國科技期刊引證報告統計的指標[9]。科研人員間的相互合作可以發揮不同作者間的專長,實現優勢互補,在促進科研項目的發展同時還保證了該領域的研究水平和質量。故為了提升文獻質量,護理人員還應重視團隊成員間或與其他相關學科人員間的合作。論文被引頻次的多少表明了該篇論文的質量及學術水平的高低,已經成為論文評價的重要指標之一[10]。本次研究納入的351篇文獻中,44.2%的文獻無被引記錄,被引頻次>10次的論文僅42篇,占被引文獻的21.43%,從被引頻次角度說明目前數據挖掘在國內護理領域文獻的利用率不高,論文質量及學術影響力也尚處在較低水平,故需加強護理人員關于數據挖掘技術的培訓,以提升該研究領域護理論文的質量及學術影響力。相比于2016年統計的中國科技核心期刊基金論文比的平均值(0.59)[9],該領域的基金論文數量相對較少,這可能是數據挖掘在我國護理領域起步較晚,護理人員對數據挖掘技術的熟悉度和掌握度相對較低,還未達到開展這方面研究的能力,最終導致這方面課題的申報數量相對較少。
3.5.1聚類分析
本研究結果顯示,聚類分析在護理研究中的應用最頻繁(占總文獻數量的40.46%),究其原因可能是聚類分析可用于揭示護理領域的研究熱點,而對熱點的準確把握對于一門學科今后的發展至關重要[11]。戴紅等[12]將聚類分析應用于中醫護理領域,揭示了中醫護理技術在臨床應用的研究熱點,為促進中醫護理技術的發展提供了科學依據和理論參考。對護理人力資源及患者健康相關數據等進行聚類,為優化護理方案提供依據,提升護理質量。李建[13]應用聚類分析對護理人員進行分類,實現護理崗位最優人員配置,提升護理管理質量。黃玉梅[14]對社區護士所需的知識與技能進行聚類,為規劃社區護士崗前培訓內容提供了參考依據。
3.5.2主成分分析
當前醫療護理數據中存在許多“軟數據”,這是一些不可直接測量的指標或抽象的概念,而這些指標或抽象的概念如疼痛評價指標及患者滿意度等若能得到客觀的評價可有助于提高患者的治療效果、節約醫療成本以及提升護理質量[15],故如何正確利用醫療護理“軟數據”是當前護理人員關注焦點之一。而護理評價量表作為一款測量“軟數據”的工具,也被護理研究者所青睞[16]。在量表制定的過程中,主成分分析因良好的量表結構效度檢驗而被廣泛使用[17]。涂姝婷等[18]應用主成分分析檢測量表的結構效度,經檢測的量表在測量社區護理人員工作環境方面有較好的信效度。這也解釋了本研究結果中主成分分析在護理學研究中較為常用的原因。
3.5.3其他數據挖掘技術
本研究顯示,除聚類分析及主成分分析以外,其他數據挖掘技術在護理學研究中的應用率不到25%,這表明目前對于醫療護理數據的挖掘存在數據挖掘方法單一以及較為特殊和復雜的數據挖掘技術使用率低等問題,這可能與護理人員的整體信息處理能力及數據挖掘知識存在不足有關[19]。這些較為特殊和復雜的數據挖掘技術,如決策樹、關聯規則等可發現更多的護理新規律,不但可優化護理資源配置及護理質量管理等,還可提升護理人員護理患者的水平[20]。故今后應增加護理人員信息處理技術的培訓,加大護理信息專科人才的培養,以促進數據挖掘技術在護理領域中的有效應用。