華中科技大學同濟醫學院公共衛生學院流行病與衛生統計學系(430030) 萬政策 徐小兵 熊光練
?
信息熵在系統結構外部影響測量中的應用
華中科技大學同濟醫學院公共衛生學院流行病與衛生統計學系(430030) 萬政策 徐小兵 熊光練△
【提 要】 目的 探討系統結構外部影響因素的測量方法。方法 以信息熵的原理和方法為基礎,進行統計變換,然后結合多重線性回歸分析方法,對系統結構的外部影響因素進行測量。結果 在實例分析中,武漢市某醫院2013年和2014年治療效果結構的構成比例非常接近,結構均衡指數分別為0.5339和0.5358。多重線性回歸分析結果提示,危重病人搶救人次數、手術人次數、手術病人術后平均住院日、醫院轉診率等四個因素是該醫院治療效果結構的影響因素。結論
信息熵能夠較好地運用于多種結構數據中,幫助我們探索結構的外部影響因素。
【關鍵詞】信息熵 結構 影響因素
信息熵作為現代生物醫學研究的一種新思路和新方法[1],目前已廣泛應用在遺傳學、影像學、腫瘤和分子結構研究等領域,在疾病診斷和病理機制探索方面正逐漸展現出獨特的優勢。信息熵是一種測量系統結構信息量的方法,系統結構的穩定性會受到許多外部因素的影響,本文基于信息熵的理論和方法,結合多重線性回歸,實現了對系統結構外部影響的測量,為結構數據的分析提供了一種新的思路和方法。
系統結構可以由多個類別構成。結構的表觀特征一般用構成比來描述,結構的內在核心特征是結構所包含的信息量。結構的信息量度量用信息熵表示,信息熵可以反映系統結構無序或混亂的程度,系統越混亂,熵值越大;系統越有序,熵值越小[2]。信息熵最早由Shannon于1948年提出:

pi原指信源發出各種符號的頻率或者概率[3],在本文中為系統各類別的構成比。系統共有n個類別,當各類別構成比相同時,信息熵值最大,最大值為log2n[4]。
結構均衡指數(BI)是信息熵與最大熵的比值,能夠反應結構的均衡狀態,取值范圍為[0,1]。BI =0時,結構處于最不均衡狀態,即此時結構有序性最高;BI =1時,結構處于最均衡狀態,即此時結構有序性最低。BI的計算公式如下:

大數據模擬實驗表明,對BI進行logit變換,變換后的值y服從正態分布。此時即可以y為因變量,外部因素為自變量,采用多重線性回歸的方法測量外部因素對結構的影響。
為進一步說明信息熵在系統結構外部影響測量中的應用,本文使用武漢市某醫院2013年和2014年的數據,對該醫院116個科室的治療效果結構(治愈人數、好轉人數、未愈人數、死亡人數)進行分析,計算并比較該醫院兩年的結構均衡指數,并測量危重病人搶救人次數、手術人次數、出院者平均住院日、手術病人術后平均住院日、親屬陪伴率、三日確診率、醫院轉診率等七個因素對治療效果結構的影響程度。
分析步驟如下:
1.根據各個科室的治療效果結構,計算各個科室的結構均衡指數。2013年結構均衡指數分布:中位數為0.3661,四分位間距為0.3579。2014年結構均衡指數分布:中位數為0.3567,四分位間距為0.3788。對兩組結構均衡指數分布進行秩和檢驗,χ2=0.40,P =0.5285>0.05,說明尚不能認為兩組分布不同。
2.分別計算2013年和2014年該醫院治療效果結構中各類別的構成比例,以及相應的信息熵和結構均衡指數。可以發現,2013年和2014年治療效果結構的構成比例、信息熵以及結構均衡指數都非常接近,結構均衡指數分別為0.5339和0.5358。結果見表1。

表1 2013年和2014年該醫院治療效果結構情況
3.對結構均衡指數進行logit變換,以logit變換后的值為因變量,以待研究的七個因素為自變量,采用逐步回歸的方法,入選標準為0.10,剔除標準為0.15,進行多重線性回歸分析。2013年和2014年分析結果顯示,危重病人搶救人次數、手術人次數、手術病人術后平均住院日、醫院轉診率等四個因素是該醫院治療效果結構的影響因素。結果見表2和表3。

表2 2013年治療效果結構影響因素分析結果

表3 2014年治療效果結構影響因素分析結果
結構均衡指數能夠較好地反映結構的變動情況,從實例分析的結果中可以看出,該醫院2013年和2014年的結構均衡指數分別為0.5339和0.5358,說明該醫院的治療效果結構在2013年和2014年處于比較穩定的狀態。通常情況下,治療效果結構在絕大多數科室中表現為治愈率和好轉率較高,未愈率較低,死亡率最低。如果存在某外部因素能使得結構的均衡指數變大,治療效果結構會朝著無序狀態發展,結構各部分比例趨于一致,也就是治愈率、好轉率下降,或者未愈率、死亡率上升,那么該外部因素就是治療效果結構的危險因素;反之,該外部因素就是治療效果結構的保護因素。2013年和2014年的多重線性回歸結果均提示,危重病人搶救人次數、手術人次數、手術病人術后平均住院日是治療效果結構的危險因素。原因可能是這三個因素均能在一定程度上反應病情的惡化程度,手術病人術后住院日在有關研究中已經被作為手術治療效果的衡量因素[5]。2014年多因素結果提示,醫院轉診率是治療效果結構的危險因素。轉診病人的病情一般比較復雜和嚴重[6],轉診過程也會影響某些急性病的救治[7],轉診率高可能就會引起治療效果結構朝著不合理方向改變。運用文中所探討的方法,可以得到治療效果結構的影響因素,從而為評價和管理醫院的治療效果結構提供有力的支持。
本文介紹的方法能夠廣泛地應用在醫學相關領域中,除了文中進行闡述的治療效果結構外,研究中還會遇到許多其他的結構數據。例如目前醫療費用由政府財政投入、社會投入、個人投入三部分組成,構成一個結構數據;該醫療費用結構受到國民收入總值(GDP)、居民可支配性收入、物價指數等因素的影響,可用該分析方法探究各個影響因素對醫療費用結構的影響大小。同樣可用該方法分析平均醫療費用、平均住院日等因素對醫?;鹬С鼋Y構的影響。醫學相關領域中大量存在的待研究的結構數據,使得該方法具有較好的實踐性和現實意義。在實際應用中,文中所探討的方法也會暴露一些不足之處,比如對于小樣本數據,結構均衡指數進行logit變換后,并不一定服從正態分布,如果繼續運用多重線性回歸分析方法就會出現問題。尤其是結構均衡指數等于或者接近1或0時,logit變換后的值趨近正、負無窮大,對分析的結果會產生較大的影響,這時就需要對強影響點進行相應的處理[8],以提高回歸方程的質量。
參考文獻
[1]張岱,金寶榮.信息熵在現代生物醫學中的應用.數理醫藥學雜志,2001,(1):74-75.
[2]張登兵,劉思峰.熵與系統有序性研究綜述.數學的實踐與認識,2008,(24):200-206.
[3]Shannon C.A Mathematical Theory of Commumication.Bell System Technical Journal,1948,27(3):3-55.
[4]田振清,周越.信息熵基本性質的研究.內蒙古師范大學學報(自然科學漢文版),2002,(4):347-350.
[5]Cohan JN,Bacchetti P,Varma MG,et al.Outcomes after ileoanal pouch surgery in frail and older adults.J Surg Res,2015,198(2):327-333.
[6]陳敏.危重患者在基層轉診中存在風險因素及護理干預措施.蚌埠醫學院學報,2014,39(7):985-987.
[7]田靜,李穎.急性缺血性腦卒中患者院前延誤因素的調查與研究.中國衛生統計,2014,(4):622-624.
[8]曲桂玉,陳景武,杜國防.多元回歸分析肺吸蟲囊蚴脫囊影響因素中有關異常點的探討.數理醫藥學雜志,2007,20(2):188-190.
(責任編輯:鄧 妍)
通信作者:△熊光練,E-mail:weixiong@ mails.tjmu.edu.cn