李 艷,郝 飛,馬 苗
(陜西師范大學 計算機科學學院,陜西 西安 710119)
2019年爆發新冠肺炎(COVID-19)后[1-2],國內外對新冠肺炎反應迅速,一系列針對新冠肺炎的研究隨之展開,但相關研究大多側重于新型冠狀病毒肺炎的傳播模型、病因病理和治療護理的某一個方面,對于新冠肺炎流行病學特征的研究較少,未充分利用疫情數據挖掘出更多的關系和結論,因此在大數據背景下通過數據挖掘技術探究新冠肺炎的流行病學特征來進行科學防控具有重要意義。
形式概念分析[3]是應用數學和格論的一個分支,它建立在概念和概念層次的數學化基礎之上。運用形式概念分析的方法,可以探究由屬性(Attributes)和對象(Objects)構成的概念(Concept)及其之間的關系[4]。如今,概念格已被廣泛應用于機器學習、圖書情報、軟件工程等領域。Haav提出一種半自動的本體提取與設計方法,從子句中提取形式背景,直接引用概念和層次關系,并通過添加概念和關系得到初始本體[5]。Formic提出了一種基于本體論的方法,用于評估FCA概念之間的相似性[6]。Poelmans等收集關于FCA的文獻信息數據,運用FCA的可視化能力探索文獻并展示領域研究熱點,并將這一方法擴展至其他領域[7]。
該文從Wolfram數據存儲庫上獲取14 683條病例數據,針對該數據集,首先,基于統計的方法分析了新冠肺炎患者年齡分布情況、性別差異以及主要臨床癥狀,對特殊人群(中老年人和慢性病患者)進行單獨的統計和分析;其次,使用形式概念分析的方法挖掘臨床癥狀病理學潛在模式;然后,從患者的年齡、性別和患慢性病情況3個方面,使用Pearson相關系數對新型冠狀病毒肺炎進行相關性分析;最后,針對實驗結果提出相應的防控對策。
1.1.1 形式背景
形式概念分析是一種可以進行概念數據分析和知識處理的數學方法,它可以通過形式背景構造出概念格,挖掘數據中隱含的概念以及概念之間的層次關系[8]。
在形式概念分析中,用三元組K=(G,M,I)來表示形式背景,其中G表示所有對象的集合,M表示所有屬性的集合,I?G×M表示G和M中元素之間的關系構成的集合。對于任意g∈G和m∈M,(g,m)∈I,定義對象g和屬性m間的關系,即:對象g擁有屬性m,記作gIm。
形式背景可以通過交叉表來描述,交叉表中行代表不同的對象,列代表不同的屬性,若某行的對象擁有某列的屬性,則在該行與該列的交叉點添加一個“×”。如表1所示,其中第3行第4列的交叉關系可以描述為對象O2具有屬性A3。

表1 簡單形式背景
由表1所示形式背景蘊含的二元關系有:
1.1.2 形式概念
定義1:設A是對象集合G的一個子集,定義f(A)={m∈M|?g∈A,gIm}(A中對象共同屬性的集合);相應地,設B是屬性集M的一個子集,定義g(A)={g∈G|?g∈B,gIm}(具有B中所有屬性的對象的集合)。
定義2:二元組(A,B)是形式背景(G,M,I)上的一個形式概念(Formal Concept),其中A?G,B?M,且滿足f(A)=B,g(B)=A。則稱A是形式概念(A,B)的外延,B是形式概念(A,B)的內涵。
1.1.3 概念格
定義3:(A1,B1),(A2,B2)是某個背景(G,M,I)上的兩個概念,而且A1?A2(等價于B1?B2),則稱(A1,B1)是(A2,B2)的子概念,(A2,B2)是(A1,B1)的超概念,并記作(A1,B1)≤(A2,B2),關系≤成為概念的層次序(簡稱序)。(G,M,I)的所有概念用這種序組成的集合用B(G,M,I)表示,稱它為背景(G,M,I)上的概念格[9]。
圖1為上述形式背景所對應的概念格。

圖1 概念格可視化圖例
Pearson相關系數是英國統計學家卡爾·皮爾遜提出的,用來衡量變量間的線性關系[10]。常用希臘小寫字母ρ表示,計算公式如下:
由上式可知,Pearson相關系數是協方差和兩個變量的標準差之比得到的,雖然協方差能反映兩個隨機變量的相關程度(若X與Y是相互獨立,互不相關的,則二者的協方差值就是0),但其數值上受量綱變化的影響很大,因此不能僅依據協方差的數值大小做出變量相關程度的判斷。
為了消除不同量綱所帶來的影響,于是就引入了相關系數的概念。當相關系數為0時,協方差為0,則變量是相互獨立的;相關系數為正值時,變量間為正相關;相關系數為負值時,變量間為負相關;相關系數的絕對值越大,相關性越強;相關系數越接近于0,則表示變量相關性越弱。
文中數據選自Wolfram數據存儲庫的開放數據集Patient Medical Data for Novel Coronavirus COVID-19(新型冠狀病毒COVID-19的患者醫療數據),收錄數據包括患者性別、年齡、臨床癥狀、居住地、患慢性病情況、入院日期等(詳見數據集https://datarepository.wolframcloud.com/resources/Patient-Medical-Data-for-Novel-Coronavirus-COVID-19)。
實驗選取了數據集中自2020年2月3日到2020年8月31日的14 683條病例數據,并選用了年齡、性別、臨床癥狀、是否居住武漢和患慢性病情況共5個字段進行數據挖掘。
由于數據集中的部分字段的值存在缺失,針對不同的研究目的,通過確定所需字段、數據清洗和篩選后,產生了6個新的、規模不同的數據集,分別用于性別、年齡、臨床癥狀、特殊人群(中老年人和慢性病患者)及基于FCA的分析。
針對患者性別、年齡、癥狀三類數據,進行分類統計,利用統計表來描述患者性別、年齡、癥狀分布情況。下面以5條患者數據為例,給出基于形式概念分析的過程:
(1)數據預處理。
從數據中抽取患者及其對應癥狀作為研究對象,患者作為對象集合(外延),癥狀作為屬性集合(內涵)。
為了便于區分對象和屬性,方便記錄,將其抽象為字母加數字的形式。用p代表病人,如p1,p2,p3,p4,p5。用a代表癥狀,如a1,a2,a3,a4,a5。其中,a1代表咽喉痛,a2代表發燒,a3代表疲勞,a4代表頭痛,a5代表咳嗽。
(2)構建形式背景。
一個形式背景可以用一個交叉表表示,不僅能夠直觀展現出對象和屬性的數量信息,更能直觀反映對象與屬性間的聯系,即對象所具有的屬性及屬性所依賴的對象。若對象與屬性間存在關聯,則用“×”標記,若不存在關聯,則無標記。
以部分患者數據為例,表2所示的形式背景即可描述每個病人的不同癥狀,“×”表示兩者存在關聯,即病人患有該癥狀,如患者p4表現有a1(咽喉痛)、a4(頭痛)癥狀。從表中可以看出,患者集合p={p1,p2,p3,p4,p5}與癥狀集合a={a1,a2,a3,a4,a5}存在有7個關聯。
表2 形式背景舉例

a1a2a3a4a5p1××p2p3×p4××p5××
(3)構造概念格。
通過解析數據,將對象和屬性的數量及關聯關系存儲為.cxt文件,隨后通過專門的概念格構造算法,導入生成的.cxt文件,產生概念格,對應的Hasse圖實現了數據的可視化。圖2所示即為表2對應的概念格。圖中一個節點代表一條形式概念,每個節點信息分為兩部分,上部分為屬性(概念的內涵),下部分為對象(概念的外延)。

圖2 概念格
(4)生成概念。
通過算法,提取出概念格內的信息,將不同結點間的關系轉化為概念進行輸出。由圖2概念格提取出的概念有以下五條,如概念1說明沒有人同時表現出咳嗽、發燒、咽喉痛、疲勞、頭痛這5種癥狀;概念3說明患者p1、p5都同時具有發燒和咳嗽癥狀;概念5說明5位患者沒有表現出某個相同癥狀。
①({},{a1,a2,a3,a4,a5})
②({p4},{a1,a4})
③({p1,p5},{a2,a5})
④({p3},{a3})
⑤({p1,p2,p3,p4,p5},{})
3.1.1 年齡分布
基于11 978例冠肺炎患者病例繪制的患者年齡分布統計數據如表3所示。從表中可知,患者年齡集中在40~60歲,占實驗數據的37.46%。20~40年齡段的次之,占比31.13%。

表3 新冠肺炎患者年齡分布
新冠肺炎患者年齡從0~100歲不等,主要分布在40~60歲。說明新冠肺炎各年齡段人群普遍易感,其中,中老年人更容易感染。此年齡分布與中國疾病預防控制中心所得結論基本吻合[11]。分析這兩類人群易感的原因,可概括為:青壯年(20~40歲)室外活動、乘坐公共交通工具外出工作的頻率更高,發生聚集的時間長,幾率大,接觸并感染新冠病毒的風險升高。而中老年人因自身免疫力相對低下,常患有基礎性疾病,抵抗病毒入侵的能力相對較弱,故患病幾率更高。
3.1.2 患者性別分布
在對14 683例新冠肺炎患者進行性別分布統計后可知,患者中男性有8 993人,占實驗數據的67.3%,女性患者有5 690人, 占實驗數據的32.7%。男性患病比例明顯高于女性。
有研究認為,新冠肺炎在患者中的性別分布差異,可能是男性吸煙率較女性高所導致的[12]。然而,在文章中作者同時表示,現階段沒有足夠證據證實吸煙率與患病率之間存在聯系,也無法得出確切結論。未來隨著研究群體的擴大、樣本數據的增加,可以更科學地對新冠肺炎患者性別分布進行分析。
3.1.3 患者臨床癥狀分布
表4為基于統計方法得出的1 641例新冠肺炎患者臨床癥狀分布數據,患者主要以呼吸道癥狀為主,消化系統癥狀不明顯,主要癥狀(百分比>3%)包括發燒、咳嗽、肺炎、咽喉痛、疲勞、頭痛等。其中發燒和咳嗽是最為常見的癥狀,發燒患者共有1 004人,占樣本總數的61.18%。這個結果與鐘南山院士團隊近期基于1 099例患者的大樣本研究結果一致[13]。

表4 新冠肺炎患者臨床癥狀分布
3.2.1 癥狀規律研究
表5為基于形式概念分析理論得出的患者臨床癥狀規律,從表中可以看出不同癥狀間的關聯性。(1)在發燒的情況下,出現咳嗽癥狀的概率最大,大約為61.18%;(2)部分人會出現咽喉痛、肌肉疼痛的癥狀,占比分別為34.37%和9.02%。

表5 患者臨床癥狀規律
3.2.2 特殊人群癥狀研究
目前已知新型冠狀病毒肺炎的易感原因主要是身體機能下降和免疫力的低下,由此導致對應人群面對新型冠狀病毒時,病情進展相對更快、嚴重程度更高。于是針對免疫力低下的老年人和慢性病患者,進行了單獨研究,挖掘這兩類群體的臨床特征。
表6為484例老年人患者臨床癥狀分布數據,除去肺炎、咳嗽、發燒等常見癥狀,老年人還容易表現出急性呼吸窘迫綜合征、急性呼吸衰竭等病癥。從結果來看,老年新冠肺炎患者感染后更容易發展成重癥和危重癥。

表6 老年人患者臨床癥狀分布
表7為151例慢性病患者臨床癥狀分布數據,除去肺炎、咳嗽、發燒等常見癥狀,慢性病患者還會表現出急性呼吸窘迫綜合征、急性呼吸衰竭、敗血性休克等病癥。

表7 慢性病患者臨床癥狀分布
根據Pearson相關系數計算不同變量與患病的相關性,繪制相關性熱力圖,如圖3所示(相關性越高,顏色越深)。

圖3 相關性分析
從圖3來看,年齡與染病相關性最為密切。年齡與感染新冠的相關系數為0.29,是最大值。慢性病與感染新冠的相關系數為0.069,僅次于前者。
分析相關性背后的原因,由于老年人大都免疫力低下,免疫反應不夠靈敏,和其他年齡群體相比,更容易被感染。而患有基礎性疾病的人,健康脆弱性更高,也更易感染新冠肺炎。此外,對于患有慢性病的個體,感染新冠后治療難度大,容易導致病情的惡化。因此老年人和慢性病患者做好居家隔離,減少接觸病毒的可能性十分重要。
通過對新冠肺炎患者臨床癥狀的挖掘,對實驗結果進行分析后,可以得出以下結論:
(1)新冠肺炎各年齡段人群普遍易感,其中老年人和患有糖尿病、心臟病等基礎疾病的個體感染的風險可能增加。
(2)新冠肺炎患者多是以咳嗽、發熱為其主要癥狀,大多數輕癥患者可能僅有發熱和全身乏力,而無明顯的肺炎表現;而重癥患者可能發生胸悶氣促,甚至呼吸困難等急性癥狀。
(3)新冠肺炎感染程度與患者的年齡以及是否患有基礎性疾病有關。年齡大或患有基礎性疾病的個體,感染新冠肺炎后,病情可能會越嚴重。
目前國內疫情基本穩定,但其他國家情況不容樂觀,尤其隨著國內入境政策的放寬、人口流動加大,潛在威脅也隨之而來。基于該文的研究結論,提出以下防控建議:
(1)加快推進疫苗接種工作;高風險人群優先種,如慢性病患者、身體狀況不佳的中老年人,以及冷鏈物流人員、海關邊檢人員、醫療疾控人員和公共交通的工作人員等。
(2)加強疾病預防控制體系現代化建設,提升地方公共衛生系統的有效性,從上到下形成健全的醫療服務網,發展和實施廣泛的健康促進戰略[14]。
(3)將心理危機干預作為疫情防控體系的一個重要環節,加強心理干預和疏導,打贏疫情防控心理戰[15]。
(4)重視入境人員檢測,把好“輸入”關,阻斷病毒傳染鏈。
對于普通民眾,每位公民都有義務、有責任積極響應國家號召,及時接種新冠疫苗,做到“應接盡接”,構建全民免疫屏障,阻斷新冠病毒傳播,同時做好個人防護的常態化,如戴口罩、勤洗手、少聚餐等。
基于形式概念分析的理論基礎,以疫情背景下的新冠肺炎患者醫療數據為研究對象,通過研究開源的數據資料,在患者癥狀的基礎上,建立“患者—癥狀”的形式背景,生成對應概念格,產生概念,分析新冠肺炎的病例特征,為新冠肺炎知識的檢索和可視化展示奠定基礎。另一方面,通過對新冠患者臨床數據進行統計,掌握了新冠肺炎的部分規律,可以為有效防控新冠肺炎提供參考和判斷依據。
但是,在數據挖掘方面仍有欠缺——部分類型的病例數量不足。如慢性病患者僅有151例,可能會導致實驗結果偏向于那些具有更多數值的特征。此外,兒童甚至嬰幼兒也有感染,對于抵抗力低下的兒童,臨床癥狀又會有何不同,這是實驗中未涉及到的。下一步工作中,將擴大研究范圍,將新冠肺炎數據分析覆蓋到更多患者群體。此外,構建新冠肺炎知識圖譜,融合已挖掘的新冠肺炎特征知識,使所得數據得到充分利用也是我們接下來的研究方向。