Yong Cai
隨著深度學習技術的突破,以及大數據時代到來,深層神經網絡的相關應用在在各行各業中逐漸普及[1]。深度學習在模式識別,事件預測和點到點的自動化方面取得了突破性的成績。但是和深層網絡相關的模型在性能上很大程度依賴于是否存在大量有標識的學習樣本。在小樣本空間中,深層網絡的實際應用非常困難,很難訓練出相對精確的預測模型。在醫療行業中,這一現象尤為明顯。如何克服 樣本數量的局限,利用數據庫中大量未標識數據來幫助訓練和提高預測模型的精準性是醫療行業中長期以來的一個重要話題。比方說,在罕見疾病的診斷與預測上,確診與標識的罕見病人數非常少,絕大部分患者在訓練數據中都是未標識的[2]。例如在2018年國家衛生和環境衛生委員會等五部門聯合制定的《第一批罕見病目錄》中遺傳性血管性水腫確診率僅為1/50 000[3]。很多患者在得病初期都是沒有征兆的,加上醫生對罕見疾病的陌生,導致這部分病人的延遲診斷和治療。在數據庫中,存在很多這些類似的未標識樣本。傳統方法很難有效利用這些未標識病人的診斷和治療歷史來建模。
我們主要探討使用最新開發的半監督生成對抗網絡預測臨床藥物試驗中產生嚴重不良事件(SAE)的問題。臨床試驗中的不良事件是指受事病人在使用藥物后出現非期望的醫療事件。不良事件的發生對受試者和藥物研發單位會造成災難性的后果。如何預測和避免嚴重不良事件發生是一個重要的研究話題。我們主要從數據挖掘和模型角度來探討這個問題。從我們采集到的數據,可以觀測到參與臨床試驗的醫生發生不良事件的歷史記錄,實驗的藥物化學結構,所治療病人的診療歷史。和以上提到的罕見疾病相類似,參預藥物臨床試驗的醫生的樣本數又相對較少,其中發生嚴重不良事件更是罕見。小樣本再加上數據極端不均衡性,給預測模型的精確性帶來極大困難。另一方面,我們又觀測到了大量未參與臨床試驗的醫生和病人的數據。這些病人和相關醫生含有豐富的診療歷史信息,我們能否利用這些來幫助我們訓練小樣本不良事件的預測模型呢?
最近,在人工智能領域開發出的半監督生成對抗網絡正是適合解決小標識樣本但是存在未標識大樣本的機器學習問題[4-5]。我們前面提到的預測臨床藥物試驗中不良事件正好符合這一類問題的特性。實驗結果顯示,半監督生成對抗網絡顯著提高了不良事件預測的準確性。在以下文章中,我們首先介紹一下什么是半監督學習,以及半監督學習所需要的基本假定條件。然后我們從原生的生成對抗網絡構架開始,拓展到半監督生成對抗網絡模型。隨后我們介紹用于實驗的臨床試驗不良事件數據。根據數據特性,我們設計了特定的損失函數用于訓練半監督生成對抗網絡。我們還會討論與之相呼應的模型訓練技巧。最后,展現實驗結果和與之相應的結論。
處理小樣本標識數據主要有兩種方法,一種是轉移學習[6],另一種就是半監督學習[7]。本文主要討論半監督學習方向的模型。在訓練用的數據中,有標識的樣本是指目標變量在數據集中時觀測得到的。所謂標識可以是指病人是否有某種疾病,不良事件是否發生等等。如果只用有標識的數據來建模,這種模型稱之為監督學習模型。如果在數據中有一部分樣本是沒有標識的,我們用有標識的樣本再加上這些未標識的來建模就是半監督學習了。在現實世界中,很多收集來的數據都只是部分有標識。那些未標識的樣本對半監督學習預測模型會不會有幫助呢?這取決于以下三個基本假設條件其中之一是否成立:連續性假設,叢生性假設和多樣性假設。簡單來說,這些假設條件規定了標識和未標識樣本之間的決定邊界是連續的,相似樣本是叢生和聚類的。多樣性假設保證了標識的產生是可以通過一個相對小的數據空間來實現的。用臨床藥物試驗的例子來說,產生嚴重不良事件的病人之間是有相似性的,同時參與實驗和未參與實驗的醫生之間也有相似性。而且我們可以認為嚴重不良事件事件是由數據庫中一個相對較小的特征空間決定和產生的。基于這些條件,用未標識樣本學習會對預測臨床藥物試驗中模型有所幫助。
生成對抗網絡(GAN)是當下熱門的研究重點[8]。Goodfellow 在1994年NIPS 會議上提出最初的生成對抗網絡構架,隨后幾年內,學術界不斷提出和開發了各種形式的相關網絡拓展和應用。基本的生成對抗網絡主要由兩部分組成:生成模型和判別模型(圖1)。生成模型從隨機數開始產生虛擬的樣本,比方說虛擬圖像。判別模型判斷輸入的樣本是虛擬的還是真實的。這兩個模型的優化目標是截然相對的,生成模型要生成判別模型無法辨別真偽的樣本,判別模型要能成功識別樣本的真偽。在訓練過程中這兩個模型不斷地通過對抗達到優化。訓練完成后,原生的生成對抗網絡會丟棄判別模型,而只保留生成模型。因為最初提出的生成對抗網絡主要是為了產生一個好的生成器。而對于我們預測模型來說,目標恰恰相反,我們要保留和使用優化好的判別模型。下面我們談一談半監督生成對抗網絡的構架。

圖1 生成對抗網絡構架
半監督生成對抗網絡是從生成對抗網絡演化而來。半監督生成對抗網會讀取三種數據:有標識的樣本數據L,無標識的樣本數據U,和從生成模型生成的虛擬數據G(圖2)。和原始的生成對抗網絡不同的是,在半監督生成對抗網中的判別模型不但要識別數據真偽,而且要判別數據類別。在圖2的示意圖中,判別模型要區分k 類和虛擬樣本。在我們的具體實驗中,判別模型要判斷讀取的樣本數據是否真實,以及是否有嚴重不良事件發生。
在我們構建的半監督生成對抗網絡中,用于訓練判別模型的損失函數由三部分組成:LD=LL+LU+LG,其中


圖2 半監督生成對抗網絡構架
LL 代表交叉熵值損失項,這項用來使標識數據分類錯誤最小化。LU代表未標識樣本的損失項,這項用來最大程度分辨數據是否是未標識樣本。LG用來最大程度區分數據是否虛擬樣本。
我們發現如果僅用以上的損失項來訓練半監督生成對抗網絡模型,性能并不理想。原因就是半監督生成對抗網絡本身難以訓練。主要的困難包括:模式扁平(mode collapsing),難收斂性和訓練緩慢。為提高模型性能和精確性,我們需要使用一些額外的訓練技巧[9]。在生成模型中,我們加入了以下生成損失項LG=Lfm+Lpt。Lfm和Lpt分別代表特征值匹配(feature mapping)和脫離項(pull away term)。其中,特征值匹配(2)迫使生成模型生成樣本和未標識樣本有相類似的特征空間[9]。(3)式的第一部分用余弦相似函數確保生成不同的虛擬樣本,第二部分確保生成樣本和真實樣本之間不完全一樣(這就是3 式稱為“脫離項”的原因)。性能好的半監督生成對抗網絡需要有一個“不好”的生成器[10],即生成一些和有標識樣本互補的虛擬樣本。這項主要幫助生成一些標識空間分布之外的樣本。

生成模型和判別模型都由深層網絡構成,在訓練中我們使用了常用的的深層網絡技巧:權重正態化(weight normalization)和退出(dropout)。
我們提取了2008—2016年IQVIA 臨床藥物實驗數據,其中包括藥物嚴重不良事件的報告。同時我們提取IQVIA 美國的醫生KPI 數據和病人KPI數據。從IQVIA 數據我們得到了醫生專業、治療處方特性、病人數、治療病人的病情復雜度等數據變量;病人方面得到了病人的基本生理、并發癥、治療歷史、醫囑遵從程度等特征數據。此外,我們還下載了美國政府公開的臨床數據,藥物結構數據(Tox21 和PubChem)。和IQVIA 數據融合后,我們得到了藥物分子、結構特性、毒性等特征數據。最終的數據含有217 個可以用于預測的變量,和241 070 個訓練樣本。訓練樣本中包括72 997 個有標識的樣本和168 073 個未標識樣本。在標識樣本中,1779 個樣本觀測到嚴重不良反應。正負標識比率約為2.4%。

表1 訓練和測試樣本分布
由于正負標識的嚴重不均衡性,通常使用的ROC 曲線不能公平測量試驗結果。所以我們采用PR(Precision-Recall)曲線中的PR-AUC 來作為模型衡量指標。
使用以上的生成的實驗數據,我們用章節3.2 中提出的半監督生成對抗網絡模型來訓練和預測臨床中的嚴重不良事件。同時在基準模型中我們使用了邏輯回歸,隨機森林算法(Random Forest)和深層神經網絡(Deep NeuralNets)模型作為結果比較?;鶞誓P椭兄荒苁褂糜袠俗R的數據。其中深層神經網絡使用了和半監督生成對抗網絡中的判別模型相同的網絡構架。
最終,半監督生成對抗網絡(圖3中標識為SGAN)得到34.4%的PR-AUC?;鶞誓P椭校壿嫽貧w得到20.4%的PR-AUC隨機森林算法得到22.7%的PR-AUC,深層神經網絡有27.8%。我們提出的半監督生成對抗網絡相對于基準模型中表現最好的深層神經網絡提高了24%的準確率。尤其是在PR 曲線中召回(recall)小的區間,半監督生成對抗網絡的預測性能明顯優于基準模型。
在大數據時代,總體數據特征呈現多樣性和豐富性。但是在醫療領域,一旦細化到特定專業,比方說癌癥,罕見病等等,目標數據就變得相對稀疏。這就給建模、分析、預測帶來很多困難。從另一方面來看,整個專業總體上產生了前所未有的大數據。如何鏈接、融合和使用這些看似相關但又并不直接相關的數據是一個非常有價值研究話題。

圖3 半監督生成對抗網絡和其他常用基準模型的PR-AUC 衡量比較
我們提出了半監督生成對抗網絡模型來使用用未標識數據達到幫助訓練和提高預測準確性的方法。在臨床實驗中預測不良事件的具體案例中,新 方法達到提高預測精準度的預期效果。從這個案例的結果來看,未標識數據確實給模型訓練帶來了額外信息,并且產生了和真實樣本互補的虛擬樣本,從而提高了模型的可訓練性和預測的準確性。當然,半監督生成對抗網絡有其局限性,其中之一就是比較難以訓練。一個良好的預測模型,必須通過調試不同的損失函數來實現。我們在網絡構架中使用了特征值匹配和脫離項,達到了預期的效果。在將來的研究中,應該會有更好的模型構架和訓練技巧來進一步體高性能。另外,我們希望看到半監督生成對抗網絡能夠更多應用在其他領域。我們期待有更多更新的方法來有效利用大數據時代豐富數據。