王 祥 馮瑞梅,2 魏 珍 王華芳 范 瑾 武 鵬 張 潔 仇麗霞△
?
Logratio變換與偏最小二乘法在多目標混料均勻設計藥物處方配比優化中的應用*
王祥1馮瑞梅1,2魏珍1王華芳1范瑾1武鵬1張潔1仇麗霞1△
【提要】目的研究logratio變換與偏最小二乘法在多目標混料均勻設計藥物處方配比優化中的應用。方法對混料數據進行logratio變換之后,用偏最小二乘法進行建模,再用小生境遺傳算法進行多目標尋優。結果小生境遺傳算法所得相對最優方案:保濕劑、含濕量、膠黏劑、賦型劑、溫度和時間分別為36.61%、5.14%、52.51%、5.74%、69℃和8h,與原文獻結果相比,評價指標為初粘力15.50cm、持粘力14.52s、載藥量6.49mg、剝離度45.58s,分別增加了1.84cm、3.38s、1.25mg、6.48s。結論將logratio變換和偏最小二乘法結合應用于混料均勻設計所得試驗數據的模型構建中,并采用多目標遺傳算法獲得最佳配比和最佳工藝條件,理論是可行且合理的。
混料均勻設計logratio變換偏最小二乘法小生境遺傳算法
均勻設計是由方開泰教授和王元教授于1978年共同提出的一種試驗設計方案,與正交設計相比,去掉了整齊可比的要求,減少了試驗次數,同時其試驗效果較好,因而得到了廣泛應用[1]。在均勻設計理論的基礎上產生了混料均勻試驗設計,是一種處方配比優化的試驗方法,每個因素在試驗中的貢獻表示成其在處方中所占的配比,所有的因素總和為1,稱為定和約束。在建模方面,定和約束造成數據存在共線性,此時建模效果并不理想,可能導致參數估計精度降低,錯誤剔除有用的自變量等不能忽略的危害[2];在優化方面,采用小生境遺傳算法,可得到一個Pareto非劣解集,在應用中,可以結合實際問題在Pareto非劣解集中選擇適合于問題的解[3],但由于定和約束的存在,導致其在軟件上難以實現。
針對定和約束所造成的難題,本文對混料數據進行logratio變換,變換后的數據除了消除定和約束外,不改變原來的數據規律。但在建模時,消除定和約束之后的混料數據仍可能存在多重共線性,這時可選用偏最小二乘法進行建模[4],該方法是在普通多元回歸的基礎上加入主成分分析、典型相關分析的思想,很好地解決了自變量間、因變量間的多重共線性,所建模型更加穩健。故本文將logratio變換和偏最小二乘法相結合應用于多目標混料均勻設計藥物處方的建模,并采用小生境遺傳算法進行多目標尋優。
1.資料
引用文獻[5]中的“清腦貼”試驗數據,其考慮了攪拌溫度(z1)和攪拌時間(z2)兩個工藝因素,4個基質成分為保濕劑(x1)、含濕量(x2)、膠黏劑(x3)和賦型劑(x4),其中含濕量指配方中水的比例,其他三種為輔料。基質載藥量大小及貼劑的粘貼牢固程度,直接決定藥物治療效果及貼劑作用時間的長短。原文采用初粘力(y1)、持粘力(y2)、載藥量(y3)、剝離度(y4)作為評價指標,其值越大說明該貼劑質量越好。原文選擇U11(115)等水平均勻表作為試驗用表,其試驗結果見表1。

表1 混料均勻設計試驗結果
2.方法
本文選用可加性logratio變換對混料數據進行轉換,變換后的數據可消除定和約束帶來的多重共線性和采用小生境遺傳算法進行多目標尋優時軟件實現困難的問題,但考慮到數據的多重共線性在消除定和約束后仍可能存在,所以在建模時采用偏最小二乘法進行建模,繼而再用小生境遺傳算法進行多目標尋優,結合評價指標和實際問題在Pareto非劣解集中選取滿足自己要求的解,再進行logratio反變換,就可以得到藥物處方配比。
(1)可加性logratio變換[6]
混料數據符合歐幾里德矩陣類型,在實際應用中歐幾里德矩陣通過真實值反映絕對量變化,也可通過logratio變換來反映相對變化量,logratio變換后的數據,除了消除定和約束外不改變原來的數據規律。
其中xj為變換前的第j個組分,x0為d個組分中的某個組分,vj表示變換后的第j個組分;反變換,反之,見下式:
(2)偏最小二乘法建模
偏最小二乘法集多元線性回歸分析、主成分分析和典型相關分析的基本功能為一體:在主成分回歸的基礎上,尋求原始自變量x1,x2,…,xp的線性函數的同時,考慮到其與應變量的相關性,選擇既與應變量相關性強又可方便算得的x1,x2,…,xp的線性函數,作為新的自變量與應變量作回歸,但它只選取與應變量有關的變量,此時所建模型更加穩健。
1)數據的標準化



2)確定提取成分個數[7-8]
本文用交叉有效性來確定提取主成分個數,及交叉驗證法。其主要原則有兩個:① 要求殘差平方和PRESS(h)最小。②根據成分累計貢獻率的大小來確定,一般只需提取的成分解釋了大部分自變量和因變量的變異信息即可,取80%。
3)提取成分

經推導整理:


4)建立最終的回歸方程
方程達到預設的要求對X0提取了m個成分,則實施yk(k=1,2,…,q)對t1,t2,…,tm的回歸,最后轉化為yk關于原變量x1,x2,…,xp的回歸方程。
(3)多目標優化
傳統的多目標優化方法是將多目標問題轉化為一個或一系列的單目標優化問題來完成通過這種方法得到的最優解,很難實現所有目標都相對最優,而本文采用的小生境遺傳算法,可得到一個Pareto非劣解集,根據自己的實際要求,可在解集中選取各目標都相對最優的解。
多目標優化問題中最佳條件的獲得采用課題組編寫的Matlab(2009a)外掛工具箱SGALAB完成[3],多目標遺傳算法工具箱參數設置:初始種群(population)為50,最大進化代數(max generation)為100,單點交叉變異(probability of crossover)為0.80,變異概率(probability of mutation)為0.05,隨機搜索30次。
(4)統計軟件
本文采用SAS9.3對原文數據進行logratio變換及反變換和偏最小二乘法建模。
1.原數據中四種基質成分(x1、x2、x3、x4)為混料數據,m1、m2、m3、m4為經logratio變換后的結果,見表2。

表2 對試驗方案中基質成分的logratio變換結果
2.建模結果
交叉驗證分析圖(圖1)結果:上半部分顯示的是主成分數在0~8之間時統計量PRESS變化趨勢,下半部分顯示的是各主成分數對自變量和因變量解釋的變異程度。由圖1知選擇主成分數3是較為合理的,擬合的各子目標方程為:

圖1 偏最小二乘法的交叉驗證分析
3.小生境遺傳算法尋優結果
優化條件:自變量范圍分別為m1(0.441,2.278),m2(-0.186,2.244),m3(-1.097,2.233),工藝因素范圍溫度z1(50,100),時間z2(2,12);應變量初粘力y1、持粘力y2、載藥量y3、剝離度y4均是越大越好。按照設置好的參數運行matlab工具箱,本文只選取了其中較好的8個結果,同時給出了其反變換的結果,見表3。
4.優化效果比較(表4)
原研究是通過構造多目標決策模型,采用因子分析法給每個目標都賦以權重,轉化為單目標問題,采用序列線性規劃法求解,獲得的初粘力、持粘力、載藥量和剝離度分別為13.66cm、11.14s、5.24mg、39.10s;用小生境遺傳算法所得8個相對最優方案集中,選取7號方案,與原方案相比,溫度增加了19℃,時間縮短4個小時,節省了時間,所獲得評價指標初粘力、持粘力、載藥量、剝離度分別增加了1.84cm、3.38s、1.25mg、6.48s,載藥量作為一個重要的評價指標,與原方案相比提高了23.9%。

表3 小生境遺傳算法尋優及logratio反變換結果

表4 優化結果比較
對混料數據的logratio變換后建立一般的多項式不用考慮約束,在理論上已有研究證明對于滿足特定分布的混料數據logratio變換是可行且合理的,故將其應用到混料數據的分析中,可以消除約束,進而解決約束造成的對建模和多目標優化時軟件應用的限制。消除約束后并未從根本上改變數據間的相關性,而偏最小二乘法在普通多元回歸的基礎上加入主成分分析、典型相關分析的思想,很好地解決了自變量間、因變量間的多重共線性,所建模型更加穩健。在消除約束建模后可直接采用遺傳算法工具箱進行多目標尋優,且遺傳算法優化效果較好,不僅可給出較好的最優解,同時提供了豐富的pareto非劣解,可供研究者靈活選擇,擴大遺傳算法的應用范圍。所以此建模優化過程理論可行且合理,而且相關程序及軟件可以保證,較好解決了含有混料約束多目標優化問題,可推廣到類似問題的應用中。
本研究的不足之處:其一,本文僅對混料多目標優化問題進行了探索性研究,沒有回代驗證的證實性研究;其二,對于logratio數據變換尤其是存在0的成分數據不能直接進行。故在下一步研究中需要尋找混料問題優化時可進行回代驗證的合作者,擴大該優化過程的應用,同時尋找可以完成有約束的多目標遺傳算法程序編程的合作者,完善matlab遺傳算法工具箱。
[1]張雪雷,周建淞,李雪原.遺傳算法在混料均勻設計中的應用.中國衛生統計,2015,32(4):562-564.
[2]Nouna Kettaneh-Wold.Analysis of mixture data with partial least squares.Chemometrics and Intelligent Laboratory Systems,1992,14(1-3):57-69.
[3]仇麗霞.基于遺傳算法的最優決策值選擇及醫藥學應用研究.太原:山西醫科大學公共衛生學院,2007.
[4]楊梅,肖靜,蔡輝.多元分析中的多重共線性及其處理方法.中國衛生統計,2012,29(4):620-623.
[5]謝國梁.基于混料回歸設計方法預測空白基質的含量配比.黑龍江大學碩士論文.黑龍江:黑龍江大學應用數學系,2009.
[6]張堯庭.成分數據統計分析引論.科學出版社,2000:115-119.
[7]王園園,陳景武.偏最小二乘回歸及SAS編程的醫學應用.數理醫藥學雜志,2008,21(6):730-733.
[8]鄧念武,徐暉.單因變量的偏最小二乘回歸模型及其應用.武漢大學學報(工學版),2001,34(2):14-16.
(責任編輯:鄧妍)
The Application of Logratio Transform and Partial Least Squares in the Multi-objective Mixture Uniform Design of Drug Prescription Ratio Optimization
Wang Xiang,Feng Ruimei,Wei Zhen,et al
(Shanxi Medical University(030001),Taiyuan)
ObjectiveTo research the application of logratio transform and partial least squares in the multi-objective mixture uniform design of drug prescription ratio optimization.MethodsAfter the logratio transformation of mixture data,using partial least squares modeling,then using niched genetic algorithm to optimize the multi-objective.ResultsThe relative optimal solution were obtained by using niched pareto genetic algorithm:moisturizing factor,moisture content,adhesive,excipient,temperature and time were 36.61%,5.14%,52.51%,5.14%,69℃ and 8h,comparing the results with the original literature,the evaluation index were 15.50cm initial adhesion,14.52s durable adhesion,6.49mg drug loading and 45.58s stripped degree,respectively increased by 1.84cm,3.38s,1.25mg,and 6.48s.ConclusionUsing the combination of logratio transform and partial least squares on experimental data model building of mixing uniform design,and using multi-objective genetic algorithm to obtain the optimum ratio and optimum craft condition,it was feasible and reasonable.
Mixture uniform design;Logratio transformation;Partial least squares;Niched pareto genetic algorithm
山西省自然科學基金項目(2013011059)
仇麗霞,E-mail:qlx_1126@163.com
1.山西醫科大學公共衛生學院衛生統計學教研室(030001)
2.北京協和醫院,中國醫學科學院腫瘤醫院