劉亞娟 王 聲*
(廣州醫科大學藥學院 廣東·廣州 511436)
儀器分析可以作為藥學,分析化學,醫學等專業學習的基礎課程,在物質分析及應用的相關課程中起到起承轉合的過度作用[1,2]。在學生初步學習掌握酸堿滴定、氧化還原滴定、絡合滴定和沉淀滴定等化學反應以及電化學對物質進行常量的定性定量分析的基礎知識之后,本課程進一步深入介紹電化學進行物質定性定量分析的原理和方法,同時引入現代常用的光譜分析和色譜分析方法,使學生具備利用現代儀器解決實際問題的思維,掌握常用光譜和色譜分析原理和具體方法,了解新方法的進展和應用[3]。后續的專業課程的學習,可以包括涉及食品、醫學、生物、藥學領域的物質定性定量具體方法應用,這些課程都需要學生具備利用現代儀器進行物質定性定量的基礎知識。本課程目標為培養適應中國中國特色社會主義建設和粵港澳大灣區生物醫藥事業發展需要的人才,具有扎實的基本知識、基礎理論和基本技能,具有人文情懷、責任擔當、國際視野、創新精神和實踐能力的高素質人才。
然而傳統的儀器分析教學中的數據分析往往只采用簡單的單變量分析,也就是一個樣本對應于一個變量,利用傳統的單變量數據分析會損失大量的信息[4]。現代分析儀器,包括光譜,色譜或者質譜儀器產生的都是多變量數據,也就是多元數據。因此我們需要在傳統的儀器分析教學中加入數據挖掘,主要是多元分析的教學,使得儀器分析教育可以與時俱進,培養儀器分析創新人才[5]。
現代儀器所產生的大量數據的獲取可能會導致名副其實的“數據海嘯”,我們需要使用數據挖掘儀器所產生的數據中獲取信息[6,7]。數據挖掘是一個廣義的術語,它描述了使用統計學方法從“大數據”中提取有用信息,尤其是模式識別的信息的過程。所謂模式識別的就是用機器學習的方法根據樣本的特征將樣本劃分到一定的類別中去。機器學習指的是使用算法從數據中學習并進行預測。大部分的機器學習算法都是多變量分析方法,也就是多元數據分析,其中每個樣本都有許多相應的變量。通常多變量分析包括三種不同類型的方法:
(1)探索性方法[8],包括主成分分析(principal component analysis,PCA)、獨立成分分析(independent component analysis,ICA)、頂點成分分析(vertex component analysis,VCA);
(2)分類方法[9],包括無監督聚類方法,例如,層次聚類分析(hierarchical cluster analysis,HCA)和 k-最近鄰法(kmeans)以及有監督方法,例如線性判別分析(linear discriminant analysis,LDA);
(3)偏最小二乘法(partialleastsquares,PLS)、多元曲線分辨率(multivariatecurveresolution,MCR)等量化方法[10]。
機器學習包括多變量分析和其他一些統計方法,可以分為有監督和無監督機器學習兩類。有監督/無監督指的是分析模型當時是否有訓練機。無監督機器學習方法(無訓練集)包括所有探索性(降維)方法(例如PCA)和所有聚類方法(例如HCA);監督機器學習方法包括監督分類方法,如 LDA[9]、支持向量機(support vector machine ,SVM)[11]、人工神經網絡(artificial neural network ,ANN)[12]、k-最近鄰(k-nearestneighbor,KNN)[13]、t-分布隨機鄰居嵌入(tdistributed stochastic neighborembedding,t-SNE)[14]和所有量化方法。

圖1:現代分析儀器產生的大部分屬于多變量分析數據。多變量分析數據的數據挖掘過程可以分為三個步驟,包括,(1)數據預處理,(2)模式識別(聚類分析,分類分析和定量分析),(3)模型驗證。

圖2:光譜數據的PCA模型
現代的分析儀器,例如各種光譜,色譜方法所產生的數據都屬于多變量分析。多變量分析數據的數據挖掘過程可以分為三個步驟(圖 1),包括,(1)數據預處理,(2)模式識別(聚類分析,分類分析和定量分析),(3)模型驗證。現代分析儀器,例如色譜和光譜產生的數據都是多變量(多元)數據,也就是一個樣本對應的是多個變量,而傳統的分析采用的是單變量分析,這使得我們在分析過程中損失了大量的信息。因此培養數據挖掘創新型人才,在培養儀器分析行業創新型人才方面發揮著重要作用。我們以培養數據挖掘創新人才為導向,目的是為了提升學生的數據挖掘技能,強化創新性的儀器分析課程。
儀器分析教學中的融合數據挖掘的教學主要通過數據挖掘技術的教學和具體每個章節中將儀器本身的知識和數據挖掘方面的知識相結合。數據挖掘技術的教學在下面一個段落中會具體介紹。現在舉例介紹每個章節中儀器分析和數據挖掘知識方面的結合。
對于現在的分析儀器,在大部分的情況下,對于一個樣本,我們可以獲得一個向量,例如通過紫外檢測,我們可以獲得一個樣本的在P個波長下的紫外光譜,如果我們有N個樣本,我們可以獲得一個矩陣X(N×P)。這是一組標準的多變量的數據,它具有二維的結構。矩陣是這類型數據最常用的表達形式,我們可以矩陣進行多元分析。主成分分析是用來分析多元數據最為常見的方法之一,它的原理是對不同樣本在不同變量下產生的矩陣進行分解,獲得新的變量(方向),利用新的變量可視化原始數據,獲得分類等信息。主成分分析(PCA)是用來分析多變量數據最為常見的方法之一。它的原理是對不同樣本在不同變量下產生的矩陣進行分解,獲得包含最大方差的新方向(新的變量)。從圖2中我們可以看到一個光譜數據如果通過主成分分析,獲得一個得分(分類信息)和載荷矩陣(光譜信息)。對于一個具有n個樣本和p個變量的矩陣而言,我們可以進行主成分分解獲得得分T和載荷P:

除了光譜之外,中藥的色譜分析也常常需要使用數據挖掘方法,例如中成藥香砂養胃丸的分析。木香是中成藥香砂養胃丸的重要成分,具有健脾祛濕,消除脹滿的功能。木香烴內酯和去氫木香烴內酯是中藥木香中的藥用功能成分,它們具有抗菌,鎮痛和增強脾胃功能等作用。在傳統的高效液相色譜的檢測中,我們需要耗費大量的時間做優化實驗條件,為了改進這一缺陷,我們可以利用數據挖掘技術,在色譜峰不需要完全分開的情況下,利用“數學分析”部分增強“物理化學分離”,使得分析過程簡化,不需要獲得最優化色譜條件,并且只使用簡單的提取過程,除此之外,我們還縮短了色譜的保留時間,使得分析快速簡單[15]。
數據挖掘的學習包括計算機語言的學習,算法的學習以及和儀器相結合的實例的學習。計算機語言的學習方面,我們主要通過MATLAB程序語言的教學來實現[16]。MATLAB是Matrix Laboratory,矩陣實驗室的簡稱,它是由美國 The MathWorks公司開發的商業計算機軟件。MATLAB尤其適用于矩陣的計算,這在多元分析當中有極大的優勢。除此之外,MATLAB還配套有各種工具箱,例如機控制系統設計與分析、影像處理、深度學習等。這些配套的工具箱可以使得用戶更好的進行儀器方面的多元分析。除此之外,由于計算機程序語言的學習較為困難,我們還設計開發了基于MATLAB的圖形用戶界面,使得學習編程有困難的學生,也可以通過理解儀器和算法本身學習數據挖掘。算法的學習上主要是介紹一些基本的算法尤其是和儀器分析本身的教學相結合,讓學生更好的理解算法。
本課程主要涉及分析類內容,課程主要內容為現代儀器的發展和原理介紹以及分析儀器的應用和數據分析。因此,課程思政也主要從此兩個主要內容出發:一是通過介紹分析儀器目前的發展,讓學生了解我國在分析儀器建造中所處的階段,以及發展的目標,提高學生的使命感;二是將基礎課程與最新的科研成果結合,使學生了解學科及課程知識在國家的大發展,尤其是人工智能中起到的作用,激發學生的學習東西,擴充學生的專業背景知識。鼓勵學生積極聆聽國內外知名教授領銜的榮譽課程,了解行業動態、最新科研成果及進展,開拓國際視野,培養創新素質,切實提高學生創新精神和創新能力。本課程思政的具體實施從兩個方面出發:(1)借助視頻、動畫等多媒體教學工具,讓學生在生動形象的形式下了解我國在相關領域的杰出貢獻,增強學生的愛國熱情和民族自豪感;激發學生的學習東西,擴充學生的專業背景知識。(2)介紹各種機器學習算法在儀器分析中的應用的同時,介紹他們在其他領域的應用,并且了解我國在該領域的研究成果。
傳統的儀器分析課程的數據分析的教學往往都是基于傳統的單變量分析,這樣的分析是的現代儀器數據中的大量信息丟失,因此我們提出在儀器分析教學中加入數據挖掘的教學內容。數據挖掘主要利用現代分析儀器所產生的多元數據,可以利用機器學習算法對數據進行模式識別。數據挖掘的教學主要分為計算機語言,機器學習算法以及儀器數據的分析三個方面。在結合了數據挖掘的教學后,學生可以更好的掌握儀器中數據的獲取。通過在儀器分析的教學當中與時俱進的引入數據挖掘技術的教學,可以更好的培養出儀器分析方面的創新人才。