范興奎,劉廣哲,王浩文,馬鴻洋,李 偉,王淑梅*
(1. 青島理工大學理學院 山東 青島 266520;2. 青島理工大學信息與控制工程學院 山東 青島 266520)
在過去幾年中,機器學習作為一個跨學科領域迅速發展。機器學習技術也成功應用于計算機視覺、數據挖掘等多個領域[1-5]。20 世紀初葉,物理學家對原子和輻射原理的逐漸了解,推動了量子力學現代理論的誕生。量子力學的出現成為科學中不可缺少的一部分,其中包括原子結構、恒星核聚變、超導體、DNA 結構和自然界基本粒子等。量子計算是基于量子力學而非經典物理學的思想進行計算,比經典計算更強大。20世紀后,量子物理和機器學習的結合,提出了一個新穎、實用的概念?量子神經網絡(quantum neural network, QNN)。在量子計算機上,量子神經網絡是一種有用的學習工具,量子計算機能夠對量子態的疊加進行大規模并行計算,提供潛在的指數加速,以較低的成本提取最優網絡框架[6-11]。量子神經網絡提高了網絡的準確性、泛化性和魯棒性等性能[12-14],這得到了學界的深度重視。早在1995 年,文獻[15]最先提出了量子神經網絡的概念。之后,國內外研究人員開始對神經網絡模型進行進一步的研究。2003 年,文獻[16]提出一種簡單的量子神經網絡模型及其訓練方法,證明了量子神經網絡與經典的學習算法相比具有一些優勢。之后,研究更加深入,學者們開始著重探索QNN 模型。2005 年,文獻[17]利用QNN 和CNN(convolution neural network)對倒立擺的擺動和穩定控制進行了仿真實驗,該實驗具有很強的非線性關系,需要快速的識別能力。仿真結果表明,與CNN 相比,QNN 能夠更有效地控制運動目標,是一種利用神經計算提高非完整對象控制能力的有效方法。2013 年,文獻[18]結合薛定諤波動方程,提出了一種新的神經信息處理體系結構,該結構稱為遞歸量子神經網絡(recurrent quantum neural network, RQNN)。RQNN 可以將非平穩隨機信號描述為時變的波包,文獻[18]使用簡單信號對RQNN 進行評估,結果表明RQNN 在對含有3 種不同噪聲水平的直流信號進行濾波時,效果明顯優于卡爾曼濾波。2014 年,文獻[19]介紹了一種系統的QNN 研究方法,將神經計算的非線性耗散動力學與量子計算的線性統一動力學結合起來,充分利用了基于耗散量子計算的開放量子神經網絡思想。2018 年,文獻[20]證明了對于一大類合理的參數化量子電路,沿任何合理方向的梯度從非零到某一固定精度的概率是量子比特數的指數函數。2021 年,文獻[21]將費希爾信息譜與貧瘠高原聯系起來,首次證明,設計良好的量子神經網絡比經典神經網絡具有更高的有效維數和更快的訓練能力。多年來,量子神經網絡取得了非凡的發展,這對更快的計算需求產生了巨大影響,為解決經典計算機無法解決的問題提供了前所未有的可能性。
卷積神經網絡(CNN)是人工神經網絡的一種,卷積神經網絡的研究始于20 世紀80~90 年代。1987 年,文獻[22]提出了第一個卷積神經網絡?時 間 延 遲 網 絡(time delay neural network,TDNN),TDNN 使用BP 框架進行學習,實驗證明,在同等條件下TDNN 的性能超過了當時的主流算法?隱馬爾可夫模型(hidden markov model,HMM)。1995 年,文獻[23]開發了幾種用于醫學圖像模式識別的卷積神經網絡訓練方法。為了提高神經網絡的性能,還提出了一種利用旋轉和平移不變性的非常規方法。該人工神經網絡通過反向傳播訓練形成卷積核的權值,神經網絡可作為最終的檢測分類器來確定可疑圖像區域上是否顯示了疾病模式。性能研究表明,該技術在臨床環境中具有潛在的應用前景。隨著深度學習的發展,卷積神經網絡開始進入人們的視線。相應地,互聯網時代的到來,信息量呈爆炸式增長,對內存和時間效率的要求越來越高,這成為了一個難以解決的問題。量子計算由于其固有的疊加和糾纏特性,不僅使得量子計算范式優于傳統的人工神經網絡,而且量子計算機可以同時存儲更多的比特信息,其存儲單元是經典計算機存儲單元的指數倍,這為解決卷積神經網絡內存不足的問題提供了方向。一方面,量子卷積神經網絡從量子物理學的角度出發,利用量子計算的高并行性,在處理海量數據方面時,顯著提高了傳統機器學習的運算效率,實現了高效的信息提取和分類[24];另一方面,在量子卷積層中,單個量子門僅對相鄰的量子比特施加運算,并且在同一個量子卷積層內,所有量子門具有相同的可調參數,保留了卷積神經網絡中局部連接和權值共享的特性。這兩個特性使得量子卷積神經網絡能夠有效地提取圖像特征,降低網絡模型復雜度,顯著提升模型的運算效率。正是由于這種優勢,為未來量子機器學習帶來更廣泛的應用能力[25-26]。然而,如何設計更高效的量子態編碼方式,如何構造更通用的量子電路模型體現卷積的特性,如何實現更有效的優化算法等問題仍待進一步研究。面向經典圖像數據處理任務。
本文在前人工作的基礎上提出了一種基于參數化量子電路的量子卷積神經網絡模型。首先,對圖像數據進行預處理,包括下采樣和歸一化處理。預處理后,對圖像采用量子比特編碼的方式,編碼為量子態。接著構建參數化量子卷積神經網絡模型,簡單來說,是量子卷積層、量子池化層、量子全連接層的組合。最后,固定測量指定量子比特位,對輸出結果采用隨機梯度下降(stochastic gradient descent, SGD)方法優化模型參數,促使輸出結果接近期望值。
本文的突出貢獻主要表現在設計了一種全新的具有強糾纏特性的參數化量子線路,該量子線路能夠高效地提取出圖像的高維特征信息,并對特征信息進行較為準確的分類。實驗結果表明,通過和其他研究者提出的模型進行對比,該量子線路在包含較少的量子參數前提下,量子線路仍具有很高的分類準確率和較快的收斂速度。不僅簡化了量子線路的深度和復雜度,而且提高了量子參數的利用率,為以后對量子卷積神經網絡的研究打下了基礎。
卷積神經網絡是一種包含卷積計算的深層前饋神經網絡,是深度學習的代表算法之一[27-28]。該網絡算法尤其適用于處理具有網格結構的圖像數據[29-30],是目前圖像處理領域應用最廣泛的模型之一。CNN的成功與人類大腦視覺原理的研究息息相關,人類視覺通過逐層分級對物體認知,從瞳孔攝入像素開始,首先通過大腦皮層做一些提取特征的初步處理,接著對特征進行高級提取,并組合成相應圖像,最終大腦達到區分物體的效果。CNN 的靈感來源于人類視覺原理的這個特點。
常見的CNN 模型由5 個基本模塊組成:輸入層、卷積層、池化層、全連接層和輸出層。在圖像分類中,輸入層需要對輸入的數據進行預處理操作,其中包括:像素歸一化、像素中心化、像素標準化、PCA/SVD 降維等;對預處理后的數據作為卷積層的輸入,卷積層的主要功能是利用卷積運算從輸入數據中提取矩形特征圖,其中每一次卷積運算都與卷積核的大小、步長、個數有關。卷積核具有局部感受野的特性,用來提取圖像數據的局部特征,組成這一層卷積層的特征圖;特征圖作為池化層的輸入,進行特征選擇和信息過濾。為了降低數據維度,采用池化操作,進行下采樣。下采樣的方法分為最大值下采樣(max-pooling)與平均值下采樣(mean-pooling);卷積神經網絡中的全連接層位于隱含層的最后部分,全連接層的作用則是對提取的特征進行非線性組合以得到輸出,利用現有的高階特征完成學習目標;對于圖像分類問題,由輸出層使用邏輯函數或歸一化指數函數輸出分類標簽。CNN 包括多重卷積層和池化層,它們結構復雜,通過多重非線性變換對大量數據進行學習,在計算機視覺中表現出非常高的性能,取得了超越傳統算法的效果。經典卷積神經網絡的過程示意圖如圖1所示。

圖1 卷積神經網絡流程圖
為了盡可能地提取圖像的特征信息。預處理包括圖像下采樣和圖像歸一化。圖像下采樣不但可以保留圖像的大部分特征信息,而且可以降低對量子比特位數的需求。圖像歸一化影響網絡反向傳播的梯度,具有防止梯度消失和梯度爆炸的作用,同時也加快了網絡的訓練和收斂的速度。圖像預處理完成后,采用量子比特數據編碼的方式對特征信息量子化,將量子態信息輸入提出的新模型中。
2.1.1 圖像下采樣
在 NISQ (noisy intermediate-scale quantum)時代,量子計算機受到量子比特位數和量子電路深度的限制,使得量子分類變得困難,目前還無法構建出不受限制的量子計算機。簡單來說,圖像的大小決定量子比特的位數,圖像的大小對于當前的量子計算機會有一定的限制。為了減輕量子比特位數的限制,采用高斯金字塔下采樣的方式[31],高斯金字塔示意圖如圖2 所示。將原始圖像進行高斯濾波操作,設Gl作為高斯金字塔的第l層,原始圖像為G0,則有:

式中,i和j表示高斯金字塔第l層圖像中像素點的坐標;w(m,n)是一個二維的5×5 高斯濾波器,表達式為:

濾波操作完成后,刪除原始圖像信息的偶數行和偶數列,原始圖像的大小尺寸變成了原先的一半。按照上述步驟生成的G0,G1,···,GN構成了圖像的高斯金字塔,其中G0為 金字塔底層,GN為金字塔頂層。圖2 簡要概括了高斯金字塔的采樣過程,其中G0為8×8 像素的金字塔底層,經過高斯低通濾波后,轉換為4×4 像素的G1層,完成了數據的一次下采樣。該實驗數據集為28×28 大小的MNIST 數據集,經過3 次高斯金字塔下采樣后,原始圖像大小尺寸變為4×4 像素的灰度圖像,保留了原始圖像的部分特征信息。

圖2 高斯金字塔采樣過程
2.1.2 圖像歸一化
對于圖像數據來說,圖像的像素值是介于0~255 之間的整數。在深度神經網絡訓練進行擬合時,一般使用較小的權重值,如果當訓練數據的值較大時,可能會減慢模型訓練的過程,因此,對圖像數據進行像素歸一化是有必要的。本文采用Min-max 歸一化,目的在于去除圖像數據的像素單位,將數據轉化為無量綱的純數值,具體來說,像素歸一化后將圖像像素值縮放到[0,1]之間,Minmax 歸一化可由下式得出:

式中,p(i,j)為 在像素位置 (i,j)的 像素值;pmax和pmin分別為圖像像素值的最大值和最小值;pnew(i,j)為像素歸一化后像素位置 (i,j)的新像素值。歸一化后,圖像的特征信息在數值上有了一定的比較性,大大提高了分類器的準確性。
圖像數據經過預處理后,利用量子旋轉門Rx(θ)對圖像數據進行量子態編碼轉換為量子態信息,量子態信息作為量子卷積神經網絡模型的輸入,經過一系列變換后完成圖像的分類。本文采用量子比特編碼的方式,將像素值信息映射為量子態,圖像像素值信息pnew(i,j) 與 量子旋轉門Rx(θ)的旋轉角度θ 具有如下關系[32]:
θ(i,j)=pnew(i,j)×π
圖像的特征信息被轉換為量子旋轉門的角度,每一個像素值都為量子旋轉門Rx(θ)提供了相應的參數,不同的量子旋轉門Rx(θ)作用在相應的量子位初始態 |0?上,特征信息保留在量子態中,完成了圖像數據的量子態制備,量子態信息即可作為量子卷積神經網絡模型的輸入。數據的量子態制備示意圖如圖3 所示。

圖3 數據的量子態制備
本節詳細介紹該網絡的量子卷積層、量子池化層、量子全連接層的內部結構。
量子卷積層由多個參數化量子濾波器組成,量子濾波器類似于經典卷積層中的卷積核,量子卷積層使用參數化量子濾波器對數據的局部空間所有量子位進行特征提取(特征圖)。對整個網絡模型起到了提取量子位復雜特征信息的重要作用。量子濾波器包含多種類的量子比特門,其中包括單量子比特門和雙量子比特門,它們可以對相應的量子比特位進行幺正變換,雙量子比特門作用于相鄰的量子比特上,實現了相鄰量子比特的量子糾纏。該網絡既融入了量子力學中的獨有特性,也保留了卷積核權值共享的特點。本文采用類似于文獻[33]提出的量子線路,該量子線路由CNOT 門、Rx(θ)旋轉門和旋轉門組成,如圖4 所示,卷積核U具有7 個可調整的參數。

圖4 量子卷積層的線路結構
量子池化層和經典池化層相似,為了對量子卷積層所提取的特征進行降維,該網絡使用量子池化層,對量子態特征進行量子池化操作,去除了冗余信息、簡化網絡的復雜度。同時量子池化層提取到了復雜的特征信息,提高了模型的準確精度。量子池化層包含多個量子測量操作和經典受控量子門,其中經典受控量子門依據測量結果,對所作用的量子位施加不同的幺正變換。本文精心設計了量子池化層的電路結構,如圖5 所示。在量子線路中加入CNOT 門、Ry(θ)旋 轉門和Rz(θ)旋轉門,參數化量子門施加于相鄰量子比特上,完成對量子態局部概率幅進行特征融合的同時作降維采樣處理。其中,R?z(θ)表 示Rz(θ)的共軛轉置量子門,有6 個可調參數。

圖5 量子池化層的線路結構
量子全連接層和經典全連接層相似,出現在網絡模型的末尾。經過量子池化層降維運算,量子系統中相干量子比特的數量減少。當數量足夠少時,對剩余量子比特施加量子全連接層,將特征映射到樣本標記空間,量子全連接層起到了分類器的作用。本文采用強糾纏量子線路作為全連接層,它由多個通用單量子比特門和CNOT 門組成。量子全連接層內部各個量子門的參數相互獨立,并且強糾纏電路具有線路效率高、計算量少的優點。文獻[34]已經證明,強糾纏低深度線路被視為一種強大的分類器。量子全連接層線路結構如圖6 所示。共包含12 個可訓練的參數。所提取的特征信息仍保留在輸出量子比特的量子態中,需要通過量子測量進行提取利用,固定選取一個量子比特進行測量,并將測量結果映射為量子卷積神經網絡的判別結果。其中,量子測量的原理是對該量子態進行測量,使疊加態波包塌縮到一個基態,對量子系統的輸出執行Z 基測量,得到量子系統的輸出。即:

圖6 量子全連接層的線路結構

式中, | φ?in為 輸入圖像的量子態;U(θ1)為網絡卷積層中具有訓練參數的酉算子的乘積;V(θ2)、F(θ3)為網絡池化層、全連接層中具有訓練參數的酉算子。
考慮到量子測量的概率性,為減少量子卷積神經網絡模型的輸出方差,實驗選取多次測量結果的均值作為單個量子比特的輸出值。
仿真實驗使用TensorFlow Quantum 量子計算框架[35]作為模型搭建平臺,實驗數據都是在配備11th Gen Intel(R) Core(TM) i7-11800H 和16 GB RAM的筆記本電腦上收集的。本文展示了一種在MNIST數據集上的圖像識別任務,通過結果分析來驗證量子卷積神經網絡的學習能力。該實驗模擬了圖像的預處理、圖像量子態的制備、完整的量子卷積神經網絡模型。模型由量子卷積層、量子池化層和量子全連接層組合而成。對比不同層數的QCNN 模型的學習能力,即一個具有三層量子卷積層和三層量子池化層結構的模型;另一個有兩層量子卷積層和兩層量子池化層結構的模型。兩種QCNN 模型分別對兩類灰度圖像識別任務{0,1}、{2,7}進行實驗分析,采用控制變量法,兩種模型使用相同的預處理方法、量子態制備方法、損失函數、梯度下降函數、數據集、測試集。隨機選取{0,1}、{2,7}兩類數據集組成訓練集和測試集,訓練集包括1 000個訓練樣本,分別包含500 張數字0 和1 的樣本,測試集包括250 個測試樣本,分別包含125 張數字0 和1 的樣本,{2,7}數據集樣本分布和{0,1}相同。
本文將28×28 像素的手寫數字樣本采用高斯金字塔下采樣的方式,將手寫數字樣本下采樣為4×4 像素的灰度圖像?;叶葓D像通過Min-max 歸一化操作和量子數據編碼后,會有16 個輸入量子比特作為QCNN 的輸入,每經過一層量子池化,量子比特的數量縮減為原來的一半。由于量子卷積層和量子池化層具有權值共享的特點,每一層的參數數量保持不變。本文使用不同層數的量子卷積層和量子池化層做對比實驗,實驗a 按照兩層量子卷積層和兩層量子池化層的比例構建模型,包含42 個可訓練參數;實驗b 按照三層量子卷積層和三層池化層的比例構建模型,包含51 個可訓練參數。實驗a 和b 所用模型如圖7 所示。

圖7 實驗a 和實驗b 的QCNN 網絡模型的線路結構
實驗a 的訓練迭代次數為100;批次大小為64;學習率為0.3,損失函數定義為均方誤差(mean square error, MSE),它是預測值f(x)與 目標值y之間差值平方和的均值,如下式所示:

兩個數據集的損失值和準確率曲線如圖8 所示。分析曲線分布可以明顯地看出,實驗b 相比實驗a 有更高的分類準確率和更穩定的損失函數。其中,{0,1}分類中實驗a 的準確率為96%,實驗b 的準確率100%;{2,7}分類中實驗a 的準確率為96%,實驗b 的準確率100%。三層網絡模型結構對{0,1},{2,7}分類效果顯著,準確率達到了100%,并且損失函數收斂的速度更快。三層網絡模型結構相比于兩層網絡模型結構,三層網絡模型結構具有更強的學習能力和泛化性能。增加模型層數和模型參數對分類效果的提升較大,提高了模型的分類準確率和泛化能力。

圖8 不同QCNN 模型的分類準確率函數和損失函數
所提出的三層網絡模型的QCNN 結構在{0,1}分類和{2,7}分類中,準確率可達到100%。為了提高量子線路的特征提取率和分辨率,更好地適應其他二分類任務,本文改變數據集樣本的下采樣方法,采用平均池化下采樣策略,對圖像預處理進行進一步的改善。2022 年,文獻[36]提出了一種混合量子神經網絡來實現現實世界數據集的多分類任務,證明了平均池化下采樣策略的可行性。平均池化下采樣通過空白切割和平均池化操作,首先將28×28 像素的數據樣本空白切割為20×20 灰度圖像,丟棄每個邊界上幾乎沒有有用信息的像素塊。再對20×20 灰度圖像進行平均池化,將20×20灰度圖像分為16 組5×5 的像素塊,計算每個5×5像素塊的平均值,得到4×4 灰度圖像。
實驗使用經過平均池化預處理后的4×4 像素的灰度圖像,經過量子態制備后作為模型的輸入,執行{0-9}中每對數字的二分類任務。該實驗使用三層量子卷積層和三層池化層的模型,包含51 個可訓練參數。實驗批次大小為8;學習率為0.1;損失函數定義為交叉熵函數,公式如下所示:

通過分析圖9,除了{0,1}分類和{2,7}分類外,三層網絡結構的QCNN 對數字0 和數字2 的分類準確率最高,達到了99.68%。對數字4 和數字9 的分類準確率最低,但也達到了93.22%。經過平均池化策略后的數字4 和數字9 視覺觀察效果相似,提取的特征相似度大,相比于其他數字,模型的識別難度會增大許多。但是,該模型是基于16 位量子比特的輸入,當量子位可以不再受到嚴格的限制時,模型對量子態特征的提取將會更加全面,相信這個問題在不久的將來會得到一個合理的解決。

圖9 MNIST 數據集的45 個二分類結果
此外,將本文提出的三層網絡結構與其他方法進行了比較。文獻[37]訓練了一個張量網絡,該模型可以減少處理高維數據所需的量子比特數,共包含1 008 個參數。文獻[37]使用MNIST數據集執行二分類任務,得到了45 個分類任務的結果,其中該模型對{0,1}、{0,4}、{1,9}分類準確率最高,對{3,5}、{4,9}、{7,9}分類準確率最低。文獻[38]使用Tree Tensor Network (TTN)、Multiscale Entanglement Renormalization Ansatz (MERA)和一個經過TTN 預訓練的MERA 來處理4 個二分類任務,包括{0,1}、{2,7}和奇偶數,是否大于4 進行分類。在相同的任務上,該實驗使用三層結構的QCNN 網絡模型,下采樣采用平均池化策略,實驗結果如表1 所示。可以看出,本文的網絡模型和張量網絡模型相比,在6 個分類任務中,分類準確率更突出,模型性能更穩定,對MNIST 數據集適用性更高。另外,本文模型包含51 個參數,參數個數遠小于文獻[37]提出的張量網絡模型,充分發揮了量子卷積層和量子池化層的特征提取的作用,減少了計算復雜度。QCNN模型和文獻[38]提出的模型相比,在對數字{0,1}和{2,7}和對大于4 的數分類任務中,本文網絡模型準確率超過了文獻[38]提出的模型,但在奇偶分類任務中,準確率并不突出,但準確率也達到了81.35%。QCNN 模型的性能在多數方面超過了它們,但在奇偶分類中還需要網絡模型的進一步完善,表明了QCNN 對這些任務有一定的處理能力,并且還可以通過完善模型線路,使模型分類準確率進一步提升。

表1 本文與其他模型的性能分析
本文提出了一種面向圖像識別的強糾纏參數化量子卷積神經網絡,詳細闡述了網絡模型內部結構的理論基礎,該網絡模型對MNIST 數據集進行多種二分類任務。通過對參數個數為51 的三層網絡模型和參數個數為42 的兩層網絡模型進行對比,三層網絡的QCNN 模型在{0,1}和{2,7}分類中,性能表現更加出色,具有較強的學習能力,分類準確率均達到了100%,并且損失函數收斂速度更快。為了進一步提高模型的泛化能力,同時考慮到NISQ 設備中可用的量子位數量的有限性,本文采用平均池化策略對原始圖像進行下采樣處理。與傳統方法相比,它保留了更多的數據特征。對采用平均池化策略的模型模擬了一個相對全面的數值實驗,與其他方法進行比較,本文提出的QCNN 模型在MNIST 數據集識別方面有效地完成了圖像的二分類任務,顯示出了競爭性的識別結果,并且在學習時具有穩定的量子機器性能。與經典CNN 相比,利用量子力學的量子態疊加和量子態糾纏特性,解決了模型對內存和時間問題,證明了QCNN在圖像分類任務中具有良好的應用前景。但在奇偶分類方面,還需要研究更高效、學習性能更好的QCNN 模型來提高奇偶分類的準確率。接下來,計劃將QCNN 模型應用于更復雜的數據分類任務,這些問題將是未來的研究重點。相信隨著大規模量子設備的出現,量子位數量的有限性將會得到合理解決,從而可以最大限度地提取原始圖像的特征信息,達到優化模型的學習能力和適應能力的效果。