楊光 鈔蘇亞 聶敏 劉原華 張美玲
(西安郵電大學通信與信息工程學院,西安 710121)
長短期記憶(long-short term memory,LSTM)神經網絡通過引入記憶單元來解決長期依賴、梯度消失和梯度爆炸問題,廣泛應用于時間序列分析與預測.將量子計算與LSTM 神經網絡結合將有助于提高其計算效率并降低模型參數個數,從而顯著改善傳統LSTM 神經網絡的性能.本文提出一種可用于圖像分類的混合量子LSTM (hybrid quantum LSTM,HQLSTM)網絡模型,利用變分量子電路代替經典LSTM 網絡中的神經細胞,以實現量子網絡記憶功能,同時引入Choquet 離散積分算子來增強數據之間的聚合程度.HQLSTM 網絡中的記憶細胞由多個可實現不同功能的變分量子電路(variation quantum circuit,VQC)構成,每個VQC 由三部分組成: 編碼層利用角度編碼降低網絡模型設計的復雜度;變分層采用量子自然梯度優化算法進行設計,使得梯度下降方向不以特定參數為目標,從而優化參數更新過程,提升網絡模型的泛化性和收斂速度;測量層利用泡利Z 門進行測量,并將測量結果的期望值輸入到下一層實現對量子電路中有用信息的提取.在MNIST,FASHION-MNIST 和CIFAR 數據集上的圖像分類實驗結果表明,與經典LSTM、量子LSTM 相比,HQLSTM 模型獲得了較高的圖片分類精度和較低的損失值.同時,HQLSTM、量子LSTM 網絡空間復雜度相較于經典的LSTM 網絡實現了明顯的降低.
人工神經網絡憑借其強大的非線性信息處理能力及泛化能力[1,2],成為一種重要的機器學習模型,被廣泛應用于信號處理[3,4]、自然語言處理[5,6]、圖片分類等領域[7-9].量子計算基于量子態相干疊加、糾纏等特性,能夠提供強大的并行計算能力[10-17].如何將量子計算與人工神經網絡相結合,充分發揮二者的優勢,從而改進經典神經網絡架構,提升網絡計算性能成為研究者們關注的一個重要方向.Kouda 等[18-21]初步提出了早期受經典神經網絡激發的量子神經網絡(quantum neural network,QNN)模型,為該領域的研究提供了借鑒思路.2019 年,Cong 等[22]提出的量子卷積神經網絡(quantum convolutional neural network,QCNN)只使用O(log(N))變分參數作為N個量子位的輸入大小從而減少了網絡的復雜度;2020 年,Henderson 等[23]提出了量子卷積層的概念,通過隨機量子電路增強了從數據中提取特征的能力,但是缺乏非線性操作來增強網絡的泛化性;2021 年,Niu 和Ma[24]提出了具有多層激活函數的QNN,增強了網絡模型的健壯性.針對二維圖片數據,2022 年,Houssein 等[25]提出用隨機化量子電路構造混合QNN 模型,在對新冠肺炎圖片分類實驗中,達到了較高的分類精度;同年,Hur 等[26]和Chen 等[27]分別提出了不同的QCNN 模型,均達到了較好的圖片分類效果.
然而以上QNN 網絡模型缺乏網絡層之間的相互關聯和記憶功能,不利于解決數據信息丟失問題,且訓練精度有待提高.Xia 和Kais [28]提出了一種用于計算分子基態能量的混合量子-經典神經網絡,利用量子測量的期望值作為下一層量子門的角度參數,達到了較好的擬合效果;同年,Mari 等[29]提出了4 種在混合經典-量子神經網絡中使用轉移學習的模型結構,實現了較高的量子態分類精度.以上研究表明量子測量的期望值有利于從量子電路中提取有效信息.
長短期記憶(long-short term memory,LSTM)神經網絡是一種特殊的循環神經網絡[30-32],其利用記憶細胞來增強各層之間的相互關聯,解決了傳統循環神經網絡數據長期依賴以及梯度消失問題,被廣泛應用于時間序列分析與預測領域.對于二維圖片數據,LSTM 神經網絡可增強其數據之間的記憶功能,從而達到充分提取圖片序列特征的效果[33,34].但是利用經典 LSTM 網絡進行圖片分類,存在訓練參數過多、計算速度慢及破壞圖片空間特征的問題.然而利用量子強大并行計算能力的量子長短期記憶神經網絡(quantum long-short term memory,QLSTM)可以較快提升網絡訓練速度,減少網絡參數,因此近年來得到學者們的關注.2020 年,Chen 等[35]首次提出一種QLSTM 模型用于擬合時間序列,降低了模型的復雜度,并提高其收斂速度.但是該模型只針對一維數據進行設計,而如何面向不同維數、類型多樣的數據來構造網絡,并進行網絡性能優化還有待進一步研究.
針對二維圖像分類領域的需求,本文提出了一種混合量子長短期記憶(hybrid quantum LSTM,HQLSTM)神經網絡模型.HQLSTM 網絡中的每個記憶細胞由多個可實現不同功能的VQC(variation quantum circuit,VQC)組成,VQC 的編碼層采用角度編碼進行圖片數據轉換,避免大量圖片數據導致過深的網絡結構;變分層利用量子自然梯度優化算法的優化過程進行構建,使網絡參數的優化過程不沿任何特定的方向,確保網絡參數優化更具普遍性以及更快收斂;為實現量子網絡與經典網絡的連接,減少圖片數據之間關聯信息的流失,測量層將測量每一個量子比特得到的期望值作為經典層傳入下一層作為Ry門的參數,達到從量子電路中提取有效信息的目的.此外,為保留二維圖片的空間特征,本文采用Choquet 離散積分算子代替記憶細胞的求和算子,達到既能充分提取圖片序列特征又不損失圖片空間特征的目的.在實驗部分,本文采用三個公開數據集: MNIST 手寫數據集、FASHION-MNIST 服飾數據集和CIFAR彩色數據集進行模型圖像分類性能驗證,結果表明,與經典LSTM 及文獻[35]中的QLSTM 相比,本文提出的HQLSTM 實現了較高的分類精度,同時具有較低的空間復雜度.隨著量子計算機的不斷發展,在未來的人工智能領域具有積極的應用價值.
LSTM 網絡模型由若干記憶細胞組成,如圖1所示.每個記憶細胞由遺忘門、輸入門、輸出門三部分組成.A t-1代表前一時刻記憶細胞的狀 態,At+1代表后一時刻記憶細胞的狀態.記憶細胞的數據輸入由當前時刻的輸入數據xt以及前一個記憶細胞隱藏層輸出h t-1共同決定.通過將Choquet離散積分算子代替LSTM 記憶細胞求和項來加強數據之間的關聯程度.

圖1 LSTM 網絡模型結構Fig.1.The structure of the LSTM network model.
遺忘門通過δ激活函數使其輸出f t處于[0,1]之間,從而決定前一個記憶細胞c t-1信息遺忘程度.f t和Sigmoid 激活函數可表示為
it
輸入門主要決定當前記憶細胞的輸入值,由 和k t共同決定.i t通過δ激活函數控制當前記憶細胞的輸入值,kt通過 t anh 激活函數來生成當前記憶細胞的候選量.如(2)式和(3)式所示:
當前記憶細胞狀態Ct的更新主要由兩部分組成: 1)ft作用于C t-1決定當前記憶細胞舊的記憶;2)i t作用于k t決定當前記憶細胞新的記憶,舊的記憶和新的記憶共同構成當前記憶細胞狀態Ct.具體過程可表示為
輸出門主要用于決定當前記憶細胞Ct對輸出ht的影響.先將當前記憶細胞Ct作用于 t anh 激活函數進行歸一化處理,再根據xt和h t-1計算得出Ot決定C t輸出數據對ht的影響.具體過程可表示為
其 中,δ為Sigmoid 激活函數,W fx,Wix,W kx,Wox為輸入數據x t的不同權重矩陣,W fh,W ih,Wkh,W oh為前一個記憶細胞輸出數據h t-1的不同權重矩陣,b f,b i,b k,b o為不同偏移權重向量.
為利用LSTM 網絡的序列記憶優勢進行圖片分類,同時又不損失圖片空間信息,本文利用n維的Choquet 離散積分算子修改LSTM 細胞單元中的求和算子,產生了一個多維的信息聚合,從而使圖片的空間特征充分表達,實現圖片中所有像素數據之間更深入關聯的目標.
一維的Choquet 離散積分算子可表示為
其中,σ代表排列體,即x σ(1)≤···≤xσ(m).Aσ(i):={σ(i),···,σ(m)},m代表一維向量的個數,q代表一個常數值,|A|代表集合A中的元素個數.
二維的Choquet 離散積分算子可表示為
二維的Choquet 離散積分算子過程可如圖2所示.

圖2 二維的Choquet 離散積分算子圖示Fig.2.Two-dimensional Choquet discrete integral operator diagram.
圖3 為包括3 個記憶細胞的HQLSTM 網絡模型結構,每一個記憶細胞同樣由遺忘門、輸入門、輸出門三部分組成.與經典LSTM 不同之處在于,HQLSTM 網絡模型將經典LSTM 中的不同權重參數矩陣更換為新構建的具有不同參數的6 個VQC,每一個VQC 根據所處的門的位置來實現不同的功能.

圖3 HQLSTM 網絡模型結構Fig.3.The structure of the HQLSTM network model.
圖4 給出了HQLSTM 細胞中的VQC 結構,由編碼層、變分層、測量層三部分組成.

圖4 HQLSTM 細胞中的VQC 結構Fig.4.The overall structure of the HQLSTM network model.
3.2.1 編碼層
編碼層用于實現經典數據到量子數據之間的轉換,由于本文使用量子網絡對大量圖片進行分類,將會給網絡模型帶來較大復雜度.因此本文采用角度編碼的方式來減少網絡模型的深度,從而提升網絡模型的訓練速度.具體過程由Ry門和H門實現.
Ry門和H門可表示為
編碼具體過程如下: 首先,量子H門將初始化量子態|0〉?···?|0〉 轉化為糾纏態,如(13)式所示:
由于直接將二維圖像數據作為序列輸入,會造成圖像空間特征的損失,因此本文在HQLSTM 每一個記憶細胞中均采用Choquet 離散積分算子對圖像數據和前一時刻HQLSTM 記憶細胞的隱藏層輸出h t-1進行聚合,達到減少輸入數據大小、避免圖像空間特征損失以及加強記憶細胞間相互關聯的目的.以28 × 28 的圖像數據為例,將其加載到圖4 所示4 量子比特VQC 的詳細原理及過程如下.
步驟1為利用一副圖片內部數據的相互關聯,并減少量子比特數,首先將預處理后的28 ×28 的圖像數據分割為49 份4 × 4 的圖像數據,并將隱藏層的維數設為1 × 4,其后將4×4 圖像數據和1 × 4 隱藏層數據進行拼接得到大小為5 × 4的經典數據.
步驟2為避免圖像空間特征的損失,將上一步大小為5×4 的經典數據經過Choquet 離散積分算子得到大小為1×4 的聚合數據加載到4 量子比特的VQC 中.Choquet 離散積分算子的具體聚合過程如下所示:
式中,4 項Choquet 離散積分均可由(9)式得到一個具體的聚合數據,h t為t時刻HQLSTM 記憶細胞隱藏層的輸出.x i,j為28×28 的圖像數據中的第i行、第j列.
步驟3經過步驟1、步驟2,一幅28 × 28 的原始圖片被轉換為49 份1 × 4 的聚合數據,因此將HQLSTM 網絡中記憶細胞更新次數(即time_step)設置為49,并將記憶細胞的輸出值與經典全連接層進行連接,通過激活函數得到每一類的輸出概率值,概率值最大的即為當前圖像的分類類別.
3.2.2 變分層
為使量子網絡梯度更新方向不以任何參數為目標且具有在量子態空間定義的度量張量,從而使量子網絡優化方式更具泛化性、更快收斂,因此變分層設計主要根據本文的量子自然梯度優化算法原理,即通過變分層第1 部分的參數化單量子比特門R y的測量結果,以及經過多個CNOT 雙量子比特門的第2 部分參數化單量子比特門R y的測量結果共同構成Fubini-Study 度量張量g,從而完成網絡參數的更新,達到優化網絡模型的效果.
當N為偶數時,變分層構造過程可表示為
當N為奇數時,變分層構造過程可表示為
其中,C NOTi,j代表作用于第i和第j量子位的雙量子比特門.
3.2.3 測量層
測量層用于對量子比特進行測量操作.由于期望值能夠從量子電路中提取有用信息,因此為了能夠更大限度的保留輸入數據中的信息,本文利用泡利Z門對每一個量子比特進行測量,再將測量得到的期望值b i作為下一層R y門的參數,從而連接兩個量子電路,實現對量子電路中測量信息的有效利用:
其中,Z為泡利Z門,N為VQC中的量子比特數,為作用于第i個量子比特上的泡利Z門測量的期望值,U0(x) 為VQC 中編碼層的單量子比特旋轉門R y,U i(θi) 為VQC 中變分層的單量子比特旋轉門R y.
3.3.1 遺忘門
利用VQC1 實現遺忘門操作,經Choquet 離散積分算子處理后得到的大小為1 × 4 的經典數據v(h,x) 經過量子角度編碼輸入到VQC1,經過VQC1 變分層中的各個旋轉門及CNOT 門之后,再利用泡利Z門分別對4 個量子比特進行測量,將測量得到的1 × 4 維經典期望值作為VQC1 的輸出.其后,通過Sigmoid 激活函數作用于該輸出,使其值處于[0,1]之間,從而得到遺忘程度f(t),f(t) 的值決定了上一時刻記憶細胞c t-1的保留與丟棄:
3.3.2 輸入門
利用VQC2 和VQC3 實現輸入門操作,經Choquet 離散積分算子處理后得到的大小為1 ×4 的經典數據v(h,x) 經過量子角度編碼分別輸入到VQC2 和VQC3,經過VQC2 和VQC3 變分層中的各個旋轉門及CNOT 門之后,再利用泡利Z門分別對4 個量子比特進行測量,將測量得到的1 × 4 維經典期望值分別作為VQC2 和VQC3的輸出.其后,通過Sigmoid 激活函數作用于VQC2的輸出,使其值處于[0,1]之間,從而得到輸入程度i t,通過tanh 激活函數作用于VQC3 的輸出,使其值處于[—1,1]之間,從而得到記憶細胞候選量kt,最終通過計 算f(t)?ct-1和i t ?kt之 和,來生成當前記憶細胞狀態量c t:
3.3.3 輸出門
利用VQC4 實現輸出門操作,經Choquet 離散積分算子處理后得到的大小為1×4 的經典數據v(h,x) 經過量子角度編碼輸入到VQC4,經過VQC4 變分層中的各個旋轉門及CNOT 門之后,再利用泡利Z門分別對4 個量子比特進行測量,將測量得到的1 × 4 維經典期望值分別作為VQC4的輸出.其后,通過Sigmoid 激活函數作用于VQC4的輸出,使其值處于[0,1]之間,從而得到輸出程度ot.之后為保持隱藏層維度和最終輸出維度一致,將o t ?tanh(ct) 得到的1 × 4 維經典數據分別作為VQC5 和VQC6 的輸入,與其他VQC 操作類似,最后利用泡利Z門分別對4 個量子比特進行測量,得到的1 × 4 維經典期望值作為VQC5和VQC6 的輸出h t和y t:
由于一般的梯度下降算法存在泛化性差且收斂速度慢的缺點,因此本文采用量子自然梯度優化算法對VQC 角度參數進行更新,量子態空間存在一種獨特的酉不變度量張量Fubini-Study,而量子自然梯度優化算法利用該張量計算所得到的梯度下降算法是對自然梯度的直接量子模擬,能使梯度下降的方向不以任意一個參數為目標,具有更強的適用性,同時達到網絡模型更快收斂的目的[36].該優化算法具體計算過程如下所示.
第1 步定義損失函數L(x;θ) 和損失函數梯度? L(x;θ) .
其中,U(θ) 為酉算子,U0(x) 為用于角度編碼的量子R y門,H為哈密頓算子,本文利用單比特量子旋轉R y門作為酉算子、泡利Z矩陣為哈密頓算子.
第2 步由于損失函數L(x;θ) 是非凸函數,尋找全局最優較為困難,因此通過(28)式的離散時間動力系統來迭代尋轉局部最優:
其中,η為學習率,g(θ) 為Fubini-Study 度量張量.
本文VQC 電路中Fubini-Study 度量張量的計算過程如下所示(其部分VQC 結構如圖5 所示).

圖5 計算Fubini-Study 度量張量的部分VQC 結構Fig.5.Calculate part of the VQC structure of the Fubini-Study metric tensor.
一般的變分量子電路可表示為
因此,本文利用(32)式g來代表Fubini-Study度量張量:
對第一個參數化量子門的層前面的v0(θ0,θ1) 的前兩個比特做測量,得到g0:
對第2 個參數化量子門的層前面的v1(θ2,θ3) 的前兩個比特做泡利y和泡利x測量,得到g1:
第3 步利用(28)式的一階最優條件來優化參 數.將求得的Fubini-Study 度量張量g代 入(35)式即可得到更新后的參數值:
為驗證分類器的性能,本文采用3 個公開的數據集進行實驗,分別是灰度圖像數據集MNIST和FASHION_MNIST以及RGB 圖像數據集CIFAR.圖6(a)為MNIST手寫數據樣本示例,包括數字0—9 十大類.圖6(b)為FASHION_MNIST服飾數據樣本示例,包括T 恤、牛仔褲、套衫、裙子、外套、涼鞋、襯衫、運動鞋、包、短靴十大類.圖6(c)為CIFAR 數據樣本示例,包括飛機、汽車、鳥類、貓、鹿、狗、蛙類、馬類、船、卡車十大類.首先對3 種數據集均進行一些必備的預處理操作,包括圖片平移、翻轉、旋轉、去噪、歸一化.之后各隨機抽取30000 樣本作為訓練集,隨機抽取10000 樣本作為測試集,每一個灰度圖片的尺寸為28 × 28,彩色圖片尺寸為32 × 32.

圖6 數據集樣本 (a) MNIST 數據集;(b) FASHION-MNIST 數據集;(c) CIFAR 數據集Fig.6.Dataset image samples: (a) MNIST dataset;(b) FASHION_MNIST dataset;(c) CIFAR dataset.
本文實驗中LSTM,QLSTM[35]和HQLSTM網絡模型參數如表1 和表2 所示.

表1 LSTM 網絡模型參數Table 1.LSTM network model parameters.

表2 QLSTM 和HQLSTM 網絡模型參數Table 2.QLSTM and HQLSTM network model parameters.
為驗證本文所提出的HQLSTM 網絡模型的性能,采用分類精度Accuracy 和交叉熵驗證損失值Loss 兩個方法對網絡模型進行評價分析.
(37)式中T i(j),i=j: 真實類別為i,正確分類為類別i的總數量.F i(j),ij: 真實類別為j,錯誤分類為i的總數量.i,j=1,2,···,N.N為總類別數.(38)式中y p為預測的類別,y i為真實的類別.
本文采用LSTM,QLSTM,HQLSTM 三種網絡模型分別針對MNIST,FASHION-MNIST 和CIFAR 三種圖像數據集進行分類實驗,其中MNIST,FASHION-MNIST 為灰度圖,CIFAR 為彩色圖.
4.4.1 MNIST 數據集實驗結果
圖7(a)給出了在MNIST 數據集上3 種模型的分類精度隨著迭代次數的變化情況.可以看出,當迭代次數大于80 后,3 種模型的分類精度趨于穩定,而HQLSTM 模型由于深度的網絡記憶功能以及量子計算的并行計算能力使分類精度最高達到99.154%,LSTM 分類精度最低為97.306%.圖7(b)給出了在MNIST 數據集上3 種模型利用隨機梯度下降(stochastic gradient descent,SGD)優化算法得到的交叉熵損失函數隨著迭代次數的變化情況.可以看出,當迭代次數小于10 時,3 種模型的損失值趨于一致.但當迭代次數大于10 后,隨著迭代次數增多,量子網絡模型深度記憶功能得以體 現,HQLSTM 的損失值達到最低.圖8 為 在HQLSTM 模型中,利用本文提出的量子自然梯度優化算法和普通批梯度下降算法兩種不同優化算法的損失值對比,可以看出,在MNIST 數據集中,本文所采用的量子自然梯度優化算法具有的獨特的參數更新策略使損失值下降的更快且更低.

圖7 MNIST 數據集 (a)分類精度對比;(b)損失函數值對比Fig.7.MNIST dataset: (a) Comparison of classification accuracy;(b) comparison of loss value.

圖8 不同優化算法損失值對比Fig.8.Comparison of loss values of different optimization algorithms.
4.4.2 FASHION-MNIST 數據集實驗結果
圖9(a)給出了在FASHION-MNIST 數據集上QLSTM,LSTM,HQLSTM 三種模型分類精度隨著迭代次數的變化情況.可以看出,在更復雜的數據集中,由于HQLSTM 網絡模型較強的泛化性以及較深的網絡記憶功能,整個迭代過程中HQLSTM 的分類精度始終高于QLSTM 和LSTM.當迭代次數大于60 后,3 種網絡的分類精度均趨于穩定,HQLSTM 的分類精度達到最高為98.273%,QLSTM 和LSTM 基本持平.圖9(b)給出了在FASHION-MNIST 數據集上3 種模型利用SGD優化算法得到的交叉熵損失函數隨著迭代次數的變化情況.可以看出,HQLSTM 的損失值始終低于QLSTM 和LSTM.當迭代次數大于60 次后,3 種模型的損失值基于趨于穩定,HQLSTM 的損失值達到最低,LSTM 達到最高.圖10 為在HQLSTM 模型中,普通批梯度下降算法和量子自然梯度優化算法兩種不同優化算法的損失值對比,可以看出,在FASHION-MNIST 數據集中,本文所采用的量子自然梯度優化算法也同樣比普通批梯度下降算法達到的損失值更低.

圖9 FASHION-MNIST 數據集 (a) 分類精度對比;(b) 損失函數值對比Fig.9.FASHION-MNIST dataset: (a) Comparison of classification accuracy;(b) comparison of loss value.

圖10 不同優化算法損失值對比Fig.10.Comparison of loss values of different optimization algorithms.
4.4.3 CIFAR 數據集實驗結果
為了進一步驗證HQLSTM 對復雜彩色圖像數據集的分類效果,本節利用CIFAR 彩色圖像數據集進行分類驗證,由于CIFAR 為三通道RGB圖像數據集且每幅圖像的大小為32 × 32,當采用Choquet 積分算子得到1 × 4 維的輸入數據時,需要將time_step 設置為192.圖11(a)給出了在CIFAR彩色圖像數據集上LSTM,QLSTM,HQLSTM 三種模型分類精度隨著迭代次數的變化情況.可以看出,HQLSTM 的分類精度也始終高于LSTM 和QLSTM.HQLSTM 最高分類精度為98.631%,QLSTM 最高分類精度為96.334%,LSTM 最高分類精度為92.671%.圖11(b)給出了在CIFAR 彩色圖像數據集上3 種模型利用SGD 優化算法得到的交叉熵損失函數隨著迭代次數的變化情況.可以看 出,HQLSTM 的損失值始終低于QLSTM 和LSTM.說明HQLSTM 在彩色數據集上同樣具有較快的收斂速度.因此,本文提出的HQLSTM 網絡模型無論對灰度圖還是RGB 圖像,均實現了較優的性能.

圖11 CIFAR 彩色數據集 (a)分類精度對比;(b)損失函數值對比Fig.11.CIFAR color dataset: (a) Classification accuracy;(b) comparison of loss value.
表3 給出QLSTM[35],HQLSTM 與經典LSTM三種網絡模型在MNIST,FASHION-MNIST 和CIFAR 三種圖片數據集下所實現的分類精度.在MNIST 數據集上,本文提出的HQLSTM 網絡模型達到了最高的分類精度99.154%,LSTM 和文獻[35]中提出的量子LSTM 網絡模型分類精度基本持平,分別為97.306%和97.894%;在FASHIONMNIST 數據集上,本文提出的HQLSTM 網絡模型也達到了最高的分類精度98.273%,QLSTM 的分類精度次之,為96.865%,LSTM 的分類精度最低為96.829%.在CIFAR 彩色數據集中,HQLSTM網絡模型也達到了最高的分類精度98.631%,QLSTM 的分類精度為96.334%,LSTM 的分類精度為92.671%.可以看出,不管針對灰度圖或者彩色圖,HQLSTM 均優于其他的兩種模型,進一步證明了HQLSTM 網絡模型的優勢.

表3 不同網絡模型圖像分類精度比較Table 3.Comparison of image classification accuracy of different network models.
機器學習模型的復雜度通常由空間復雜度和時間復雜度來衡量,因此下面主要從這兩個方面進行分析.
4.5.1 空間復雜度
空間復雜度取決于機器學習模型的參數數量.在長短期記憶網絡訓練過程中,總的參數數量與記憶細胞數量及時間步(time_step)數有關,這里以一個記憶細胞在一個時間步的參數個數為例進行分析.
根據LSTM 網絡結構,將一個記憶細胞在一個time_step 的參數個數記為p1:
式中,n為輸入大小,h為隱藏層大小,m為經過全連接層映射最終輸出大小.式中 4×((n+h)×h+h) 表示記憶細胞中所有權重參數個數,h×m+m表示全連接層參數個數.
對于QLSTM 網絡,將一個記憶細胞在一個time_step 的參數個數記為p2:
其中,N為VQC 中量子比特的個數,d為VQC 中變分層的深度.式中 6×(N ×d) 為6 個VQC 電路中所有的角度參數個數,N ×m+m為全連接層參數個數.
對于HQLSTM 網絡,將一個記憶細胞在一個time_step 的參數個數記為p3:
在本文中,LSTM 網絡的隱藏層大小h等于輸入層大小n.同時,為保證QLSTM 網絡與HQLSTM網絡具有相同的糾纏程度,在具有1 層VQC 結構的QLSTM 中,d=2,而在具有2 層VQC 結構的HQLSTM 中,d=1.此外,3 種模型的全連接層的參數個數是相同的,因此在比較三者的空間復雜度時,忽略這一部分影響.根據(39)式—(41)式可以得到3 種模型除全連接層之外,LSTM 網絡的空間復雜度為O(8n2),而QLSTM 網絡與HQLSTM網絡的空間復雜度均為O(12n) .因此,相比于經典LSTM 網絡,量子LSTM 網絡的空間復雜度顯著降低.
4.5.2 時間復雜度
對于經典機器學習模型,當計算硬件資源能力一定的情況下,時間復雜度主要取決于模型的浮點運算次數FLOPs (floating point operations).
根據2.1 節中的經典LSTM 的記憶細胞結構,在一個time_step 中,一次細胞更新所需的FLOPs 主要取決于遺忘門、輸入門、輸出門中的矩陣乘、加運算量,根據 (1)—(3)式和(6)式,可得一個LSTM 記憶細胞更新的運算量C1(FLOPs)為
在本文中,LSTM 網絡的隱藏層大小h等于輸入層大小n,由(42)式可以得到LSTM 網絡的時間復雜度為O(16n2+12n) .
對于量子機器學習模型,文獻[37]指出執行量子電路算法的時間復雜度是由在給定的容錯范圍內成功執行該算法所需的操作數所決定.在文獻[38,39]中均采用量子電路中量子門的總數量衡量其時間復雜度.參照該方法,本文首先給出在一個time_step,一次細胞更新過程中,QLSTM 網絡及HQLSTM 網絡的量子門數量.
一個QLSTM 記憶細胞所需單量子比特操作數量為 1 2N+6×Nd,所需CNOT 門操作數量為6×2Nd.根據3.1 節HQLSTM 網絡結構,一個HQLSTM 記憶細胞所需單量子比特操作數量為24N+6×2Nd、所需CNOT 門操作數為 6×4Nd.
為保證QLSTM 網絡與HQLSTM 網絡具有相同的糾纏程度,在具有1 層VQC 結構的QLSTM 中,d=2,而在具有2 層VQC 結構的HQLSTM 中,d=1.此外,由于單比特量子門的操作時間遠低于雙比特量子門,一般可以忽略單比特量子門的操作時間.因此可以得到QLSTM 網絡及HQLSTM 網絡的時間復雜度均為O(24n) .
盡管如此,并不能將經典LSTM 網絡的時間復雜度O(16n2+12n) 與QLSTM 網絡及HQLSTM網絡的時間復雜度O(24n) 直接進行比較,也并不能簡單地認為量子LSTM 的時間復雜度優于經典LSTM.下面主要從兩個方面進行討論.
一方面,在量子機器學習模型中,由于執行雙量子比特門CNOT 操作所需時間較長,為其計算優勢帶來了一定的挑戰.例如,在離子阱量子計算機系統演示原型中,單量子門操作需要幾微秒,雙量子門操作需要10—100 μs.而對于普通經典計算機,一次浮點運算約需50 ps.近年來,實現更快的量子操作門成為量子計算機發展的重要目標.2018 年,Watson 等[40]在天然硅鍺量子點中利用電驅動自旋共振(electrically driven spin resonance,EDSR)在280 ns 內演示了CNOT 門操作.2022 年,Chew 等[41]實現了在納秒時間尺度上完成超快能量交換,這種超快相干動力學產生的條件相位是量子門的關鍵資源,開辟了量子模擬和量子計算在偶極-偶極相互作用設定的速度極限下運行的路徑,Ohmori 團隊[41]使用10 ps 的特殊激光束操縱銣原子,實現了6.5 ns 的雙量子比特門.以上研究的突破為提升量子機器學習模型的計算性能具十分積極的意義.
另一方面,在以VQC 為基礎的經典-量子混合機器學習模型中,對特定觀測量的期望值的測量是不可缺少的環節.為此,在真實量子計算機上,需要對大量的全同量子態進行多次重復測量從而求得其期望值.這意味著對于同一組輸入數據需要執行多次重復的量子編碼、變分與測量過程,從而造成計算時間的極大消耗,成為制約VQC 性能的關鍵瓶頸.傳統量子層析所需的測量復雜度為O(N4),2017 年,楊靖北等[42]提出先利用量子態密度矩陣的對角元素進行觀測,再根據觀測結果選擇非零的非對角元素觀測算符進行測量,可得出對d=2n維希爾伯特空間中任意n量子位中含有的l個非零本征值的疊加態進行重構所需最少測量次數為d+2l-3 .2020 年,Gokhale 等[43]將VQC電路所需的O(N4) 項單獨測量劃分為可同時測量的線性大小的可交換族,最后通過算法演示可將O(N4) 縮減為O(N3) .2021 年,Huang 等[44]通過設計以相干量子態為輸入且經過希爾伯特空間映射的相干量子態為輸出的量子機器學習模型,分析得到該模型預測泡利觀測期望值的測量復雜度僅為O(n) .以上研究的展開是實現量子變分方法及其應用的關鍵基礎,也將是作者后續研究工作的重要內容.同時,VQC 的優勢也不容忽視.一方面,VQC 為量子神經網絡提供了一個通用框架,其參數數量與經典網絡相比有明顯降低,已被應用于分類、深度強化學習等領域,另一方面,由于目前NISQ 設備仍然缺乏量子糾錯和容錯量子計算能力,而VQC 已被證明對噪聲具有魯棒性,因此VQC 可避免現有NISQ 設備存在的復雜量子誤差.相信隨著研究的不斷突破,未來VQC 還有廣泛的應用空間.
量子深度學習正處于快速發展的階段,但是現有量子神經網絡未充分利用網絡之間的記憶功能,因此通過網絡之間的記憶功能來增強網絡性能有待提高.本文提出了一種基于新的VQC 的HQLSTM網絡模型用于圖像分類.通過將6 個不同參數的VQC 嵌入HQLSTM 網絡模型中的不同位置,從而降低了經典LSTM 網絡的復雜度,而且利用量子電路中的糾纏等特性加深了網絡模型中記憶細胞內和記憶細胞間的關聯程度,增強了圖像數據特征的充分表達.最后,利用量子自然梯度優化算法,能使梯度直接在量子空間模擬,讓參數不沿特定方向更新,達到模型更快收斂的目的.同時為了不損失圖像的空間特征,本文在網絡模型中引入Choquet 離散積分算子進一步聚合數據特征.通過在MNIST,FASHION-MNIST 和CIFAR 彩色圖像數據集上實驗驗證可知,HQLSTM 實現了較高的分類精度以及較低的空間復雜度.因此,HQLSTM模型實現了較好的可行性和有效性.在之后的研究工作中,也可將該模型廣泛應用于醫療診斷、信號處理、語音識別、異常檢測等領域.