吳永飛 王彥博 楊璇 徐奇

2022年可謂是“量子金融科技的元年”。2022年10月16日,黨的二十大報告中提到了在量子信息領域取得重大成果,2022年10月4日,三位量子信息領域科學家獲得了諾貝爾物理學獎,標志著量子科技新時代已經來臨。
我國金融行業積極響應黨和國家發展量子科技的戰略部署,在量子金融科技領域積極開展了一系列相關工作。2022年1月,中國人民銀行正式公布了2020年度金融科技發展獎獲獎項目名單,其中由華夏銀行申報的《量子計算機及量子AI算法在銀行業務領域的應用研究與實踐》,榮獲了一等獎。2022年2月,中國銀行保險業監督管理委員會數據治理高層專家指導協調委員會通過了由華夏銀行申報的《量子算法在資產管理領域的應用研究》(2022年度)研究課題立項。2022年7月,中國人民銀行主管的中國金融學會金融科技專業委員會開始開展量子計算金融行業應用研究專項工作,國內多家商業銀行和量子科技相關機構形成了專項工作組推進相關研究工作。當月,由北京玻色量子科技有限公司與北京朝陽國際科技創新服務有限公司主辦的“2022首屆量子計算+金融科技應用研討會”在北京舉行。2022年8月,中國人民銀行主管期刊策劃了技術應用欄目的量子科技專題,工商銀行、華夏銀行、建信金科、光大科技等機構就量子金融科技應用發展情況發表專業文章。2022年8月,北京金融科技產業聯盟成立了量子技術專委會,針對量子算法在金融風控與定價管理領域的應用、量子最優化算法在金融業的應用、量子安全威脅及其對國內金融行業的影響、量子通信技術在金融領域的應用等一系列重要課題開展專題研究。2022年11月,《銀行家》期刊策劃了“量子金融科技”專題,英國皇家工程院、歐洲科學院、香港工程科學院郭毅可院士,以及多家金融機構的專家領導分別發表專業文章,回顧了量子金融科技發展取得的關鍵成果。2022年12月,“2022國際產學研用合作會議(北京)量子計算與量子信息技術分論壇”在清華大學成功舉辦。2022年末,中國人民銀行主管期刊將華夏銀行、北京量子信息科學研究院、清華大學、龍盈智達(北京)科技有限公司合作的量子直接通信在銀行領域全球首次應用評為“2022金融信息化10件大事”。此外,相關項目還榮獲了多項榮譽。尤其是2023年1月,中國人民銀行公布了2021年度金融科技發展獎獲獎項目名單,其中《量子直接通信技術創新及其在銀行業務領域中的應用》項目榮獲了二等獎,這是量子通信類項目在該獎項歷史上榮獲的最高獎勵等級。
回首2022年,量子金融科技如星星之火,在以商業銀行為代表的我國金融行業逐漸形成了燎原之勢。量子金融科技不僅在銀行業務場景應用方面不斷開拓,還在基于量子算法的小樣本學習等關鍵技術方面實現了一系列重要突破。本文將量子SVM算法創新應用于商業銀行小樣本學習智能風控領域,旨在為量子小樣本學習研究與應用提供新的解決方案,以期助力商業銀行量子金融科技創新發展。
小樣本學習是充分利用較少的數據樣本進行機器學習智能建模,并將智能模型加以有效應用來解決實際問題。它可以解決由于樣本量不足導致的傳統模型效果不佳等問題,因此在推動“通用型AI”的發展方面意義非凡(陳良臣、傅德印,2022)。以商業銀行智能風控場景為例,“冷啟動”是銀行開展新業務時不可逾越的一個階段,此階段,由于業務數據樣本正處在逐漸累積的過程中,因此需要構建小樣本學習模型。如何面向少量數據樣本來為各類客群構建有應用價值的智能風控模型,已經成為商業銀行智能風控領域亟待解決的痛點問題。
近年來,國內外學者已對小樣本學習開展了相關研究。2022年10月,吳永飛等人面向銀行智能風控領域開展了量子小樣本學習技術研究與應用,創新提出了小樣本學習技術發展的“6M”框架方法論,從“人—機—料—法—環—測”六個方面闡述了發展小樣本學習的方法論,具體涵蓋基于人類專家經驗的小樣本學習(Man-based Few-shot Learning)、基于計算機發展的小樣本學習(Machine-based Few-shot Learning)、基于數據資料增強的小樣本學習(Material-based Fewshot Learning)、基于算法改進的小樣本學習(Methodbased Few-shot Learning)、基于仿真環境的小樣本學習(Environment-based Few-shot Learning)、基于預測模型調整的小樣本學習(Model-based Few-shot Learning)等內容;實證表明,運用量子計算機和量子算法對于解決小樣本學習問題具有明顯優勢。2022年10月,王琛等人驗證了小樣本學習算法的有效性,并將其應用于結構鋼材精細彈塑性的研究中,實證表明,模型在小樣本環境下具有一定的泛化能力。2022年11月,蔣博等人通過卷積操作,實現了數據特征提取,并通過小樣本學習建模方法實現配電網亞健康工況的識別。
1995年,克里娜·柯爾特斯(Corinna Cortes)和弗拉基米爾·萬普尼克(Vladimir Naumovich Vapnik)改進了支持向量機(Support Vector Machine,SVM)的概念和算法。該算法在解決高維、非線性的小樣本學習問題上有一定的優勢。但是在模型的求解過程中,需要消耗較高的算力資源,時間復雜度為樣本數量和特征數目的多項式級別。量子科技時代,多種量子算法已經在理論和實踐層面實現了不同級別的運算加速,量子支持向量機則是被認為能夠實現指數加速的重要量子機器學習算法之一。
量子支持向量機(Quantum Support Vector Machine,QSVM)于2003年由Anguita等人提出。隨后,Rebentrost等人在2014年提出的QSVM,其本質是利用量子優化算法加速SVM中的內積計算問題。Li等人(2015)利用核磁共振量子計算機,在真實的環境下實現了4個量子比特的QSVM,基于該算法可以實現對手寫數字的識別,且精度可達99%。2019年,Havl ek等人提出瞬時量子多項式嵌入法(Instantaneous Quantum Polynomial,IQP),目前在量子核函數上有著廣泛的應用,可以應用于量子SVM算法模型的構建。2020年,Park等人探索了量子支持向量機算法在葡萄酒、乳腺癌和手寫數字等數據集上的應用;實證表明,在上述數據集上,使用量子SVM算法構建的模型效果優于傳統SVM算法模型。
本文創新使用量子SVM算法模型,面向商業銀行智能風控領域小樣本學習場景,開展數據挖掘與機器學習建模。由于建模的數據樣本量極小,且存在正負樣本比例極度不均衡的情況,故本文綜合運用前文提到的6M框架方法論中基于數據資料增強的小樣本學習、基于計算機發展的小樣本學習和基于算法改進的小樣本學習,通過運用SMOTE技術實現數據樣本增強,并在量子計算機上構建基于量子SVM算法的小樣本學習模型。
本文實證分析部分所使用的業務數據主要參考《銀行家》2022年第10期《量子小樣本學習技術應用——基于銀行智能風控領域》文章中的數據,其特征范圍如表1所示。

表1 業務數據變量范圍表
通過以上貸款業務篩選條件形成的數據集中,當客戶逾期時間大于10天時,將其認定為“壞”客戶。經數據加工處理后,共形成10個用于違約風險預測的特征變量。
基于SMOTE算法的數據樣本增強。因數據中“壞”樣本占比僅約為5%,屬于正負樣本比例極度不均衡的情況,故本文使用SMOTE(Synthetic Minority Over-sampling Technique)算法對“壞”客戶樣本進行數據增強,使得少數類樣本數量增加,從而產生新的訓練集。
量子SVM模型構建。本文基于IBM平臺的數據嵌入方法ZfeatureMap將經典數據進行量子態嵌入,而后使用量子SVM算法對量子態數據進行模型構建;模型主要運行在IBM Quantum Experience模擬量子計算機環境。為進一步拓寬模型驗證的維度及其有效性,本文使用相同的數據在量子支持向量機模型(Quantum SVM)、量子神經網絡模型(Quantum Neural Network)、邏輯回歸模型(Logistic Regression)、隨機森林模型(Random Forest)、決策樹模型(Decision Tree)、極限梯度提升模型(X G B o o s t)、分類關聯規則挖掘模型(Classification Association Rule Mining)和傳統神經網絡模型(Traditional Neural Network)上進行實證分析。研究按照等比例將數據進行訓練集和測試集的劃分,其中訓練集樣本量為40—70(相應的測試樣本量為40—70),以5個樣本作為模型構建的樣本量增長步長。在實證分析過程中,針對每個建模樣本量進行了50次抽樣,并求得50次抽樣下模型評估指標的平均值,以支持模型對比分析。
本文采用業界通用的模型評估指標AUC(Area Under Curve,受試者工作特性曲線下的面積)、KS(Kolmogorov-Smirnov,洛倫茲曲線中兩條曲線間的最大間隔距離)和Recall(查全率,亦稱為“召回率”)開展模型對比分析,實驗結果如表2所示。

表2 不同算法模型在銀行小樣本學習智能風控場景下的評估指標情況
實證分析結果表明,在訓練集樣本量從40增加到70的過程中,量子S V M模型的效果在三個指標上不僅均優于經典的Logistic Regression、Random Forest、Decision Tree、XGBoost、Classification Association Rule Mining、Traditional Neural Network等模型,而且優于量子神經網絡(Quantum Neural Network)模型,這說明量子SVM算法模型在解決小樣本學習問題方面具有顯著優勢。面向本文的商業銀行智能風控業務場景,在訓練集樣本數量從40增加到70的過程中,量子SVM算法模型的AUC值在不同樣本量下均達到0.75及以上且KS值均達到0.59及以上,能夠滿足相關銀行對模型效果評估指標的基本要求(見圖1、圖2、圖3)。

圖1 不同算法模型在不同樣本量下的AUC值變化曲線圖

圖2 不同算法模型在不同樣本量下的KS值變化曲線圖

圖3 不同算法模型在不同樣本量下的Recall值變化曲線圖
展望2023年,量子金融科技有望進一步蓬勃發展。本文立足于商業銀行智能風控業務場景,通過相關實證研究分析,驗證了基于SMOTE樣本增強的量子SVM算法模型在面對商業銀行風控業務小樣本學習時應用效果明顯,且在相應的評估指標上優于其他機器學習算法模型。未來,我們將進一步聚焦其他量子計算技術應用研究,以期為銀行業的量子金融科技發展提供新思路,助力銀行業向數字經濟時代邁進。