基于改進哈希學習算法的小微企業融資數據智能檢索方法

2024-03-28 05:52:56高炎哲

信息記錄材料 2024年2期

趙蕾，翁巍，龐泰，孟燦，高炎哲

（青海省公共信用信息中心青海西寧 810001）

0 引言

小微企業在我國數量龐大，產生的融資數據每日呈指數級增長，導致融資服務中心平臺上存儲數據規模越來越大，對小微企業融資數據檢索存在一定難度。在信息技術飛速發展的今天，數據智能檢索逐漸成為研究者們關注的熱點問題之一，羅鵬程等［1］將BM25 模型和基于SimCSE的稠密檢索模型結合在一起，實現了科學數據集的高效檢索；高萍［2］利用隨機游走模型進行高校圖書館文獻檢索，解決了傳統檢索方法效率低、精度差等問題；代佳洋和周棟［3］以多任務學習的特征模式進行跨語言信息檢索，可以有效改善文本特征提取效果。盡管我國學者針對數據檢索的研究已經取得一定進展，但傳統依靠檢索方法在處理小微企業融資數據時顯得有點力不從心，因此，本文研究一種基于改進哈希學習算法的小微企業融資數據智能檢索方法，助力于緩解小微企業融資難、融資貴等問題。

1 獲取并預處理小微企業融資數據

在進行小微企業融資數據智能檢索時，需要先獲取各類融資數據，作為基礎數據［4］。本文數據主要來源于青海省小微企業信用融資服務中心平臺的融資信息庫，綜合我國企業融資領域的最新研究成果，分別選取了股權融資、債權融資、融資余額、融資利率、行業融資、宏觀經濟等六大類融資數據，構建初始小微企業融資數據集。本文在檢索之前需要對數據做一系列預處理。首先，針對原始小微企業融資數據的缺失值，本文主要采用平均數的方法進行填補，由于小微企業融資數據具有時序性等特征，對數據缺失位置前后兩個鄰近數據進行平均數計算后，將求取的平均數填補在缺失位置即可。其次，針對原始小微企業融資數據的異常值，本文采用四分位法進行處理［5］，異常值簡單來說就是數據和其余觀測值之間存在較大的偏差，可能因上傳失誤等原因造成，如果將異常值代入數據檢索中可能會產生較大的檢索誤差。最后，本文針對原始小微企業融資數據的統計特性，通過四分位法進行異常值檢測與剔除。四分位法就是先將原始小微企業融資數據劃分為四等分，并計算出25%位置處的下分位數F1與75%位置處的上分位數F2，表達式如式（1）、式（2）所示：

式（1）、式（2）中，s為升序數組；i為小微企業融資數據集中點的個數。在下分位數F1與上分位數F2的基礎上，即可求出四分位距，如式（3）所示：

式（3）中，F為小微企業融資數據的四分位距。根據式（3）所求四分位距，即可確定正常數據點的取值范圍為［F1－1.5F，F2＋1.5F］，如果原始小微企業融資數據中有數據點超過該范圍，那么該數據點即為異常值，直接剔除即可［6］。

2 提取小微企業融資數據特征

核主成分分析（kernel principal component analysis，KPCA）法具有較強的特征提取能力，被廣泛應用于各個領域中，本文也將采用KPCA 作為小微企業融資數據特征提取的工具。在完成小微企業融資數據的獲取和預處理之后，采用decomposition 函數作為特征提取工具，進行KPCA 特征提取。提取小微企業融資數據的KPCA 特征時，設定關鍵參數，其結果將直接影響特征提取效果，一是提取主成分的個數，一般KPCA 算法會按照特征值順序計算特征向量，并返回固定的主成分，固定提取主成分的個數至關重要，綜合考慮小微企業融資數據的特點，本文將直接提取出來的主成分的個數設置為2。二是核函數，由于徑向基函數（radical basis function，RBF）具有較高的泛化能力，本文選擇RFB 高斯函數作為主成分的內核，其表達式如式（4）所示：

式（4）中，f為RFB 高斯核函數；x為變量；x0為RFB 高斯核函數的中心；σ為RFB 高斯核函數的寬度參數。如式（4）所示，RFB 高斯函數可以實現非線性映射，本文選擇該函數作為KPCA 的核函數。三是浮點數，主要用于控制RFB 高斯核函數中的特定參數，其表達式如式（5）所示：

式（5）中，δ為RFB 高斯核函數中的浮點數。在采用RFB高斯函數作為KPCA 核函數提取小微企業融資數據特征時，為避免發生數據過擬合現象，本文根據式（5）來設置浮點數，根據上述內容確定了KPCA 的關鍵參數后，即可將其搭載于Python 軟件中進行數據特征的提取。

3 基于改進哈希學習算法檢索數據

哈希算法的基本原理就是通過哈希函數將提取的小微企業融資數據特征映射為哈希碼，再計算哈希碼的海明距離，即可度量不同融資數據之間的相似性，從而完成檢索，雖然常規哈希算法可以實現數據檢索，但該算法對離散值無法準確識別，本文引入了深度學習，改進常規哈希算法，形成一種深度哈希學習算法，來進行小微企業融資數據的智能檢索。深度學習是一個具有較多網絡參數且網絡層次較深的多層網絡結構，被廣泛應用于圖像、語音等數據分類識別的領域。本文將深度學習網絡結構和哈希學習算法結合在一起后，構建一個基于深度哈希學習的數據檢索模型，在該模型中主要分為兩個模塊：一個模塊用于學習近似哈希碼；另一個模塊用于近似哈希碼的分類識別，找出最相似的哈希碼。那么本文在構建深度哈希學習模型時，關鍵在于損失函數的確定，損失函數作為模型學習目標，對建模至關重要，首先是樣本對距離的損失函數，由于本文設計的小微企業融資數據智能檢索方法的主要目標就是計算樣本哈希碼之間的相似性，根據樣本對距離損失函數來描述樣本相似性，其表達式如式（6）所示：

式（6）中，g為深度哈希學習模型中測量樣本對距離的損失函數；b為樣本標簽，當b ＝0 時為樣本標簽相同；D（x1，x2）為給定小微企業融資數據樣本對（x1，x2）二進制哈希碼之間的海明距離。然后是語義保留性的損失函數，在進行小微企業融資數據智能檢索時，除了考慮學習樣本之間的相似性，還需要考慮單個樣本的標簽分類精度，語義保留性的損失函數非常關鍵，在單樣本標簽信息學習生成哈希碼后，需要在保留個體語義特征的基礎上進行分類，本文在深度哈希模型中設置了式（7）所示的損失函數：

式（7）中，Loss為softmax 分類損失函數；Y′ij為深度哈希模型中第i個小微企業融資數據的第j個輸出單元的期望輸出值；Yij為深度哈希模型中第i個小微企業融資數據的第j個輸出單元的實際輸出值；I為小微企業融資數據樣本的總數量；J為小微企業融資數據集的總類別數。根據上述內容構建了深度哈希學習模型后，輸入小微企業融資數據特征進行模型訓練，并根據訓練結果優化模型參數，然后再向優化后的深度哈希學習模型中輸入小微企業融資數據特征，即可通過端對端的方式將數據特征以二進制哈希碼的形式進行檢測，檢測完成后返回最相似的數據，將其作為小微企業融資數據智能檢索結果進行輸出。

4 仿真實驗

4.1 實驗設置

本文以青海省小微企業信用融資服務中心平臺上存儲的融資數據為例，展開仿真對比實驗。該平臺將覆蓋省市縣三級，面向全省各級銀行、保險機構、擔保機構等提供入駐、產品展示服務，面向全省所有中小微企業、個體工商戶等市場主體提供融資增信、融資對接、政策支持服務，面向政府部門、監管機構提供政策發布、決策支持服務。由于青海省小微企業信用融資服務中心平臺存儲數據極多，本章將隨機選擇297 000 個數據作為實驗數據，并根據融資數據類型進行數據集的劃分。實驗數據的具體分布情況如表1 所示。

表1 實驗數據的基本統計信息

基于上述實驗數據，依次執行基于改進哈希學習算法的小微企業融資數據智能檢索方法、基于哈希學習算法的小微企業融資數據智能檢索方法、基于深度學習的小微企業融資數據智能檢索方法進行實驗數據的檢索，并根據實驗結果來檢測本文設計方法的檢索性能。

4.2 實驗結果

在本次仿真實驗中，將本文設計方法與兩種傳統方法做了對比，為驗證設計方法的優越性，本文采用MAP 值作為檢索結果的評價指標，其計算公式如式（8）所示：

式（8）中，κMAP為小微企業融資數據檢索結果的MAP 值，該值越大表明檢索結果越精確；γn為第n個小微企業融資數據的檢索精度；N為小微企業融資數據的數量。在上述實驗條件下，分別統計與計算各檢索方法的檢索結果，具體結果如圖1 所示。

圖1 小微企業融資數據檢索結果對比

如圖1 所示，本文分別在6 種不同類型與不同規模的小微企業融資數據集上執行了不同方法的檢索對比實驗，本文方法在各數據類型下均達到了最好的檢索效果。具體來說，隨著待檢索的小微企業融資數據規模的不斷增大，常規哈希學習方法與深度學習方法所得檢索結果的MAP 值逐漸降低，表明這兩種方法的檢索精度越來越差，而本文設計方法所得檢索結果的MAP 值不會隨小微企業融資數據類型與規模的變化而變化，表明設計方法的檢索性能較為穩定，同時計算出設計方法下小微企業融資數據檢索結果的MAP 均值為0.974，較對照組方法分別提升了0.233、0.317。由此可以說明，使用本文設計的基于改進哈希學習算法的小微企業融資數據智能檢索方法，進行小微企業融資數據的檢索是可行且可靠的，所得檢索結果的準確度較高，符合本次研究目的。

5 結語

綜上所述，本文提出了一種基于改進哈希學習算法的小微企業融資數據智能檢索方法，該方法通過深度學習改進常規哈希算法，形成一種深度哈希學習算法，將該算法應用于小微企業融資數據檢索中，在提高融資數據的檢索精度方面具有顯著優勢。目前，文中主要采用了無監督的深度學習進行哈希算法的改進，未來，本文將綜合考慮有監督學習任務的特殊性，進一步優化算法性能，使檢索方法推廣應用到更多領域，為小微企業的融資提供更加智能化的支持。