柳 翠,楊 巍
(淮南師范學院,安徽 淮南 232038)
代發工資是專業機構對機關事業部門、企業員工代發勞動報酬款項的一種服務型業務,屬于金融中間服務。代發工資均通過銀行代發,此種代發勞動報酬款項服務,能夠實現勞動報酬款項及時發放,且企業不必設定專業人員額外耗費用人成本[1,2]。但是,因銀行代發工資數額巨大,且銀行與多家企業合作,在代發工資時,必須高精度核對代發工資數據差異,分析已代發工資數據是否與實際需代發工資數據一致,以免出現代發出錯的情況。僅靠人工核對,不僅費時費力,核對結果也容易存在誤差[3]。
邏輯回歸模型屬于回歸分析模型,被大量應用在微生物生長與經濟領域中,其具有較顯著的數據分類性能[4-6]。本文構建了基于邏輯回歸的代發工資數據差異核對模型,并通過實驗驗證其對代發工資數據差異核對的有效性。
因為代發工資數據包含已代發與未代發數據,想要核對代發工資數據差異,需要準確區分已代發與未代發工資數據[7]。本文使用基于信息熵聚類的代發工資數據聚類方法,準確分類已代發與未代發工資數據,縮小后續數據差異核對范圍[8,9]。
1.1.1 通過熵值法運算代發工資數據屬性權重
(1)假定存在m 個需要聚類的代發工資數據ynm,代發工資數據ynm存在n維屬性,按照實時數據建立屬性值矩陣:

(2)運算代發工資數據第i 維屬性、第j 個代發工資數據屬性值比重。在實際使用中差異類型代發工資數據存在差異量綱,為讓差異量綱代發工資數據存在可比性,實施代發工資數據的標準化處理,把代發工資數據壓縮至范圍[0,1]內,計算方法如下:

式中,代發工資數據屬性值比重是Nji,代發工資數據屬性值是yji。
(3)運算代發工資數據第i維屬性熵值

式中,代發工資數據屬性熵值是Ti。如果Nji的值是0,存在Njiln Nji=0。
(4)運算代發工資數據第i 維屬性的差異性系數

其中,代發工資數據差異性系數是pi。Ti較大,表示代發工資數據屬性的聚類作用不顯著;Ti較小,表示代發工資數據屬性的聚類作用顯著。 pi較大,則第i 維屬性對代發工資數據聚類的關鍵度較顯著。
(5)運算代發工資數據第i維屬性權值

1.1.2 設置高質量的初始聚類中心
K-means算法選取的相似度度量指標是歐氏距離,已代發與未代發的代發工資數據間歐氏距離較小,表示兩者相似度較顯著,反之,相似度較?。?0]。本文使用賦權歐氏距離度量二者之間的相似度。假定代發工資數據第i 維屬性的權值是?i,則賦權后的歐氏距離表達式為按照屬性i的權值和對應的屬性值實施合理放大與縮小,讓權值顯著的代發工資數據屬性聚類作用更顯著,而讓權值小的代發工資數據屬性聚類作用較弱。ya、yb分別表示兩種不同類型代發工資數據。
K-means算法通常將標準差設成標準差測度函數,再使用賦權歐氏距離設成相似性度量后,計算賦權種類目標價值函數為:

其中,yi是代發工資數據,ya∈ yi,yb∈ yi。第j 種代發工資數據的賦權標準差是?j;代發工資數據各個類的質心Hi中代發工資數據的數量是r( Hi)是代發工資數據的聚類中心。賦權種類目標價值函數?j值較小,表示類中代發工資數據間相似度較顯著。
1.1.3 聚類描述
基于信息熵聚類的代發工資數據聚類過程如下。
輸入:需聚類的代發工資數據集Y 、聚類種子中心數量h1、代發工資數據聚類數量h。
輸出:h 個聚類,讓各個代發工資數據與聚類中心的賦權歐氏矩陣之和為最小值[11-13]。
(1)通過熵值法運算代發工資數據屬性權值。
(2)把代發工資數據集劃分成h1個子集,在各個子集中任意選取一個代發工資數據聚類目標,將隨機選取的h1個代發工資數據設成聚類種子中心。
(3)掃描全部代發工資數據,按照代發工資數據和每個聚類種子中心的相似度(賦權歐氏距離),把代發工資數據歸入和它最相似的類別中。
(4)運算代發工資數據各個類的質心。
(5)運算h1個聚類的?j,根據?j值遞增順序排列,并使用前h 個?j值相應的質心設置成初始聚類中心。
(6)掃描全部代發工資數據,按照它和h個初始聚類中心的賦權歐氏距離,把它納入和自身最為相似的類別里。
(7)運算已代發與未代發的工資數據質心。
(8)多次執行第(6)步與第(7)步,直至迭代次數為最大值方可停止。
(9)運算每個代發工資數據種類的標準差,測試代發工資數據聚類客觀性,如果標準差具有非數值類數據,再次聚類。
(10)掃描全部代發工資數據和聚類結果,把誤識率控制在最低值,保證聚類精度。
邏輯回歸能夠分析自變量A和因變量B之間的關聯性,能夠實現因變量B 的預測。通過上述聚類形式獲取已代發工資數據后,再次使用基于邏輯回歸的代發工資異常數據分類模型,實現已代發工資數據與實際需代發數據的差異核對,邏輯回歸模型如下。
(1)建立一個合理的已代發工資數據與實際需代發數據間差異預測函數,描述成k 函數,k 函數屬于分類函數,其能夠預測輸入數據的判斷結果。使用預測函數時,必須使用Sigmoid 函數[14]。Sigmoid函數屬于邏輯函數:

其中,d-x是已代發工資數據差異核對誤差項。Sigmoid函數散點圖見圖1。

圖1 Sigmoid函數散點圖
把線性回歸函數導入Sigmoid 函數中,最后獲取k 函數的方法如下:

如圖1所示,Sigmoid函數取值于(0,1)之間,按照k 函數的定義與式(8)可知,k 函數的輸出范圍也是(0,1),且中間值是0.5,代表著已代發工資數據差異與否的機率。具體過程如下:
①kβ( y )值大于0.5,表示通過已代發工資數據與需代發工資數據對比,前者隸屬Ⅰ類;
②kβ(y)值小于0.5,表示通過已代發工資數據與需代發工資數據對比,前者隸屬Ⅱ類。
Ⅰ類、Ⅱ類在本文中,可看成差異與無差異。因此,本文將Sigmoid 函數設成樣本數據的概率密度函數。kβ(y) 函數的值存在獨特性,代表結果是1的概率,所以針對已代發工資數據輸入y 的分類結果是類別1(Ⅰ)與類別0(Ⅱ)的概率依次是:

(2)建立代價函數D(θ) ,可以表示模型預測值x 與已代發工資數據實際值y 間差異的函數即為代價函數。若具有很多已代發工資數據樣本,便能夠把全部代價函數取值進行平均化,得到代價函數的均值H( θ ),H( θ )能夠判斷模型的優劣。函數較小,表示目前模型與參數適用訓練樣本( a,b) 。通過最大似然估計能夠獲取H( θ ):

H( θ )的最小值主要通過梯度下降法獲取,邏輯回歸模型需要獲取最適合目前已代發工資數據差異核對的模型,只有當H( θ )為最小值時才適合。梯度下降法是現在較為常見的算法,梯度即為H( θ )對每個參數的偏導數,偏導數的方向和機器學習時參數降低的方向存在直接聯系[15]。將學習率設成φ,學習率和步長存在直接聯系。H( θ )的最小值為:

此時,邏輯回歸模型的代價函數均值H(θ) 為最小值,表明模型對已代發工資數據差異核對的性能最佳。
為測試本模型的實際效果,使用Matlab R2010a進行實驗編程。實驗環境:Microsoft Windows XP 系統;CPU 是Intel Core22.94GHz;內存為4GB。以某銀行代發工資數據為例,該銀行代發工資涵蓋的企業類型依次是批發與零售業、采礦業、建筑業、郵政業、倉儲業、農業、漁業,各個行業代發工資企業數量各為10家。
為利于測試,在銀行代發工資數據中隨機提取批發與零售業、采礦業、建筑業、郵政業、倉儲業、農業、漁業的代發工資數據,各個類型的代發工資數據提取詳情見表1。

表1 代發工資數據詳情
測試指標是核對精度O、已代發工資數據聚類錯誤數V,計算方法為:

經本文模型核對后,核對錯誤數計算結果如表2所示。

表2 本文模型核對結果
如表2所示,本文模型對多家、多類型企業代發工資數據差異核對結果和實際差異情況一致,表示本模型可有效核對多家、多類型企業代發工資數據差異情況。
本文模型對多家、多類型企業代發工資數據差異核對結果的核對精度計算結果如圖2所示。

圖2 核對精度計算結果
如圖2 所示,本模型對批發與零售業、采礦業、建筑業、郵政業、倉儲業、農業、漁業代發工資數據差異的核對精度較高,精度值為1。
上述實驗驗證了模型對銀行已代發工資數據差異核對的有效性,為深入測試本模型的使用性能,隨機提取銀行代發工資中,批發與零售業、采礦業、建筑業、郵政業、倉儲業、農業、漁業還未代發的工資數據與已代發的工資數據,將兩種數據混合,通過本模型對其聚類,F-measure 屬于一種集合精度與召回率于一體的性能測試指標。計算方法為:

其中,c屬于常數,q(i,j)、s(i,j)分別是準確率與召回率。F-measure 值較大,則本文模型聚類精度較高。使用該指標測試本文模型對已代發、未代發的工資數據聚類效果,結果如圖3所示。

圖3 本文模型聚類效果
如圖3 所示,該銀行使用本文模型對批發與零售業、采礦業、建筑業、郵政業、倉儲業、農業、漁業的已代發工資數據與未代發工資數據實施聚類時,F-measure 值大于使用前,表明本模型可高精度聚類代發工資數據。
測試中采用基于信息熵聚類的代發工資數據聚類方法。測試本文模型使用該方法前后的核對精度,以表1數據為測試基礎,以圖2計算結果為對比數據,沒有使用基于信息熵聚類的代發工資數據聚類方法時,本文模型的核對錯誤數與核對精度計算結果如表3、圖4所示。

表3 未聚類前代發工資數據差異核對錯誤數

圖4 未聚類前代發工資數據差異核對精度
將表2與表3、圖2與圖4進行對比可知,使用基于信息熵聚類的代發工資數據聚類方法前,本文模型對批發與零售業、采礦業、建筑業、郵政業、倉儲業、農業、漁業的代發工資數據差異核對錯誤數高于使用后,核對精度值低于使用后,由此驗證了本文模型使用基于信息熵聚類的代發工資數據聚類方法能夠優化對代發工資數據差異的核對性能。
測試本文模型在聚類該銀行已代發工資數據與未代發工資數據、核對代發工資數據差異時的耗時情況,以此判斷本文模型的應用效率,結果如圖5、圖6所示。

圖5 聚類耗時

圖6 核對耗時
由圖5、圖6 可知,該銀行使用本文模型后,對不同代發工資數據量的數據聚類耗時均低于使用前,聚類耗時最大值是6min;核對耗時最大值是5min,且核對耗時不受代發工資數據量的影響,可見本文模型能夠顯著提升銀行代發工資數據處理效率。
本文針對代發工資數據差異核對實施數學建模,構建基于邏輯回歸的代發工資數據差異核對數據模型,在某銀行實際使用后表明,模型對多種類型企業的代發工資數據差異核對結果和實際差異情況一致,且使用后與使用前相比,銀行代發工資數據的核對精度與核對效率均實現了提升。本文模型在代發工資之前,使用了基于信息熵聚類的代發工資數據聚類方法,該方法能夠優化模型的核對性能,基于聚類后的代發工資數據,通過邏輯回歸模型提高了代發工資數據差異核對的精確度和效率。