文/李沁穎 李智芬 龍雨婷
國家經濟實力是國家強大的重要依靠之一,其主要來源是依靠納稅人無償上繳的資金,政府使用這些資金進行各項工作項目的投資開發,保證了資金的利潤和國家建設的完善。
隨著社會環境的穩定和社會經濟實力的發展,政府越發注注重保護財政資金安全,不斷本著為人民服務的宗旨,使得納稅人繳納的資金可以得到保護。另外一方面,隨著互聯網的廣泛應用和信息化辦公的發展,政府也投入了大量資金用于信息化管理,這不僅是加強資金使用管理的重要手段,也是保證中國廉政建設,改善社會環境以及保障民生質量的重要措施。
如今,政府資金監管中存在諸多不良現象,如:擅自更改申請項目;挪用項目資金;多個單位套用項目資金等。
現有的人工監管手段單一,對于每一類型的項目申請沒有統一規范的衡量標準,使得資金審批時效性差。在政府的職能分工下資金監管工作主要是由財政、審計部門負責。各個單位大部分更加注重項目資金的獲取,反而忽略了一些資金的回報率。
關于項目資金所存在的現有問題,如何進行資金監管是需要考慮的問題。對項目資金監管主要是考慮單位內部和各單位之間兩個方面。
首先,項目資金所涉及的數據庫在格式、內容等方面不同于一般類型的數據庫,我們要先對項目之間的相似程度進行判斷,根據每一類型項目所具有的共性進行分類,再對每一類型的項目提取其中的主要影響因素,作為之后項目資金預測和項目比對的主要衡量標準。
對于單位內部主要對其申請的項目以及申請的項目資金進行監督,防止出現重復申請項目或申請項目資金超標的現象。對于新申請的項目需要和以往本單位申請的項目進行比對,防止出現完全一致或相似度極高的項目。在比對項目內容之后,需要對項目申請資金進行核實,首先判斷該項目的類型,再根據之前對每一類型的項目資金預測進行比對,如若超出資金預測區間則提出預警。
對于各個單位之間,主要考慮合作單位與非合作單位之間的關系。對于那些有合作的單位,要考慮兩個單位之間是否存在重復申請,每個單位合作的項目都有各自負責的領域。其次,主要考慮非合作單位之間是否存在申請已審批或其他單位所申請的項目,占用項目資金。
數據中有項目具體屬性表和項目資金屬性表。由于數據量較大,因此需要對數據做出一系列的分析和篩選。對于標稱數據,通過卡方檢驗(公式1)來判斷兩個屬性的相關性。對于數值數據,通過皮爾森相關系數(公式2)來判斷兩個表中是否存在不同屬性名的屬性,從而對數據進行進一步處理。
公式1

公式2

在完成上述所有的數據處理之后,對數據進行規范化整理,很多數據因為不同的內容對結果也會產生不一樣的影響。
2.3.1 項目聚類算法
在處理項目數據的過程中,首先要對數據的類別進行一個分析,采用的是遵循同一簇內中對象的相似度較高,而不同簇內中的對象相似度較小的K-means文本聚類算法。
2.3.2 提取項目主要影響因素算法
在數據處理時,需要對每個簇類數據的特征值方法進行重要特征值提取,主要采用的是隨機森林方法。特征X是根據隨機森林中的決策樹計算每一棵樹的袋外誤差,記為errOOB1。再次隨機修改特征值,再次計算袋外誤差,記為errOOB2,即可得到特征X的重要性(公式3),對每一棵樹的特征值進行計算,再對特征重要性進行排序,逐步剔除不重要的特征值。
公 式3 X的 重 要 性=∑(errOOB2-errOOB1)/N
2.3.3 項目資金預測算法
針對項目的特征選取,可以對每一類型的項目進行資金區間估計。通過從總體中抽取的樣本,根據一定的正確度與精確度的要求,構造出適當的區間,以作為總體的分布參數(或參數的函數)的真值所在范圍的估計,一般使用的估計某個指定值的區間方法是區間預測。
本文區間預測主要采用的是一元線性回歸預測法,先選取一元線性回歸模型的變量,再根據最小二乘法來確定自變量X和因變量Y的相關關系,建立X與Y的線性回歸方程。一元線性回歸方程(公式4)中X代表自變量的取值;Y代表因變量的取值;a、b代表一元線性回歸方程的參數。這一直線是利用直線到各點的距離最近來確定的,之后再用這條直線進行預測。
公式4 Y=a+bX
當前是大數據盛行的年代,對于成千上萬的數據,我們需要充分利用好,不能忽視數據之間的聯系,不能忽視數據背后真正的意義所在。本方案針對政府項目資金管理中遇到的問題給出相應解決方案,使得相關管理人員對于數據的管理更加簡單的同時,可以幫助他們加強對政府事務的監督。不僅可以通過系統判斷之前是否出現過相同或類似項目申請的同時,還可以判定所申項目資金分配是否合理,這加強了對政府部門工作的監督,是具有重大意義的。