梁偉



[摘要]本文將大數據技術與審計業務有機結合,深度探討了大數據在公安采購項目審計監督中的應用,通過案例,構建“三維一體”大數據分析模型對電子投標文件進行全面解析,從投標文件之間的整體相似度、重復的文本內容和雷同的圖像信息三個維度為審計人員發現圍標串標線索提供綜合性參考和重要證據支撐。
[關鍵詞]內部審計? ?大數據? ?模型? ?公安采購項目? ?圍標串標
2015年10月,在黨的十八屆五中全會提出實
施國家大數據戰略,大數據技術在各行各業得到廣泛應用,有力推動了經濟發展、促進社會治理完善、助力提升政府服務和監管能力。公安機關內部審計面對海量的業務數據和日益繁重的審計任務,傳統審計模式已經無法滿足新時代公安發展的需求。公安機關建設項目數量多、警用物資和裝備采購頻繁、合同金額巨大,風險隱患與日俱增,對采購項目的監督更是擺在所有審計人員面前的一道難題。內部審計作為新時代公安特色大監督格局的重要組成部分,要嚴格落實審計專門監督職責和發揮“治已病、防未病”的作用,就必須將大數據技術與公安審計業務深度融合,進一步提升精準監督效能,以有力有效的審計監督服務助力公安事業高質量發展。
一、公安采購項目審計監督存在的問題與機遇
(一)當前存在的問題
1.采購任務重周期長,過程復雜專業性強。公安機關每年的物資采購和項目建設任務繁重,以重慶市公安局九龍坡區公安分局為例,平均每年分局審計部門需參與監督的采購項目有上百個,每個采購項目的完成要歷經立項、審批、預算、采購、合同、驗收和付款等多個階段,可以說周期長環節多,審計部門疲于應付,監督效果欠佳。楊榮機等(2022)認為,公安審計人員不再是單一的財務監督人員,不僅要有審計和財務基礎知識,還要掌握工程造價、項目管理和招投標等相關專業知識。當前大多數公安審計人員僅僅停留在采購項目的程序性監督上,受限于時間精力和專業性的知識背景,審計監督難以深入。
2.審計人員力量單薄,信息化應用水平低。目前全國各地公安機關內部審計普遍面臨人員少和審計任務重的問題。以江蘇為例,全省公安機關審計人員不足300人,每年經濟責任審計項目數量卻多達上千個,如果加上專項審計和其他審計調查任務,審計人員的任務更加艱巨。且公安審計隊伍中信息化專業人才少,信息化應用整體水平偏低,大部分人員只能勉強使用一些簡單的財會軟件。例如,重慶市公安局于2019年組建了公安審計人才庫,共有122名入庫人員,其中審計類和財務類人員分別為72名和32名,而信息化人員14名,占比僅為11.5%,且實際從事公安審計崗位的信息化專業人員更少。
3.規章制度日趨完善,違規行為更加隱蔽。隨著巡視巡察、審計監督和各類財務交叉檢查的深入推進,各級部門的規章制度日益完善,采購程序逐漸規范。采購項目管理和采購程序的規范并不意味著違規行為的消失,反而會使違規行為更加隱蔽。尤其在當前經濟下行壓力下,供應商為獲得業務訂單鋌而走險時將更加謹慎,這給審計人員發現問題增加了難度。
4.應急采購時有發生,監督能力明顯不足。部分公安機關的應急物資采購和保障機制存在許多短板和漏洞,面臨較大考驗。每次應急采購的需求和情形都不一樣,審計監督的重點、內容和方法也都不同,因此每次應急采購對審計監督都是一次全新的考驗,傳統公安審計模式已無法適應,迫使公安審計部門創新工作方法,提高審計效能。例如,2020年新冠疫情發生后,國家和各地方政府先后出臺了關于開通緊急采購防疫物資綠色通道的相關文件,這些文件的出臺對審計監督提出了更高要求,既要保障防疫物資按時采購到位,又要保證財政資金安全。
(二)新的發展機遇
1.審計委員會陸續成立,組織保障更加有力。2022年4月重慶市公安局黨委成立了審計委員會,隨后全市各區縣公安機關審計委員會或審計工作領導小組也陸續成立。公安機關審計委員會的成立進一步優化了公安審計職責,將紀檢監察、組織人事、督察法制、警務保障等“大監督”格局相關部門的監督力量整合起來,壯大了審計力量,保障了審計部門依法獨立行使監督權,有助于解決原有審計監督覆蓋范圍過窄、監督獨立性和權威性不強、體制機制不暢等突出問題。
2.科技強警持續深入,大數據賦能成效初顯。在公安改革創新和大數據賦能警務的不斷推進下,公安機關自身業務產生了大量數據,并且從社會單位采集了海量數據用于公安業務工作。目前,重慶市公安局已打造警務云支撐平臺,整合全局應用系統改造上云,全局民警可按權限使用;同時積極開展數據匯聚治理共享工作,在匯聚不同行業的數據后按照統一標準進行數據治理,數據建模平臺上已開發數十個模型算子。2021年12月,重慶市公安局在全國公安審計隊伍中率先舉辦了公安審計大數據比武,進一步提升了審計人員的大數據運用水平,擴展了審計思維。
3.網上采購更加便捷,智慧監督提質增效。自重慶市財政局開通“采購云”和“行采家”平臺以來,各級部門可以直接登錄系統在網上實施采購,極大提升了采購效率。例如,九龍坡公安分局2022年在網上平臺完成了42個采購項目,占全年采購項目數量的40.38%,節約財政資金170.93萬元。在網上平臺完成的采購項目均有完整的電子數據,包括需求文件、響應文件、電子合同等重要信息,這為大數據審計提供了重要的數據基礎。采購行為已經逐步從線下向線上轉移,審計監督也應當緊跟采購方式的轉移步伐,通過大數據建模對網上采購信息數據進行分析,提升公安采購項目審計監督質效。
二、大數據審計在采購項目監督中的應用探討
(一)大數據審計的原理
1.大數據技術的內涵。大數據在互聯網上被定義為無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。大數據具有4V特點:大量(Volume)、快速(Velocity)、多樣性(Variety)、真實性(Veracity)。鄔賀銓(2013)認為大數據帶來的挑戰體現在對數據的收集、存儲、處理及結果的可視化,因此,大數據技術就是具有更強決策力、洞察發現力和流程優化能力,對海量、高增長率和多樣化的信息資產的新型處理模式方法的統稱。
2.大數據審計的特征。大數據審計就是將大數據技術應用于審計業務,對被審計單位的所有電子數據進行采集、挖掘和分析,大數據審計是審計信息化發展到一定階段的產物。孫夢蝶(2018)從數據層面、技術層面和應用層面對大數據審計進行了研究,認為大數據審計可以處理多種類型數據、跨越不同行業、應用于不同領域,并助推審計全覆蓋的實現。
(二)在采購項目審計監督中的應用探討
公安機關建設項目數量多、增速快、金額大,特別是信息化項目投資金額逐年倍增,隱性風險持續增長;在基建設施、警務保障、裝備采購、信息化項目招投標過程中,圍標串標的現象仍有發生。審計部門應根據工作實際,突出重點、選準靶標、精準施策,在采購項目領域結合大數據審計方法重點開展以下四個方面的應用。
1.在供貨商資質及股權關系監督方面。為驗明供貨商資質真偽及投標人之間、法人和股東的關聯線索,需要獲取供應商的工商信息。在審計實踐中,審計人員通常在網上進行手工查詢或親自到工商部門查詢,工作效率較低。利用大數據技術,通過網絡爬蟲可以快速便捷地在互聯網上采集工商信息和資質信用信息,將供貨商法人和股東信息與公安戶籍人口數據關聯起來,分析是否存在親屬關系以及股權勾連的情況。
2.在商品采購價格監督方面。商品采購容易產生以次充好、低配高價和競爭不充分等問題,商品采購價格是否合理是審計的重要內容。公安機關每年采購的商品品種多、數量大,審計人員同樣可以通過網絡爬蟲技術,定期抓取國內主流電商常用商品的價格數據,建立內部動態價格庫,定期對價格數據進行更新,對相應時期價格異常和價格虛高的采購實行重點監督。
3.在采購商品入庫監督方面。采購的商品是否入庫并納入固定資產管理,是驗證采購行為真實性和完整性的重要依據。按照相關規定,金額較大的商品或者批量采購的非易耗品應當及時入庫,審計人員可以將審計期間符合入庫要求的采購商品清單與固定資產臺賬,通過商品名稱和商品型號進行關聯,如果有未能匹配的數據,則說明存在未入庫的情況,涉嫌虛報采購數量,應當重點關注。
4.在驗收和付款審計監督方面。首先批量提取合同開始時間、履約周期和結束時間,利用EXCEL、SQL查詢等工具分析出是否存在履約超期和驗收滯后的問題。針對付款環節,批量提取合同金額,結合OCR技術智能識別發票內容,可以分析發票真偽,同時比對合同金額與發票金額是否一致,可以查證是否存在虛開發票、未足額付款或者超額支付等問題。
(三)采購項目審計監督平臺的設計
要解決當前采購項目審計監督中存在的問題,應當對現有的審計監督業務進行重構,打通各個監督環節的信息通道,破除數據壁壘,暢通消息共享機制。在大數據環境下,采購項目的審計監督應該堅持“以數據為基礎、以大數據技術為手段、以采購業務邏輯為核心、以審計應用為最終目標”的原則。因此,可以將審計監督平臺構建為由數據層、技術層、數據治理層、業務層和應用層組成的智能監督體系,具體如圖1所示。
1.數據層。數據層包含了審計監督平臺所需的數據信息,是整個系統的基礎。各部門應當根據實際情況,從工商企業數據、國家信用數據、第三方數據以及本單位內部的采購數據和業務數據中獲取數據集,為大數據分析做準備。數據層提供了審計所需各類數據的訪問接口,可以將孤立數據整合在一起。
2.技術層。運用大數據技術手段,與底層數據集進行連接,獲取審計監督系統所需數據,打通數據訪問通道?,F在常用的大數據技術手段包括網絡爬蟲、圖像識別、OCR技術、語音識別以及數據挖掘和文本分析等。技術層也可以為應用層提供支撐,例如,通過機器學習和專家系統進行數據建模,能夠有效地分析業務數據的發展趨勢。
3.數據治理層。數據治理是大數據發展最重要的工作之一?,F階段獲取的大量數據存在很多非結構化數據,這樣的數據不能直接使用,而數據治理層就是要解決數據生產和數據使用之間不匹配的矛盾,是對數據的再整理和再加工的過程。可以通過數據清洗、轉換、篩選、關聯、比對等方法生成結構化數據,并存入審計關系型數據庫中,治理后的數據可以直接用于業務邏輯需求和應用分析。
4.業務層。立足于項目采購的業務邏輯,全面梳理各個采購流程,將立項、招投標、采購、合同、履約、入庫驗收及付款等環節全部納入監督系統,形成審計監督閉環,從根本上解決各環節之間信息不通和反饋滯后的問題,將事前控制、事中跟蹤和事后審計有機結合起來。隨著采購進度的推進,每個采購項目自身會產生許多業務數據,這些業務數據將和數據治理后的數據一起供應用層分析使用。
5.應用層。根據不同的審計事項和目標,通過與技術層連接構建不同的大數據模型,為審計人員進行全方位的風險預警,如價格異常預警、圍標串標預警、采購舞弊預警等。同時大數據模型還可以進行綜合分析、趨勢分析、績效分析等,從多個維度和多個視角對數據進行全面分析,再通過圖像、表格和文字等方式綜合呈現分析結果,為審計人員提供清晰易懂、智能高效的決策參考。
三、大數據審計在采購項目監督中的應用案例
(一)案例背景
某地一工程建設項目進行公開招標,共有4家建筑公司前來投標,分別為A、B、C和D。4家公司均提供了電子投標文件,現要求進一步審查4家公司投標文件的實質性內容,探究是否存在圍標串標的嫌疑。
(二)“三維一體”智能分析模型
投標文件是供應商響應招標文件內容和要求的重要信息載體,深入分析投標文件的內容能夠發現其背后隱藏的“秘密”。針對案例中的審計需要,審計人員通過大數據技術從文本、表格和圖片3個方面對投標文件進行全面分析,構建“三維一體”智能分析模型,輔助審計人員快速發現圍標串標線索。
1.文本分析。文本分析的目的是挖掘出投標文件中文本內容之間的關聯性,本案例通過余弦相似度算法來計算投標文件之間內容的整體相似度,通過N-Gram算法計算出投標文件之間內容重復的字符串。將余弦相似度算法結合N-Gram算法,可以快速分析出投標文件的整體相似度以及重復的內容。
①余弦相似度。對文本A和文本B進行分析時,分別將A和B文本內容進行分詞并組成一個集合,然后依次統計各個分詞出現的頻率,再將分詞和詞頻組成一個向量,兩個文本的相似度則可以通過文本向量之間夾角的余弦值來表示,余弦值越大則相似度越高,如果余弦值為1則表明兩個文本完全相似。
②N-Gram算法。分別將A和B兩個文本的內容以N字符為長度進行切割并分別組成切割好的字符串集合,再將兩個集合中的字符串遍歷比較,能夠快速找出內容一致的字符串,最后將這些字符串去重,便能得到連續重復N個字符以上的內容。當通過N-Gram算法對投標文件分析時,不管將文件中的段落和語句內容如何調整順序,都不會影響分析結果。
2.圖像識別。運用圖像識別技術可以計算出投標文件之間有無高度相似或雷同的圖片。本文利用OpenCV模塊庫功能進行圖像的感知哈希值計算,比對圖像之間的相似度,當計算出來的漢明距離越小,圖像的相似度越大。在圖像識別領域,一般認為當漢明距離小于5時,兩張圖片高度相似。如果不同的標書存在雷同的圖片,則圍標串標的可能性很大。
3.模型實現。本模型利用計算機語言Python編程實現。首先讀取投標文件,將每個投標文件分別解析為文本信息、表格信息和圖像信息3個部分。然后將文本信息和表格信息連接起來,經過數據清洗后形成新的文本信息集合存入內存。再次將文本信息集合分別進行分詞處理,通過余弦相似度算法計算出文本內容的整體相似度,通過N-Gram算法進行文本N元切割計算出文本中連續重復的內容。最后,依次將標書之間的圖片逐個比較,智能識別出高度相似的圖片。智能分析模型運行流程如圖2所示。
(三)模型運行結果
審計人員節選了4家公司技術標書中的《安全文明施工措施》章節的全部內容進行分析。4家公司關于該章節內容的字數均在2萬至4萬之間,倘若通過傳統的人工作業方式進行線索甄別是非常困難的,但通過“三維一體”智能分析模型僅需數分鐘即可完成。模型運行綜合結果如表1所示(N設為20時)。
1.整體相似度。從4份標書整體相似度的比較結果柱形圖(見圖3)中可以清楚地看出,A公司同BCD3家公司之間的整體相似度明顯低于BCD3家公司之間的整體相似度。同時,B和C標書之間以及C和D標書之間的整體相似度較高,均超過了48%。
2.重復內容的字符數。4家公司之間標書內容的重復字符數柱形圖如圖4所示,從圖中可以清楚地看出B和C之間、C和D之間的重復字符數特別多,而其他公司的標書之間只有少量的重復內容。經審計人員查看重復的內容并結合標書發現,B和C的投標文件在“文明施工措施”部分內容完全重復;C和D的投標文件在“施工現場安全技術措施”“施工機械安全技術措施”“觸電事故應急救援”和“經濟處罰措施”等多處內容存在重復,尤其是在“經濟處罰金額的設置”中的條款規定和“架駛室”等處出現的錯別字均完全相同。
3.雷同圖片數。B和C兩公司的投標文件中各有4張圖片分別相似,經人工甄別,上述圖片內容雷同。這4張圖片分別是“安全管理體系結構圖”“安全生產管理組織機構圖”“應急救援領導小組結構圖”和“文明施工保障體系圖”。
綜合以上模型運行結果,公司C和D的標書之間存在諸多相同或相似文本內容,公司B和C的標書之間存在較多重復內容且存在多張雷同圖片,并且公司B、C、D三者標書之間的內容整體相似度很高。結合本次分析結果,根據《中華人民共和國招標投標法實施條例》第四十條關于圍標串標情形的認定中第(四)項“不同投標人的投標文件異常一致”的相關規定,公司B、C、D涉嫌圍標串標,需進一步重點監督。
(作者單位:重慶市公安局九龍坡區分局審計室,郵政編碼:400039,電子郵件:810235281@qq.com)