王淼 朱宇龍 馬博 劉森 黎晚晴



[摘 要]隨著信息技術的發展,電力企業招投標業務積累了大量信息數據。如何提升審計監督在數字化環境下發現問題的能力,揭示招投標過程中出現的違規行為,是審計人員必須解決的問題。本文基于文本挖掘技術,通過建立有效模型,識別招投標文件中存在的問題,極大提升了審計作業的智能化。
[關鍵詞]招投標;審計;文本分析;非結構化數據;文本挖掘技術
doi:10.3969/j.issn.1673 - 0194.2020.14.038
[中圖分類號]F239.1;TP317.1[文獻標識碼]A[文章編號]1673-0194(2020)14-00-04
0? ? ?引 言
經過多年的信息化建設,電力企業招投標業務基本實現了信息化管理,從招標方案到投標環節已全面實現線上信息化與電子化作業。電力企業每年大量的招標項目產生了海量的非結構化電子數據。對海量電子化數據進行招投標審計,傳統的抽樣審計與人工核查方法已完全無法適應當前的實際情況,探索新技術、新手段、新作業流程在招投標審計中的應用勢在必行。
1? ? ?文本挖掘技術概述
文本挖掘指從大量文本數據中抽取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織信息以供將來參考。文本挖掘的主要用途是從原本未經處理的文本中提取未知的知識,但是文本挖掘是一項非常困難的工作,因為必須處理那些本來就模糊且非結構化的文本數據,是一個多學科交叉領域,涵蓋了信息技術、文本分析、模式識別、統計學、數據可視化、數據庫技術、機器學習以及數據挖掘等技術。文本挖掘是從數據挖掘發展而來,定義與人們熟知的數據挖掘定義相類似。但與傳統的數據挖掘相比,文本挖掘有其獨特之處,主要表現在:文檔本身是半結構化或非結構化的,無確定形式且缺乏機器可理解的語義;而數據挖掘的對象以數據庫中的結構化數據為主,并利用關系表等存儲結構發現知識。由此可知,有些數據挖掘技術并不適用于文本挖掘,需要建立在對文本集預處理的基礎上。文本挖掘技術主要包括歧義消除、詞性標注、句法解析、時間推理、指代消解、特征抽取、文本分類、文本聚類、文本比較、情感分析、人物關系網分析、信息抽取和智能檢校等。
2? ? ?文本挖掘技術在審計中的應用
本文主要探索運用文本挖掘技術將招投標資料中的非結構化數據轉換為結構化數據,再運用文本分析算法,進行審計分析,幫助審計人員發現審計疑點。
2.1? ?圍標問題
2.1.1? ?業務目標
在電力企業招投標過程中,從招標文件獲取招標要求,從投標文件獲取投標信息,找出不符合資質的投標單位。從投標文件中提取和分析投標項目、投標單位、投標代理人,結合企業信息找出經常在相同項目中一起投標,同時存在關聯持股、交換委托代理人的投標單位,找出異常投標企業和股份持有人。
2.1.2? ?分析流程
(1)通過文本挖掘技術抽取關鍵信息
利用文本挖掘技術抽取招標文件中的項目名稱、投標企業資質要求(注冊資金、企業人員規模、企業成立時間)等,形成招標要求關鍵信息數據,如表1所示。
利用文本挖掘技術抽取投標文件中的分析投標項目、投標單位、投標委托代理人姓名等關鍵數據,形成項目投標關鍵數據表,如表2所示。
接入外部企業信息數據,外部企業信息數據包括企業名稱、注冊資金、企業人員規模、企業成立時間、企業股份組成(企業股東信息、企業股東股份比例、企業股東占股金額)等關鍵信息,如表3、表4所示。
(2)分析關鍵信息
根據關聯招標要求關鍵信息數據中的投標企業資質要求與外部企業信息數據中的注冊資金、企業人員規模、企業成立時間進行比較。將注冊資金低于投標企業注冊資金、企業人員數量少于投標企業人員規模、企業成立年限晚于投標企業成立年限的信息視為異常,作為審計疑點。運用關系網分析算法分析,找出在相同項目中一起投標,同時存在相互持股情況的異常投標企業和股份持有人,作為審計疑點。利用關聯分析算法分析,識別出經常在相同類型的項目中一起投標,同時存在交換委托代理人的投標單位,作為審計疑點。
2.1.3? ?分析結果
經分析,發現部分項目存在投標單位資質與招標要求不一致、注冊資金低于投標企業注冊資金、企業人員數量少于投標企業人員規模、企業成立年限晚于投標企業成立年限的情況,下面對部分結果進行列示,如表5所示。發現一些投標單位在相同項目中一起投標,同時存在相互持股的情況,下面對部分結果進行列示,如表6所示。表7是投標公司持股情況。發現一些投標單位經常在相同項目中一起投標,同時存在交換委托代理人的情況,下面對部分結果進行列示,如表8所示。
2.2? ?技術方案查重
2.2.1? ?業務目標
依托企業歷史招投標的技術文檔庫,對項目投標方的技術文檔進行查重分析,分別從項目情況介紹、服務方案、服務安排、進度控制、質量控制進行相似度分析,大于一定閾值,則認為該技術方案存在嚴重的雷同情況。
2.2.2? ?分析流程
技術方案查重分析的流程主要分為3個步驟:文本抽取、分布式分模塊相似度計算、文檔整體相似度加權平均計算。利用基于編輯距離的文本相似度計算算法和加權平均算法,實現技術方案流程如圖1所示。
(1)文本抽取
在對非結構化的技術方案文檔進行查重審計的過程中,選擇的文本信息提取方法極大影響后續查重分析的效果。系統采用一種基于抽取模板的文檔結構化提取技術抽取原始文檔中的待分析內容,將其轉換成包含“項目情況,服務方案,服務安排、進度控制、質量管控”的結構化字段數據進行存儲,以便重復利用,提高后續查重分析效率。
該方法的實現步驟如下。①定義模板。在讀取技術方案文檔時,首先需要定義一個模板文件,用來定義待讀取文檔的結構和需要提取Word的內容,模板文件需要定義的內容包括:采用可擴展標記語言XML定義文檔的具體結構,定制文件的樹型章節結構內容,通過XML結構實現可配置的定義文檔的層級結構,每個層級作為配置文件的一個節點;定制節點的屬性,根據各節點的實際業務需求,配置標題節點名稱、編號;定義模板節點的存儲標識,即讀取的數據應該存放到數據庫表的哪個字段中。②文本提取。根據第一步定義的模板文件,加載待讀取的Word文檔并進行提取。實現過程包含以下步驟:內容遍歷,加載模板文件和Word文檔,并遍歷其中的所有節點;根據XML定義的文檔結構(樹型結構),采用深度遍歷方式加載內容遍歷,在遍歷過程中,根據當前的節點類型加載不同的內容;提取標題節點,根據模板節點中的標題或編號定位到具體的Word文檔位置,如果不能定位則表示在模板中的標題沒在文檔中,同時根據節點的屬性“是否為必須字段”判斷是否需要輸出錯誤信息;提取文本節點,讀取Word文檔中對應的文本內容,并依據模板中的節點定義,把讀取的數據保存到對應數據庫表的字段中。利用該抽取方法,系統可以快速將技術方案文檔庫中的海量技術方案文件轉換為結構化的各章節文本并存儲到關系數據庫中,為后續方案查重分析提供數據基礎。
(2)分布式分模塊相似度計算
技術方案相似度計算主要采用基于編輯距離的文本相似度算法。編輯距離又稱為Levenshtein距離,由俄羅斯的數學家Vladimir Levenshtein在1965年提出,指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數。其中,編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。一般來說,兩個字符串的編輯距離越小越相似。如果兩個字符串相等,則它們的編輯距離為0(不需要任何操作)。兩個字符串的編輯距離肯定不超過它們的最大長度。為了支持海量技術方案的查重比對,系統采用并行計算技術,并利用計算機的多核資源,實現多篇文檔同時分析。充分高效地利用多核計算資源,降低單個問題的求解時間,節省成本,滿足更大規?;蚋呔纫蟮膯栴}求解需求。
文本相似度算法基本步驟如下。①構造行數為m+1,列數為n+1的矩陣,用來保存完成某個轉換需要執行的操作的次數,將串s[1…n]轉換到串t[1…m]所需要執行的操作次數為matrix[n][m]的值。②初始化matrix第一行為0到n,第一列為0到m;Matrix[0][j]表示第1行第j-1列的值,這個值表示將串s[1…0]轉換為t[1…j]所需要執行的操作的次數,很顯然將一個空串轉換為一個長度為j的串,只需要j次的add操作,所以matrix[0][j]的值應該是j,其他值以此類推。③檢查每個從1到n的s[i]字符,檢查每個從1到m的s[i]字符;將串s和串t的每一個字符進行兩兩比較,如果相等,則讓cost為0,如果不等,則讓cost為1。如果可以在k個操作里面將s[1…i-1]轉換為t[1…j],那么就可以將s[i]移除,然后再做這k個操作,所以總共需要k+1個操作;如果可以在k個操作內將s[1…i]轉換為t[1…j-1],也就是說d[i,j-1]=k,那么就可以將t[j]加上s[1…i],這樣總共就需要k+1個操作;如果可以在k個步驟里面將s[1…i-1]轉換為t[1…j-1],那么就可以將s[i]轉換為t[j],使得滿足s[1…i]=t[1…j],這樣總共也需要k+1個操作。因為要取得最小操作的個數,所以最后還需要比較這3種情況的操作個數,取最小值作為d[i,j]的值;然后重復執行,最后的相似度結果就在d[n,m]中。
(3)文檔整體相似度加權平均
加權平均法指標綜合的基本方法,又稱為“綜合加權平均法”,指對經過同度量處理的數值通過加權平均進行綜合,形成一個總值,從而達到綜合評價目的的方法。該方法有兩種形式,分別為加法規則與乘法規則,本系統采用加法規則實現加權平均,分別對項目情況、服務方案、服務安排、進度控制、質量管控設置權重,將各部分權重乘以各部分相似度,相加得到該文檔的相似度。
2.2.3? ?分析結果
查重計算結果存儲在數據庫中,存儲信息包括源文件和目標文件整體的相似度以及各部分信息的相似度,并標注源文本和目標文本的不同之處。技術方案查重結果數據結構如表9所示。
3? ? ?結 語
本文探索了招投標智能審計的應用,利用人工智能技術開展審核投標資質,分析圍標、投標風險等繁雜的工作,大幅提高了審計工作的效率和準確率,使審計人員能夠集中力量開展分析性工作。
主要參考文獻
[1]蔣耀亮.自動光學識別OCR在票據自動識別系統中的應用研究[J].通訊世界,2019(5):288-289.
[2]陳琳娣.機器人流程自動化在內部審計中的應用實踐[J].中國內部審計,2019(4):43-45.
[3]鄒云峰,何維民,趙洪瑩,等.文本挖掘技術在電力工單數據分析中的應用[J].現代電子技術,2016(17):149-152.
[4]陳朵玲,胡肖鋒.基于Web文本挖掘技術的企業競爭情報系統研究[J].情報雜志,2005(6):22-24.
[5]李立,蔡峰,梁非,等.基于文本挖掘技術探索中醫治療膽結石藥證對應規律研究[J].遼寧中醫雜志,2013(4):664-666.
[6]梁浩波.基于文本挖掘的用電客戶訴求智能聚類研究[J].廣東電力,2016(8):45-50,66.
[7]湯寧.基于文本挖掘的電力工單分析[C]//2018智能電網新技術發展與應用研討會論文集,2018.
[8]許保勛.基于文本挖掘技術的證券智能監管項目[J].金融電子化,2018(8):47-48.
[9]曹晉彰,趙少東,龐寧,等.基于文本挖掘技術的電網企業客戶抱怨分析應用研究[J].大科技,2016(3):266.
[10]張博宇,周成軒.基于信息化條件下的供電企業市縣一體化審計管理探究[J].消費導刊,2018(4):253-254.