陳 威,王桂欽,王 偉
(深圳供電局有限公司,廣東 深圳 518000)
隨著信息系統在電網企業的全面應用,電網企業進入了數字化信息時代。審計部門作為企業內部風險監督部門,目前已基本實現信息化支撐,從審計項目管理實施到審計輔助作業都已全面實現信息化。在信息化支撐的審計項目管理實施作業模式下,審計業務部門積累了大量的審計歷史發現問題,審計歷史問題是審計項目實施過程中沉淀的核心審計成果數據,利用好審計歷史問題數據對提升審計項目實施效率與質量都有巨大幫助。
審計歷史問題包含發現問題的領域、問題表象、問題定性、違反的法規條款等核心信息,這些信息都是審計項目實施中必須輸出的成果。根據對某供電企業過往10年審計發現問題的分析,當年審計業務新發現的審計問題占比為5%至10%,90%左右為過往年份已經發現過的問題,快速、準確地對過往年份發現的審計問題進行定性與問題描述是提升審計項目質量和效率的有效途徑。本文主要應用智能搜索技術對審計歷史問題庫進行搜索匹配,讓審計人員可快速定位到歷史發現的類似問題,為審計問題的定性、描述、處置方式等提供參考,提升審計效率與質量。
審計歷史問題庫為結構化數據,在歷史問題庫進行搜索過程中最大的問題難點在于每個審計人員對問題的描述不一致,相同的審計問題由于描述的不一致很難用通用的關鍵字匹配技術實現精準定位,需通過智能搜索技術針對審計人員對審計問題的描述進行語義匹配后對歷史問題庫進行搜索定位,從而達到類似問題或相同問題的精準搜索。智能搜索技術包括信息檢索、信息抽取、信息過濾、語義智能匹配四個方面,可以對文本數據進行快速的搜索,并可以穿透內容,精確定位搜索內容。
BIM(二元假設模型)是顯示相關度的一種模型,主要用于相關性匹配與語義匹配。
模型即可以對兩個因子 P(D|R)和 P(D|NR)進行估算(條件概率),舉個簡單的例子,文檔D中五個單詞的出現情況如下:{1,0,1,0,1}0 表示不出現,1 表示出現。用 pi表示第 i個單詞在相關文檔中出現的概率,在已知相關文檔集合的情況下,觀察到文檔D的概率為:

對于因子P(D|NR),我們假設用si表示第i個單詞存在不相關文檔集合中出現的概率,于是在已知不相關文檔集合的情況下,觀察到文檔D的概率為:

最后可以得到以下的估算:

我們可以將各個因子規劃為兩個部分,一部分是在文檔D中出現的各個單詞的概率乘積,另一部分是沒在文檔D中出現的各個單詞的概率乘積,于是公式可以理解為下面的形式:

對公式進行等價變換:

第一部分代表在文章中出現過的單詞計算得到的單詞概率乘積,第二部分表示所有特征詞計算得到單詞概率乘積,它與具體的文檔無關,所有文檔該項的得分一致,所以在排序中不起作用,可以忽略,所以得到最終的估算公式:

為了方便計算,對上述公式兩邊取log,得到:

如何估算概率si和pi呢,如果給定用戶查詢,我們能確定哪些文檔集合構成了相關文檔集合,哪些文檔構成了不相關文檔集合,那么就可以用如表1的數據對概率進行估算。

表1 相關文檔及不相關文檔數據
根據表1可以計算出pi和si的概率估值,為了避免出現log(0),對估值公式進行平滑操作,分子+0.5,分母+1.0,即:

代入估值公式得到:

這個公式代表的含義是:對于同時出現在查詢Q和文檔D中的單詞,累加每個單詞的估值結果就是文檔D和查詢Q的相關性度量,在預先不知道哪些文檔相關,哪些文檔不相關的情況下,可以使用固定值代替,這種情況下該公式等價于向量空間模型(VSM)中的IDF因子。雖然BMI模型的實際使用中不是很理想,但它是BM25模型的基礎。
我們對風險庫、歷史問題庫這些文本庫,按照審計工作的特點從業務領域和管理環節兩個大的維度進行全索引 (所謂全索引就是對相關的詞語進行不分詞的全域搜索,建立索引)。業務領域提取了“財務管理”“招標非招標采購管理”“法律合同管理”“工程管理”“生產運行管理”“物資管理”“項目管理”“營銷管理”“其他業務領域”九個維度。管理環節提取了“關聯交易管理”“物資倉儲管理”“物資出庫及退庫管理”“物資管理其他”“物資信息系統管理”“項目施工及質量管理”“資產管理”“抄核收管理”“電費回收管理”“電費資金管理”“電價政策執行管理”“電能計量管理”“項目監理管理”“項目結算及決算管理”“業擴報裝管理”“營銷檔案管理”“營銷管理其他”“營銷信息系統管理”“用電檢查和反竊電管理”“項目資金管理”“成本費用管理”“稅務管理”共21個維度。
對這些維度進行不同組合,我們先用布爾型檢索建立范圍相對小的查詢子集,例如用戶在業務領域選擇了“財務管理”,在管理環節提取“成本費用管理”,系統會對這兩個維度進行布爾型檢索,形成一個含有“財務管理”和成本費用管理”的文檔子集,再用BIM模型在這個文檔子集對所查詢的詞進行相關性的排序。用戶就可以得到一個以查找的關鍵詞的相關性排序的文章列表。
以歷史問題庫為例,假設用戶需要搜索“用電客戶的用電類型與電價不相符”這類歷史問題,利用智能搜索技術需要通過以下幾步來完成。
對用戶輸入的搜索條件 “用電客戶的用電類型與電價不相符”進行分詞處理。根據漢語語法,這句話應該被分割成:
用電客戶 /的 /用電類型 /與 /電價 /不相符
通過第一步的語義分割,對分割出來的詞語“用電客戶”“用電類型”“電價”,進行判斷,并確定用戶要查找的問題屬于“營銷管理”業務域,管理環節可能屬于“電費回收管理”“電費資金管理”“營銷檔案管理”“用電檢查和反竊電管理”。系統對這幾個維度進行布爾型檢索,形成一個含有“營銷管理”“電費回收管理”“電費資金管理”“營銷檔案管理”“用電檢查和反竊電管理”的文檔子集。
首先,對歷史問題庫的各個維度進行權重分配,如:業務領域占5%、管理環節占5%、問題類型占5%、問題概述占10%、問題詳情占20%、審計意見或建議占10%、整改措施占15%等。
然后,根據分割出來的詞語分別對各個維度進行匹配,并根據匹配程度和權重算出每個維度的得分。假如總分為100分,問題概述占比為10%,則問題概述滿分為10分,系統自動判斷分割的分詞和問題概述的匹配程度進行評分,最高評10分,最低為0分。
最后,將所有維度的評分進行求和,算出有相關性的歷史問題的匹配程度得分,并按照得分高低進行降序排列,理論上得分最高的歷史問題記錄是用戶最想查到的,如果實際中存在差異,則還需對模型進行優化。
本文基于審計歷史問題庫,利用搜索模型的算法,從歷史問題庫的各個維度進行智能搜索匹配,快速精準地定位審計人員需要搜索的內容,通過對歷史審計問題的參考,在審計項目實施過程中審計人員可以快速完成對審計問題的定性、問題描述、法規應用等工作,幫助企業審計部門提高審計工作效率與質量,提升分析問題的能力。