張婧婧
審計數據采集既是大數據審計的第一步,也是大數據審計成功開展的必要前提。審計數據采集不僅會影響對被審計單位的審計結論,還會影響整個審計項目資源的投入產出,做好審計數據采集具有至關重要的意義。在實際的數據采集中,應著重注意以下幾個方面。
一、應充分了解被審計單位信息系統。
在審計項目開展前的審前調查階段,應著重對被審計單位信息系統進行詳細了解。一方面是財務系統,區分清楚是代理記賬還是被審計單位自己記賬,如果是代理記賬,則可從財政系統統一采集;如果是自己記賬,就要了解被審計單位財務軟件,主要有財務軟件名稱、版本情況、后臺數據庫名稱及版本、近幾年是否升級、等級保護等一系列信息。另一方面是業務系統,要了解被審計單位主要業務開展情況,所采用的信息系統名稱、版本類型、后臺數據庫名稱及版本、處理的主要業務、業務流程及流程圖、涉及的外部單位、等級保護等情況。審前調查時,可提前將要采集的上述兩類信息系統的要素制成表格,由被審計單位填報即可。
二、應根據數據的實際情況選擇不用的采集方式
實際采集中,主要有以下SQL Server、Oracle、ACCESS三種數據庫,下面分別就以上三種數據庫,介紹一下不同的數據采集方式。
1、SQL Server數據庫。目前,大部分用友軟件、一部分金蝶軟件的后臺是SQL Server數據庫,SQL Server數據庫也是目前市場上比較成熟和穩定的數據庫。被審計單位提供的SQL Server數據文件主要有兩種,一種是采用數據備份方式備份的數據,文件后綴一般是.bak,采集時先將該數據還原在SQL Server數據庫中,之后再使用數據采集軟件連接SQL Server數據庫,進行數據采集即可;另一種是采用數據分離方式備份的數據,主數據文件后綴一般是.mdf,日志文件后綴一般是.ldf,采集時先將主數據文件附加在SQL Server數據庫中,之后再使用數據采集軟件采集即可。同時,采集時應注意數據庫的版本問題,目前大部分單位使用的SQL Server 2008R2,如果還原時出現“架構不一致”等類似問題,一般是數據庫版本與當前數據庫版本不一致所致,此時就需要調整當前數據庫。
2、Oracle數據庫。Oracle數據庫是目前世界上流行最廣的一款關系數據庫管理系統,具有系統可移植性好、使用方便、功能強大、高效可靠的優點,所以一些大型企事業單位一般采用Oracle數據庫。Oracle數據庫的備份方式分為普通備份和數據泵備份,備份數據的數據文件后綴一般為.dmp,日志文件后綴一般為.log,還原時,要根據被審計單位的備份方式選擇還原方式,最好能夠保證還原方式與備份方式一致,成功率較高。若被審計單位采用的數據泵備份方式,還必須要求被審計單位提供數據備份時建表空間的語句、建用戶的語句以及數據字典,便于快速還原,減少調試過程。
3、ACCESS數據庫。由于ACCESS數據庫本身的局限性,近幾年,使用ACCESS數據庫的財務軟件較少,主要是一部分金蝶財務軟件和其他財務軟件。ACCESS數據庫的備份文件一般為.mdb或者.ais,此類文件一般直接通過數據采集軟件直接采集即可。采集中經常出現數據加密、缺少模板等問題,需要根據實際情況進行數據解密或者增加模板。
三、應注意在數據采集過程預判預防風險
數據采集是大數據審計的第一步,從審計數據采集的維度來看,審計人員在開展大數據審計工作時需要采集的數據分為財務數據、外部數據和審計知識三部分。被審計單位的財務數據可以通過被審計單位人員自行上報、內網傳輸以及審計人員現場采集等方式進行采集,在內容上主要體現為被審計單位財務軟件的數據庫,具體包含了被審計單位的憑證庫、各類臺賬、報表等。外部數據可以利用大數據爬蟲技術實施采集,例如可以在本級財政局官網上爬取所有被審計單位公示的“三公經費”數據等。審計知識的調用則是通過內部傳輸實施采集,審計人員應當只有復制審計知識的權限。
對于審計證據而言,無論使用何種取證方式,數據的真實性是一切的基礎。被審計單位的結構化數據往往形式上真實性相對較高,但是卻存在著由于主、客觀因素導致的數據缺失和錯報;而從互聯網、外部機構獲取的非結構化數據,例如社交媒體、視頻、行業總體調研報告,來源更為龐雜,則更需要進行有效的甄別和驗證。因此,審計數據采集主要存在數據質量、數據獲取、數據安全的風險,導致在審計的過程中因為數據鏈不完善、數據不真實而降低審計效率、影響審計結果。
具體來看,數據質量方面的風險包括審計人員未對數據的準確性、完整性、一致性、唯一性、適時性、有效性進行檢查、驗證,導致出現虛假數據和錯誤數據。數據獲取方面的風險包括審計人員采集數據時,采集不屬于審計范圍內的數據,向他人泄露被審計單位的秘密,或者進行其他非法行為。數據安全方面的風險包括數據安全防護不到位,使用非專用設備對數據進行處理或傳輸過程,造成數據被網絡攻擊導致數據被泄露、破壞、丟失。實際操作過程中,要根據以上可能存在的風險進行提前預判和防范。
四、應與被審計單位相關人員充分溝通
審計數據采集時,一般情況下第一次采集的成功率在70%左右,有近三分之一的數據會出現不同的問題,有些是備份方式不對、有些是沒有按照要求備份、有些備份不完整、有些數據格式不對等等。遇到問題時,要與被審計單位積極溝通,明確告知被審計單位數據采集要求,明確所要采集的數據基本格式、一般后綴和大小等信息。此外,要求被審計單位要既采集后臺數據庫數據、也采集財務軟件前臺數據,前臺數據留作備用,減少再次進行采集的時間和成本,盡可能提高一次性采集成功率。
此外,特別要強調的是,數據采集時,數據采集人員可能能夠接觸到被審計單位方方面面的數據,既有財務數據也有業務數據,甚至是涉密數據,因此要牢固樹立數據安全意識和數據保密意識。做到只采集需求數據、只通過規定計算機進行數據采集、只用光盤不用U盤等容易攜帶病毒的存儲介質,對每天接收的數據進行采集整理后存入保險柜,非相關人員不得接近被審計單位數據,從而做到對自己負責、對單位負責、對被審計單位的數據負責。