999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本處理技術(shù)在高校審計(jì)中的應(yīng)用探索

2024-08-06 00:00:00梅勝李晨
現(xiàn)代商貿(mào)工業(yè) 2024年16期

摘要:隨著信息化技術(shù)的發(fā)展,高校審計(jì)面臨著海量文本數(shù)據(jù)資料的挑戰(zhàn),而傳統(tǒng)的數(shù)據(jù)處理方法和工具對文本信息的適用性不足。本文立足高校審計(jì)應(yīng)用,以Python語言為例,以合同審計(jì)為應(yīng)用場景,探討文本處理技術(shù)實(shí)現(xiàn)路徑,助力提升高校審計(jì)工作質(zhì)效。

關(guān)鍵詞:文本處理技術(shù);高校審計(jì);應(yīng)用探索

中圖分類號:G4文獻(xiàn)標(biāo)識碼:Adoi:10.19311/j.cnki.16723198.2024.16.087

0引言

隨著高校經(jīng)濟(jì)和業(yè)務(wù)活動的發(fā)展,高校審計(jì)領(lǐng)域面臨著海量文本數(shù)據(jù)的挑戰(zhàn)。根據(jù)相關(guān)文獻(xiàn)數(shù)據(jù),高校超過80%的數(shù)據(jù)是以非結(jié)構(gòu)化、半結(jié)構(gòu)化的文本形式存在的,如合同文本、科研報(bào)告、會議紀(jì)要、工作總結(jié)以及信息系統(tǒng)中的日志、OA流轉(zhuǎn)文件、網(wǎng)站新聞等紙質(zhì)或電子文檔。這些數(shù)據(jù)都是審計(jì)資料的一部分,其中蘊(yùn)含的信息價(jià)值能夠轉(zhuǎn)化為審計(jì)線索和證據(jù)。近年來,基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法逐漸受到關(guān)注,通過信息抽取方法從非結(jié)構(gòu)化文檔中提取關(guān)鍵信息,進(jìn)行結(jié)構(gòu)化存儲和程序化稽核,能極大提升審計(jì)效率,有效降低審計(jì)風(fēng)險(xiǎn)。

1文本信息處理在審計(jì)中面臨的難點(diǎn)

(1)缺乏標(biāo)準(zhǔn)化審計(jì)方法。面對文本數(shù)據(jù),傳統(tǒng)審計(jì)更多的是實(shí)行人工分析方法,采用瀏覽識別、輔助觀察以及審核等審計(jì)手段,高度依賴審計(jì)人員的差異化個體能力、經(jīng)驗(yàn)和工作耐心,缺乏完善的數(shù)據(jù)采集、存儲、處理、分析、校驗(yàn)等審計(jì)流程和統(tǒng)一標(biāo)準(zhǔn)的審計(jì)方法,審計(jì)人員在海量數(shù)據(jù)中獲得有價(jià)值的信息、搜尋風(fēng)險(xiǎn)線索變得較為困難,數(shù)據(jù)利用難度較高,影響審計(jì)目標(biāo)的實(shí)現(xiàn)。

(2)常用數(shù)據(jù)審計(jì)模型適用性不足。文本信息種類繁多,存儲空間大,數(shù)據(jù)結(jié)構(gòu)隨機(jī),信息價(jià)值和密度遠(yuǎn)遠(yuǎn)低于以財(cái)務(wù)報(bào)表為代表的結(jié)構(gòu)化數(shù)據(jù),現(xiàn)行廣泛使用的數(shù)據(jù)處理工具SYSBASE、ORACLE、SQL等很難兼容非結(jié)構(gòu)化數(shù)據(jù),無法使用常規(guī)數(shù)據(jù)軟件工具進(jìn)行處理,傳統(tǒng)的數(shù)據(jù)建模、抽樣統(tǒng)計(jì)、數(shù)據(jù)透視等方法已不再適用,審計(jì)手段滯后于數(shù)據(jù)信息的生成速度。

(3)面臨資源約束和風(fēng)險(xiǎn)暴露。高校現(xiàn)行審計(jì)項(xiàng)目類型龐雜,基本采用“非現(xiàn)場+現(xiàn)場”組織模式,項(xiàng)目周期在20-60天,能投入的審計(jì)資源較為有限。通過人工翻閱大量的非結(jié)構(gòu)化文本資料,在人力和時間資源約束下,一般按比例抽取一定的數(shù)據(jù)進(jìn)行檢查,無法保證資料完全覆蓋,發(fā)現(xiàn)問題缺乏代表性,更難揭示整體風(fēng)險(xiǎn)。

2文本處理技術(shù)在審計(jì)中的應(yīng)用案例

文本處理技術(shù)是指利用計(jì)算機(jī)及程序語言對文本信息資料進(jìn)行處理和分析的技術(shù),主要包括文本識別、文本挖掘、自然語言處理、信息抽取、知識圖譜等較為成熟的技術(shù),這些技術(shù)可以覆蓋資料處理、疑點(diǎn)篩選、證據(jù)生成、報(bào)告生成等審計(jì)業(yè)務(wù)全過程,高效解決審計(jì)難題,提高審計(jì)效率。

Python是一種廣泛使用的高級編程語言,具有面向?qū)ο蟆⒑啙嵰讓W(xué)、跨平臺等特點(diǎn),同時具有豐富的工具庫和框架資源,在文本處理中具有廣泛的應(yīng)用。下面以高校合同審計(jì)為應(yīng)用場景,探討Python文本處理工具在高校審計(jì)中的應(yīng)用。

2.1文件收集轉(zhuǎn)化與對象庫建立

廣泛收集高校業(yè)務(wù)管理部門存儲的科研項(xiàng)目、物資采購、工程招標(biāo)、后勤服務(wù)、信息咨詢等各類合同文本文件、合同審批文件以及與重大項(xiàng)目相關(guān)的投標(biāo)文件、合同執(zhí)行報(bào)告等紙質(zhì)和電子文本文件;掃描紙質(zhì)文本,進(jìn)行圖像預(yù)處理和必要的修正,使用OCR(光學(xué)字符識別)系統(tǒng)提取文本數(shù)據(jù),將圖像批量轉(zhuǎn)換為文本文件;校核文本數(shù)據(jù)邏輯性、準(zhǔn)確性,并整理為格式統(tǒng)一、規(guī)范的電子文檔,建立相應(yīng)的文本對象庫及存儲目錄。

2.2文本提取與關(guān)鍵信息識別

用Python工具庫(如Pdfplumber、Pypdf2、Python-docx等)工具,對各文本對象庫中的PDF、Word等文檔進(jìn)行文本提取;使用正則表達(dá)式(RegularExpression)匹配特定的模式,提取合同文本、合同審批流程文件、投標(biāo)文件中的關(guān)鍵信息,如合同乙方、合同金額、交易數(shù)量、簽訂日期、合同期限、罰則賠償、合同簽章及審批時間、承辦單位、審批人等條款內(nèi)容和信息。

2.3數(shù)據(jù)整理與結(jié)構(gòu)化數(shù)據(jù)建庫

將提取的合同關(guān)鍵信息數(shù)據(jù)整理到數(shù)據(jù)庫中,利用Python的數(shù)據(jù)分析工具(如Pandas、TextBlob等)進(jìn)行數(shù)據(jù)加載、清洗、轉(zhuǎn)換和處理,如統(tǒng)一大小寫、統(tǒng)一文本格式、檢測缺失值、拆分字符串、替換字符串等,實(shí)現(xiàn)數(shù)據(jù)格式的標(biāo)準(zhǔn)化與規(guī)范化;對數(shù)據(jù)進(jìn)行初步的篩選、排序和分組等探索性分析,將整理后的結(jié)構(gòu)化數(shù)據(jù)生成合同分析數(shù)據(jù)庫。

2.4內(nèi)容異常檢測與合規(guī)性檢查

使用Python工具識別和分析異常合同業(yè)務(wù),查找合同審計(jì)疑點(diǎn)線索。一是使用閾值法、四分位距(IQR)等來標(biāo)記和識別超出一定范圍的異常值,如合同乙方累計(jì)金額較高、合同單價(jià)相對同類業(yè)務(wù)畸高等;二是使用合規(guī)性檢查工具(如MiitRuleChecker)設(shè)定一定條件篩選分析合同程序及內(nèi)容的合規(guī)性,如有合同文本但未發(fā)現(xiàn)審批流程、有合同文本但未發(fā)現(xiàn)招標(biāo)信息、合同簽訂日期與審批時間倒置、合同乙方與合同簽章信息不一致、交付日期等關(guān)鍵信息缺失等情況,檢查合同業(yè)務(wù)執(zhí)行是否符合高校的管理流程、規(guī)章制度和法律法規(guī)。

2.5外部信息抓取與關(guān)聯(lián)分析

使用python工具(如requests、BeautifulSoup等)發(fā)送網(wǎng)絡(luò)請求并獲取網(wǎng)頁內(nèi)容,對合同中的乙方單位和同類項(xiàng)目成交記錄等進(jìn)行網(wǎng)絡(luò)信息挖掘,獲取乙方單位工商注冊信息、股東高管信息、經(jīng)營狀況、訴訟仲裁記錄,以及同類項(xiàng)目歷史成交記錄等信息,分析乙方單位合同履約能力,判斷合同風(fēng)險(xiǎn),并通過成交價(jià)格比對,識別合同單價(jià)畸高等可能存在的舞弊疑點(diǎn)。

2.6報(bào)告生成與界面優(yōu)化

Python的報(bào)告庫(如ReportLab等)功能能助力審計(jì)人員生成直接的、詳細(xì)的分析報(bào)告。ReportLab提供豐富的功能來創(chuàng)建、編輯和修改PDF文件,支持多種PDF元素,如表格、圖形、文本框等,并且可以通過編程方式自定義這些元素的樣式和布局,進(jìn)行界面優(yōu)化以符合特定的表述習(xí)慣和匯報(bào)場景。

3結(jié)語

隨著深度學(xué)習(xí)等計(jì)算機(jī)技術(shù)的發(fā)展,文本處理技術(shù)日新月異,使用場景更加豐富,將極大地助力審計(jì)工作的開展。但在實(shí)踐中也要處理好技術(shù)手段與專業(yè)能力的配合、數(shù)據(jù)安全和隱私保護(hù)兼顧等關(guān)系。作為審計(jì)能力建設(shè)的重要內(nèi)容,審計(jì)人員加強(qiáng)技術(shù)方法學(xué)習(xí)、探索審計(jì)工具利用將成為未來的必修課。

參考文獻(xiàn)

[1]楊兆群,蔡潤柱,郭嘉玲,等.基于關(guān)鍵詞檢索的非結(jié)構(gòu)化數(shù)據(jù)審計(jì)應(yīng)用研究[J].中國內(nèi)部審計(jì),2020,(04):3642.

[2]陳偉,勾東升,徐發(fā)亮,等.基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法研究[J].中國注冊會計(jì)師,2018,No.234(11):8084+3.

[3]孫建勇,張杰,張勇剛,等.非結(jié)構(gòu)化數(shù)據(jù)在商業(yè)銀行內(nèi)部審計(jì)中的應(yīng)用探索[J].中國內(nèi)部審計(jì),2020,(08):2731.

[4]張薇,伍之昂.非結(jié)構(gòu)化文本數(shù)據(jù)的自然語言分析在政策跟蹤審計(jì)中的應(yīng)用[J].審計(jì)觀察,2022,(04):7075.

主站蜘蛛池模板: 无码在线激情片| 国产亚洲视频免费播放| 亚洲精品无码久久毛片波多野吉| 亚洲av无码片一区二区三区| 亚洲VA中文字幕| 欧美第一页在线| 亚洲人成电影在线播放| 亚洲国产理论片在线播放| Jizz国产色系免费| 久久精品视频亚洲| 露脸真实国语乱在线观看| 一级全黄毛片| 黄色网在线| 午夜久久影院| 四虎精品免费久久| 免费一级α片在线观看| 麻豆精品视频在线原创| 99视频在线精品免费观看6| 99久久精品免费看国产电影| 国产美女精品在线| 三级视频中文字幕| 欧美日韩第二页| 国内丰满少妇猛烈精品播| 免费又爽又刺激高潮网址| 亚洲资源站av无码网址| 91丨九色丨首页在线播放| 成人福利一区二区视频在线| 亚洲午夜片| 在线视频亚洲欧美| 午夜a级毛片| 国产在线精品99一区不卡| 国产丝袜第一页| 三级国产在线观看| 在线观看亚洲人成网站| 视频一区视频二区中文精品| 亚洲天堂777| 国产亚洲成AⅤ人片在线观看| 日韩成人高清无码| 国产97视频在线观看| 黄色三级网站免费| 人人澡人人爽欧美一区| 国产内射一区亚洲| 久草美女视频| 欧美在线网| 亚洲欧洲日产国产无码AV| 91免费片| 久久久久亚洲精品无码网站| 97在线观看视频免费| 免费无码AV片在线观看中文| 国产精品夜夜嗨视频免费视频| 欧美午夜理伦三级在线观看| 在线色国产| 午夜免费视频网站| 秋霞午夜国产精品成人片| 国产三级精品三级在线观看| 中文字幕永久在线看| 综合天天色| 成人精品在线观看| 欧美精品成人| 国产精品永久久久久| a级毛片一区二区免费视频| 亚洲欧美综合精品久久成人网| 国产乱人伦偷精品视频AAA| 国产综合网站| 欧美亚洲国产日韩电影在线| 日本精品视频| 九九九精品视频| 亚洲成在人线av品善网好看| 在线免费不卡视频| 国产日韩欧美在线播放| 亚洲男人的天堂网| 成色7777精品在线| 国产爽爽视频| 久久五月天国产自| 人禽伦免费交视频网页播放| 夜精品a一区二区三区| a级毛片免费网站| 久久久久亚洲av成人网人人软件| 亚洲欧美成人在线视频| 亚洲国产中文精品va在线播放 | 中文字幕久久精品波多野结| 亚瑟天堂久久一区二区影院|