999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關聯(lián)規(guī)則的電子發(fā)票摘要與會計科目名稱相關性分析

2021-08-03 06:48:06李燕萍劉凡謝軍
電腦知識與技術 2021年17期

李燕萍 劉凡 謝軍

摘要:目的:研究電子發(fā)票摘要與會計科目名稱之間的相關性,考察由電子發(fā)票自動生成會計分錄的方法。方法:對收集到的電子發(fā)票中的摘要信息和會計科目名稱,運用Apriori關聯(lián)規(guī)則算法找出兩者之間的對應關系。結(jié)果:通過應用Apriori關聯(lián)規(guī)則算法,在一定程度上找到了發(fā)票摘要與科目名稱之間的相關性,為下一步自動生成會計分錄提供了可參考的信息。

關鍵詞:電子發(fā)票;會計分錄;關聯(lián)規(guī)則

中圖分類號:TP311? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)17-0244-02

開放科學(資源服務)標識碼(OSID):

會計分錄將記賬憑證和包括發(fā)票的原始憑證得以有效的對應和核對,實際起到了連接會計業(yè)務的紐帶作用。記賬憑證和會計賬簿是對經(jīng)濟業(yè)務往來主要內(nèi)容的簡要記錄。會計科目的設置把各項會計要素的增減變化分門別類地歸集起來,為企業(yè)內(nèi)部經(jīng)營管理和向有關方面提供一系列具體分類核算指標。會計科目的名稱一般不超過八個漢字,屬于短文本。按其所提供信息的詳細程度及其統(tǒng)馭關系不同,分為總分類科目和明細分類科目。發(fā)票摘要要求簡明扼要,既要把情況講明白,但又不能煩瑣,文字敘述簡短,屬于短文本。

1 關聯(lián)規(guī)則算法

關聯(lián)規(guī)則是反映一個事件和其他事件之間的依賴或關聯(lián)的知識。文本關聯(lián)規(guī)則挖掘是從大量文本中發(fā)現(xiàn)項集之間有意義的關聯(lián)或相關聯(lián)系。已不少研究在文本較短的情況下,利用關聯(lián)規(guī)則算法去找尋兩者甚至多者之間的關系,陳海霞等(2018)利用關鍵詞關聯(lián)融合CNN的短文本分類[1],荊琪等(2018)基于維基百科的短文本計算相關度[2],但尚未有學者解析發(fā)票摘要與會計科目名稱之間的關系。本文利用關聯(lián)規(guī)則中較為常用的關聯(lián)規(guī)則算法—Apriori算法計算分析發(fā)票摘要與會計科目名稱之間的相關性,為自動生成會計分錄提供可參考的信息。

近幾年大數(shù)據(jù)的理念和應用逐步深入,大數(shù)據(jù)應用滲透在各行各業(yè)中,并以此為基礎達到快速處理事務的目的。其中,利用數(shù)據(jù)挖掘技術研究財務報銷已為財務智能的一項主要內(nèi)容,且數(shù)據(jù)挖掘技術的一大優(yōu)勢就是從海量數(shù)據(jù)中發(fā)掘大量隱匿于其中的信息,本文采用的Apriori關聯(lián)規(guī)則算法在找到發(fā)票摘要與會計科目名稱之間的關聯(lián)規(guī)則之后應用于大量處理發(fā)票內(nèi)容的數(shù)據(jù),自動制成會計分錄。

Apriori算法是一種較為常用的通過頻繁項集挖掘關聯(lián)規(guī)則的算法,它能夠發(fā)現(xiàn)事物數(shù)據(jù)庫中頻繁出現(xiàn)的數(shù)據(jù)集,構(gòu)造數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,這些聯(lián)系構(gòu)成的規(guī)則可幫助找出某些行為特征,以便迅速地進行事務處理。關聯(lián)規(guī)則為在某一數(shù)據(jù)或與其相似數(shù)據(jù)出現(xiàn)時,可推導另一對應數(shù)據(jù)信息出現(xiàn)的可能。

Apriori算法中計算的指標包括:

頻繁項集:是指那些經(jīng)常會同時出現(xiàn)的事物,例如辦公桌對應會計科目的管理費用。

支持度:一個項集的支持度被定義為數(shù)據(jù)集中包含該項集的記錄所占的比例。支持度是針對項集來說,在實際應用中可設置一個最小支持度,只保留最小支持度的項集。

support = [同時發(fā)生的事件(X,Y)總事件]

置信度:反映A和B兩個事物彼此之間同時出現(xiàn)的概率。例如經(jīng)典案例{啤酒}→{尿布}這樣的關聯(lián)規(guī)則。

confidence(X→Y) = [同時發(fā)生的事件(X,Y)X發(fā)生的事件],

confidence(Y→X) = [同時發(fā)生的事件(X,Y)Y發(fā)生的事件]

提升度:提升度表示含有X的條件下,同時含有Y的概率,與只看Y發(fā)生的概率之比。提升度反映了關聯(lián)規(guī)則中的X與Y的相關性,提升度大于1且越高表明正相關性越高,提升度小于1且越低表明負相關性越高,提升度等于1表明沒有相關性,即相互獨立。

Lift(X→Y) = P(Y | X) / P(Y)

本文運用以上計算方法尋找發(fā)票摘要與會計科目名稱之間的關聯(lián)規(guī)則,為進一步自動生成會計分錄做準備。

2 發(fā)票摘要的數(shù)據(jù)準備

從搜集到的電子發(fā)票中隨機抽取200份作為教師數(shù)據(jù),按照會計學相關原理,根據(jù)發(fā)票摘要的信息內(nèi)容制作了相應的會計分錄,保存在excel里。原始發(fā)票摘要多以日常辦公用品及辦公開銷為主,所對應的分錄多為管理費用、銷售費用等。原始數(shù)據(jù)的具體準備過程如下所述。

電子發(fā)票通常為pdf格式,本文使用python開源工具包PDFMiner中的兩個內(nèi)置工具pdf2txt.py和dumppdf.py獲取發(fā)票摘要中的文字內(nèi)容。首先使用pdf2txt.py從PDF文件中提取所有文本內(nèi)容,將提取的文字按所在位置劃分區(qū)段,再用dumppdf.py把PDF文件內(nèi)容轉(zhuǎn)變成pseudo-XML格式,標識出各區(qū)段文字的意義。最后利用PDFMiner其他工具識別電子發(fā)票提取電子發(fā)票摘要里的內(nèi)容,將其導出到文本文件中。

在前期的準備過程中,綜合考慮到一些發(fā)票摘要填寫不規(guī)范,以及填寫的內(nèi)容所涉及的范圍較廣,產(chǎn)品術語和名詞術語較多等方面問題,對發(fā)票摘要中的信息用jieba分詞中的全模式進行分詞處理,使摘要中的文字信息保持一致,進行數(shù)據(jù)挖掘及統(tǒng)計分析。

根據(jù)發(fā)票摘要中的這些信息,按照會計學相關原理人工選取對應的會計科目名稱,填寫會計分錄,并制成表格,表1列舉了部分發(fā)票摘要對應的會計科目名稱。利用python的pandas工具包讀取所填的會計分錄的表格,導出其中的摘要文本后,再用jieba分詞將發(fā)票摘要短文本中所有可能成詞的詞語都掃描出來,這樣做便于發(fā)現(xiàn)發(fā)票摘要與會計科目名稱的關聯(lián)性。

3 基于Apriori算法的關聯(lián)規(guī)則挖掘

關聯(lián)規(guī)則最早出現(xiàn)在購物籃問題的研究中,如經(jīng)典的“啤酒與尿布”案例,常用的關聯(lián)規(guī)則挖掘算法包括Eclat、FP-growth、Apriori等,本文采用Apriori算法對已經(jīng)填寫過會計科目名稱的樣本數(shù)據(jù)進行關聯(lián)規(guī)則挖掘,旨在找出發(fā)票摘要與會計科目名稱的關聯(lián)關系。

3.1 算法的步驟

以apriori算法為基礎尋找關聯(lián)規(guī)則的方法主要由以下幾個步驟組成:

步驟一:使用pdfminer提取發(fā)票摘要內(nèi)容,人工選取對應的會計科目名稱,制作會計分錄表格;

步驟二:使用pandas讀取表格,使用jieba分詞將發(fā)票摘要分詞;

步驟三:根據(jù)發(fā)票數(shù)量及摘要的詞頻,設置最小支持度和最小置信度;

步驟四:讀取分詞處理后的發(fā)票摘要分詞表;

步驟五:根據(jù)最小置信度尋找符合條件的關聯(lián)規(guī)則;

步驟六:輸出關聯(lián)規(guī)則;

步驟七:將所有發(fā)票摘要的數(shù)據(jù)進行處理,檢驗規(guī)則;

步驟八:輸出結(jié)果。

3.2 運行結(jié)果

設置最小支持度為1%,最小置信度為15%,運用Apriori算法在200份已經(jīng)處理好的實驗發(fā)票數(shù)據(jù)中計算得到57條符合條件的關聯(lián)規(guī)則。最小支持度是根據(jù)實際情況定義衡量支持度的一個閾值,表示需要完成的項目集中統(tǒng)計意義上的最低程度。在本文的實驗數(shù)據(jù)中,設置最小支持度為1%時,可最快速簡便地得到最想要的關聯(lián)規(guī)則;將最小支持度設置為其他數(shù)值時,計算結(jié)果包含大量無效數(shù)據(jù)。表2是計算得出的部分關聯(lián)規(guī)則及其包含的支持度、置信度與提升度。

利用Apriori關聯(lián)規(guī)則算法對收集的電子發(fā)票進行分析,得出發(fā)票摘要和會計科目名稱之間的關聯(lián)規(guī)則,即表2中的規(guī)則項集欄,用A→B表示,A是發(fā)票摘要的單詞,B是會計科目名稱。

本文使用的原始發(fā)票數(shù)據(jù)在現(xiàn)實業(yè)務中常見,上述結(jié)果經(jīng)財務專業(yè)人員檢查,符合財務制作記賬憑證填寫會計分錄的部分要求,說明關聯(lián)規(guī)則方法可以提取挖掘發(fā)票摘要和會計科目名稱之間的關聯(lián)規(guī)則,并為進一步自動生成會計分錄提供參考信息。

3.3 驗證

在機器學習、自然語言處理及信息檢索等領域,評測(Evaluation)是一項必要工作,常采用的評測指標有精確率(Precision)和召回率(Recall)。其中精確率=TP/(TP+FP),表示所有“正確被檢索的item(TP)”占所有“實際被檢索到的(TP+FP)”的比例;

召回率=TP/(TP+FN),表示“正確被檢索的item(TP)”占所有“應該檢索到的item(TP+FN)”的比例。

本文利用上述關聯(lián)規(guī)則針對另外200份發(fā)票判斷對應的會計科目名稱,得到精確率為0.17,召回率為0.185。表明計算的準確程度不高,主要是因為發(fā)票摘要的內(nèi)容繁雜以及經(jīng)濟業(yè)務往來內(nèi)容的不確定。

4 結(jié)論與展望

本文以從眾多發(fā)票中隨機抽取的兩百張發(fā)票內(nèi)容為數(shù)據(jù)樣本進行了摘要與科目名稱之間關聯(lián)規(guī)則的挖掘,實際驗證了關聯(lián)規(guī)則挖掘的準確程度。根據(jù)apriori算法挖掘出的關聯(lián)規(guī)則,可以為將發(fā)票摘要輸入時直接生成會計分錄提供參考,便于財會人員更快速地進行財務處理,可節(jié)約財會人員的時間和精力。

在本課題的調(diào)查中作者了解到,目前市場上的財務報銷應用還無法將發(fā)票中的摘要自動生成會計分錄。在后繼研究中,將采用人工填寫制作的大量會計分錄數(shù)據(jù)挖掘出關聯(lián)規(guī)則,利用規(guī)則對發(fā)票內(nèi)容進行有規(guī)律的處理,快速精準地將報銷中發(fā)票的摘要自動生成會計分錄,為財務核算提供實際且有效的幫助。

根據(jù)財會人員填制正確會計分錄的實際情況來看,發(fā)票摘要涉及的業(yè)務實為廣泛,難以精準確定應該歸屬于哪一類,為此在后繼研究中,將自動推測摘要中的中心詞,并進行擴展,探討大幅提高短文本分類精度的方法。另外,將業(yè)務范圍進行劃分,優(yōu)化數(shù)據(jù),在此基礎上再提高精確度。

參考文獻:

[1] 陳海霞,楊喜旺,衛(wèi)潔潔.關鍵詞關聯(lián)融合CNN的短文本分類算法[J].電腦知識與技術,2018,14(22):261-264.

[2] 荊琪,段利國,李愛萍,等.基于維基百科的短文本相關度計算[J].計算機工程,2018,44(2):197-202.

【通聯(lián)編輯:李雅琪】

主站蜘蛛池模板: 亚洲区欧美区| 国产国产人成免费视频77777| www精品久久| 国产SUV精品一区二区6| 手机看片1024久久精品你懂的| 国产日韩精品欧美一区灰| 精品视频免费在线| 97视频在线精品国自产拍| 欧美激情视频一区| 久久精品最新免费国产成人| 亚洲色欲色欲www网| 国产丝袜无码一区二区视频| 国产91高清视频| 亚洲无码在线午夜电影| 91成人免费观看| 久久久久中文字幕精品视频| 99国产精品一区二区| 亚洲中文字幕无码爆乳| 人妻丰满熟妇αv无码| www.国产福利| 亚洲国产欧美自拍| 精品国产网站| 一区二区三区国产| 国产美女免费| 国产黄色片在线看| 中文字幕色在线| 四虎精品国产永久在线观看| 国产成人免费高清AⅤ| 国产青榴视频| 国产区91| 日韩成人午夜| 亚洲一级毛片在线观| 亚洲欧美综合另类图片小说区| 亚洲av日韩av制服丝袜| 日韩精品专区免费无码aⅴ| 69av在线| 永久在线播放| 国产成人精品视频一区二区电影 | 精品乱码久久久久久久| 国产欧美成人不卡视频| 欧美不卡在线视频| 亚洲va精品中文字幕| 国产欧美高清| 成人国产一区二区三区| 72种姿势欧美久久久大黄蕉| 亚洲国产成人精品一二区| 久久永久免费人妻精品| 狠狠躁天天躁夜夜躁婷婷| 九九免费观看全部免费视频| 亚洲国产天堂久久综合| 无码久看视频| 久久婷婷国产综合尤物精品| 黄色三级毛片网站| 成人免费网站久久久| 亚洲无码在线午夜电影| 亚洲一区二区三区在线视频| 亚洲第七页| 国产一区二区三区免费| 国产极品粉嫩小泬免费看| 99er这里只有精品| 激情综合网激情综合| 亚洲乱码在线视频| 小13箩利洗澡无码视频免费网站| 99re66精品视频在线观看| 亚洲综合色婷婷中文字幕| 亚洲第一视频免费在线| 91精品啪在线观看国产91| 久久精品午夜视频| 中文字幕2区| 精品国产美女福到在线不卡f| 日韩 欧美 小说 综合网 另类| 无码国产偷倩在线播放老年人 | 精品第一国产综合精品Aⅴ| 日韩av高清无码一区二区三区| 丁香亚洲综合五月天婷婷| 99成人在线观看| 黄片一区二区三区| 国产精品播放| 久久黄色免费电影| 午夜国产不卡在线观看视频| jijzzizz老师出水喷水喷出| 亚洲一区毛片|