999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于短文本分類的電子發(fā)票自動生成會計(jì)分錄

2020-08-04 11:07:24李燕萍宋磊
青年生活 2020年23期
關(guān)鍵詞:分類文本模型

李燕萍?宋磊

引言

電子發(fā)票中的信息抽取屬于自然語言處理中信息抽取子領(lǐng)域。自然語言處理可以分成3個(gè)層級,分別是文本理解、信息抽取和信息檢索。在以往的紙質(zhì)發(fā)票報(bào)銷中,通常要經(jīng)過一系列流程,層層審批,然后財(cái)務(wù)部門根據(jù)報(bào)銷的內(nèi)容進(jìn)行分類,做賬。而線上報(bào)銷流程與線下一致,軟件自動識別發(fā)票,報(bào)銷人雖無需填寫發(fā)票,但財(cái)務(wù)依舊需要根據(jù)報(bào)銷內(nèi)容制作會計(jì)分錄才能做賬。將報(bào)銷內(nèi)容自動生成分錄,可節(jié)約財(cái)會人員時(shí)間和精力[1]

一、自動生成目錄可行性

電子發(fā)票具有文字稀疏性、產(chǎn)品術(shù)語、名詞術(shù)語較多等特點(diǎn),將其內(nèi)容分類自動生成會計(jì)分錄,可減少企業(yè)資金投入,提高企業(yè)做賬效率。在報(bào)銷的項(xiàng)目內(nèi)容中,大多數(shù)是一些屬性相近的詞,可以看作是單個(gè)詞語到語義一般概念的映射。詞聚類算法可以分為三種:第一,各種啟發(fā)式量度表示聚類過程中的元素的距離;第二,以統(tǒng)計(jì)模型計(jì)算距離量度并給定聚類結(jié)果的類總數(shù);第三,同樣以統(tǒng)計(jì)模型計(jì)算距離量度,但增減例如困感度等量度的值[2]

二、短文本分類存在問題

報(bào)銷的內(nèi)容較為簡潔明了,屬于短文本,但傳統(tǒng)的向量空間模型(VSM, Vector Space Model)對長文本的分類有較高的敏感度,而用于短文本分類時(shí)卻存在特征稀疏性等問題。1、傳統(tǒng)的向量進(jìn)行空間分析模型對關(guān)鍵字的文檔數(shù)據(jù)處理方式方法是依據(jù)詞頻信息,難以分辨自然語言的語義模糊性。2、傳統(tǒng)的向量空間模型的假設(shè)詞與詞之間是相互獨(dú)立的,是一一對應(yīng)的關(guān)系,但在實(shí)際情況中,文檔存在著很多一詞多義和同義詞的現(xiàn)象,所以這種假設(shè)難以滿足實(shí)際情況。 3、文檔中的詞與詞通常存在著一定關(guān)聯(lián)性,通過簡單的詞匯模式匹配進(jìn)行語義檢索會降低信息檢索結(jié)果的查準(zhǔn)率與查全率,直接應(yīng)用傳統(tǒng)的向量空間模型進(jìn)行短文本分類難以達(dá)到理想的效果[3]

三、短文本的Word2Vec模型

在此基礎(chǔ)上,本文探討采用Word2Vec的詞向量模型+K-means聚類,利用Word2vec淺而雙層的神經(jīng)網(wǎng)絡(luò)重新構(gòu)建給定語料庫的文本,快速有效地將關(guān)鍵詞表達(dá)成詞向量,再使用詞向量聚類得到類別關(guān)鍵詞達(dá)到理想的短文本分類效果。

(一)文本預(yù)處理

首先使用結(jié)巴分詞將獲取的兩千萬條淘寶商品名稱數(shù)據(jù)集進(jìn)行分詞處理,過濾掉標(biāo)點(diǎn)符號、停用詞等將文本標(biāo)準(zhǔn)化。由于中文沒有詞形變化,不需要還原詞形、詞綴的轉(zhuǎn)化以及詞性識別。為了準(zhǔn)確地分析和表達(dá)文本,利用Word2vec將向量化的文本進(jìn)行特征提取。

(二)文本向量化

詞袋模型(Bag of Words)是對文本中的單詞進(jìn)行統(tǒng)計(jì),簡單說就是統(tǒng)計(jì)某個(gè)單詞在一個(gè)文本中出現(xiàn)的頻率或者次數(shù)。

(三)特征提取

Word2vec是一種估算式(Estimator),它采用的是訓(xùn)練商品名稱一系列文檔的重要詞語,形成Word2vec模型,每個(gè)詞語的模型映射成一個(gè)固定大小的向量。Word2vec模型使用商品名稱中每個(gè)詞語的平均數(shù)來將文檔轉(zhuǎn)換為向量,然后通過這個(gè)向量我們可以不斷擴(kuò)散,然后作為預(yù)測電子發(fā)票內(nèi)容的特征,來計(jì)算商品名稱的相似度。

Word2vec模型一般分為CBOW(Continuous Bag-of-Words)和Skip-gram兩種模型。訓(xùn)練CBOW模型的輸入是某一個(gè)特征詞上下文相關(guān)的詞對應(yīng)的詞向量,輸出是某特定詞的詞向量。在Skip-gram模型中,每個(gè)詞語受到上下文的影響,即利用上下文的預(yù)測結(jié)果,在梯度下降過程中不斷調(diào)整當(dāng)前詞的詞向量。因此,盡管 Skip-gram 的訓(xùn)練時(shí)間相對較長,但在數(shù)據(jù)量較少或生僻詞含量較多的情況下,會使經(jīng)過多次調(diào)整得到的詞向量具有更高的準(zhǔn)確度。在缺少報(bào)銷具體內(nèi)容領(lǐng)域擴(kuò)展語料庫的情況下,本文采用Skip-gram模型預(yù)訓(xùn)練商品標(biāo)題語料得到詞向量。經(jīng)過訓(xùn)練后可以得到每個(gè)詞語的詞向量以及詞語之間的余弦相似度。

四、商品名稱訓(xùn)練

本文采用淘寶商品名稱數(shù)據(jù),以會計(jì)科目作為類別標(biāo)簽,將提取的關(guān)鍵詞權(quán)重輸入分類器,通過分類結(jié)果的準(zhǔn)確率來衡量關(guān)鍵詞提取的有效性。

五、K-means聚類后分類

聚類是一種無監(jiān)督的機(jī)器學(xué)習(xí),通過將相似的研究對象歸到同一個(gè)簇中,利用相似度計(jì)算方法將其一一對應(yīng)。K-means聚類算法用于數(shù)據(jù)集K個(gè)簇的聚類,K個(gè)簇采用事先制作憑證中的會計(jì)科目, 每一科目對應(yīng)商品名稱通過其所有點(diǎn)的中心來描述,聚類與前述分類處理算法的最大區(qū)別在于分類的目標(biāo)類別已知, 但聚類的目標(biāo)類別是一個(gè)未知的,將訓(xùn)練集中的科目對應(yīng)商品名稱按Word2vec模型的計(jì)算結(jié)果劃分為k組,獲得的聚類滿足同一聚類中的名稱相似度較高,而不同聚類中的名稱相似度較小。以下是聚類算法的基本步驟:

1、從訓(xùn)練集的數(shù)據(jù)中選擇k個(gè)名稱作為聚類的初始中心;

2、用每個(gè)聚類名稱到聚類中心的距離來劃分類別;

3、重復(fù)計(jì)算每個(gè)聚類的中心;

4、計(jì)算標(biāo)準(zhǔn)測度函數(shù),直到達(dá)到最大迭代次數(shù)停止,否則從第2步重復(fù)操作。

結(jié)論

目前市場中的移動報(bào)銷應(yīng)用還無法滿足將報(bào)銷內(nèi)容自動分類,為了適應(yīng)新時(shí)代科技發(fā)展的需求,各行各業(yè)要想在資金方面提供準(zhǔn)確的資金狀況,須采用移動報(bào)銷下的短文本自動分類。基于統(tǒng)計(jì)的名稱分類存在大型參數(shù)空間、足夠的訓(xùn)練數(shù)據(jù)、數(shù)據(jù)稀疏等問題。本文利用Word2vec工具集和K-means聚類,探尋一種較為方便的方法對短文本進(jìn)行文本分類,移動報(bào)銷中的短文本分類自動對應(yīng)到會計(jì)憑證的分錄可提供準(zhǔn)確的資金用途及細(xì)目,減少精力投入,提高效率,促進(jìn)各行各業(yè)的長遠(yuǎn)發(fā)展。

參考文獻(xiàn)

[1]李昕,文桂江.會計(jì)信息處理智能化研究[J].財(cái)會通訊,2014(07):90-91.

[2]楊軍澤.互聯(lián)網(wǎng)環(huán)境下自動化會計(jì)確認(rèn)探討[J].財(cái)會通訊,2019(01):104-108.

[3]徐建國,肖海峰,.基于多示例學(xué)習(xí)框架的文本分類算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(04):1017-1023.

基金項(xiàng)目:國家級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目,項(xiàng)目編號:201910379018

作者簡介:李燕萍(2000—)女,安徽省黃山市祁門縣人,本科在讀。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲人成网站色7799在线播放| 亚洲AV一二三区无码AV蜜桃| 老司机久久99久久精品播放| 欧美国产视频| 99精品国产自在现线观看| 亚洲av无码牛牛影视在线二区| 亚洲精品动漫在线观看| 久久91精品牛牛| 国产最新无码专区在线| 国产浮力第一页永久地址| 久久永久精品免费视频| 为你提供最新久久精品久久综合| 日韩在线视频网站| 国产资源站| 九色免费视频| 制服丝袜亚洲| 国产小视频网站| 91在线激情在线观看| 精品无码人妻一区二区| 欧美日韩中文字幕在线| 亚洲国产看片基地久久1024| 久久天天躁狠狠躁夜夜2020一| 91青青视频| 国产精品香蕉在线观看不卡| 日本午夜精品一本在线观看| 国产美女一级毛片| 亚洲视频欧美不卡| 69av在线| 伊在人亞洲香蕉精品區| 一区二区在线视频免费观看| 亚洲av成人无码网站在线观看| 午夜国产小视频| 久久精品aⅴ无码中文字幕| 欧美日韩中文国产| www.91在线播放| 福利一区在线| 久久久久亚洲Av片无码观看| 欧美激情福利| 国产三级a| 91亚洲免费视频| 四虎永久免费网站| 深夜福利视频一区二区| 亚洲国产中文精品va在线播放| 亚洲AV无码久久精品色欲| AⅤ色综合久久天堂AV色综合| 综合色在线| 欧美精品亚洲二区| 亚洲欧美精品一中文字幕| 国产精品视频999| 亚洲日韩高清在线亚洲专区| 97国产成人无码精品久久久| 国产亚洲一区二区三区在线| 她的性爱视频| 国产精品嫩草影院av| 欧洲亚洲一区| 国产一区二区三区在线精品专区| 午夜性刺激在线观看免费| 久久午夜夜伦鲁鲁片不卡| 成年免费在线观看| 成人精品在线观看| 99热最新在线| 爱做久久久久久| 久久国产V一级毛多内射| 久久精品无码中文字幕| 国产99视频在线| 日本午夜在线视频| 999福利激情视频| 久久久久中文字幕精品视频| 国产精品亚洲专区一区| 亚洲人成网站观看在线观看| 久久一色本道亚洲| 亚洲色欲色欲www在线观看| 亚洲人成影院午夜网站| 亚洲日韩AV无码一区二区三区人 | 全部免费特黄特色大片视频| 久久国产亚洲偷自| 亚洲最大情网站在线观看| 亚洲av片在线免费观看| 国产午夜一级毛片| 精品99在线观看| 丰满人妻中出白浆| 精品国产免费人成在线观看|