中南財經政法大學會計學院 吳龍庭 武漢科技大學城市學院 肖聰
基于自然語言的會計事項智能判斷方法研究*
中南財經政法大學會計學院 吳龍庭 武漢科技大學城市學院 肖聰
近年來人工智能技術被廣泛地運用于會計財務領域,在財務報表舞弊、證券市場預測和上市公司文檔分析等方面取得了重要進展。智能化的會計信息系統將不僅僅是賬務處理的工具,還能實時監控、檢查和判斷財務數據。實現智能化的會計信息系統,關鍵是讓計算機理解會計概念,具備應用會計知識的能力。本文研究如何讓計算機辨別使用自然語言描述的會計事項,借助自然語言處理技術,在會計語料分析中提出詞移分析法,給出了一種判斷會計事項的智能方法。
會計智能化 會計信息化 會計語言理解 自然語言理解
人類社會進入智慧信息時代,計算機、數據和網絡成為人們工作和生活必不可少的資源和工具。以大智移云(大數據、智能化、移動互聯網和云計算)為代表的現代化信息處理技術推動著會計由電算化向信息化轉型。電算會計實現了憑證的自動登賬和財務報告的半自動化編制,使會計人員成功地擺脫了枯燥的手工賬。進入21世紀,互聯網、人工智能、多媒體等領域出現的重大突破,讓人們對計算機財務軟件替代會計人員工作有了更高的期許。人們希望財務軟件能智能化地理解數據、分析數據和處理數據。
會計核算智能化研究起始于21世紀。張永雄(張永雄,2002)很早就指出會計信息系統的數據輸入方式需要改革,他認為電算化財務軟件的輸入方式是圍繞著手工賬務處理程序設計的,這種對手工賬的直接模擬不能充分發揮信息系統的作用,應在財務軟件中引入智能憑證處理模塊,讓計算機能根據原始憑證直接生成記賬憑證。謝琨(謝琨,2003)借鑒人工智能中專家系統的概念,提議構建財務和會計領域的專家系統。他認為會計專家系統應分為財務分析專家系統、合成專家系統、組合專家系統和財會知識傳授教育專家系統四類,對每一類系統都應分別構造其知識庫、推理機和解釋工具。他以租賃業務為例闡釋了如何給會計知識建立數學模型,但沒有實現一個完整的專家系統。王文蓮及其學生就會計智能化問題進行了廣泛而深入的研究(高哲,2007;劉鵬,王文蓮,2009;王文蓮,2007;王文蓮,張明霞,2009),他們的研究結論可以歸納為三點:一是會計智能化是會計信息化的一部分,其發展必須與人工智能、云計算等先進信息處理技術相結合;二是會計核算智能化的關鍵是實現會計職業判斷的智能化和自動化;三是他們提出了一種由經濟業務自動生成記賬憑證的通用方法,其實質是對每一類經濟業務都總結出其分錄編制規則,在業務發生時,由會計人員確認發生的經濟業務,然后由計算機根據規則生成對應分錄。該方法沒有完全解決由原始憑證直接生成記賬憑證這一問題,但比常規的記賬憑證編制方法要進一步。蔣勇和王俊奇(蔣勇,王俊奇,2009)、王慧和洪輝(王慧,洪輝,2012)分別提出了財務智能和會計智能的概念。他們認為智能是客觀對象運用知識的能力,計算機在獲取數據以后,可以通過財務模型對數據進行分析和處理,因此其具備會計智能和財務智能。研究人員的任務是如何讓計算機在此方面的智能水平不斷提高。王艦就當前會計信息系統所面臨的問題和未來的發展方向進行了廣博而深入的思考(王艦,2013;王艦等,2011)。他認為會計信息系統應以系統論、信息空間理論、人機系統理論為理論基礎,以數據庫技術、商務智能技術和新3I技術(物聯化,互聯化和智能化)為實現手段,在智能化、立體、動態的原則上建立統一的會計信息平臺,然后再建立具體的會計業務管理、資源管理、知識管理和決策支持系統。其他學者對如何將物聯網、智能代理、人機交互、嵌入式、自然語言理解等技術與會計信息系統相結合也做了很多有價值的思考(陳宋生等,2013;李叢叢,2010;劉繼,2004;毛元青,劉海玲,2015;彭江平,2005;張亞蘭,2016)。
從目前的發展現狀來看,會計信息系統與人工智能技術相結合是大勢所趨,如何讓計算機具備會計職業判斷能力是實現會計核算智能化的關鍵。解決這一問題的思路有兩種,第一種是從實務角度出發,會計人員進行職業判斷以原始憑證為依據,在確認原始憑證數量齊全、形式完整、內容合法有效后,根據會計專業知識編制相關記賬憑證。讓財務軟件代替人完成這一過程,必須借助計算機圖像識別技術,用攝像頭或光電掃描設備對原始憑證進行掃描,使用智能算法識別出原始憑證上的有效信息,根據會計確認規則判斷經濟事項是否發生,應如何處理。第二種思路是從專家系統的角度出發,未來的會計信息系統將不僅僅是一種辦公工具,它還會是用戶身邊的一位“資深”財務專家。它不僅能進行賬務處理,還能使用文字、圖像、語音甚至表情與用戶進行溝通和交流,回答用戶的各種提問。這樣的會計信息系統更像一個為普通大眾提供專業會計服務的機器人。實現這樣的會計專家系統,關鍵是讓計算機理解會計人員的語言,讓計算機能“聽懂”會計人員的話,并進行相應的回答。本文從第二種角度研究會計智能化問題。
使用自然語言描述會計事實,如“紅宇公司使用銀行存款100萬元購入一臺機器設備”,根據專業知識會計人員能判斷出該條語句描述的會計事項是“購入固定資產”,會計主體是“紅宇公司”,發生金額為“100萬元”,應編制會計分錄“借記:固定資產100萬,貸記:銀行存款100萬”。讓計算機也做出同樣的判斷,在現有技術條件下是很困難的,本文的研究目標是讓計算機能正確判斷出文本所描述的經濟事項,至于其他的判斷結果留作后續研究。
理解自然文本所表達的內容和思想是人工智能的一個研究方向,稱之為自然語言理解。完成自然語言理解任務通常要經過詞法分析、句法分析和語義分析三個步驟。詞法分析是對自然文本進行詞一級的處理,最常見的詞法處理是對句子進行分詞和詞性標注。對上述例句進行分詞得到字符序列。在這個序列中,詞語被分割出來并被標上詞性,供后續的句法和語義分析使用。
句法分析是分析句子的組成結構。根據漢語語法,漢語的每個句子都可以分成多個成分,每個成分之間有一定的句法關系,這種句法關系大致可歸納為五種:主謂結構、補充機構、動賓結構、偏正結構和并列結構。句法分析的任務是對輸入的詞語序列判斷其構成是否合乎給定的語法,分析出合乎語法句子的句法結構。由上到下對例句進行分析,“紅宇公司”是“使用銀行存款100萬元購入一臺機器設備”的主體,所以這兩種成分之間的關系是主謂結構;“使用銀行存款100萬元”是修飾和說明“購入一臺機器設備”這一行為的,所以這兩種成分之間是偏正結構;“銀行存款100萬元”是動詞“使用”的賓語,所以這兩者是動賓結構如圖1所示。完成詞法和句法分析后,開始進行語義分析。

圖1 句法分析結果圖
理解句子的語義是自然語言理解的目的,詞法和句法分析是語義理解的基礎。當前,漢語的詞法和句法分析技術已趨于完善,但語義分析技術還不成熟。通用的、高質量的漢語語義理解系統還沒有誕生,如何讓計算機正確完整地理解人類生活工作中的語言仍然是一個有待深入研究的課題。語義分析的基礎是語料庫,語料庫是存放語言材料的數據庫,庫中的文本通常都經過人工或機器的整理,具有統一的格式與標記。對語料庫中的文本進行分析、處理和統計,可以歸納出某類文本的共同特征,使用這些特征就能對未知文本進行辨別和分析。比如說為了判定例句所描述的會計事項,我們分別建立“購入固定資產”和“取得短期借款”兩個語料庫,如圖2所示。其中,“購入固定資產”語料庫中的句子是描述“購入固定資產”事項的,“取得短期借款”語料庫中的句子是描述“借入短期借款”事項的。

圖2 語料庫示例圖
不對這兩個語料庫中的語料進行嚴格的詞法和句法特征的統計,單憑直感,我們就能觀察到“使用->銀行存款”、“購入->一”、“機器->設備”這樣的詞移(詞語轉移,這一概念的定義見后文)在“購入固定資產”語料庫中出現的較多,而在“取得短期借款”語料庫中出現得較少;而“從->銀行”、“獲取->短期”、“存入->銀行”這樣的詞移在“取得短期借款”語料庫中出現得較多,而在“購入固定資產”語料庫中出現得較少。也就是說人們在描述“購買固定資產”這一事實時,經常使用“使用->銀行存款”、“購入->一”、“機器->設備”這樣的詞語組合,而不常使用“向->銀行”、“獲取->短期”、“存入->銀行”這樣的詞語組合。而對描述“取得短期借款”的情況,則恰好相反。因此,若一條描述經濟事項的句子(這個句子當然既不在“購入固定資產”語料庫中,也不在“取得短期借款”語料庫中)包含“使用->銀行存款”、“購入->一”、“機器->設備”這三個詞移,而不包含“從->銀行”、“獲取->短期”、“存入->銀行”這三個詞移,我們就有理由推斷這條語句描述的是購入固定資產事項,而不是取得短期借款事項。例句正好就是這種情況。下面,我們將這種判斷會計事項的方法一般化。
會計事項的種類很多,但畢竟是有限的。為每一種會計事項都建立語料庫,就能判斷所有的會計事項。劃分會計事項的種類可以有粗有細,比如說“支付管理費用”這一事項,可以單獨作為一類,也可以進一步劃分為“使用現金支付管理費用”類和“使用銀行存款支付管理費用”兩個小類。類別劃分得越細,則判斷結果越清楚,但出現誤判的幾率也會增大。對語料庫中的句子進行分詞,將分割好的詞語按照它們在句子中出現的順序依次編號,如圖3(以圖2購入固定資產語料庫中第一條句子為例)。

圖3 加上編號的句子分詞
我們將句子中出現的第一個詞語稱之為首詞,用I0表示。將句子中連續出現的兩個詞語連在一起稱為詞語轉移組合,簡稱為詞移,用T表示,句子中出現的第i個詞移用Ti表示。采用這種詞移表示方法,一條句子形式上可以寫為I0T1T2…Tn。在圖3的例句中,首詞是“使用”,詞移一共有6個,分別是“使用→銀行存款”、“銀行存款→購入”、“購入→一”、“一→臺”、“臺→機器”、“機器→設備”,整條句子應表示為I0T1T2T3T4T5T6,如圖4所示。

圖4 句子的詞移分析結果
假設有n種會計事項,每個會計事項用Ai(i=1,2,…,n)表示。根據條件概率的定義,一條句子描述的會計事項屬于Ai類的概率是P(I0T1T2…Tn|Ai)。假定句子中詞移出現的概率與詞移在句子中的位置無關,也就是說如果一個句子包含“機器”這個詞,那么“機器”這個詞后邊接“設備”這個詞的概率與“機器”這個詞在句子中的位置無關,我們可得P

如果Ai的語料庫中包含I0和Ti,則P(I0|Ai)和P(Ti|Ai)(i=1, 2,……,n)可用語料庫中I0和Ti出現的頻率近似代替;如果不包含,表示I0和Ti對判斷句子是否屬于Ai不起作用,令P(I0|Ai)和P(Ti|Ai)等于1。我們將Ai語料庫中出現的所有I0和Ti統稱為會計事項Ai的特征,I0和Ti的P(I0|Ai)和P(Ti|Ai)值越大,表示它們代表Ai的特征性越顯著。下面我們說明如何判斷未知語料所描述的會計事項。設X為未知語料,對所有會計事項Ai,計算X包含Ai特征的數量,如果只有一個會計事項Aj最多,則判定X描述的就是Aj。如果有多個會計事項并列最多,則計算式(1),P(I0T1T2…Tn|Ai)值最大的會計事項就是X描述的事項。整個的判斷過程可以用圖5表示。

圖5 自然文本的會計事項判斷流程
辨別會計事項需要會計語料庫。在自然語言處理中,語料庫分為通用和專用兩種。通用語料庫是按照事先確定好的標準,將每個子類的文本按照一定的比例收集到一起的語料庫,著名的通用語料庫有美國Brown大學開發的Brown語料庫,賓夕法尼亞大學開發的Penn TreeBank語料庫,北京大學語料庫等。專用語料庫是指為了某種專門目的,只采集某一特定領域、特定地區、特定時間、特定語體類型的語料構成的語料庫,如新聞語料庫、科技語料庫等。本文構建的會計事項語料庫屬于專用語料庫,我們的構建方法分為兩步,第一步從會計學相關教材中收集會計事項的原始語料。原始語料要求是一條句子,能清楚地描述一項會計事實,最多只包含一項數據;第二步使用原始語料生成擴展語料,首先對原始語料分詞,然后使用同義詞詞典找到原始語料中每個詞的同義詞,用同義詞依次代換原始語料中的詞,得到新語料。如果新語料沒有語病,描述的是同一會計事項,將其保留作為擴展語料,否則丟棄。在得到原始語料和擴展語料后,我們從中隨機抽出5%作為測試語料,其余的部分作為該會計事項的語料庫。以“使用銀行存款支付管理費用”為例,我們從會計學教材中找到9條原始語料,如圖6所示。在這些語料中,為了簡化技術處理,我們去除了“某公司”、“某企業”這樣的會計主體信息,將涉及的金額統統用1萬元代替(這一類信息屬于文本中的命名實體,命名實體識別是自然語言處理中一個專門的研究方向,為了簡化實驗,本文避開了這部分內容)。顯然,這對驗證實驗方法是否有效影響不大。

圖6 “使用銀行存款支付管理費用”原始語料
以第1條句子為例,使用NLPIR分詞工具對其進行分詞,根據哈爾濱工業大學發布的同義詞詞林擴展版,我們找到圖6中各個詞的同義詞。以“使用”為例,它的同義詞有“使用、應用、利用、采用、施用、運用、行使、役使、使役、使喚、動用、運用采取、用到”。用這些同義詞相互代換,得到一系列擴展語句,剔除掉其中有語病的句子,得到擴展語料。對圖6中的句子都進行這樣的處理,最后得到該事項的語料庫和測試樣本。
按照上述方法,筆者從湯湘希主編的《會計學》、《會計學學習指導書》和湖北省會計學會編的《會計從業資格考試習題集》中篩選出199條語料,總計描述63種會計事項。大部分會計事項包含的語料很少,不利于生成合格的語料庫,我們將它從樣本中剔除,這樣總共選出7類會計事項,這7類會計事項每個至少包含9條“種子”語料,所建立的語料庫信息如表1所示。

表1 會計事項語料庫的統計信息
在各個語料庫中,我們分別統計語料庫的首詞頻率向量和詞移頻率矩陣。首先統計首詞頻率向量,將語料庫中出現的首詞用向量B=[b1,b2,…,bt,]來表示,其中bj表示順序出現的第j個首詞,t為語料庫中出現的首詞總數。設bj在語料庫中作為首詞總共出現了cj次,則cj/(c1+c2+…+ct)表示bj在語料庫中出現的頻率,令uj=cj/(c1+c2+…+ct),則向量U=[u1,u2,…,ut]是語料庫中的首詞頻率向量。下面統計詞移頻率矩陣。
設會計事項的語料庫總共包含s個不同的詞語,將它們用詞向量D=[d1,d2,…,dk,…,ds]表示,其中dk表示語料庫中順序出現的第k個詞,我們定義會計事項的詞移頻數矩陣如下:

其中mij表示詞移di→dj在語料庫中出現的次數,將矩陣M歸一化得到詞移頻率矩陣如下:


表2 樣本測試結果
會計智能化是會計信息化的一個重要研究方向。如果能實現會計職業判斷的智能化與自動化,將是會計信息處理技術的一個新突破。本文首先回顧了會計智能化研究的歷程,指出了會計核算智能化研究中的關鍵問題,然后在會計語言理解中引入自然語言處理技術,提出了語料分析的詞移分析法,給出了一種判斷會計事項的方法,最后通過實驗證明該方法是合理有效的。
*本文系國家社科青年基金項目“現代企業管理層信息披露測評體系的國際比較研究”(項目編號:10CGL010)橫向課題“紅宇公司管理信息系統開發”(課題編號:32516111002)階段性研究成果。
[1]陳宋生、張永冀等:《云計算、會計信息化轉型與IT治理》,《會計研究》2013年第7期。
[2]劉勤、常葉青、劉梅玲等:《大智移云時代的會計信息化變革》,《會計研究》2014年第12期。
[3]王艦、朱玲霞、王東娣:《嵌入式智能化會計信息系統淺探》,《財會通訊》(綜合·上)2011年第6期。
[4]毛元青、劉海玲:《“互聯網+”時代的管理會計信息化探討》,《會計研究》2015年第11期。
[5]吳勝、張智光:《淺析未來智能財務軟件體系結構》,《中國管理信息化》2007年第10期。
[6]張永雄:《會計信息系統數據入口環節設計模式的改革》,《中國會計電算化》2002年第8期。
[7]謝琨:《財務和會計智能系統研究簡析》,《中國會計電算化》2003年第2期。
[8]高哲:《基于ERP的應收應付智能化處理研究.天津商業大學》,天津商業大學2007年碩士學位論文。
[9]劉鵬、王文蓮:《會計信息系統的計算機智能判斷研究》,《商業經濟》2009年第3期。
[10]王文蓮:《會計信息化發展及其影響》,《上海立信會計學院學報》2007年第6期。
[11]蔣勇、王俊奇:《論財務智能現狀及發展》,《宿州教育學院學報》2009年第2期。
[12]王慧、洪輝:《物聯網時代會計信息化發展探析》,《財務與金融》2012年第1期。
[13]王慧、洪輝:《基于物聯網視角的會計智能化初探》,《財會通訊》(綜合·上)2012年第12期。
[14]王艦:《智能化立體動態會計信息平臺研究》,中國海洋大學2013年博士學位論文。
[15]李叢叢:《信息技術環境下會計核算智能化探討》,《中國集體經濟》2010年第2期。
[16]劉繼:《現代網絡會計中智能代理的應用》,《經濟師》2004年第11期。
[17]彭江平:《財務智能系統關鍵技術研究》,《統計與決策》2005年第6期。
(編輯 張芬)