李玲 魏國華 胡峰 楊旸



作為企業(yè)經(jīng)營管理的重要組成部分,合同管理工作作為在各企業(yè)經(jīng)營中的重要一環(huán)重要性日益凸顯。合同管理在簽訂、履行等階段的風(fēng)險(xiǎn)識別、防控能力的提升將為企業(yè)經(jīng)營活動帶來更大的收益。
為提升企業(yè)合同管理工作中的風(fēng)險(xiǎn)識別能力,中國海油在2019年度立項(xiàng)了自然語言分析在合同文本校核中的應(yīng)用研究項(xiàng)目,探究自然語言分析技術(shù)在合同管理中的應(yīng)用。以中國海油集團(tuán)公司信息化部和信息技術(shù)中心的合同編制和校核工作為研究試點(diǎn),以自然語言分析為入口,研究論證如下的內(nèi)容:
驗(yàn)證人工智能相關(guān)技術(shù)在海油合同管理應(yīng)用實(shí)現(xiàn)落地效果,以期達(dá)到降低人工操作的錯誤,提高工作效率的目標(biāo);
通過將本次項(xiàng)目,論證將自然語言分析技術(shù)在中國海油合同管理系統(tǒng)中真正落地,將員工時(shí)間與精力,從簡單、重復(fù)性的工作中釋放出來,投入到更具創(chuàng)造力的工作中;
同時(shí)通過人工智能的相關(guān)技術(shù)的應(yīng)用,在信息化企業(yè)架構(gòu)方法、智慧海油頂層設(shè)計(jì)以及實(shí)現(xiàn)路徑探索方面為海油帶來更多助益等目標(biāo)。
(一)自然語言分析技術(shù)說明
詞法分析:詞法分析包括詞形和詞匯兩個方面。一般來講,詞形主要表現(xiàn)在對單詞的前綴、后綴等的分析,而詞匯則表現(xiàn)在對整個詞匯系統(tǒng)的控制。在中文全文檢索系統(tǒng)中,詞法分析主要表現(xiàn)在對漢語信息進(jìn)行詞語切分,即漢語自動分詞技術(shù)。通過這種技術(shù)能夠比較準(zhǔn)確的分析用戶輸入信息的特征,從而完成準(zhǔn)確的搜索過程。它是中文全文檢索技術(shù)的重要發(fā)展方向。
句法分析:句法分析是對用戶輸入的自然語言進(jìn)行詞匯短語的分析,目的是識別句子的句法結(jié)構(gòu),實(shí)現(xiàn)自動句法分析過程。其基本方法有線圖分析法、短語結(jié)構(gòu)分析、完全句法分析、局部句法分析、依存句法分析等。
語義分析:語義分析是基于自然語言語義信息的一種分析方法,其不僅僅是詞法分析和句法分析這樣語法水平上的分析,而是涉及到了單詞、詞組、句子、段落所包含的意義。其目的是從句子的語義結(jié)構(gòu)表示言語的結(jié)構(gòu)。中文語義分析方法是基于語義網(wǎng)絡(luò)的一種分析方法。語義網(wǎng)絡(luò)則是一種結(jié)構(gòu)化的,靈活、明確、簡潔的表達(dá)方式。
語用分析:語用分析相對于語義分析又增加了對上下文、語言背景、環(huán)境等的分析,從文章的結(jié)構(gòu)中提取到意象、人際關(guān)系等的附加信息,是一種更高級的語言學(xué)分析。它將語句中的內(nèi)容與現(xiàn)實(shí)生活的細(xì)節(jié)相關(guān)聯(lián),從而形成動態(tài)的表意結(jié)構(gòu)。
語境分析:語境分析主要是指對原查詢語篇以外的大量“空隙”進(jìn)行分析從而更為正確地解釋所要查詢語言的技術(shù)。這些“空隙”包括一般的知識,特定領(lǐng)域的知識以及查詢用戶的需要等。它將自然語言與客觀的物理世界和主觀的心理世界聯(lián)系起來,補(bǔ)充完善了詞法、語義、語用分析的不足。
(二)文本分類方法
經(jīng)典文本分類方法主要包括: Rocchio 方法、決策樹方法、貝葉斯分類、K近鄰算法和支持向量機(jī)等分類方法。近年來, 隨著人工智能、機(jī)器學(xué)習(xí)、模式識別和數(shù)據(jù)挖掘等領(lǐng)域的不斷發(fā)展, 促使文本分類方法得到了長足的發(fā)展。
Rocchio 方法———相似度計(jì)算方法:Rocchio是情報(bào)檢索領(lǐng)域最經(jīng)典的算法。在算法中, 首先為每一個類C 建立一個原型向量(即訓(xùn)練集中C 類的所有樣本的平均向量) , 然后通過計(jì)算文檔向量D 與每一個原型向量的距離來給D分類。可以通過點(diǎn)積或者Jaccard 近似來計(jì)算這個距離。這種方法學(xué)習(xí)速度非常快。
NaveBayes (NB) ———貝葉斯方法:貝葉斯分類是統(tǒng)計(jì)學(xué)分類在方法, 它可以預(yù)測一個給定樣本屬于某一類別的概率。貝葉斯分類是基于貝葉斯定理而構(gòu)造出來的。
樸素貝葉斯分類器是以貝葉斯定理為理論基礎(chǔ)的一種在已知先驗(yàn)概率與條件概率的情況下得到后驗(yàn)概率的模式分類方法, 用這種方法可以確定一個給定樣本屬于一個特定類的概率。目前基于樸素貝葉斯方法的分類器被認(rèn)為是一個簡單、有效而且在實(shí)際應(yīng)用中很成功的分類器。樸素貝葉斯分類方法是機(jī)器學(xué)習(xí)中常用的方法之一。
K- NN 方法———K- 近鄰方法:K- NN 方法是一種基于實(shí)例的文本分類方法。首先, 對于一個待分類文本, 計(jì)算它與訓(xùn)練樣本集中每個文本的文本相似度, 根據(jù)文本相似度找出可k 個最相似的訓(xùn)練文本。這最相似的k 個文本按其和待分類文本的相似度高低對類別予以加權(quán)平均,從而預(yù)測待分類文本的類別。其中最重要的是參數(shù)K的選擇, k 過小, 不能充分體現(xiàn)待分類文本的特點(diǎn); 而k 過大,會造成噪聲增加而導(dǎo)致分類效果降低。
SVM———向量機(jī):支持向量機(jī)(Support Vector Machines : SVM) 理論, 由Vapnik 在1995 年提出, 并用于解決二分類模式識別問題。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則, 在向量空間中找到一個決策面(decision surface) , 這個面能“最好”地分割兩個分類中的數(shù)據(jù)點(diǎn)。
目前, 比較有效的SVM實(shí)現(xiàn)方法包括Joachims的SVMlight 系統(tǒng)和Platt 的序列最小優(yōu)化算法。隨著人們對文本分類的深入, 不斷有許多新方法涌現(xiàn), 如基于潛在語義結(jié)構(gòu)的文本分類模型,基于模糊- 粗糙集的文本分類方法。但要從根本上解決文本分類中所固有的一些問題, 還需加強(qiáng)研究的力度, 找到更先進(jìn)的理論和方法。
DecisionTree ———決策樹方法:決策樹方法是從訓(xùn)練集中自動歸納出分類樹。在應(yīng)用于文本分類時(shí),決策樹算法基于一種信息增益標(biāo)準(zhǔn)來選擇具有信息的詞, 然后根據(jù)文本中出現(xiàn)的詞的組合判斷類別歸屬。
(一)中國海油合同管理現(xiàn)狀分析
中國海油集團(tuán)于2014年開始了合同管理的數(shù)字化管理進(jìn)程,合同管理系統(tǒng)于2015年正式上線并面向中國海油集團(tuán)提供服務(wù)。系統(tǒng)管理涵蓋了合同管理簽訂前、簽訂中、履行中、履行后的全生命周期。如圖1所示。

在合同簽訂前階段:提供了對合同的基礎(chǔ)資料進(jìn)行維護(hù),包括相對方信息同步,項(xiàng)目信息同步及新建,合同預(yù)算計(jì)劃填報(bào),標(biāo)準(zhǔn)合同范本維護(hù),授權(quán)委托書的申請等功能。
在合同簽訂階段:用戶可以在系統(tǒng)中進(jìn)行合同文本的審查會簽,根據(jù)總公司合同管理規(guī)范的要求,對合同進(jìn)行審查和會簽的操作,若合同無需審查會簽,直接進(jìn)行備案登記即可。若需要加蓋印章,在定稿會簽后可發(fā)起用印申請。合同線下簽訂后,用戶可以在系統(tǒng)中進(jìn)行簽署登記,填寫必要的簽署信息。
在合同履行階段:用戶可進(jìn)行收付款登記,框架協(xié)議下的訂單執(zhí)行情況登記,合同變更/補(bǔ)充協(xié)議登記,合同中止/回復(fù)登記,糾紛爭議登記,監(jiān)控合同的執(zhí)行過程。
合同履行后:用戶可在合同管理系統(tǒng)中進(jìn)行合同關(guān)閉操作。
同時(shí)在合同簽訂、執(zhí)行、關(guān)閉的過程中,用戶可以對合同相關(guān)的文件進(jìn)行歸檔清單登記。同時(shí),用戶可以對合同管理信息系統(tǒng)中的合同相關(guān)信息進(jìn)行查詢統(tǒng)計(jì),生成報(bào)表等操作。
(二)項(xiàng)目研究目標(biāo)
本次研究項(xiàng)目以中國海油集團(tuán)公司信息化部和信息技術(shù)中心的合同編制和校核為研究試點(diǎn),以自然語言分析為入口,將人工智能相關(guān)技術(shù)落地中國海油辦公應(yīng)用,降低人工操作的錯誤,提高工作效率,將員工時(shí)間與精力,從簡單、重復(fù)性的工作中釋放出來,投入到更具創(chuàng)造力的工作中,同時(shí)降低人工操作可能存在的錯誤,在信息化企業(yè)架構(gòu)方法、智慧海油頂層設(shè)計(jì)以及實(shí)現(xiàn)路徑探索方面為海油帶來更多助益。


同時(shí)自然語言處理技術(shù)(簡稱NLP)是人工智能的重要分支,通過NLP對合同文本進(jìn)行深度的分析挖掘,實(shí)現(xiàn)計(jì)算機(jī)對文本語義層面的閱讀和理解。采用當(dāng)前最領(lǐng)先的遷移學(xué)習(xí)和深度學(xué)習(xí)技術(shù),打造智能文本分析AI平臺,并結(jié)合人機(jī)交互強(qiáng)化學(xué)習(xí),由通用AI智能平臺演變?yōu)橹袊S酮?dú)有的深度AI智能平臺。如圖2所示。
(三)應(yīng)用場景設(shè)計(jì)
本次研究項(xiàng)目針對中國海油合同管理系統(tǒng)提供基于自然語言分析技術(shù)的智能平臺,應(yīng)用于中國海油合同管理業(yè)務(wù)的合同預(yù)審場景中。如圖3所示。
在本次研究項(xiàng)目中,在合同管理業(yè)務(wù)的預(yù)審環(huán)節(jié)介入了智能應(yīng)用來輔助對合同的內(nèi)容進(jìn)行審核。
通過調(diào)用經(jīng)過訓(xùn)練的模型,對合同中的格式化信息、合同關(guān)鍵審核要素、合同中的費(fèi)用計(jì)算、合同合法性檢查、合同合規(guī)性審查等內(nèi)容進(jìn)行審核,并將相關(guān)的結(jié)果在合同系統(tǒng)中加以標(biāo)識,以供審核人員對審核結(jié)果進(jìn)行確認(rèn)與標(biāo)定。
(四)應(yīng)用功能說明
在應(yīng)用場景設(shè)計(jì)的基礎(chǔ)之上,為驗(yàn)證實(shí)現(xiàn)研究目標(biāo),本次項(xiàng)目中將中國海油現(xiàn)有的合同管理業(yè)務(wù)特點(diǎn)與自然語言分析技術(shù)相融合,提出了圖3的應(yīng)用場景邏輯架構(gòu)。如圖4所示。

并以此邏輯架構(gòu)為基礎(chǔ),將研究方向集中在,智能合同要素提取、合同智能預(yù)審兩個方面。進(jìn)而依據(jù)項(xiàng)目研究的需要開發(fā)了如下的功能:
合同要素提取:合同要素提取,是本次項(xiàng)目智能應(yīng)用服務(wù)的基礎(chǔ)能力。提供了基于自然語言處理技術(shù)的合同正文解析及合同關(guān)鍵要素提取的能力。提取后的合同要素內(nèi)容,可用于進(jìn)行合同智能審核、合同表單數(shù)據(jù)驗(yàn)證及表單回填。
合同智能預(yù)審:合同智能審核,是本次項(xiàng)目的核心應(yīng)用。
根據(jù)業(yè)務(wù)需求,本次項(xiàng)目共提煉并實(shí)現(xiàn)了18條合同審查規(guī)則。
合同智能審核的結(jié)果分為兩大部分。
一是摘要信息,展示本次審核的風(fēng)險(xiǎn)及問題等數(shù)據(jù)統(tǒng)計(jì)結(jié)果,同時(shí)展示合同關(guān)鍵要素提取的內(nèi)容。
二是審查信息,提供根據(jù)規(guī)則審查的結(jié)果。展示內(nèi)容按照規(guī)則類型進(jìn)行分類。
此外,合同智能審核,還提供了用戶進(jìn)行語料標(biāo)注或反饋問題的渠道,以實(shí)現(xiàn)數(shù)據(jù)模型在實(shí)際使用過程中的持續(xù)優(yōu)化。
樣本標(biāo)注:標(biāo)注管理提主要供了合同樣本管理及樣本標(biāo)注的功能。此外,還提供了輔助標(biāo)注的業(yè)務(wù)領(lǐng)域管理及標(biāo)簽管理功能。對樣本標(biāo)注產(chǎn)生的實(shí)體詞還提供了實(shí)體詞庫管理和詞庫標(biāo)簽映射功能。
通過標(biāo)注管理,用戶可以實(shí)現(xiàn)對樣本標(biāo)注,其輸出成果主要包括兩部分內(nèi)容:
一是標(biāo)注結(jié)果數(shù)據(jù);二是實(shí)體詞庫。
這兩部分?jǐn)?shù)據(jù)會輸入到語料生成環(huán)節(jié),進(jìn)行語料數(shù)據(jù)的生成。
模型管理:模型管理是對合同審核模型進(jìn)行管理的功能模塊,其主要功能包括模型管理、模型評估、模型優(yōu)化。
模型管理是對模型的基本信息及版本進(jìn)行管理的功能。
模型評估是對模型訓(xùn)練結(jié)果進(jìn)行評估及指標(biāo)數(shù)據(jù)查看的功能。
模型優(yōu)化是根據(jù)最終用戶提供的問題數(shù)據(jù)進(jìn)行樣本再標(biāo)注及模型優(yōu)化訓(xùn)練的功能。
通過模型管理,系統(tǒng)會生成可供相關(guān)智能應(yīng)用進(jìn)行實(shí)際管理服務(wù)的數(shù)據(jù)模型。
規(guī)則管理:規(guī)則管理,是對合同審查業(yè)務(wù)規(guī)則進(jìn)行管理、配置的功能模塊。
系統(tǒng)提供的配置管理提供了黑名單、白名單等具有海油審查特色的配置能力,輔助合同審批管理用戶不斷豐富、完善合同審核規(guī)則。
除了基礎(chǔ)的配置管理功能,系統(tǒng)還提供了針對審查過程的記錄查看功能,可以查看相關(guān)規(guī)則對應(yīng)的審查問題結(jié)果數(shù)據(jù)。
應(yīng)用接口:合同要素提取,是本次項(xiàng)目智能應(yīng)用服務(wù)的基礎(chǔ)能力。提供了基于自然語言處理技術(shù)的合同正文解析及合同關(guān)鍵要素提取的能力。提取后的合同要素內(nèi)容,可用于進(jìn)行合同智能審核、合同表單數(shù)據(jù)驗(yàn)證及表單回填。
統(tǒng)計(jì)分析:合同要素提取,是本次項(xiàng)目智能應(yīng)用服務(wù)的基礎(chǔ)能力。提供了基于自然語言處理技術(shù)的合同正文解析及合同關(guān)鍵要素提取的能力。提取后的合同要素內(nèi)容,可用于進(jìn)行合同智能審核、合同表單數(shù)據(jù)驗(yàn)證及表單回填。
在本次研究項(xiàng)目中,中國海油著重研究了自然語言分析在公司合同管理中的應(yīng)用效果。經(jīng)過論證、研究以及實(shí)驗(yàn),達(dá)到了項(xiàng)目預(yù)期的目標(biāo)。通過項(xiàng)目研究我們得出如下的結(jié)論:
本次項(xiàng)目既驗(yàn)證了相關(guān)技術(shù)的可行性,也驗(yàn)證了在海油合同管理業(yè)務(wù)中的實(shí)用及推廣可能性。
總體來說,自然語言分析——即以自然語言處理為核心的相關(guān)技術(shù)在合同管理中具有一定的實(shí)用和推廣價(jià)值。
合同智能審查作為核心業(yè)務(wù)應(yīng)用,為了達(dá)到更好的審查效果,除了自然語言處理技術(shù)之外,還應(yīng)根據(jù)實(shí)際情況,結(jié)合其它相關(guān)技術(shù)共同進(jìn)行開發(fā)應(yīng)用。
目前的自然語言處理技術(shù)還不具備替代人工檢查的條件,只能實(shí)現(xiàn)對合同基礎(chǔ)完備性、關(guān)鍵要素準(zhǔn)確性、一致性等方面的檢查。
作者單位:海洋石油