李玲 魏國華 楊旸 胡峰
隨著國家法律體系的逐步完善,合同作為法治社會的代表性產(chǎn)物,已經(jīng)深入社會發(fā)展的每一個角落。無論是生產(chǎn)加工,資金流動,還是企業(yè)管理,都離不開合同的法律約束。然而,在當前合同管理中的起草、審查、簽署等各環(huán)節(jié)還存在很多問題,給企業(yè)帶來較大的潛在風險。另一方面,隨著人工智能應用產(chǎn)業(yè)化規(guī)模在我國快速增長,作為其核心技術(shù)的自然語言處理也迎來了蓬勃發(fā)展。
基于合同管理中出現(xiàn)的業(yè)務需求,中國海洋石油集團有限公司(以下簡稱“中國海油”)審時度勢,積極行動,研發(fā)了基于自然語言處理的合同智能審查應用,有效地提升了企業(yè)工作效率,降低了用工成本。
合同是企業(yè)經(jīng)濟活動取得最大經(jīng)濟效益的核心環(huán)節(jié)。企業(yè)合同管理的好壞一定程度上影響著企業(yè)的經(jīng)營的好壞。隨著社會主義市場經(jīng)濟的發(fā)展,中國海油合同管理體制也在不斷完善。不僅建立了健全的合同管理制度,嚴格的審批程序,還應用了信息化合同管理系統(tǒng)。中國海油的合同管理系統(tǒng)已經(jīng)實現(xiàn)合同全生命周期覆蓋,且功能性強,適用范圍廣。然而,基于人工管理中人為疏漏的必然性,中國海油合同管理系統(tǒng)在合同審查環(huán)節(jié)中仍有許多待提高的方面。首先,對于合同文本中頻繁出現(xiàn)的人工疏漏暫無良好解決方法,如:文字表述不正確、主體不當、合同金額大小寫不一致等。尤其在各個部門輾轉(zhuǎn)審查的過程中經(jīng)過多次改動,更增加了人工疏漏的可能性。其次,中國海油合同管理系統(tǒng)實際應用操作復雜,重復性工作多,極大增加的工作量。
為了有效防范合同風險,提高審查效率,中國海油在原有合同管理系統(tǒng)之上設計了一套基于自然語言處理的合同智能審查應用,利用文本比對以及規(guī)則審查的方式,有效地為用戶提供合同正文的風險提示,在完善合同管理中起到了重要作用。
(一)合同智能審查應用設計思路
海油設計的基于自然語言處理的合同智能審查應用,以公司信息化部門的合同起草和審查為出發(fā)點,以自然語言語義分析為入口,將人工智能相關技術(shù)落地海油辦公應用,將員工從簡單而重復性高的工作中釋放出來,投入到更具創(chuàng)造力的工作中,同時降低人工操作可能存在的錯誤,在信息化企業(yè)架構(gòu)方法方面海油帶來更多助益。
通過分析海油信息化部門的業(yè)務需求,我們將合同智能審查應用的功能設計為兩大類:一是合同關鍵信息自動提取,實現(xiàn)系統(tǒng)自動填寫合同表單的能力,以節(jié)省手動起草所耗費的大量時間。二是合同智能預審,將合同文本中可能出現(xiàn)的錯誤、風險等進行主動提示,降低風險,減少人工審查的工作量。
(二)合同智能審查應用場景
1. 自動表單填寫
合同起草表單是原合同管理系統(tǒng)中必不可少的內(nèi)容,需要人工收集合同里的數(shù)據(jù)并準確填寫,由此給起草人帶來諸多不便,也因為出錯率高為合同審查帶來很大困擾。自動表單填寫功能很好地解決了這一問題。該功能通過對上傳的合同正文進行文本分析,通過關鍵詞提取的方式提取出合同新建表單所需的部分正文內(nèi)容,如:合同名稱、相對方、簽約主體等。提取出來的內(nèi)容經(jīng)過起草人確認后,可以自動填寫到新建表單的對應字段中,輔助起草人快速、準確地完成起草工作。
2. 合同智能預審
合同智能預審是合同智能審查應用的核心功能,它有效降低了合同起草風險與審查風險。根據(jù)信息化部門的業(yè)務需求,設計了24條審查規(guī)則。其中包括標準化規(guī)則,如標的、數(shù)量、履行日期和地點、價款報酬等可標準化且重復性高的硬性規(guī)則;還包括非標準化規(guī)則,給出包含了法律、風控、商業(yè)與管理等綜合考量的審查意見。非標準化規(guī)則需要“人機協(xié)作”,由人類在機器審查的基礎上去復核、修改及完善。
合同智能預審功能在對合同中的關鍵要素根據(jù)業(yè)務審查規(guī)則進行內(nèi)容智能審查后,向用戶展現(xiàn)合同正文的風險提示(如下圖所示)審查結(jié)果的展現(xiàn)包括三部分:審查未通過、風險提示、審查通過;若審查未通過,則會進一步展示具體內(nèi)容,包括:相關合同要素、審查規(guī)則、文檔數(shù)據(jù)和建議內(nèi)容,并在原文中標記出不一致點,方便用戶在合同文本內(nèi)搜索。合同智能預審功能還支持多次審查,在整體上確保了合同信息的一致性、正確性和完整性。
(三)合同智能審查應用效果

在企業(yè)管理方面,合同智能審查應用極大降低了簡單、重復性人力的投入。人工只需在機器完成預審后復查即可,將原本長達十幾小時的周轉(zhuǎn)等待與純?nèi)斯彶檫^程縮短為僅僅半小時。在社會效益方面,合同智能審查應用減低了合同文本出現(xiàn)錯誤的概率,降低合同風險,不僅提升了海油專業(yè)、嚴謹?shù)纳鐣蜗螅黾恿撕贤募s率,避免了企業(yè)不必要的損失。
自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用日常用語(自然語言)進行有效通信的各種理論和方法。自然語言處理作為機器學習的代表,最為關鍵的要素就是模型的建立和訓練。在自然語言處理中,模型訓練的流程可分為四部分:數(shù)據(jù)輸入、預處理、模型訓練以及模型強化(如下圖所示)。首先,我們會確認文檔類型,輸入業(yè)務核心詞典和大量的合同文本數(shù)據(jù)。其次,我們需要對文本進行預處理并生成語料。將語料進行模型訓練,便可以實現(xiàn)關鍵信息識別的功能。系統(tǒng)根據(jù)識別的信息與審查內(nèi)容進行比對,從而向用戶提供風險提示。本應用還具有模型強化功能,后期在應用期間,本應用通過審查更多的合同樣本可進行自我迭代優(yōu)化,具有更精確的識別能力。
合同智能審查應用采用了半監(jiān)督式學習的方式對自然語言模型進行訓練,主要運用了自然語言理解中以下三方面的算法:中文分詞、詞性分析和命名實體識別。
(一)中文分詞與詞性分析
本應用利用了界內(nèi)流行的HanLP中文分詞功能。在輸入大量合同文本數(shù)據(jù)并導入詞典作為分詞的依據(jù)后,合同中的每一句話會被進行一元分詞,即在嘗試所有分詞方法后找出和詞典中詞語匹配度最大的一種分詞方法,并定為初步分詞結(jié)果。我們對此結(jié)果再進行二次切分,根據(jù)每一個詞的上下文,計算該詞在文中出現(xiàn)的概率并找出概率最大的分詞方法,所得結(jié)果比第一次分詞準確得多。在成功分詞后,再通過HMM算法進行詞性分析,將每個詞的詞性標注在分詞結(jié)果后面。如:“中國交響樂團在布達拉宮廣場演出”這句話,在處理后輸出為“中國/ns 交響樂團/n 在/p 布達拉宮/ns 廣場/n 演出/v”。我們將所有生成的詞語存儲在語料庫中,作為模型的輸入數(shù)據(jù)。
(二)命名實體識別算法優(yōu)化
自然語言處理中模型的建立和訓練尤為重要。實現(xiàn)自動表單填寫和合同智能預審功能的一大關鍵點是準確地從合同正文中提取相關信息。HanLP支持的命名實體識別只能提取出人名、地名、組織機構(gòu)等信息,已不足以滿足需求。本應用在其基礎上加入了半監(jiān)督式學習的模型訓練方式,通過輸入大量的語料,以及人工標注語料信息,使計算機自動根據(jù)特征尋找信息點。在人工添加標簽的過程中,我們以復合標簽的形式進行標注,如:標注“甲方”和“名稱”,“乙方”和“名稱”,算法會自動識別出“甲方名稱” 以及“乙方名稱”兩大標簽。利用這種方法訓練模型,不僅化繁為簡,更提高了識別率,使結(jié)果更加泛化而準確。 通過以上模型的訓練與算法實施,合同智能審查應用的審查準確率已達到XX%,為其良好的應用效果奠定了基礎。
相比傳統(tǒng)合同管理系統(tǒng),合同智能審查應用精度高,速度快,可持續(xù)發(fā)展性強的特點為其贏得了廣闊的應用前景。借助計算機的高效文檔處理,自動表單填寫功能在起草,改寫等方面有效提升了企業(yè)工作效率,降低用工成本;而合同智能預審功能則極大減少了人為疏漏,有效降低合同風險。
合同智能審查應用是人工智能在法律領域的一次新嘗試。中國海油在取得顯著應用成果的同時,仍然有很多技術(shù)難點需要攻克。隨著人工智能技術(shù)的日新月異,自然語言處理也在不斷飛速發(fā)展,如2017年的新興算法BERT(Bidirectional Encoder Representations for Transformers)已經(jīng)在語義理解方面獲得了顯著突破。通過這項技術(shù),海油可以在合同智能審查應用中加入更多與合同內(nèi)容理解有關的新規(guī)則,從而完善平臺的服務。海油堅信,在不久的將來,人工智能在各個領域的應用將越發(fā)普遍,并將在全社會范圍內(nèi)促進更廣泛的工作流程改進和社會成本節(jié)約。
作者單位:中國海洋石油集團有限公司 李玲 魏國華 楊旸
中海油信息科技有限公司 胡峰