文/付晨
隨著經濟的快速發展,各種項目層出不窮,而項目的審核工作對于項目落地來說至關重要。但項目審核的流程繁多,文件資料也復雜多樣。面對大量且復雜的資料,傳統的人工審核顯然已經無法從容應對,人工智能技術或許將成為解決其問題的切口。
項目審核是一項復雜且專業性很強的工作,一方面,是審核的項目文件數量和內容過多;另一方面,是項目文件之間存在一些聯系,有時需要大量的計算來加以驗證,因此審核的工作往往需要耗費大量的時間和精力。更為嚴重的是,審核人員在審核過程中可能會出現舞弊的現象,嚴重影響企業發展并造成不良的社會影響。而隨著互聯網技術的高速發展,人工智能技術為解決以上問題帶來了新的思路。
人工智能(AI)是計算機系統對人類智能過程的模擬,包括學習(獲取信息和使用信息的規則),推理(使用規則來達到近似或明確的結論)和自我糾正。人工智能是對計算機系統如何能夠履行那些只有依靠人類智慧才能完成的任務的理論研究,依賴于大量的數據收集、處理和分析,并從數據中得出一套行為規則,并保有自我學習的能力。簡單來說,人工智能可以很大程度上幫助工作人員進行常規性的審核工作,甚至對重要的環節進行提示和幫助。總之,運用人工智能,可以最大限度地借助計算機的計算能力,極大地提高審核工作效率,推進審核進度,降低工作失誤,減少人力成本。
計算機視覺技術是指計算機從圖像中識別出物體、場景和活動的能力。計算機視覺技術運用圖像處理操作及其他技術,將圖像的分析任務分解為便于管理的小塊任務。比如,一些圖像識別技術能夠從圖像中檢測到物體的邊緣及紋理。而圖像分類技術可被用作確定識別到的特征是否能夠代表系統已知的一類物體。最近火熱的“人臉識別”技術就屬于其中一種。通過計算機視覺技術,能夠實現對紙質地文檔資料進行掃描,獲取其中的信息,并轉換為一定的編碼形式,供計算機進一步分析,實際上就是起到了人的“眼睛”的作用。但人的肉眼會疲勞,而計算機不會。因此,計算機視覺技術作為人工智能技的子分支,既能夠提高文檔的信息獲取和處理速度,也能提高獲取信息的準確度。
自然語言處理技術是指計算機擁有的類似人類處理文本的能力,比如,從文本中提取意義,甚至從那些可讀的、語法正確的文本中自主解讀出含義。一個自然語言處理系統并不了解人類處理文本的方式,但是它卻可以用非常復雜與成熟的手段巧妙地處理文本,例如自動識別一份文檔中所有被提及的人與地點;識別文檔的核心主題;或者在一堆僅人類可讀的合同中,將各種條款與條件提取出來并制作成表。以上這些任務通過傳統的文本處理軟件根本不可能完成,后者僅能針對簡單的文本匹配與模式進行操作。因此,在文檔審核過程中,自然語言處理技術能夠起到人的“閱讀”作用,可以有針對地對文檔內容進行查找并分析。
機器學習是計算機從數據中自動發現模式,并將模式用于做預測。比如,給予機器學習系統一個關于交易時間、商家、地點、價格及交易是否正當等信用卡交易信息的數據庫,系統就會學習到可用來預測信用卡欺詐的模式。處理的交易數據越多,預測就會越好。機器學習需要大量的數據進行訓練和調整,不斷從文檔資料提取一些信息特征,并建立相應模型進行預測,識別和判定其他的內容文字,以達到最后的學習效果。因此,機器學習就相當于人的“思考”和“判斷”,在計算機識別技術和自然語言技術等其他技術的基礎上,對文檔內容進行進一步分析,判斷內容是否符合規范,是否有誤,甚至實現自動糾錯等功能。
數據集準備工作,其中包括加載數據集和執行數據預處理的過程。如果是紙質文檔,需要先通過計算機視覺技術進行信息獲取。為滿足后期的模型訓練,往往需要大量的數據集,不同種類的文檔資料都要保證一定的數量,以保證模型可以對多類型文檔進行分析。另一方面,對原始數據還要進行預處理,比如按不同標題進行內容分割,確保針對同一類型的內容進行分析和訓練。
特征工程,其主要目的是突出關鍵信息,隔離無效或無用信息。在計算機視覺中,特征可以是圖像中的線。在自然語言處理中,并且短語或特殊詞計數可以是特征。在語音識別中,特征可以是單個單詞或音調。如果正確完成了特征工程,它可以通過從原始數據創建有助于促進機器學習過程的特征來提高機器學習算法的預測能力。常見的特征形式有:計數向量、映射數值、TF-IDF向量等等。特征工程是將原始數據轉換為更能代表預測模型的基礎問題的特征的過程,從而提高了對潛在數據的模型準確性。
建立模型并進行訓練。機器學習有許多基礎模型,常見的有樸素貝葉斯分類器、線性分類器、SVM模型、隨機森林模型、Boosting模型、深度神經網絡等等。針對文檔審核問題,可以建立一種基于機器學習的文檔規范性審核模型,并依據數據集進行模型訓練,并對模型的求解結果進行初步評估。模型效果不理想的,還要進行模型參數的調整,以達到符合標準的效果;有時利用不同的模型并混合它們的輸出還可以進一步改善結果。
在測試集上檢驗模型。模型訓練后,還要準備測試數據集對其進行驗證,對模型的實際審核能力進行評估。如果模型在訓練數據上表現很好但在測試數據上表現不佳,則表明它過度擬合。換句話說,訓練出來的模型僅僅適用于訓練數據上,對其他的數據集沒有普遍的適用價值。當模型檢驗結果不符合預期時,應該重新調整參數,再次進行訓練,或者調整思路,更換模型和方法,以達到預取的效果。
總而言之,人工智能技術在項目過程文檔資料審核校驗中的應用,能夠很大程度上地提高工作人員的審核效率,減輕審核工作的壓力。現如今,人們的日常工作也逐漸滲入了文檔內容識別的人工智能元素。在未來,人工智能技術勢必會進一步發展,能夠幫助人處理日常事務,提高人的工作效率,促進時代的發展。