999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本分析技術挖掘工程重復立項問題的研究

2020-04-13 08:04:40黎晚晴陳玲娜梁惠欣
經濟管理文摘 2020年5期
關鍵詞:關鍵工程項目文本

■馬 博 劉 森 黎晚晴 陳玲娜 梁惠欣 李 勇

(1.中國南方電網有限公司審計部;2.南方電網數字電網研究院有限公司)

1 引 言

近年來我國經濟高速增長,國內電網建設也得到了飛速發展,每年都會建設大量的工程項目,然而由于項目眾多、申報材料繁雜(包括調研報告、項目建議書、立項報告、項目規劃書、項目初步設計書、可行性研究報告、技術經濟分析報告等各類材料),衍生出項目重復申報或相似項目建設等一系列問題,如何科學、高效地發現工程項目的重復申報問題,成為當前電網企業內部審計較為重要的課題之一。

通過多年來的不斷積累,工程立項審批部門積累了大量歷史項目申報材料。此外,隨著近些年來的電網公司信息化建設的不斷推進,相關項目申報材料由紙質文件轉換成電子文件進行了存儲,為審計分析奠定了數據基礎。與此同時,自然語言處理技術和文本分析挖掘技術也不斷成熟,并且在各行業取得了廣泛應用,將文本挖掘技術引入到工程項目立項申報材料的審計過程中,能夠大幅提高審計效率。

2 基于文本挖掘技術的工程項目重復立項分析

在傳統的電網工程項目立項審計過程中,審計人員往往僅靠人工審閱立項申報材料,再根據自身大腦記憶的歷史項目進行比對,識別項目是否存在重復申報行為;或者通過檢索項目名稱關鍵字,看是否之前有項目名稱類似的項目或有類似采購,以判斷是否是重復申報項目。這些方法,一方面過于依賴審計人員的經驗積累;另一方面,由于僅對項目名稱或部分采購內容進行查重分析,稍加修改的重復申報項目很容易被漏掉;此外,人工審核效率也較為低下。因此,本課題引入文本挖掘技術,自動對海量的立項項目的相關材料進行相似性分析,快速識別出相似的項目,從而大幅提高項目重復申報審計的效率。

在本課題中,主要涉及4部分工作:信息抽取模型訓練、歷史立項材料信息抽取、新項目重復立項審計、舊項目重復立項審計。

圖1 主要工作

(1)信息抽取模型訓練。

為了對各個項目的關鍵內容進行對比分析,例如項目背景、項目目標、建設內容、項目金額、采購設備、關鍵技術等,需要從項目申報等材料中抽取相關內容,形成結構化數據。但是由于各單位各年度的工程項目申報材料等存在不同的格式模板,無法構建一種統一的信息抽取規則,因此本課題通過機器學習的方式,對人工標注立項申報材料進行訓練學習,形成信息抽取模型,自動識別文檔模板,并抽取項目申報材料中的關鍵數據。信息抽取模型的訓練過程主要如圖2。

圖2 訓練信息標注模型

(2)歷史項目信息抽取。

對于歷史積累的海量申報項目,調用訓練出的信息抽取模型,逐個自動抽取各個項目的關鍵數據,形成結構化歷史項目數據庫,為后續項目信息審計比對提供數據支撐。

(3)歷史項目重復申報分析。

歷史項目重復申報分析,主要批量對抽取形成結構化歷史項目數據庫中的項目進行比對分析,識別其中的重復申報項目。總體處理流程如下圖,先從結構化歷史項目數據庫讀取每一個項目的結構化數據;再計算各項目兩兩之間的相似度,將相似的項目聚類,形成聚類結果;對于聚類中項目數大于1的聚類,認為是潛在的重復申報項目;對于聚類中項目數大于1的聚類,且其中的項目都屬于同一申報單位的,認為是重復申報項目,并輸出其項目名稱、申報單位、申報時間(如圖3)。

圖3 歷史項目重復申報分析

(4)新項目重復申報分析。

對于新提交的立項項目,調用信息抽取模型自動抽取其關鍵數據,并利用文本相似分析算法計算其和歷史項目庫中每個項目的關鍵數據之間的相似度,計算出相似度得分,如果有歷史項目與其相似度大于閾值,則認為該項目存在重復申報行為,并輸出相似度大于閾值的項目。

圖4 新項目重復申報分析

3 關鍵技術

3.1 基于機器學習模型的信息抽取技術

信息抽取技術是從大段的文字中抽取關心的關鍵信息,并將其存儲成結構化數據,以便后續進一步查詢和分析使用。通常來說,信息抽取技術分為基于規則的信息抽取技術和基于機器學習模型的信息抽取技術2種。

基于規則的信息抽取技術往往結果較為精準,但也存在明顯的劣勢,就是普適性較差,需要將所有的可能的情況和抽取規則都窮舉;文檔格式稍有差異,抽取結果就會存在偏差。

與其相對的就是基于機器學習模型的信息抽取技術,其大致思想是認為標注一些模型訓練用的文檔,標注出從中要抽取的關鍵信息、位置、屬性名稱,例如從工程申報材料中抽取工程建設目標對應內容、在文檔中的位置、屬性名稱為“工程建設目標”;每個訓練文檔中會人為標注出所有需要抽取的關鍵數據。機器學習的過程,就是通過學習海量的文檔數據,自動總結學習出每一個關鍵信息對應的上下文特征,以及關鍵信息本身的文本特征,據此自動從新文檔中抽取出所有關鍵信息。本課題采用了條件隨機模型 CRF(Conditional Random Field)作為特征抽取模型的訓練算法模型。

CRF模型由Lafferty等人于2001年提出,是基于熵模型和隱馬爾科夫模型之上提出的一種基于遵循馬爾可夫性的概率圖模型,近年來在分詞、詞性標注和命名實體識別等序列標注任務中取得了很好的效果。

3.2 文本相似分析技術

文本相似分析,簡單來說就是計算兩個文本串之間的相似度。例如對工程申報材料中相關項目的項目情況介紹、服務方案、服務安排、進度控制、質量控制進行相似度分析,首先調用訓練出的信息抽取模型,抽取出關鍵數據,然后對關鍵數據進行預處理,其中包括正則匹配、文本分詞、停用詞處理、字符串操作、規約化數據等,再通過文本相似度計算方法進行計算,最后根據該項目中的項目情況介紹、服務方案、服務安排、進度控制、質量控制各部分權重,分析出和其他項目的最終相似度。常見的文本相似度計算方法有Jaccard相似系數、編輯距離算法、夾角余弦相似度3種。

3.2.1 Jaccard 相似系數

Jaccard 相似系數(Jaccard similarity coefficient)用于比較有限樣本集之間的相似性與差異性。Jaccard系數值越大,樣本相似度越高。

給定兩個集合A,B,Jaccard 系數定義為A與B交集的大小與A與B并集的大小的比值,|A∩B|/|A∪B|,其實就是計算兩個字符串中字符的交集和并集的比值。

3.2.2 夾角余弦相似度

兩個文本A和B之間的夾角余弦相關度similarity常用向量之間夾角的余弦值表示,公式為:

其中,Ai、Bi分別表示文本A和B第i個詞的詞頻,1<=i<=n。

由于項目申報信息中,數據稀疏度過高,通過余弦相似度計算會產生誤導性結果。

3.3 文本聚類技術

聚類算法是一種常見的數據挖掘算法,目的在于把大量的數據點分成若干類別,把相似的內容和行為聚集在一起,不同的類之間盡量保證不相似。例如一些難以發覺的信息以特殊的形式隱藏在大數據中,一般的審計數據分析方法很難挖掘出這些異常信息,而采用文本聚類的算法能夠彌補這個缺陷。這些異常信息往往是審計人員重點審查的對象,可以對舞弊和違規行為的評估提供審計證據。對審計文本進行聚類后,可以按類別對每類文本進行具體的分析、比較和總結,大大減輕了審計人員進行數據分析的工作量。

4 工程項目重復立項分析應用實例

我們開發工程項目關鍵信息抽取功能,運維文本挖掘的分詞、噪聲詞過濾等技術,進行文本相似度分析,并在相似度的基礎之上,運用聚類算法識別相似度較高的項目群,輔助工程項目重復申報審計工作,為審計人員提供快速識別疑似重復立項的工程項目線索,大幅度提高了審計工作效率,具體分為以下三個步驟:工程項目信息抽取、文本相似度分析和重復立項聚類分析。

4.1 工程項目信息抽取

通過信息抽取模型功能,將各項目申報材料中的關鍵信息,例如項目名稱、項目摘要、項目申請理由、項目內容、項目總投資、項目預算、采購物資列表、項目支出明細等,抽取成結構化數據,為后續文本相似度分析提供高質量的數據基礎。其中,每一條記錄代表一個項目,每個字段代表該項目的關鍵數據項。

4.2 文本相似度分析

運用文本挖掘工具對工程項目信息抽取后得到的高質量數據項分別進行文本相似度分析,實踐步驟有以下三個步驟:

(1)首先讀取抽取后的工程項目信息數據,運用分詞技術,將各數據項文本進行文本預處理操作;

(2)再通過企業核心詞庫、停用詞處理、噪聲詞過濾等操作提取每個關鍵數據項的關鍵詞;

(3)然后運用文本相似度計算方法進行計算各個關鍵數據項的相似度。

具體建模流程如下圖所示,實現從信息抽取表到相似度表的轉換。

圖5 文本相似度分析建模流程

4.3 重復立項聚類分析

本課題還通過聚類算法對海量的歷史項目進行重復申報分析,將文本相似度分析的結果,作為聚類分析的輸入,實現將項目數據分類到不同的類或者簇,同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。快速識別相似度較高的項目簇,并運用網絡圖呈現技術對聚類結果進行直觀展示,如下圖所示,其中每個點代表一個項目,對于聚集度很高的項目,說明其相似度極高,存在重復申報行為。對于相似度大于閾值的項目,系統會輸出相似項目列表及相似度,并可對比分析項目申報信息的相似內容與差異。對于相似度大于閾值的項目,系統會輸出相似項目列表及相似度,并可對比分析項目申報信息的相似內容與差異。

圖6 歷史數據重復申報聚類分析與展示

結 語

本課題通過引入文本挖掘等人工智能技術,對海量的立項材料進行高效分析,從而從中分析潛在的項目重復申報行為,為項目重復申報審計提供了新的手段。通過項目實踐,證明本課題采用的技術行之有效,能夠大幅提高項目重復申報的工作效率,并且同時避免了人為粗心或經驗缺失而造成的審計遺漏。因此,建議相關技術進一步廣泛推廣,全方位提升工程項目審計的效率與質量。

猜你喜歡
關鍵工程項目文本
高考考好是關鍵
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
工程項目造價控制中常見問題的探討
江西建材(2018年1期)2018-04-04 05:26:40
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
獲勝關鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
加強工程項目檔案管理的有效途徑
生意無大小,關鍵是怎么做?
中國商人(2013年1期)2013-12-04 08:52:52
成套集團工程項目管理模式的實踐和探索
主站蜘蛛池模板: 欧美日韩国产高清一区二区三区| 国产视频一二三区| 四虎影视8848永久精品| 992tv国产人成在线观看| 亚洲日韩精品无码专区| 日韩在线影院| 久夜色精品国产噜噜| 日韩免费视频播播| 免费看一级毛片波多结衣| 欧美97欧美综合色伦图| 国产精品久线在线观看| 国产精品亚洲片在线va| 中文字幕亚洲乱码熟女1区2区| 97超爽成人免费视频在线播放| 亚洲视频在线观看免费视频| 亚洲中久无码永久在线观看软件| 国产99免费视频| 精品国产黑色丝袜高跟鞋| 免费在线看黄网址| 成人福利在线免费观看| 国产男女免费完整版视频| 国产视频欧美| 天天综合网亚洲网站| 国产精选自拍| 狼友av永久网站免费观看| 视频一本大道香蕉久在线播放| 毛片网站免费在线观看| 亚洲天堂自拍| 日韩国产一区二区三区无码| 在线五月婷婷| 55夜色66夜色国产精品视频| 青草精品视频| 一级看片免费视频| 日韩经典精品无码一区二区| 福利在线不卡| 久久超级碰| 亚洲天堂2014| 2021国产精品自产拍在线观看 | 亚洲最大福利网站| 国产91久久久久久| 亚洲一区二区无码视频| 色播五月婷婷| 中国黄色一级视频| 国产欧美日韩91| 99视频在线观看免费| 伊人久久精品无码麻豆精品 | 国产男女免费完整版视频| 国产三级国产精品国产普男人| 成人精品视频一区二区在线 | 国产欧美日韩视频怡春院| 亚洲αv毛片| 日本黄网在线观看| 99精品免费在线| 亚洲毛片网站| 亚洲中文在线看视频一区| 国产在线高清一级毛片| 欧美精品成人一区二区视频一| 亚洲av无码牛牛影视在线二区| aⅴ免费在线观看| 2022精品国偷自产免费观看| 亚洲国产精品日韩欧美一区| 国产免费好大好硬视频| 一级香蕉视频在线观看| 色网在线视频| 亚洲日本中文综合在线| 国产成人精品高清不卡在线| 欧美一级黄色影院| 国产午夜精品鲁丝片| 高清免费毛片| 在线无码av一区二区三区| AV片亚洲国产男人的天堂| 亚洲人成网址| 亚洲一区二区三区在线视频| 中文字幕 日韩 欧美| 91无码网站| 免费精品一区二区h| 99久久国产精品无码| 国产精品女同一区三区五区| 人妻中文字幕无码久久一区| 欧美一级在线| 亚洲精品欧美日本中文字幕| 亚洲Aⅴ无码专区在线观看q|