999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

工業企業數據挖掘和知識圖譜系統建設研究

2023-04-05 16:03:38王輝邢偉曹帥陰鵬飛史夢瑤
中國標準化 2023年20期
關鍵詞:數據分析數據挖掘

王輝 邢偉 曹帥 陰鵬飛 史夢瑤

摘 要:本文介紹了工業企業數據平臺分析系統的數據挖掘和知識圖譜相關知識,分析了數據挖掘方面的知識體系建設、實體識別、相關的算法和知識圖譜方面的技術路線、業務建設、具體應用、核心算法,為業務應用的智能問答系統提供了數據和服務支持。

關鍵詞:工業企業,數據分析,可視化工具,數據挖掘,知識圖譜

DOI編碼:10.3969/j.issn.1002-5944.2023.20.013

0 引 言

數據挖掘和知識圖譜系統是工業企業數據平臺的大數據中臺的重要組成部分。它以工業企業數據平臺的采集系統的元數據為基礎數據源,其輸出成果為工業企業的智能問答系統的業務應用提供數據支撐和服務支撐,對數據挖掘和知識圖譜起到承上啟下的作用。下面分別從數據挖掘、知識圖譜和自然語言處理工具三個方面做論述,希望對讀者能有一定的借鑒意義。

1 數據挖掘

1.1 知識體系建設

本平臺的知識體系建設包括平臺知識體系和機構知識體系。

平臺知識體系是指針對工業企業的各個業務平臺創建的指標標簽體系。包括辦公協同平臺、經營管理平臺、安全生產平臺、標準運行平臺、共享服務平臺、移動支付平臺等一級標簽。其中辦公協同平臺對應有一站式信息平臺標簽、員工自助標簽、業務云平臺、工資報表、自主招聘等二級標簽;安全生產下對應安全生產管理信息平臺、安全生產OMS、雙預控;虹膜稽核等二級標簽;經營管理對應BPC全面預算、數據治理平臺、電子商務、合同審計、招投標平臺等二級標簽[1]。

機構知識體系主要針對本平臺所在的直屬機構創建的指標標簽體系。包括機關部室、共享中心、各級業務部門、客戶、供應商等一級標簽。

1.2 實體識別

實體識別的技術路線是通過構建結合數據主動命名實體識別系統,準備訓練命名實體識別模型所需要的數據集,主動學習模塊、數據標注模塊、數據增強模塊采用順序化循環的方式對實體識別模塊中的命名實體識別模型繼續訓練并對數據進行標注和增強。訓練后的命名實體識別模塊對各個數據源的文本進行命名實體識別的過程。本章重點對部門識別樣本、人員識別樣本、標準識別樣本來闡述實體識別的過程。

1.2.1 組織識別樣本

業務組織部門識別樣本是利用實體識別技術路線對業務組織部門信息識別的具體應用。業務組織部門識別體系包括業務組織部門詞典數據集、業務組織部門關聯數據集、業務組織部門屬性集、測試數據源、業務組織部門主題詞識別模塊、業務組織部門數據標注模塊、業務組織部門實體識別模塊,業務組織部門實體增強模塊、業務組織部門屬性關聯模塊等組成。

具體實現過程:利用業務組織部門主題詞識別模塊,從數據源中提取與業務組織部門相關的主題詞;通過業務組織部門增強模塊和實體識別模塊在詞典數據集、關聯數據集、屬性集對識別到的信息進一步加強和規范化;通過業務組織部門數據標注模塊對被監測數據源進行實體標簽標注,并建立索引;根據檢測結果和基礎數據集進行反饋和補充,進一步完善業務組織部門基礎數據的過程。

針對不同的測試樣本進行往復循環的過程成為業務組織部門識別算法的訓練和完善的過程。

1.2.2 人員識別樣本

人員識別樣本是利用人名識別技術路線對不同數據源進行行業人員的識別過程。人員識別體系由行業人員基礎數據集、人員屬性數據集、測試數據源、基礎人名識別模塊、人員數據標注模塊、人員屬性實體識別模塊,人員實體增強模塊、人員屬性關聯模塊等組成。

具體實現過程:利用基礎人名識別模塊從數據源中提取出疑似人名的清單;通過人名停用詞進行疑似人名的清洗。接下來通過疑似人名與人員實體庫進行匹配,滿足條件詞匯,根據人員屬性實體識別模塊和人員實體增強模塊給疑似人名創建人員實體對象。通過被檢數據源中匹配對應的屬性信息,對人員實體對象進一步規范化;通過人員數據標注模塊對人員信息和被監測數據源進行實體標簽標注,并建立索引;經過人工審核后把新識別的人員基礎數據對基礎數據集進行反饋和補充。

針對不同的測試樣本進行往復循環的過程成為識別算法的訓練和完善的過程。

1.2.3 標準識別樣本

標準識別樣本是利用上下游標準固有類別數據集為基礎,從不同數據源進行標準信息提取、識別和融合的過程。專家識別體系包括行業標準基礎數據集、行業企業基礎數據集、標準屬性數據集、測試數據源、標準主題詞識別模塊、標準數據標注模塊、標準屬性實體識別模塊,標準實體增強模塊、標準屬性關聯模塊等組成。

針對不同的測試樣本進行往復循環的過程成為標準識別算法的訓練和完善的過程。

1.2.4 其它實體識別樣本

其它實體還包括辦公協同實體識別、經營管理實體識別、安全生產實體識別、共享服務實體識別、移動支付實體識別、機關部室實體識別等內容。在此不再贅述。

1.3 算法介紹

1.3.1 分詞、詞性標注和關鍵詞抽取算法

(1)分詞算法。分詞主要是基于統計詞典,構造一個前綴詞典;然后利用前綴詞典對輸入句子進行切分,得到所有的切分可能,根據切分位置,構造一個有向無環圖;通過動態規劃算法,計算得到最大概率路徑,也就得到了最終的切分形式。

(2)詞性標注算法。分詞的詞性標注過程非常類似于分詞流程,同時進行分詞和詞性標注。

(3)關鍵詞抽取算法。分詞系統中實現了兩種關鍵詞抽取算法,分別是基于TF-IDF關鍵詞抽取算法和基于TextRank關鍵詞抽取算法,兩類算法均是無監督學習的算法。

(4)HMM模型。由于處理的文本大部分為中文文本,基于漢字成詞能力的HMM模型識別特別適合本平臺的業務場景。利用HMM模型進行分詞,主要是將分詞問題視為一個序列標注(sequencelabeling)問題。其中,句子為觀測序列,分詞結果為狀態序列。首先通過語料訓練出HMM相關的模型,然后利用Viterbi算法進行求解,最終得到最優的狀態序列,然后再根據狀態序列,輸出分詞結果。

1.3.2 貝葉斯算法

貝葉斯分類算法是統計學的一種分類方法,它是一類利用概率統計知識進行分類的算法。該算法能運用到大型數據庫中,而且方法簡單、分類準確率高、速度快。

由于貝葉斯定理假設一個屬性值對給定類的影響獨立于其它屬性的值,而此假設在實際情況中經常是不成立的,因此其分類準確率可能會下降。為此,就衍生出許多降低獨立性假設的貝葉斯分類算法,如TAN(tree augmented Bayes network)算法。

2 知識圖譜

2.1 技術路線

知識圖譜基于語義解析的問答技術,是一種管道式的方法。首先需要對用戶的查詢問句進行語義解析,獲取查詢對象、對象約束與用戶意圖,而后根據查詢對象、約束之間的關聯關系形成查詢圖,最后使用查詢圖與知識圖譜進行匹配和推理,獲取并推送給用戶所需要的知識。

其中涉及的關鍵技術有:命名實體識別(用于獲取查詢對象以及約束對象的字符串表達)、實體鏈接、語義解析、圖匹配算法(用于將查詢圖與知識圖譜進行匹配,獲取最終答案實體)、文本生成算法(以答案實體、知識圖譜與用戶問句作為條件,生成易于理解的文本返回給用戶)[2]。

2.2 業務建設

針對多數據源的融合應用,構建基于多數據源的知識圖譜。首先,對不同來源的數據構建相應的本地庫,并將不同的本地庫通過數據融合映射到全局本地庫。然后,利用實體對齊和實體方法進行知識獲取和融合。最后搭建知識圖譜應用平臺,提供查詢和統計等操作。

2.2.1 知識圖譜構建過程

知識圖譜的構建分為兩步:知識圖譜本體層構建和實體層的學習。其中,本體層構建包括主題詞抽取、同義詞抽取、概念抽取、分類關系抽取、公理和規則學習;實體層學習包括實體學習、實體數據填充、實體對齊和實體等。

知識圖譜的構建方法包括自上向下和自底向上兩種。自上向下的方法指先構建知識圖譜的本體,即從煤炭行業領域、煤炭行業詞典及其它高質量的數據源中,提取本體和模式信息,添加到知識庫中;自底向上方法指從實體層開始,借助一定的技術手段,對實體進展歸納組織,實體對齊和實體等,并提取出具有較高執行度的新模式,經人工審核后,補充到知識圖譜中。

2.2.2 多數據源融合的知識圖譜構建

為實現各類知識圖譜服務支撐的快速查詢,本平臺在融合多種數據源的情況下,構建了多數據源的知識圖譜。首先對不同實體構建不同領域的本地庫,然后將不同領域經過映射成全局本地庫,接著對各領域的知識庫實施實體對齊過程和實體過程,豐富和擴展構造多數據融合的知識圖譜。

2.2.3 實體對齊

實體對齊,也稱實體匹配或實體解析,是對相同或者不同數據集中兩個實體是否指向真實世界同一對象的過程。實體對齊如圖1所示。

本系統通過實體對齊,發現在不同知識庫中的實體名稱,并將這些實體進一步合并,對該實體創建標識索引,最終將該實體添加到對應的知識圖譜的過程。

2.2.4 實體說明

實體是指對于從文本中抽取得到的實體對象,將其到知識圖譜中對應的正確實體對象的操作。實體說明如圖2所示。

其指導思想是根據給定三元組的頭(尾)實體和關系,從知識圖譜激活相關文本數據,選出一組候選實體對象,并通過實體預測算法,計算出正確的尾(頭)實體,并將得到的三元組添加到對應的知識圖譜中。

2.3 圖譜應用

知識體系統計是指知識體系中結合具體行業固有類別標簽的分析統計過程。在該過程中,需要依據行業固有的類別和標簽進行主題詞、屬性詞、相關詞、場景詞等產生關聯和上下拓撲關系,從而通過行業固有類別或者標簽,根據知識體系,能通過檢索和識別、拓撲,提取出針對行業有實際經濟效益價值的一系列有效信息。

2.3.1 區域圖譜

區域圖譜指能源企業在地域上的拓撲關系化。本過程需要關聯能源產業鏈的上下游企業關系、能源企業之間的隸屬歸屬關系、能源企業在地域上分布關系等。輸出成果為在全球地圖上呈現不同地域時間的地區分布圖譜。

地域信息統計是指把知識體系中的對象信息按照地域信息進行統計的過程。地域范圍從大到小分別包括世界級、洲際級、國家級、行政區域級、城市級等幾個級別,按地區進行關聯展示。

2.3.2 技術信息統計

針對技術類別的屬性指標、標簽指標,結合能源行業業務知識相關性,按照業務權重形成行業標簽圖譜。圖譜對應標簽可以關聯到企業、產品、技術、文獻、組織等一系列的相關信息。本知識圖譜支持重的上行下鉆動作。

技術信息統計是知識體系依據產品標簽級行業固有類別進行統計的過程。本系統統計的對象為企業,可以通過產品類別、固有行業標簽等信息順利統計出相關聯的企業信息。然后再通過企業信息關聯到企業的其他屬性信息。

2.3.3 趨勢分析統計

趨勢分析圖譜通過對狀態監測、控制系統、回歸分析等一系列指標與新聞、論文、專利等發布時間進行關聯,從而分析不同指標下新聞、論文、專利等的活躍趨勢過程。

趨勢分析統計過程是依據行業相關知識成果體系進行時間范圍統計的過程。統計對象包括新聞、論文、專利等知識成果,統計維度為時間,統計的指標為時間段內的成果數目。

2.4 核心算法介紹

2.4.1 三元組構建算法

基于知識圖譜的問答系統很難直接回答自然文本狀態的問題,所以我們要把問題轉化為一定的問題模板集。確定了候選的問題模板集,然后就可以利用原始問句,從中找到語義最接近的具體模板(通過最小編輯距離)。再對于具體的問題模板,人工設定對應的具體回答方式,就能夠保證回答與問題在語義上的協調性。

2.4.2 關系模型到本體模型映射算法

關系數據模式到本體映射關系的建立,是一類典型的模式匹配問題。所謂模式匹配問題,指的是在不同的數據模式中找出語義相同或相似的元素對,并構造映射關系的一類問題,即建立數據庫表到本體中類的映射以及數據庫表中字段到本體類的屬性的映射。

2.4.3 實體對齊算法

(1)實體消歧。含義:實體消歧的本質在于一個詞有很多可能的意思,也就是在不同的上下文中所表達的含義不太一樣。例子:“蘋果”實體描述,“我的手機是蘋果”和“我喜歡吃蘋果”這兩個句子中的“蘋果”代表的含義是不一樣的。前者代表是手機、后者代表是水果[3]。

(2)共指消歧。共指消歧,又稱指代消解。由于自然語言充滿歧義,必須使用多種信號和知識來消除歧義。需要基于對周圍世界的了解才能明白這些指代,而這種知識很難編碼到計算機中。

2.4.4 實體映射算法-rans系列算法

知識圖譜的表示學習即將知識圖譜構建成一個(頭實體,關系,尾實體)的三元組形式,通過目標函數將實體和關系分別以低維的向量來表示。Trans方法主要有TransE、TransH、TransR、CtransR、TransD、TransA以及TransG等。

3 自然語言處理工具

3.1 可視化工具描述

本系統采用的可視化工具是通過以WPS插件形式,通過提取結構化數據庫數據、本地非結構化的文本文件數據,通過插件面板形式把數據處理中涉及的各個步驟均通過功能按鈕或面板形式呈現給客戶。

3.2 數據編輯輔助工具

WPS文字端工具,包括文本導航目錄(左側面板),為用戶提供結構化的庫表數據和非結構化的本地數據。無論是庫表數據還是本地數據,均可以通過WPS文字端進行呈現和展示,并且允許對呈現的數據進行文本編輯和字段編輯。編輯完成后根據用戶需要把內容信息存儲到原始文件/目標地址中。

本工具還提供了針對語義分析、標簽算法中基礎詞庫的編輯功能。針對圖片、PDF、音頻等功能的自動識別工具。協助用戶對非常規的數據源進行文本處理轉化。

4 結 語

本文闡述了分析系統的數據源情況、數據中臺的核心業務、用戶服務的業務應用對象及數據中臺中涉及的可視化工具。通過打造工業企業的數據中臺服務,并構建符合業務應用的數據和服務支撐,既對大數據采集系統的應用和能力進行驗證,也被智能問答平臺及其他業務系統所驗證。通過此類迭代式相互促進,可大幅度提升工業企業對大數據中臺建設的參與和認知程度,從而使數據中臺的理念、機制和成果更好地服務于工業企業。

猜你喜歡
數據分析數據挖掘
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
我校如何利用體育大課間活動解決男生引體向上這個薄弱環節
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
淺析大數據時代對企業營銷模式的影響
基于讀者到館行為數據分析的高校圖書館服務優化建議
科技視界(2016年22期)2016-10-18 14:37:36
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 亚洲天堂.com| 国产午夜无码专区喷水| 亚洲天堂网视频| 伊人福利视频| 婷婷色丁香综合激情| 久久精品国产亚洲AV忘忧草18| 青青青草国产| 亚洲一级毛片在线观| 精品国产免费人成在线观看| 四虎国产在线观看| 亚洲成人一区二区三区| www精品久久| 日本黄网在线观看| 久久久成年黄色视频| 网友自拍视频精品区| 91在线播放免费不卡无毒| 国产无码精品在线播放| 91口爆吞精国产对白第三集| 一本大道香蕉中文日本不卡高清二区| 免费在线成人网| 国产精品蜜臀| 国产91丝袜在线观看| 国产白浆在线观看| 精品人妻一区无码视频| 日韩在线视频网站| 99人妻碰碰碰久久久久禁片| 麻豆国产精品视频| 亚洲va欧美va国产综合下载| 中文字幕 日韩 欧美| 欧美激情网址| 扒开粉嫩的小缝隙喷白浆视频| 人妻熟妇日韩AV在线播放| 在线观看网站国产| 女人爽到高潮免费视频大全| 亚洲第一视频免费在线| 国产香蕉国产精品偷在线观看| 久久无码av一区二区三区| 99成人在线观看| 色欲国产一区二区日韩欧美| 日韩人妻无码制服丝袜视频| 在线不卡免费视频| 国产一区二区三区夜色| 亚洲男人天堂2018| 亚洲精品高清视频| 亚洲成A人V欧美综合| 久久国产精品麻豆系列| 国产95在线 | 欧美另类一区| 91九色视频网| 亚洲成在线观看| 国产无遮挡猛进猛出免费软件| 成人福利一区二区视频在线| www成人国产在线观看网站| 不卡视频国产| 国产爽爽视频| 无码AV高清毛片中国一级毛片| 91蜜芽尤物福利在线观看| 欧美人在线一区二区三区| 亚洲成年人片| 免费高清自慰一区二区三区| 国产精品永久不卡免费视频| 国产精品亚欧美一区二区| 亚洲欧美激情另类| 波多野结衣中文字幕久久| 国产jizz| 中文字幕欧美日韩高清| 成人一级黄色毛片| 丰满少妇αⅴ无码区| 精品一区二区三区视频免费观看| 四虎永久在线| 天天躁狠狠躁| 欧美日本在线| 精品撒尿视频一区二区三区| 精品人妻无码中字系列| 成人va亚洲va欧美天堂| 国产成人h在线观看网站站| 日韩无码黄色| 国产亚洲精品无码专| 伊人天堂网| 国产成人一级| 午夜影院a级片| 91麻豆精品国产高清在线|