999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

工業(yè)企業(yè)數(shù)據(jù)挖掘和知識(shí)圖譜系統(tǒng)建設(shè)研究

2023-04-05 16:03:38王輝邢偉曹帥陰鵬飛史夢(mèng)瑤
中國(guó)標(biāo)準(zhǔn)化 2023年20期
關(guān)鍵詞:數(shù)據(jù)分析數(shù)據(jù)挖掘

王輝 邢偉 曹帥 陰鵬飛 史夢(mèng)瑤

摘 要:本文介紹了工業(yè)企業(yè)數(shù)據(jù)平臺(tái)分析系統(tǒng)的數(shù)據(jù)挖掘和知識(shí)圖譜相關(guān)知識(shí),分析了數(shù)據(jù)挖掘方面的知識(shí)體系建設(shè)、實(shí)體識(shí)別、相關(guān)的算法和知識(shí)圖譜方面的技術(shù)路線、業(yè)務(wù)建設(shè)、具體應(yīng)用、核心算法,為業(yè)務(wù)應(yīng)用的智能問(wèn)答系統(tǒng)提供了數(shù)據(jù)和服務(wù)支持。

關(guān)鍵詞:工業(yè)企業(yè),數(shù)據(jù)分析,可視化工具,數(shù)據(jù)挖掘,知識(shí)圖譜

DOI編碼:10.3969/j.issn.1002-5944.2023.20.013

0 引 言

數(shù)據(jù)挖掘和知識(shí)圖譜系統(tǒng)是工業(yè)企業(yè)數(shù)據(jù)平臺(tái)的大數(shù)據(jù)中臺(tái)的重要組成部分。它以工業(yè)企業(yè)數(shù)據(jù)平臺(tái)的采集系統(tǒng)的元數(shù)據(jù)為基礎(chǔ)數(shù)據(jù)源,其輸出成果為工業(yè)企業(yè)的智能問(wèn)答系統(tǒng)的業(yè)務(wù)應(yīng)用提供數(shù)據(jù)支撐和服務(wù)支撐,對(duì)數(shù)據(jù)挖掘和知識(shí)圖譜起到承上啟下的作用。下面分別從數(shù)據(jù)挖掘、知識(shí)圖譜和自然語(yǔ)言處理工具三個(gè)方面做論述,希望對(duì)讀者能有一定的借鑒意義。

1 數(shù)據(jù)挖掘

1.1 知識(shí)體系建設(shè)

本平臺(tái)的知識(shí)體系建設(shè)包括平臺(tái)知識(shí)體系和機(jī)構(gòu)知識(shí)體系。

平臺(tái)知識(shí)體系是指針對(duì)工業(yè)企業(yè)的各個(gè)業(yè)務(wù)平臺(tái)創(chuàng)建的指標(biāo)標(biāo)簽體系。包括辦公協(xié)同平臺(tái)、經(jīng)營(yíng)管理平臺(tái)、安全生產(chǎn)平臺(tái)、標(biāo)準(zhǔn)運(yùn)行平臺(tái)、共享服務(wù)平臺(tái)、移動(dòng)支付平臺(tái)等一級(jí)標(biāo)簽。其中辦公協(xié)同平臺(tái)對(duì)應(yīng)有一站式信息平臺(tái)標(biāo)簽、員工自助標(biāo)簽、業(yè)務(wù)云平臺(tái)、工資報(bào)表、自主招聘等二級(jí)標(biāo)簽;安全生產(chǎn)下對(duì)應(yīng)安全生產(chǎn)管理信息平臺(tái)、安全生產(chǎn)OMS、雙預(yù)控;虹膜稽核等二級(jí)標(biāo)簽;經(jīng)營(yíng)管理對(duì)應(yīng)BPC全面預(yù)算、數(shù)據(jù)治理平臺(tái)、電子商務(wù)、合同審計(jì)、招投標(biāo)平臺(tái)等二級(jí)標(biāo)簽[1]。

機(jī)構(gòu)知識(shí)體系主要針對(duì)本平臺(tái)所在的直屬機(jī)構(gòu)創(chuàng)建的指標(biāo)標(biāo)簽體系。包括機(jī)關(guān)部室、共享中心、各級(jí)業(yè)務(wù)部門(mén)、客戶、供應(yīng)商等一級(jí)標(biāo)簽。

1.2 實(shí)體識(shí)別

實(shí)體識(shí)別的技術(shù)路線是通過(guò)構(gòu)建結(jié)合數(shù)據(jù)主動(dòng)命名實(shí)體識(shí)別系統(tǒng),準(zhǔn)備訓(xùn)練命名實(shí)體識(shí)別模型所需要的數(shù)據(jù)集,主動(dòng)學(xué)習(xí)模塊、數(shù)據(jù)標(biāo)注模塊、數(shù)據(jù)增強(qiáng)模塊采用順序化循環(huán)的方式對(duì)實(shí)體識(shí)別模塊中的命名實(shí)體識(shí)別模型繼續(xù)訓(xùn)練并對(duì)數(shù)據(jù)進(jìn)行標(biāo)注和增強(qiáng)。訓(xùn)練后的命名實(shí)體識(shí)別模塊對(duì)各個(gè)數(shù)據(jù)源的文本進(jìn)行命名實(shí)體識(shí)別的過(guò)程。本章重點(diǎn)對(duì)部門(mén)識(shí)別樣本、人員識(shí)別樣本、標(biāo)準(zhǔn)識(shí)別樣本來(lái)闡述實(shí)體識(shí)別的過(guò)程。

1.2.1 組織識(shí)別樣本

業(yè)務(wù)組織部門(mén)識(shí)別樣本是利用實(shí)體識(shí)別技術(shù)路線對(duì)業(yè)務(wù)組織部門(mén)信息識(shí)別的具體應(yīng)用。業(yè)務(wù)組織部門(mén)識(shí)別體系包括業(yè)務(wù)組織部門(mén)詞典數(shù)據(jù)集、業(yè)務(wù)組織部門(mén)關(guān)聯(lián)數(shù)據(jù)集、業(yè)務(wù)組織部門(mén)屬性集、測(cè)試數(shù)據(jù)源、業(yè)務(wù)組織部門(mén)主題詞識(shí)別模塊、業(yè)務(wù)組織部門(mén)數(shù)據(jù)標(biāo)注模塊、業(yè)務(wù)組織部門(mén)實(shí)體識(shí)別模塊,業(yè)務(wù)組織部門(mén)實(shí)體增強(qiáng)模塊、業(yè)務(wù)組織部門(mén)屬性關(guān)聯(lián)模塊等組成。

具體實(shí)現(xiàn)過(guò)程:利用業(yè)務(wù)組織部門(mén)主題詞識(shí)別模塊,從數(shù)據(jù)源中提取與業(yè)務(wù)組織部門(mén)相關(guān)的主題詞;通過(guò)業(yè)務(wù)組織部門(mén)增強(qiáng)模塊和實(shí)體識(shí)別模塊在詞典數(shù)據(jù)集、關(guān)聯(lián)數(shù)據(jù)集、屬性集對(duì)識(shí)別到的信息進(jìn)一步加強(qiáng)和規(guī)范化;通過(guò)業(yè)務(wù)組織部門(mén)數(shù)據(jù)標(biāo)注模塊對(duì)被監(jiān)測(cè)數(shù)據(jù)源進(jìn)行實(shí)體標(biāo)簽標(biāo)注,并建立索引;根據(jù)檢測(cè)結(jié)果和基礎(chǔ)數(shù)據(jù)集進(jìn)行反饋和補(bǔ)充,進(jìn)一步完善業(yè)務(wù)組織部門(mén)基礎(chǔ)數(shù)據(jù)的過(guò)程。

針對(duì)不同的測(cè)試樣本進(jìn)行往復(fù)循環(huán)的過(guò)程成為業(yè)務(wù)組織部門(mén)識(shí)別算法的訓(xùn)練和完善的過(guò)程。

1.2.2 人員識(shí)別樣本

人員識(shí)別樣本是利用人名識(shí)別技術(shù)路線對(duì)不同數(shù)據(jù)源進(jìn)行行業(yè)人員的識(shí)別過(guò)程。人員識(shí)別體系由行業(yè)人員基礎(chǔ)數(shù)據(jù)集、人員屬性數(shù)據(jù)集、測(cè)試數(shù)據(jù)源、基礎(chǔ)人名識(shí)別模塊、人員數(shù)據(jù)標(biāo)注模塊、人員屬性實(shí)體識(shí)別模塊,人員實(shí)體增強(qiáng)模塊、人員屬性關(guān)聯(lián)模塊等組成。

具體實(shí)現(xiàn)過(guò)程:利用基礎(chǔ)人名識(shí)別模塊從數(shù)據(jù)源中提取出疑似人名的清單;通過(guò)人名停用詞進(jìn)行疑似人名的清洗。接下來(lái)通過(guò)疑似人名與人員實(shí)體庫(kù)進(jìn)行匹配,滿足條件詞匯,根據(jù)人員屬性實(shí)體識(shí)別模塊和人員實(shí)體增強(qiáng)模塊給疑似人名創(chuàng)建人員實(shí)體對(duì)象。通過(guò)被檢數(shù)據(jù)源中匹配對(duì)應(yīng)的屬性信息,對(duì)人員實(shí)體對(duì)象進(jìn)一步規(guī)范化;通過(guò)人員數(shù)據(jù)標(biāo)注模塊對(duì)人員信息和被監(jiān)測(cè)數(shù)據(jù)源進(jìn)行實(shí)體標(biāo)簽標(biāo)注,并建立索引;經(jīng)過(guò)人工審核后把新識(shí)別的人員基礎(chǔ)數(shù)據(jù)對(duì)基礎(chǔ)數(shù)據(jù)集進(jìn)行反饋和補(bǔ)充。

針對(duì)不同的測(cè)試樣本進(jìn)行往復(fù)循環(huán)的過(guò)程成為識(shí)別算法的訓(xùn)練和完善的過(guò)程。

1.2.3 標(biāo)準(zhǔn)識(shí)別樣本

標(biāo)準(zhǔn)識(shí)別樣本是利用上下游標(biāo)準(zhǔn)固有類(lèi)別數(shù)據(jù)集為基礎(chǔ),從不同數(shù)據(jù)源進(jìn)行標(biāo)準(zhǔn)信息提取、識(shí)別和融合的過(guò)程。專(zhuān)家識(shí)別體系包括行業(yè)標(biāo)準(zhǔn)基礎(chǔ)數(shù)據(jù)集、行業(yè)企業(yè)基礎(chǔ)數(shù)據(jù)集、標(biāo)準(zhǔn)屬性數(shù)據(jù)集、測(cè)試數(shù)據(jù)源、標(biāo)準(zhǔn)主題詞識(shí)別模塊、標(biāo)準(zhǔn)數(shù)據(jù)標(biāo)注模塊、標(biāo)準(zhǔn)屬性實(shí)體識(shí)別模塊,標(biāo)準(zhǔn)實(shí)體增強(qiáng)模塊、標(biāo)準(zhǔn)屬性關(guān)聯(lián)模塊等組成。

針對(duì)不同的測(cè)試樣本進(jìn)行往復(fù)循環(huán)的過(guò)程成為標(biāo)準(zhǔn)識(shí)別算法的訓(xùn)練和完善的過(guò)程。

1.2.4 其它實(shí)體識(shí)別樣本

其它實(shí)體還包括辦公協(xié)同實(shí)體識(shí)別、經(jīng)營(yíng)管理實(shí)體識(shí)別、安全生產(chǎn)實(shí)體識(shí)別、共享服務(wù)實(shí)體識(shí)別、移動(dòng)支付實(shí)體識(shí)別、機(jī)關(guān)部室實(shí)體識(shí)別等內(nèi)容。在此不再贅述。

1.3 算法介紹

1.3.1 分詞、詞性標(biāo)注和關(guān)鍵詞抽取算法

(1)分詞算法。分詞主要是基于統(tǒng)計(jì)詞典,構(gòu)造一個(gè)前綴詞典;然后利用前綴詞典對(duì)輸入句子進(jìn)行切分,得到所有的切分可能,根據(jù)切分位置,構(gòu)造一個(gè)有向無(wú)環(huán)圖;通過(guò)動(dòng)態(tài)規(guī)劃算法,計(jì)算得到最大概率路徑,也就得到了最終的切分形式。

(2)詞性標(biāo)注算法。分詞的詞性標(biāo)注過(guò)程非常類(lèi)似于分詞流程,同時(shí)進(jìn)行分詞和詞性標(biāo)注。

(3)關(guān)鍵詞抽取算法。分詞系統(tǒng)中實(shí)現(xiàn)了兩種關(guān)鍵詞抽取算法,分別是基于TF-IDF關(guān)鍵詞抽取算法和基于TextRank關(guān)鍵詞抽取算法,兩類(lèi)算法均是無(wú)監(jiān)督學(xué)習(xí)的算法。

(4)HMM模型。由于處理的文本大部分為中文文本,基于漢字成詞能力的HMM模型識(shí)別特別適合本平臺(tái)的業(yè)務(wù)場(chǎng)景。利用HMM模型進(jìn)行分詞,主要是將分詞問(wèn)題視為一個(gè)序列標(biāo)注(sequencelabeling)問(wèn)題。其中,句子為觀測(cè)序列,分詞結(jié)果為狀態(tài)序列。首先通過(guò)語(yǔ)料訓(xùn)練出HMM相關(guān)的模型,然后利用Viterbi算法進(jìn)行求解,最終得到最優(yōu)的狀態(tài)序列,然后再根據(jù)狀態(tài)序列,輸出分詞結(jié)果。

1.3.2 貝葉斯算法

貝葉斯分類(lèi)算法是統(tǒng)計(jì)學(xué)的一種分類(lèi)方法,它是一類(lèi)利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類(lèi)的算法。該算法能運(yùn)用到大型數(shù)據(jù)庫(kù)中,而且方法簡(jiǎn)單、分類(lèi)準(zhǔn)確率高、速度快。

由于貝葉斯定理假設(shè)一個(gè)屬性值對(duì)給定類(lèi)的影響?yīng)毩⒂谄渌鼘傩缘闹担思僭O(shè)在實(shí)際情況中經(jīng)常是不成立的,因此其分類(lèi)準(zhǔn)確率可能會(huì)下降。為此,就衍生出許多降低獨(dú)立性假設(shè)的貝葉斯分類(lèi)算法,如TAN(tree augmented Bayes network)算法。

2 知識(shí)圖譜

2.1 技術(shù)路線

知識(shí)圖譜基于語(yǔ)義解析的問(wèn)答技術(shù),是一種管道式的方法。首先需要對(duì)用戶的查詢問(wèn)句進(jìn)行語(yǔ)義解析,獲取查詢對(duì)象、對(duì)象約束與用戶意圖,而后根據(jù)查詢對(duì)象、約束之間的關(guān)聯(lián)關(guān)系形成查詢圖,最后使用查詢圖與知識(shí)圖譜進(jìn)行匹配和推理,獲取并推送給用戶所需要的知識(shí)。

其中涉及的關(guān)鍵技術(shù)有:命名實(shí)體識(shí)別(用于獲取查詢對(duì)象以及約束對(duì)象的字符串表達(dá))、實(shí)體鏈接、語(yǔ)義解析、圖匹配算法(用于將查詢圖與知識(shí)圖譜進(jìn)行匹配,獲取最終答案實(shí)體)、文本生成算法(以答案實(shí)體、知識(shí)圖譜與用戶問(wèn)句作為條件,生成易于理解的文本返回給用戶)[2]。

2.2 業(yè)務(wù)建設(shè)

針對(duì)多數(shù)據(jù)源的融合應(yīng)用,構(gòu)建基于多數(shù)據(jù)源的知識(shí)圖譜。首先,對(duì)不同來(lái)源的數(shù)據(jù)構(gòu)建相應(yīng)的本地庫(kù),并將不同的本地庫(kù)通過(guò)數(shù)據(jù)融合映射到全局本地庫(kù)。然后,利用實(shí)體對(duì)齊和實(shí)體方法進(jìn)行知識(shí)獲取和融合。最后搭建知識(shí)圖譜應(yīng)用平臺(tái),提供查詢和統(tǒng)計(jì)等操作。

2.2.1 知識(shí)圖譜構(gòu)建過(guò)程

知識(shí)圖譜的構(gòu)建分為兩步:知識(shí)圖譜本體層構(gòu)建和實(shí)體層的學(xué)習(xí)。其中,本體層構(gòu)建包括主題詞抽取、同義詞抽取、概念抽取、分類(lèi)關(guān)系抽取、公理和規(guī)則學(xué)習(xí);實(shí)體層學(xué)習(xí)包括實(shí)體學(xué)習(xí)、實(shí)體數(shù)據(jù)填充、實(shí)體對(duì)齊和實(shí)體等。

知識(shí)圖譜的構(gòu)建方法包括自上向下和自底向上兩種。自上向下的方法指先構(gòu)建知識(shí)圖譜的本體,即從煤炭行業(yè)領(lǐng)域、煤炭行業(yè)詞典及其它高質(zhì)量的數(shù)據(jù)源中,提取本體和模式信息,添加到知識(shí)庫(kù)中;自底向上方法指從實(shí)體層開(kāi)始,借助一定的技術(shù)手段,對(duì)實(shí)體進(jìn)展歸納組織,實(shí)體對(duì)齊和實(shí)體等,并提取出具有較高執(zhí)行度的新模式,經(jīng)人工審核后,補(bǔ)充到知識(shí)圖譜中。

2.2.2 多數(shù)據(jù)源融合的知識(shí)圖譜構(gòu)建

為實(shí)現(xiàn)各類(lèi)知識(shí)圖譜服務(wù)支撐的快速查詢,本平臺(tái)在融合多種數(shù)據(jù)源的情況下,構(gòu)建了多數(shù)據(jù)源的知識(shí)圖譜。首先對(duì)不同實(shí)體構(gòu)建不同領(lǐng)域的本地庫(kù),然后將不同領(lǐng)域經(jīng)過(guò)映射成全局本地庫(kù),接著對(duì)各領(lǐng)域的知識(shí)庫(kù)實(shí)施實(shí)體對(duì)齊過(guò)程和實(shí)體過(guò)程,豐富和擴(kuò)展構(gòu)造多數(shù)據(jù)融合的知識(shí)圖譜。

2.2.3 實(shí)體對(duì)齊

實(shí)體對(duì)齊,也稱實(shí)體匹配或?qū)嶓w解析,是對(duì)相同或者不同數(shù)據(jù)集中兩個(gè)實(shí)體是否指向真實(shí)世界同一對(duì)象的過(guò)程。實(shí)體對(duì)齊如圖1所示。

本系統(tǒng)通過(guò)實(shí)體對(duì)齊,發(fā)現(xiàn)在不同知識(shí)庫(kù)中的實(shí)體名稱,并將這些實(shí)體進(jìn)一步合并,對(duì)該實(shí)體創(chuàng)建標(biāo)識(shí)索引,最終將該實(shí)體添加到對(duì)應(yīng)的知識(shí)圖譜的過(guò)程。

2.2.4 實(shí)體說(shuō)明

實(shí)體是指對(duì)于從文本中抽取得到的實(shí)體對(duì)象,將其到知識(shí)圖譜中對(duì)應(yīng)的正確實(shí)體對(duì)象的操作。實(shí)體說(shuō)明如圖2所示。

其指導(dǎo)思想是根據(jù)給定三元組的頭(尾)實(shí)體和關(guān)系,從知識(shí)圖譜激活相關(guān)文本數(shù)據(jù),選出一組候選實(shí)體對(duì)象,并通過(guò)實(shí)體預(yù)測(cè)算法,計(jì)算出正確的尾(頭)實(shí)體,并將得到的三元組添加到對(duì)應(yīng)的知識(shí)圖譜中。

2.3 圖譜應(yīng)用

知識(shí)體系統(tǒng)計(jì)是指知識(shí)體系中結(jié)合具體行業(yè)固有類(lèi)別標(biāo)簽的分析統(tǒng)計(jì)過(guò)程。在該過(guò)程中,需要依據(jù)行業(yè)固有的類(lèi)別和標(biāo)簽進(jìn)行主題詞、屬性詞、相關(guān)詞、場(chǎng)景詞等產(chǎn)生關(guān)聯(lián)和上下拓?fù)潢P(guān)系,從而通過(guò)行業(yè)固有類(lèi)別或者標(biāo)簽,根據(jù)知識(shí)體系,能通過(guò)檢索和識(shí)別、拓?fù)洌崛〕鲠槍?duì)行業(yè)有實(shí)際經(jīng)濟(jì)效益價(jià)值的一系列有效信息。

2.3.1 區(qū)域圖譜

區(qū)域圖譜指能源企業(yè)在地域上的拓?fù)潢P(guān)系化。本過(guò)程需要關(guān)聯(lián)能源產(chǎn)業(yè)鏈的上下游企業(yè)關(guān)系、能源企業(yè)之間的隸屬歸屬關(guān)系、能源企業(yè)在地域上分布關(guān)系等。輸出成果為在全球地圖上呈現(xiàn)不同地域時(shí)間的地區(qū)分布圖譜。

地域信息統(tǒng)計(jì)是指把知識(shí)體系中的對(duì)象信息按照地域信息進(jìn)行統(tǒng)計(jì)的過(guò)程。地域范圍從大到小分別包括世界級(jí)、洲際級(jí)、國(guó)家級(jí)、行政區(qū)域級(jí)、城市級(jí)等幾個(gè)級(jí)別,按地區(qū)進(jìn)行關(guān)聯(lián)展示。

2.3.2 技術(shù)信息統(tǒng)計(jì)

針對(duì)技術(shù)類(lèi)別的屬性指標(biāo)、標(biāo)簽指標(biāo),結(jié)合能源行業(yè)業(yè)務(wù)知識(shí)相關(guān)性,按照業(yè)務(wù)權(quán)重形成行業(yè)標(biāo)簽圖譜。圖譜對(duì)應(yīng)標(biāo)簽可以關(guān)聯(lián)到企業(yè)、產(chǎn)品、技術(shù)、文獻(xiàn)、組織等一系列的相關(guān)信息。本知識(shí)圖譜支持重的上行下鉆動(dòng)作。

技術(shù)信息統(tǒng)計(jì)是知識(shí)體系依據(jù)產(chǎn)品標(biāo)簽級(jí)行業(yè)固有類(lèi)別進(jìn)行統(tǒng)計(jì)的過(guò)程。本系統(tǒng)統(tǒng)計(jì)的對(duì)象為企業(yè),可以通過(guò)產(chǎn)品類(lèi)別、固有行業(yè)標(biāo)簽等信息順利統(tǒng)計(jì)出相關(guān)聯(lián)的企業(yè)信息。然后再通過(guò)企業(yè)信息關(guān)聯(lián)到企業(yè)的其他屬性信息。

2.3.3 趨勢(shì)分析統(tǒng)計(jì)

趨勢(shì)分析圖譜通過(guò)對(duì)狀態(tài)監(jiān)測(cè)、控制系統(tǒng)、回歸分析等一系列指標(biāo)與新聞、論文、專(zhuān)利等發(fā)布時(shí)間進(jìn)行關(guān)聯(lián),從而分析不同指標(biāo)下新聞、論文、專(zhuān)利等的活躍趨勢(shì)過(guò)程。

趨勢(shì)分析統(tǒng)計(jì)過(guò)程是依據(jù)行業(yè)相關(guān)知識(shí)成果體系進(jìn)行時(shí)間范圍統(tǒng)計(jì)的過(guò)程。統(tǒng)計(jì)對(duì)象包括新聞、論文、專(zhuān)利等知識(shí)成果,統(tǒng)計(jì)維度為時(shí)間,統(tǒng)計(jì)的指標(biāo)為時(shí)間段內(nèi)的成果數(shù)目。

2.4 核心算法介紹

2.4.1 三元組構(gòu)建算法

基于知識(shí)圖譜的問(wèn)答系統(tǒng)很難直接回答自然文本狀態(tài)的問(wèn)題,所以我們要把問(wèn)題轉(zhuǎn)化為一定的問(wèn)題模板集。確定了候選的問(wèn)題模板集,然后就可以利用原始問(wèn)句,從中找到語(yǔ)義最接近的具體模板(通過(guò)最小編輯距離)。再對(duì)于具體的問(wèn)題模板,人工設(shè)定對(duì)應(yīng)的具體回答方式,就能夠保證回答與問(wèn)題在語(yǔ)義上的協(xié)調(diào)性。

2.4.2 關(guān)系模型到本體模型映射算法

關(guān)系數(shù)據(jù)模式到本體映射關(guān)系的建立,是一類(lèi)典型的模式匹配問(wèn)題。所謂模式匹配問(wèn)題,指的是在不同的數(shù)據(jù)模式中找出語(yǔ)義相同或相似的元素對(duì),并構(gòu)造映射關(guān)系的一類(lèi)問(wèn)題,即建立數(shù)據(jù)庫(kù)表到本體中類(lèi)的映射以及數(shù)據(jù)庫(kù)表中字段到本體類(lèi)的屬性的映射。

2.4.3 實(shí)體對(duì)齊算法

(1)實(shí)體消歧。含義:實(shí)體消歧的本質(zhì)在于一個(gè)詞有很多可能的意思,也就是在不同的上下文中所表達(dá)的含義不太一樣。例子:“蘋(píng)果”實(shí)體描述,“我的手機(jī)是蘋(píng)果”和“我喜歡吃蘋(píng)果”這兩個(gè)句子中的“蘋(píng)果”代表的含義是不一樣的。前者代表是手機(jī)、后者代表是水果[3]。

(2)共指消歧。共指消歧,又稱指代消解。由于自然語(yǔ)言充滿歧義,必須使用多種信號(hào)和知識(shí)來(lái)消除歧義。需要基于對(duì)周?chē)澜绲牧私獠拍苊靼走@些指代,而這種知識(shí)很難編碼到計(jì)算機(jī)中。

2.4.4 實(shí)體映射算法-rans系列算法

知識(shí)圖譜的表示學(xué)習(xí)即將知識(shí)圖譜構(gòu)建成一個(gè)(頭實(shí)體,關(guān)系,尾實(shí)體)的三元組形式,通過(guò)目標(biāo)函數(shù)將實(shí)體和關(guān)系分別以低維的向量來(lái)表示。Trans方法主要有TransE、TransH、TransR、CtransR、TransD、TransA以及TransG等。

3 自然語(yǔ)言處理工具

3.1 可視化工具描述

本系統(tǒng)采用的可視化工具是通過(guò)以WPS插件形式,通過(guò)提取結(jié)構(gòu)化數(shù)據(jù)庫(kù)數(shù)據(jù)、本地非結(jié)構(gòu)化的文本文件數(shù)據(jù),通過(guò)插件面板形式把數(shù)據(jù)處理中涉及的各個(gè)步驟均通過(guò)功能按鈕或面板形式呈現(xiàn)給客戶。

3.2 數(shù)據(jù)編輯輔助工具

WPS文字端工具,包括文本導(dǎo)航目錄(左側(cè)面板),為用戶提供結(jié)構(gòu)化的庫(kù)表數(shù)據(jù)和非結(jié)構(gòu)化的本地?cái)?shù)據(jù)。無(wú)論是庫(kù)表數(shù)據(jù)還是本地?cái)?shù)據(jù),均可以通過(guò)WPS文字端進(jìn)行呈現(xiàn)和展示,并且允許對(duì)呈現(xiàn)的數(shù)據(jù)進(jìn)行文本編輯和字段編輯。編輯完成后根據(jù)用戶需要把內(nèi)容信息存儲(chǔ)到原始文件/目標(biāo)地址中。

本工具還提供了針對(duì)語(yǔ)義分析、標(biāo)簽算法中基礎(chǔ)詞庫(kù)的編輯功能。針對(duì)圖片、PDF、音頻等功能的自動(dòng)識(shí)別工具。協(xié)助用戶對(duì)非常規(guī)的數(shù)據(jù)源進(jìn)行文本處理轉(zhuǎn)化。

4 結(jié) 語(yǔ)

本文闡述了分析系統(tǒng)的數(shù)據(jù)源情況、數(shù)據(jù)中臺(tái)的核心業(yè)務(wù)、用戶服務(wù)的業(yè)務(wù)應(yīng)用對(duì)象及數(shù)據(jù)中臺(tái)中涉及的可視化工具。通過(guò)打造工業(yè)企業(yè)的數(shù)據(jù)中臺(tái)服務(wù),并構(gòu)建符合業(yè)務(wù)應(yīng)用的數(shù)據(jù)和服務(wù)支撐,既對(duì)大數(shù)據(jù)采集系統(tǒng)的應(yīng)用和能力進(jìn)行驗(yàn)證,也被智能問(wèn)答平臺(tái)及其他業(yè)務(wù)系統(tǒng)所驗(yàn)證。通過(guò)此類(lèi)迭代式相互促進(jìn),可大幅度提升工業(yè)企業(yè)對(duì)大數(shù)據(jù)中臺(tái)建設(shè)的參與和認(rèn)知程度,從而使數(shù)據(jù)中臺(tái)的理念、機(jī)制和成果更好地服務(wù)于工業(yè)企業(yè)。

猜你喜歡
數(shù)據(jù)分析數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
我校如何利用體育大課間活動(dòng)解決男生引體向上這個(gè)薄弱環(huán)節(jié)
Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
淺析大數(shù)據(jù)時(shí)代背景下的市場(chǎng)營(yíng)銷(xiāo)策略
新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營(yíng)銷(xiāo)模式的影響
基于讀者到館行為數(shù)據(jù)分析的高校圖書(shū)館服務(wù)優(yōu)化建議
科技視界(2016年22期)2016-10-18 14:37:36
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 国产视频一二三区| 国产另类乱子伦精品免费女| 秘书高跟黑色丝袜国产91在线| 亚洲IV视频免费在线光看| 无码又爽又刺激的高潮视频| 国产产在线精品亚洲aavv| 国产中文一区二区苍井空| 亚洲综合婷婷激情| 91亚洲精选| 色天堂无毒不卡| 国产丝袜一区二区三区视频免下载| 专干老肥熟女视频网站| 亚洲国产精品人久久电影| 精品色综合| 国产成人8x视频一区二区| 亚洲精品欧美日韩在线| 青青草一区| 国产成人欧美| 亚洲三级a| 热这里只有精品国产热门精品| 国禁国产you女视频网站| 国产又黄又硬又粗| 91极品美女高潮叫床在线观看| 日韩精品毛片人妻AV不卡| 免费高清a毛片| 国产欧美视频综合二区| 天堂网亚洲系列亚洲系列| 日韩AV无码免费一二三区| 尤物视频一区| 国产精品视屏| 国产青榴视频| 亚洲色图欧美在线| 亚洲精品777| 国产视频只有无码精品| 免费一级大毛片a一观看不卡 | 国产精品白浆无码流出在线看| 天堂av综合网| 无码内射在线| 亚洲美女久久| 一本一本大道香蕉久在线播放| 福利视频久久| 欧美一区二区福利视频| 大学生久久香蕉国产线观看| 无码免费试看| 国产欧美又粗又猛又爽老| 欧美笫一页| 欧美精品1区2区| AV不卡国产在线观看| 手机精品福利在线观看| 91免费国产高清观看| 免费毛片视频| 狠狠躁天天躁夜夜躁婷婷| 一级不卡毛片| 国产99在线| 欧美一区日韩一区中文字幕页| 99在线免费播放| 激情无码视频在线看| 小蝌蚪亚洲精品国产| 波多野结衣视频网站| 久一在线视频| 国产另类视频| 午夜电影在线观看国产1区| 久草视频精品| 亚洲第一av网站| 91久久精品国产| 亚洲综合专区| 国模极品一区二区三区| 丁香婷婷综合激情| 青草91视频免费观看| 特级毛片8级毛片免费观看| 国产成人精品一区二区| 在线观看免费国产| 国产91在线免费视频| 99re精彩视频| 久久综合丝袜长腿丝袜| 亚洲中文字幕久久精品无码一区 | 国产精品密蕾丝视频| 青青久久91| 秘书高跟黑色丝袜国产91在线| 国产成人综合网| 99久久免费精品特色大片| 久久久精品久久久久三级|