999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

云制造資源文本信息的特征提取與關(guān)聯(lián)分析方法

2020-10-10 01:02:16王珊珊高新勤魏鋒濤
制造業(yè)自動(dòng)化 2020年9期
關(guān)鍵詞:關(guān)聯(lián)文本資源

王珊珊,高新勤,張 輝,魏鋒濤

(西安理工大學(xué) 機(jī)械與精密儀器工程學(xué)院,西安 710048)

0 引言

隨著云計(jì)算、物聯(lián)網(wǎng)等新興技術(shù)的不斷發(fā)展,一種面向服務(wù)的網(wǎng)絡(luò)化制造新模式—云制造應(yīng)運(yùn)而生[1]。在云制造模式下,制造企業(yè)通過(guò)云平臺(tái),形成一個(gè)覆蓋面極廣的網(wǎng)絡(luò)資源服務(wù)體系[2]。云制造資源是云平臺(tái)管理的主要對(duì)象,是用于產(chǎn)品制造全生命周期中的各種要素,包括硬資源、軟資源、計(jì)算資源和人力資源等[3]。資源提供方將這些閑置的制造資源上傳到云平臺(tái),供資源需求方搜索選擇。由于云制造資源量大類多,具有分布性、多樣性、異構(gòu)性等特點(diǎn),若不對(duì)云制造資源信息進(jìn)行任何預(yù)處理,會(huì)造成存儲(chǔ)空間龐大、查詢效率低下、與用戶期望不匹配等問(wèn)題[4,5]。因此,如何對(duì)云制造資源信息進(jìn)行統(tǒng)一化描述,已經(jīng)成為云制造模式落地應(yīng)用的關(guān)鍵問(wèn)題[6,7]。

目前,關(guān)于云制造資源信息主要有基于語(yǔ)義、基于本體以及基于資源屬性的描述方法等。湯華茂等構(gòu)造了制造資源的分布式語(yǔ)義描述模型,在信息表示的更高層次實(shí)現(xiàn)了制造資源粒子的虛擬化描述[8]。汪衛(wèi)星將制造資源描述問(wèn)題轉(zhuǎn)化為Web語(yǔ)義描述問(wèn)題,提出了一種通用的制造資源描述框架[9]。陳友玲等針對(duì)云制造環(huán)境下資源難以統(tǒng)一描述、資源云池內(nèi)可用資源更新滯后等問(wèn)題,提出了一種顯形表達(dá)資源動(dòng)態(tài)變化的層次環(huán)境視頻語(yǔ)義模型[10]。李孝斌等研究了元數(shù)據(jù)本體表示方法,構(gòu)建了一種基于語(yǔ)義服務(wù)建模本體的機(jī)床裝備資源描述框架[11]。許峰等提出了一種基于云制造平臺(tái)的“框架建立—框架獲取—資源描述”三階段的資源語(yǔ)義描述,建立了資源服務(wù)與服務(wù)請(qǐng)求的本體描述模型[12]。程臻等提出了基于本體的資源描述及虛擬化方法,建立了制造資源本體模型[13]。高新勤等建立了云模式下加工設(shè)備的制造屬性描述模型,提出了基于相似度的加工設(shè)備云服務(wù)聚類方法[14]。周際鋒等以制造軟件資源為研究對(duì)象,在面向服務(wù)的構(gòu)架下,建立了軟件資源屬性的描述模型[15]。耿超等將云制造資源描述模型通過(guò)映射函數(shù)轉(zhuǎn)化成文本信息處理中的形式化模型,提出了一種基于文本信息處理的云制造資源發(fā)現(xiàn)方法[16]。Hao等考慮了服務(wù)的演化特性,通過(guò)添加服務(wù)組合,提出了一種面向時(shí)間的可重構(gòu)服務(wù)描述方法(T-TRSD)[17]。

已有研究對(duì)云制造資源信息的描述、存儲(chǔ)、查找等進(jìn)行了探索,但大多數(shù)以字段的形式將云制造資源信息存儲(chǔ)于數(shù)據(jù)庫(kù)中,對(duì)以文本形式存在的云制造資源信息的描述涉及較少。實(shí)際上,以段落文本形式存在的資源信息在云制造模式中占有很大比例。本文提出一種針對(duì)云制造資源文本信息的特征提取和關(guān)聯(lián)分析方法,為實(shí)現(xiàn)云平臺(tái)上云制造資源的供需準(zhǔn)確匹配提供支持。

1 特征提取和關(guān)聯(lián)分析方法

在云制造模式下,不同制造企業(yè)在共享資源、尋找服務(wù)的過(guò)程中,會(huì)產(chǎn)生大量紛繁復(fù)雜的信息,以段落文本存在的云制造資源描述信息就是其中之一。為了滿足用戶的使用需求,準(zhǔn)確地對(duì)文本類資源信息進(jìn)行描述,并根據(jù)存儲(chǔ)索引實(shí)現(xiàn)快速查找與匹配,云平臺(tái)服務(wù)方需要預(yù)先對(duì)上傳的云制造資源文本信息進(jìn)行處理,獲取其以關(guān)鍵字為代表的關(guān)鍵特征和不同資源信息之間的共性聯(lián)系,建立關(guān)聯(lián)規(guī)則。

圖1所示為針對(duì)云制造資源文本信息提出的預(yù)處理方法,即特征提取和關(guān)聯(lián)分析方法。該方法主要包括兩大步驟,第一步是以各個(gè)云制造資源描述文本為輸入,采用TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆向文本頻率)算法,獲取它們的關(guān)鍵字,并計(jì)算權(quán)重值。第二步是對(duì)各個(gè)云制造資源描述文本進(jìn)行關(guān)聯(lián)分析,采用基于Apriori算法改進(jìn)的FPgrowth(Frequent Pattern,頻繁模式)算法,對(duì)不同云制造資源描述文本之間的關(guān)聯(lián)關(guān)系進(jìn)行分析,獲得關(guān)聯(lián)規(guī)則,為后續(xù)建立云制造資源文本信息的存儲(chǔ)索引以及實(shí)現(xiàn)云平臺(tái)上云制造資源的供需準(zhǔn)確匹配奠定基礎(chǔ)。

圖1 云制造資源本文信息的特征提取和關(guān)聯(lián)分析方法

2 制造資源配置評(píng)價(jià)函數(shù)構(gòu)造

在云制造模式下,以段落文本存在的云制造資源描述信息通常都比較冗長(zhǎng),如果不對(duì)其關(guān)鍵字等特征信息進(jìn)行提取而隨意存儲(chǔ),勢(shì)必造成存儲(chǔ)空間龐大且雜亂無(wú)序,影響云制造資源供需匹配的效率和準(zhǔn)確性。本文以各個(gè)云制造資源描述文本為輸入,采用TF-IDF算法,獲取關(guān)鍵字,并計(jì)算其權(quán)重值。

TF-IDF是一種信息檢索與文本挖掘的統(tǒng)計(jì)方法和加權(quán)技術(shù),用以評(píng)估一個(gè)詞條對(duì)于一個(gè)文本集或一個(gè)語(yǔ)料庫(kù)中的其中一份文本的重要程度[18]。詞條的重要性隨著它在文本中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。

在第j個(gè)云制造資源描述文本dj中,詞頻(Term Frequency,TF)是第i個(gè)詞條ti在描述文本dj中出現(xiàn)的頻率,用tfi,j表示,計(jì)算公式為:

式中:ni,j為詞條ti在描述文本dj中出現(xiàn)的次數(shù);∑knk,j為描述文本dj中所有詞條出現(xiàn)的次數(shù)總和。

逆向文本頻率(Inverse Document Frequency,IDF)是衡量詞條ti是否為常用詞的權(quán)重調(diào)整參數(shù),表達(dá)詞條的類別區(qū)分能力,用idfi表示,計(jì)算公式為:

式中:|D|為一個(gè)語(yǔ)料庫(kù)中文本的總數(shù);|{j|ti∈dj}|為包含詞條ti的文本數(shù)量。

如果某一云制造資源描述文本中的高頻詞條,在所有云制造資源描述文本中呈現(xiàn)低頻率,那么該詞條可以產(chǎn)生出高權(quán)重的TF-IDF。TF-IDF旨在濾除區(qū)分度低的高頻常見(jiàn)詞,保留區(qū)分度高的低頻詞,用tfi,j表示,計(jì)算公式為。

采用TF-IDF算法對(duì)云制造資源文本信息提取關(guān)鍵詞、計(jì)算權(quán)重值的流程如圖2所示。基于已知語(yǔ)料庫(kù)和結(jié)巴分詞工具[19],對(duì)云制造資源文本信息進(jìn)行分詞處理。在此基礎(chǔ)上,執(zhí)行TF-IDF算法,獲取云制造資源文本信息的關(guān)鍵字及權(quán)重值,主要步驟如下:

Step 1:文本預(yù)處理:利用結(jié)巴分詞工具對(duì)文本信息進(jìn)行分詞;

Step 2:權(quán)重值計(jì)算:計(jì)算詞頻(tfi,j)、逆向文本頻率(idfi)以及權(quán)重值(tfidfi,j);

Step 3:提取關(guān)鍵詞:濾除常用詞,獲得有效關(guān)鍵詞;

Step 4:關(guān)鍵詞輸出:按照權(quán)重值排序,輸出關(guān)鍵字及其對(duì)應(yīng)的權(quán)重值。

圖2 云制造資源文本信息關(guān)鍵詞獲取及權(quán)重值計(jì)算流程

3 文本信息的關(guān)聯(lián)規(guī)則構(gòu)建

云模式下的制造資源由不同的制造企業(yè)提供,但它們不是孤立的,相互之間存在著千絲萬(wàn)縷的關(guān)聯(lián)。分析這種關(guān)聯(lián)關(guān)系并用于建立存儲(chǔ)索引,對(duì)于實(shí)現(xiàn)云制造資源文本信息的分類存儲(chǔ)以及云制造資源的供需快速、準(zhǔn)確匹配具有重要的意義。

關(guān)聯(lián)分析是一種簡(jiǎn)單、實(shí)用的分析技術(shù),旨在發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性,其概念和Apriori算法率先由Agrawal等人提出[20]。Apriori算法應(yīng)用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí),逐層迭代搜索,用k-項(xiàng)集搜索(k+1)-項(xiàng)集,直到不能找到更高一維頻繁項(xiàng)集為止。在Apriori算法的執(zhí)行過(guò)程中,需要多次掃描數(shù)據(jù)集,且生成大量的候選項(xiàng)集,導(dǎo)致該算法的執(zhí)行效率低下,時(shí)間和空間復(fù)雜性提高[21,22]。針對(duì)Apriori算法的缺點(diǎn),Han等在2000年提出了FP-Growth(Frequent Pattern-growth)關(guān)聯(lián)分析算法[23],將提供頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一棵頻繁模式樹(shù)(FP-tree),但仍保留項(xiàng)集關(guān)聯(lián)信息。

把云制造資源文本信息的關(guān)鍵字及權(quán)重值組成的數(shù)據(jù)集,作為FP-Growth算法的輸入事務(wù)數(shù)據(jù)庫(kù),經(jīng)過(guò)兩次搜索,得到每個(gè)事務(wù)所包含的頻繁項(xiàng),按其支持度降序排列后壓縮存儲(chǔ)到FP-tree中。在后續(xù)搜索頻繁模式的過(guò)程中,不需要再掃描事務(wù)數(shù)據(jù)庫(kù),在FP-Tree中進(jìn)行查找即可,不再產(chǎn)出候選模式。

根據(jù)頻繁項(xiàng)集產(chǎn)生既滿足最小支持度又滿足最小置信度的強(qiáng)關(guān)聯(lián)規(guī)則,置信度的計(jì)算公式為:

式中:support_count(A∪B)表示包含項(xiàng)集(A∪B)的記錄條數(shù),support_count(A)表示包含項(xiàng)集A的記錄條數(shù)。

采用FP-growth算法從云制造資源文本信息中獲得頻繁項(xiàng)集的流程如圖3所示,主要步驟如下:

Step 1:設(shè)置最小支持度minsup;

Step 2:掃描數(shù)據(jù)庫(kù),得到頻繁項(xiàng)集和每個(gè)頻繁項(xiàng)的支持度;

Step 3:將頻繁項(xiàng)集按照支持度降序排列得到頻繁項(xiàng)集L(刪去支持度小于minsup的頻繁項(xiàng));

Step 4:對(duì)于每個(gè)頻繁項(xiàng),構(gòu)造它的條件投影數(shù)據(jù)庫(kù)和投影FP-tree;

Step 5:對(duì)每個(gè)新構(gòu)建的FP-tree重復(fù)Step 4,直到構(gòu)造的新FP-tree為空,或者只包含一條路徑;

Step 6:當(dāng)構(gòu)造的FP-tree為空時(shí),其前綴即為頻繁模式;當(dāng)只包含一條路徑時(shí),通過(guò)枚舉所有可能組合并與此樹(shù)的前綴連接即可得到頻繁模式。

最后,計(jì)算云制造資源文本信息中頻繁項(xiàng)集所對(duì)應(yīng)的置信度值,根據(jù)置信度值大小產(chǎn)生關(guān)聯(lián)規(guī)則。

4 實(shí)例分析

4.1 云制造資源文本信息

圖3 云制造資源文本信息的頻繁項(xiàng)集獲取流程

在云制造模式下,云制造資源的文本信息通常由資源提供方上傳到云平臺(tái),然后由云平臺(tái)服務(wù)方對(duì)其進(jìn)行特征提取和關(guān)聯(lián)分析的基礎(chǔ)上,按索引分類存儲(chǔ)后供資源需求方搜索、選擇和使用。如圖4所示,以硬制造、軟制造以及計(jì)算等三類云制造資源的文本信息為例,驗(yàn)證本文所提理論和方法的可行性。其中,硬制造資源為數(shù)控加工中心、數(shù)控磨床和數(shù)控銑床,軟制造資源為AutoCAD、SolidWorks和UG,計(jì)算資源為中央處理器、輸入輸出設(shè)備和華為云。

圖4 云制造資源文本信息

4.2 獲取關(guān)鍵字及權(quán)重值

利用Eclipse軟件,基于Java語(yǔ)言編寫(xiě)TF-IDF算法程序,以三類云制造資源文本信息為輸入,提取關(guān)鍵字,計(jì)算權(quán)重值并按大小進(jìn)行排序。程序運(yùn)行結(jié)果如圖5所示,三類云制造資源文本信息的關(guān)鍵字及權(quán)重值如表1、表2和表3所示。

圖5 關(guān)鍵詞及權(quán)重提取結(jié)果

表1 硬制造資源文本信息的關(guān)鍵字及權(quán)重值

表2 軟制造資源文本信息的關(guān)鍵字及權(quán)重值

表3 計(jì)算資源文本信息的關(guān)鍵字及權(quán)重值

4.3 構(gòu)建關(guān)聯(lián)規(guī)則

利用Eclipse軟件,基于Java語(yǔ)言編寫(xiě)FP-Growth算法程序,挖掘三類云制造資源文本信息關(guān)鍵字的頻繁項(xiàng)集。設(shè)置最小支持度minsup=2,以硬制造資源文本信息為例,程序運(yùn)行結(jié)果如圖6所示,頻繁項(xiàng)集以及置信度如表4所示。

圖6 硬制造資源文本信息頻繁項(xiàng)集獲取結(jié)果

基于計(jì)算所得的置信度對(duì)所有頻繁項(xiàng)集進(jìn)行分析,硬制造資源組“機(jī)床-數(shù)控-加工”之間具有強(qiáng)關(guān)聯(lián)規(guī)則。軟制造資源組和計(jì)算資源組的強(qiáng)關(guān)聯(lián)規(guī)則分別是“設(shè)計(jì)-產(chǎn)品-解決方案-用戶”與“計(jì)算機(jī)-數(shù)據(jù)-操作”,具體過(guò)程不再贅述。云平臺(tái)服務(wù)方可根據(jù)關(guān)聯(lián)規(guī)則分類存儲(chǔ)云制造資源文本信息,資源需求方可按照關(guān)鍵字搜索、選擇和使用云制造資源。

表4 硬制造資源文本信息的關(guān)聯(lián)規(guī)則

5 結(jié)語(yǔ)

隨著先進(jìn)制造技術(shù)與信息技術(shù)的深度融合,云制造成為了智能制造發(fā)展的新模式。在云制造模式下,存在著大量的云制造資源信息,對(duì)它們進(jìn)行統(tǒng)一化描述,直接關(guān)系到云制造資源的存儲(chǔ)與匹配,是云制造模式落地應(yīng)用的關(guān)鍵所在。本文針對(duì)以文本形式存在的云制造資源信息,提出了一種特征提取和關(guān)聯(lián)分析方法。對(duì)云制造資源的文本信息執(zhí)行TF-IDF算法和FP-Growth算法,獲得關(guān)鍵字及其權(quán)重值,在頻繁項(xiàng)集挖掘與置信度分析的基礎(chǔ)上構(gòu)建了云制造資源文本信息的關(guān)聯(lián)規(guī)則,最后通過(guò)實(shí)例驗(yàn)證了本文所提理論和方法的可行性。隨著云制造資源文本信息的增多,關(guān)聯(lián)規(guī)則將得到不斷豐富。本研究為云制造資源的分類存儲(chǔ)、按關(guān)鍵字快速匹配提供了有力支持,后續(xù)將進(jìn)一步完善權(quán)重值的計(jì)算方法,確保云制造資源文本信息的特征提取與關(guān)聯(lián)分析更加高效。

猜你喜歡
關(guān)聯(lián)文本資源
基礎(chǔ)教育資源展示
“苦”的關(guān)聯(lián)
一樣的資源,不一樣的收獲
在808DA上文本顯示的改善
資源回收
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
奇趣搭配
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
智趣
讀者(2017年5期)2017-02-15 18:04:18
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 色网在线视频| 国产午夜精品一区二区三区软件| 国产一区成人| 国产JIZzJIzz视频全部免费| AⅤ色综合久久天堂AV色综合| 国产精品无码在线看| 亚洲天堂色色人体| 18禁黄无遮挡网站| 精品一区国产精品| 97视频免费在线观看| 91成人在线免费观看| 亚洲V日韩V无码一区二区| 97国内精品久久久久不卡| 亚洲女人在线| 亚洲中文字幕国产av| 成人精品亚洲| 激情在线网| 国产精品大尺度尺度视频| 国产成人综合久久精品尤物| 一级成人欧美一区在线观看| 国产69精品久久久久妇女| 亚洲欧美激情小说另类| 国产高清不卡| 国产永久免费视频m3u8| 大香网伊人久久综合网2020| 日本不卡在线播放| 亚洲成AV人手机在线观看网站| 91九色视频网| 中文字幕无码av专区久久| 9啪在线视频| 色窝窝免费一区二区三区| 国产精品无码翘臀在线看纯欲| 日韩精品成人在线| 欧美一级专区免费大片| 国产免费a级片| 国产精品林美惠子在线播放| 四虎综合网| 青青草原国产av福利网站| 手机精品福利在线观看| 久久久久久国产精品mv| 免费毛片视频| 婷婷色婷婷| 亚洲AV无码一区二区三区牲色| 久久国产成人精品国产成人亚洲| 成·人免费午夜无码视频在线观看| 华人在线亚洲欧美精品| 九色最新网址| 国模在线视频一区二区三区| 中文字幕首页系列人妻| 国产老女人精品免费视频| 一区二区自拍| 亚洲国产91人成在线| 国产一级无码不卡视频| 色亚洲成人| 黄色网在线| av无码一区二区三区在线| 国产一区二区三区免费观看| 国产一区二区三区在线观看视频| 国产无码高清视频不卡| 免费a级毛片18以上观看精品| 午夜视频在线观看免费网站 | 欧美视频在线播放观看免费福利资源| 99er精品视频| 色婷婷在线播放| 人妻无码中文字幕一区二区三区| 久久这里只有精品66| 夜夜操狠狠操| 凹凸精品免费精品视频| 曰韩人妻一区二区三区| a级毛片毛片免费观看久潮| 欧美无遮挡国产欧美另类| 99精品一区二区免费视频| 手机精品福利在线观看| 欧美色综合网站| 精品人妻一区无码视频| 亚洲天堂2014| 五月婷婷综合网| 久久国产毛片| 亚洲精品va| 国产成人高清亚洲一区久久| 久久亚洲天堂| 日韩黄色精品|