陳苒君
中核核電運行管理有限公司 浙江 嘉興 314300
“庫存是一把雙刃劍”,從保證機組安全穩(wěn)定運行考慮,傾向于盡量齊全并盡可能多地儲備庫存物資;而從控制成本考慮,則傾向于在保障核電廠安全的基礎(chǔ)上保有較低的庫存量,因為過高的庫存量將會占用大量存貨資金,并占用大量庫容,同時還將增加倉儲維護管理成本。綜上,庫存管理需要平衡核電廠安全與成本控制。在大數(shù)據(jù)挖掘技術(shù)成熟以前,庫存控制多以預(yù)算控制、指標(biāo)考核及職責(zé)梳理等管理手段為主,但始終難以挖掘庫存增長的根本原因,無法對癥下藥,導(dǎo)致庫存控制效果不佳。目前各類數(shù)據(jù)分析手段日漸成熟,數(shù)據(jù)分析技術(shù)也越加先進[1],在軟硬件方面都已經(jīng)具備了運用大數(shù)據(jù)分析的前提,故庫存控制也轉(zhuǎn)向大數(shù)據(jù)分析,以謀求突破。
由于秦山核電的物料主數(shù)據(jù)管理模式與管理標(biāo)準(zhǔn)經(jīng)過多次的調(diào)整,其數(shù)據(jù)質(zhì)量存在一定的問題,尤其是存在大量重復(fù)編碼的情況,造成重復(fù)采購、錯誤采購的問題。隨著庫存控制專項的持續(xù)開展,物料主數(shù)據(jù)作為供應(yīng)鏈領(lǐng)域的基礎(chǔ)數(shù)據(jù)之一,在專項工作中發(fā)揮了越來越大的影響力,低質(zhì)量的數(shù)據(jù)基礎(chǔ)逐漸成為阻礙工作順利推進的制約因素。本文通過探索數(shù)據(jù)治理的方法論,設(shè)計了一套完整的數(shù)據(jù)質(zhì)量校驗規(guī)則與方法,找出了一條可靠的,同時也富有成效的數(shù)據(jù)質(zhì)量提升途徑。
本文運用文本語義分析技術(shù)[2],根據(jù)物料條目的各種輔助信息,實現(xiàn)重碼分析,提高重碼分析準(zhǔn)確率和分析效率的同時,減少專業(yè)技術(shù)人員在重碼分析識別的投入。
第一步:數(shù)據(jù)ETL
中國核電目前采用SAP HANA作為大數(shù)據(jù)平臺,核電各系統(tǒng)數(shù)據(jù)統(tǒng)一進入數(shù)據(jù)倉庫,各數(shù)據(jù)分析應(yīng)用程序全部由數(shù)據(jù)倉庫取數(shù)。為滿足重碼分析需求,將物料主數(shù)據(jù)同步到HANA后按照相應(yīng)規(guī)則進行二次處理。
第二步:分詞
將所有物料的物料描述、采購文本、基本單位、單位描述等字段進行文本分詞處理,形成特征單詞,并去掉噪音詞的單詞序列并為每個詞加上權(quán)重,假設(shè)權(quán)重分為5個級別(1~5)。比如物料中的物料描述:“ O形圈組件,F(xiàn)OR 蝶閥 300D371X-16P,φ40*2.4,EPDM” ==> 分詞后為 “ O形圈(4) 組件(5)FOR(3) 蝶閥(1) 300D(2) 371X(1) -16P(3) φ40(5) *2.4(1) EPDM(3)”,括號里是代表單詞在整個句子里重要程度,數(shù)字越大越重要。
第三步:Hash處理
將所有關(guān)鍵字進行降維處理,使關(guān)鍵字轉(zhuǎn)變?yōu)閿?shù)字以便進行相似度計算。通過Hash算法把每個詞變成Hash值,比如“O形圈”通過hash算法計算為 100101,“組件”通過hash算法計算為 101011。通過步驟三的hash生成結(jié)果,需要按照單詞的權(quán)重形成加權(quán)數(shù)字串,比如“O形圈”的hash值為“100101”,通過加權(quán)計算為“4 -4 -4 4 -4 4”;“組件”的hash值為“101011”,通過加權(quán)計算為 “ 5 -5 5 -5 5 5”。
第四步:合并降維
把上面各個單詞算出來的序列值累加,變成只有一個序列串。比如 “O形圈”的 “4 -4 -4 4 -4 4”,“組件”的 “ 5-5 5 -5 5 5”, 把每一位進行累加, “4+5 -4+-5 -4+5 4+-5 -4+5 4+5”“9 -9 1 -1 1 9”。
第五步:相似度計算
基于杰卡德(Jaccard)算法對所有物料主數(shù)據(jù)的經(jīng)過上述步驟處理的文本字段分別進行相似度計算,累加形成相似度排名,最終確定物料主數(shù)據(jù)的相似度情況。
目前ERP系統(tǒng)中的物料主數(shù)據(jù)已達到百萬級,為了實現(xiàn)大數(shù)據(jù)量的處理,最終通過秦山核電數(shù)潤大數(shù)據(jù)平臺進行模型建模和數(shù)據(jù)挖掘。通過數(shù)潤平臺的HANA內(nèi)存計算數(shù)據(jù)庫進行物料主數(shù)據(jù)模型的搭建,完成數(shù)據(jù)的初步清洗。最終通過sqoop同步到Hadoop平臺利用Spark進行計算處理,最終將處理結(jié)果會寫到HANA提供給展現(xiàn)平臺使用。
物料重碼識別挖掘算法數(shù)據(jù)源為HANA數(shù)據(jù)庫。在HANA數(shù)據(jù)倉庫中只需要建立物料主數(shù)據(jù)和制造商模型,并進行關(guān)聯(lián)組合即可進行識別。
將分析結(jié)果轉(zhuǎn)換成數(shù)據(jù)模型,和物料主數(shù)據(jù)模型重新新建模型,作為報表數(shù)據(jù)源,并在數(shù)潤大數(shù)據(jù)平臺開發(fā)報表,供業(yè)務(wù)部門分析使用。
基于核電物料主數(shù)據(jù)重碼分析結(jié)果數(shù)據(jù),利用數(shù)據(jù)挖掘庫存分析算法,分析庫存金額上漲的原因,得到庫存上漲的核心物料,并形成結(jié)果報表,最大限度了去除了物料重碼情況對分析庫存所帶來的干擾,更加精準(zhǔn)地定位到造成庫存不斷增長的核心物資,能準(zhǔn)確定位到負責(zé)人,落實庫存控制工作。