石慧芳,陳陽
(廣東省科技基礎條件平臺中心,廣州510033)
基于大數據的制造業企業信息化數據分析及應用技術研究
石慧芳,陳陽
(廣東省科技基礎條件平臺中心,廣州510033)
分析制造業企業對數據處理的需求,提出采用NoSQL數據庫實現生產參數數據的存取,從現有生產系統中分流、緩解數據處理壓力;結合數據挖掘技術和Hadoop計算框架,從海量的生產數據中挖掘出有價值的信息,研究產品最終特性、良品率等指標與產品制造過程參數之間的關系,建立相關模型,指導企業快速解決產品品質和生產管理等問題,提高企業競爭力。
NoSQL數據庫;Hadoop;制造執行系統
制造業是國民經濟的主體,制造業強則實體經濟強。目前,制造業在不斷的變革,數字化、網絡化、智能化、服務化已逐漸成為制造業發展的主流。廣東是國內制造大省和全球重要制造基地,但在新經濟形勢下,我省制造業發展也面臨嚴峻挑戰,迫使制造業必須加快轉型升級,由“制造”向“智造”改變。本研究以“廣東制造”向“廣東智造”轉型為契機,重點關注制造業企業信息化升級中的數據價值分析,解決制造業生產環境“數據豐富,信息匱乏”的問題。
大數據(Big Data)是一個綜合性概念,它包括因具備規模性(volume)、多樣性(variety)、高速性(velocity)和價值性(value)四個典型特征且難以進行管理的數據,具有對這些數據進行存儲、處理、分析的技術,以及能夠通過分析這些數據獲得實用意義和觀點的人才和組織[1]。
制造業中的電子半導體生產、精密儀器制造、生物制藥等高端制造業,往往具有嚴密的工程設計、復雜的裝配生產線、大量的控制加工設備與工藝參數、精確的過程控制和材料的嚴格規范[4]。隨著工業4.0技術的發展,制造業的工藝、裝備和信息技術也不斷發展,現代制造業在生產過程中產生和積累了大量歷史數據。這些數據中蘊含對生產和管理有很高價值的知識和信息,但企業工作人員通過人工分析很難察覺到參數間的關聯模式和影響品質的重要生產要素等信息。制造業中產生的這些數據完全符合大數據的特征,因此,本文提出利用基于NoSQL、Hadoop和數據挖掘的大數據技術解決制造業海量信息數據處理,以提升產品性能和生產效率。
作為制造業企業信息化重要組成部分的制造執行系統(MES)中包含了大量的生產管理一線的數據,本文從這些海量數據入手,研究如何從中過濾、提取有價值的信息,利用數據挖掘技術研究企業產品的最終特性與制造過程中參數之間的關系,建立針對制造企業生產領域的數據挖掘模型,幫助企業快速解決產品品質和技術等問題。
本文以質量管理理論中的“人機料法環”五個影響產品質量的主要因素中的四個:“機料法環”為基礎,通過收集這四個因素的數據,挖掘出有價值的信息,分析這四個因素的調整對產品質量的影響。
(1)機:是指生產中所使用的設備、工具等輔助生產用具。本文通過收集、記錄生產設備的日常運行數據,監測設備健康狀態,研究設備負載,分析設備在滿負荷工作、均衡負荷工作等狀態下,對產品數量、質量的影響,為設備調度和更新升級等提供指導。
(2)料:指物料,半成品、配件、原料等產品用料。產品用料的來源和管理是影響產品質量的一個重要因素。本文通過收集、記錄產品用料的構成、使用量等數據,分析用料成分,用量等因素與產品特性的關聯關系。
(3)法:指生產過程中所需遵循的規章制度、工藝等。本研究重點關注制造業企業的生產工序的管理,分析生產線各個工序之間安排是否合理,工序間對接的時間安排等數據,研究各個工序的最佳參數組合,指導生產工序的改進。
(4)環:指生產環境。本文根據產品生產所要求的環境條件,分析生產環境中溫度、濕度等環境因素對產品的影響。
本文通過分析制造業企業對數據處理的需求,采用NoSQL數據庫實現生產參數數據的存取,從現有生產系統中分流、緩解數據處理壓力;結合數據挖掘技術和Hadoop計算框架,從海量的生產數據中挖掘出有價值的信息,研究產品最終特性、良品率等指標與產品制造過程參數之間的關系,建立相關模型,指導企業快速解決產品品質和生產管理等問題,提高企業競爭力。
3.1基于NoSQL的生產實時數據存取
在生產系統如MES等產生的大量監控數據、設備運行記錄、作業狀態數據等,需要進行實時的處理,這類數據往往具有數據量大,呈現非結構化、半結構化等特點,而且隨著生產計劃和生產管理的變更,數據的模式可能需要進行相應調整。如果采用傳統的關系型數據庫對這類數據進行存取,效率相對較低。NoSQL是近年來快速發展起來的數據庫技術,主要用于解決互聯網應用大規模和高并發量的數據存取需求[3]。NoSQL適用于存儲非結構化數據,對數據模式約束較少,其通過多節點部署等方式達到數據高可用性,避免數據單點丟失。隨著企業對生產等環節的數據監控、數據處理等實時性要求的提高,NoSQL數據庫也逐步在生產制造企業中得到應用。因此,基于數據實時處理和模式變更等方面考慮,本研究將采用NoSQL以滿足生產系統的數據處理需求,發揮NoSQL技術優勢,提高生產實時數據的存取效率。

圖1 總體研究路線圖
從傳統的關系模式到NoSQL的轉換可以采用反模式化的分解方法,用JSON格式來表示NoSQL數據。例如生產系統在關系型數據庫中存在以下2個關系模式:

表1 生產線信息表
上述2張表根據外鍵<所屬生產線>進行關聯。將上述的關系模式轉換為NoSQL數據模式時,我們可以采用JSON內嵌對象表示它們的關系,存儲在NoSQL數據庫中,如下所示:

采用NoSQL數據庫存儲生產一線的實時數據和非結構化數據,利用NoSQL靈活的數據模式應對生產數據模型的不斷更新,增強系統靈活度。分析提取現有生產系統中對數據實時性要求高、數據模型更新快的數據,采用NoSQL數據庫進行存取,緩解現有系統的數據處理壓力。對數據實時性要求不高的模塊,仍保留原有系統功能接口,降低系統改造成本。
3.2采用Hadoop實現并行計算任務
Hadoop是一種分布式系統基礎框架,包括HDFS(分布式文件系統)和MapReduce(分布式計算),利用該平臺可以輕松地對海量數據進行分布式處理。本研究將搭建基于Hadoop的計算平臺,把數據挖掘算法中可以并行計算的任務交給Hadoop的MapReduce計算框架完成。MapReduce計算的核心就是將問題分而治之。本研究將所需處理的數據劃分為多個獨立的子數據塊,將它們傳遞給Map節點。這些Map節點根據系統定義的map函數對各個數據塊進行處理,并存儲中間結果。然后,再把中間結果傳遞給Reduce節點,調用系統定義的reduce函數做進一步處理,合并最終結果,作為輸出傳遞給系統的下一個模塊。通過基于Hadoop的并行計算,解決海量數據的處理問題,提高數據處理和信息挖掘的效率,為數據挖掘提供基礎數據保障。

圖2 MapReduce框架圖
3.3采用數據挖掘提取有價值的信息
本研究的最終目標是在大量生產數據中挖掘有價值的信息,研究最終產品特性、良品率等指標與生產參數之間的關系。根據系統產生的數據類型和產品指標等特征,采用相應的數據挖掘方法。例如運用單個工序,全線工序過程參數值與產品最終特性的關系數據,收集某個季度的歷史數據,進行數據挖掘算法的研究。隨著數據的不斷累積,數據挖掘算法的不斷迭代,逐步優化產品特性與生產參數數據的關聯模型。

圖3 數據挖掘流程圖
以某一以生物制藥為主的高端制造企業為例,根據系統產生的數據類型和產品指標,采用回歸分析和特征組合挖掘的方法,具體如圖4所示,工作流1先集成多種特征選擇的方法,來選出影響生產制造的重要工藝參數,然后通過回歸分析方法建立回歸模型,從而建立參數與產品質量的關系。工作流2是通過特征組合挖掘的方法,利用頻繁模式分析來挖掘重要工藝參數的關聯關系,從而挖掘出可行的參數配方。通過數據挖掘技術的應用,來提高生產制造的良品率和綜合效率。
當前NoSQL主要應用于互聯網行業,在生產制造行業的應用較少,本文基于企業數據模型的分析,采用NoSQL滿足企業對部分實時數據,模式變動頻繁的數據處理需求。本文提出數據挖掘與Hadoop的結合,將數據挖掘中需要并行計算的任務,采用Hadoop計算平臺完成,實現基于制造業MES系統的海量數據挖掘。

圖4 數據挖掘工作流示意圖
[1]趙國棟,易歡歡,糜萬軍,鄂維南.大數據時代的歷史機遇——產業變革與數據科學[M].清華大學出版社,2013.7.
[2]孫彥超,王興芬.基于Hadoop框架的MapReduce計算模式的優化設計[J].計算機科學,2014(11):333-336.
[3]申德榮,于戈,王習特,聶鐵錚,寇月.支持大數據管理的NoSQL系統研究綜述[J].軟件學報,2013,24(8):1786-1803.
[4]李濤,曾春秋,周武柏等.大數據時代的數據挖掘——從應用的角度看大數據挖掘[J].大數據,2015,041:1-24.
Research on Data Analysis and Application Technology of Manufacturing Enterprise Informatization Based on Big Data
SHI Hui-fang,CHEN Yang
(Guangdong Science&Technology Infrastructure Center,Guangzhou 510033)
Based on the analysis of the demand for data processing in manufacturing enterprises,proposes the use of NoSQL database to realize the access to the data of production parameters,which can ease the pressure of data processing from the current production system.Uses data mining and Hadoop framework technology to dig out valuable information from the mass production data,studies the relationship between the characteristics of the final product,yield and other indicators and product manufacturing process parameters,and establishes related model which can guide enterprises to quickly solve product quality and production management and enhance the competitiveness of enterprises.
NoSQL Database;Hadoop;MES
1007-1423(2016)16-0050-04DOI:10.3969/j.issn.1007-1423.2016.16.015
石慧芳(1984-),女,福建龍巖人,研究生碩士,信息系統項目管理師,研究方向為電子信息技術應用
2016-05-25
2016-06-01
廣東省省級科技計劃項目(No.2016B080802002、No.2016A010106003)
陳陽(1984-),男,廣東潮州人,本科,信息系統項目管理師,研究方向為計算機、電子信息技術應用