王 軍,王 晶
(北京航空航天大學 經濟管理學院,北京 100083)
大數據應用起源于互聯網,正在向以數據生產、流通和利用為核心的各個產業滲透,主要呈現兩種發展方向:一是積極整合行業和機構內部的各種數據源,通過對整合后的數據進行挖掘分析 ,從而發展大數據應用。二是積極借助外部數據,主要是互聯網數據,來實現相關應用[1]。
傳統的制造業在向智慧生產邁進的過程中采用了大量的傳感設備,構建了企業物聯網。物聯網的興起使得當前數據增長比以往任何一個時期都要快,增長速度也非常迅猛,其創造的數據將遠多于傳統的業務數據。物聯網所創造數據,描繪的是工廠設備、物質運動的規律、狀態變化的規律等,更加真實、可靠、有價值,可以從中挖掘出更豐富、更有用的知識[2]。
有文獻介紹,大數據分析在國外制造業中顯示出巨大的潛力[3]。Gentrica是英國最大的燃氣、供電企業。Gentrica該企業計劃到2014年上半年為止,為家用客戶和商用客戶安裝總計350萬臺智能電表。Gentrica通過內存型數據庫對每30分鐘的來自客戶的數據進行分析,客戶通過家中安裝的顯示屏確認電力、燃氣的使用量和費用,提高節約能源的意識。而Gentrica對客戶的能源消耗模式進行分析,設置自動電費規則和基于用電需求的變化進行用電需求進行移峰操作。小松是居世界第二位的建筑機械制造商,建立了一個名為KOMRTAX的,能夠對建筑機械的工作狀況進行遠程監控的系統。KOMRTAX系統通過安裝在建筑機械上的GPS和各種傳感器,對機械當前所處位置、工作時間、工作狀況、燃油余量、耗材更換時間等數據進行收集。通過數據分析給客戶提供設備優化運行的建議,并可受托監控設備安全。
某特種印制企業是國家法定流通貨幣的定點生產單位。顯而易見,該企業對生產過程質量控制及在制品跟蹤有嚴格的要求:在制品在整個生產過程中一定要確保數字不出任何差錯,以及產品質量的萬無一失。由于印制過程中印制設備和印制材料的不完善以及一些不可避免的隨機因素的影響,在生產過程中經常會出現顏色深淺失真、油墨污點、文字模糊、起皺、漏印(缺版)、刮傷、套印不準(走版)等各種缺陷。以往,企業使用大量有經驗的檢查工通過肉眼人工進行缺陷檢查,但存在效率低、不穩定、品質不統一等致命的缺點[4]。且人工直接接觸產品,容易引發安全方面的事故。隨著機器視覺技術的快速發展,很多應用案例將其應用缺陷檢測中。為此,企業引進了大量的在線圖像檢測設備。通過對每張產品噴寫標識碼,并在后續生產過程中實時采集、跟蹤每張在制品的標識碼、印制圖像,將圖像與缺陷特征信息進行比對,提示生產過程中的存在的質量缺陷。但系統大范圍投運后,常規的技術架構及關系型數據庫系統,不能有效及時處理系統所產生的大數據量,尤其是非結構的圖像數據,也就無法形成全工序的質量數據共享與打通。
本文采用基于Hadoop的大數據處理技術,通過分析業務需求,建立大數據存貯管理模型,并在此基礎上,建立數據分析、實時查詢模型,通過數據可視化技術進行實時展現,實現全工序質量信息的自動采集、集成管理與質量預警、分析即時化。并在此基礎上,針對產品的不同質量等級,支持多生產工藝的動態調度。
特種印制生產多規格并線生產,生產投料及組織按批進行,常規每批次約10000大張(每一大張包括多個數量的最終產品,簡稱為小枚,包含數量取決于不同的小枚的尺寸規格)。典型的生產工藝如圖1所示。膠印工序會在每個大張上噴寫唯一的“大張ID碼”,這是實現每一大張的獨立跟蹤的基礎。包括膠印工序在內的每個工序將進行圖像采集,與各工序標準化缺陷特征模型進行模式對比分析,產生該大張中每個小枚的工序質量檢測信息,在物料流轉時同步傳送到下游工序。下游工序根據上游工序的質量檢測信息來調整本工序的生產,或進行全廢品兌換操作。同時,將前三個工序的質量信息匯總起來,由人工對再對大張檢查機器的判廢信息進行再次確認(當前,由于檢測及模式識別等因素,以及經濟性的考慮,還不能做到完全由機器判廢),生成指導后續生產的綜合質量信息報告。綜合質量信息報告再結合印碼工序產生的新質量信息,形成指導后續清分生產工序所需的質量清單。根據該清單所表示的在制品質量等級信息,由人工調度選擇后續裁封自動線,或小張清分機全檢。其判斷依據是質量等級高的產品執行裁封自動線,以提高生產效率。質量等級低的產品執行小張清分機全檢,防范廢品流出,但生產效率低。
在自動線生產過程中,設備將根據傳遞來的質量清單,自動剔除有質量缺陷的小枚產品,并用好品來補充生產數量。這一過程的效率及質量完全取決于質量清單。

圖1 質量信息采集與生產工藝的選擇
生產質量跟蹤要求簡單明了,其基本思路是:流通貨幣上都有唯一的標識號(業內稱之為冠字),根據該標識號能夠還原生產的全過程,包括產品裝箱的箱號、批次號、大張號。根據批次號,就能從相應的生產系統準確追溯出相關的生產機臺、人員、輔助物資批號、質量信息、生產時間等。這對質量改進及提升服務水平具有重要意義。圖2為質量跟蹤的框架。

圖2 全過程質量跟蹤信息框架
大數據的特征,可以用三個V開頭的關鍵詞來描述:Volume(容量)、Variety(多樣性)、Velocity(速度)[5]。
每個路燈獲取隨機值,當隨機值計算的時間到時,進行入網或狀態上報,例如公式:上電時間+隨機值(不大于3秒)
1)Volume(容量)分析

表1 數據量評估表
從上表可以看到,日均產生10G的業務數據和130G圖像數據,年數據總計為51100G,約51T之巨。而該行業管理要求數據至少保存三年以上。因此,該數據量稱得上是大數據。
2)Variety(多樣性)分析
用于質量跟蹤的數據主要有三種數據,兩大類型:一是表征生產組織及物料的結構化數據,包括生產工單、批次號、物料清單、設備標識號、大張標識號、生產時間、生產數量等信息。二是結構化的質量缺陷類型數據。對于不同的模式的質量缺陷給出結構化的定義,通過人工預先設定,機器視覺設備將會與標準模型進行比較后自動給出。三是無法結構化的原始圖像文件。由于數據量巨大,設備將只保留存在疑問的局部細節圖像。
3)Velocity(速度)分析
受生產日歷及生產安排的影響,數據產生的速度也不均衡。一般來說,生產時間為AM8:00~PM5:00,數據將會在AM8:00~AM9:00集中同步產生,形成每天的數據高峰。
從另一方面看,速度還表現在數據使用的高效性及實時性上。圖1所示的圖像判廢環節,人工檢查給定批次的圖像信息時,人機交互的時間不能大于3秒。在路徑選擇及后續裁封自動線環節,系統將能夠實時地、準確地給出每批次在制品特定小枚的質量信息,供生產線自動處理。
所設計的大數據平臺(圖3)部署于企業私有云環境上。主要的客戶端全部在企業局域網范圍內,客戶應用分兩類:一類是企業生產調度中心,進行實時查詢及調度決策。二類是機臺上的操作人員,隨時查看生產產品的歷史質量記錄。

圖3 拓撲及部署示意圖
Hadoop是Apache開源組織的一個分布式計算框架,可以在大量廉價的硬件設備組成的集群上運行應用程序,構建一個具有高可靠性和良好擴展性的并行分布式系統,Hadoop分布式文件系統HDFS、MapReduce并行處理編程模型和HBase分布式數據庫是其三大核心技術[6]。本文采用該核心技術搭建適合特種印制質量信息管理的大數據平臺系統。
設計的大數據平臺總體框架如圖4所示。
本文還采用Hive、Impala組成大數據查詢、統計、挖掘、分析平臺,分別應用于不同的數據挖掘需求。采用Pentaho實現圖表展示平臺。

圖4 大數據平臺總體框架
數據遷移系統遷移分散數據到大數據平臺的HBase數據庫中,遷移過程中對數據進行了初步的ETL。比如HBase中的表不能太多,也不能太大,要設計合理,一般在數據遷移過程合并一個月的相應生產系統中業務數據庫表格數據到一張HBase表中。對于實時數據分析的場合則需要每隔數分鐘即遷移當天的新增數據到HBase表中。
集群管理監控系統對集群和任務進行管理和監控,通過Oozie可以對計算或處理任務進行輪詢,從而保證能夠完成任務,這樣可以保證數據遷移和數據分析過程的穩定性。
針對特定數據源和數據特征設計的數據遷移系統實現從各機臺的機器視覺系統中遷移數據到大數據平臺的HBase數據庫中,并按照預定的模型進行統一存儲與管理。遷移過程中數據結構要發生變化,因而需要保證數據的完整性。
數據遷移系統需要實現一次性的歷史數據的遷移以及每天增量數據的遷移。遷移系統需要基于Sqoop和Flume這兩種建立在本Hadoop集群分布式計算環境下的分布式、高可用遷移系統的API進行開發。遷移系統支持反向操作,即從Hadoop中遷移數據到關系型數據庫中。這一點將在裁封自動線后自動剔除出得到應用。

圖5 數據遷移操作
針對部分BMP格式的圖像文件,由于數據量過大,在數據遷移過程中,直接通過JPEG編碼方法進行了轉換[7],壓縮比相當可觀,但圖像人工辨識性沒有影響。
采用基于Hadoop的HBase數據庫來進行存儲,HBase的一張Table通過劃分不同的Key區間可以有不同的Region Server來保存,類似如圖6所示。
缺陷圖像經ETL處理后,JPEG格式的大小一般不足100K,是一系列小文件的集合。其存貯管理非常適合文獻[8]介紹的“海量圖片存貯技術”建立的數據存貯模型[8]。

圖6 分布在不同Server上的HBase表
HBase數據庫中表示印刷中作廢的缺陷幣表的邏輯結構如圖7所示。

圖7 缺陷信息表數據模型
其中作廢幣信息列族存儲作廢幣的基礎信息,如小枚位置、生產日期、作廢類型、圖像大小、圖像序列號等。批次信息列族存儲作廢幣的批次信息,如發現缺陷幣的車號、時間等。機臺、工序信息列族存儲作廢幣的機臺和工序信息,如發現缺陷幣的機臺號、工序號、時間等。大張信息列族存儲作廢幣的大張信息,如大張號,大張圖像序列號等。相關物料信息列族存儲質量跟蹤的其他資源信息,如物料清單、機臺人員等。
在HBase表中以不同的關鍵字進行排序統計,再對得到的統計信息進行分析,就可以實現對缺陷幣的全程跟蹤。在HBase中查詢數據時,根據請求數據的不同會出現以下三種情況:全表掃描、區間掃描及行鍵掃描。其中行鍵掃描是根據所給的鍵值取得一張表中行鍵對應的單條數據,所以具有非常高的查詢統計性能。
顯然,數據在表格中比在圖中更難讓人洞悉其中的關鍵信息。根據兩類客戶端對數據的訪問需求,提供基于Impala的即席查詢和以Pertaho為核心技術的BI分析,技術路線如圖8所示。

圖8 即時查詢分析和可視化技術路線
Hive適合于長時間的批處理查詢分析,而Impala適合于實時交互式SQL查詢,Impala給數據分析人員提供了快速實驗、驗證想法的大數據分析工具。對于經常應用查詢分析,可以先使用Hive進行數據的ETL,之后使用Impala在Hive處理后的結果數據集上進行快速的數據分析。利用Impala,通過使用熟悉的SQL,像操作傳統關系型數據庫一樣,很容易給出復雜查詢、統計分析的SQL設計,同時用戶熟悉的傳統的數據分析工具也可以使用。
針對印制生產的特點,分析形成可視化的“大張生產路線跟蹤圖(跟蹤每一大張的生產路徑,形成準確的質量跟蹤,截圖略)”;分析形成“工序設備質量缺陷熱點圖(以設備布局為背景,按質量缺陷數量形成熱點,疊加在設備布局圖上,截圖略)”。產品分工序缺占比分析如圖9所示。

圖9 產品分工序缺陷占比圖
將本文的研究成果應用于某特種印制企業生產管理中,改變了傳統上由于上下游工序質量信息不暢,只能按工序的調度的策略,而是采取全工藝、大質量的調度策略,切實將最終產品能夠落實分解到每個生產環節,提高了管理的精細化水平。主要效果體現在:一是提高質量控制的精細化水平,盡可能杜絕廢品流出,減低漏廢率。二是提高客戶服務及質量管理水平,實現全過程的質量追溯。三是只針對機器判廢品二次人工確認,有效降低人工工作強度,雖然印制行業的特殊性要求使得企業不能完全依賴計算機的判廢結果來生產,但人工確認判廢工作則調整為通過計算機系統遠程進行,改善了工作環境,切實提升生產效率及穩定了工作質量。
傳統制造企業應用物聯網后,產生了海量的數據。本文采用基于Hadoop的大數據處理技術,建立了面向特種印制生產的質量跟蹤數據模型,進行大數據采集、管理、與可視化分析,實踐結果證明設計合理、技術架構可行,切實提升了企業調度與決策的智能化水平,是將大數據分析技術應用于制造行業的典型示范。
[1] 工業和信息化部電信研究院.大數據應用發展[R].大數據白皮書(2014年),北京:工業和信息化部電信研究院,2014.
[2] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,01:146-169.
[3] 城田真琴.大數據的沖擊[M].北京:人民郵電出版社,2013.
[4] 吳煒.基于機器視覺的紙幣缺陷檢測系統[D].西安電子科技大學,2011.
[5] 周品.云時代的大數據[M].北京:電子工業出版社,2013.
[6] 陳吉榮,樂嘉錦.基于Hadoop生態系統的大數據解決方案綜述[J].計算機工程與科學,2013,10:25-35.
[7] 邱磊.JPEG算法研究及實現[J].計算機時代,2009,9:57-58.
[8] 朱曉麗,趙志剛.一種基于HBase的海量圖片存儲技術[J].信息系統工程,2013,8:23-24.