王建民 清華大學軟件學院副院長,教授,博士生導師
?
網絡技術——工業互聯網專題
工業大數據技術
王建民清華大學軟件學院副院長,教授,博士生導師
工業大數據是指工業領域相關的海量數據,包括信息化數據、物聯網數據以及跨界數據,已成為新工業革命的核心動力。本文分析了工業大數據的主體來源,闡述了工業大數據“多模態、強關聯、高通量”的數據特點和“物理信息、產業鏈、跨界”三層次融合的應用特點,歸納了工業大數據管理與分析技術的關鍵問題,給出了我國工業大數據典型應用案例,最后對自主發展的工業大數據提出了建議。
大數據;工業大數據;數據特點;應用特點;關鍵技術;應用案例
金融危機以來,為了尋找經濟增長的新出路,特別是在云計算、大數據和物聯網等新興技術的推動下,全球掀起了以制造業轉型升級為首要任務的新一輪工業變革,其中以德國工業4.0和美國工業互聯網為典型代表。方興未艾的新工業革命以數字化為基礎、網絡化為核心、智能化為目標,將新一代信息技術與現代制造業、生產性服務業等深度融合,以推動產業轉型升級。根據麥肯錫全球研究院發布的研究報告表明,美國制造領域擁有的數據規模為各領域之首,大數據作為工業從自動化到智能化跨越發展的核心動力,其重要性不言而喻。
隨著大數據技術與開源社區的不斷成熟,大數據軟件生態系統繁榮發展,商業配套工具日益豐富。IBM、EMC、華為等企業都在開源大數據軟件之上封裝了各自的商業版數據管理產品。這些技術的成熟為數據技術向工業界滲透提供了必要的條件,同時也為高端制造企業提供了巨大的市場機會。近年來,國際知名工業企業、軟件公司和科研機構紛紛研發面向制造業轉型升級的大數據產品和系統。
美國通用電氣(GE)公司聯合Pivotal向全球開放工業互聯網云平臺Predix,將各種工業資產設備接入云端提供資產性能管理(APM)和運營優化服務;美國PTC公司收購了物聯網云平臺公司Axeda,打造智能互聯產品Thing Worx;丹麥維斯塔斯(Vestas)公司聯合IBM基于BigInsights大數據平臺分析氣象、傳感器、衛星、地圖數據支持風場選址、運行評估等工作;德國西門子公司面向工業大數據應用,整合遠程維護、數據分析及網絡安全等一系列現有技術和新技術,推出Sinalytics數字化服務平臺,作為其實現工業4.0的重要抓手;德國SAP公司開發了面向物聯網應用和實時數據處理的HANA大數據平臺,并利用其在傳統企業信息化ERP系統上的優勢,推動HANA與信息化系統的集成;美國航空航天局(NASA)對外開放自身數據,幫助進行火星生命探測和天文觀測等。此外,硅谷新興創業公司也在積極投入工業數據的技術和產品研發,典型代表有Uptake Tech公司,為建筑、航空、采礦行業提供分析與預測軟件服務。
國內工業大數據平臺建設方面也有一定進展,主要依托國內互聯網應用的基礎,面向輕資產設備數據接入搭建通用平臺,例如中國移動物聯網開放平臺、騰訊QQ物聯平臺等;在高端裝備方面仍然是以龍頭企業自建方式為主,例如陜鼓動力的鼓風機遠程監測平臺、三一集團工程機械物聯網平臺、遠景格林威治風電云平臺、紅領制衣板型數據平臺、南方航空公司航空大數據平臺等。這些工業領域的大數據平臺存在技術架構差異大、建設水平參差不齊、應用效果不明顯等瓶頸問題。
未來,隨著我國人口紅利逐步消失,環境壓力日益加大,工業數據作為戰略核心資產將成為我國制造業轉型過程中實現價值留存和新價值創造的關鍵要素。在此背景下,國家相繼出臺《國務院關于加快發展生產性服務業促進產業結構調整升級的指導意見》等指導性文件,制定《“互聯網+”行動計劃》,頒布《中國制造2025》戰略規劃,特別是國務院《促進大數據發展行動綱要》與《中國制造2025重點領域技術路線圖》都將工業大數據作為重點發展方向。
工業大數據是指工業領域所產生的海量數據,包括信息化數據、物聯網數據以及跨界數據。
首先,企業信息系統存儲了高價值密度的核心業務數據。20世紀60年代以來,信息技術加速應用于工業領域,形成了產品生命周期管理(PLM)、企業資源規劃(ERP)、供應鏈管理(SCM)和客戶關系管理(CRM)等企業信息系統。這些系統中積累的產品研發數據、生產制造數據、供應鏈數據以及客戶服務數據,存在于企業或產業鏈內部,是工業領域傳統數據資產。
以某裝備企業2013年PLM系統數據為例,其管理零部件總數達165.5637萬個,每周增長量為8182個;管理的Word文檔數量共162.7929萬個,每周增長量為9149個;管理的圖紙共235.9777萬張,每周增長量1.1486萬張;數據總量為15.8T,日增長約11GB。
其次,隨著物聯網技術的快速發展,裝備物聯網成為工業大數據新的、增長最快的來源,它實時自動采集了車間內生產設備和交付給用戶的產品狀態與工況數據。一方面,機床等生產設備物聯網數據為智能工廠生產調度、質量控制和績效管理提供了實時數據基礎;另一方面,2012年美國通用電氣公司提出的工業大數據(狹義的),專指裝備使用過程中由傳感器采集的大規模時間序列數據,包括裝備狀態參數、工況負載和作業環境等信息,可以幫助用戶提高裝備運行效率,拓展制造維修服務(Maintenance Repair and Overhaul,MRO)。
以風機裝備為例,IEC61400-25標準由IECTC88技術委員會起草制定,是IEC 61850標準在風力發電領域內的延伸,專門面向風電廠的監控系統通信,旨在實現風電廠中不同供應商設備之間的自由通信,通過對風電廠信息進行抽象化、模型化、標準化,實現各設備之間的相互通信,使各設備之間具有互聯性、互操作性和可擴展性。根據該標準,單臺風機每秒產生225k字節傳感器數據,每臺風機按每年7000運行小時計算,單臺風機每年生成6TB傳感器數據,金風科技目前擁有2萬臺風機,6.0TB/臺/年×2萬臺=120PB/年。
最后,今天的互聯網與工業深度融合,企業外部跨界數據已成為工業大數據不可忽視的來源。21世紀初,日本企業就開始利用互聯網數據分析獲取用戶的產品評價,今天小米手機利用社交媒體數據成功實現產品創新研發;此外,外部企業還存在著海量的“跨界”數據,如影響裝備作業的氣象數據、影響產品市場預測的宏觀經濟數據、影響企業生產成本的環境法規數據等。
以風電場運營業務為例,來自氣象部門的跨界數據、模式數據與衛星數據,其每天處理數據增量為200TB,年70PB;來自環保部門的跨界數據、實時監控數據、環評數據、審批業務數據年增量為1PB。
工業大數據本身不僅具有廣義大數據的3V或4V特點,還呈現出“多模態”、“強關聯”和“高通量”3個特點。
(1)多模態
所謂多模態,是指非結構化類型工程數據,包括設計制造階段的概念設計、詳細設計、制造工藝、包裝運輸等15大類業務數據,以及服務保障階段的運行狀態、維修計劃、服務評價等14大類數據。例如,在運載火箭研制階段,將涉及氣動力數據、氣動力熱數據、載荷與力學環境數據、彈道數據、控制數據、結構數據、總體試驗數據等。
(2)強關聯
所謂強關聯,一方面是指產品生命周期的設計、制造、服務等不同環節的數據之間需要進行關聯,即把設計制造階段的業務數據正向傳遞到服務保障階段,同時將服務保障階段的數據反饋到設計制造階段;另一方面,在產品生命周期的統一階段會涉及到不同學科、不同專業的數據。例如,民用飛機預研過程中會涉及總體設計方案數據,總體需求數據,氣動設計及氣動力學分析數據,聲學模型數據及聲學分析數據,飛機結構設計數據,零部件及組裝體強度分析數據,多電系統模型數據,多電系統設計仿真數據,各個航電系統模型仿真數據,導航系統模型仿真數據,系統及零部件健康模型數據,系統及零部件可靠性分析數據等,這些數據需要進行關聯。
(3)高通量
所謂高通量,即工業傳感器要求瞬時寫入超大規模數據。嵌入傳感器的智能互聯產品已成為工業互聯網時代的重要標志,是未來工業發展的方向,機器數據已成為工業大數據的主體。以風機裝備為例,風機故障狀態其數據采樣頻率為50Hz,每臺平均125個測點,金風科技公司擁有2萬臺風機,其最高瞬時數據寫入量超過1億數據點/s。
工業大數據應用特點集中體現在物理信息、產業鏈以及跨界3個層次的融合,這與其他領域大數據應用具有明顯差異,因此需要從數據模型、語義、查詢操作3個層面對工業大數據進行一體化管理。
●“物理信息融合”表現在設計開發階段主要管理數字產品,而在制造服務階段主要管理物理產品,跨生命周期管理需要融合數字產品和物理產品,從而構建工業信息物理融合系統(Cyber-physical System,CPS)。
●“產業鏈融合”表現在互聯網大數據環境下,以資源整合優化為目標的云制造模式得以迅速發展,智能產業鏈需要突破傳統企業邊界,實現數據驅動的業務過程集成。
●“跨界融合”是指在“互聯網+”環境下,企業需要將外部跨界數據源進行集成,如美國某農機公司將天氣數據、灌溉數據、種子數據以及農機數據進行綜合利用,為農場提供糧食增產服務。
擁有大數據不是目的,發掘其價值才是關鍵。由企業信息化數據、裝備物聯網數據和外部互聯網數據匯聚而成的工業大數據,蘊藏著巨大價值。例如,通過分析用戶使用數據改進產品,如波音公司通過對737型號運行數據分析創新翼尖小翼;通過分析現場測量數據提高工件加工水平,如高端機床設備通過實時測量數據動態優化進刀參數;工況數據進行產品健康管理,如羅羅公司通過對發動機工況數據支持售賣飛行小時新型商業模式等。
工業大數據技術可以分為兩個層次,即大數據管理技術和大數據分析技術。
(1)工業大數據管理技術的關鍵問題
●數據質量控制問題
原始數據(生數據)質量決定分析結果的質量。企業信息系統數據質量仍然存在問題,例如2014年某大型機車企業ERP系統中近20%物料存在“一物多碼”問題。裝備物聯網數據質量堪憂,某大型制造企業一個月的狀態工況數據中,無效工況(如盾構機傳回了工程車工況)、重名工況(同一狀態工況使用不同名字)、時標混亂(如當前時間為1999年,或時標對不齊)等數據質量問題約30%。
●一體化管理問題
層次化的物料表(Bill Of Material,BOM)定義了企業信息系統數據的核心語義結構。針對裝備物聯網數據和外部互聯網數據,可以根據其綁定的物理對象(零部件或產品)與相應的BOM節點相關聯。從而,以BOM為橋梁關聯3個不同來源的工業大數據。具體實現機制可以分為3個層面:邏輯層負責統一數據建模,定義數字與物理對象模型,完成底層數據模型到對象模型映射;概念層實現數據語義層面的融合,通過語義提取與語義關聯,形成RDF形態的知識圖譜,提供基于SPARQL的查詢接口;操作執行層負責異構數據管理引擎的查詢協同優化,對外提供SQL以及REST API形式的統一查詢接口。
●大數據系統集成問題
工業大數據其來源更加廣泛,并且裝備物聯網數據(半結構化數據)和外部互聯網數據(非結構化數據)都要與企業信息系統(結構化數據)進行集成,因此要重構數據管理平臺,甚至替換“舊”系統。
●工業大數據安全問題
工業大數據及其系統是工業互聯網的知識與大腦。由于暴露在無所不在、無所不控、虛實結合、多域融合的工業信息物理融合系統中,工業大數據系統安全威脅和風險控制技術,是國家工業主權與產業安全的重要保障。
(2)工業大數據分析技術的關鍵問題
●多時間尺度數據綜合分析
與傳統商務智能(Business Intelligence,BI)應用場景不同,工業大數據包括秒/小時尺度的機器工況數據、天/周尺度的車間調度數據和月/年尺度的管理決策數據,在工業大數據應用中不同時間尺度的工業數據需要綜合使用才能驅動智慧企業。例如,智慧礦山企業需要根據跨界數據預測礦石品質需求,依據品質需求生成裝備作業計劃,根據裝備作業計劃實時控制裝備操作。
●專業分析算法與構件
針對時間序列、時空等弱結構化數據,應提供豐富的特征模板庫,方便對典型物理事件(如風速平穩時段、發電機轉速快速下降、環境溫度逐漸上升等)進行描述;另外,還應提供豐富的時間序列、時空模式、序列模式的深度挖掘算法庫,提升工業數據分析的建模效率。
●實時交互分析
工業大數據分析必須能夠滿足大規模、分散控制和交互迭代等需求。在實時處理上,傳統的商業數據分析系統不能有效支持面向大規模數據狀態下的低等待時間復雜事件檢測。在離線分析上,查詢檢索與分析建模應緊密協同,同時前臺探索展現與工業大數據平臺要無縫整合,支持大數據集上的交互挖掘。
●遺留算法并行化
針對重要的應用需求,工業企業通常具有一定的分析工具和科學計算軟件積累,然而這些工具通常沒有考慮大數據架構。如何有效重用這些分析算法工具,是工業大數據分析應用不能回避的技術問題。
●領域知識自動化
工業大數據中存在著大量的非結構化數據,將當前深度學習、自然語言處理等人工能力融入到工業大數據分析中來,可以有效輔助把專家知識進行有效的沉淀、萃取和自動化。
金風科技股份有限公司通過將風機大數據技術作為抓手,實現企業的工業化和信息化的深度融合,通過每臺風機上安裝的百種傳感器,金風科技每天收集的數據超過TB的量級。通過這些數據技術,可以在實現全量風機的在線預警以及定期體檢上,尋找更迅速、更有效的解決方案,提升設備的可靠性,而風場運營商通過這些數據,可以做到更精準的預測、檢測和數據采集以節約人力和時間成本,實現風場效益最大化。通過機器大數據技術對風機數據進行管理,為金風創造了可觀的經濟效益,典型案例如下:
●快速響應客戶需求
在美國德州Rattlesnake風場建設項目投標中,金風公司基于大數據平臺成功以3小時47分的速度完成招標方提出近250萬個文件的處理要求,加工出風速、溫度、發電機轉速、功率、槳距角、風機狀態等結果,使回應速度由100多天縮短到2天。
●風速儀對風優化
在風場對風機的變槳數據進行調優?;谄脚_在5小時31分完成基于全量歷史數據(包括1.7萬臺風機、300多億條歷史記錄)的對風偏差估計和優化,使得原本需要400多天才能完成的運維調優任務得以周期性實施。據測算,每年由此調優獲得額外發電量可達2億元人民幣以上。
●齒形帶斷裂預警
齒形帶是變槳系統的一個重要部件。齒形帶斷裂會造成非計劃性停機及葉片失控等次生災害。因為沒有直接的傳感器監測,目前檢測手段根據斷裂后引起的振動、槳距角異常等次生故障判斷,通常有10余秒的滯后。大數據分析基于大量風場的歷史故障信息,對SCADA(Supervisory Control and Data Acquisition,監控和數據采集系統)瞬時數據的時間序列模式提取,挖掘槳距角一致性、變槳過程曲線模態、振動模式、變槳電機溫差、ng5充電電流差異等斷裂征兆模式,通過多模型融合和深度學習,提前90h進行斷裂預警,通過預防性維修消除重大故障隱患。大數據還對20ms數據進行分析,分析斷裂后發電機轉速、風速、功率、電磁扭矩等多指標時間序列模式變化,將當前PLC超短時報警提前1s,降低故障可能的破壞風險。
●機組健康管理
建立并完善系統安全體系;建立整機、大部件健康評估模型,實現預警功能;建立風電場級健康安全管理及優化體系;建立解決方案中心,實現模型引擎的遠端運行,達到既能做出風力發電機組健康綜合評估診斷也能做出解決方案的“醫院”級功能,成為健康評估模型中探索模型的“試驗平臺”,可實現各類模型的快速迭代優化。
工業大數據是實現智能制造的基礎原料,是提升工業生產力、競爭力、創新力的關鍵要素。中國不僅是制造大國更是使用大國,在裝備應用過程中產生的海量機器數據正是工業大數據的主體,為我國智能制造創新發展提供了獨特而豐富的戰略資源;同時,對于國計民生息息相關的裝備制造業而言,工業大數據更是事關國家安全與主權。工業大數據是一個正在發展的學科領域,在內涵外延、模型理論、技術方法及其實施策略等方面,我國和國際巨頭處在同一起跑線上。必須緊密結合中國國情認真實踐,加大投入,快速研發,走出中國工業大數據自主發展之路,實現國產化工業大數據軟件技術的彎道超車與應用的自主可控,支撐制造強國戰略目標落地實現。
Industrial big data technologies
WANG Jianmin
Industrial big data consist of enterprise data, IOT data and external data, whose volume is very huge and which is a primary driven-force of the new-round industry revolution.Where do the industrial big data come from is explored first. Next,the data characteristics,“heterogeneous, interrelated and high- throughput”, and the application characteristics,“physicalcyber,inter-enterprises and cross-domain”data integration, are described. The technical challenges on data management and analysis are presents thereafter.An industrial big data use case on wind turbine farm are given. Finally we suggest we should build an industrial big data software platform by ourselves.
big data, industrial big data; data characteristics; application characteristics; key technologies; use case
2016-07-21)