劉佩全
紡織行業擁有經濟運行數據、海關進出口數據、企業生產經營數據、產業集群的經濟運行數據、市場價格數據、電商平臺以及經濟信息資訊等各類行業數據信息,這些數據能夠從宏觀上反映行業的運行態勢。紡織行業開展行業運行數據的統計分析工作已有多年,簡單的數據統計分析經驗已經很豐富,但要說清多種數據之間的相關性,依靠傳統的BI技術和統計分析方法相對困難。大數據技術Hadoop可以很好地解決紡織行業海量數據的處理、計算、存儲以及挖掘等問題,再結合隨機森林、支持向量機、樸素貝葉斯、決策樹、線性回歸等數學統計算法,有助于探索紡織行業大數據處理的最佳方案,在紡織大數據中找到影響市場發展、價格等的關鍵因素,從而為整合紡織行業數據提供保障,為行業發展和政策制定提供借鑒和參考。
一、紡織行業大數據技術的應用
1.數據的抓取與清洗
紡織行業數據種類繁多,其中包括互聯網抓取各國海關數據、電商銷售產品價格數據、國家統計局數據、匯率、專業市場產品價格、產業集群企業經營狀況數據、上市公司財務數據及經濟運行信息等約40大類數據,100個左右小類數據,它們統一存儲于關系型數據庫和Hadoop的HIVE中。
利用大數據Hadoop技術的MapReduce框架多實例下并行清洗紡織數據,以數據字典為基礎,通過對入庫語句進行分詞或者語義分析,使得大數據的預處理得以準確實現。MapReduce框架通過任務追蹤器啟動“Reduce”任務,匯總Map階段存儲在各個節點上的結果數據,獲得原始查詢的“答案”,然后將“答案”加載到集群的另一個節點中,實現了多種分析環境結合的結果分析。Hadoop技術高效處理和分析數據的能力,節省了非結構化和半結構化數據處理的成本和開支。Hadoop集群可靈活增加數據節點,數據由TB級擴展到EB級很方便,不必依賴樣本數據集,就可以處理和分析所有相關數據。 具體如圖 1 所示。
2.數據恢復
大數據Hadoop技術已充分考慮數據安全問題,數據至少保存 3 份,并設置回收站功能,對于誤刪除的數據可隨時恢復,只需簡單配置即可。
找到配置文件core-site.xml,在其中添加如下信息:
其中9999代表分鐘數,即代表刪除的文件或目錄在“.Trash”(回收站)中保留的時間,可自行設置。
用hadoop fs -lsr 時暫時看不到.Trash,在刪除某個文件或者目錄之后,再次用lsr即可看到所在目錄下的回收站.Trash已經建好:再用hadoop fs -mv user/cloud/.Trash/ Current/user/cloud/123456789/user/cloud,即可恢復需修復的數據。
3.數據離散化
依托大數據技術對紡織行業數據進行離散化處理。由于紡織行業數據中的極端值對模型效果影響較大,容易導致模型虛假現象出現,將原本不存在的關系作為重要關系學習,從而導致模型算出錯誤的結果。為了防止此現象產生,必須對連續型數據進行離散化處理,自變量和目標變量之間的相對關系變得清晰。如果自變量和目標變量之間是非線性關系,可以重新定義離散后變量取值,如采取0,1的形式,由一個變量派生為多個變量,分別確定每段和目標變量間的聯系,雖減少了模型的自由度,但可提高模型的靈活度。
4.數據模型的選擇
大數據技術含有豐富的計算方法和數據模型,利用這些模型和算法對紡織行業數據進行相關性分析和挖掘,分析出紡織行業數據之間潛在的關系和價值,實現對紡織行業發展的預測和預警。常用的分類算法有決策樹、樸素貝葉斯分類、K-近鄰、支持向量機、線性回歸、曲線擬合等,不同應用場景應選擇不同的應用模型,同一應用場景則選擇計算結果最好的模型。
5.大數據技術架構和結果展現
大數據Hadoop技術集群可提供海量數據的存儲與處理能力,通過軟硬件優化與整合,形成一套高性能的軟硬一體的紡織大數據解決方案,其體系架構如圖 2 所示。
紡織數據進入Hadoop系統,經過數據處理和模型選擇之后,各類數據指標結合各種分析模型,利用Hadoop高效處理紡織數據的能力,可秒級生成分析結果,再根據結果進行紡織行業的研判與預測。
在紡織行業運行指標預測時,經常用到線性回歸模型,以找到不同指標之間可能存在的關系。以城鎮居民衣著類消費支出和城鎮居民收入兩個指標為例。多年來居民收入的快速增長帶動了衣著類消費的增長,2004 — 2014年,我國城鎮居民人均衣著類消費增長2.08倍,年均增長11.91%,兩個指標之間似乎存在某種動態關系。從Hadoop中調取若干年指標,應用回歸模型進行擬合運算,得到回歸方程, Y=0.073X+30.823(Y代表城鎮居民衣著類消費支出,X代表城鎮居民收入)。圖 3 給出了計算過程,但圖中數據不作為現實分析數據使用。
一是選擇模型,根據紡織行業分析需要,從模型庫調取分析模型,每種模型對應不同的影響因素和分析算法;
二是選擇參數,調取指標庫數據,選擇要分析的幾個指標,并選擇合適的周期(如年、月、時間段);
三是生成結果,根據模型運算,生成分析結果,并可對各系數進行手動調整,對未來指標進行預測。
通過模型運算,可發現不同指標之間的關系,為紡織行業進行運行分析及預測提供數據參考。
二、大數據技術在紡織行業數據處理中的應用前景
當今,紡織行業正在采用多種方式采集行業數據及信息,以期能夠建立覆蓋紡織行業經濟運行、專業市場、產業集群、進出口、電子商務等多方面的行業綜合數據庫系統,最終構建行業大數據信息服務平臺,更好地為國家宏觀管理部門的決策服務,為企業應對市場變化服務,促進行業平穩、健康、可持續發展。
大數據技術Hadoop本身是一個全新的數據處理和分析技術,擁有超過現有技術的強大處理能力和深度挖掘數據的能力,這是以往的方式所不具有的優點。因此,紡織行業在利用Hadoop進行數據處理之時,必須真正認識并充分利用其優點,根據實際情況和需求選擇合適的方式進行數據處理。大數據技術在紡織行業數據處理中,不但能夠節約大量的時間和人工成本,更重要的是可以完成傳統數據庫無法完成的非結構化數據的直接處理,在建立紡織行業大數據信息服務平臺中發揮重要作用。