999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

紡織行業數據處理過程中大數據技術的選擇與應用

2017-04-10 19:45:18劉佩全
紡織導報 2017年3期
關鍵詞:數據處理分析模型

劉佩全

紡織行業擁有經濟運行數據、海關進出口數據、企業生產經營數據、產業集群的經濟運行數據、市場價格數據、電商平臺以及經濟信息資訊等各類行業數據信息,這些數據能夠從宏觀上反映行業的運行態勢。紡織行業開展行業運行數據的統計分析工作已有多年,簡單的數據統計分析經驗已經很豐富,但要說清多種數據之間的相關性,依靠傳統的BI技術和統計分析方法相對困難。大數據技術Hadoop可以很好地解決紡織行業海量數據的處理、計算、存儲以及挖掘等問題,再結合隨機森林、支持向量機、樸素貝葉斯、決策樹、線性回歸等數學統計算法,有助于探索紡織行業大數據處理的最佳方案,在紡織大數據中找到影響市場發展、價格等的關鍵因素,從而為整合紡織行業數據提供保障,為行業發展和政策制定提供借鑒和參考。

一、紡織行業大數據技術的應用

1.數據的抓取與清洗

紡織行業數據種類繁多,其中包括互聯網抓取各國海關數據、電商銷售產品價格數據、國家統計局數據、匯率、專業市場產品價格、產業集群企業經營狀況數據、上市公司財務數據及經濟運行信息等約40大類數據,100個左右小類數據,它們統一存儲于關系型數據庫和Hadoop的HIVE中。

利用大數據Hadoop技術的MapReduce框架多實例下并行清洗紡織數據,以數據字典為基礎,通過對入庫語句進行分詞或者語義分析,使得大數據的預處理得以準確實現。MapReduce框架通過任務追蹤器啟動“Reduce”任務,匯總Map階段存儲在各個節點上的結果數據,獲得原始查詢的“答案”,然后將“答案”加載到集群的另一個節點中,實現了多種分析環境結合的結果分析。Hadoop技術高效處理和分析數據的能力,節省了非結構化和半結構化數據處理的成本和開支。Hadoop集群可靈活增加數據節點,數據由TB級擴展到EB級很方便,不必依賴樣本數據集,就可以處理和分析所有相關數據。 具體如圖 1 所示。

2.數據恢復

大數據Hadoop技術已充分考慮數據安全問題,數據至少保存 3 份,并設置回收站功能,對于誤刪除的數據可隨時恢復,只需簡單配置即可。

找到配置文件core-site.xml,在其中添加如下信息:

fs.trash.interval

9999

其中9999代表分鐘數,即代表刪除的文件或目錄在“.Trash”(回收站)中保留的時間,可自行設置。

用hadoop fs -lsr 時暫時看不到.Trash,在刪除某個文件或者目錄之后,再次用lsr即可看到所在目錄下的回收站.Trash已經建好:再用hadoop fs -mv user/cloud/.Trash/ Current/user/cloud/123456789/user/cloud,即可恢復需修復的數據。

3.數據離散化

依托大數據技術對紡織行業數據進行離散化處理。由于紡織行業數據中的極端值對模型效果影響較大,容易導致模型虛假現象出現,將原本不存在的關系作為重要關系學習,從而導致模型算出錯誤的結果。為了防止此現象產生,必須對連續型數據進行離散化處理,自變量和目標變量之間的相對關系變得清晰。如果自變量和目標變量之間是非線性關系,可以重新定義離散后變量取值,如采取0,1的形式,由一個變量派生為多個變量,分別確定每段和目標變量間的聯系,雖減少了模型的自由度,但可提高模型的靈活度。

4.數據模型的選擇

大數據技術含有豐富的計算方法和數據模型,利用這些模型和算法對紡織行業數據進行相關性分析和挖掘,分析出紡織行業數據之間潛在的關系和價值,實現對紡織行業發展的預測和預警。常用的分類算法有決策樹、樸素貝葉斯分類、K-近鄰、支持向量機、線性回歸、曲線擬合等,不同應用場景應選擇不同的應用模型,同一應用場景則選擇計算結果最好的模型。

5.大數據技術架構和結果展現

大數據Hadoop技術集群可提供海量數據的存儲與處理能力,通過軟硬件優化與整合,形成一套高性能的軟硬一體的紡織大數據解決方案,其體系架構如圖 2 所示。

紡織數據進入Hadoop系統,經過數據處理和模型選擇之后,各類數據指標結合各種分析模型,利用Hadoop高效處理紡織數據的能力,可秒級生成分析結果,再根據結果進行紡織行業的研判與預測。

在紡織行業運行指標預測時,經常用到線性回歸模型,以找到不同指標之間可能存在的關系。以城鎮居民衣著類消費支出和城鎮居民收入兩個指標為例。多年來居民收入的快速增長帶動了衣著類消費的增長,2004 — 2014年,我國城鎮居民人均衣著類消費增長2.08倍,年均增長11.91%,兩個指標之間似乎存在某種動態關系。從Hadoop中調取若干年指標,應用回歸模型進行擬合運算,得到回歸方程, Y=0.073X+30.823(Y代表城鎮居民衣著類消費支出,X代表城鎮居民收入)。圖 3 給出了計算過程,但圖中數據不作為現實分析數據使用。

一是選擇模型,根據紡織行業分析需要,從模型庫調取分析模型,每種模型對應不同的影響因素和分析算法;

二是選擇參數,調取指標庫數據,選擇要分析的幾個指標,并選擇合適的周期(如年、月、時間段);

三是生成結果,根據模型運算,生成分析結果,并可對各系數進行手動調整,對未來指標進行預測。

通過模型運算,可發現不同指標之間的關系,為紡織行業進行運行分析及預測提供數據參考。

二、大數據技術在紡織行業數據處理中的應用前景

當今,紡織行業正在采用多種方式采集行業數據及信息,以期能夠建立覆蓋紡織行業經濟運行、專業市場、產業集群、進出口、電子商務等多方面的行業綜合數據庫系統,最終構建行業大數據信息服務平臺,更好地為國家宏觀管理部門的決策服務,為企業應對市場變化服務,促進行業平穩、健康、可持續發展。

大數據技術Hadoop本身是一個全新的數據處理和分析技術,擁有超過現有技術的強大處理能力和深度挖掘數據的能力,這是以往的方式所不具有的優點。因此,紡織行業在利用Hadoop進行數據處理之時,必須真正認識并充分利用其優點,根據實際情況和需求選擇合適的方式進行數據處理。大數據技術在紡織行業數據處理中,不但能夠節約大量的時間和人工成本,更重要的是可以完成傳統數據庫無法完成的非結構化數據的直接處理,在建立紡織行業大數據信息服務平臺中發揮重要作用。

猜你喜歡
數據處理分析模型
一半模型
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
主站蜘蛛池模板: 国产美女免费| 91综合色区亚洲熟妇p| 狠狠综合久久| 萌白酱国产一区二区| 欧美a在线看| 亚洲精品欧美日本中文字幕| 国产精品林美惠子在线观看| 久久精品中文字幕免费| 亚洲欧美激情小说另类| 日本一本在线视频| 国产精品成人观看视频国产| 无码视频国产精品一区二区| 亚洲男人天堂2018| 欧亚日韩Av| 99久久人妻精品免费二区| 亚洲狼网站狼狼鲁亚洲下载| 美女扒开下面流白浆在线试听 | 国产精品综合色区在线观看| 精品久久久无码专区中文字幕| 福利国产在线| 四虎综合网| 国产第一页屁屁影院| 视频国产精品丝袜第一页| 97超爽成人免费视频在线播放| 国语少妇高潮| 高清免费毛片| 在线欧美一区| a级毛片免费网站| 国产性生交xxxxx免费| 国产不卡网| 亚洲国产欧美中日韩成人综合视频| 亚洲AV无码久久精品色欲| 天天摸天天操免费播放小视频| 亚洲黄网视频| 性网站在线观看| hezyo加勒比一区二区三区| 国产成人免费高清AⅤ| 国产精品一线天| 国产精品免费露脸视频| 色久综合在线| 中文字幕佐山爱一区二区免费| 91免费片| 亚洲swag精品自拍一区| …亚洲 欧洲 另类 春色| 亚洲欧美日韩精品专区| 成人中文字幕在线| 一级做a爰片久久免费| 精品偷拍一区二区| 91麻豆精品国产91久久久久| 在线观看国产精美视频| 色天堂无毒不卡| 日本不卡在线| 日韩精品亚洲人旧成在线| 国产理论一区| 久久这里只有精品国产99| 99精品高清在线播放| 国产日韩丝袜一二三区| 国产女人在线视频| 99久久婷婷国产综合精| 97超爽成人免费视频在线播放| 国产在线91在线电影| 99视频精品在线观看| 久久精品国产国语对白| а∨天堂一区中文字幕| 久久99国产综合精品1| 国产91av在线| 91久久大香线蕉| 18禁高潮出水呻吟娇喘蜜芽| 亚洲av无码久久无遮挡| 999在线免费视频| 九九久久99精品| 91精品aⅴ无码中文字字幕蜜桃| 成人在线第一页| 大陆国产精品视频| 特级精品毛片免费观看| 国产区在线观看视频| 久久久久久高潮白浆| 国产流白浆视频| 国产精品午夜福利麻豆| 日韩精品亚洲精品第一页| 免费人成视频在线观看网站| 日韩精品中文字幕一区三区|