章惠 周萍
摘 要:大數據及其相關技術是目前全社會關注的熱點問題,文章介紹了大數據的概念,分析了大數據給行業和企業帶來的利益,重點分析大數據技術中的重要模型和算法及其應用,隨后在生產和物流領域介紹了大數據的模型和算法在企業的應用進展,最后給出相關建議。
關鍵詞:大數據;模型;算法;生產;物流
中圖分類號:F253.9 文獻標識碼:A
Abstract: Big data and its related technologies are the hot issues of whole society, this article first introduces concept of big data, then analyzes the benefit which big data can bring to industries and enterprises, and emphasizes the applications of main models and algotithms of big data, then analyzes the progress of application of big data models via the angle of production and logistics fields.
Key words: big data; model; algorithm; production; logistics
大數據是近年來學術界和產業界共同關注的熱點問題,2015年5月國務院下發的《中國制造2025》規劃中將大數據作為未來十年發展的重點方向之一,目前國家工業與信息化部正在著力編制“國家大數據發展十三五規劃”。這些動作都表明大數據在我國有著廣闊和巨大的發展空間,并且將受到國家產業政策的長期重點扶持。
2014年,我國軟件業務收入為3.7萬億元,其中數據處理和存儲類服務實現收入6 834億元,同比增長22.1%,占全行業比重為18.4%。大數據已經在金融、通信、交通、制造、醫療等各個領域開展較多應用,并將成為制造業轉型升級和提升競爭力的關鍵要素。
1 大數據簡介
目前學術界并沒有對大數據有一個明確嚴謹的定義,只是一般來說,如果一個行業或者企業能夠產生大量的數據,一般就稱之為“大數據”。從技術層面理解,大數據的“大”一般體現在以下幾個層面:(1)存儲介質大,對于大數據而言,一般的桌面級電腦的硬盤已經遠遠不能滿足需求,往往需要大型的磁盤陣列等進行存儲,同時由于大數據行業每天都在產生大量的數據,因此對于大數據的壓縮、備份等方面均提出了比較高的需求;(2)處理能力強大,隨著數據量的攀升,對于處理系統技術的要求是呈幾何數量提升的,例如新浪微博需要為千萬級用戶實時快速計算并刷新關注、粉絲、微博的計數,并對用戶及時通知新消息等,這些都需要極高的處理能力;(3)來源多樣化,大數據可能是非常規整的各類數據,也可能不是規整的數據,例如非結構化的自然語言等,這些也給大數據的處理和利用帶來了技術上的難度。
目前在國內,數據分析和挖掘領域做得比較好的還是在通訊、金融、互聯網等行業,主要作為傳統行業的制造型行業,在大數據方面的應用還是比較少的,或者至多是處于起步階段。下面我們首先看看大數據能給行業和企業帶來什么?
2 大數據能給我們帶來什么?
根據“大數據”概念的提出方——美國IBM公司的構想,大數據將主要在四個方面給我們帶來收益:
2.1 節約成本
可以運用大數據技術有效地節約成本,這一點在生產型企業表現得比較突出,例如美國GE公司在飛機制造中利用大量分布在飛機渦輪上的傳感器上傳回的實時數據進行分析,從而有效地預測飛機葉片上何時會產生裂縫。另外一個著名的案例是美國UPS公司在公司的送貨車安裝了4.6萬多個遠程信息感應器,用來傳送速度、方向、剎車以及行駛表現數據,公司對這些大數據進行分析以優化貨物的運送路徑。在國內也有一些企業采用大數據技術來降低生產成本,例如北京、廣東的數家生產型企業利用IBM SPSS的“預測性維護”模塊來智能預測設備的最佳維護時間,從而有效地降低了企業的生產成本。
2.2 有效地縮短計算時間
在大規模生產和運營的過程中,有很多數據需要及時刷新、分析和利用,采用常規技術和手段計算時間比較慢,無法達到生產和運營的要求,因此需要參與創新的大數據技術來縮短計算時間,例如某印刷企業對商品的打折定價最優化的計算,原來需要27小時才能做完,采用大數據技術后,1小時就能計算完畢。
2.3 生產虛擬模型化提升運營效率
在傳統的制造企業中,大量的數據分布于企業中的各個部門中,要想在整個企業內及時、快速提取和匯總這些數據存在一定的困難,創建產品生命周期管理(PLM)平臺是解決這個問題的方法之一,其好處在于可以充分整合來自研發、工程、生產部門的數據,對工業產品的生產進行虛擬模型化,優化生產流程,提升組織的運營效率,縮短產品的研發與上市時間。西門子的PLM軟件平臺可以在計算機生成的三維模型下模擬生產工藝,在實際生產之前發現生產工藝中的薄弱點,安徽奇瑞汽車曾經利用它查出某車型頭燈生產中的問題,為公司避免了10多萬美元的損失。
2.4 更準確地判斷市場需求
運用大數據技術,可以提高市場營銷的效率,例如在網站頁面上對用戶進行產品推薦,在海量數據中對用戶的消費者行為進行分析,甚至進行一些跨部門跨行業的大數據分析,將其結論用于產品和服務的創新。在工程機械行業,很多挖掘機都安裝了GPS定位系統以實時監控車輛運行情況。同樣,日本小松公司的挖掘機也安裝了GPS定位系統,在實時監控車輛運行情況的同時,還根據挖掘機每個月的工作量統計全年的工作情況并由此判斷下一年度的市場需求。挖掘機開工越飽滿,說明市場需求越旺盛,如果客戶購買挖掘機后每個月的工作量很少,說明市場有可能面臨過剩的風險。endprint
在明確了大數據能夠給行業和企業帶來變革和改進之后,繼續進一步細化分析大數據技術包含的常見的算法和模型。
3 大數據常用模型和算法
無論采用什么樣的技術架構和存儲設備,大數據的應用最后還是要落實到具體的模型和算法上,因此對數據分析和挖掘模型和算法的理解,進而對理解大數據在行業和企業的應用非常有幫助。
從目前的市場態勢看,常用的分析模型和算法基本上都已經被編制成軟件模塊,因此從市面上流行的分析軟件和解決方案入手,基本可以搞清楚主要的分析模塊。目前在數據分析挖掘軟件上比較領先的公司有IBM、SAS、SAP等,縱觀這些市場上的著名軟件,可以將主要的數據分析挖掘的模塊區分如下:
(1)異常值分析:異常值分析是數據分析和挖掘的重要問題之一,異常值指數據中的極大值、極小值或者背離趨勢的值,例如原來數據是在增長中,突然數據開始下降,也可以作為數據異常值考慮。異常值的模型和算法中包括三倍標準差等算法,在此不再贅敘。
(2)相似或聚類分析:從大的范疇來看,相似或者聚類都屬于數據分類的范疇,相似是把數據中有相似特征的數據挑選出來分門別類,聚類的思路也比較類似。
(3)數據間關系判斷:我們經常要搞清楚數據之間的關系,回歸是分析數據之間是否有關系以及將數據間關系用類似數學方程式的方式表達的分析方法,回歸包括一般的線性回歸、非線性回歸以及logistic回歸等。
(4)關聯分析:關聯分析是數據挖掘中的經典算法,它主要關注數據之間是否同時出現以及數據之間次序出現的關系,例如數據A和數據B同時出現的概率是多少,也例如數據A出現的時候、數據B出現的概率是多少,關聯分析的結果經常被用來產品的營銷推薦和捆綁銷售。
(5)決策樹工具:決策樹實際上也是一個分類算法,該算法采用樹形結構分析數據之間的相互影響關系,來探討數據之間的影響關系和次序關系,例如汽車銷售4S店利用決策樹模型對汽車選購數據進行分析,分析性別、年齡、職業、首次購車/非首次購車等因素對于汽車品牌等選擇的影響,取得了比較好的效果。目前比較好的決策樹模型有c5.0、CHAID等著名算法。
(6)預測模型:預測一直是數據分析和挖掘的核心功能之一,預測是在歷史數據的基礎上對未來數據進行預測,目前市面上流行多種預測模型和算法,包括時間序列、神經網絡等。
在以上的統計挖掘模型之外,近年來在大數據領域受到熱點關注的功能就是網絡爬蟲功能。爬蟲就是按照一定的搜索需求在互聯網上進行內容抓取,例如在某一個特定的網站上抓取“價格”相關的信息。爬蟲軟件目前在如下幾個方面得到了重點關注并獲得了較多的應用:網絡營銷、產品設計、輿情分析等方面,商家希望及時獲得消費者和社會大眾對于產品的評價和反應,以確定自己的包括定價在內的營銷策略和產品設計,政府希望獲知老百姓對于政府政策、突發事件等方面的反應等。現在市面上爬蟲軟件眾多,有開源免費的軟件,也有收費的商業軟件,功能差異很大。值得注意的是,一些企業處于保護自身競爭優勢以及企業機密的角度出發,現在逐步開始對爬蟲軟件進行限制,例如新浪微博、騰訊微信等,這在很大程度上限制了爬蟲軟件的應用。
4 大數據模型和算法在企業中的應用
從企業的職能來說,主要可以分為生產、采購、營銷、財務、人事等職務,其中生產和營銷是企業最主要的功能,主要看大數據模型算法等在企業生產和物流方面的應用控件。
4.1 在生產領域的應用
在生產領域,大數據技術現在應用的最大亮點莫過于提高生產質量和降低生產成本,我們以異常點分析和聚類模型為例,上海某大型印刷企業在收集不同批次的產品質量數據之后,采用以下的步驟進行產品故障分析:
如圖1,在產品批次數據庫上,采用聚類算法將低產品合格率的批次數據挑選出來,在多工序多機臺的工作環境下,采用“加工路徑分析”方法找出可能存在問題的機器設備,然后結合實驗設計調整生產工藝參數,提高產品質量。
另外一個降低生產成本的案例是IBM SPSS推出的“預測性維護”的數據挖掘模塊,工廠設備的維護基本是按照“定時維護”的原則,即制定好設備的維護計劃,到點就對機器設備進行維護,而不管設備的實際運行狀況如何。“預測性維護”模塊首先會收集大量的關于設備的各項數據,包括設備類型、運行天數、工作電壓、距離上次服務的天數、距離下次服務的天數、故障歷時記錄、計劃內和計劃外的維護成本、零件相關的數據等等,然后進行相關的統計分析(包括比較復雜的數據回歸等),并給出最佳的設備維護建議。國內外一些生產型企業采用了該模塊后,取得了比較好的效果,有效地降低了企業生產和維護成本。
4.2 在物流領域的應用
大數據模型和算法在其他領域的應用也在增多,據筆者了解到,上海某大型印刷企業針對其物流成本高的現狀,借助數據分析和挖掘技術對該企業的物流成本進行了分析。該企業將過去五年的物流成本進行了匯總,其數據以周為單位,整理了包括包裝、運輸、庫存、裝卸四大類物流成本,明細的會計科目有22個,隨后采用相關分析和回歸分析等手段對物流成本數據進行了分析,通過分析,該企業明確了各類物流成本的占比以及彈性,明確了物流成本壓縮的重點,取得了較好的效果。
在物流業實施RFID技術的研討和實施一直在持續不斷地進行著。RFID(無線射頻識別技術)是一項基于電子標簽,配套其他外圍基礎設備,如外置天線、讀寫裝置和打印機等的系統技術。RFID是通過“發送信號”、“接受信號”以及“處理信號”三大步驟來完成的。利用RFID技術,將特殊的信息編碼寫進電子標簽,粘貼在需要識別的物體上,通過無線射頻方式進行非接觸雙向通信,一邊識別一邊交換數據。惠普在美國田納西州的物流配送中心倉庫,為北美多個企業,如沃爾瑪、BestBuy等提供促銷專用的打印機。惠普與參加打印機促銷活動的商家展開活動,以托盤為單位進行RFID標簽應用,為裝載促銷打印機的托盤上加貼一張RFID標簽,打印機從配送中心出貨后,在各個中轉點進行數據的讀取和采集,這樣產品在何時、何地或者經過何地這些實時信息,可以提供給決策者進行決策,能夠及時處理和判斷各類問題。通過RFID技術,可以大大提高商品的物流和營銷效率。
大數據效益最終不是體現在直接的經濟收益上,而在于幫助企業提升競爭力,能夠更清楚地應對客戶需求,提供優質服務,“只要我們的制造業水平能隨之得以提高,制造業+大數據的做法就應該堅持下去。”
5 結束語
大數據技術目前在各行各業的應用都在推進,制造型企業也是如此。相對于金融、通訊等行業來說,大數據技術在制造業基本還處于起步階段,但是這也預示著大數據各項技術在這個行業有很大的應用空間。對于制造型企業來說,關注大數據技術及其發展趨勢,結合行業的需求現狀,合理采用大數據技術,有效地推進企業的生產、降低成本、提高運營效率,是相關企業目前需要關注的重要問題之一。
參考文獻:
[1] 趙國棟,易歡歡,糜萬軍,等. 大數據時代的歷史機遇:產業變革與數據科學[M]. 北京:清華大學出版社,2013:2-48.
[2] 張文菡,白迪. 網絡云印刷模式評價及平臺構建[J]. 出版與印刷,2014,6(1):34-38.
[3] 曹宏遂. 抓住文化產業發展機遇 推動印刷業轉型升級[J]. 印刷經理人,2012(11):40-43.
[4] 王喜文. 大數據驅動制造業邁向智能化[J]. 物聯網技術,2014(12):7-8.
[5] 張靜. 制造業利用大數據的要領[J]. 自動化技術與應用,2014(6):115-116.
[6] 盧瑋朋,梁金星. 大數據時代小微印刷企業的發展策略研究[J]. 包裝學報,2015(4):63-68.
[7] 孟小峰. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展,2013(1):147-169.
[8] 黃孝章,劉益. 大數據時代出版業發展趨勢研究[J]. 科技與出版,2014(10):99-103.
[9] 歐陽峰. 商業模式創新研究的演化路徑與展望[J]. 科技管理研究,2010(12):12-16.
[10] 荊浩. 大數據時代商業模式創新研究[J]. 科技進步與對策,2014,31(7):15-19.endprint