王小平 張望 姜繼勤



摘? ?要:在家蠶規模化養殖過程中,投資決策者需要對家蠶養殖過程中每個環節的情況有所了解,對市場需求、市場存量、上下游配套關系等進行數據分析,才能做到科學決策。文章利用大數據分析手段,從技術的角度探討了家蠶養殖行業大數據分析系統平臺的設計和實現,對家蠶養殖產業具有一定的參考作用。
關鍵詞:智慧養蠶;生態鏈;大數據
在家蠶養殖的智能化改造升級過程中[1],研究人員發現大規模智能化養蠶將結束蠶繭行業散亂差的局面[2],但是迎來的問題也是前所未有的。家蠶養殖涉及的產業鏈包括桑樹的種植、家蠶養殖、繭絲綢生產銷售、絲綢醫藥等應用環節。我國目前蠶繭年產量約60~80萬噸,如果各地規模性地投資智能化養蠶系統,勢必將對上下游產業鏈產生重大影響。引入大數據分析技術,可以精準了解桑葉產能及國際國內蠶繭市場行情,方便政府及行業進行戰略決策,以保證整個產業生態鏈健康有序發展,為企業投產輔助決策。
1? ? 選型及邊界
調研智慧家蠶養殖企業,明確了業主關心的是對家蠶蠶繭市場(包括國際國內)的整體分析,對家蠶養殖原料(主要是桑葉)的市場行情分析,以及對養殖過程中的相關數據分析,如圖1所示(數據主要來自于網絡)。根據該應用場景對大數據平臺進行技術選型。
大數據平臺第一個要素是數據源,要處理的數據源包括家蠶養殖數據、銷售系統數據、桑樹種植數據、桑葉產量數據、各地政策等業務數據;數據分析不會直接對業務的數據源進行處理,而是先經過數據采集、數據預處理、數據存儲,之后才能進行數據分析及結果展現等。完成數據工程需要大量的資源,利用監控和協調分派來控制和協調這些資源;部署要更方便、更容易地大規模的數據,確認是否需要集群,還涉及日志、安全以及與云的結合,這些在實際設計的時候需要明確下來。
2? ? 系統設計
系統包括數據采集、數據處理、數據分析、數據解釋及展現4個部分,如圖2所示。
(1)數據采集是指將來自于RDBMS的結構型數據、來源于網絡Web的半結構型數據以及文檔型數據進行數據采集、數據整合[3]。
(2)數據處理及存儲指將采集到的數據進行數據清洗、分類、修正,形成可信數據,最終將相關聯的數據進行存儲。外部數據的結構跟企業內部數據的結構不一樣,需要進行轉換,爬蟲爬取的數據結構更亂。大數據平臺里需要進行數據的提取、轉換、加載、清洗、去重、去噪。爬蟲爬過來的數據往往是非結構性的、文檔型的數據,還有視頻、音頻,需要去做數據清洗、數據預處理等工作。
(3)數據分析是指運用數據挖掘、智能算法、云計算等技術對處理并存儲后的數據進行分析,形成歷史趨勢分析報告,并在此基礎上預測下一年乃至于幾年蠶桑養殖行業的發展趨勢。
(4)數據解釋及展現是將結果以數據、圖表、曲線、模擬等方式展現給用戶,供用戶閱讀和決策參考,是呈現給用戶最終的結果。
3? ? 系統實現關鍵點
3.1? 數據采集的實現
結構型數據屬于企業內部數據,需要與企業生產系統對接(如各養殖基地在養殖過程中的產量、原料消耗等數據);半結構型數據(如交易市場蠶繭銷售交易數據)和文檔型數據(如企業報告給當地政府商務局的報表)屬于外部數據,有兩種處理方法:(1)要獲取的外部數據本身提供API,可以調用API獲取。(2)數據本身不提供API,需要通過爬蟲技術爬取過來。圖3為爬取處理過程。
3.2? 數據處理的實現
通過系統本身的業務數據、管理員錄入的業務數據、日志數據,通過不同的方式采集后,存入到HDFS[4],HBASE中,對數據進行預處理,如圖4所示,包括數據清洗、日志解析、分類合并等工作,最后進行數據統計分析、數據展現,并存入HIVE數據倉庫[5]。
3.3? 數據分析及展現的實現
將處理并存儲后的數據運用數據挖掘、智能算法、云計算等技術,對數據進行分析。本系統需要做3個方面的數據分析:(1)統計分析,使用MapReduce[6]或Spark。(2)做查詢檢索,同步寫到HDFS的同時還要考慮寫到ES里。(3)做統計分析,先建立一個Cube,然后再進入OLAP的場景[7-8]。
數據分析后形成歷史趨勢分析報告,并在此基礎上預測下一年乃至于幾年蠶桑養殖行業的發展趨勢。如圖5所示,通過報表及報告的形式展現給不同的用戶。
4? ? 結語
通過本次大數據平臺系統設計,本研究搭建了基本大數據分析框架,并利用Java語言進行了實現,基本滿足了企業、行業以及政府部門對蠶桑養殖行業上下游產業鏈的數據分析需求。但在功能上還有很多不完善的地方,需要在后續過程中迭代完善。
[參考文獻]
[1]聶萌瑤,張峙.大數據下基于Hadoop的智能物流平臺架構[J].無線互聯科技,2018(17):15-16,40.
[2]雷軍,葉航軍,武澤勝,等.基于開源生態系統的大數據平臺研究[J].計算機研究與發展,2017(1):80-93.
[3]董賀,徐凌宇.基于云平臺的軟件服務流體系結構[J].上海大學學報(自然科學版),2013(1):14-20.
[4]曹寧,吳中海,劉宏志,等.HDFS下載效率的優化[J].計算機應用,2010(8):2060-2065,2240.
[5]紀俊.一種基于云計算的數據挖掘平臺架構設計與實現[D].青島:青島大學,2009.
[6]萬至臻.基于MapReduce模型的并行計算平臺的設計與實現[D].杭州:浙江大學,2008.
[7]梁年貴.家蠶省力化養殖技術探討[J].南方農業,2015(3):144-145.
[8]李建琴.蠶桑產業轉型升級理論與路徑[J].蠶業科學,2017(3):361-368.
Analysis on the platform architecture of big data analysis system for
upstream and downstream ecological chain of smart sericulture
Wang Xiaoping, Zhang Wang, Jiang Jiqin
(Chongqing City Management College, Chongqing 401331, China)
Abstract:In the process of large-scale sericulture, as an investment decision-maker, we need to understand the situation of each link in the process of sericulture, and analyze the data of market demand, market stock, upstream and downstream supporting relationship, to make a scientific decision. Using big data analysis method, this paper discusses the design and implementation of big data analysis system platform in sericulture industry from the technical point of view, which has a certain reference role for sericulture industry.
Key words:smart sericulture; ecological chain; big data