


摘要:在大數據時代,數據挖掘技術和工具已取得矚目的成就。該文基于八爪魚采集器在“肥仔水”項目中的具體應用,介紹了八爪魚的原理、特點以及使用方法,以及它在提升企業信息數據挖掘方面的優勢。
關鍵詞:數據挖掘;八爪魚;肥仔水;市場潛力
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2019)34-0017-03
1 概述
大數據和云計算的誕生改變了人類信息技術的面貌[1]。數據已經成為企業的核心資產。[2]大數據時代,如何迅速挖掘和分析數據,對于企業的決策有著重要的意義。近年來涌現出大量的數據挖掘軟件,如集搜客、八爪魚、狂人、Octoparse等,并且應用于商業、科技、政府等不同的領域。隨著“互聯網+”和電商的興起,大數據對商業經濟的影響越來越大,如何從海量的數據中尋找出有價值的信息變得迫在眉睫。[3]本文將利用八爪魚采集器在淘寶網和京東網上采集英國吳德物次腸痛水(簡稱肥仔水)以及其競爭對手的電商銷售數據,并根據采集結果進行進一步分析,判斷肥仔水是否能夠進入中國大陸市場并對其市場前景做以預估。
2 八爪魚采集器簡介
八爪魚采集器是由深圳視界信息技術有限公司自主研發,整合了網頁數據采集、移動互聯網數據及API接口服務(包括數據爬蟲、數據優化、數據挖掘、數據存儲、數據備份)等服務為一體的數據服務平臺。適合產品、運營、銷售、數據分析、政府機關、電商從業者、學術研究等多種身份職業的多種業務場景。可以提供輿情監控、市場分析、產品研發、風險預測等業務模塊。[4]
八爪魚客戶端使用的開發語言是C#,運行在Windows系統中,客戶端主程序負責任務配置及管理、任務的云采集控制以及云集成數據的管理。八爪魚采集器的核心原理是基于Firefox內核瀏覽器,通過模擬人瀏覽網頁的行為(如打開網頁、點擊網頁的某個按鈕等操作)和設計工作流程,對網頁內容進行全自動提取。它有四種采集模式:簡易采集、智能采集、向導模式、自定義模式。價格也分為五個不同的等級。采集結果可手動或自動導出到數據庫,存儲為Excel、soL、TXT、MYsoL等格式。
3 八爪魚采集器的特點
八爪魚采集器全網適用,眼見即可采集。還有智能防封功能,可以自動破解多種驗證碼,提供IP代理池,結合UA切換,可有效突破封鎖,順利采集數據。內置數百個網站數據源,全面覆蓋多個行業,并提供海量模板。同時還有分布式云集群服務器和多用戶協作管理平臺的支撐,可靈活調度任務,順利爬取數據。它可零門檻三步獲取數據:(1)打開客戶端,選擇建議模式和相應的網站模板;(2)預覽模板的采集字段、參數設置和示例數據;(3)設置對應的參數,保存運行完成數據采集并導出數據。
2019年4月25日八爪魚版本更新后,收費方式也進行了調整,從原有的免費版和私有云收費版,升級為更加具體化的收費方案,如表1所示。對比各種收費版本提供的服務,旗艦版可作為個人的首選,而旗艦+版本的性價比最高。
3.1 優勢
八爪魚的通用性強,適用于所有互聯網公開數據,可應對各種網頁的復雜結構(瀑布流等)和防采集措施,可實現百分之九十九的數據抓取。八爪魚操作簡單,無須技術背景,這一特點決定了八爪魚對初學者或者是零編程基礎的用戶十分具有親和力。它模擬人瀏覽網頁的操作,通過輸入文字、點擊元素、選擇操作項等一些簡單的操作,即可完成規則配置,無須編寫代碼,十分方便。八爪魚在真正意義上實現了操作流程可視化,用戶可打開流程按鈕,可以清晰地看見具體操作流程,并可對每一步驟,進行高級選項的設置(修改ajax/xpath等)。更新后的八爪魚收費標準更加豐富,給用戶提供更多的選擇。免費版具備所有的功能,能夠滿足用戶的基本采集需求,增值服務如云采集,有5000臺云服務器,可以24*7高效穩定的采集數據,結合API可無縫對接內部系統,定期同步爬取數據,可滿足高端付費企業用戶的需求,而且采集速度更快。
3.2 劣勢
八爪魚采集器目前還無法采集視頻中的數據,同時,它只能采集和判斷,并沒有計算功能。雖然八爪魚相較于神箭手、火車頭、Octoparse、Visual WebRipper、ContentGrabber等不需要代碼基礎,更為平易近人,但是它卻不像火車頭采集器具有同義、近義詞替換和參數替換的功能;和集搜客相比,八爪魚無法抓取超鏈接里的數據。[5]
4“肥仔水”案例數據挖掘及分析過程
肥仔水,商品名為英國吳德物次腸痛水(WoodwardsGripe-Water),是一款非處方產品,化學名為GripeWater,1851年由英國藥劑師William Woodward發明。19世紀40年代,英格蘭東部的嬰兒患有“fenfever”(芬熱)的疾病,Woodward從治療芬熱和瘧疾中汲取靈感,指出gripewater司以緩解嬰兒腸絞痛,并在1876年將GripeWater注冊為商標。此后吳德物次腸痛水以代代相傳(Granny told Mother and Mother told me)的口號在歐美各國十分暢銷。[6]但目前我國國內仍然沒有任何化學名為GripeWater的產品在CFDA(中國食品藥品監督管理總局)注冊銷售,許多使用肥仔水的顧客也大多采用網購、海淘的形式來購買。由于筆者曾在香港大昌行利豐醫藥有限公司市場部工作,大昌行在馬來西亞的工廠負責生產銷往歐洲的肥仔水,公司欲將該產品引進內地注冊銷售,但該項目最終以缺乏相關市場數據(購買第三方公司的數據太過昂貴)而擱置延遲。
肥仔水競爭產品的選取依據兩個原則:一是具有相同的化學名;二是產品具有相同的適應癥和治療效果。與肥仔水具有相同化學名但不同商品名的產品為Mommy's Bliss媽寶樂;Lit-tle Remedies西甲硅油為物理緩解嬰兒腸絞痛的非處方產品;衍生七星茶是香港老字號廣為人知的藥食同源產品,可以患者嬰兒腸絞痛、消化不良等癥狀。后兩種產品與肥仔水具有相同的適應癥或治療效果,具體信息如表2所示。
在學習數據挖掘這門課程時,筆者使用數據挖掘工具—八爪魚采集器在京東、京東、eBay上分別采集了媽寶樂、西甲硅油和衍生七星茶的銷售數據,并做如下分析。
4.1 數據采集
本次采集的日期為2019年4月20日,使用免費版本的簡易采集模式。步驟如下:(1)先選取京東網為目標url,使用八爪魚提供的“商品列表采集”模板,輸入搜索關鍵詞“gripewater”“肥仔水”“吳德物次腸痛水”,使用回車鍵切換,設置多個搜索關鍵詞。并設置翻頁次數為大于1的任意值,輸入淘寶網賬號和密碼后,點擊“保存并啟動”。
(2)采集頁面的上半部分是八爪魚瀏覽網頁的全過程,下半部分為提取到的數據,包括商品名稱、商家店名、價格、成交量、商品鏈接等。采集完畢后,會自動彈出“采集完成”的對話框,并提示共采集的數據量以及用時。
(3)點擊導出數據至excel,即可生成本次采集的表格。然后用同樣的步驟分別采集出媽寶樂、西甲硅油和衍生七星茶在三個電商平臺上的銷售數據,采集完成后經初步篩選,刪除掉不相關的數據,并匯總做進一步分析。
4.2 市場現狀
經過數據匯總,由于eBay平臺銷量占比較小(不足10%可以忽略),文中主要以淘寶網和京東網上的數據作以分析。淘寶網3月20日至4月20日期間的銷售數量以及平均價格換算成總銷售金額,如表3所示。
根據以上采集的數據,按肥仔水平均售價為58元/瓶計算,可以得出:(1)肥仔水在淘寶網的月均銷量為5410瓶。在京東網采集到的銷量為5620瓶。(2)衍生七星茶因為已經經過CF-DA審批并在內地開設了相應的中醫門診,有一定的銷售模式和銷量基礎,其在淘寶和京東均占據了60%以上的市場份額。(3)在未注冊上市的三個產品中,肥仔水和西甲硅油在淘寶網的銷量相當,均高于媽寶樂;西甲硅油在京東網的總銷量最好,其次是媽寶樂,肥仔水所占的市場份額最少。
4.3 適應癥人群
GripeWater的適應癥人群為1-7歲的嬰幼兒,中國2012年至2018年間出生的嬰兒總數為1.16億。[7]根據中華醫學會的統計數據,嬰兒腸絞痛每年的平均發病率大約為20%。肥仔水為進口的非處方產品,消費群體定位為有經濟基礎的人群,根據國家統計局的數據,我國近年來城市人口占總人口的40%,因此計算得出肥仔水的適應癥人群的總數量為930萬,按每位患兒每次夠買一瓶的最低數量,即每年930萬瓶銷量。
4.4 潛力分析
嬰兒腸絞痛在中國內地有著龐大的消費群體,但目前的市場除了網購和海淘外,還未被任何一個強有力的競爭者所占據。大昌行集團在馬來西亞的工廠可直接供貨給內地,這樣減少了中間流通環節和其他風險因素,同時提高了利潤空間。
肥仔水雖然為非處方產品,但是仍要以醫院內開展的學術活動為核心。大昌行可憑借在國內兒童醫院多年的銷售經驗,由團隊的醫藥信息溝通專員負責各區域線下核心醫院的學術推廣,配合線上強有力的品牌影響力以及電商活動。因非處方類藥品需要向CFDA提交注冊審批,一般注冊期為兩年,預計2021年上市銷售,基于醫院、藥店的調研、公司業務覆蓋的規模以及以往的銷售基礎,對肥仔水未來三年的銷售做以下預估(產品利潤與采購價格涉及公司機密,因此不予公布產品價格結構)。
基于以上分析,肥仔水具有可觀的市場潛力以及利潤預估,鑒于國內還沒有競爭對手占領市場,因此是進入中國內地的好時機。
5 結束語
在本項目案例中,八爪魚充分發揮了不需要編程的優勢,并且可視化的流程可以確保數據的采集基本無誤。但是數據的計算部分需要用戶自己完成。由于筆者采用的是簡易采集模式,只能使用其中固定的模板,雖然十分便捷,但數據挖掘還較為粗糙,如果需要添加其余參數,或需要更加精準的數據,就需要使用付費版本的云采集模式,或者使用神箭手等需要編寫程序以獲得個性化需求的采集器。
八爪魚作為一款比較成熟且方便的數據挖掘工具,可在企業的實際工作中根據需要篩選出有價值的信息,從而幫助企業提升效率、把握資源、提高市場競爭力。
參考文獻:
[1]李燕.提高檔案服務能力的新模式一云檔案館服務優勢淺析[J].云南檔案,2013(05):56.
[2]茅斯佳.基于數據挖掘技術的卷煙營銷BI應用初探[J].東方煙草報,2018(12):1-2.
[3]尹青正,吳海燕,等.大數據對商業經濟的影響[J].中國新通信,201 8,20(14):244.
[4]八爪魚.[EB/OLl.[2019-06-01]. https://www.bazhuayu.com.
[5]干貨:國內外十大主流采集器軟件盤點.[EB/OL].[2019-06-01].https//www.bazhuayu.c om/blog/421.
[6] Gripe Water[EB/OL].[2019-06-01]. https://en.wikipedia.org/wi-ki/G ripe_water.
[7]國家統計局年度數據[EB/OL].[2019-06-03].http://data.stats.gov.cn/easyquery.htm?cn=C 01.
【通聯編輯:朱寶貴】
收稿日期:2019 -10 -15
作者簡介:喬萌萌,上海大學圖書情報2018級碩士研究生,主要研究方向為數字人文、圖書館學。