李春生,張 巖
(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)
然而在對供應商進行選擇時,部分油田企業的采購者會在“人情做透”和“利益驅動”下進行主觀選擇,而非實事求是地選擇最優供應商,企業的管理人員不可能對采購單逐一核實,以致原材料的整個采購進程出現極大的漏洞。文章基于數據挖掘知識,運用K-means聚類分析算法對供應商評價指標分值進行分析,為企業選擇最優供應商,從而有效控制企業的采購成本。
數據挖掘概念源于1989年,數據挖掘也可稱為數據庫中的知識發現。從技術層面可以解釋為:自動從海量的、模糊的隨機數據中發掘出蘊含著的有價值的知識和預估性信息的過程。從商業層面可以解釋為:從數據庫中抽取數據,進一步轉換、分析數據,挖掘到能幫助商業決策的有用的信息[1]。
數據挖掘的精髓是選擇科學的且適合的分析方法,以此來提取數據中蘊含的可被利用的信息。數據挖掘技術在融入人們的工作和生活的同時,更多的數據挖掘方法也應運而生。其主要方法[2-3]有:
①分類。分類即首先預定義數據屬性,然后在已知和未知數據屬性之間構建一個分類模型,最后根據已知數據的屬性預測未知的模糊數據。常用的經典分類算法有C4.5決策樹算法、神經網絡算法和遺傳算法等。
②關聯分析。關聯分析根據數據之間存在的關系進而預測數據中蘊含的某種規律。例如:可以通過超市購物車里的商品種類及規律來剖析顧客的心理和消費習慣,輔助超市管理人員制定市場營銷策略。
③統計分析。統計分析就是運用現成的統計原理和統計方法分析表中的數據的屬性,獲取數據之間存在的某種關系。
(1)粗集料。本文粗集料均采用石灰巖,生產級配分為10~30mm、5~10mm、3~6mm三檔集料,其具體級配范圍如表5所示。
④聚類分析。聚類分析就是將一個大的數據集合拆分成幾個子集,使每個子集中數據間的相似性比較大,各個子集間數據的差異性比較大。它是一種無監督學習方式,最終目的是讓同一子集中的數據盡量相似,而不同的子集中的數據盡量不同[4]。聚類算法作為數據挖掘技術的一個重要部分,普遍運用于客戶分類、數據統計、經營銷售等研究領域。聚類算法具體分為:基于網格、基于密度、基于模型、基于層次和基于劃分的算法等[5]。目前普遍應用的是基于劃分的聚類算法,其中K-means算法最為經典。
油田企業供應商的評價體系涉及多種評價指標,數據分布具有隨機性、復雜性,單純考慮某一種指標并不能科學地選出最適合企業的供應商。應用聚類分析中的K-means算法對供應商評價指標分值進行分析,能夠深度挖掘供應商評價指標分值的具體分布情況和蘊含的潛在規律,為油田企業決策者選擇最適合的供應商提供了科學高效、切實可行的依據。
數據挖掘的基本過程[6]主要包括:
①數據準備。即把要進行數據挖掘的數據從大量復雜的原始數據中提取出來,主要是進行數據選擇、數據預處理、數據轉換等工作。
②數據挖掘。即應用適合的算法,分析數據,從而尋找數據中蘊含的知識或規律。數據挖掘是全過程的關鍵一步。
③結果的分析與評價。即對數據進行分析之后,分析挖掘結果傳遞的能被采用的信息或規律。
④知識應用。即將所獲取的有用信息或規律運用到實際工作、生活領域,預測或解決實際問題,實現數據挖掘的終極目標。
目前,數據挖掘側重點從理論研究過渡到實際應用。數據挖掘[7]主要融合了數據庫、人工智能、模式識別、統計學等多個領域的理論、算法及技術。可進行商業決策和商業上的智能應用,如:市場營銷預測和分析、客戶分類和流失分析、詐騙甄別和通信網絡管理等。自產生以來,作為一項新興技術被廣泛應用于科研、教育、企業、醫療、金融、制造業等領域。
大數據的數據挖掘技術在企業領域的應用,主要體現在能對企業內部復雜的、龐大的數據進行智能、高效的分析,自動挖掘出總結性的預測信息,以此輔助企業的決策人對企業管理、運營上指定的策略進行及時調整并做出正確的決策。
K-means聚類算法的提出可以追溯到20世紀60年代,由波蘭著名數學家Steinhaus提出,之后在1967年由J.B.MacQueen在其科研領域提出。K-means聚類算法[8-10]的產生已有60多年,但至今仍被應用于很多行業。如:生物學、數據處理、圖像處理、市場客戶細分等。
給定一個包含N個d維數據的數據集A={a1,…,ai,…,an}(ai∈Rd),即將形成的數據子集數量為K,已經確定的數據集合由K-means算法分為K組,每個分組均為一個類O={Ok,k=1,2,…,K},每一個類Ok都有一個中心Pi[11]。數據間相似性和距離的判斷標準由歐氏距離確定,類中每個數據點到類中心Pi的距離的平方和的計算公式為:
(1)
K-means算法的聚類目的是使類中總的距離的平方和J(O)值最小。

(2)
(3)
K-means聚類算法是不斷重復迭代的過程,其最終目的為:使聚類中所有數據點到其聚類中心Pi距離的平方和J(O)的值最小[12-13]。算法大體包括5個步驟,詳細流程如圖1所示。

圖1 K-means聚類算法流程
本次實驗應用統計分析軟件SPSS19.0對數據進行分析。
實驗數據來自于某油田企業2016年、2017年和2018年抽油機的供應商評價指標分值。油田企業選取的評價指標結合自身的發展特點,除考慮產品質量、產品價格等通用指標外,還充分考慮了供應商的技術能力、綜合服務以及企業資質等指標。其詳細評價指標如圖2所示。
通過數據篩選功能,將2016-2018年油田企業抽油機供應商的評價指標分值明細表抽取出來,刪除已經申請注銷和已經注銷的企業,得到最終供應商共10家,預處理結果(僅2016年)如表1所示。

圖2 供應商評價指標體系

表1 抽油機供應商評價指標分值
將預處理后的數據導入SPSS軟件,使用“K均值聚類分析”。首先,將2016年油田企業抽油機供應商的評價指標分值進行K均值聚類分析,初始聚類中心由系統自動產生,聚類數目設置為4。使用運行均值進行迭代,當最大迭代次數為10時,任何中心的最大絕對坐標更改為0,初始中心間的最小距離為30.125,迭代停止。其次,對2017年油田企業抽油機供應商的評價指標分值進行分析,K=4得到的初始中心間的最小距離為28.688。最后,對2018年油田企業抽油機供應商的評價指標分值進行分析,K=4得到的初始中心間的最小距離為28.293。
聚類結束后,最終聚類中心以及每個聚類中的聚類成員如表2~表4所示。其中,2016年油田抽油機供應商評價指標分值最終聚類中心及各聚類中的聚類成員見表2;2017年油田抽油機供應商評價指標分值最終聚類中心及各聚類中的聚類成員見表3;2018年油田抽油機供應商評價指標分值最終聚類中心及各聚類中的聚類成員見表4。

表2 2016年最終聚類中心及聚類成員

表3 2017年最終聚類中心及聚類成員

表4 2018年最終聚類中心及聚類成員
分析表2可知,供應商A、E的產品價格和企業資質競爭力較強,其余指標均處于良好水平,屬于綜合能力較強的供應商,列為一級供應商;供應商F、H屬于產品質量和技術能力較強的供應商,列為二級供應商;供應商B、C、I屬于綜合服務能力較強的供應商,列為三級供應商;其余的供應商在各方面均無突出表現,且在產品質量、技術能力和企業資質方面表現較差,列為四級供應商。
分析表3可知,供應商A、E的產品價格、綜合服務和企業資質競爭力較強,其余指標均處于良好水平,列為一級供應商,屬于綜合能力較強的供應商;供應商F、H屬于產品質量和技術能力競爭力較強的供應商,列為二級供應商;供應商B、C、I的企業資質處于良好水平,列為三級供應商;其余的供應商在各方面均無突出表現,且在產品質量、技術能力和企業資質方面表現較弱,列為四級供應商。
分析表4可知,供應商A、E的產品價格、綜合服務和企業資質競爭力較強,其余指標均處于良好水平,列為一級供應商,屬于綜合能力較強的供應商;供應商F、H屬于產品質量和技術能力競爭力較強的供應商,列為二級供應商;供應商B、C、I的企業資質處于良好水平,列為三級供應商;其余的供應商在各方面均無突出表現,且在產品質量、技術能力和企業資質方面表現較弱,列為四級供應商。
若油田企業新增某個新的抽油機供應商,則可通過計算其評價指標分值與對應年度的各個聚類評價指標分值的擬合度來對此供應商進行分類。油田企業其他領域的供應商均可采用K-means聚類算法分析各個供應商的類型,
將2016年、2017年和2018年抽油機供應商評價指標分值聚類情況表進行縱向分析,可得圖3。

圖3 2016-2018年最終聚類中心對比
分析圖3可得,除產品價格最低聚類中心和最高聚類中心的值隨年份增加上下波動外,其余各項指標的最低聚類中心和最高聚類中心的值都隨年份增加而遞增或維持不變。
綜合表2~表4以及圖3可得,供應商A、E連續3年的產品價格和企業資質的最終聚類中心的值均排在第一,且產品價格的最終聚類中心值明顯高于其余聚類,其余指標的最終聚類中心值均處于良好水平,且連續三年的聚類值比較穩定,可考慮將供應商A、E作為長期戰略合作伙伴。供應商F、H連續3年的產品質量和技術能力的最終聚類中心的值均排在第一,且技術能力的最終聚類中心值明顯高于其余聚類,綜合服務的值連續三年呈遞增趨勢,其余指標的值均處于良好水平,可考慮將供應商F、H作為輔助供應商。
油田企業供應商的選擇對于控制油田企業成本,提升企業的盈利水平、增強企業的競爭優勢意義重大。文中基于數據挖掘的理念,充分考慮油田企業的現實情況,應用聚類分析中的K-means聚類算法,對某油田企業的抽油機供應商評價指標分值進行聚類分析。分析結果能有效地對油田企業供應商進行科學評價,從而確定了供應商的類型,為油田企業決策者選擇最優供應商提供了科學有效的依據。