李瑞祥,黃文濤,郭欣沅,張子炎
(國家電網有限公司 國網遼寧省電力有限公司物資分公司,沈陽 110000)
隨著國民經濟的不斷發展電網基礎設施建設的規模不斷擴大,國家電網對設備的需求量不斷增加,因此采購的設備量也在穩步增長.同時,在信息化不斷發展的今天,電網行業內的大數據特征也越來越明顯.電力系統作為一個龐大的生產系統,每時每刻都在產生著大量的數據.單就電力企業內部與電網建設、電網運行和電網檢修相關的運行數據以及電網設備供應商的信用數據、區域經濟發展數據等外部數據來說就已經很可觀,這些數據中蘊含著較多的商業信息,如供應商的生產能力、履約能力等.在大數據環境下,運用數據分析方法對設備供應商進行全方位量化提取有價值的信息是十分有必要的.本文闡述的主要內容來自于"東北國網供應商管理系統"中供應商輔助決策模塊.該模塊主要用來為國網建立供應商企業信用評級、供應商設備選擇推薦和供應商可長期合作可行性分析等多個功能,系統結構簡圖如圖1所示.
針對供應商管理方法的研究已經取得了不錯的成果.以研究過程中典型的三種方案為例來說,張元新、宋婷等在專家打分的基礎上提出了基于AHP-模糊綜合管理[1]的辦法對電網物資供應商進行管理,該方法結合專家打分和AHP 層次分析法對供應商進行管理,但是AHP 層次分析法中各個因素的權重大小需要專家指定,帶有較強的主觀性,模型的魯棒性較差,并且對模型的泛化能力不強,需要針對各個企業進行建模.隨著機器學習的興起,樊鵬[2]提出了基于優化的xgboost-LMT 模型,該模型通過使用機器學習的自動化學習方法,有效的緩解了AHP 方法中主觀性過強的問題.同時席一凡、王超等將模糊神經網絡[3]應用于供應商管理中,與xgboost-LMT 相比模型的預測精度得到了提升,但是以上兩種機器學習的方法都是針對一個供應商的一個方面進行考察,難以全方面真實的反應供應商的整體情況.想要準確的對供應商進行刻畫管理,就需要充分考慮供應商的各方面.基于以上的思考和調查,提出了使用用戶畫像的方法對供應商進行管理的方案.本文所述的輔助決策模塊使用用戶畫像主要是基于以下考慮:數據庫中,相關供應商的部分信息已經存在,但比較散亂無法從數據庫中直接獲取有用的信息.但將供應商的數據標簽化后,對供應商就有了一個直觀的認識;分析模塊的多個需求發現,使用用戶畫像十分有效.供應商的企業形象是根據其商業行為不斷變化的,使用用戶畫像可以及時自動更新供應商的標簽內容,進而保持供應商整體形象的動態更新,動態滿足上層需求的調用.基于以上思考構建了用戶畫像管理模塊,并在行業專家[4-11]和大數據工程師的合作下構建了供應商的畫像標簽體系.
本文的標簽體系分為三級標簽,其中一級和二級標簽屬于抽象標簽,沒有使用意義,只有統計意義,在構建過程中只對第三級標簽進行填充.在選擇標簽時,我們首先咨詢企業管理專家和供應鏈管理專家在實際工作中常用的考察指標.然后借鑒賀紹鵬[4]、楊志和[5]、徐晉[9]等學者在標簽選擇時的經驗.最終推演得到,要全面的考察一個供應商,需要從供應商的產品和服務入手,并且需要考慮企業的基本信息、信用記錄和財務信息.在最終確定三級標簽內容時,由相關行業專家來再次提煉標簽盡可能減少標簽間映射信息的交叉,簡化整個標簽體系.例如選擇反應企業財務狀況的標簽時,咨詢了企業財務總監,由專家結合我們實際需求進行標簽的再次的提煉簡化,使得最終的標簽體系具有更多的科學性和客觀性.
最終我們為供應商建立了圖2所示(其中標號U 表示該標簽的代號)的三級標簽體系.
1.1.1 信息(U1)
一級標簽信息(U1)下屬有三個二級標簽,企業基本信息(U11),信用狀況(U12)和財務狀況(U13),圖3所示.
企業基本信息(U11)下屬企業簡介(U111)、企業地址(U112)、企業官網(U113)和企業規模(U114)四部分.信用狀況(U12)下屬信用中國(U121)至生產能力評估(U125)五個部分,其中U121 是指信用中國官方對一個企業的信用評估;U122 表示建立合作關系后,供應商履行合約的能力;U123 指供應商企業參與的訴訟案件,主要關注于訴訟案件的案由和最終的訴訟結果;U124 指供應商企業具有的國家相關部門頒發的資格;U125 是行業專家通過對企業的技術實力、生產裝備和試驗設備的考察給出的評估.財務狀況(U13)下屬總資產周轉率(U131),資產負債率(U132)和流動資金(U133)三個部分.

圖2 供應商畫像標簽體系

圖3 信息標簽體系
1.1.2 產品(U2)
一級標簽產品(U2)下面有三個二級標簽,產品質量(U21),產品柔性(U22)和產品成本(U23),如圖4所示.
產品質量(U21)下屬合格率(U211)至出廠試驗通過率(U214)四個較為直觀的標簽.產品柔性(U22)是指供應商在應對外部環境改變時有效的處理能力,一定程度上反映了企業的承受能力.U221 指供應商從接到產品需求單到正常送貨到達時間可以調整的幅度;U222 指企業在一定時期生產新產品的能力,反映了供應商的產品研發能力;U223 指企業一定時間可以承受的產品訂購數量的變化能力.產品成本(U23)下屬產品價格(U 2 3 1)、獲得成本(U 2 3 2)和運輸費用(U233)三個標簽,U232 指企業在一次采購活動上整個鏈條的總成本,也就是供應商將產品送達企業整個過程的費用.
1.1.3 綜合服務(U3)
一級標簽綜合服務(U3)下面有兩個二級標簽,圖5所示.產品交付(U31),服務計劃(U32).
產品交付(U31)下屬準時交貨率(U311)至樣本贈送率(U315)四個標簽.其中U312 表示供應商能否及時響應客戶訂單,國網部分對訂單的響應時間越來越敏感,因此訂單的響應能力很多程度上反應了供應商的交貨能力.U314 反應了可以節省的資金額度同時也 可以測試產品供應的穩定性.

圖4 產品標簽體系

圖5 綜合服務標簽體系
用戶畫像構建標簽分為事實標簽和模型標簽.事實標簽可以從數據庫直接獲取或者通過簡單的統計得到.這類標簽的構建比較容易但需咨詢行業專家給出具體的衡量指標比如U122,U124,U211,U212,U22,U23,U31 和U32.模型標簽的構建是標簽體系的核心需要機器學習和自然語言處理的知識,如U111,U112,U113,U114,U121,U122,U123 和U13.
1.2.1 事實標簽構建
事實標簽是指可以解釋得到的標簽,具有可量化性.選取代表性的幾個標簽來說明事實標簽的構建過程.
(1)合格率(U211)
在一定時間T內,國網企業采購了M件某電力設備,其中合格的產品數量為H.則這一產品的合格率R 如式(1)所示:

合格率是衡量產品質量的一個重要指標.
(2)時間柔性(U221)
供應商相比正常到貨時間可以調整的幅度為A,合同送貨時間為B,則時間柔性R的計算如下:

(3)品種柔性(U222)
時間為T,新產品的種類數量為Nnew,產品品種總數為N,則品種柔性的計算公式為:

(4)數量柔性(U223)
在一定時間T內,企業可以生產產品的最大數量為Nmax,最小數量為Nmin,這段時間產品的平均需求量為.則計算公式如下:

(5)獲得成本(U232)
在一定的時間T內單位產品的獲得成本是P,供應商的產品的成交價格是C,采購量是N,其所花費的訂貨費用是F,其中的訂貨費用和企業與供應商合作的方式有關系,如果采用供應商管理庫存的方式,那么企業的運輸與庫存就分給供應商,訂貨費用是從供應商那里出廠的價格,那么高額的運輸和庫存管理將由企業來承擔.

(6)訂單響應能力(U312)
相關行業專家給出了刻畫訂單響應能力的評價指標描述,如表1所示.

表1 訂單響應能力評分
(7)資質證書(U124)
資質證書評價表如表2所示.

表2 資質證書情況評分
分析以上舉例發現,事實標簽的數據主要來自數據庫,并且對相關描述的指標構建也來自相關領域的專家.但是在通過指標構建相應評分時,為了防止加入過多的主觀因素對后面標簽的使用產生影響,使用Sigmod 函數作為相關標簽的自動打分函數.首先將函數變量初始化為-1,然后根據與描述中各項的對應情況進行累加.例如,在訂單響應能力評分中無詳細的訂單響應措施加0,有訂單響應能力加1,得到良好執行的再加1,執行情況若一般則加0.5,有但是未執行的加0.通過上述方式進行描述情況的表示,然后送入Sigmod 函數中得到打分結果.將函數變量初始化為-1 是為了將打分結果擴展到0~1 之間.這樣在使用標簽時就不用再次進行數據的歸一化操作.通過使用打分函數可以有效的避免專家直接打分中的主觀因素,使得標簽內容更加客觀可信.
1.2.2 模型標簽的構建
模型標簽的構建主要考慮兩個方面,標簽內容來源和算法的選擇.U111,U112,U113,U114,U123,U124 來自網站企查查,該網站數據整合自官方數據庫真實全面.U122 一部分信息來自北極星電力新聞網的電力供應商專欄,另一部分來自數據庫中過去合作的信息.U121 來自網站信用中國的評分.U13 標簽是非必要生成標簽,如果供應商是上市企業則通過發布的年報得到,非上市公司則不予生成.
(1)部分關鍵算法
① 中文分詞
中文不同于其它語言,中文表達的基本單位是詞而不是字,所以要想理解中文首先將句子劃分為詞.分詞算法分為規則分詞和統計分詞兩種方法.當前比較成熟分詞工具一般都是結合兩個方案的混合分詞技術.一般是先基于詞典的方式進行分詞,然后再用統計的分詞方法進行輔助.這樣在保證詞典準確律的基礎上,對詞典中的未登錄詞也有較好的識別.
本文使用了當下效果比較好的分詞工具——jieba 作為分詞器,作為文本處理的第一步工作.
② 關鍵詞提取算法
關鍵詞是代表文章重要內容的一組詞.在文本自動摘要、關鍵詞提取等起重要的作用.本文使用了LDA 算法[12]作為主要的算法模型.LDA 算法擬合出詞-文檔-主題的分布,算法假設文檔中主題的先驗分布和主題詞的先驗分布都服從狄利克雷分布.通過對訓練文本的統計,就可以得到每篇文檔中主題的多項式分布和每個主題中的詞的多項式分布,然后通過貝葉斯學派的方法,通過先驗的狄利克雷分布和觀測數據得到的多項式分布來推斷文檔中主題的后驗分布和主題中詞的后驗分布.
算法模型如圖6,其中最大的虛線框D表示訓練語料的文檔集合,K表示主題的集合.θd表示文本D中的主題分布中抽樣得到的主題,這個分布服從參數為 ?的狄利克雷分布(DIR),即


圖6 LDA 算法模型
η表示每個主題分布對應的參數,βk表示用第K個主題來生成文字.Zd,n表示從主題分布中產生主題,服從多項式分布即

Wd,n表 示從確定的主題d中產生文字,同樣服從多項式分布.
綜上所述,可以將LDA 的算法流程整理得到:

算法1.LDA 算法for all topics dok∈[1,K] sample mixture component · ①end ford∈[1,D]βk~Dir(η)for all documents do θd~Dir(ˉ?)sample mixture proportion ······· ② for all words do Zd,n~Mult(θd)n∈[1,N] sample topic index ·······③Wd,n~Mult(βZd,m)sample term for word ···· ④⑤ end for end for
LDA 算法屬于統計模型,使用之前需要進行預訓練得到概率分布的參數.求解模型的參數一般使用Gibbs 采樣或者EM 算法來求解.本文所述的LDA 算法主要用在電網行業的文本中,所以使用來自于北極星電力新聞網的網頁組成的語料庫作為訓練語料進行模型訓練.
③ 命名實體識別
文中在生成某些標簽時,需要關注供應商名稱、機構名稱或者事件發生的時間等,這些名詞在語言中被稱為命名實體.本文采用基于條件隨機場的命名實體識別算法實現命名實體的識別.
條件隨機場是一種在給定觀察的標記序列下,計算整個標記序列的聯合概率的方法.如X=(X1,X2,···,Xn)和Y=(Y1,Y2,···,Yn)是聯合隨機變量,若隨機變量Y 構成一個無向圖G=(V,E)表示的馬爾科夫模型,則其條件概率分布P(Y|X)稱為條件隨機場:
P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v),其中w~v表示圖G=(V,E)中 與結點v右邊連接的所有節點,w≠v表示 結點v以外的所有節點.其圖結構如圖7所示.
在訓練樣本中每個字的標簽都在已知的標簽集合中選擇(“B”,“M”,“E”,“S”,“O”),x是字序列,y是字對應的標簽序列.訓練條件隨機場模型的過程就是將已經標注好的訓練樣本輸入初始模型中,迭代求解特征函數和對應特征函數權重的過程,訓練的目標函數為:

圖7 馬爾科夫圖模型
假設現在以企業名稱識別為例.做如下標記,表3:

表3 命名實體識別結構構建

(2)應用分析
與供應商企業相關的文本處理相比于傳統的文本處理更加困難.因為相關文本大多是短文本,而傳統的文本處理方法會導致文本語義特征稀疏和語義敏感等問題.所以對企業相關的文本預處理時使用了詞性標注以及拼音序列的表征.
考慮到標簽數量較多且標簽之間有重復使用算法的現象,所以選取幾個典型的標簽來舉例.這里上海某電器集團為來說明.
① 企業簡介
本標簽主要是對爬取的企業簡介文本做關鍵詞提取分析.這部分相對于其他模型標簽構建方法簡單,直接對文本進行分詞處理,分詞時要對常見的企業詞重點關注比如“上市”、“融資”等.分好詞的文本直接輸入的訓練好的LDA 模型中然后輸出相應的關鍵詞.原文和關鍵詞對比見表4.

表4 原文與LDA 處理結果對比
② 訴訟情況
分析企業的訴訟情況需要關注案件發生的企業雙方,緣由和最終的判決結果.但是有關訴訟的文本比較短,且關鍵性的詞語和命名實體比較密集.所以本質上需要對文本的主要的內容進行語義分析.獲取一條訴訟文本后,首先進行句法分析得到句法分析樹,根據句法分析樹和基于條件隨機場的命名實體算法識別出原告和被告的關系和名稱.

表5 訴訟標簽提取情況舉例
訴訟情況的得分的計算方案為:

其中,wi表示i類 糾紛的權重,ci表示i類糾紛的計數,如果裁定結果為撤訴則不參與計數.分子的表示與實際需求最相關的t類訴訟案件,比如當關注于供應商的產品時,則主要選擇與產品相關的訴訟案件作為分子.
本文評估用戶畫像效果的方法是計算準確率、和是否有時效性機制,這也是用戶畫像評估中最常用的方法.
準確率指被打上正確標簽的用戶比例.準確率是用戶畫像最核心的指標,計算公式是:

具體的評估方法為:隨機抽取15 家合作過的供應商企業,行業專家首先對供應商進行標注,并把經過兩輪審核后得到的標注結果當作準確的樣本.然后再有新一批專家和自動化模型通過進行標注,并根據準確樣本計算兩者標注的準確率,為了提高評估結果的準確性,進行3 組相同的標注過程.3 組的對比情況如表6所示.

表6 模型準確率測試結果(%)
假設國網現在想選擇一家變壓器供應商購進一批變壓器,首先給出一系列期望的變壓器參數,比如使用壽命,價格,安裝時間等.然后將這些參數組合成目標模板.選擇多家供應商的相關標簽計算與目標模板的相似度.根據相似度的分值,對供應商進行排名.排名越靠前表示推薦力度越高.
具體實驗過程為:從歷史最優采購記錄中選取了20 種設備.每種設備選取了同時期的39 家供應商作為干擾項,加上最優供應商一共40 家.然后對每家設備供應商使用GloVe 算法提取特征,此其中GloVe 算法百萬數量級的詞典和上億數據集上可以進行快速訓練.提取特征后進行與目標模板進行相似度計算得到一個結果.同時使用常見的AHP 和Xgboot_LMT 算法進行分析得到的最終精確度比較見表7.

表7 模型應用準確率(%)
本文以“輔助決策模塊”為實際應用背景.通過使用用戶畫像的方案對供應商的數據進行了有效的組織.在行業專家和大數據工程師的共同參與下,使用自然語言處理和機器學習的方法,構建了自動更新的供應商畫像標簽體系,通過評估該畫像體系取得了比較高的得分.通過使用用戶畫像技術簡化了開發流程,提高了系統的工作質量.
但是系統在標簽構建的內容上比較繁瑣,并且在構建算法的調優上還有所不足.后期需要逐步探索更加便捷的標簽內容,并且隨著數據量的增加需要對相關算法進行重新訓練提高標簽內容提取的準確率.