楊志和
(上海電機學院 電子信息學院,上海 201306)
隨著市場經濟的發展與完善,高端制造業的復雜產品制造是一個龐大的系統工程,需要成千上萬的部件。由于進入市場的周期長、難度大和風險高等特點,所以決定了高端復雜產品的制造需要大量供應商提供符合要求的零配件,通過組裝與集成才能實現產品的生產制造。因此,供應商的遴選與管理是企業組織生產的先決條件,對供應商的管控能力反映了現代制造業企業的戰略能力、市場創新能力和價值傳遞能力[1]。與正確的供應商合作是降低生產成本,獲取利潤的重要源泉。復雜產品制造商迫切需要對大量供應商進行有效管理,降低各種風險,保障生產計劃[2]。企業的發展離不開正確的決策,而正確的決策來源于對問題多維度的考察與分析,需要大量的情報作為參考依據,如何更好地利用各種情報對供應商進行甄選和管控,一直是各大企業急需解決的問題。
在通常情況下,對供應商管控有以下兩個途徑:① 按照合同條款,供應商每月向高端制造企業提交供應商報告,說明自身的情況;② 通過高端制造業企業自主開發的供應商評價系統對供應商進行評估,該系統已經建立了較完善的評價指標體系,但由于外部信息輸入不足,暫時無法滿足系統指標的賦值要求[3]。以上兩個途徑目前都面臨著信息輸入不足的問題,且供應商提供自身的信息不夠全面,存在隱瞞重要信息的風險。為了嚴格控制產品研發、交付的進度與節點,需要通過搜集所有供應商的公開信息,并進行相應情報分析,以便及時識別供應商出現的如人員變動、財務異常等可能影響產品交付的問題,加強對供應商的管控[4]。
黃穎等[5]在2015年為了客觀評價備選供應商,分析并選擇了一套基于時間、成本、質量、柔性、服務5個方面的物流供應商評價指標體系,建立了基于粗集理論的物流供應商選擇流程。宋占嶺等[6]在2014年從質量、價格、經營信譽、技術能力和生產能力5個評價指標著手,應用TOPSIS法對供應商進行評價優選。這些研究成果較為完整、有效的提出了供應商評價指標體系,但是缺乏實際數據,無法支撐決策。王飛躍[7]著力構建面向大數據和開源信息的科情監測與協作創新平臺,顯然技術思路與本文類似,但是本文的應用問題更加復雜。本文的大數據情報管理系統是基于多源異構多模態的、跨域關聯的海量數據分析所產生的決策流程,實現情報資源的智能采集、處理、分析與挖掘等功能。
供應商情報管理系統是基于大數據技術實現供應商動態情報的實時精準管理,為商業決策提供有力支撐。供應商情報管理系統必須能夠掌握和監控所有供應商的生產、經營等各方面的動態信息。供應商評估體系是企業對供應商進行綜合評價的依據和準則。不同行業、企業的供應商評價體系是不一樣的。目前本系統已經建立了針對先進制造業的供應商評價指標體系,確定了部分的情報信息源。系統開發需滿足特定客戶的上萬家供應商評價指標信息的自動采集、分析和處理工作[8]。本系統主要從互聯網海量開放Web文本數據中提取和發現隱含的情報,最終形成針對供應商的各評價指標相關信息和知識[9]。具體功能要求如下。
(1) 要能夠根據已有信息源或者提供的供應商名稱和關鍵詞等信息拓展發現新的信息源,實現全部現有供應商和潛在供應商(約1萬多家,涉及到4級甚至5級供應商)相關信息的采集。
(2) 能夠對采集來的信息進行智能化的處理以適應評價指標的需求,如主體識別、自動分類、自動聚類、情感分析等,對異構的數據要有一定的處理能力,比如從財務報表(PDF)里抽取出評價指標關心的數據(資產收益率,員工離職率等)。
(3) 公司的次級供應商有許多為歐洲的小公司,大部分信息可能會以當地語言在當地的網站呈現,所以要求系統具備一定處理法語、德語等小語種信息數據的能力。
(4) 具有潛在供應商發現的功能,能夠在現有供應商出現問題后,根據需求,推薦可能的潛在供應商。
通過基于Web的開放數據情報搜集技術和情報分析理論的研究,構建了集情報采集、情報分析、情報服務于一體的供應商情報管理系統。情報系統模型如圖1所示。

圖1情報系統模型圖
供應商情報管理系統基于互聯網上開放的數據源,采用當前先進的文本挖掘和信息處理技術,其中采集模塊主要完成供應商評價指標數據的采集入庫,主要有讀數據庫模塊、數據解析模塊、網頁下載模塊、網頁內容解析模塊、清洗模塊、去重模塊和新數據存儲模塊等。系統中的數據采集、數據處理與集成的關系如圖2所示。

圖2 基于大數據技術的情報處理流程圖
情報采集模塊主要基于網絡爬蟲技術獲取和收集供應商評價指標的各種信息。互聯網上的開放數據可以用海量來形容,數據采集模塊的功能包括公司別名識別、新聞分類、新聞核心詞語提取、詞頻統計、供應商信息提取等。一方面需要搜集信息的維度很多,具有信息源很分散的特點;另一方面,搜索同一個關鍵字,不同的搜索引擎得到的結果不一樣,甚至通過搜索引擎搜索到的信息與我們想要的信息還有很大差距,要經過比對和篩選[9]。然而,在采集模塊中采用集成數據挖掘技術,可以通過文本挖掘收集真正需要的信息。如在收集的過程中利用數據挖掘技術,對挖掘出的信息進行主題特征提取,可以判斷是否要收集這一信息。
情報采集模塊采用了基于特定主題的網絡聚焦爬蟲和元搜索數據采集技術,保證數據采集主題的相關性,構建基于python的網絡爬蟲器對互聯網開放數據進行自動采集和下載;再通過網頁正文文本抽取技術、PDF與Office文檔文本轉換技術,對下載的非結構化、半結構化數據進行結構化處理,并對結構化數據采用“I-Match”算法進行文本查重,將數據全文索引后保存,構建起供應商企業情報自動采集與數據處理平臺[10]。
情報采集模塊主要基于多線程、集群模式采集。采集深度按照需求可采集到新聞評論、微博轉發數、粉絲數以及論壇的評論樹回帖數等。系統可設定和配置采集廣度,支持大部分新聞、論壇的采集,只需要配置 URL即可實現采集。采集性能可以靈活配置策略,分為指定調度和隨機調度兩個模式,也可以定制采集時效性,如每周采集一次、每天采集一次、每小時采集一次等不同頻率。
情報分析模塊是整個供應商情報管理系統的核心組件。業務邏輯是一個數據分析方法結合數據挖掘的過程,包括對數據的采集、定義和應用的多個處理環節,即對可獲取的數據進行價值挖掘和應用的過程。首先構建數據湖,用來存儲采集的數據,并執行內容去重、無用信息過濾及關鍵信息提取等動作。從數據湖中獲取數據,加載到數據緩沖區。數據緩沖區可以采取文件方式或者數據庫方式;如果采用數據庫方式則需要對臨時數據和正式數據分開存儲。數據清洗負責對“臟數據”進行剔除,消除數據的不一致。“臟數據”包括不規則數據、不符合事實數據,如:取值范圍、完整性規則、拼寫檢查等。數據轉換主要包括統一網元數據編碼、轉換數據類型和轉換數據格式等3個方面,實現統一數據編碼、數據類型和數據格式。然后加載數據緩沖區中無需另外處理的“干凈”數據;加載經過清洗和轉換后的符合目標數據模型的數據;加載成功后,刪除緩沖區中相應數據,并寫進日志文件;加載日志包括加載記錄數和加載時間戳。供應商情報管理系統對數據的分析,例如對數據進行聚類和分類,也還是在描述性和探索性分析這一層面,主要是對現有信息的再次分析與展示,力圖使得企業對供應商的認識更加清晰與全面[11]。結合數據挖掘、知識圖譜與圖數據庫等技術,可以對海量、非結構化、快速增長的供應商情報數據進行深層次的挖掘,比如業務關系分析、趨勢分析與預測等,從而發現新的價值[12]。
情報服務模塊主要實現數據分析結果的展現、傳播與管理,為不同類型的情報使用者提供個性化的情報推送。情報服務的一個重要特點是具備“分別對待”“因人而異”的功能,即不同的角色對于情報服務有著不同的要求,即不同的角色擁有不同的權限,享受不同的功能。系統在建設過程中需要考慮用戶角色涉及的業務場景問題,用戶可靈活定制情報查詢和使用界面。通過設置分類用戶的分級訪問權限,防止泄露情報,保障數據安全[13]。
3.1.1 規劃情報收集途徑,完成資源建設工作 通過分析供應商情報管理的實際工作情況,確立情報資源種類和來源,并針對不同的資源運用不同的方式獲取收集。收集后的資源按需進行梳理入庫,確保情報資源的充足性。為后續的情報處理與分析奠定基礎。
3.1.2 結合業務場景,確立用戶角色業務用例 通過分析供應商情報管理系統的工作業務場景,梳理系統的用戶角色,確定用戶角色權限,建立用戶用例。從用戶的角色維度,對系統的構建進行初步的規劃。
3.1.3 結合用戶角色,確立功能模塊 結合用戶業務用例,并綜合考慮系統建設需求,確定系統的功能模塊,同時,確定每個模塊具體的功能要求。基于軟件工程過程與思想,完成系統的設計與實施。
數據采集模塊基于Nutch網絡爬蟲技術框架,深度遍歷目標網站的資源,將這些資源抓取到本地,修剪內容或者對內容格式進行轉換。分布式爬蟲系統是運行于機器集群之上的,集群中每一個節點都是一個集中式爬蟲。這些集中式爬蟲在分布式爬蟲系統中是由一個主節點控制來協同工作的。數據采集模塊結構如圖3所示。

圖3 數據采集模塊結構
情報分析模塊利用各種功能挖掘有價值的信息,包括大數據挖掘、知識圖譜、文本分析、數據可視化等技術。情報分析模塊結構如圖4所示。

圖4 情報分析模塊結構
情報服務模塊主要實現管理、分享和有效利用,配備相應的功能模塊,輔助實現決策支持,服務模塊保證了系統服務的正常運行,達成更好的情報服務質量。情報服務模塊結構圖5所示。

圖5 情報服務模塊結構
供應商情報管理系統采用數據湖技術,確保平臺采集的各種結構化和非結構化數據能夠用數據的原始格式進行存儲,并讓不同的數據使用者可以訪問這些數據集。它可以使用戶免于昂貴的基于硬件的存儲解決方案[14]。供應商情報數據湖是以原始的格式低成本地保存海量數據,不需要提前定義數據模型,數據可以方便靈活地被使用。數據湖架構保證了多個數據源的集成,并且不限制schema,保證了數據的精確度[15]。數據湖可在標準、經濟的服務器和磁盤上提供統一的軟件定義存儲,可以滿足實時分析的需要,同時也可以作為數據倉庫滿足批處理數據挖掘的需要[16]。供應商情報管理系統的數據湖的實現框架如圖6所示。

圖6 數據湖的實現框架
本系統應用于我國某飛機制造企業,為飛機制造商選擇優秀的合作伙伴提供輔助決策。
該案例的問題描述如下:某款飛機的某組零配件有14家候選供應商,制造商選擇零件供應商所需的指標體系已人工確定,根據企業提供的部分業務歷史數據,為該企業提供供應商評估與管理相關的支持數據。
解決方案的思路如下:結合本系統的基于大數據的情報分析與處理技術,通過需求分析、數據采集、數據處理與分析、建模與展示等一系列數據分析過程,為該企業提供供應商相關評價指標的描述性和探索性數據分析,為該企業的供應商管控提供輔助決策支持。
對供應商主要基于3個1級指標的績效考察。它們分別是:成本維度(X)、交付表現維度(Y)、環境友好維度 (Z)。具體分解為:X分為采購成本、物料落地成本2個2級指標;Y包括承諾交付率、訂單完整交付率、采購處理期、采購上調柔性、采購下調適應性、采購上調適應性等2級指標;Z包括碳排放量、廢氣排放量、產生的廢料廢渣、產生的廢液、廢棄物回收百分比等2級指標。
實施過程如下:通過網絡爬蟲,主要從以下幾個信息源頭搜索情報:① 目標公司的新聞;② 目標公司的官網;③ 各種媒體訪談的數據;④ 目標公司的核心產品;⑤ 目標公司的人才招聘信息;⑥ 目標公司的工商信息;⑦ 目標公司的知識產權信息等。居此,抓取得到14個供應商近3 000條相關數據,將該數據作為輸入樣本,輸入到訓練好的Caffe卷積神經網絡模型,得到的輸出即為供應商的綜合得分,從而擇優選用。通過遴選得到的結果如表1所示。

表1 供應商遴選的初步分析結果
從表1的分析結果數據中可知,有4 家供應商的表現符合要求,6家供應商有一方面不符合要求,4家供應商在兩方面不符合要求,分別給出了14個候選供應商的綜合得分和綜合排名。此處,X,Y,Z表示的基于決策者偏好的績效權值相同,實際中可以靈活選擇各個維度的特定權重。決策者對某個維度的權重加大,則表示此方面的表現更加受制造商的青睞。
現代高端制造業一般從事復雜的系統工程產品生產制造,通常供應商就有幾千甚至上萬家。在整個產品研發過程中都必須與供應商緊密合作,才能保證公司產品按質、按量、按時交付。因此,現代高端制造業企業尤其重視供應商的管控[17]。本文根據大數據理論和技術,將供應商行為進行數據化描述,搭建了供應鏈大數據平臺,并將供應商大數據來源進行了詳細的解釋,通過供應商大數據構建供應商畫像,實現定制化全網開放數據的自動采集、分析挖掘和綜合利用,同時,實現了供應商運營狀態的預測與評價,有效地提高了面向供應商的遴選與管理的決策能力,能夠幫助企業分析、評價和甄選最佳供應商,實現了供應商的精細化管理,從而提高生產效率和產品質量[18]。
參考文獻
[1] 李廣建,楊林.大數據視角下的情報研究與情報研究技術[J].圖書與情報,2012(6):1-8.
[2] 吳金紅, 王翠波.大數據時代企業競爭情報系統的評價指標體系研究[J].現代情報, 2016,36(2):3-7.
[3] 阮曉東.企業競爭情報系統在大數據時代的演進[J].新經濟導刊, 2015(10):72-76.
[4] 謝曉專,周西平.基于層次結構的公安情報分析方法研究進展[J].圖書情報工作,2012,56(20):103-109.
[5] 黃穎,李芳芳.基于粗集理論的物流供應商選擇研究[J].江蘇科技大學學報(自然科學版),2008,22(6):67-71.
[6] 宋占嶺,王亞莉.基于TOPSIS法的供應鏈條件下物流供應商評價研究[J].中國市場,2009(6):99-100,112.
[7] 王飛躍.知識產生方式和科技決策支撐的重大變革——面向大數據和開源信息的科技態勢解析與決策服務[J].中國科學院院刊,2012,27(5):527-537.
[8] 臧琳, 馬書秀, 郭丹蕾,等.國有特大型企業競爭情報系統構建[J].中國科技信息, 2015(21):55-57.
[9] 劉桂鋒.國內專利情報分析方法體系構建研究[J]. 情報雜志,2014,33(3):16-21.
[10] 何超,張玉峰.基于語義關聯分析的商務情報分析算法研究[J].情報雜志,2013,32(4):134-137.
[11] 李廣建,化柏林.大數據分析與情報分析關系辨析[J].中國圖書館學報,2014,40(5): 14-22.
[12] 朱建平,章貴軍,劉曉葳,等.大數據時代下數據分析理念的辨析[J].統計研究,2014,31(2):10-19.
[13] LI X,DONG X L,LYONS K,et al. Truth finding on the deep web: is the problem solved[J].Proceedings of the Vldb Endowment,2015,6(2): 97-108.
[14] 鄔賀銓.大數據時代的機遇與挑戰[J].求是,2013(4): 47-49.
[15] 耿瑞利. 大數據環境下情報學在智庫建設中的作用 [J].圖書情報研究,2016 ,9(2): 19-25.
[16] Marchal S,Jiang X,State R,et al.A big data architecture for large scale security monitoring[C]//2014 IEEE International Conference on Big Data.Anchorage:IEEE,2014:56-63.
[17] 孫大為,張廣艷,鄭緯民,等.大數據流式計算:關鍵技術及系統實例[J].軟件學報,2014,25(4):839-862.
[18] 張春磊,楊小牛. 大數據分析(BDA)及其在情報領域的應用[J]. 中國電子科學研究院學報,2013,8(1):18-22.