方志堅 程玉 金耀 湯哲沖 徐錦英
DOI: 10.19398j.att.202401018
摘? 要: 服裝產業是全球最重要的制造行業之一,而服裝產業鏈圖譜則是服裝產業生態中的重要工具。為了服裝相關企業能快速、準確掛鏈,文章研究并構建服裝產業鏈圖譜,將產業鏈中的鏈點、關系和屬性進行建模和表示,再通過企業信息收集和企業關鍵詞提取構建企業信息數據庫,從而提出了一種產業鏈企業自動掛鏈算法。該算法基于CoSENT模型計算企業關鍵詞和產業鏈鏈點之間的相似性,并通過自定義規則對匹配結果進行過濾,進而評估關鍵詞和鏈點之間的相關性,自動匹配和選擇最優的產業鏈圖譜鏈點,實現企業的產業鏈自動掛鏈。通過與其他匹配算法的對比實驗表明,該算法在F1-Measure指標上明顯優于其他算法(比基于Jaccard方法高14%,比Word2Vec方法高10.5%,比SBERT方法高2.5%),顯著提升了企業掛鏈效率和準確性,為優化服裝產業鏈圖譜提供了有力的支撐和參考。
關鍵詞:服裝產業鏈;產業鏈圖譜;自動掛鏈算法;CoSENT模型
中圖分類號:TS101.8; TP391.1
文獻標志碼:A
文章編號:1009-265X(2024)06-0108-08
收稿日期:20240115
網絡出版日期:20240326
基金項目:浙江省軟科學研究計劃項目(2024C35031); 浙江省高等教育“十四五”教學改革項目(jg20220192)
作者簡介:方志堅(1983—),男,浙江浦江人,工程師,主要從事學術大數據和產業大數據方面的研究。
通信作者:徐錦英,E-mail:793032295@qq.com
隨著信息技術的迅猛發展,數字化轉型已成為企業維持競爭力和推動持續創新的關鍵路徑。在此背景下,傳統服裝行業正面臨著科技高速發展與消費者需求增長的雙重驅動,既帶來了前所未有的機遇,也伴隨著諸多挑戰。因此,實現數字化轉型已成為行業的迫切需求[1]。其中,服裝產業鏈圖譜的建設作為數字化轉型的核心環節,備受關注。這一圖譜通過數字化技術,將整個服裝產業鏈進行可視化呈現,旨在提升效率、降低成本并優化資源配置,進而增強企業的競爭力和市場地位[2-3]。
服裝產業鏈圖譜的研究不僅涉及對整個產業鏈的可視化呈現,更深入地聚焦于企業掛鏈的研究。企業掛鏈,是指根據企業的產品、技術及其在產業鏈中的位置,將企業與特定的產業鏈鏈點進行精準關聯,從而構建緊密的合作關系。這一過程對于確定企業在產業鏈中的具體位置、分析企業間的關聯關系以及優化資源配置等方面具有重要意義,對產業招商、提高生產效率、降低成本等同樣具有深遠的影響。
傳統的企業掛鏈方法主要依賴于人工查看企業信息并進行標簽標注,這種方法不僅耗時費力,而且由于數據支撐不足和缺乏統一判斷標準,其效率和效果均不盡如人意[4-5]。目前針對企業產業鏈自動掛鏈算法的研究相對較少,現有的研究工作主要聚焦于利用文本信息挖掘和機器學習的方法來構建和分析產業鏈圖譜,以及生成企業標簽和畫像[6-8]。此外,傳統的相似度計算算法如Jaccard和Word2Vec在鏈點特征關鍵詞和企業畫像關鍵詞的相似度計算上,其準確度和效率也有待進一步提高[9-11]。目前中國紡織服裝類企業數量龐大,已達154萬余家,如何高效、精準地將這些企業關聯到相應的產業鏈鏈點,成為了一個亟待解決的問題。
鑒于上述問題和挑戰,本文提出了一種基于CoSENT模型的服裝企業產業鏈掛鏈算法。這一算法旨在借助機器學習技術,自動處理海量的服裝企業信息,為企業掛鏈提供一套更為高效和可行的解決方案。
1? 服裝產業鏈框架及數據處理
1.1? 服裝產業鏈圖譜構建
為了深入探討中國服裝產業的結構和內在運作機制,了解產業鏈的各個環節及其相互關系顯得尤為重要。服裝產業鏈圖譜作為一種直觀且系統的展示方式,為企業生產提供了寶貴的參考。敖利民等[12]提出中國紡織服裝產業的產業鏈環(生產部門)劃分長期保持計劃體制時期的狀態,即依據原料、紗線、坯布、服裝的產品鏈,將產業劃分為原材料企業、紡紗企業、織造企業、印染企業、服裝企業的產業鏈環布局,技術關聯度高的產業部門如紡紗、織造和印染等被劃分成多個產業鏈環。蘇丹等[13]聚焦于可持續發展的服裝產業鏈構建,采用綠色環保型纖維,可使紡織品行業的環境保護力度得到整體提升。
本文在構建服裝產業鏈圖譜的過程中,通過訪問行業協會的官方網站、專業媒體的網站以及市場研究機構的網站,獲取最新的行業動態、趨勢分析和市場報告等信息。并與行業內的專家、從業者和供應商進行交流,深入了解服裝產業鏈的各個環節和參與者以及服裝產業鏈的具體鏈點信息。本文充分運用以上多種方式來定義服裝領域的模型、概念和關系。通過對產業鏈的研究和分析,明確了上中下游的分類,圖1為服裝上中下游產業鏈關系圖,上游環節主要涉及原材料供應和設備,這為中游和下游提供了必要的資源支持。中游環節承擔著紡織品的生產和加工任務,將原材料轉化為半成品或成品,為下游企業提供各種類型的面料和紡織品。而下游環節則致力于成衣的設計、制造和銷售,將紡織品轉化為最終的成衣產品,并將其推向市場。這3個環節之間相互依賴、相互合作,構成了完整的服裝產業鏈。
定義服裝產業鏈上中下游,有助于建立完整的服裝產業鏈圖譜。通過圖譜,可以更清晰地了解產業鏈的結構和相互關系,本文所構建的服裝產業鏈圖譜概念圖如圖2所示。在圖譜中,每個結點代表著產業鏈中的主體實體,而邊則表示主體之間的隸屬關系。這種圖譜的表示方式實現了產業鏈各個環節和主體之間信息的連接和共享,以一種知識圖形化的視角展現了產業的運行機制。
1.2? 數據采集及處理
1.2.1? 企業信息收集
企業信息及其獲取過程往往具有分散、不透明、難以獲取和驗證等特點,這為企業合作、投資和決策帶來了一定困難。隨著企業管理數字化進程的推進,越來越多的企業建立了集中、可靠的企業信息平
臺[14]。在本文中,企業數據主要來源于第三方數據源。首先采用網絡爬蟲技術[15-16],編寫程序訪問第三方數據源和目標企業的官方網頁;其次,對獲取的數據進行網頁解析和數據提取。后續步驟涉及文本預處理,包括去除HTML標簽、特殊字符和分詞等操作,整個爬取過程如圖3所示。
1.2.2? 關鍵詞提取
在獲取企業信息后,需要對預處理后的文本進行關鍵詞提取。由于企業經營范圍內容較為特殊,通常由多個關鍵詞、短語或句子組成,因此無需使用復雜的文本挖掘技術。如圖4所示,只需將待提取關鍵詞中的文本句子進行分詞,使用NLP分詞技術將文本拆分成一個個詞語或短語,再進行去重操作[17-18],就可以得到企業關鍵詞。而一般中小型企業專利信息較少,只需在分詞后去除停用詞(如常見的連接詞、代詞等),進行詞干化或詞形還原,去重后并輔助與人工進行篩選就能獲得企業專利關鍵詞。
2? 企業自動掛鏈方法
2.1? 算法步驟及流程圖
企業自動掛鏈算法步驟描述如下:
Step1:將每個企業關鍵詞分別看作一類構成集合A={a1,a2,...,an} ;
Step2:統一關鍵詞的大小寫,并去除特殊符號(例如逗號、分號、連接符等);
Step3:根據ConSNET模型計算企業關鍵詞與預定義產業鏈點之間的相似度;
Step4:如果大于設定的閾值且匹配結果符合制定的先驗規則添加到映射表中;
Step5:如果類集合中類的個數大于1,則重復步驟3,步驟4,否則跳到步驟6;
Step6:結束。
算法的整體流程如圖5所示,其中L表示預定義產業鏈鏈點的數量。
2.2? 基于CoSENT模型的關鍵詞匹配
CoSENT模型是一種基于BERT模型的神經網絡模型[19-20],該模型的網絡結構如圖6所示。本文基于CoSENT模型計算企業關鍵詞和產業鏈鏈點之間的相似性,并通過自定義規則對匹配結果進行過濾,進而評估關鍵詞和鏈點之間的相關性,實現企業的自動掛鏈。
2.2.1? 特征嵌入
與傳統的文本匹配方法不同,CoSENT模型采用兩個權值共享的BERT模型作為編碼器獲得文本的向量表示。BERT模型是由Google提出的一種預訓練神經網絡模型,其網絡結構如圖7所示。該模型采用前饋神經網絡并具有多層的自注意力機制,能夠進一步提取文本特征并對文本中不同位置的詞匯賦予不同的權重,從而更好地捕捉文本序列的語義信息。
BERT模型輸入如圖8所示,文本中每個詞語的向量表示分別由詞嵌入(Token embeddings)、分段嵌入(Segment embeddings)和位置嵌入(Position embeddings)3種不同嵌入向量相加而成[21]。其中,詞嵌入是將每個詞語轉化為詞向量來表示其語義信息。分段嵌入是為了區分不同句子中的詞語。位置嵌入用于表示每個詞語的位置信息。此外,標記[CLS]位于句子的開頭,用于表示整個句子的向量表示。標記[SEP]位于句子中的不同部分,用于表示句子中不同段落之間的邊界。
2.2.2? 池化
為了得到輸入文本的向量表示,還需要對詞語的嵌入向量進行池化。CoSENT模型包含以下3種不同的池化策略:
a)直接采用CLS位置的輸出向量代表整個語句的向量表示。
b)MEAN策略,計算各個token輸出向量的平均值代表整個語句的向量表示。
c)MAX策略,取所有輸出向量各個維度的最大值代表語句的向量表示。
本文采用MEAN策略,即取所有詞語向量表示的均值。
2.2.3? 損失函數
得到文本的向量表示后,為了更好地衡量它們之間的相似性和差異性,本文在傳統三元組數據(原始句子,相似句子,不相似句子)的基礎上,使用了一種基于余弦相似度的三元組損失函數來提高文本匹配的結果[22],損失函數如式(1):
ζ=log1+∑sim(i,j)>sim(k,l)eλ(cos(uk,ul)-cos(ui,uj))(1)
式中:i,j,k,l表示四個訓練樣本,ui,uj,uk,ul表示樣本對應的向量表示,cos()表示兩個向量之間的余弦相似度,sim()則表示它們之間的相似標簽,λ是一個超參數。這樣做的目的是讓正樣本cos(ui,uj)之間的相似度大于負樣本cos(uk,ul)之間的相似度,而不需要找到一個精確的數值來區分正樣本對和負樣本對。這樣可以防止模型過擬合,并且有效地提高模型能力來區分語義相同但是字面相似度低的“困難樣本”。
3? 數值實驗及結果分析
3.1? 數據集
為了驗證CoSENT模型算法的有效性,同時方便對實驗結果進行統計,本文選取紡織領域1000條企業數據進行實驗。由于企業經營范圍信息中的關鍵詞通常涵蓋產品、服務、技術、行業、市場等多個方面,為提高后續企業精準匹配產業鏈鏈點,本文提取經營范圍前10個無重復關鍵詞和全部專利信息關鍵詞存于企業信息數據庫中,如表1所示。
3.2? 基準方法
為了測試CoSENT模型算法的性能,本文與Jaccard、Word2Vec、SBERT 3種目前常用的文本匹配方法進行了對比實驗。這些方法的更多詳細介紹如下所示:
Jaccard:Jaccard指數是一種常用的文本相似度度量方法。本文采用Jaccard指數進行鏈點特征關鍵詞和企業畫像關鍵詞匹配,并結合規則對匹配結果進行過濾。
Word2Vec模型:Word2Vec模型是一種通過學習詞語在文本中的上下文信息來訓練詞向量的方法,它可以將每個單詞映射為一個低維向量表示,通過計算句向量之間的相似度來衡量鏈點特征關鍵詞和企業畫像關鍵詞之間的相似性。
SBERT模型:SBERT模型是一種權衡性能和效率的句向量表示模型,它在訓練時通過有監督訓練上層分類函數對BERT預訓練模型進行微調(Fine-tuning),從而得到更為準確的句向量表示。預測時直接對鏈點特征關鍵詞和企業畫像關鍵詞進行余弦相似度計算,以衡量它們之間的相似性。
CoSNET模型:CoSENT模型是在SBERT模型的基礎上引入一種基于余弦相似度的損失函數,旨在使模型的訓練過程更貼近預測,從而提高模型的性能和泛化能力。
3.3? 實驗結果及分析
主流匹配算法對比實驗結果如表2所示,實驗設置的評估指標為準確率(Precision)、召回率(Recall)和F1值(F1-Measure)。從表2中實驗結果可見,本文提出的算法在F1值上要優于其他對比方法(比基于Jaccard方法高14%,比Word2Vec方法高10.5%,比SBERT方法高2.5%)。
同時,CoSENT模型算法實驗結果表明本文所提出的基于知識圖譜的自動掛鏈算法能夠顯著提升企業掛鏈準確率。表3體現出算法能夠為企業準確匹配和選擇最佳的產業鏈鏈點。此外,算法在不同規模和復雜度的環境下均具有良好的適應性和擴展性。
4? 結語
本文基于深入研究和探索服裝產業鏈圖譜,提出了一種基于CoSENT模型的企業自動掛鏈算法,并進行了詳盡的實驗設計和驗證。算法通過利用CoSENT模型的強大能力,實現了對企業信息的自動分析和處理,能夠自動匹配和選擇最佳的產業鏈鏈點。通過與其他匹配算法的對比實驗表明相較于傳統的Jaccard、Word2Vec、SBERT方法,該算法在F1-Measure這一關鍵指標上展現出了顯著的優越性,不僅提高了掛鏈的準確率,還大幅提升了算法的運行效率,為服裝產業鏈的數字化轉型提供了有力的技術支撐。
這一優化算法在供應鏈管理過程中具有廣闊的應用前景。通過自動匹配和選擇最佳的產業鏈鏈點,服裝企業可以更快速地找到合適的供應商和合作伙伴,從而大幅提升供應鏈的響應速度和運營效率。同時,這也有助于企業更準確地把握市場需求和變化,及時調整生產策略,提高市場競爭力。此外,該算法還能幫助企業更好地了解和分析自身在產業鏈中的位置和關系。通過清晰地展示企業在產業鏈中的位置和與其他企業的關聯關系,企業可以更加清晰地認識到自身的優勢和不足,有助于企業制定更加科學合理的戰略規劃,并做出更明智的決策。
隨著大數據和人工智能技術的不斷發展、數據要素市場的不斷開放,有望搜集到更多、更全面的企業信息,包括公域數據以及業財數據等。這些豐富的數據資源將為構建更加精細、準確的企業畫像提供有力支持,從而進一步提高掛鏈的效率和準確性。
參考文獻:
[1]熊興,王婧倩,陳文暉.新形勢下我國紡織服裝產業轉型升級研究[J].理論探索,2020(6):97-101.
XIONG Xing, WANG Jingqian, CHEN Wenhui. Research on the transformation and upgrading of China's textile and clothing industry under the new situation[J]. Theoretical Exploration, 2020(6): 97-101.
[2]常新.泰安市紡織服裝產業鏈高質量發展路徑研究[J].化纖與紡織技術,2023,52(6):7-9.
CHANG Xin. Research on the high-quality development path of textile and garment industry chain in Tai'an [J]. Chemical Fiber & Textile Technology, 2023, 52(6): 7-9.
[3]綜編.推動產業鏈上下游協同合作、融通發展 2023全國紡織服裝產業鏈融鏈固鏈對接交流在魏橋舉行[J].紡織服裝周刊,2023(24):6.
ZONG Bian. Promote the upstream and downstream cooperation and development of the industrial chain in 2023, the national textile and garment industry chain was held in Wei Qiao[J]. Textile & Apparel Weekly, 2023(24): 6.
[4]楊偉杰. 基于知識圖譜的企業關系推理[D].哈爾濱: 哈爾濱工業大學,2022:6-9.
YANG Weijie. Enterprise Relationship Inference Based on Knowledge Graph [D]. Harbin: Harbin Institute of Technology, 2022:6-9.
[5]楊傳龍, 王金龍. 基于NLP的企業供應關系自動抽取研究[J].計算機科學與應用, 2018, 8(12): 1823-1832.
YANG Chuanlong, WANG Jinlong. Research on automatic extraction of enterprise supply relationship based on.
NLP [J]. Computer Science and Application, 2018, 8(12):1823-1832.
[6]宋華峰. 區域性服裝產業數字化大腦平臺的規劃與設計[D].杭州:浙江理工大學,2022:28-51.
SONG Huafeng. Planning and Design of Regional Garment Industry Digital Information System [D]. Hangzhou: Zhejiang Sci-Tech University, 2022:28-51.
[7]田娟,朱定局,楊文翰.基于大數據平臺的企業畫像研究綜述[J].計算機科學,2018,45(S2):58-62.
TIAN Juan, ZHU Dingju, YANG Wenhan. Research on enterprise portraits based on big data platforms[J].Computer Science,2018,45(S2):58-62.
[8]劉海. 大數據時代服裝精準營銷下的服務策略研究[D].上海;上海工程技術大學,2016:50-54.
LIU Hai. Research on Service of Precision Marketing on Clothing in Era of Big Data [D].Shanghai;Shanghai University of Engineering Science, 2016:50-54.
[9]俞婷婷,徐彭娜,江育娥,等.基于改進的Jaccard系數文檔相似度計算方法[J].計算機系統應用,2017,26(12):137-142.
YU Tingting, XU Pengna, JIANG Yu'e, et al. Text similarity method based on the improved jaccard coefficient[J].Computer Systems & Applications,2017,26(12):137-142.
[10]唐明,朱磊,鄒顯春.基于Word2Vec的一種文檔向量表示[J].計算機科學,2016,43(6):214-217.
TANG Ming, ZHU Lei, ZOU Xianchun. Document vector representation based on word2Vec[J].Computer Science,2016,43(6):214-217.
[11]周練.Word2vec的工作原理及應用探究[J].科技情報開發與經濟,2015,25(2):145-148.
ZHOU Lian. Exploration of the working principle and application of Word2vec[J]. Sci-Tech Information Develo-pment & Economy, 2015, 25(2): 145-148.
[12]敖利民,唐雯,李向紅,等.我國紡織服裝產業鏈面臨的問題及對策[J].棉紡織技術,2012,40(4):57-59.
AO Limin, TANG Wen, LI Xianghong, et al. Problem and countermeasure of textile garment industrial chain in china [J]. Cotton Textile Technology, 2012,40 (4): 57-59.
[13]蘇丹,李喆,王陽.基于可持續發展理念的服裝面料設計及其應用[J].毛紡科技,2020,48(4):75-79.
SU Dan, LI Zhe, WANG Yang. Design and application of apparel fabrics based on the concept of sustainable development [J]. Wool Textile Journal, 2020,48 (4): 75-79.
[14]戚聿東,肖旭.數字經濟時代的企業管理變革[J].管理世界,2020,36(6):135-152.
QI Yudong, XIAO Xu. Transformation of enterprise management in the era of digital economy [J]. Journal of Management World, 2020, 36(6): 135-152.
[15]鐘機靈.基于Python網絡爬蟲技術的數據采集系統研究[J].信息通信,2020,33(4):96-98.
ZHONG Jiiling.Research on the python-based web crawler for data collection system [J]. Changjiang Information & Communications, 2020,33(4):96-98.
[16]肖新鳳,張絳麗,鄧祖民.基于Python的爬蟲技術的網站設計與實現[J].現代信息科技,2020,4(14):73-75.
XIAO Xinfeng, ZHANG Jiangli, DENG Zumin. Website desian and lmplementation of crawler technology based on python [J]. Modern Information Technology, 2020, 4(14): 73-75.
[17]江大鵬.基于詞向量的短文本分類方法研究[D].杭州:浙江大學,2015:6-16.
JIANG Dapeng. Research on Short Text Classification Based on Word Distributed Representation [D].Hangzhou:Zhejiang University,2015:6-16.
[18]QIU X, SUN T, XU Y,? et al.Pre-trained models for natural language processing: A survey[J].Science China Technological Sciences,2020,63(10):1-26.
[19]蘇劍林. CoSENT(一):比Sentence-BERT更有效的句向量方案 [EB/OL]. [2023-04-20]. https://kexue.fm/archives/8847.SU Jianlin. CoSENT (I): A more effective sentence vector scheme than Sentence-BERT [EB/OL]. [2023-04-20]. https://kexue.fm/archives/8847.
[20]段丹丹,唐加山,溫勇,等.基于BERT模型的中文短文本分類算法[J].計算機工程,2021,47(1):79-86.
DUAN Dandan, TANG Jiashan, WEN Yong, et al. Chinese short text classification algorithm based on BERT model[J].Computer Engineering,2021,47(1):79-86.
[21]林學民,王煒.集合和字符串的相似度查詢[J].計算機學報,2011,34(10):1853-1862.
LIN Xuemin,WANG Wei. Set and string similarity queries:a survey[J].Chinese Journal of Computers,2011,34(10):1853-1862.
[22]湯哲沖.基于圖神經網絡的姓名消歧算法研究[D].杭州:浙江理工大學,2023:8-46.
TANG Zhechong. Research on Graph Neural Network-Based Name Disambiguation Algorithm[D].Hangzhou:Zhejiang Sci-Tech University,2023:8-46.
Mining the industry chain link relationship of clothing enterprises
based on the industry chain map
FANG? Zhijian1,2,? CHENG? Yu1,? JIN? Yao1,2,? TANG? Zhechong1,? XU? Jinying3
(1.School of Computer Science and Technology (School of Artificial Intelligence), Zhejiang Sci-Tech University,
Hangzhou 310018, China; 2.Zhejiang Provincial Innovation Center of Advanced Textile Technology
(Jianhu Laboratory), Shaoxing 312000, China; 3.Zhejiang Science and Technology Project
Management Service Center, Hangzhou 310018, China)
Abstract:
The construction of the clothing industry chain map has become a focal area and a key strategy for the digital upgrade of China's clothing industry. Serving as a vital tool, the clothing industry chain map helps enterprises and researchers better understand and grasp the structure, relationships, and dynamics of the entire industry chain.
This study aims to use digital technology to visually present the entire clothing industry chain, so as to enhance the efficiency, reduce costs, optimize the resource allocation, and ultimately boost the competitiveness and market position of enterprises. In the clothing industry chain map, determining which industry chain point a company belongs to and understanding the relationships among various enterprises are crucial for industry investment, resource optimization, production efficiency improvement, and cost reduction. However, traditional methods of enterprise linkage often involve manual examination of company names, business scopes, and product information, leading to time-consuming and inefficient processes with suboptimal results. Therefore, researching automatic linkage algorithms for clothing enterprises is of practical significance and theoretical value in optimizing the clothing industry chain map. Current research efforts are primarily focused on text information mining and machine learning methods. Nevertheless, limited research has been conducted on how to use the enterprise profiles and industrial chain map for automatic linkage in the industry chain. This study addresses this gap by collecting enterprise information, extracting keywords, establishing an enterprise information database, and proposing an automatic linkage algorithm based on the CoSENT model. The algorithm utilizes the CoSENT model to calculate the similarity between enterprise keywords and industry chain points, filters matching results through custom rules, assesses the relevance between keywords and points, and achieves automatic linkage in the industry chain for enterprises. Leveraging machine learning technology, this approach provides a more feasible solution for handling vast amounts of information related to clothing enterprises.
Experimental results demonstrate that the proposed algorithm significantly outperforms other traditional algorithms on the F1-Measure metric. Compared to the Jaccard method, the accuracy of this algorithm improves by 14%; compared to the Word2Vec method, it improves by 10.5%; and compared to the SBERT method, it improves by 2.5%. The substantial enhancement elevates the accuracy and efficiency of enterprise linkage, providing robust support and guidance for optimizing the clothing industry chain map. Future research directions include collecting more enterprise information to build richer enterprise profiles, so as to further enhance the linkage efficiency. This study offers a practical solution for the digital upgrade and optimization of the clothing industry chain.
Keywords:
garment industry chain; industrial chain map; automatic linkage algorithm; CoSENT model