基于TF-IDF算法的供應鏈信息定向挖掘模型

2021-11-17 07:33:56范增民劉彩娜

計算機仿真 2021年7期

路健，范增民，劉彩娜

(河北地質大學華信學院，河北石家莊 050700)

1 引言

伴隨經濟全球化發展趨勢的不斷發展，市場資源發生巨大改變，信息化在供應鏈管理中發揮著至關重要的作用。信息是供應鏈的驅動元素之一，是供應鏈每個環節的溝通載體[1]，具有連接與增強供應鏈全局效率與效益的功能，可為供應鏈決策者提供事實依據。供應鏈內包含諸多內容，如信息流、物流和資金流等[2]。不同工作內容對信息的選擇也各不相同，實現高效快速的信息定向挖掘是目前供應鏈數據應用領域的重要問題之一。

阮陽[3]等人提出了一種基于爬蟲技術的定向信息檢索挖掘模型。根據逆k近鄰中出現的樞紐現象以及與離群數據的關系，利用k近鄰中的距離信息作為權值實現離群分數加權，然后隨機產生區分度臨界值，依據爬蟲技術挑選離群程度最大的多個數據對象當作離群數據。但該模型運算時間過長，其時效性有待增強；劉海濤[4]等人設計了基于潛在因子模型的信息定向挖掘及匹配模型。該模型使用高頻項目集合，不斷深化迭代的方法形成自頂向下挖掘過程，整合模糊集合理論和潛在因子模型，在事務數據集內探尋模糊關聯規則，挖掘出儲存在多層次結構事務數據庫中定量值信息隱含知識，完成定制化信息挖掘需求。但該模型在處理大規模、高維度、包含非線性關系供應鏈信息時，挖掘效果并不理想。

針對以上方法不足，本研究建立了一種基于詞頻-逆文本頻率(Term Frequency-Inverse Document Frequency，TF-IDF)算法的供應鏈信息定向挖掘模型。在分析用戶對供應鏈信息的內在需求的基礎上，運用TF-IDF算法計算信息權重大小，然后利用支持向量機方法建立高效率供應鏈信息定向挖掘過程。

2 供應鏈信息定向挖掘取向分析

供應鏈信息挖掘取向是定向挖掘重要的前提條件，也是整個挖掘工作的關鍵知識源。以用戶為核心，根據用戶需求為其提取想要的資源，明確信息挖掘范圍[5]。因此，建立用戶層次向量空間模型，該模型決定了用戶對供應鏈中哪類信息的關注程度。層次向量空間模型使用樹形結構對進行分類，運用向量空間模型描述用戶信息挖掘取向。

首先使用三層樹狀結構表示用戶取向模型，第一層節點為用戶，第二層節點是用戶信息取向，一個信息取向擁有若干取向特征項，第三層節點為用戶某個取向主題下的特征項。將用戶模型架構如圖1所示。

假如用戶具備m個不同取向的興趣主題，則將用戶取向模型描述成以下特征矢量

Model={(T1，W1，n1)，(T2，W2，n2)，…，(Ti，Wi，ni)}

(1)

式中，Ti是第i個取向特征矢量，Wi是取向權重，ni是第i個取向涵蓋的信息數量。將Wi采取初始化，得到

Wi=I(page1)I(page2)…I(pageni)

(2)

式中，I(pagek)(k=1，2，…，ni)是用戶對網頁的興趣，即網頁興趣度。

主題Si內文檔實例提取關鍵詞特征項如下

Si={(ki1，wi1)，(ki2，wi2)，…，(kij，wij)}

(3)

式中，(kij，wij)表示Si類的第j個取向關鍵詞條，kij表示關鍵詞，wij是關鍵詞kij的權重。

現階段的有關工作多數圍繞瀏覽行為判斷用戶對供應鏈哪些頁面內容興趣較大。利用相關性分析獲得五個典型瀏覽行為：儲存頁面、打印頁面、Bookmark、訪問數量與停留時間[6-8]。五個瀏覽行為是用戶取向性分析的最優組合。設定I(w)是用戶對頁面w的興趣度，將I(w)記作

I(w)=φ(S(w)，P(w)，B(w)，F(w)，D(w))

(4)

式中，S(w)代表保存頁面，P(w)是打印頁面，B(w)表示把頁面儲存于Bookmark內，F(w)是頁面訪問頻度，D(w)是在頁面內的停留時長。

對于保存頁面、打印頁面、Bookmark頁面三類行為來說，有其中一個行為發生就證明用戶對該頁面擁有很大的興趣取向，將評估過程記作

(5)

針對用戶訪問頁面，用戶對頁面訪問次數越多，且頁面瀏覽速率越緩慢，證明用戶對該頁面信息興趣越高，獲得如下定義

(6)

式中，w表示用戶訪問頁面集合，Size(w)是網頁w的大小。為化簡取向分析過程，設定α值等于0。用戶信息取向的計算考慮訪問頁面變換成文本實例后的文本大小

(7)

3 基于TF-IDF算法的供應鏈信息文本權重計算

在明確用戶對供應鏈信息取向后，可為后續定向挖掘提供可靠依據。在構建定向挖掘模型之前，首先要確立詞位置與詞跨度對定向挖掘中關鍵詞權重的影響。傳統信息預處理無法闡明詞語在文本內的分布狀態，本文在信息預處理過程中引入詞語段落標注技術[9]，融合數據結構實現信息預處理目標，排除多余信息干擾，增強定向挖掘效率。

采用四元組〈ci，tfi，di，li〉描述預處理后的文本集合，其中，ci表示詞語，tfi表示詞語的詞頻，di表示詞語處于文本內的位置權重，li表示文本內出現處于的段落個數。詳細計算過程為：

1)將語料庫采取分詞處理；

2)去除停用詞。也就是提出文本內出現次數很多，但對所需供應鏈信息不擁有代表性或代表性較低的詞語；

3)識別未登錄詞語。未登錄此表示文本內無法使用詞典識別的詞語，如人名、地名、專業術語等[10]。未登錄詞大部分為名詞，即專有名詞與新詞匯。通常闡述的是固定對象，具備很強的重要性；

4)統計分析。統計詞語的詞頻、位置和出現該詞語的段落數量。對詞語實施位置權重計算時，使用表1的推導原則，將最終獲得的四元組當作信息預處理結果。

表1 位置權值系數

設定文本集合為C，N是C內所有文本個數。在固定文檔e中，使用TF-IDF算法算出固定詞i的權重解析式

(8)

式中，fij是詞語i在文本dj內出現的頻度，Ni是文本內出現詞語i的文本個數，β表示經驗值，通常取值為1。

從式(8)可以看出，詞語i在文本內出現的頻度越大，在文本集合內出現的概率越小，詞語的權重越大，證明涵蓋的信息熵越高，擁有很強代表性。

詞匯的跨段落狀態證明該詞匯是闡明局部還是表達全文。跨段落次數越多，表明詞匯越關鍵，全局性越高。局部關鍵詞不在信息挖掘范圍內。在其它算法中，局部關鍵詞通常會因為其高頻率變成文本中心詞，減少了獲取關鍵詞的正確性[11]。為此，設計一個詞匯跨度權重，其計算過程為

(9)

式中，li是詞匯出現的段落，L是段落數量總和。

針對文本內隨機一個候選供應鏈關鍵詞，按照位置權重和跨度權重，創建基于改進TF-IDF算法的文本權重計算公式

(10)

通過式(10)獲得各個候選關鍵詞的綜合權重，按照權重對候選關鍵詞實施排列[12]，利用排列，可以挑選前g個關鍵詞當作文本關鍵詞，減少供應鏈信息定向挖掘所耗時間。

4 供應鏈信息定向挖掘模型構建

支持向量機是一種機器學習方法，通過線性可分前提下的最優分類面拓展得到的，最優分類面即要求分類面既能把兩個類別進行準確劃分，且分類間隔距離大，和最優分類超平面距離最接近的向量為支持向量。

將支持向量機線性可分訓練集合描述成如下形式

T={(x1，y1)，(x2，y2)，K，(xn，yn)}

(11)

式中，x∈Rn，y∈{-1，1}。基于此可得到

f(x)=sgn((ω·x)+b)

(12)

倘若具備如式(12)的判別函數，則在線性條件下，把最優分類超平面使用圖2中的二維模式進行說明。

圖2 最優分類超平面示意圖

圖2中，較粗的實線H為分類面，空心點與實心點依次表示兩種樣本。H1、H2是和分類面平行的平面，該平面取決于各種分類線最近樣本，兩個平面的間距是分類間隙。

通過式(13)能劃分兩個樣本的超平面。式中，ω表示權重指數，b是偏置項。

ω·x+b=0

(13)

為了讓分類超平面可以最大程度劃分兩種樣本，提高所建模型定向挖掘性能，需要讓間隔為最大，也就是創建一個間隔優化問題，可得到

(14)

在線性不可分情況下，某些樣本點無法符合式(14)計算條件，則代入松弛變量，將式(14)轉變成

s.t.yi(ω·x+b)≥1-ξii=1，2，K，n

(15)

經過引入拉格朗日乘子就把初始的約束優化問題變成對偶問題，可得到

(16)

經過計式(16)獲得如下計算公式

(17)

最終獲得線性判別函數如下

(18)

通常大部分系數αi的值是0，不會影響定向挖掘結果。增量學習是把新引入的訓練樣本當作增加向量，對原始訓練樣本獲得分類器實施訓練，讓重新獲得的分類器具備良好的區分效果。對增量學習時的各類新增訓練集而言，支持向量集合即為向量集的子集，詳情如圖3所示。

圖3 殼向量和支持向量之間的關聯

針對供應鏈信息定向挖掘，多Agent是現階段使用最多的技術手段。企業網絡化數據庫可采用Agent映射出定向信息源特征屬性，構建貼合企業供應鏈目標查詢的模型，如圖4所示。

圖4 供應鏈定向挖掘模型

模型關鍵思路為：對分站點數據集實施支持向量機局部信息挖掘，將局部挖掘獲取的支持向量表示成局部特征多叉樹，經過移動Agent把支持向量機與殼向量信息傳輸至下個站點，把新增樣本和原有樣本融合后進行信息挖掘，伴隨樣本集的不斷積累，逐步提升學習精度，最終完成供應鏈信息定向挖掘任務。

5 仿真與結果分析

為驗證上述基于TF-IDF算法的供應鏈信息定向挖掘模型的實際應用性能，設計如下仿真。將其與文獻[3]中的基于爬蟲的定向信息檢索挖掘模型、文獻[4]中的基于潛在因子模型的信息定向挖掘及匹配模型進行對比。仿真參數如表2所示。

表2 仿真它參數設置

在以上仿真參數下，從挖掘效率與挖掘錯誤率兩方面對3種模型的性能加以驗證。

以挖掘過程耗時為指標，驗證不同模型的挖掘效率，對比結果如圖5所示。

圖5 不同模型挖掘效率對比分析

從圖5中可以看到，伴隨節點數量的持續增多，本文模型的挖掘過程耗時始終保持較低狀態，僅在最初時略高于文獻[4]模型，說明其挖掘效率較高。這是因為本文模型采用TF-IDF算法計算文本權重，能降低供應鏈信息定向挖掘時間損耗，充分利用網絡節點挖掘能力，所以挖掘效率為最高。而傳統模型因為忽略了計算節點數量增多時可能具備的競爭元素，所以運算挖掘效率不佳。

為深入驗證本文模型的應用效果，以挖掘錯誤率為指標對不同模型加以驗證，對比結果如圖6所示。

圖6 不同模型挖掘錯誤率對比分析

從圖6中可以看到，伴隨節點數量的持續增多，本文模型的挖掘錯誤率始終小于2種對比模型，且上浮程度較小，始終保持在10%以下。原因在于本文模型利用支持向量機機器學習模式，可得到優秀的信息分類精度，運用多Agent技術構建出符合企業供應鏈查詢需求的定向挖掘模型，挖掘錯誤率得到有效遏制。而文獻[3]模型在挖掘中沒有對數據進行修正，文獻[4]模型在尋找模糊關聯規則時的精度不高，難以獲得滿意的數據挖掘結果。

6 結語

針對傳統的供應鏈信息定向挖掘模型存在的精準度不高、效率低的問題，本研究構建了基于TF-IDF算法的供應鏈信息定向挖掘模型。該模型能有效甄別用戶對供應鏈若干信息中的哪類信息需求最高，且定向挖掘時效性強，大幅提升了定向挖掘整體性能，為精準提取供應鏈信息發揮關鍵作用。今后會對模型動態性與并行運算等方面開展深入研究，進一步提高模型的適用性。