999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF-IDF算法的供應鏈信息定向挖掘模型

2021-11-17 07:33:56范增民劉彩娜
計算機仿真 2021年7期
關鍵詞:頁面文本用戶

路 健,范增民,劉彩娜

(河北地質大學華信學院,河北 石家莊 050700)

1 引言

伴隨經濟全球化發展趨勢的不斷發展,市場資源發生巨大改變,信息化在供應鏈管理中發揮著至關重要的作用。信息是供應鏈的驅動元素之一,是供應鏈每個環節的溝通載體[1],具有連接與增強供應鏈全局效率與效益的功能,可為供應鏈決策者提供事實依據。供應鏈內包含諸多內容,如信息流、物流和資金流等[2]。不同工作內容對信息的選擇也各不相同,實現高效快速的信息定向挖掘是目前供應鏈數據應用領域的重要問題之一。

阮陽[3]等人提出了一種基于爬蟲技術的定向信息檢索挖掘模型。根據逆k近鄰中出現的樞紐現象以及與離群數據的關系,利用k近鄰中的距離信息作為權值實現離群分數加權,然后隨機產生區分度臨界值,依據爬蟲技術挑選離群程度最大的多個數據對象當作離群數據。但該模型運算時間過長,其時效性有待增強;劉海濤[4]等人設計了基于潛在因子模型的信息定向挖掘及匹配模型。該模型使用高頻項目集合,不斷深化迭代的方法形成自頂向下挖掘過程,整合模糊集合理論和潛在因子模型,在事務數據集內探尋模糊關聯規則,挖掘出儲存在多層次結構事務數據庫中定量值信息隱含知識,完成定制化信息挖掘需求。但該模型在處理大規模、高維度、包含非線性關系供應鏈信息時,挖掘效果并不理想。

針對以上方法不足,本研究建立了一種基于詞頻-逆文本頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法的供應鏈信息定向挖掘模型。在分析用戶對供應鏈信息的內在需求的基礎上,運用TF-IDF算法計算信息權重大小,然后利用支持向量機方法建立高效率供應鏈信息定向挖掘過程。

2 供應鏈信息定向挖掘取向分析

供應鏈信息挖掘取向是定向挖掘重要的前提條件,也是整個挖掘工作的關鍵知識源。以用戶為核心,根據用戶需求為其提取想要的資源,明確信息挖掘范圍[5]。因此,建立用戶層次向量空間模型,該模型決定了用戶對供應鏈中哪類信息的關注程度。層次向量空間模型使用樹形結構對進行分類,運用向量空間模型描述用戶信息挖掘取向。

首先使用三層樹狀結構表示用戶取向模型,第一層節點為用戶,第二層節點是用戶信息取向,一個信息取向擁有若干取向特征項,第三層節點為用戶某個取向主題下的特征項。將用戶模型架構如圖1所示。

假如用戶具備m個不同取向的興趣主題,則將用戶取向模型描述成以下特征矢量

Model={(T1,W1,n1),(T2,W2,n2),…,(Ti,Wi,ni)}

(1)

式中,Ti是第i個取向特征矢量,Wi是取向權重,ni是第i個取向涵蓋的信息數量。將Wi采取初始化,得到

Wi=I(page1)I(page2)…I(pageni)

(2)

式中,I(pagek)(k=1,2,…,ni)是用戶對網頁的興趣,即網頁興趣度。

主題Si內文檔實例提取關鍵詞特征項如下

Si={(ki1,wi1),(ki2,wi2),…,(kij,wij)}

(3)

式中,(kij,wij)表示Si類的第j個取向關鍵詞條,kij表示關鍵詞,wij是關鍵詞kij的權重。

現階段的有關工作多數圍繞瀏覽行為判斷用戶對供應鏈哪些頁面內容興趣較大。利用相關性分析獲得五個典型瀏覽行為:儲存頁面、打印頁面、Bookmark、訪問數量與停留時間[6-8]。五個瀏覽行為是用戶取向性分析的最優組合。設定I(w)是用戶對頁面w的興趣度,將I(w)記作

I(w)=φ(S(w),P(w),B(w),F(w),D(w))

(4)

式中,S(w)代表保存頁面,P(w)是打印頁面,B(w)表示把頁面儲存于Bookmark內,F(w)是頁面訪問頻度,D(w)是在頁面內的停留時長。

對于保存頁面、打印頁面、Bookmark頁面三類行為來說,有其中一個行為發生就證明用戶對該頁面擁有很大的興趣取向,將評估過程記作

(5)

針對用戶訪問頁面,用戶對頁面訪問次數越多,且頁面瀏覽速率越緩慢,證明用戶對該頁面信息興趣越高,獲得如下定義

(6)

式中,w表示用戶訪問頁面集合,Size(w)是網頁w的大小。為化簡取向分析過程,設定α值等于0。用戶信息取向的計算考慮訪問頁面變換成文本實例后的文本大小

(7)

3 基于TF-IDF算法的供應鏈信息文本權重計算

在明確用戶對供應鏈信息取向后,可為后續定向挖掘提供可靠依據。在構建定向挖掘模型之前,首先要確立詞位置與詞跨度對定向挖掘中關鍵詞權重的影響。傳統信息預處理無法闡明詞語在文本內的分布狀態,本文在信息預處理過程中引入詞語段落標注技術[9],融合數據結構實現信息預處理目標,排除多余信息干擾,增強定向挖掘效率。

采用四元組〈ci,tfi,di,li〉描述預處理后的文本集合,其中,ci表示詞語,tfi表示詞語的詞頻,di表示詞語處于文本內的位置權重,li表示文本內出現處于的段落個數。詳細計算過程為:

1)將語料庫采取分詞處理;

2)去除停用詞。也就是提出文本內出現次數很多,但對所需供應鏈信息不擁有代表性或代表性較低的詞語;

3)識別未登錄詞語。未登錄此表示文本內無法使用詞典識別的詞語,如人名、地名、專業術語等[10]。未登錄詞大部分為名詞,即專有名詞與新詞匯。通常闡述的是固定對象,具備很強的重要性;

4)統計分析。統計詞語的詞頻、位置和出現該詞語的段落數量。對詞語實施位置權重計算時,使用表1的推導原則,將最終獲得的四元組當作信息預處理結果。

表1 位置權值系數

設定文本集合為C,N是C內所有文本個數。在固定文檔e中,使用TF-IDF算法算出固定詞i的權重解析式

(8)

式中,fij是詞語i在文本dj內出現的頻度,Ni是文本內出現詞語i的文本個數,β表示經驗值,通常取值為1。

從式(8)可以看出,詞語i在文本內出現的頻度越大,在文本集合內出現的概率越小,詞語的權重越大,證明涵蓋的信息熵越高,擁有很強代表性。

詞匯的跨段落狀態證明該詞匯是闡明局部還是表達全文。跨段落次數越多,表明詞匯越關鍵,全局性越高。局部關鍵詞不在信息挖掘范圍內。在其它算法中,局部關鍵詞通常會因為其高頻率變成文本中心詞,減少了獲取關鍵詞的正確性[11]。為此,設計一個詞匯跨度權重,其計算過程為

(9)

式中,li是詞匯出現的段落,L是段落數量總和。

針對文本內隨機一個候選供應鏈關鍵詞,按照位置權重和跨度權重,創建基于改進TF-IDF算法的文本權重計算公式

(10)

通過式(10)獲得各個候選關鍵詞的綜合權重,按照權重對候選關鍵詞實施排列[12],利用排列,可以挑選前g個關鍵詞當作文本關鍵詞,減少供應鏈信息定向挖掘所耗時間。

4 供應鏈信息定向挖掘模型構建

支持向量機是一種機器學習方法,通過線性可分前提下的最優分類面拓展得到的,最優分類面即要求分類面既能把兩個類別進行準確劃分,且分類間隔距離大,和最優分類超平面距離最接近的向量為支持向量。

將支持向量機線性可分訓練集合描述成如下形式

T={(x1,y1),(x2,y2),K,(xn,yn)}

(11)

式中,x∈Rn,y∈{-1,1}。基于此可得到

f(x)=sgn((ω·x)+b)

(12)

倘若具備如式(12)的判別函數,則在線性條件下,把最優分類超平面使用圖2中的二維模式進行說明。

圖2 最優分類超平面示意圖

圖2中,較粗的實線H為分類面,空心點與實心點依次表示兩種樣本。H1、H2是和分類面平行的平面,該平面取決于各種分類線最近樣本,兩個平面的間距是分類間隙。

通過式(13)能劃分兩個樣本的超平面。式中,ω表示權重指數,b是偏置項。

ω·x+b=0

(13)

為了讓分類超平面可以最大程度劃分兩種樣本,提高所建模型定向挖掘性能,需要讓間隔為最大,也就是創建一個間隔優化問題,可得到

(14)

在線性不可分情況下,某些樣本點無法符合式(14)計算條件,則代入松弛變量,將式(14)轉變成

s.t.yi(ω·x+b)≥1-ξii=1,2,K,n

(15)

經過引入拉格朗日乘子就把初始的約束優化問題變成對偶問題,可得到

(16)

經過計式(16)獲得如下計算公式

(17)

最終獲得線性判別函數如下

(18)

通常大部分系數αi的值是0,不會影響定向挖掘結果。增量學習是把新引入的訓練樣本當作增加向量,對原始訓練樣本獲得分類器實施訓練,讓重新獲得的分類器具備良好的區分效果。對增量學習時的各類新增訓練集而言,支持向量集合即為向量集的子集,詳情如圖3所示。

圖3 殼向量和支持向量之間的關聯

針對供應鏈信息定向挖掘,多Agent是現階段使用最多的技術手段。企業網絡化數據庫可采用Agent映射出定向信息源特征屬性,構建貼合企業供應鏈目標查詢的模型,如圖4所示。

圖4 供應鏈定向挖掘模型

模型關鍵思路為:對分站點數據集實施支持向量機局部信息挖掘,將局部挖掘獲取的支持向量表示成局部特征多叉樹,經過移動Agent把支持向量機與殼向量信息傳輸至下個站點,把新增樣本和原有樣本融合后進行信息挖掘,伴隨樣本集的不斷積累,逐步提升學習精度,最終完成供應鏈信息定向挖掘任務。

5 仿真與結果分析

為驗證上述基于TF-IDF算法的供應鏈信息定向挖掘模型的實際應用性能,設計如下仿真。將其與文獻[3]中的基于爬蟲的定向信息檢索挖掘模型、文獻[4]中的基于潛在因子模型的信息定向挖掘及匹配模型進行對比。仿真參數如表2所示。

表2 仿真它參數設置

在以上仿真參數下,從挖掘效率與挖掘錯誤率兩方面對3種模型的性能加以驗證。

以挖掘過程耗時為指標,驗證不同模型的挖掘效率,對比結果如圖5所示。

圖5 不同模型挖掘效率對比分析

從圖5中可以看到,伴隨節點數量的持續增多,本文模型的挖掘過程耗時始終保持較低狀態,僅在最初時略高于文獻[4]模型,說明其挖掘效率較高。這是因為本文模型采用TF-IDF算法計算文本權重,能降低供應鏈信息定向挖掘時間損耗,充分利用網絡節點挖掘能力,所以挖掘效率為最高。而傳統模型因為忽略了計算節點數量增多時可能具備的競爭元素,所以運算挖掘效率不佳。

為深入驗證本文模型的應用效果,以挖掘錯誤率為指標對不同模型加以驗證,對比結果如圖6所示。

圖6 不同模型挖掘錯誤率對比分析

從圖6中可以看到,伴隨節點數量的持續增多,本文模型的挖掘錯誤率始終小于2種對比模型,且上浮程度較小,始終保持在10%以下。原因在于本文模型利用支持向量機機器學習模式,可得到優秀的信息分類精度,運用多Agent技術構建出符合企業供應鏈查詢需求的定向挖掘模型,挖掘錯誤率得到有效遏制。而文獻[3]模型在挖掘中沒有對數據進行修正,文獻[4]模型在尋找模糊關聯規則時的精度不高,難以獲得滿意的數據挖掘結果。

6 結語

針對傳統的供應鏈信息定向挖掘模型存在的精準度不高、效率低的問題,本研究構建了基于TF-IDF算法的供應鏈信息定向挖掘模型。該模型能有效甄別用戶對供應鏈若干信息中的哪類信息需求最高,且定向挖掘時效性強,大幅提升了定向挖掘整體性能,為精準提取供應鏈信息發揮關鍵作用。今后會對模型動態性與并行運算等方面開展深入研究,進一步提高模型的適用性。

猜你喜歡
頁面文本用戶
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 无码中文字幕精品推荐| 精品国产网| 亚洲日韩精品欧美中文字幕| 欧美日本激情| 欧美国产在线看| 91精品专区国产盗摄| 亚洲国产高清精品线久久| 她的性爱视频| 青青网在线国产| 午夜福利无码一区二区| 熟妇丰满人妻av无码区| www.av男人.com| AV无码无在线观看免费| 欧亚日韩Av| 91在线一9|永久视频在线| 素人激情视频福利| 99久久精品国产自免费| 国产成人毛片| 又爽又大又光又色的午夜视频| 午夜毛片免费看| 99国产在线视频| 亚洲国产日韩在线成人蜜芽| 日韩天堂网| 亚洲欧美自拍一区| 国产成人a毛片在线| 一区二区三区高清视频国产女人| 国产女人在线视频| 少妇极品熟妇人妻专区视频| 国产成人AV综合久久| 国产综合无码一区二区色蜜蜜| 欧美成人看片一区二区三区 | 国产av无码日韩av无码网站| 秋霞一区二区三区| 久久精品中文无码资源站| 欧美A级V片在线观看| 亚洲精品中文字幕午夜| 永久免费av网站可以直接看的 | 欧美一级黄片一区2区| 欧美日韩激情在线| 丝袜久久剧情精品国产| 国产麻豆另类AV| 最新精品国偷自产在线| 九九视频免费看| 激情六月丁香婷婷四房播| 成人免费视频一区二区三区 | 亚洲欧美日韩另类在线一| 日本免费精品| 99视频在线免费| 亚洲动漫h| 日韩av无码精品专区| 国产福利一区视频| 国产呦精品一区二区三区网站| 亚洲一区二区三区中文字幕5566| 国产一级视频在线观看网站| 国产精品欧美在线观看| 日韩大片免费观看视频播放| 久久久国产精品无码专区| 欧美精品在线看| 激情爆乳一区二区| 欧美精品在线看| 欧美成人午夜影院| 无码中文字幕精品推荐| 国产高清免费午夜在线视频| 青青青国产精品国产精品美女| 日本国产一区在线观看| 欧美日韩精品综合在线一区| 人妻熟妇日韩AV在线播放| 亚洲人成网7777777国产| 国产精品专区第1页| 波多野结衣一区二区三区88| 国产精品99久久久久久董美香| 精品国产污污免费网站| 国产女人喷水视频| 综合色亚洲| 最新无码专区超级碰碰碰| 永久在线播放| 性喷潮久久久久久久久| 日本草草视频在线观看| 国产精品va| 久久综合丝袜长腿丝袜| 欧美日韩免费观看| 99久久精品免费看国产电影|