999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能商品分類系統(tǒng)的設(shè)計與實現(xiàn)

2022-08-09 08:43:02朱安東石文玉
科技風(fēng) 2022年19期
關(guān)鍵詞:分類文本模型

朱安東 石文玉

安徽新華學(xué)院大數(shù)據(jù)與人工智能學(xué)院 安徽合肥 230087

隨著信息技術(shù)的飛速發(fā)展,移動互聯(lián)網(wǎng)滲透到人們生活的方方面面,諸如京東等電商平臺蓬勃發(fā)展,商品的種類越來越豐富,數(shù)量也越來越多。隨著數(shù)字化時代的發(fā)展,各大電商平臺也處于日益激烈的競爭中,如何在用戶瀏覽網(wǎng)絡(luò)頁面時,提供一些有效信息,提升用戶使用感是各大電商平臺面對的一個重難點問題。面對大數(shù)據(jù)時代下大量的商品信息,如何對商品進(jìn)行有效的分類是研究的熱點問題之一。日益增長的商品種類和數(shù)量使得商家進(jìn)行商品分類也越來越難,但若對商品進(jìn)行了錯誤的分類或者未進(jìn)行分類,都會導(dǎo)致客戶無法快速查找到想要購買的商品,降低成交量,久而久之商家平臺會被淘汰。傳統(tǒng)的人工分類方法成本高、效率低且易出錯等問題已經(jīng)無法適應(yīng)當(dāng)下社會發(fā)展的趨勢。隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,依托于計算機數(shù)據(jù)處理及分類技術(shù)設(shè)計出一種快速、準(zhǔn)確的分類方法,將大量雜亂的文本信息利用算法進(jìn)行自動分類,其方法可以有效地降低人工成本,提高效率和準(zhǔn)確率,從而滿足信息技術(shù)發(fā)展的各項需求。

1 文本預(yù)處理

從網(wǎng)絡(luò)中獲取的數(shù)據(jù)大多含有大量的噪聲、比較粗糙,不能夠直接用于計算機的文本分類使用,如直接使用將會耗費大量的訓(xùn)練和預(yù)測時間,也會影響到分類模型的性能。因此需要通過數(shù)據(jù)預(yù)處理技術(shù),對相應(yīng)文本進(jìn)行清洗、分詞、去除停用詞等操作后才能使用。

1.1 數(shù)據(jù)清洗

對網(wǎng)絡(luò)上獲取的數(shù)據(jù)進(jìn)行清洗,是提高系統(tǒng)使用數(shù)據(jù)質(zhì)量的關(guān)鍵一步,需要較長時間操作。對文本進(jìn)行數(shù)據(jù)清洗主要包括處理缺失值、冗余值和噪音[1],對于其兩者的操作可以通過條件判斷后直接刪除整條數(shù)據(jù)。網(wǎng)絡(luò)文本中的噪聲處理主要包括將文本中的HTML符號、數(shù)字、換行等用空白替代,對URL或一些與語義無關(guān)的解釋性語句用正則表達(dá)式將其過濾。常用的正則表達(dá)式匹配規(guī)則如表1所示。

表1 常用的正則表達(dá)式匹配規(guī)則

1.2 中文分詞預(yù)處理

中文在書寫時沒有使用分隔符將詞進(jìn)行分割,但是語言中的最小文字單位是詞,因此為了便于對文本的語義進(jìn)行理解,算法模型需要進(jìn)行中文的分詞預(yù)處理。在深度學(xué)習(xí)算法中,通過神經(jīng)網(wǎng)絡(luò)對文本特征進(jìn)行自動提取,近年來越來越多的神經(jīng)網(wǎng)絡(luò)模型,如卷積神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)等被用于中文分詞中。目前,在中文分詞領(lǐng)域中開發(fā)出了一些性能較好的開源工具,如NIPIR分詞系統(tǒng)、Jieba分詞工具等。在本文中選用了Python的中文分詞組件Jieba進(jìn)行中文分詞處理,其分詞模式包括三種,如表2所示。

表2 Jieba分詞模式

2 循環(huán)卷積神經(jīng)網(wǎng)絡(luò)

循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Convolutional Neural Networks,RCNN)結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)[2]和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[3]的優(yōu)點。卷積神經(jīng)網(wǎng)絡(luò)包括輸入層、卷積層、池化層與全連接層,如圖1所示。循環(huán)神經(jīng)網(wǎng)絡(luò)使用循環(huán)的操作把上一時刻的隱藏狀態(tài)與當(dāng)前時刻的序列輸入當(dāng)成此時的輸入,從而更好地表達(dá)文本的上下文語義信息,如圖2所示。而循環(huán)卷積神經(jīng)網(wǎng)絡(luò)中,循環(huán)卷積層代替了卷積層,從輸入層中提取目標(biāo)對象后使用變化的循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,從而進(jìn)行特征的抽象提取。圖3給出了以“新款女春裝長針織衫”為例的循環(huán)卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖。從模型結(jié)構(gòu)中來看,RCNN使用了CNN的最大池化層和RNN的循環(huán)結(jié)構(gòu)的優(yōu)點,減少了噪聲并且提出了文本中的特征信息。

圖3 循環(huán)卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)

3 模型介紹

本文對商品標(biāo)題進(jìn)行特征提取時使用循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的方法,首先在學(xué)習(xí)文本特征時將循環(huán)結(jié)構(gòu)作為卷積層,得到詞表示后進(jìn)行最大池化處理,從而得到文本的向量表示,最后從輸出層獲得文本表示,如圖4表示。

圖4 本文模型

3.1 卷積層

考慮到現(xiàn)在的網(wǎng)絡(luò)平臺為了能使商品被更多的用戶搜索到,商家會為商品添加較長、較多的商品信息標(biāo)簽,用戶在搜索商品時也會將自己的詳細(xì)需求寫入商品信息中,而中文中的詞不是孤立的,詞和詞之間的關(guān)聯(lián)往往也會和詞的含義有關(guān),因此本模型中采用雙向長短時記憶網(wǎng)絡(luò)(BLSTM)[4]來學(xué)習(xí)詞的上下文表示。其中包括左上下文信息和右上下文信息。

3.2 池化層

本模型中使用卷積神經(jīng)網(wǎng)絡(luò)模型的方法,將學(xué)習(xí)到的所有詞的表示統(tǒng)一進(jìn)行最大池化的方式進(jìn)行處理[5],該方法能夠充分利用詞的特征,減少文本噪聲,從而使得獲取的文本表示能夠更大程度地作為文本的重要特征。

3.3 輸出層

在獲得文檔表示后,像傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型一樣,本模型使用全連接作為模型的輸出層,最后通過概率函數(shù)來統(tǒng)計輸出的文檔屬于哪一類的概率,從而計算模型的性能。

4 實驗結(jié)果與分析

4.1 實驗環(huán)境

本實驗是在本地計算機上進(jìn)行的,具體的實驗環(huán)境詳情如表3所示。

表3 實驗環(huán)境

4.2 實驗數(shù)據(jù)與統(tǒng)計分析

本文使用的商品信息數(shù)據(jù)為網(wǎng)絡(luò)開源數(shù)據(jù),共有11369條,其中測試集有7639條,訓(xùn)練集有3730條。

4.3 性能指標(biāo)

針對文本分類算法的性能指標(biāo)有很多種,如查準(zhǔn)率P(Precision)、召回率R(Recall)以及F1-measure等。這些指標(biāo)都和預(yù)測結(jié)果有關(guān),以實際類別為A為例,預(yù)測結(jié)果有四種,如表4所示。其中TP為樣本被正確預(yù)測到A類的數(shù)量,F(xiàn)N指不屬于A類的樣本被錯誤預(yù)測到A類的數(shù)量,TN為A類的樣本被錯誤預(yù)測為其他類的數(shù)量,F(xiàn)P為不屬于A類的樣本被正確地預(yù)測為其他類的數(shù)量。

表4 預(yù)測結(jié)果舉例

查準(zhǔn)率、召回率及F-measure(F值)的計算公式如下:

(1)

(2)

(3)

其中,α為調(diào)和查準(zhǔn)率和召回率的平衡值,在文本分類技術(shù)中通常另α=1,即為F1-measure,如式(4)所示:

(4)

4.4 實驗設(shè)計及結(jié)果分析

本文選擇了深度學(xué)習(xí)模型中的CNN、RNN與RCNN對文本進(jìn)行分類,并對上述三種算法的查準(zhǔn)率、召回率及F1-measure進(jìn)行比較分析,實驗結(jié)果如表5所示。

表5 實驗結(jié)果對比

從實驗結(jié)果對比中可以看出,RCNN相比較于其他算法在查準(zhǔn)率、召回率和F1值三方面都有著較好的結(jié)果,實驗結(jié)果表明本文所采用的模型能夠更好地對文本進(jìn)行分類,從而提高文本分類的性能。

5 智能商品分類系統(tǒng)的實現(xiàn)

在前面工作的基礎(chǔ)上,本文設(shè)計并實現(xiàn)了一個商品分類的可視化系統(tǒng)。本文中將使用Eclipse軟件作為開發(fā)軟件來編寫代碼,系統(tǒng)采用B/S架構(gòu)、HTML、CSS等技術(shù)來編輯網(wǎng)頁,把MySQL數(shù)據(jù)庫和動態(tài)交互網(wǎng)頁相連。系統(tǒng)功能模塊如圖5所示。

圖5 系統(tǒng)功能模塊

結(jié)語

本文采用RCNN模型對商品信息進(jìn)行分類,分類結(jié)果表明,相對于CNN和RNN,該模型具有較好的性能指標(biāo),此外通過相關(guān)技術(shù)實現(xiàn)了可視化系統(tǒng)界面設(shè)計。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产综合在线观看视频| 成人欧美日韩| 99久久精品国产综合婷婷| a毛片基地免费大全| 久久精品国产免费观看频道 | 久久久久亚洲精品成人网| 超清人妻系列无码专区| 亚洲成a人片77777在线播放| 国产欧美综合在线观看第七页| 一本视频精品中文字幕| 麻豆精品视频在线原创| 在线观看免费黄色网址| 久久精品国产亚洲麻豆| 高潮毛片免费观看| 欧美自慰一级看片免费| 被公侵犯人妻少妇一区二区三区| 9啪在线视频| 亚洲欧美一区二区三区图片| 国产亚洲精品无码专| 人妻丰满熟妇av五码区| 亚洲AV无码久久天堂| 欧美日韩国产在线人成app| 免费99精品国产自在现线| 美女一区二区在线观看| 日韩精品无码一级毛片免费| 免费国产小视频在线观看| 免费看美女毛片| 亚洲一区二区三区在线视频| 国产久草视频| 亚洲国产精品一区二区高清无码久久| 香蕉久久永久视频| 亚洲人成网7777777国产| 国产又大又粗又猛又爽的视频| 色有码无码视频| 精品伊人久久久久7777人| 欧美视频在线观看第一页| 成人午夜视频免费看欧美| 亚洲AⅤ永久无码精品毛片| 精品中文字幕一区在线| 国产成人综合久久精品尤物| 亚洲天堂视频在线免费观看| 亚洲一区二区日韩欧美gif| 久久免费精品琪琪| 性欧美精品xxxx| 日本高清成本人视频一区| 国产SUV精品一区二区6| 欧美综合一区二区三区| 麻豆a级片| 久久这里只有精品66| 美女高潮全身流白浆福利区| 欧美一区国产| 日韩毛片免费| 黄色网页在线播放| 国产一在线| 波多野结衣无码AV在线| 青青操国产| 国产欧美网站| 美女无遮挡免费网站| 在线看AV天堂| 中文字幕人成乱码熟女免费| 国产区在线看| 久久精品电影| 国产乱人乱偷精品视频a人人澡| 国产一区亚洲一区| 亚洲欧美另类日本| 国产网站一区二区三区| 丁香五月婷婷激情基地| 狠狠做深爱婷婷综合一区| 97在线公开视频| 日韩黄色在线| 无码日韩视频| 一本大道无码日韩精品影视 | 91色国产在线| 四虎永久在线| 亚洲欧美精品日韩欧美| 国产成人综合久久精品尤物| 婷婷五月在线视频| 最新痴汉在线无码AV| 久久香蕉国产线看观看精品蕉| 国产成人成人一区二区| 暴力调教一区二区三区| 九九热精品视频在线|