999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的B2B電子商務平臺產品排名研究

2016-09-26 08:39:16王晗璐
網絡安全與數據管理 2016年11期
關鍵詞:特征提取分類文本

王晗璐,夏 斌

(上海海事大學 信息工程學院,上海 201306)

?

基于機器學習的B2B電子商務平臺產品排名研究

王晗璐,夏斌

(上海海事大學 信息工程學院,上海 201306)

隨著互聯網的發展,電子商務已經成為一種新的商業活動模式。商品在電子商務平臺的排名,直接決定了產品的銷量。如何優化產品的排名,是所有電子商務公司關注的問題。從商品的文本信息角度出發,利用機器學習方法來研究文本信息與產品排名之間的關系。從特征提取方法和分類算法兩個角度進行了比較研究。首先比較了TFIDF和詞頻法(WF)兩種特征提取方法,進一步又比較了樸素貝葉斯、支持向量機(SVM)以及隨機森林(RF)三個分類算法。研究結果表明,在該文的數據集上進行文本分類排名分析,詞頻法結合隨機森林取得了最好的分類效果。

產品排名; 詞頻法; 隨機森林; 文本分類

引用格式:王晗璐,夏斌. 基于機器學習的B2B電子商務平臺產品排名研究[J].微型機與應用,2016,35(11):45-47.

0 引言

電子商務的概念起源于1995年,阿里巴巴國際站(簡稱:阿里國際站)是一個主要的電商平臺[1],它為小型商家的國際貿易提供良好的平臺。商家們通過在平臺上展示商品,從而獲得商機[2-3]。為了獲得更多的商機,改善產品在阿里平臺上的排名十分重要。平臺中產品展示的信息包括產品標題、屬性、圖片等,還有一些無法看到的信息,如產品關鍵詞。當用戶輸入關鍵詞后,阿里平臺會根據相關產品的信息進行打分,然后生成一個產品列表,得分越高的產品排名越靠前,被用戶瀏覽到的可能性越大,反之,產品分數越低,排名越靠后,產品銷量越小。

如今,有很多人討論如何做好阿里平臺產品的信息優化,從而改善產品排名,但大多是更換產品關鍵詞、更新標題、增加屬性、多使用熱搜詞、展示更清晰精美的圖片等。這些都需要大量的手動工作,而且效果也不盡人意,可行性較低。

根據阿里國際站的官方白皮書介紹,商品的標題及相關的商品屬性描述,是影響商品排名的重要因素。在本文中,考慮利用商品的標題和屬性特征進行分析,研究這類文本信息與商品排名之間的關系。假設產品標題及屬性的組合,在排名靠前的商品中有一些共同的特性。為了分析這樣的共性,結合自然語言處理技術和機器學習方法,擬利用文本分類的方法來研究,如果排名相近的產品在標題和屬性的組合上存在一些共性,則它們應該會被分到同一類別中。

1 方法

1.1特征提取

本文中,使用的產品標題和屬性屬于文本數據,首先要對其進行特征提取,轉化為數字樣本。本文應用了兩種自然語言處理中常用的特征提取方法[4]。

(1)TFIDF

假如一個詞語在一篇文檔中頻繁出現,但在其他文檔中極少出現,則可用這個詞語去區分這篇文檔。其中TF和IDF分別計算如下:

(1)

(2)

式(1)中,nij表示第i個詞在文檔dj中出現的次數,分母表示文檔dj中包括詞語的總數。式(2)中,|D|表示數據集中的文檔總數,|{j:ti∈dj}|表示包含詞ti的文檔數。于是TF-IDF計算如下:

TFIDFi,j=TFi,j*IDFi

(3)

(2)WF

對文檔中出現的詞語進行計數。如果單詞在文檔中出現,計數加1,本文還應用了2-gram方法,即每兩個相鄰的詞語,也記為一項。

1.2分類器

(1)樸素貝葉斯

在短文本分類問題中,x=(x1,x2,…,xn)表示一篇文檔,每篇文檔均表示為一個類似于x的向量,樣本集合記作X。對應地,類別集合記作C={c1,c2,…,cm}。樸素貝葉斯分類器的原理是:假設每個特征之間是相互獨立的,通過比較后驗概率值的大小,把該樣本判別為后驗概率值最大的那一類。后驗概率的計算公式為:

(4)

(2)支持向量機

SVM是基于間隔最大化的一種分類算法[5-6]。對于線性數據而言,它希望空間中的樣本點盡可能地遠離分類超平面。對于非線性輸入,SVM可以應用核函數,將其映射到高維空間轉換輸入為線性的。SVM具有良好的泛化能力,在各種文本分類問題中表現良好。

(3)隨機森林

隨機森林是BreimanLeo和AdeleCutler于2001年提出的, 它是一種基于決策樹的機器學習算法[7]。其訓練模型的方法是訓練多棵決策樹,并綜合每棵樹的分類結果進行最終的決策。在該算法中,需要考慮的參數有兩個,一個是決策樹的數量,另一個是分裂節點輸入的特征數,通常設置為總特征數的開方,文本也是使用這種方法。

隨機森林的分類結果取決于每個決策樹的分類結果[8]。本文應用對每棵樹判別為每個類別的概率取平均值,將概率最大的那類判別為樣本的類別。

2 實驗

2.1實驗數據

本文使用10個類別(包括:服裝、運輸、電子產品、工藝品、玩具、箱包、食品、鞋子、家具和照明)的100個詞,在阿里國際站平臺抓取產品信息。每個類別選取了10個詞,每個詞選擇前三頁和后三頁的產品信息作為數據集。移除了首頁前5個付費(P4P)產品。綜上,共有100個關鍵詞,每個有6頁產品信息,每頁有38個產品。因此,數據集中共有22 800個樣本。其中前三頁的產品被記為正類樣本,后三頁記為負類樣本。整個數據集按照7 ∶3劃分為訓練樣本集和測試樣本集,并以5次實驗得到的分類準確率的平均值作為最終的結果。

2.2實驗結果

(1)特征提取方法比較結果

為了尋找適合表示產品信息的方法,本文采用了WF和TFIDF兩種文本特征提取方法。應用這兩種方法對文本信息進行特征提取后,應用RF分類算法進行分類模型的訓練和驗證。表1是測試準確率的對比結果。結果很顯然,不論森林中決策樹的數量為多少,WF在分類準確率方面始終優于TFIDF。但是使用相同的分類器模型時,TFIDF擁有較少的特征數,所以計算時間要比WF短。

表1 不同特征提取方法的測試準確率對比

表2 使用WF特征提取,三種分類器的測試準確率對比

表3 使用TFIDF特征提取,三種分類器的測試準確率對比

(2)分類器比較結果

為了找到適合本課題的分類算法,分別采用了樸素貝葉斯、SVM以及RF三種分類算法。應用WF和TFIDF進行特征提取,并輸入到上述三種分類器中,測試準確率結果對比分別如表2和表3。結果很顯然,在三種分類器的分類效果對比中,RF表現最好。

2.3實驗分析

首先,采用RF作為分類器,分別應用WF和TFIDF,結果顯示WF的分類效果始終優于TFIDF。這應該是由阿里國際站中產品的信息結構決定的,因為產品標題主要由產品核心詞以及部分屬性構成。因此同類產品中出現近似詞匯的可能性極大,這樣TFIDF算法中的IDF將無法發揮出有效區分文檔的作用。而WF方法很好地表現了產品標題和屬性包含哪些詞。因此WF是更適合對產品標題進行特征提取的方法。

其次,可以看到RF表現最好,準確率達到了86.88%。因為SVM的缺點是不適合大數據集。樸素貝葉斯的缺點是,當特征維數較高時表現較差。

3 結論

本文利用機器學習方法研究了商品文本信息對排名的影響。研究結果表明,排名相近的商品在文本屬性上也有相似性,在分類問題中表現為可以被分到同一類中。根據本文的比較分析,針對本文應用的數據集,WF與RF結合的方法在分類性能上表現最佳,也有最好的計算效率。

[1] Hu Yongquan, Zhao Shukun. A case study of online retail innovation system on alibaba Taobao[C]. E-Business and E-Government(ICEE), 2010: 224-227.

[2] Bai Ou. Governance of innovation network in services: The case of alibaba[C]. International Symposium on Management of Technology (ISMOT), 2012: 81-86.

[3] Guo Jingzhi, LAM J H, LEI J, et al. Alibaba international: building a global electronic marketplace[C].IEEE International Conference on e-Business engineering (ICEBE), 2006:545-548.

[4] Li Shengdong, Lv Xueqiang, Zhou Qiang, et al. Study on key technology of topic tracking based on VSM[C]. IEEE International Conference on Information and Automation (ICIA), 2010: 2419-2423.

[5] Thorsten Joachims. Text Categorization with support vector machines: learning with many relevant feature[C]. Proceedings of ECML-98, 10th European Conference on Machine Learning, Chemnitz,Germany, 1998.

[6] Li Tianbing. On KNN and SVM text classification technology in knowledge management[J]. Electronic and Mechanical Engineering and Information Technology (EMEIT), 2011, 36(3):3923-3926.

[7] 李航.統計學習方法[M].北京:清華大學出版社,2012.

[8] BERNARD S, ADAM S, HEUTTE L. Using random forests for handwritten digit recognition[J]. Document Analysis and Recognition, 2007, 12(10):1043-1047.

Research on the ranking of products of B2B e-commerce platform based on machine learning

Wang Hanlu,Xia Bin

(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China)

With the development of the Internet, e-commerce has become a new business model. The ranking of products in the electronic commerce platform directly determines the products’ sales. How to optimize the ranking of products is the problem which is concerned by electronic business company. In this paper, from the perspective of the text information of products, we use machine learning methods to study the relationship between text information and product ranking. We make a comparative study from the point of feature extraction methods and classification algorithms. Firstly, we compared two feature extraction methods, which are TFIDF and word frequency(WF). Further more we compared three classification algorithms, which are Naive Bayes, Support Vector Machine(SVM) and Random Forest(RF). The research results show that the method of text classification and ranking analysis which is carried on the data set in this paper, WF combined with RF obtained the best classification results.

ranking of products; word frequency; random forest; text classification

TP391.9

A

10.19358/j.issn.1674- 7720.2016.11.015

2016-03-11)

王晗璐(1992-),女,碩士研究生,主要研究方向:機器學習與智能信息處理。

夏斌(1975-),通信作者,男,博士,副教授,碩士生導師,主要研究方向:腦-機接口,云計算及人工智能。E-mail:xawen267@gmail.com。

猜你喜歡
特征提取分類文本
分類算一算
在808DA上文本顯示的改善
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
一種基于LBP 特征提取和稀疏表示的肝病識別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 国产福利小视频高清在线观看| 国产网友愉拍精品| 国国产a国产片免费麻豆| 色综合五月婷婷| 亚洲成人www| 99久久无色码中文字幕| 成人午夜久久| 日韩在线观看网站| 日韩中文精品亚洲第三区| 日本午夜网站| 五月天福利视频| 久久精品只有这里有| 久久精品无码一区二区日韩免费 | 在线精品欧美日韩| 欧美日韩国产在线人成app| 亚洲成人77777| 免费一看一级毛片| 国产精品林美惠子在线播放| 久久久久久尹人网香蕉| 国产小视频a在线观看| 亚卅精品无码久久毛片乌克兰| 中国国产高清免费AV片| 亚洲国产日韩视频观看| 中国黄色一级视频| 国产女主播一区| 欧美国产日韩另类| 无码一区二区三区视频在线播放| 成色7777精品在线| 亚洲人成人无码www| 四虎精品国产永久在线观看| 极品国产在线| 最新国产成人剧情在线播放| 国产导航在线| 国产主播福利在线观看| 国产白浆在线| 玖玖精品在线| 久久这里只精品国产99热8| 婷婷亚洲最大| 欧美日韩激情在线| 免费看av在线网站网址| 最新亚洲av女人的天堂| 欧美爱爱网| 亚洲成肉网| 九九热精品在线视频| 亚洲精品第五页| 国产精品三级专区| 伊人中文网| 伊人天堂网| 亚洲香蕉伊综合在人在线| 666精品国产精品亚洲| 99久久99视频| 精品少妇人妻一区二区| 狠狠综合久久久久综| 在线免费观看AV| 亚洲国产在一区二区三区| 999福利激情视频| 99久久精品视香蕉蕉| 国产精品一区二区国产主播| 日韩欧美国产区| 国产91透明丝袜美腿在线| 97久久超碰极品视觉盛宴| 亚洲欧美激情另类| a级毛片免费网站| 亚洲福利片无码最新在线播放| 午夜精品福利影院| 2021最新国产精品网站| 国产精品专区第1页| 亚洲精品在线91| 亚洲视频四区| 毛片网站观看| 少妇露出福利视频| 国产精品自拍合集| 毛片在线播放网址| 无码av免费不卡在线观看| 中文字幕波多野不卡一区| 一级黄色网站在线免费看| 国产精品亚洲五月天高清| 国产高清不卡视频| 亚洲人成高清| 在线免费观看a视频| 日韩 欧美 国产 精品 综合| 国产丝袜一区二区三区视频免下载|