999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RDF三元組的電子商務(wù)競(jìng)爭(zhēng)者數(shù)據(jù)挖掘

2017-07-24 15:45:31任秀春
電子設(shè)計(jì)工程 2017年10期
關(guān)鍵詞:數(shù)據(jù)挖掘信息

任秀春

(渤海大學(xué) 管理學(xué)院,遼寧 錦州 121013)

基于RDF三元組的電子商務(wù)競(jìng)爭(zhēng)者數(shù)據(jù)挖掘

任秀春

(渤海大學(xué) 管理學(xué)院,遼寧 錦州 121013)

越來越多的消費(fèi)者通過互聯(lián)網(wǎng)從事商務(wù)活動(dòng),電子商務(wù)的數(shù)據(jù)規(guī)模逐漸擴(kuò)大?;ヂ?lián)網(wǎng)上的商家希望了解競(jìng)爭(zhēng)對(duì)手及其信息,以調(diào)整經(jīng)營(yíng)策略。提出一種利用RDF三元組的語義特征和結(jié)構(gòu)特征來檢測(cè)具有競(jìng)爭(zhēng)關(guān)系的商家,利用淘寶網(wǎng)的商店數(shù)據(jù),使用MapReduce作為處理可擴(kuò)展性的工具。實(shí)驗(yàn)證明了基于RDF的電子商務(wù)競(jìng)爭(zhēng)者數(shù)據(jù)挖掘的有效性。

電子商務(wù);RDF;數(shù)據(jù)挖掘;MapReduce

在日常生活中,越來越多的人使用互聯(lián)網(wǎng)從事商務(wù)活動(dòng)。由于電子商務(wù)數(shù)據(jù)的飛速擴(kuò)張,網(wǎng)絡(luò)銷售商迫切希望可以找到網(wǎng)絡(luò)上競(jìng)爭(zhēng)者,獲取競(jìng)爭(zhēng)對(duì)手的經(jīng)營(yíng)數(shù)據(jù),分析商品的交叉信息,以便對(duì)經(jīng)營(yíng)策略做出調(diào)整,從而獲取較大的市場(chǎng)份額。

電子商務(wù)的數(shù)據(jù)有4個(gè)主題[1]:商品、銷售商(賣家)、消費(fèi)者(買家)、交易記錄。在電子商務(wù)領(lǐng)域,傳統(tǒng)的數(shù)據(jù)挖掘方法通常采用邏輯上的方法找出潛在和有用的模式[2],例如采用ILP模式[3],聚類分析方法[4-5],協(xié)同過濾算法[6-7]等。對(duì)電子商務(wù)競(jìng)爭(zhēng)者進(jìn)行數(shù)據(jù)挖掘,有幾種模式產(chǎn)生預(yù)先確定的競(jìng)爭(zhēng)關(guān)系,通過邏輯運(yùn)算將其結(jié)合,參照這個(gè)結(jié)果,可以很容易對(duì)新目標(biāo)檢測(cè)到競(jìng)爭(zhēng)關(guān)系[8]。文中采用RDF三元組表示網(wǎng)店里的所有商品特征和屬性。RDF是W3C規(guī)范的一部分,最初是作為元數(shù)據(jù)的數(shù)據(jù)模型設(shè)計(jì)的[9]。RDF是用于表示網(wǎng)絡(luò)信息的通用語言,RDF三元組可以表示網(wǎng)絡(luò)結(jié)構(gòu)、屬性、關(guān)系等[10-11]。此外,本文使用MapReduce在分布式計(jì)算中處理此類數(shù)據(jù)。MapReduce是由谷歌提出和實(shí)施的分布式存儲(chǔ)的文件系統(tǒng),作為一個(gè)開源項(xiàng)目,MapReduce是一個(gè)分布式計(jì)算框架[12]。通過采用MapReduce,我們可以做大量的計(jì)算用來減少時(shí)間成本。

1 相似度計(jì)算

1.1 數(shù)據(jù)預(yù)處理

電子商務(wù)中的基本數(shù)據(jù)包括商品、賣家、買家的交易記錄,我們?yōu)槊恳患唐贩峙湟粋€(gè)URI,通過對(duì)頁(yè)面的分析,可以將商品通過一個(gè)RDF三元組來進(jìn)行描述。

基于RDF三元組生成的商品信息如下:

1)product商品,每件商品都會(huì)給消費(fèi)者展示一些商品信息,如商品的名稱,價(jià)格,所屬類別,產(chǎn)地等基本屬性。生成的三元組如“product1 named XXX”,另外,有些商品會(huì)與其他商品放在一起查看,所以也會(huì) 產(chǎn) 生 三 元 組 如 “product1 viewed together product2”。

2)shop商店,各個(gè)商店的主要屬性是相同的,其描述如下,商店的所有者、商店的位置、買家對(duì)商店評(píng)價(jià)產(chǎn)生的商店信譽(yù)評(píng)估,由此建立如下三元組:“shop1 owner XXX”。此外,商店與商品之間存在明確的銷售關(guān)系:“shop sell product”。

3)record交易記錄,交易記錄描述了賣家與買家的活動(dòng),每條記錄都包括買家、產(chǎn)品、成交價(jià)格、交易日期等,每個(gè)項(xiàng)目及其值作為三元組的謂詞和對(duì)象,作為記錄URI的主題表達(dá)式:“record data X-X-X”。

4)subClassOf商品所屬類別。網(wǎng)站對(duì)所有銷售的商品進(jìn)行了分類,這種分類具有較好的層次性,層次信息存在于各個(gè)類別,由此提取的屬性三元組如:rdfs:subClassOf

針對(duì)以上的 RDF三元組信息,可以使用SPARQL進(jìn)行檢索,用來獲取RDF模型的特征[13-14]。獲取商品及商店的SPARQL語句查詢示例如下:

1.2 商品相似度

商品是電子商務(wù)交易中最重要的實(shí)體,經(jīng)過以上步驟對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,對(duì)商品相似性作如下定義:

其中:propertySet(product1),表示product1的所有屬性的集合。Size(A),表示集合A的大小。

采用SPSS 20.0進(jìn)行統(tǒng)計(jì)學(xué)處理,計(jì)量資料采用(均數(shù)±標(biāo)準(zhǔn)差)描述,組間差異比較采取t檢驗(yàn),等級(jí)資料采取Wilcoxon Mann-Whitney U檢驗(yàn),計(jì)數(shù)資料采用率或百分比表示,組間差異比較采取χ2檢驗(yàn),以P<0.05表示差異具有統(tǒng)計(jì)學(xué)意義。

目前已有研究使用向量距離來定義相似度的方法[15],通過不同的謂詞創(chuàng)建不同的向量空間,每種屬性建立一個(gè)向量。由于網(wǎng)絡(luò)上抓取的數(shù)據(jù)向量空間非常少,相似度的計(jì)算時(shí)間復(fù)雜度很高。因此,不采用向量空間的方法來定義商品相似度。

1.3 商店相似度

作為可以提供競(jìng)爭(zhēng)商品的商店,與其他商店具有很高的相似性。每件商品均與商店存在聯(lián)系,至少存在一個(gè)三元關(guān)系代表商店銷售的產(chǎn)品,有定義2和定義3。

定義2:

其中productSet(shop)表示在這個(gè)商店中銷售的商品集合,sim(product,shop)表示商品與商店相似度。

定義3:

sin(shop1,shop2)=Σx∈productSet(shop1)sim(x,shop2)

定義2和定義3表明,商品的相似度與商店的相似度存在較大的關(guān)聯(lián)性,商店之間的相似性是通過一個(gè)商品在一家商店與另一家商店的相似性來計(jì)算的。

2 推薦競(jìng)爭(zhēng)者數(shù)據(jù)挖掘算法

算法 SimMapReduce

然后利用SPARQL查詢對(duì)商品的交易記錄來進(jìn)行檢測(cè),以便獲取競(jìng)爭(zhēng)商品的信息,

3 實(shí)驗(yàn)應(yīng)用

3.1 RDF數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)采用爬蟲程序獲取產(chǎn)品的網(wǎng)頁(yè),每個(gè)網(wǎng)頁(yè)代表一件商品的全部信息,選取了2015年3月—2016年3月之間的交易數(shù)據(jù),有51 307個(gè)商店的1 780 509件商品被收錄。

在這些數(shù)據(jù)中,對(duì)于每一個(gè)商品,屬性的數(shù)量最少4個(gè),最多17個(gè),平均9.4個(gè)。每個(gè)商店在售商品最少1個(gè),最多8 457個(gè),平均121.7個(gè)。

3.2 商品相似度

我們隨機(jī)選擇100件商品作為需要相似比較的主題,topN表示商品具有最高相似度的計(jì)算結(jié)果。采用top1,top5,top10進(jìn)行實(shí)驗(yàn),并計(jì)算每一組實(shí)驗(yàn)的準(zhǔn)確度。計(jì)算的平均相似度的結(jié)果如圖1所示。

圖1 商品相似度

為了便于分析商品相似度的關(guān)系,限定了商品至少有6個(gè)屬性。對(duì)商品數(shù)據(jù)庫(kù)進(jìn)行修改并再次實(shí)驗(yàn),兩個(gè)實(shí)驗(yàn)的對(duì)比結(jié)果見圖1,平均相似度提高了0.05。

3.3 商店相似度

隨機(jī)選擇了100家商店作為目標(biāo),其余的都視為競(jìng)爭(zhēng)對(duì)手不參與相似度計(jì)算,分別計(jì)算相似度為top1,top5,top10的返回結(jié)果。平均相似度如圖2所示。

圖2 商店相似度

從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),擁有極少量商品的商店總是返回錯(cuò)誤的競(jìng)爭(zhēng)者信息,這是由于擁有極少量商品的商店提供的資料很少,使得其結(jié)果是存在誤報(bào)。一個(gè)商店只銷售很少商品是噪音數(shù)據(jù),因此,篩選出銷售超過3個(gè)商品的商店1 512家,經(jīng)過調(diào)整后,顯示如圖2的對(duì)比圖。從圖2中可以看出,準(zhǔn)確度沒有明顯改善,原因在于,只銷售極少量產(chǎn)品的商店很難進(jìn)行正確的分類。

3.4 推薦競(jìng)爭(zhēng)者信息

數(shù)據(jù)集中有51 307個(gè)商店,給定100個(gè)目標(biāo)商店找出相似度最高的前N個(gè)競(jìng)爭(zhēng)者,分別計(jì)算準(zhǔn)確率為top1,top5,top10的返回結(jié)果。構(gòu)建一個(gè)51 307× 51 307的矩陣,每個(gè)元素代表商店i與j的相似度值,通過這個(gè)矩陣,可以獲取任意兩個(gè)商店的相似度。通過對(duì)各類數(shù)據(jù)進(jìn)行統(tǒng)計(jì),可以看出,商店主要集中在如下幾類:服裝,化妝品,數(shù)碼產(chǎn)品。各類商店的數(shù)量最多為13 764家,最少47家,平均754家。計(jì)算結(jié)果如圖3所示。

圖3 競(jìng)爭(zhēng)者信息

對(duì)計(jì)算結(jié)果進(jìn)行分析可以發(fā)現(xiàn),銷售服裝類商品的商店返回的競(jìng)爭(zhēng)者信息準(zhǔn)確度較高,因?yàn)榉b類商店具有明確和詳細(xì)描述的同類商品,具有顯而易見的特征。而其他類商店出售的商品沒有清晰的描述,它們被歸類到不相關(guān)的類和錯(cuò)誤分類的前N個(gè)商店。

4 結(jié) 論

文中利用RDF三元組的語義特征和結(jié)構(gòu)特征來檢測(cè)具有競(jìng)爭(zhēng)關(guān)系的商家,提取淘寶網(wǎng)的商店數(shù)據(jù),利用Sparql進(jìn)行交易記錄的信息查詢,使用Map Reduce作為處理可擴(kuò)展性的工具,計(jì)算商品與商店的相似性,從而進(jìn)行電子商務(wù)競(jìng)爭(zhēng)者信息推薦。實(shí)驗(yàn)證明了基于RDF的電子商務(wù)競(jìng)爭(zhēng)者數(shù)據(jù)挖掘方法的有效性。

[1]張野,于湛麟,趙宏霞.基于RDF的電子商務(wù)信息抽取技術(shù)研究[J].渤海大學(xué)學(xué)報(bào):自然科學(xué)版,2014(3):261-264,269.

[2]王旭.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)銷售中的應(yīng)用[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2015(24):87-89.

[3]Muggleton S,Raedt L D.Inductive logic programming:Theory and methods[J].Journal of Logic Programming,1994,s19-20(94):629-679.

[4]崔義童,馮志勇,王鑫,等.基于圖聚類算法的大規(guī)模RDF數(shù)據(jù)查詢方法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2015(12):2625-2628.

[5]樊同科.云環(huán)境下基于MapReduce的用戶聚類研究與實(shí)現(xiàn)[J].電子設(shè)計(jì)工程,2016(10):35-37,41.

[6]榮輝桂,火生旭,胡春華,等.基于用戶相似度的協(xié)同過濾推薦算法[J].通信學(xué)報(bào),2014(2):16-24.

[7]羅辛,歐陽元新,熊璋,等.通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[J].計(jì)算機(jī)學(xué)報(bào),2010(8):1437-1445.

[8]袁柳,張龍波.一種基于聚類模式的RDF數(shù)據(jù)聚類方法[J].計(jì)算機(jī)科學(xué),2015(10):266-270,296.

[9]熊振輝,于娟.OWL應(yīng)用接口的比較分析[J].情報(bào)探索,2015(2):72-76.

[10]Han J,Kamber M.Data Mining:Concepts and techniques [J].Data Mining Concepts Models Methods&Algorithms Second Edition,2000,5(4):1-18.

[11]杜方,陳躍國(guó),杜小勇.RDF數(shù)據(jù)查詢處理技術(shù)綜述[J].軟件學(xué)報(bào),2013(6):1222-1242.

[12]冷泳林,魯富宇.基于MapReduce的SimRank算法在圖聚類中的應(yīng)用[J].電子設(shè)計(jì)工程,2015(6):9-11,15.

[13]郭少友,魏朋爭(zhēng),洪娜,等.四種SPARQL查詢構(gòu)建器及其比較研究[J].情報(bào)科學(xué),2015(3):80-84.

[14]王海榮,馬宗民.基于相對(duì)量詞的RDF模糊查詢方法[J].東北大學(xué)學(xué)報(bào):自然科學(xué)版,2014(3):342-346.

[15]劉宏哲,須德.基于本體的語義相似度和相關(guān)度計(jì)算研究綜述[J].計(jì)算機(jī)科學(xué),2012(2):8-13.

[16]顧榮,王芳芳,袁春風(fēng),等.YARM:基于MapReduce的高效可擴(kuò)展的語義推理引擎[J].計(jì)算機(jī)學(xué)報(bào),2015(1):74-85.

E-Commerce competitor mining based on RDF triples

REN Xiu-chun
(College of Management,Bohai University,Jinzhou 121013,China)

The scale of e-commerce data on Internet has expanded day by day since consumers do business through websites more and more.Businesses on the Internet and its competitors want to know the information to adjust business strategy.Proposed to detect a competing business use of Taobao.com to deal with scalability using semantic and structural features RDF triples,MapReduce was used as a tool to deal with the scalability.The experiment show that the effectiveness of e-commerce competitors based on RDF data mining.

e-commerce;RDF triples;data mining;MapReduce

TN911

A

1674-6236(2017)10-0018-04

2016-08-11稿件編號(hào):201608079

國(guó)家自然科學(xué)基金(71502017)

任秀春(1963—),女,遼寧葫蘆島人,碩士,副教授。研究方向:電子商務(wù)技術(shù)。

猜你喜歡
數(shù)據(jù)挖掘信息
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
展會(huì)信息
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产日韩欧美精品区性色| 夜夜拍夜夜爽| 亚洲男人的天堂在线观看| 91av国产在线| 国产精品片在线观看手机版 | 中文字幕在线观| 永久免费av网站可以直接看的| 色综合天天娱乐综合网| av色爱 天堂网| 国产福利一区在线| 成人免费午夜视频| 91精品啪在线观看国产60岁| 亚洲精品久综合蜜| 中文字幕不卡免费高清视频| 日韩午夜伦| 毛片免费高清免费| 亚洲一级毛片| 精品99在线观看| 五月婷婷综合色| 亚洲精品麻豆| 久久先锋资源| 999精品在线视频| 国产第二十一页| 国产在线一二三区| 91无码人妻精品一区二区蜜桃| 久久久精品久久久久三级| 精品91视频| 欧美高清国产| 婷婷六月在线| 久久久久国产精品免费免费不卡| 永久在线精品免费视频观看| 第九色区aⅴ天堂久久香| 国产成人精品2021欧美日韩| 99在线观看免费视频| 亚洲三级影院| 九色在线视频导航91| 中文字幕免费视频| 亚洲视频在线观看免费视频| 欧美在线导航| 国产成+人+综合+亚洲欧美 | 91精品小视频| 精品久久香蕉国产线看观看gif| 亚洲欧洲日韩综合| a色毛片免费视频| www.亚洲一区| 性做久久久久久久免费看| 亚洲精品国产精品乱码不卞| 国产激情第一页| 亚洲成人免费看| 国产经典三级在线| 久久99这里精品8国产| 99久久国产自偷自偷免费一区| 亚洲国产91人成在线| 亚洲精品在线观看91| 久久香蕉国产线看观看式| 一级成人欧美一区在线观看| 色精品视频| 9丨情侣偷在线精品国产| 深爱婷婷激情网| 国产96在线 | 黄色一及毛片| 免费三A级毛片视频| 91精品人妻一区二区| 欧美精品v| 第一页亚洲| 国内精品久久久久久久久久影视| 超碰91免费人妻| 亚洲成肉网| 四虎综合网| 人妖无码第一页| 国产精品久久久久鬼色| 亚洲欧美日韩高清综合678| 国产精品主播| 国产性爱网站| 欧美精品高清| 国产精品午夜电影| 成人午夜亚洲影视在线观看| 欧美亚洲一二三区| 国产视频自拍一区| 免费看黄片一区二区三区| 亚洲黄色高清| 国产精品部在线观看|