999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙通道卷積模型對(duì)人群的分類

2020-12-23 03:17:14胡慧瑩張帆
汽車實(shí)用技術(shù) 2020年23期
關(guān)鍵詞:分類用戶模型

胡慧瑩,張帆

(中國(guó)汽車技術(shù)研究中心有限公司,天津 300300)

前言

近年來(lái)中國(guó)新能源汽車市場(chǎng)飛速發(fā)展,無(wú)論是從企業(yè)推出的車型數(shù)量還是保有用戶的數(shù)量都在持續(xù)上漲。根據(jù)中國(guó)汽車技術(shù)研究中心有限公司CATARC調(diào)研2020年對(duì)中國(guó)新能源汽車用戶地調(diào)研,不同用戶的社會(huì)特征和購(gòu)車特征差異很大。在用戶特征具有較大差異的背景下,如果將市場(chǎng)上的所有用戶作為一個(gè)整理來(lái)研究,用戶的特征和需求會(huì)非常分散,不僅不能挖掘出用戶的共性,而且會(huì)忽略具有不同特性的用戶。因此進(jìn)行新能源汽車用戶的人群分類,將具有類似特征的用戶化為一個(gè)群體進(jìn)行研究是非常重要的[1-4]。

目前新能源領(lǐng)域人群分類的方法主要是基于 kmeans聚類,該方法可以很好地對(duì)數(shù)值型數(shù)據(jù)進(jìn)行分類,但是對(duì)文本型數(shù)據(jù)的分類效果不明顯,準(zhǔn)確率不高。因此,本文提出一種“基于雙通道卷積模型”對(duì)人群的分類,該方法是以新能源汽車調(diào)研問(wèn)卷為數(shù)據(jù)源,利用雙通道卷積模型對(duì)問(wèn)卷的文本數(shù)據(jù)進(jìn)行人群分類[5-7],該方法可以提高自然語(yǔ)言文本的分類效果,非常有利于對(duì)問(wèn)卷的答案進(jìn)行有效地分析。

1 實(shí)證研究

1.1 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)是本文的基礎(chǔ),本數(shù)據(jù)來(lái)自CATARC新能源汽車調(diào)研問(wèn)卷,通過(guò)近幾年的積累,積累了將近10000份樣本問(wèn)卷,樣本問(wèn)卷有關(guān)人群的問(wèn)題及答案如下表1所示,由于篇幅原因,在這里只給出3個(gè)示例。

表1 樣本問(wèn)卷有關(guān)人群的問(wèn)題及答案

1.2 樣本分句

因?yàn)槊總€(gè)樣本的答案語(yǔ)句字?jǐn)?shù)長(zhǎng)度以及維度不一致,在這里利用正則表達(dá)式把每個(gè)樣本答案按照“,”,“。”等標(biāo)點(diǎn)符號(hào)分隔開,目的是“大化小、長(zhǎng)化短”,以便于后期計(jì)算方便,加快求解速度以及提高模型準(zhǔn)確率,分割后的樣本數(shù)據(jù)如下表2所示。

表2 分割后的樣本數(shù)據(jù)

1.3 語(yǔ)句分詞

接下來(lái)對(duì)樣本答案進(jìn)行分詞,采用的方法是基于python語(yǔ)言和維特比算法來(lái)進(jìn)行分詞,下面介紹一下詞圖、節(jié)點(diǎn)間的距離計(jì)算以及維特比算法。

1.3.1 詞圖

對(duì)要分詞的語(yǔ)句利用有向無(wú)環(huán)圖進(jìn)行分詞,每一條分支都是可以分詞路徑,比如對(duì)第一個(gè)樣本答案“表示我已經(jīng)取得成功”這句話進(jìn)行分詞,那么這句話可以形成的詞圖可以用下面的圖1表示。

圖1 樣本數(shù)據(jù)的詞圖

由圖1可知,每一個(gè)分支都是從開始到結(jié)束形成一個(gè)有向無(wú)環(huán)圖,每個(gè)有向無(wú)環(huán)圖[8]。

1.3.2 計(jì)算節(jié)點(diǎn)之間的距離

在這里以圖 1詞圖中每條邊以二元語(yǔ)法的概率作為距離,那么中文分詞任務(wù)轉(zhuǎn)換為有向無(wú)環(huán)圖上的最長(zhǎng)路徑問(wèn)題[9]。為了使理論更加貼近實(shí)際工程在文本中分詞使用公式1,將浮點(diǎn)數(shù)概率值連續(xù)相乘轉(zhuǎn)化為負(fù)對(duì)數(shù)之間的加法。

圖1詞圖多個(gè)有向無(wú)環(huán)圖計(jì)算節(jié)點(diǎn)之間距離,添加計(jì)算節(jié)點(diǎn)之間距離的詞圖如下圖2所示。

圖2 計(jì)算節(jié)點(diǎn)間距離后的示意圖

1.3.3 詞圖的維特比算法

因?yàn)槎Z(yǔ)法可以看作隱馬爾科夫模型的特例,只需要將此網(wǎng)中的詞語(yǔ)看作顯狀態(tài),只不過(guò)是隱狀態(tài)到顯狀態(tài)的發(fā)射概率為1。表1的樣本數(shù)據(jù)經(jīng)過(guò)維特比分詞得到的結(jié)果如表3所示。

1.4 語(yǔ)句詞語(yǔ)打標(biāo)簽

對(duì)表3樣本中的數(shù)據(jù)給出分類標(biāo)簽以及相對(duì)應(yīng)分詞結(jié)果的標(biāo)簽,在本文中分為6類人群,維特比分詞后加標(biāo)簽后的數(shù)據(jù)如下表3所示,由于篇幅原因,在這里只列舉出部分示例。

表3 維特比分詞后加標(biāo)簽后的數(shù)據(jù)

1.5 模型介紹及參數(shù)確定

1.5.1 模型介紹

雙通道中的一個(gè)通道指的是語(yǔ)句的輸入及相對(duì)應(yīng)的CNN模塊對(duì)句子進(jìn)行卷積、另一個(gè)通道是指分詞短語(yǔ)的輸入及相對(duì)應(yīng)的 CNN模塊對(duì)分詞短語(yǔ)進(jìn)行卷積,然后對(duì)二者的結(jié)果統(tǒng)一進(jìn)行 softmax多分類操作[10-13],因此而形成雙通道卷積模型。

雙通道卷積模型是一種涉及 CNN的神經(jīng)網(wǎng)絡(luò)的模型,因此研究的內(nèi)容會(huì)包括卷積層、池化層和 softmax層等網(wǎng)絡(luò)結(jié)構(gòu),每個(gè)CNN模塊由以下五部分組成。

分句后的新句子包括標(biāo)點(diǎn)符號(hào)最長(zhǎng)有m個(gè)字?jǐn)?shù),大約有m//2+1個(gè)詞語(yǔ)。

(1)原始數(shù)據(jù):因?yàn)樾戮渥幼铋L(zhǎng)有m//2+1個(gè)詞語(yǔ)m個(gè)字?jǐn)?shù),所以詞向量維度為m//2+1,字向量為m,那么整個(gè)句子矩陣大小為(m-1)×(m-1)(因?yàn)闃?biāo)點(diǎn)符號(hào)不參與計(jì)算);

(2)第一步:卷積核的區(qū)域大小可以取(m1,m2,,m3)3種(如圖8,每相似顏色的為一種),每種又有兩個(gè)不同的取值(因?yàn)槭请p通道模型,每個(gè)通道對(duì)應(yīng)一個(gè)取值),所以一共是有6個(gè)取值,即6個(gè)不同的卷積模板;

(3)第二步:特征模板制作,即數(shù)學(xué)中的積計(jì)算;即(m+2-mk(k=1,2,3)),計(jì)算出來(lái)是特征模板的大小,一共有3類(因?yàn)槭请p通道,所以每類兩個(gè))共有6個(gè);

(4)第三、四步:因?yàn)橛貌煌笮〉木矸e核獲取到的特征模板大小也不一樣,為了解決這個(gè)問(wèn)題,添加一層最大池化層,即選取一個(gè)最大值,然后相同大小的組合在一起形成特征向量;

(5)第五步:基于特征向量利用邏輯回歸的多分類模型softmax進(jìn)行分類。

注意:m的取值由分割后的語(yǔ)句決定,不需要利用模型來(lái)求出。

1.5.2 確定最佳參數(shù)

前文介紹模型以及模型的相關(guān)參數(shù),本小結(jié)來(lái)確定m1、m2、m3的參數(shù),在這里使用800樣本作為訓(xùn)練集,目的是訓(xùn)練出模型地最佳參數(shù);使用200樣本作為測(cè)試集,目的是測(cè)試模型的可靠性。利用控制變量法和損失函數(shù)在確定最佳參數(shù),模型經(jīng)過(guò)控制變量法訓(xùn)練之后,經(jīng)過(guò)10次迭代后確定最佳參數(shù):m1取值2、m2取值3、m3取值4。

1.6 預(yù)測(cè)新數(shù)據(jù)

經(jīng)過(guò)前文確定了模型及模型地最佳參數(shù),可以通過(guò)此模型對(duì)新的數(shù)據(jù)實(shí)現(xiàn)自動(dòng)化分類,總體的正確率達(dá)到了80%左右,因?yàn)槠颍卤?只給出了部分?jǐn)?shù)據(jù)的預(yù)測(cè)結(jié)果。

表4 部分?jǐn)?shù)據(jù)的預(yù)測(cè)結(jié)果

2 分析與結(jié)論

本模型正確率達(dá)到80%左右,基本可以達(dá)到企業(yè)的要求和目的,為了精益求精,文本后期可以增加多個(gè)卷積層來(lái)優(yōu)化此模型,或者增加多個(gè)樣本量加大模型訓(xùn)練基數(shù),以此來(lái)提高模型的精度。

猜你喜歡
分類用戶模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 国产高清不卡视频| 国产精品私拍在线爆乳| 婷五月综合| 精品人妻AV区| 亚洲三级片在线看| 国产91av在线| 欧美精品在线免费| 女人爽到高潮免费视频大全| 国产午夜福利在线小视频| 男人天堂亚洲天堂| 最新国产麻豆aⅴ精品无| 综合成人国产| 亚洲无码视频喷水| 亚洲人成电影在线播放| 国产精品无码AV片在线观看播放| 国产成人三级| 国产青青草视频| 国产精彩视频在线观看| 欧美国产综合视频| 國產尤物AV尤物在線觀看| 成人韩免费网站| 久久久久久久久久国产精品| 欧美在线黄| 中文字幕在线看视频一区二区三区| 在线一级毛片| 国产精品久久久久鬼色| 97在线国产视频| 丁香五月亚洲综合在线| a网站在线观看| 伊人狠狠丁香婷婷综合色| 欧美久久网| 欧美日韩第二页| 国产黑丝一区| 亚洲国产成人综合精品2020 | 欧美一区日韩一区中文字幕页| 久久国产毛片| 日韩中文字幕亚洲无线码| 尤物精品国产福利网站| 国产激情无码一区二区免费| 日韩人妻精品一区| 青青操国产视频| 亚洲一区波多野结衣二区三区| 自拍偷拍一区| 国产啪在线| 国产精品手机视频| 婷婷六月激情综合一区| 久久久黄色片| a毛片在线免费观看| 午夜日b视频| 亚洲天天更新| 国内熟女少妇一线天| 亚洲天堂精品视频| 欧美不卡在线视频| 亚洲日韩第九十九页| 国产青青操| 无码AV动漫| 毛片视频网址| 国产成人精品18| 欧美成人亚洲综合精品欧美激情| 国产色婷婷| 色吊丝av中文字幕| 欧美日本视频在线观看| 四虎影视库国产精品一区| 精品视频一区在线观看| 麻豆精品久久久久久久99蜜桃| 亚洲中文久久精品无玛| 精品三级在线| 国产高清在线观看91精品| 国产小视频免费观看| 欧美 国产 人人视频| 日韩在线视频网站| 国产浮力第一页永久地址 | 国产成人精品综合| 日韩久草视频| 国产午夜无码片在线观看网站 | 亚洲浓毛av| 国产精品免费福利久久播放| 日韩美毛片| 无套av在线| 免费 国产 无码久久久| 亚洲日本中文字幕乱码中文| 99视频在线免费观看|