999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于在線問卷調(diào)查的卷煙競(jìng)品評(píng)價(jià)文本挖掘分析

2021-09-14 15:17:46汪顯國李思源李思典林鴻佳楊晶津劉丹許磊
中國市場(chǎng) 2021年25期
關(guān)鍵詞:文本挖掘

汪顯國 李思源 李思典 林鴻佳 楊晶津 劉丹 許磊

[摘 要]為了維護(hù)卷煙產(chǎn)品質(zhì)量和把握消費(fèi)者關(guān)注熱點(diǎn),通過在線問卷調(diào)查獲取消費(fèi)者抽吸感知評(píng)價(jià)數(shù)據(jù),并從消費(fèi)者滿意度、評(píng)論熱度和文本特征提取等方面開展競(jìng)品對(duì)比分析,實(shí)現(xiàn)了新的競(jìng)品篩選及其特征提取方式。研究表明:①通過客觀評(píng)分得出卷煙A在外觀整體、吸味整體和產(chǎn)品綜合上的滿意度遠(yuǎn)高于其他競(jìng)品;②文本挖掘得出消費(fèi)者關(guān)注的競(jìng)品與專家篩選的競(jìng)品存在差異,且其產(chǎn)品優(yōu)勢(shì)集中表現(xiàn)為“口感”“價(jià)格”“吸味”等。該分析方法可有效動(dòng)態(tài)監(jiān)測(cè)消費(fèi)者偏好和市場(chǎng)消費(fèi)趨勢(shì),為卷煙工業(yè)企業(yè)改進(jìn)產(chǎn)品質(zhì)量提供支持。

[關(guān)鍵詞]在線問卷調(diào)查;競(jìng)品評(píng)價(jià);文本挖掘;TF-IDF算法;詞云圖

[DOI]10.13939/j.cnki.zgsc.2021.25.133

1 前言

卷煙產(chǎn)品質(zhì)量與卷煙企業(yè)的信譽(yù)、消費(fèi)者的體驗(yàn)、企業(yè)的生存發(fā)展息息相關(guān)。當(dāng)前,以市場(chǎng)為導(dǎo)向,在滿足不同消費(fèi)者需求的前提下培育高質(zhì)量的卷煙品牌已經(jīng)成為行業(yè)企業(yè)發(fā)展的共識(shí)。因此,獲取消費(fèi)者的消費(fèi)評(píng)價(jià)和需求信息對(duì)卷煙工業(yè)企業(yè)維護(hù)產(chǎn)品質(zhì)量而言顯得尤為重要。隨著互聯(lián)網(wǎng)的迅速發(fā)展,各種網(wǎng)絡(luò)平臺(tái)為企業(yè)提供與消費(fèi)者溝通的便利渠道。利用網(wǎng)絡(luò)平臺(tái)形成的在線問卷調(diào)查成了獲取卷煙消費(fèi)評(píng)價(jià)的有效途徑,同時(shí)彌補(bǔ)了由評(píng)吸員評(píng)價(jià)的傳統(tǒng)方式中存在的樣本少、成本高、主觀性不強(qiáng)等不足。在所收集的問卷數(shù)據(jù)中,通常會(huì)存在消費(fèi)者對(duì)產(chǎn)品的主觀評(píng)價(jià),以文本數(shù)據(jù)的形式呈現(xiàn),反映了消費(fèi)者的真實(shí)體驗(yàn)和使用心得,蘊(yùn)含了極其豐富的信息。采用文本分析方法挖掘文本數(shù)據(jù)的隱含信息,可以幫助企業(yè)了解消費(fèi)者的真實(shí)需求,具有重要的現(xiàn)實(shí)意義[1]。

文本挖掘分析,又稱為意見挖掘,是利用自然語言處理技術(shù)、數(shù)據(jù)挖掘算法等對(duì)帶有情感色彩的主觀性文本進(jìn)行預(yù)處理、歸納和推理的過程[2]。近些年來,運(yùn)用文本挖掘技術(shù)將難以量化的文本數(shù)據(jù)進(jìn)行清洗、整合、轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),并提取有價(jià)值的信息已廣泛應(yīng)用于商業(yè)[3]、旅游[4]和金融[5]等領(lǐng)域。然而,對(duì)于問卷調(diào)查中消費(fèi)者主觀評(píng)價(jià)文本的研究卻鮮見報(bào)道。因此,文章基于在線問卷調(diào)查采集而來的競(jìng)品評(píng)價(jià)文本,利用文本挖掘技術(shù)探索消費(fèi)者對(duì)卷煙產(chǎn)品的關(guān)注熱點(diǎn),剖析國內(nèi)市場(chǎng)卷煙的熱銷品及其產(chǎn)品優(yōu)勢(shì),捕捉消費(fèi)者對(duì)產(chǎn)品質(zhì)量的需求,為卷煙工業(yè)企業(yè)改進(jìn)卷煙產(chǎn)品質(zhì)量提供參考。

2 研究方法

2.1 在線問卷調(diào)查

為了深入了解消費(fèi)者評(píng)價(jià)卷煙抽吸感知的關(guān)鍵要素,通過營(yíng)銷渠道邀請(qǐng)全國31個(gè)省市消費(fèi)者參與卷煙A及競(jìng)品的評(píng)吸、評(píng)價(jià)活動(dòng),并進(jìn)行在線問卷調(diào)查。問卷由結(jié)構(gòu)化客觀題和非結(jié)構(gòu)化主觀題組成,分為人口學(xué)特征、抽吸評(píng)價(jià)和競(jìng)品對(duì)比及質(zhì)量改進(jìn)三部分。人口學(xué)特征包括性別、年齡、煙齡、消費(fèi)水平4個(gè)問題,抽吸評(píng)價(jià)包括香氣濃度、香氣類型、一致性、抽吸感受等8個(gè)問題,競(jìng)品對(duì)比及質(zhì)量改進(jìn)的指標(biāo)評(píng)價(jià)、主觀評(píng)價(jià)等3個(gè)問題。其中,第三部分除了客觀評(píng)分以外,還設(shè)置主觀評(píng)價(jià)的問題。例如“您認(rèn)為在15~20元/包的常規(guī)支產(chǎn)品中,還有哪款產(chǎn)品抽吸體驗(yàn)更好或在當(dāng)?shù)馗鼤充N,該產(chǎn)品主要好在哪些方面?”該部分構(gòu)成了問卷調(diào)查中競(jìng)品評(píng)價(jià)的文本數(shù)據(jù)。

2.2 文本挖掘方法

2.2.1 中文分詞

在進(jìn)行文本數(shù)據(jù)分析前,需要對(duì)文本進(jìn)行分詞處理。中文分詞就是將一段話切割成有字和詞或短語的小片段,是文本挖掘、特征提取的基礎(chǔ)[6]。在自然語言分類中,中文原本起步就比國外晚了很多年,在分詞的技術(shù)上更是借鑒國外的方法。目前,常用的中文分詞算法有:基于詞典的分詞方法、基于語義的分詞方法及基于統(tǒng)計(jì)的分詞方法等。其中,基于詞典的分詞方法是選定的字或詞構(gòu)成字符串,與字典里的字符串進(jìn)行匹配[6]。假設(shè)需識(shí)別文本中的字符串Z,若詞典中存在字符串Z,則可匹配成功。該方法效率高但是對(duì)新詞的識(shí)別能力不足,需經(jīng)常更新詞典[7];基于語義的分詞方法是根據(jù)中文的句法以及語義來劃分句子,從而達(dá)到分詞的目的。這種方法需要前期做大量的準(zhǔn)備工作,需要對(duì)幾乎所有的語料、語義、語法進(jìn)行標(biāo)注,甚至還需要考慮中文語義里的反諷、反語以及正詞反義等一系列的特殊語義;基于統(tǒng)計(jì)的分詞方法是根據(jù)同時(shí)出現(xiàn)的相鄰兩個(gè)字的頻率來進(jìn)行分詞,可以不受待處理文本領(lǐng)域的限制自動(dòng)排除歧義并識(shí)別相應(yīng)的詞語[7]。

以上3種中文分詞方法各有優(yōu)缺點(diǎn),文章采用基于詞典的分詞方法對(duì)文本進(jìn)行分詞,并調(diào)用R軟件的jiebaR安裝包來實(shí)現(xiàn)。jiebaR包擁有自己的系統(tǒng)詞典,且詞匯量相當(dāng)豐富,結(jié)合自建的煙草專有名詞詞典,共同形成本文文本分析的分詞詞典。

2.2.2 文本數(shù)據(jù)清洗

首先,原始文本數(shù)據(jù)會(huì)包含大量重復(fù)性、無語義的評(píng)論,例如數(shù)字、字母以及特殊字符,或者包含例如“沒有”“好”字符很小的極短評(píng)論,此類評(píng)論內(nèi)容蘊(yùn)含的信息量很少,會(huì)增加文本分析的復(fù)雜度,需將其清除過濾。

其次,對(duì)文本分詞處理后會(huì)出大量的停用詞。停用詞是指在信息檢索中,為節(jié)省存儲(chǔ)空間和提高搜索效率,在處理自然語言數(shù)據(jù)之后會(huì)自動(dòng)過濾掉某些字或詞,這些字或詞即被稱為Stop-Words。對(duì)于停用詞的去除,即可采用現(xiàn)有的停用詞詞典,也可以根據(jù)需要自建停用詞典。

最后,文本中使用頻率不高的非停用詞往往對(duì)文本特征的提取也沒有價(jià)值,故對(duì)這類詞也需要進(jìn)行清除,即可根據(jù)詞語的長(zhǎng)度或出現(xiàn)的頻數(shù)進(jìn)行過濾處理。

2.2.3 文本特征提取

特征提取本質(zhì)上是一種降維的技術(shù),目的是從樣本所有的特征中篩選出具有區(qū)分性和代表性的特征,從而提高模型或方法的分類性能[8]。特征提取一般先構(gòu)建特征選取函數(shù),計(jì)算所有特征的權(quán)重,然后篩選出權(quán)重大的特征作為關(guān)鍵特征。文本特征提取時(shí)常用的方法有文檔頻數(shù)[9](Document Frequency,DF)、信息增益[10-11](Information Gain,IG)、互信息[10,12-13](Mutual Information,MI)、x2統(tǒng)計(jì)法[10,12](CHI)等。通過比較,文章采用的方法是TF-IDF算法[14],TF-IDF實(shí)際上是TF與IDF的乘積。TF代表詞頻(Term Frequency),指詞或短語在一篇文檔中出現(xiàn)的頻數(shù);IDF代表逆向文件頻率(Inverse Document Frequency),指含有詞或短語的文檔數(shù)在總文檔中所占比例取逆后的對(duì)數(shù)值,表征該詞項(xiàng)區(qū)分文檔的能力。當(dāng)某個(gè)詞或短語在一篇文檔中出現(xiàn)的頻率越高并且在其他文檔中出現(xiàn)的次數(shù)越少,說明該詞或短語的區(qū)分能力越強(qiáng),其TF-IDF值越大。計(jì)算公式如下:

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識(shí)
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評(píng)論要素挖掘
基于評(píng)論信息的淘寶服裝類評(píng)分體系優(yōu)化
商情(2016年32期)2017-03-04 00:27:28
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
商(2016年34期)2016-11-24 16:28:51
從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢(shì)
基于文獻(xiàn)的中西醫(yī)結(jié)合治療腦梗死藥物使用情況分析
基于改進(jìn)Hadoop云平臺(tái)的海量文本數(shù)據(jù)挖掘
慧眼識(shí)璞玉,妙手煉渾金
主站蜘蛛池模板: 亚洲福利一区二区三区| 中国精品自拍| 九九九九热精品视频| 91年精品国产福利线观看久久| 欧美国产在线看| 日韩视频免费| 亚洲精品欧美重口| 亚洲精品在线观看91| 国产亚卅精品无码| 欧美国产在线看| 天天躁狠狠躁| 88av在线播放| 成人综合久久综合| 国产精品亚洲va在线观看| 欧美伦理一区| 18黑白丝水手服自慰喷水网站| 亚洲一道AV无码午夜福利| 四虎成人在线视频| 免费国产在线精品一区| 日韩av无码精品专区| 国产中文一区二区苍井空| 免费激情网站| 美女无遮挡免费网站| 大陆精大陆国产国语精品1024 | 欧美日韩国产在线人| 四虎永久免费地址| 国产成人亚洲精品无码电影| 亚洲综合18p| 精品人妻AV区| 40岁成熟女人牲交片免费| 国禁国产you女视频网站| 国产欧美在线观看视频| 精品成人免费自拍视频| 日韩精品毛片人妻AV不卡| 又爽又大又黄a级毛片在线视频| 亚洲天堂网站在线| 日韩中文字幕免费在线观看| 精品无码人妻一区二区| 麻豆精品在线| 3p叠罗汉国产精品久久| 亚洲精选无码久久久| 波多野结衣国产精品| 国产精品美乳| 亚洲天堂高清| 成人在线天堂| 最新无码专区超级碰碰碰| 色丁丁毛片在线观看| 精品人妻一区二区三区蜜桃AⅤ| 激情六月丁香婷婷四房播| 亚洲一级毛片在线播放| 欧美另类第一页| 欧美福利在线| 国产精品黄色片| 天天色综网| 毛片基地视频| 亚洲IV视频免费在线光看| 无码精品一区二区久久久| 爱做久久久久久| 精品国产女同疯狂摩擦2| 欧美国产在线精品17p| 青青草久久伊人| 超碰免费91| 亚洲国产欧美目韩成人综合| 国产不卡在线看| 色香蕉影院| av性天堂网| 国产在线自揄拍揄视频网站| 亚洲成a∧人片在线观看无码| 天天爽免费视频| 日韩亚洲综合在线| 国产麻豆精品在线观看| 日韩东京热无码人妻| 国产精品欧美激情| 久热精品免费| 国产欧美视频在线| 欧洲熟妇精品视频| 毛片一级在线| 亚洲高清无在码在线无弹窗| 国产免费怡红院视频| 色丁丁毛片在线观看| 91区国产福利在线观看午夜| 首页亚洲国产丝袜长腿综合|