999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據背景下服裝品牌知識挖掘研究

2022-04-14 10:19:08楊麗麗劉靜偉
西部皮革 2022年7期
關鍵詞:語義詞匯文本

楊麗麗,劉靜偉

(西安工程大學 服裝與藝術設計學院,陜西 西安 710048)

大數據時代產生了海量的數據,但是數據類型多元異構、網頁發布不規范等因素導致數據價值密度低,信息造價昂貴。大數據分析和數據挖掘是基于統計分析學的從數據中獲取知識的一種研究方法,在互聯網、金融、醫療等多個行業都有很好的發展與應用。語料庫分析法在國外已有三十年以上的研究歷史,目前服裝領域內多使用學術文獻作為研究語料庫進行行業信息發現和預測,缺乏對其他行業數據的探索與使用;為了提高服裝行業對開源數據的利用率,構建行業語料庫、通過合理的數據分析工具對行業數據進行知識挖掘,對行業知識工程的建設具有重要的實踐意義。

1 服裝品牌研究語料庫構建

1.1 數據渠道選擇

為保證語料庫中服裝品牌數據的多樣性和全面性需對采集渠道進行評估篩選,最終確定的數據源類型如下:

(1)服裝專業平臺和品牌網站:如WGSN、POP 流行趨勢平臺,中國時尚網、中國報告大廳等網站。

(2)學術資源平臺:CNKI 數據庫。

(3)通用知識網站:如百度百科知識庫。

1.2 研究樣本選擇

進行品牌調研,圍繞“服裝品牌排行”檢索知名度較高、數據信息分布較多的服裝品牌。共選擇了60 個服裝品牌,主要可分為以下幾種類型。

(1)國際奢侈品牌。如阿瑪尼、巴寶莉等共32 個。

(2)國內具有一定創建歷史與知名度的服裝品牌。如勁霸、七匹狼等共10 個中國品牌。

(3)潮牌與戶外品牌。如LARGE、SUPREME、戶外品牌始祖鳥、哥倫比亞等共18 個。

1.3 數據采集與整理

網絡爬蟲是進行大數據收集的主要技術手段。采集過程以爬蟲(后裔采集器)采集為主,人工采集為輔。

通用類數據平臺結構簡單,先用采集器進行數據爬取,再對結果進行人工篩選降重,以減少數據噪音;專業類平臺,如WGSN、POP,CNKI 有權限限制,平臺結構復雜,采集過程主要依賴人工。

采集過程中總結出如下數據分布特點:

通用網絡平臺如百度百科、品牌、服裝網,數據重復率高類型單一;學術平臺的數據語料,類型豐富但噪音大。通用網絡上國際服裝品牌的數據量和信息價值多于國內的服裝品牌,學術平臺數據則呈現相反趨勢。奢侈等級越高,其受眾群體小,數據缺乏,如定制類品牌Brioni。

表1 采集數據統計Tab.1 Data collection statistics

2 服裝品牌數據挖掘

2.1 數據預處理

數據研究過程使用的是定量內容分析和數據挖掘軟件KH Coder,該軟件有特征抽取、語義共現、文本聚類、主題分析等功能,適用于大量型非結構化文本的分析。為提高數據挖掘的效率和質量,數據預處理步驟如下:

(1)數據集成與格式規范:數據格式整理為單個CSV/Excel表格或批量TXT 文本。以品牌為例,每一個品牌數據合并在一個TXT 文檔里,以品牌名稱和定義的序號命名,匯總在文件夾下。CSV 文件中,第一列為分析數據,第二列第三列可設置外部變量。

(2)詞類篩選與定義:選擇跟分析目的相關的詞性,排除無意義詞匯對數據結果的影響。一般主要選擇名詞、專業用詞、形容詞、標簽。

(3)編碼規則編寫:KH 編碼器可以自定義編碼規則,執行編碼。如“*博柏利Burberry|博寶利/巴寶莉”表示只要出現這些詞匯則認為該文檔與品牌“博柏利”有關,借助編碼可協助品牌語料識別。

2.2 關鍵詞共現網絡分析

語義網絡是全局性的數據結構觀察方法。在KH coder 設置不同的分析系數與變量因素,執行共現網絡分析可發現隱形關聯,從不同的角度進行數據特征挖掘,發現語料庫的數據特征和隱藏的知識結構。

共現分析是按照關鍵詞在每篇文章中的共同出現的情況生成的語義網絡。設置參數時將共現網絡設置為無向網,共現結果(圖1~圖3)中圈的大小代表頻次,顏色代表聚類情況。

語義網絡呈現的共現關系可以是詞匯與外部變量之間的。

以圖1 為例,該圖是以品牌語料作為分析文本,以“品牌名稱”作為外部變量,基于語義相似度計算的語義網絡。品牌間由特征詞關聯起來形成不同的遠近關系,其關聯與人工劃分的品牌類型相符;由品牌的共現相似性可對競爭關系展開知識推理。

語義網絡呈現的共現關系也可以是詞匯與詞匯之間的。

圖2 是沒有設置外部變量,由服裝綜合性語料分析后展開的語義網絡,可借此知道文本中存在較多的信息類型。由圖可知,分析文本中包含較多的“市場”“色彩”“元素”“造型”“圖案”等信息類型。

圖3 是以“雅格獅丹”的品牌語料為分析文本導出的語義網絡。雅格獅丹是英國倫敦的御用皇家品牌,戰爭期間為軍隊設計的防水大衣是品牌的經典設計。在共現結果中,與雅格獅丹品牌相關的關鍵詞和信息點在語義網絡中都有明顯表現。通過語義網絡,可觀察到每個品牌的數據特征詞;得到基于大數據文本的“品牌數據畫像”。

語義網絡中的共現詞匯在一定程度上體現了數據的主題,可挖掘語料庫的行業信息,實現行業的知識發現。

2.3 集群聚類與KWIC 檢索

通過聚類分析和KWIC 檢索可在詞匯語境下進行數據的分析觀察。

集群就是把相似的個體(樣本語料)歸于一群。通過集群聚類,可以得到不同場景的文本集群,并可得到不同集群下的特征詞匯表(表2,表3)。

Jaccard 數值越高證明該詞在這一集群中的權重越大。如表2 所示,由特征詞可知該集群的文本語料與“顏色”密切相關;如表3 所示,該集群的語料與戶外運動密切相關。以此為依據可進行語料分類和行業術語抽取。

表2 特征詞匯集群示例(部分)Tab.2 example ofcharacteristic vocabulary cluster(part)

表3 特征詞匯集群示例(部分)Tab.3 example ofcharacteristic vocabulary cluster(part)

KWIC 檢索也是基于語義相似度計算的統計分析,可輸入關鍵詞(研究對象)直接查詢該詞的上下文語境。分數越高意味著在分析樣本中該詞與風格搭配越頻繁。

由上述結果可知,在KH coder 中執行集群聚類可對文本語料進行分類;借助集群聚類和KWIC 檢索還可獲取特征詞匯,“品牌”“顏色”“單品”“圖案”、“面料”“風格”“功能”“場景”等服裝行業的知識信息都可借此進行聚類、提煉。

3 結論

文章借助爬蟲技術和文本挖掘工具,對60 個服裝品牌進行了數據采集與語料庫構建,發現了不同服裝品牌的數據分布特征。在語料庫基礎上進行數據挖掘,從不同角度繪制了語料文本的語義網絡,并獲取了基于語料庫的服裝品牌知識集群。結果表明,運用大數據技術在服裝品牌開源數據上進行知識抽取具備科學性和可行性。實驗結果對知識工程建設者或數據分析人員具有一定的借鑒或參考價值。

猜你喜歡
語義詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 久久婷婷五月综合色一区二区| 在线播放真实国产乱子伦| 成年午夜精品久久精品| 一级片一区| 成年A级毛片| 精品久久香蕉国产线看观看gif | 免费av一区二区三区在线| 亚洲色图欧美在线| 国产本道久久一区二区三区| 操国产美女| 国产精品嫩草影院av| 亚洲无码视频图片| 日日拍夜夜嗷嗷叫国产| 亚洲第一页在线观看| 亚洲国产黄色| 亚洲精品视频免费观看| 久久久久国产精品熟女影院| 久久中文无码精品| 国产地址二永久伊甸园| 国产欧美在线| 1级黄色毛片| 蜜桃视频一区二区| 欧美午夜在线视频| 美美女高清毛片视频免费观看| 9966国产精品视频| 欧美日韩中文国产| 日韩精品无码一级毛片免费| 啊嗯不日本网站| 性色一区| 一级毛片免费不卡在线| 全免费a级毛片免费看不卡| 国内精品伊人久久久久7777人| 国产精品网拍在线| 中国黄色一级视频| 久久国产成人精品国产成人亚洲| 国产精品自在线拍国产电影| 欧美激情一区二区三区成人| 欧美伊人色综合久久天天| av午夜福利一片免费看| 亚洲成人精品久久| 免费无码又爽又黄又刺激网站| 99re免费视频| 国产丝袜啪啪| 毛片大全免费观看| 亚洲天堂高清| 亚洲天堂首页| 国产麻豆另类AV| 国产精品一线天| 2021国产乱人伦在线播放| 色综合中文| 午夜免费视频网站| 亚洲男人天堂2018| 女人av社区男人的天堂| 2020精品极品国产色在线观看 | 狠狠色综合久久狠狠色综合| 欧美日韩北条麻妃一区二区| 精品一区二区三区自慰喷水| 一本大道香蕉久中文在线播放| 日本道中文字幕久久一区| 亚洲中文字幕23页在线| 欧美色伊人| 欧美日韩精品一区二区在线线| 成人91在线| 国产爽爽视频| 色婷婷电影网| 国产91丝袜在线播放动漫 | 三上悠亚在线精品二区| 欧美日韩精品一区二区视频| 日韩成人高清无码| 亚洲国产精品一区二区第一页免 | 国产粉嫩粉嫩的18在线播放91| 狠狠色婷婷丁香综合久久韩国| 老司机午夜精品视频你懂的| 一本大道东京热无码av| 国产福利2021最新在线观看| 欧美a网站| 久久这里只精品国产99热8| 国产国产人免费视频成18| 91久久夜色精品国产网站| 无码高潮喷水专区久久| 亚洲天堂免费在线视频| 韩国福利一区|