謝 杰,王道涵,柏孝燚,周 兵
(1.云南農業大學,a.大數據學院;b.理學院,昆明 650201;2.山東文化產業職業學院,山東 青島 266699)
互聯網技術的快速發展,使得公眾的生產生活方式發生了極大改變。網絡購物憑借其選擇性多、價格優惠、方便快捷、省時省力等優勢和特點,逐漸成為人們日常購物消費的主流方式。但由于互聯網的不確定性、網絡食品監管規范的不健全等問題的存在,使得中國網購食品質量方面存在眾多隱患。除此以外,隨著傳統農業向現代化農業的轉變,中國農業發展已經進入了新發展階段,國家各級單位和民眾都已愈發重視“三品一標”建設與發展,目前正在全力打造具有無公害、綠色、有機和地理標志性質的農產品品牌[1]。因此,采取科學有效的質量監管手段來對假冒偽劣、不合格產品進行有效打擊,保障食品的良好質量,不僅關系到廣大人民群眾的身心健康,更關系到人民群眾對黨和政府監管能力、執政能力的評價與信任。
國外在食品質量監管方面的工作和研究起步較早,已形成一定規范。如德國強調從“農田-餐桌”的全過程,主要通過建立追溯體系來加強產品質量的監管。并提出將國家政府部門、社會中介組織和第三方機構力量進行整合,形成綜合管理監管模式進行監管。美國采用“多部門分工”的監管模式,各部門各司其職,相互配合,強調法律法規的完善。日本采用“分段監管”的模式,分環節確定政府部門的監管職責,強調記錄保存制度以及嚴格的市場準入制度[2]。國內相關研究較國外晚一些,且多為理論研究,主要集中在網購食品交易過程和交易監管過程中出現的問題提出解決對策,往往涉及到消費者、網購食品經營者以及政府相關職能部門等多方主體的權利與義務[3]。
本研究擬將云南省八大本土藥材之一的三七品牌在天貓、京東商城上的消費者購買評論作為研究對象,整體思路是采用文本挖掘技術和產品品牌形象監管及危機等級管理方法,綜合運用TF-IDF 算法、依存句法、語義相似度聚類算法以及細粒度情感分析方法,從監管部門的角度出發,對消費者購買三七后的評論進行分析,挖掘出三七商品在產品質量的各指標危機等級以及產品形象特征,以此來幫助監管部門及時了解各品牌三七質量監管方面的情況,并針對具體存在的問題進行針對性檢查,從而達到保證產品品牌良好形象、彌補監管漏洞、健全監管制度的目的。
研究對象選定為云南省高原特色農產品之一的三七,三七作為云南省農業重點發展的八大產業中藥材的一個重要元素,已成為了帶動云南經濟發展、打響品牌的重要產品。如圖1 所示,在云南省近2 年評選的十大名品中,中藥材這一評選欄目下,每年三七都占大約20%的比重。且在中國品牌網評選出的2021 年三七十大品牌排行榜中,云南省的三七品牌共有8 個,占總體的80%,足以證明云南省三七品牌影響力之大。加上幾大品牌在天貓、京東平臺上銷量較高,評論數量較大,保證了研究的數據量充足。

圖1 三七行業品牌排行榜
店鋪的選擇標準為官方旗艦店,具體選擇為該店鋪中綜合評價好、評價數量高,同時在天貓、京東兩大平臺均進行銷售的產品。在產品選定后,按照指定的規則方法,采用網絡爬蟲技術對店鋪評論數據進行采集,但由于網絡爬蟲會在一定時間內對訪問的目標站點發送大量的請求信息,以獲得不同的數據信息,這在一定程度上會造成網站資源的消耗,大量且快速的請求,會對部分中小型網站造成負載,甚至會導致其服務器崩潰的現象[4]。為了防止部分爬蟲程序對網站安全造成危害,確保網站正常工作,大量網站都采取了一些反爬蟲機制,如監控IP 與訪問量,當一個IP 在周期內訪問量達到閾值時,將其判定為爬蟲并禁止訪問。此外,還可以限制數據展示量,如淘寶、天貓、京東等平臺對產品評論數據進行了數量限制,只展示100 頁的評論數據。三七原始評論數據采集如表1 所示。

表1 三七原始評論數據采集結果
首先對評論數據進行預處理工作,以方便后續研究的開展。具體清洗方法如下。
1)去除系統默認評論數據,如“此用戶未填寫評價內容”“此用戶未及時評價”“系統默認好評”。
2)去除重復值,重復數據僅保留一條,其他的刪除。清洗后結果如表2 所示。

表2 三七原始評論數據清洗結果
將評論數據采集后,利用Jieba 分詞包的精確模式對評論數據進行分詞,為后續研究做好數據準備。分詞后,可以發現原本的句子已被切分成了單字和詞組的形式,且對于各個詞組能夠較好地識別,切分效果較好。中文分詞后的文本數據集如圖2 所示。

圖2 中文分詞后的文本數據集
由于中文分詞后的評論文本數據中仍然有部分無意義詞組以及大量標點符號,在數據處理時會導致處理效率低,因此需要對其進行去除,使用停用詞過濾處理。停用詞過濾結果如圖3 所示。

圖3 停用詞過濾結果
監測指標的選取對于形象監測與危機管理整體具有極大的影響,因此需要選用科學合理的方法來進行監測指標的選取。考慮到計算的復雜度和結果的有效性,首先通過TF-IDF 算法將部分詞頻雖高,但卻無意義的詞組去除。通過設定閾值,將能夠較好地用于產品分類特征的詞組提取出來,人工構建基礎產品質量監測指標表。為了避免指標選取時個人主觀性的影響,由3 名研究者合作共同完成基礎監測指標表的構建。考慮到形容詞及動詞中也含有部分能夠體現產品形象特征的詞組,因此在構建品牌監測指標過程中,詞性標注環節將形容詞及動詞也加入進來。之后利用相似度聚類等方法,將提取出的詞組與監測指標表中的基礎監測指標進行相似度計算,將符合條件的詞組提取出來,完成指標的構建。指標監測構建流程如圖4 所示。

圖4 監測指標構建流程
在完成監測指標所屬類別聚類分析后,還需對指標形象特征表現情況進行提取和分析,挖掘出各監測指標對應的形象特征情況,并通過情感分析方法對各個形象特征所具有的危機值進行計算,得到該監測指標的危機等級,進而了解該產品在質量方面的形象特征表現和危機情況。形象分析流程如圖5 所示。

圖5 形象分析流程
數據預處理后,為了從評論數據集中選出貢獻度高、能夠較好地表達評論實際內容的詞組作為二級指標,需要逐步對評論數據進行過濾,減少無關數據對最終試驗結果的影響。傳統的指標選取是依據詞組中詞頻的高低進行選擇,但該方法會使得大量詞頻高、但卻無實際意義的詞組被選中。為了能夠提高試驗結果的準確率,需要利用TF-IDF 算法對評論數據中的詞組進行初步過濾,該算法能夠較好地對詞頻高但卻沒有實際價值、或實際價值低的詞語進行過濾,并將能夠較好地表現本身含義的詞語保留下來。TF-IDF 提取結果如圖6 所示,根據提取結果可知,該算法能夠較好地對詞頻高但卻沒有實際價值、或實際價值低的詞語較好的進行過濾,從而將具有實際意義的詞組進行篩選。

圖6 TF-IDF 提取結果
由于作為監測指標的詞大多為名詞,能夠表現產品形象特征的詞組大多為名詞、形容詞以及少量動詞性詞組,因此在構建基礎監測指標時,對名詞和名詞性詞組進行選取可以進一步降低數據處理分析的維度,達到更加精確分析的目的和效果。通過調用Pyltp 的詞性標注工具,對去除停用詞后用于構建領域詞典的評論數據集詞組進行詞性標注,為監測指標以及形象特征的選取做準備。標準結果如圖7所示。完成詞性的標注后,接下來需要將用于構建質量監測指標的名詞及名詞性詞組從大量標注過的詞組中提取出來。

圖7 詞性標注結果
在基礎監測指標表的構建完成前提下,對于品牌監測指標,需要利用相似度聚類算法來實現。在正式開始監測指標聚類前,考慮到監測指標的選取雖然以名詞及名詞性詞組為主,但仍有部分形容詞及動詞與產品監測指標相關,能夠作為質量監測指標。由于該部分形容詞詞組與相近的名詞性詞組表達含義接近,因此在構建基礎監測指標時未考慮。但在品牌監測指標構建時,要將與產品質量相關的監測指標盡量多的進行整理和歸納,以保證試驗結果的準確性。提取結果如表3 所示。

表3 部分詞組提取結果
接下來完成監測指標的聚類,首先利用Word2vec工具對中文分詞后的評論數據集進行詞組離散向量訓練,之后使用余弦相似度聚類算法將詞組離散向量進行聚類,完成詞組的聚類。由于詞組在通過Word2vec 訓練后,得到的離散向量可以通過向量空間距離表示詞組之間的相似性,因此可以通過利用余弦相似度計算公式表示兩個詞組之間的相似程度。Word2ve 的調用通過Gensim 庫來實現,模型采用Skip-gram 模型。
在獲得詞組的空間向量后,即可結合監測指標表,利用Word2vec 的余項相似度計算方法,對制定的監測指標進行相似詞組聚類,從評論詞組中提取出與各監測指標相近的詞組,完成監測指標的聚類工作。即獲得各品牌監測指標,例如盤龍云海部分監管指標提取結果如表4 所示。

表4 盤龍云海部分監管指標提取結果
通過借助Pyltp 工具,編寫Python 語言程序后,即可對評論數據進行句法分析,挖掘出評論數據中各詞組之間的相關依存關系。
消費者在對購買商品評論時會對商品的各方面表現情況進行評價,而利用情感分析技術可將其對產品質量方面的情感傾向提取出來。因此,本研究通過參考張強[5]給出的情感值計算方法,構建了一種衡量商品情感傾向及情感值計算的方法,利用情感值的高低來表示危機情況。
式中,i表示i個詞組組合,Si表示i個詞組的情感值,α的值為0 和1,當詞組中含有否定詞時α的值為1,否則為0,Mi表示i個詞組組合中程度詞的權重值,Ei表示i個詞組組合中詞組的情感極性。
公式(1)中針對單個詞組組合的情感值進行了計算,得到了單個詞組組合的情感值,為了能夠了解一級指標的危機情況,需要將一級指標中的所有二級指標危機值進行計算,得到一級指標的平均危機值。
式中,Fj表示第j個一級指標的平均危機值。在得到詞組組合的情感值后,通過對照制定好的危機等級表來確定危機等級,參考了陳誠[6]的危機等級劃分方法,進行危機等級表的制定。根據各級監測指標得分,對得分結果劃分為4 個等級:無危機、輕危機、中危機、重危機[7]。具體危機等級制定如表5所示。

表5 危機等級劃分
借助依存句法提取出監測指標元組后,利用公式(1)對提取出的監測指標元組的危機值進行計算。以<質量挺好>為例,首先對元組內容進行識別和劃分,判斷監測指標內容、情感極性詞、情感程度詞以及否定詞。該元組中監測指標內容為質量,情感進行詞為好,通過調用情感極性詞典,發現該詞極性為正面極性,則對應情感值為1;情感程度詞為“挺”,通過調用情感程度詞典,發現該詞屬于第四類,程度權重值為0.48,按照公式(1)的計算方法,該詞組情感值為0.48×1=0.48。按照相同的計算方法,對聚類后該監測指標的所有元組情感值進行逐個計算。計算完成后,按照公式(2)的計算方法,對所有元組情感值進行累加求平均值,得到該監測指標的最終結果,如表6 所示。

表6 質量監測指標危機值
七丹各項監測指標平均值最高,其次為云南白藥以及云三七品牌。總分最低的為苗鄉和高田。根據試驗結果,在一級監測指標方面,不同品牌產品具有各自優勢。如在產品質量監測指標方面,七丹以及云南白藥品牌分值最高,表明該品牌三七產品在產品質量、三七粉質、雜質殘留以及份量等方面表現較好;而在產品效果這一指標中,云三七分數最高,表明大多數消費者使用該品牌三七產品后,效果較好。
低危機等級的具體危機風險項提取結果如表7所示。

表7 低危機風險項提取
苗鄉與高田總體危機等級為輕危機,盤龍云海總體危機等級為無危機,僅產品質量這一監測指標為輕危機,因此前兩個品牌需要監管部門給予更多的關注,著重進行問題排查。針對盤龍云海品牌產品在產品質量這一監測指標存在的風險項,監管部門要檢查產品加工工序完整,重點檢查產品摻雜問題。而針對苗鄉品牌,則需要關注以次充好問題,同時關注產品描述問題,檢查虛假宣傳問題。高田品牌產品存在的問題與苗鄉品牌存在的問題相似,需重點檢查以次充好問題以及虛假宣傳問題,同時還需檢查產品變質以及存在雜質多的問題。
監管部門除了需要對存在風險的產品進行針對性的檢查外,還需采取相應的措施來輔助開展食品質量監管工作[8]。
產品在到消費者手上前,需要經過層層工作人員的檢驗和傳遞,每一層都需要做好對應的檢驗工作,并承擔對應的責任。店鋪從廠家引入產品時,需要對產品的質量情況進行檢驗,廠家對店鋪負責。消費者若發現產品質量出現問題,則店鋪具有不可推卸的責任,店鋪向消費者負責,而品牌商家則對店鋪負責[9]。通過本研究方法為監管部門指明存在的問題后,監管部門便可以展開針對性的問題排查,確定問題后,逐層問責[10]。通過落實責任歸責制,可以進一步提升每層人員的監察意識和責任意識,保證產品良好的產品質量,減少產品質量問題的發生[11]。
利用網絡爬蟲技術,可將各大品牌的產品質量相關信息實時采集,如產品價格,并利用智能分析算法進行分析,由后臺計算得到各項監測指標變化情況,幫助監管部門實時掌握產品質量各方面的變化,以此達到質量監管的效果和目的[12,13]。
大量消費者在購買三七產品后,缺乏相應的專業知識,無法辨別所購產品真假和質量好壞。而劣質產品非但使用效果差,更有可能對身體健康造成極大危害,食用后產生副作用[14]。因此,監管部門應在官方平臺上,發布權威、可信的產品真偽以及質量好壞的辨別方法,以此提高消費者的產品真假、質量好壞的辨別能力,形成良好的產品質量監督氛圍,進一步健全監管機制,提升政府的公信力。
隨著互聯網普及率的飛速增長,大數據等科技得到了極大的推進。網絡購物憑借著突破時間空間、選擇性多、方便快捷等特點,改變了人們的生活,受到了越來越多的消費者喜愛。網購食品市場一片大好,前提是要保證食品質量。食品質量問題頻繁發生,影響了消費者的身心健康,同時也造成了人們對于食品質量現狀的擔憂、對政府工作能力和監管水平的懷疑,影響了政府的公信力。
在此背景下,本研究從市場監管部門的角度出發,以云南省高原特色農產品三七為研究對象,提出了質量形象監測及危機管理方法,用于對政府推廣的云南高原特色農產品品牌產品的質量進行有效監管,防止品牌商品出現質量問題,加快云南省綠色食品牌 建設[15]。