999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

消費品多源缺陷線索信息預處理研究

2023-11-21 00:42:26徐思紅張力丹田晶晶齊月孫寧
標準科學 2023年1期

徐思紅 張力丹 田晶晶 齊月 孫寧

摘 要:消費品召回已成為產品質量安全后市場監管最重要的措施之一。消費品缺陷線索是發現潛在缺陷的數據源,準確、及時、有效地收集與分析消費品缺陷線索是快速掌握消費品缺陷并實施召回的基礎。如何基于消費品缺陷線索快速定位產品潛在缺陷是召回管理的關鍵,消費品具有產品類型多、故障模式雜的特點,獲取缺陷線索到缺陷線索可深入分析而后初步判定潛在缺陷之間存在一定的差距,本文主要從消費品缺陷線索采集監測、標簽字典、數據篩選、數據清洗等環節提出數據預處理的要求,為消費品缺陷線索分析提供參考。

關鍵詞:消費品,缺陷線索,數據預處理

DOI編碼:10.3969/j.issn.1674-5698.2023.01.018

1 引 言

隨著社會經濟和科學技術的快速發展,消費品的種類以及功能越來越豐富,但是也帶來了一系列安全隱患。近年來,消費品的安全性問題引發社會公眾的普遍關注。如何通過產品質量安全監管,減少產品安全傷害、保護消費者人身和財產安全,是市場監管的工作方向。缺陷產品召回是產品質量安全監管的國際通行做法,是后市場監管的重要手段[1]。我國消費品召回工作從2004年開始,隨著2015年發布的《缺陷消費品召回管理辦法》、2020年發布的《消費品召回管理暫行規定》的相繼實施以及相關配套文件的出臺,我國消費品召回管理工作的法律依據日趨完善。

根據《2021年全國消協組織受理投訴情況分析》,2021年全國消協組織共受理消費者投訴約104.5萬件,相較2020年增長6.37%,其中消費者關心的質量問題與使用安全問題占22.9%。消費者對于消費品質量安全的要求越來越高,保護自身權益的意識越來越強。根據《市場監管總局關于2021年全國汽車和消費品召回情況的通告》,2021年受市場監管部門調查影響的消費品召回占全年召回總量的90.5%,而消費者投訴以及其他形式的缺陷線索是引發缺陷調查導致召回最重要的信息源,隨著召回制度的逐步完善,我國消費品召回監管已初步形成全國聯動工作格局,通過數據交換共享與業務協同,為消費品缺陷調查和召回工作提供了有效支撐。通過多種方式增強消費品多源缺陷線索信息的采集力度,信息量呈現爆發性的增長,與此同時,由于消費品具有種類多、故障模式復雜等特性,導致多源缺陷線索中產品信息不統一、故障描述不準確、缺陷線索信息重復等系列問題。為快速從消費品多源缺陷線索信息中提取有價值、有效的線索信息,采取高效技術措施做好數據預處理工作顯得尤為重要。在缺陷線索數據挖掘與發現有潛在缺陷的過程中,消費品多源缺陷線索信息的數據預處理是核心環節之一。在數據預處理過程中,主要解決的數據問題包括:(1)重復性;(2)不完整性;(3)噪音;(4)不一致性;(5)不精簡性。

2 消費品缺陷線索采集內容

消費品缺陷線索根據來源不同主要包括:消費者投訴、產品安全網絡輿情、境外召回信息、電商平臺評價信息、國內召回信息、其他信息等。根據消費品缺陷線索的用途,提出了不同類型缺陷線索采集內容(如圖1所示)。

(1)消費者投訴信息:產品類別、生產者名稱、產品名稱、產品品牌、產品型號、產品產地、購買日期、產品應用場景、故障描述、是否造成傷害、聯系人及聯系方式等。

(2)產品安全網絡輿情:產品類別、標題、描述、鏈接地址、相似新聞條數、發布時間等。

(3)境外召回信息:通報日期、通報國家、產品名稱、產品類別、缺陷原因(危險描述)、措施、鏈接地址等。

(4)電商平臺評價信息:評價時間、電商平臺、評價內容、鏈接地址等。

(5)國內召回信息:產品類別、產品名稱、品牌、缺陷描述、召回措施、受理單位等。

(6)產品檢驗檢測信息:產品類別、品牌、產品名稱、主要不合格項目、檢測單位、檢測批次等。

(7)其他信息:產品類別、品牌、產品名稱、問題描述等。

3 消費品故障標簽字典構建

產品故障現象作為消費品綜合分析判定產品安全風險缺陷線索案例的基礎信息,決定著是否存在安全性問題。多源信息中對于產品故障的描述文字量長短不一、表述隨意多樣化、故障問題多,針對這些復雜的內容,只有通過數據歸納,減少數據分析的信息量才能在分析挖掘的過程中提高效率。以已有的信息為基礎,首先對產品故障現象進行歸類,整理出每一類故障描述問題涉及的關鍵詞,然后根據實際需求,分為兩級,而后再根據描述提煉提取出同義詞,進行同義詞擴展,基于多個特征維度對近義詞表進行過濾,形成同義描述集合,豐富故障描述特征,形成產品故障現象標簽字典[2](見表1)。

4 消費品缺陷線索預處理

由于消費品缺陷線索信息的數據種類和數據結構模式多元化,關聯性較為復雜,在數據分析和信息挖掘環節中存在較大難度。在消費品缺陷線索信息收集和選擇的初期環節,通過對數據的重復、缺失、噪音等問題進行預處理,然后將數據中與分析發掘相關性較高的數據通過數據清洗的方法再進行預處理,以獲得可靠性較高的有效數據。相關實踐證明,數據預處理在數據分析和挖掘過程中所占時間達70%以上,數據預處理的好壞對整個數據分析和挖掘結果有著至關重要的影響[3]。在消費品缺陷線索信息分析前的數據預處理主要包含以下幾方面。

4.1 缺陷線索數據篩選

面對消費品多源缺陷線索信息,無論是通過系統被動采集消費者投訴信息、人工記錄信函或舉報,還是主動通過網絡、電商平臺主動采集產品安全網絡輿情信息、境外召回信息、電商評價信息、檢驗檢測信息,都要確保信息數據的有效性和唯一性,如果在信息數據的初始收集過程中就確保數據的有效性和唯一性,那么相比于先采集后篩選數據更為便捷和高效、準確。在數據選擇的初始階段確保有效性和唯一性,包括以下幾項。

(1)有效性。產品信息的品牌、產品分類、類別信息完整,故障描述信息真實描述產品使用中出現的故障,排除消費糾紛、服務質量以及懷疑揣測等問題。如果有聯系人信息,聯系人手機號碼有效。

(2)唯一性。同一來源的信息避免重復。

(3)字體和詞性轉化。多源信息同一數據字段的信息字體和詞性保持一致。

對于不符合上述有效性要求的信息數據不進行采集或是不進行選擇和選取。消費者投訴信息通過采集信息頁面的必填項、手機號碼驗證的設置,確保信息有效性,重復性需要系統后臺管理人員通過產品、手機號碼和故障描述判定;產品安全網絡輿情信息根據采集內容數據項采集信息,確保信息有效性,網絡輿情信息本身具有隨意性和開放性特性,所以真實性待定,故這類信息也是綜合判定安全風險缺陷線索案例的輔助信息,應用網絡信息爬取工具排除重復信息;境外召回信息主要是監測翻譯國外消費品召回主管機構網絡發布的召回信息,信息來源本身具有有效性和唯一性;電商評價信息根據采集內容數據項采集信息,確保信息有效性,評價信息是消費者購買和應用產品后真實反饋的內容,具有信息真實性的屬性,應用爬取工具排除同一電商平臺的重復信息;國內召回信息和檢驗檢測信息是國家政府機關發布的信息,信息來源本身具有有效性和唯一性;其他來源信息根據采集內容數據項采集信息,確保信息有效性和唯一性,通過與已有數據的產品信息、手機號碼和故障描述來判定是否重復,重復數據在已有數據的基礎上進行特殊標注。

4.2 數據清洗

美國社會保險號錯誤糾正是數據清洗技術的最早起源,隨著信息業和商業的高速發展,數據清洗也進一步發展,并根據各行各業的不同需求,有著不同的數據清洗方法,消費品缺陷線索信息的數據預處理,根據現有需求以及經驗的積累,其中的數據清洗主要包括忽略部分數據項、基礎數據核實、故障標簽標注、智能與人工結合,各自解決不同的問題以達到缺陷線索信息的預處理數據優化效果。

4.2.1 忽略部分數據項

消費品多源缺陷線索信息各自具有其特殊屬性和信息內容,而這些信息內容在綜合判定安全風險的缺陷線索案例過程中不是分析的內容,影響分析判定結果的準確性,在信息預處理過程中,不影響消費品多源缺陷線索信息各自數據的基礎上,采取忽略元組的方式將這些信息數據進行暫時忽略,忽略多源信息內容的數據項實例見表2。

4.2.2 基礎數據核實

產品品牌、產品分類、產品類別作為關聯消費品多源缺陷線索信息的產品基礎數據信息,統一性、標準化對于后續信息數據的分析挖掘尤為重要,消費品品牌繁多、種類復雜、產品多樣、,明確這些信息才能確定是哪個產品。消費品品牌信息的研究發現,目前沒有相關標準可借鑒,通過對已有信息數據的分析概括、同時借鑒電商平臺中經銷商對于產品的描述、網絡輿情中消費者對于產品的描述,最終再通過平衡學習總結的方法,形成品牌字典。產品分類和產品類別字典可直接應用標準GB/T 36431-2018《消費品分類與代碼》,同時借鑒電商平臺中經銷商對于產品的描述,進行數據的統一和規范(見表3)。

4.2.3 故障標簽標注

根據已形成的產品故障現象字典,對采集和選擇的消費品多源缺陷線索信息:消費品的消費者投訴信息、產品安全網絡輿情、境外召回信息、電商評價信息、國內召回信息、檢驗檢測信息、其他的信息中的故障描述、描述、缺陷原因(危險描述)、評價內容、缺陷描述、主要不合格項目、問題描述的內容分別進行故障標簽標注,最終將不規范的故障現象描述數據進行規范(見表4)。

在產品安全網絡輿情信息和電商評價信息的爬取和選擇時,將爬取信息的關鍵詞匯設置為需要的品牌、產品分類和產品類別、產品故障現象字典的組合或是產品分類和產品類別、產品故障現象字典的組合,最大限度和精準地采集與消費品安全相關的信息線索。

4.2.4 人工智能修正

在信息數據采集和選擇過程中,不可避免地會產生不規范、錯誤、重復等問題,采用計算機和人工判斷結合的方式制定方案,完善或剔除問題信息,最終保留有效信息。消費品的多樣性和故障現象的復雜性,在構建品牌字典數據和故障現象標簽字典數據時,必定會存在字典數據不完整的問題,結合消費品各類產品的相關標準以及行業經驗,通過計算機和人工專業知識不斷完善字典數據,更好地為精準產品、簡化故障描述奠定基礎。

5 多源缺陷線索信息數據預處理實例

某A品牌耳機過敏的多源缺陷線索信息的數據預處理實例見表5~表7。

6 結 語

隨著消費品多源缺陷線索信息數量的不斷增加,相信數據預處理一定會越來越重要,為數據分析挖掘提供更加干凈、高質量的信息源。消費品多源缺陷線索信息預處理方式完善建議:與專業知識應用融合,且貫穿預處理各環節;嚴控預處理各環節質量,保證高效[4];應用計算機智能學習和語義識別技術,解放人工,提高效率和準確性。

參考文獻

林建軍. 淺談我國消費品召回的特點及其重要意義[J]. 質量與市場, 2020, (20) :46-48.

姜肇財, 宋黎, 王雯.基于電商評論信息的產品故障標簽體系構建研究[J]. 標準科學, 2021, (12) :128-131.

胡遠樟,程小恩,何黎, 等. 一種基于糖尿病的中醫數據挖掘預處理方法[J]. CJCM 中醫臨床研究, 2021, (30) :75-77.

田桂豐, 諶頏, 尹幫治. 信息熵和灰色關聯分析在企業大數據分析中的應用[J]. 信息記錄材料, 2021, 22(3):151-152.

唐成龍,諶頏,唐海春,等. 大數據背景下數據預處理方法研究運用[J]. 信息記錄材料, 2021, 22(9):199-200.

鄭杰昌, 謝志利, 王長林. 消費品召回追溯體系研究[J]. 標準科學, 2020, (5):32-52.

許輝.數據挖掘中的數據預處理[J]. 電腦知識與技術,2022, (2):27-31.

李顏平,吳剛. 基于典型數據集的數據預處理方法對比分析[J]. 沈陽工業大學學報, 2022, 44(2):165-192.

楊忠誠. 數據挖掘工具WEKA及其應用研究[J]. 企業科技與發展, 2018, (9):38-39.

張治斌,劉威. 淺析數據挖掘中的數據預處理技術[J]. 數字技術與應用, 2017(10):216-217.

主站蜘蛛池模板: 国外欧美一区另类中文字幕| 潮喷在线无码白浆| 成年人国产视频| 久久综合干| 91黄视频在线观看| 国产精品lululu在线观看| 国产女人在线视频| 亚洲日韩AV无码精品| 九九热在线视频| 日韩高清无码免费| 精品视频第一页| 欧美日韩精品一区二区视频| 免费看美女毛片| 精品一区二区三区无码视频无码| 日韩无码视频播放| 国产欧美日韩综合一区在线播放| 国产在线精品网址你懂的| 看你懂的巨臀中文字幕一区二区| 国产成人精品在线| 久草视频精品| 亚洲精品第一页不卡| 亚洲第一页在线观看| 国产精品丝袜视频| 久久亚洲国产视频| 六月婷婷精品视频在线观看| Jizz国产色系免费| 91高清在线视频| 精品无码日韩国产不卡av| 黄色在线不卡| 亚洲日韩国产精品无码专区| 国产美女精品在线| 99热这里只有免费国产精品 | 欧美一区日韩一区中文字幕页| a亚洲视频| 免费jizz在线播放| 亚洲Av激情网五月天| 天天综合色天天综合网| 国产一区二区免费播放| 亚洲 欧美 偷自乱 图片| 97影院午夜在线观看视频| 国产高清免费午夜在线视频| 亚洲欧美日韩色图| 久久不卡精品| 亚洲精品视频免费看| 欧美视频免费一区二区三区| 国产精彩视频在线观看| 成人午夜免费观看| 成年看免费观看视频拍拍| 欧美日本在线播放| 狠狠色综合网| 秘书高跟黑色丝袜国产91在线| 日本一本在线视频| 亚国产欧美在线人成| 广东一级毛片| 凹凸精品免费精品视频| 亚洲精品国产综合99| 色天堂无毒不卡| www成人国产在线观看网站| 国产欧美专区在线观看| 欧美特级AAAAAA视频免费观看| 日本五区在线不卡精品| 亚洲乱强伦| 亚洲永久色| 亚洲黄色网站视频| 欧美激情网址| 人妻无码中文字幕第一区| 日本国产在线| 成·人免费午夜无码视频在线观看| 亚洲国产日韩欧美在线| 一级毛片在线免费视频| 无码中文AⅤ在线观看| 精品一区二区三区无码视频无码| 中文字幕2区| 97精品伊人久久大香线蕉| 日韩毛片免费观看| 国产成人成人一区二区| 国产一区二区视频在线| 国产精品99一区不卡| 亚洲成a人片77777在线播放| 免费一级毛片| 五月天在线网站| 免费全部高H视频无码无遮掩|