王寒冰


摘要:消費品質量數據在公共管理服務工作中發揮著重要的作用,因此構建面向消費品信息的大數據公共服務平臺具有重大的現實意義。文章在充分調研當前主流解決方案基礎上,提出了混合式服務平臺的總體設計框架,通過對不同形式、不同來源的消費品質量信息的梳理、整合、分析和評估,并采用關聯分析等具體方法,最終設計了基于基礎數據子平臺、數據分析子平臺和公共服務子平臺的平臺構建方案。該方案具備輕量化和高擴展性的特點,對于構建類似的大數據公共服務平臺具有一定的借鑒價值.
關鍵詞:消費品:大數據:數據融合:關聯分析
中圖分類號:TP31
文獻標志碼:A
0 引言
市場監督管理系統部門和二級機構眾多,質檢、計量、特檢、認證認可等部門的相應數據平臺“獨自”為政,沒有統一的數據接口和標準,無法實現數據的互聯互通,同時現有不少系統平臺小、數據有限,沒有實現整合,導致從無法很好地建立分析模型,和有針對性地提供行業、區域、產品、企業、消費者等分析報告。隨著市場主體數量快速增長,市場活躍度不斷提升,社會信息量爆炸式增長,數量巨大、來源分散、格式多樣的大數據對政府質量服務和監管能力提出了新的挑戰,也帶來了新的機遇,只有從建立質量基礎大數據人手,構建大數據監管模型,才能有效提升政府科學決策和風險預判的能力。
1 現狀分析
當前,我國已成為全球消費品生產、消費和貿易大國,但消費品質量卻沒有達到人民要求,呈現較為明顯的質量指標與人民群眾消費需求、安全指標與人民群眾安全需求的不匹配,制約國內消費增長,甚至造成消費外流。特別是,近年來,我國消費品質量惡性事件接連不斷,給人民生命和財產帶來了嚴重的影響,如“移動電源爆炸”“毒跑道”“三星手機爆炸”“土坑酸菜”等事件。事件一旦觸發,通過網絡將事件不斷發酵,其相關信息量龐大,政府對企業、消費者等利益代表的信息難互通、對新聞媒體等第三方利益代表的信息難確認,使得政府部門難以高效地掌握、處理突發事件。
因此,本文以消費品質量信息為研究對象,通過網頁爬蟲技術和提供數據接口等手段[1].收集標準、計量、認證認可、檢驗檢測等質量基礎信息,以及質量監督檢查、質量比對等產品質量信息,對不同形式、不同來源等消費品質量信息梳理、整合、分析、評估、展示,構建跨部門、跨行業的消費品質量信息大數據公共服務平臺[2-3]。
2 框架設計
消費品質量信息大數據公共服務平臺在充分調研當前主流解決方案基礎上,考慮業務的發展和變化,提出了混合式服務平臺的總體設計框架,將平臺分為基礎數據子平臺、數據分析子平臺和公共服務子平臺3個部分,同時配以運營規范體系和安全保障系統,滿足平臺的建設要求。整體框架設計如圖1所示。
基礎數據子平臺是平臺建設的基礎,它將來自各方的數據整合起來,形成源數據,為平臺提供數據支撐。通過基礎數據子平臺建設實現了數據資源的共享、加工,消除了信息孤島。同時實現了質檢、計量、特檢、認證認可、執法檢查等所有數據的統一管理、統一存儲、同步分發。這樣不僅提高應用系統的可用性,更大大提高消費品監管工作效率。
數據分析子平臺是平臺建設的核心,通過對用戶需求的分析,創建了各種消費品質量數據的分析工具和模型,同時對網絡爬蟲和各方平臺提供的數據進行預處理、統計分析和數據挖掘等操作,關注各種數據的特征以及相互間的關聯關系,實現對基礎數據的分析利用。
公共服務子平臺是平臺建設的目的,通過對政府、企業、行業、消費者和第三方的溝通對接,了解客戶的痛點和需求,為他們設計出真正需要的功能模塊,提供全方位、多角度、立體化的質量信息。
3 技術路線
消費品質量信息大數據公共服務平臺采用Django開發框架,該框架是用Pylhon開發的一個免費開源的Weh框架,提供了許多網站后臺開發經常用到的模塊,使開發者能夠專注于業務部分。Django是Python社區應用最廣泛的Weh開發框架,許多全球頂尖互聯網產品采用Django開發,比如Pinterest,Instagram,Disqus等。它白帶一個面向對象的、反映數據模型與關系型數據庫間的映射關系的映射器,開發者無須學習SQL語言即可操作數據庫,同時內置了一個后臺數據管理系統,經簡單配置后,再編寫少量代碼即可使用完整的后臺管理功能。因此Django不僅易于學習、開發效率高,而且有成熟的超大規模商業應用先例。
平臺采用MTV設計模式,用戶通過瀏覽器對服務器發起request請求,服務器接收請求后,通過View的業務邏輯層進行分析,同時向Model層和Template層發送指令:Model層與數據庫進行交互,將數據返回給View層;Templace層接收到指令后,調用相應的模板,并返回給View層:View層接收到模板與數據后,首先對模板進行渲染(即將相應的數據賦值給模板),然后組織成響應格式返回給瀏覽器,瀏覽器進行解析后并最終呈現給用戶。這種設計模式降低了各組件之間的耦合度,實現了視圖、模板與模型的分離。每個由Django驅動的Weh應用都有著明確的目的,可獨立更改而不影響到其他的部分。這樣前端的變化對模型層影響很小,同時數據庫也很難影響前端,有效提高平臺的可擴展性和復用性,節省了大量開發時間和開發成本。消息響應過程如圖2所示。
平臺采用Oracle數據庫作為質量大數據底層數據支撐。Oracle能夠確保數據完整性、安全性,引入了共享soL和多線索服務器體系結構。這減少了資源占用,使之在低檔軟硬件平臺上用較少的資源就可以支持更多的用戶,而在高檔平臺上可以支持成百上千個用戶。提供了基于角色( ROLE)分工的安全保密管理。在數據庫管理功能、完整性檢查、安全性、一致性方面都有良好的表現。支持大量多媒體數據,如二進制圖形、聲音、動畫以及多維數據結構等。提供了與第三代高級語言的接口軟件PRO*系列,能在C,C++等主語言中嵌入soL語句及過程化(PUSQL)語句,對數據庫中的數據進行操縱??梢钥焖匍_發生成基于客戶端PC平臺的應用程序,并具有良好的移植性。提供了新的分布式數據庫能力??赏ㄟ^網絡較方便地讀寫遠端數據庫里的數據,并有對稱復制的技術。同時提供gui和命令行,在Windows和UNIX下操作相同,如果Windows不能滿足需要,用戶可以把數據庫移到UNIX中。
4 具體實現
消費品是為滿足社會成員生活需要而銷售的產品,以消費品的質量信息為研究對象,以自然語言處理、深度學習等為理論基礎,綜合運用領域本體、系統仿真與建模等方法,開展消費品質量信息融合與集成方法、數據分析與挖掘技術、知識服務技術等內容的研究。在此基礎上,構建面向管理決策的消費品質量信息大數據公共服務平臺,并進行應用研究。
消費品質量信息數據融合是最大程度發揮數據價值的一種手段,它不同于傳統的數據集成或知識庫技術,需要大跨度、深層次和綜合性的研究方法[4-5].需要從大數據的概念特征、一般處理流程、關鍵技術3個方面進行研究[6]。主要內容包含:(1)消費品質量多源異構數據融合和集成技術研究。基于本體對齊的消費品信息實體匹配方法研究,研究消費品質量信息的模式對齊方法,利用屬性名稱、類型、值的相似性以及屬性之間的鄰接關系尋找源模式與中介模式的對應關系,解決數據模式元素之間的一致性問題。(2)消費品質量信息分析與挖掘技術研究[7]。針對消費品質量信息的特征,結合傳統數據分析與挖掘技術,以及大數據分析處理技術,開展消費品質量信息分析與挖掘技術研究。(3)消費品安全危害源識別方法與技術體系研究?;谙M品安全危害源多元化采集分析技術,提出消費品安全危害源多尺度分類融合方法;分析消費品風險源多危害耦合機理,提出消費品安全危害源識別模型及其實現技術。(4)消費品安全風險分析與評估方法體系研究。面向消費品風險事件的確定性與隨機性規律,提出消費品風險評估模型與技術方法。分析兒童用品、生活家電等典型消費品特征,研究典型消費品風險評估通用指標與特定指標的分類分級技術與評估方法,建立消費品風險評估復雜指標體系。研究消費品風險評估模型的應用條件敏感性特征,研究消費品風險評估模型的多群組適用性。(5)面向風險評估的數據集成和分析方法研究[8]。包括消費品風險評估信息抽取方法研究、消費品風險評估數據集成技術研究、消費品風險信息分析技術研究、消費品風險評估知識服務技術研究。
以知識發現、機器學習等領域的現有的理論和方法為基礎,以消費品質量信息為研究對象,綜合運用管理科學、計算機科學、統計學和概率論等多學科的研究方法,完成消費品質量信息大數據公共服務平臺技術支撐工作。具體如下:
(1)定性分析法。針對多種傷害耦合情景下消費品風險識別結果互斥性科學問題,利用文獻法與專家訪談座談法結合等方法,提取消費品風險評估典型指標及其表征方法,并開展“未遂事件與已有案例等客觀數據、座談訪談等主觀數據”“產品檢測報告等生產方數據、問卷調查等消費者數據、網絡輿情等第三方數據”等多角度數據特征分析,進而利用邏輯分析等方法開展數據采集與融合等研究。
(2)情景模擬法。針對社會因素與技術因素疊加情景下消費品風險分析復雜性問題,利用頭腦風暴、德爾菲專家調查等方法開展多視角分析,抽象典型消費品使用場景的主體行為特征、消費品產品特征、消費品使用環境特征,利用魚骨刺圖等分析T具開展典型傷害場景情景推演,關注部件失效、異常交互、環境干擾等因素,進而開展主體、產品與環境間的復雜交互情景模擬原型構建等方面的研究。
(3)仿真建模法。針對多源數據融合重構情景下消費品風險評估動態性問題,基于典型消費品的傷害場景要素邏輯關系建立研究框架,依據歷史數據與專家調查等方式確定傷害場景的要素間關系概率,建立不同主體間的交互規則,構建貝葉斯復雜網絡并利用開展多主體演化關系分析推理,明確消費品典型傷害演化機理與演化的影響因素,進而開展基于多主體的動態風險評估模型的仿真建模研究。
(4)消費品質量信息融合方法研究。首先,為應對消費品質量信息新特征,針對基于模式對齊的融合方法,分別研究了基于演化模型、基于概率模型和基于深度匹配的模式對齊融合方法。其次,基于啟發式規則和信息挖掘、非監督學習等方法,針對所有可能的關聯鏈分析,研究檢測實體的語義關聯:采用近似函數依賴挖掘技術,結合多源異構數據特征,提出新的相似性匹配算法;采用序列模式挖掘和匹配技術,基于行為和傳播模式,準確識別實體。最后,采用識別函數進行實體或屬性級別的沖突解決,重點研究在實體級別的真假甄別和演化問題。
(5)基于深度學習的跨組織跨行業消費品質量信息分析挖掘技術研究。首先,基于語義分析與跨組織間數據的遷移學習,結合深度學習與強化學習模型,從環境狀態、決策行動,以及狀態之間的轉換規則等維度出發,探索語義分析與決策行為之間的演化與預測關系模型,進一步運用語義分析的結果支持決策行為。其次,融合沉浸式環屏可視化技術、人機交互技術,研究大規模、高維數據的可視化技術,使得大數據分析的結果能夠最大限度地服務于質量安全監管領域。
(6)基于多主體決策的多源異構消費品質量信息知識服務研究。首先,通過分析消費品質量信息特征,基于Biterm主題模型的文本建模:其次,研究基于特征詞提取的知識導航,提H{多視角下的基于領域本體和成長單元結構算法( GCS)的聚類方法。最后,根據協同隱性相關反饋信息,研究基于深度Aulo -encoder神經網絡的多維需求維度識別算法和基于堆疊去噪自動編碼器的知識推薦算法。
5 結語
通過消費品質量信息大數據公共服務平臺的構建,將有助于政府、行業、第三方社會組織和消費者更好地了解消費品質量相關信息,提高應對風險和突發狀況的能力:將為消費品相關生產經營企業提供數據查詢服務,保障生產企業消費品質量,建立公平、優質、優價的市場環境,進一步激發市場活力和消費潛力;將定期提供消費品質量信息發布,減少市場信息不對稱,指導消費者理性消費,警示消費者產品質量安全信息;將為第三方社會組織提供專業化、個性化和多樣化的質量信息服務;將為政府部門提供風險評估、輿情簡報等服務,輔助政府及時應對突發事件和熱點問題。
參考文獻
[1]黃雨辰,童彤.基于Scrapy爬蟲框架下電商數據分析[J].安陽師范學院學報.2021(5):132-136.
[2]韓文立,張莉,程鵬飛.地理信息質檢數據庫建設和應用的技術探討[J].測繪通報,2015(3):94-96.
[3]鄧智文,何鑫星,李沖,等.信息化質檢系統數據庫設計[J].測繪科學.2017(9):169-174.
[4] BALAZS J A,VELAQUEZ J D.()pinion Mining andInformation Fusion:A survey[J].Information Fusion,2016(27):95-110.
[5] BELL0 0.G,JUNG J.J,CAMACHO D.Social bigdata: recent achievements and new challenges [J].Information Fusion, 2016( 28): 45 -59.
[6]劉智慧,張泉靈.大數據技術研究綜述[J].浙江大學學報(工學版),2014(6):957-972.
[7]KAI S T.RICHARD S,CHRISTOPHER D.Improved semantic representations from tree -structuredlong shofi - term memory networks[J]. ComputerScience ,2015(3):1212-1222.
[8]譚紅葉,要一璐,梁穎紅.基于知識脈絡的科技論文推薦[J].山東大學學報(理學版),2016(5):94-101.
(編輯傅金睿)