陳世奇
(重慶市食品藥品檢驗檢測研究院,重慶 401121)
大數據的研究現狀及對食品安全監管帶來的機遇與挑戰
陳世奇
(重慶市食品藥品檢驗檢測研究院,重慶 401121)
闡述了大數據技術的概念和特點,結合我國食品藥品檢驗機構數據資源的獲取、分析、利用現狀,提出了大數據時代食品藥品檢測機構面臨的機遇和挑戰,食品藥品監管部門需要加快大數據信息化平臺建設,促進監管檢測信息共享;以數據分析應用為重心,為決策層提供數據支撐,形成智慧監管。
大數據;數據挖掘;食品藥品監管
當今世界正處在一個數據爆炸的時代。物聯網、云計算等新技術快速發展,以及全球定位、移動互聯、物聯網、電子商務、安全監控、社交網絡、金融電信等隨處可見,由此而產生的數據呈現井噴式暴漲,給社會各界乃至每個人的工作和生活帶來了巨大的變化,食品行業處在這一浪潮中面臨巨大的機遇和挑戰。黨的十八屆三中全會通過的《中共中央關于全面深化改革若干重大問題的決定》中明確指出:完善統一權威的食品藥品安全監管機構,建立最嚴格的覆蓋全過程的監管制度,建立食品原產地可追溯制度和質量標識制度,保障食品藥品安全。"建立最嚴格的覆蓋全過程的監管制度"將食品藥品安全監管納入了一個全新的定位,是食品藥品監管工作定位的重大飛躍,充分說明食品安全監管工作不僅是保障和改善民生的重要內容,而且已處在維護公共安全、促進社會和諧的關鍵點上。監管體系是國家治理體系的重要組成部分,食品安全監管更是公共安全治理的重要內容。這就要求監管工作跳出固有的模式,加快信息化建設步伐,打造現代化監管體系,讓“智能監管”成為監管新常態,食品行業“大數據”、“云計算”的時代已經到來。
1.1 大數據的定義及其特點
大數據是指經過長期收集所得的資料, 因規模巨大而復雜, 無法通過目前主流的數據庫管理工具和數據處理軟件來處理[1]。大數據與過去的海量數據的區別不僅僅在于數據量更大, 更在于數據類型繁多[2],不單純包括“數字”,還包括文本、圖片、音頻、視頻等多種格式, 涵蓋內容十分豐富[3]。
1.2 大數據的價值鏈
大數據的價值鏈是由數據、技能和思維構成。其中, 數據指數據化; 技能指對數據的分析處理技術, 而大數據思維則與目前的互聯網思維有著本質區別: 前者指的是一種意識, 挖掘數據的新價值的獨特想法,后者的本質是如何找到針對不同事物的有效分析模型[4],是大數據的核心價值所在。
2.1 國外研究現狀分析
國外關于數據質量的研究開展較早,已經從不同角度進行了深入研究:D.Boyd 等分別從文化、技術、學術現象、數據分析等方面說明大數據所帶來的影響和意義; Y.Demchenko 等描述了大數據的定義及其“5V”特征,指出了不同科研團體對大數據管理、獲取控制和安全的需求情況,并對大數據中非結構化因素等問題提出了建議; J.M.Tien 概述了大數據時代的數據采集、數據存取、數據分析和數據應用的基本理論及其改進方法[5]。I.Taleb 等提出在數據預處理階段解決大數據質量問題,包括子過程如清洗、整合、過濾和歸一化等,并提出了一種結合流程的大數據質量模型來支持數據質量的選擇和適應;B.Saha 指出當前大型數據庫和網絡中存在大量的低質量數據,會對數據分析結果產生嚴重影響;T.Lukoianova 等認為大數據的來源、處理技術、數據收集和科學發現方法的不同,導致大數據存在偏差、模棱兩可與不準確等質量問題,詳細闡述了“大數據準確性”的概念,并分別從客觀性和主觀性、誠實與欺騙、信任和難以置信三個主要維度探索大數據的“準確性”[6]。2014 年聯合國統計司和聯合國歐洲經濟委員會對78 個國家統計局和 28 個國際組織的大數據項目調查顯示,超過 2/3 的國家尚未定義大數據質量評估框架,許多國家正積極推動大數據質量框架建設[7];聯合國歐洲經濟委員會提出了大數據質量評估的 11 個維度,分別是機構/商業環境、隱私和安全、復雜性、完整性、可用性、時間因素、準確性、連續性、真實性、可獲得性和清晰、相關性;歐盟BLUE-ETS 項目已經開始將大數據的基本框架用于評估二手資料的輸入質量;聯合國亞太經社會(ESCAP)雖尚未提出大數據質量評估框架,但會對數據的相關性、可獲得性、代表性和持續性等數據質量的重要指標進行評估。
2.2 國內研究現狀分析
相對于國外而言,國內的大數據研究和應用尚處于起步階段,國內文獻的研究成果主要集中于大數據述評研究和大數據技術研究,雖然大數據質量相關研究文獻較少,但大數據質量問題已經得到了學者們的廣泛關注。陶雪嬌、方巍等人較詳細的介紹了大數據的含義、基本特征、大數據興起的時代背景[8];涂新莉等人分析了大數據的研究及應用現狀,并對國內外大數據處理工具及技術進行了相應的論述;王乾、周世佳等人闡述了大數據思維的重要意義[9];孟小峰、王珊等對大數據帶來的機遇和挑戰進行了相應分析;馮登國、王璐、劉雅輝、戚建國等人對大數據時代的信息安全和用戶隱私問題進行了探討[10]。程學旗等人總結了深度學習、知識計算、社會計算與可視化等技術在大數據分析理解過程中的關鍵作用,梳理了大數據處理和分析過程中面臨的數據、計算和系統等多重復雜性挑戰,并提出了相應的對策;楊單、趙夢龍、蘇毅娟、張順龍等人提出了一系列關于大數據聚類、分類、數據分析的算法[11];費仕憶、于富東、程耀東等人探討了大數據平臺構建中面臨的數據采集清洗、存儲、處理、傳輸、共享與安全等關鍵技術,提出了大數據平臺的系統架構并開展了實踐研究[12]。宗威等人從流程、技術和管理的視角分別討論了大數據時代下企業數據質量的挑戰、重要性及應對措施[13];李建中等人指出大數據質量問題產生的原因在于大數據具有規模性大、高速性和多樣性等特點;王宏志總結了大數據質量管理的問題與挑戰,認為大數據質量管理的挑戰主要有計算困難、錯誤混雜和缺少知識三個方面,并相應地提出了解決方案;黃沈濱等人則從技術的角度探討了大數據的數據清洗問題,基于 Hadoop 設計并實現了一個大數據云清洗系統,通過 Mapreduce 計算模型檢測并修復數據質量問題[14];蔡莉等人提出了大數據質量標準,包含可獲得性、可用性、可靠性、相關性、表達質量等 5 個維度,該維度進一步細化出 17 個質量特征和 32 個質量指標,并探討了大數據質量動態評估的流程。
3.1 數據來源社會化,應用廣泛化
大數據時代,隨著電子商務,即時通訊、搜索引擎和網絡交友等為主體的互聯網經濟飛速發展,物聯網、云計算、移動互聯、手機平板電腦、臺式終端以及遍布全球的各種傳感器,都成為數據的來源或者載體。數據采集不再局限于統計者人工有意識地主動采集,其來源被分散化、社會化、自動化。其數據覆蓋了數字、文本、聲音、圖片、視頻等多種信息類型;數據對象分布廣泛,可能來源于不同的主體或個體;即使來源于相同的主體或個體,但觀察的視角、維度、頻率也可能有所區別,結構異常復雜;數據量的增長快速。所以,數據采集是社會化的。另外,數據的應用也是社會化的。如此豐富龐大的數據為人類的社會生活創造出前所未有的可量化的維度,任何個體、組織都可以各取所需,進行不同程度不同方向的數據挖掘;大數據時代人們關注的重點已經由對精確性的追求讓位于混雜性與全面性,由因果關系的探索讓位于追求相關關系。大數據已經成為了許多新發明構想和新服務開發的源泉,正滲透到政府、科技、商業、經濟、醫療、教育、人文以及社會生活的各個領域,大數據的開發應用日益成為經濟價值的重要來源之一。
3.2 數據需求層次多元化
大數據時代,給了人們條件可以在廣泛的領域和深入的層次獲得和分析整個數據。政府層面,可應用大數據來提高應急處理及安全防御能力,改進社會管理和治安管理;企業層面,可以衍生出許多基于大數據分析的商業模式,幫助批零商及時掌握市場動態并快速做出反應,幫助生產商準確把握市場需求脈搏、提升產品設計、提高生產效率,幫助電商制定更加準確有效的營銷策略等;公眾層面,可以享用到更多個性化、人性化、多樣化的商業產品和公共服務。
3.3 數據分析方法智能化
大數據除了傳統的結構化數據外,還涵蓋所有格式的辦公文檔、文本、XML、HTML、各類報表、圖片和音頻、視頻等多種數據類型,數據的預測功能成為核心。分析完整過程中產生的不間斷海量數據,能夠總結發現相對穩定的規律。通過數據比對,去除偶然性和外界環境干擾帶來的噪點,通過數據累積,找出異常波動和結果之間的對應關系。而傳統的數據主要通過單個數據精確來反應當時狀態,且由于數據產生的時滯性,往往只能事后反映。大數據包含大量非結構性或半結構化的數據必須實用智能化方法才能進行有效的分析,大數據中包含大量傳統分析方法難以處理的非機構化的數據,處理這些數據就必須使用大數據時代先進的分析方法。
分析技術指的是尋找被分析者之間的關系及其隱藏的內容來獲取有用的信息,我國對大數據的分析應用目前還處于起步階段,多種新技術日新月異,主要有以下幾個方面:
(1)可視化分析 數據的可視化分析對普通分析或者深入分析都是最基本的功能。數據圖像化可以讓抽象數據具體化,給用戶直觀的感受;
(2)數據挖掘算法 可視化分析是將機器語言翻譯給人看,而數據挖掘就是機器的初始語言。分割、集群、孤立點分析還有各種各樣五花八門的算法讓我們精煉數據,挖掘價值,這些算法符合大數據時代的要求,同時還提高數據處理的速度;
(3)語義引擎 大數據時代非結構化、半結構化數據越來越多,我們需要一套工具系統去分析,提煉數據,而語義引擎恰好滿足這個條件;
(4)預測分析能力 數據挖掘算法是讓分析師對數據承載信息更快更好地消化理解,進而提升自身判斷能力,而預測性分析可以讓分析師根據前兩種分析的結果做出一些前瞻性判斷;
(5)數據質量和數據管理 數據質量與管理是管理的最佳實踐,透過預先設定好的流程和機器對數據進行處理確保獲得一個可靠的結果。
食品藥品監管部門需要以創新理念指導頂層設計,以總體架構方法加強整合;加快信息化標準規范建設,促進監管檢測信息共享;以數據分析應用為重心,為決策層提供數據支撐,形成善用"大數據"成就食品藥品智慧監管的新局面。根據國家食品藥品監督管理總局要求,食品藥品檢驗系統將建立全國食品藥品檢驗檢測信息化體系,實現自動化、流程化開展業務工作,并實現各級食品藥品檢驗機構間的互聯互通的信息共享,完成多級系統間的數據交換工作,同時建設與應用系統相配套的基礎運行環境、數據資源、應用支撐平臺、標準規范體系等。這一切都推動著食品藥品檢驗業務服務和業務統計信息及監管工作從手工報告向網絡電子報告,從統計報表向數據服務平臺方式轉變,食品藥品檢驗信息平臺和業務系統也因此逐步建立完善,并將積累豐富的統計信息大數據資源。同時,隨著大數據技術的不斷應用,食品藥品大數據將為我們提供了一種新的看待數據的方法,不再完全依賴于隨機抽樣,不再熱衷于追求精確度,不再熱衷于尋找因果關系,通過大數據分析,挖掘出小數據無法提取的有價值信息,服務于經濟社會發展,大數據必將對食品藥品檢驗領域帶來重大影響。
[1] Wikipedia. big data[EB/OL]. http://en.wikipedia.org/wiki/Big_data,2014-05-16.
[2] Grobelnik M. Big data tutorial [EB/OL].[2012-10-22].Http://viedeolectures.net/eswc2012-grobelnik-big-data/.
[3] 陳冠如. 善用“大數據”成就智慧監管[N]. 中國醫藥報, 2014-04-08(8).
[4] 維克托·邁爾-舍爾維恩,肯尼斯·庫克耶. 大數據時代[M]. 浙江: 浙江人民出版社, 2012.
[5] Viktor Mayer-Schonberger, Kenneth Cukier. Big Data: A Revolution That Will Transform How We Live, Work, and Think[M]. New York:Eamon Dolan / Houghton Mifflin Harcourt, 2013.
[6] Decandia G, Hastorun D, Jampani M.Dynamo: amazon's highly available key-value store[J].Acm Sigops Operating Systems Review. 2007 , 41 (6) :205-220.
[7] Fauconnier G,Turner M.The way we think : conceptual blending and the mind's hidden complexities[J].Wired, 2003 (2) :254.
[8] 陶雪嬌,胡曉峰,劉 洋. 大數據研究綜述[J]. 系統仿真學報,2013(s1): 142-146.
[9] 周世佳. 大數據思維初探:提出、特征及意義[J]. 中共山西省直機關黨校學報,2014(5):10-12.
[10] 馮登國,張 敏,李 昊. 大數據安全與隱私保護[J]. 計算機學報,2014(01):246-258.
[11] 楊 單. 基于圖像差分特征的彩色圖像差分預測與信息提取算法研究[J]. 計算機科學,2015(01):308-311,316.
[12] 費仕憶. Hadoop 大數據平臺與傳統數據倉庫的協作研究[D].上海:東華大學,2014.
[13] 宗 威,吳 鋒.大數據時代下數據質量的挑戰[J]. 西安交通大學學報(社會科學版),2013(05):38-43.
[14] 金 連,王宏志,黃沈濱,等. 基于 Map-Reduce 的大數據缺失值填充算法[J]. 計算機研究與發展,2013(s1):312-321.
TheResearchStatusofLargeDataandtheOpportunitiesandChallengesforFoodSafetySupervision
ChenShiqi
(Chongqing Institute for Food and Drug Control,Chongqing 401121,China)
This paper expounds the concept and characteristics of large data technology. The opportunities and challenges of food and drug testing organizations in large data age are proposed based on the acquisition, analysis and utilization of data resources of food and drug inspection institutions in China. Moreover, the food and drug supervision departments need to accelerate the construction of the big data information platform and promote the supervision and testing of information sharing; the intelligent supervision is formed with data analysis applications as the focus and being data supportfor the decision-making level.
large data;data mining;food and drug regulation
2017-07-13
陳世奇(1968—),重慶人,正高級工程師,主要從事食品化工檢驗、技術管理。
F426.82;F203
A
1008-021X(2017)18-0136-03
(本文文獻格式陳世奇.大數據的研究現狀及對食品安全監管帶來的機遇與挑戰[J].山東化工,2017,46(18):136-138.)