劉然 程曼
(天津電子信息職業技術學院,天津 300000)
食品安全問題向來是困擾社會大眾的民生問題之一,由于學生正處于身體發育的關鍵時期,一旦發生校園食品安全事件對學生的身心健康造成的影響極為嚴重。開展校園食品安全工作成為社會各界的重中之重。例如,2021年5月27日,國務院食品安全辦、市場監管局和教育部就校園食品安全問題聯合約談安徽省和河南省安全辦,就維護好師生飲食安全需要、提高安全風險防范意識、落實管理責任和堅持不斷創新做出指示,強調要不斷加強校園食品安全工作。
校園食品安全作為一個研究熱點方向,學者的研究角度多為單個食品安全事件或者一所院校的食堂安全管理,目前還缺乏對近年來已發生的校園食品安全事件進行全面系統的分析。近年來,數據挖掘技術逐漸成熟,開始應用于各種領域之中,這也為校園食品安全事件分析智能化提供了技術支持,為此本文運用爬蟲技術從互聯網平臺采集關于校園食品安全事件報道,運用Apriori算法對報道食物中毒事件的致病原因、食物源、表現癥狀和事件發生時間進行多個角度分析,為校園食品安全的高風險環節和校園食品安全監管工作提供重點方向參考。
為了采集校園食品安全事件報道,本文從中國新聞網根據關鍵詞“食物中毒”搜索結果爬取到7519篇新聞報道,然后從中篩選了427篇與校園食品安全關聯度較高的有效報道內容。按時間排序最早的事件發生時間為1999年9月,最近的事件發生時間為2021年6月。
對采集到的校園食品安全事件進行原因和表現癥狀分析。首先使用python的jieba分詞工具對其段落分詞得到詞序列,然后用詞向量技術把詞序列轉換成詞向量[1],得到每篇報道中與食物源和中毒表現癥狀相關度較高的關鍵詞。本文首先從搜索引擎中搜索關鍵詞“食物中毒癥狀”,根據搜索結果總結了32個通常的表現癥狀,同時設定了20個食物相關的詞匯作為檢索詞匯集。設定Ds和Df分別為癥狀和食物詞匯集,本文根據以下公式(1)和公式(2)篩選出一篇報道中表現癥狀。每篇報道x分詞處理由若干個詞組成,如x=(w1,w2,…,wi,…wn) ,其中n是當前報道分詞后的詞個數。

其中sim是詞向量相似度計算函數,將wi和c表示為詞向量,然后用余弦相似度計算兩個詞的相似分數。為了得到當前報道x中與表現癥狀相關的詞,本文對每個詞wi遍歷Ds詞匯集合,用max函數得到當前報道中與癥狀詞匯集最高的相似分數。為了得到報道文章中與食物相關的詞,本文也用同樣的策略,不同的是計算每個詞相似度的詞匯集合換成食物詞匯集合Df,同樣得到每個詞wi的食物詞匯相似度得分。

最后本文定義α1= 0.85和α2= 0.35作為閾值篩選出每篇報道的癥狀相關詞和食物相關詞,即每個詞的wi如果相似度大于α的被選定。所有采集到的報道文檔經過自動化提取致病源和表現癥狀,得到了致病食物源和表現癥狀的匹配數據,從而進一步對致病食物源和表現癥狀進行分析,表1展示了一篇報道文檔提取出的食品安全食物源和表現癥狀。

表1 食物源和表現癥狀關鍵詞提取示意
Apriori算法關聯規則基于如果一個項集是頻繁的,則其所有子集也一定是頻繁的,即頻繁1-項集越少,其頻繁k-項集越少的原理可以挖掘數據庫中有意義的關聯[2],為此本文使用Apriori算法抽取表現癥狀頻繁出現的數據集合,通過關聯規則挖掘中毒事件中同時出現的表現癥狀。
按年份對校園食品安全事件進行統計分析(圖1),可以看出平均每年大約有近20起校園食品安全事件的相關報道,說明校園食品安全風險依然嚴峻(注意2007年只有1起校園食品安全事件在中國新聞網被報道,推測可能因為新聞平臺沒有較完整地搜集到這一年的相關報道)。

圖1 校園食品安全事件個數統計
按照月份對收集到的食品安全事件進行分析(圖2),可以看出4月、6月、9月、11月是校園食品安全事件報道最多的4個月,幾乎占據了全部事件數的一半以上。1月、2月、7月、8月是事件個數最少的4個月,推測可能是因為正值寒暑假期,校園食品安全風險較低。

圖2 食品安全事件個數月份統計
按照省份對收集的食品安全事件進行分析(圖3),可以看出臺灣、廣東、河南和湖北是校園食品安全事件新聞報道較多的地區和省份。全國范圍內整體呈現事件個數南方比北方多,但是大部分省的事件報道個數在10件以上,說明校園食品安全形勢依然嚴峻,仍需要嚴格監管保障在校師生飲食安全。

圖3 各省事件個數統計
本文統計了食品安全表現癥狀的分布,統計結果如圖4所示。可以看出校園食品安全事件的表現癥狀詞匯中“嘔吐”“腹瀉”“腹痛”“惡心”等詞匯出現頻次較高,表示大部分的校園食品安全事件都伴隨這些表現癥狀。

圖4 表現癥狀詞匯分布
癥狀的關聯規則挖掘可以總結出在校園食品安全事件中的主要致病表現,對校園食品安全監管工作有一定的指導意義。表2~4展示了Apriori算法的運行結果,最小支持度設定為0.04。可以看出“嘔吐,腹瀉”這兩個表現癥狀詞匯的項集支持度最高,即在校園食品安全事件中多人的嘔吐和腹瀉癥狀最多,提示當學校學生出現嘔吐、腹瀉癥狀時應該及時考慮食物中毒因素。

表2 癥狀變現關聯規則(項集-頻繁2)挖掘結果

表3 癥狀變現關聯規則(項集-頻繁3)挖掘結果

表4 癥狀變現關聯規則(項集-頻繁4)挖掘結果
為了進一步獲取校園食品安全事件的食物源以及食物源與表現癥狀之間的關系,文本通過三元組的形式分析致病食物源、有毒物質和表現癥狀三者的關聯(圖5)。在圖5a中展示了全部節點關系,節點大小與其在報道事件中的出現頻次相關,出現頻次多的節點被設置為較大的圖標,可以觀察到嘔吐、腹瀉等為出現頻率最高的關鍵詞。從關系圖可以發現校園食品安全風險較高的食物,比如四季豆和豆漿未煮熟有可能會導致腹瀉、頭暈和嘔吐,涼牛奶空腹運動后食用有可能會腹痛、發燒、頭暈;亞硝酸鹽可能來自不合格的豆瓣醬或者誤用,其毒癥狀有嘔吐和口干等。在圖5(b)中顯示了與嘔吐節點有關系結果,可以發現與嘔吐表現癥狀相關的節點中主要的致病原因是細菌和食物變質,此外諾如病毒也是導致校園群體性嘔吐的原因之一。

圖5 致病原因和表現癥狀關系圖
本文基于數據挖掘技術采集了近20年的校園食品安全事件報道,分析了校園食品安全事件報道個數在不同的月份和省份上的分布,得出校園食品安全事件發生較多的月份和省份;使用詞向量技術提取每篇報道中的致病食物源和表現癥狀等關鍵詞,用Apriori算法對事件中的表現癥狀進行關聯規則分析,挖掘不同表現癥狀的聯系,得出嘔吐、腹瀉兩個表現癥狀詞匯的項集支持度最高,當校園出現嘔吐、腹瀉的癥狀時要第一時間考慮校園食物中毒發生的可能性;運用三元組和關系圖譜挖掘致病食物源和表現癥狀的關系,得到了不同食物源食物中毒發生后的表現癥狀,為校園食品中毒事件及時找出中毒食物源提供了依據。同時本文實現了將數據挖掘技術應用于長時間跨度、數量較多中毒事件的分析可能性,具有一定準確性和實用性,為校園食品安全監管工作提供了一定的參考價值。