宗國浩,葉遠青,馮偉華,王 銳,毛鋮挺,孫世豪,崔 凱,葉 勛,張天兵*,馬 驥*
1.中國煙草總公司鄭州煙草研究院,鄭州高新技術產業開發區楓楊街2 號 450001
2.江蘇中煙工業有限責任公司技術中心,南京市興隆大街29 號 210019
感官品質與香韻風格是引導卷煙產品設計的核心要素。為了改善卷煙感官品質、突出煙草風格特征,卷煙企業普遍采用向煙草制品添加香精香料的方式進行卷煙增香。隨著科技發展與進步,煙用調香技術由傳統的依賴人工經驗逐漸向以數據作為支撐的數字化調香設計轉變[1-2]。因此,國內外數據資源(以可公開獲取的化學品數據庫為主)對于調香工作發揮了重要作用。美國國立醫學圖書館(National Library of Medicine,NLM)構建了一系列以生物醫學、化學、藥學為主要方向的數據庫。其中,危險物質數據庫(Hazardous Substances Data Bank,HSDB)、實驗室化學品安全報告(Laboratory Chemical Safety Summary,LCSS)、化合物毒性數據庫(ToxNet)對評估香原料的安全性具有參考價值[3-4]。美國食品香料與萃取物制造者協會(Flavor and Extract Manufacturers Association,FEMA)構建了Flavor Ingredient Library數據庫與食品香料安全性數據集GRAS(Generally Recognized As Safe)[5]。美國國立衛生研究院(National Institutes of Health,NIH)構建的PubChem數據庫提供了較為全面的有機小分子生物活性數據[6]。但可公開獲取的數據資源以化學品的基本信息、理化性質、毒理毒性為主,對感官特性、作用閾值、香氣成分等與調香密切相關的信息則收錄較少,數據資源分散且難以獲取天然香原料相關信息[7-8]。由于煙草制品涉及高溫蒸餾環境下的香氣釋放過程,調香過程中需要兼顧香原料在燃燒后的香氣表現[9-10]。而現有資源難以對調香及相關技術研究提供數據支持,因缺乏面向調香應用的綜合性香原料數據集以及適用于煙草調香的數據集,導致調香人員獲取、查找和利用數據困難。為此,通過對香原料數據資源進行調研,對數據特性進行了梳理,并從多個數據來源開展數據采集,構建了基于多源異構的煙用香原料數據集,建立了煙草行業單體香原料中心庫平臺,以期為煙草行業數字化調香技術發展提供支撐。
對常用香原料數據庫進行調研,并將這些數據庫的主要數據種類進行匯總對比,結果見表1。在數據特性方面,分子結構、理化性質、感官描述等信息在多個數據庫均有收錄。PubChem、Sigma-Aldrich等化學類數據庫較為全面地收錄了化學物質的理化性質、物質毒性等信息;FooDB、FlavorDB 等食品類數據庫更加關注食品中的風味成分及含量;IFRA、Flavor Ingredient Library 等由行業協會構建的數據庫偏向于香精香料的安全評估與安全使用。可見,對于調香具有參考價值的數據資源眾多但較為分散,多數數據庫側重于某一領域的相關信息,而綜合性數據庫又以化學信息為主,缺乏以調香應用為主的綜合性香原料數據庫。

表1 國內外相關香原料數據庫信息匯總Tab.1 Summary of domestic and international databases of flavor materials
為全面獲取對煙用調香有價值的高質量數據,一方面從公開數據資源進行數據采集,另一方面通過實物樣品獲取檢測數據。對采集到的數據進行條目標準化、結構融合、數據標簽標注等數據處理,最終形成結構化的多源異構煙用香原料數據集。數據集構建流程見圖1。

圖1 煙用香原料數據集構建流程Fig.1 Creation process of tobacco flavor material database
2.1.1 公開數據采集
電子圖書與期刊文獻中包含大量香精香料信息,其格式以PDF 文件為主。采用ABBYY 的FineReader 12 文字識別軟件對PDF 文件進行OCR識別,從中提取與調香相關文本信息及表格數據。紙質圖書則先通過掃描生成電子圖像,再對圖像進行去噪、提高對比度、角度校正等處理,最終通過OCR識別提取其中數據。部分網站提供了數據接口及下載鏈接,可采用直接獲取與網頁爬蟲相結合的方式進行采集,并將原始數據轉化為半結構化數據,以便后續數據處理。
2.1.2 樣品檢測數據采集
煙用香原料感官評價分為嗅香香韻評價和卷煙加香作用評價。為便于在煙草行業實現數據共享與利用,評價指標與評價方法分別參考《中式卷煙感官評價方法》[20]和孔波等[1]提出的數字化調香方法。嗅香香韻評價采用18個維度的評價指標(樹脂香、干草香、清香、果香、辛香、木香、青滋香、花香、藥草香、豆香、可可香、奶香、膏香、烘焙香、焦香、酒香、甜香、酸香),量化方式為0~10 分,記分單位為1 分。卷煙加香作用評價指標分為煙氣品質、煙氣口感、煙氣香韻3類。其中,煙氣香韻的量化方式為0~10分,計分單位為1分;煙氣品質與煙氣口感存在正向改善作用的記為正分,存在負向作用的記為負分,并分別劃分為無、弱、中和強4檔,量化方式為0~3分,計分單位為1分。評價小組由7位具有省級及以上感官評吸資格的評委組成,并在實驗開展之前對評價小組進行培訓,通過計算平均值確定香原料樣品各個香韻的嗅香評價分值。
主要揮發性成分的檢測范圍包含合成香原料樣品和天然香原料樣品。采用無水乙醇直接稀釋、分散進樣的方法提取香原料中的有效成分和單體物質,通過GC/MS對香原料的揮發性成分進行定性分析,篩選峰面積大、信噪比高的成分作為香原料的主要揮發性成分。天然香原料的主要非揮發性成分檢測內容包括:水分,溶劑含量(乙醇、丙二醇、丙三醇),水溶性酸(乳酸、乙酸根、蘋果酸根、富馬酸、檸檬酸根),還原糖/總糖(還原糖、總糖),水溶性糖(阿拉伯糖醇、果糖、山梨糖醇、葡萄糖、肌糖醇、蔗糖、麥芽糖、麥芽三糖)。采用卡爾菲休法[21]檢測水分,采用GC/FID方法[22]檢測有機溶劑,采用離子色譜法[23]檢測有機酸,采用連續流動和液相色譜相結合的方法[24]檢測糖。
2.2.1 數據條目標準化
由于不同數據來源對香原料的命名沒有統一標準,導致原始數據中香原料名稱產生混淆。此外,香原料的細分種類眾多,合成香原料存在順反異構、旋光異構等立體異構體,天然香原料在提取工藝、溶劑種類、原料品種、原料產地等方面存在差異,均可能導致香原料的感官特性完全不同。因此,需要確定每條數據所描述的香原料,并對不同來源中同一種香原料數據進行整合。為保證數據整合的準確性,建立了香原料條目標準(表2),依據標準逐條確認原始數據所歸屬的香原料條目。首先,根據CAS(Chemical Abstracts Service)號、FEMA號、名稱等身份信息制定匹配規則,按規則對不同來源的香原料數據進行模糊匹配和聚類,同一類簇視為一個待篩選的二級條目。其次,通過人工篩選過濾出因數據殘缺而指代不明的數據,挑選出使用頻率高且描述準確的名稱作為二級條目名稱,并將滿足標準的數據列入二級條目。最后,根據香原料條目標準,將具有近似關系的二級條目劃分在一級條目下,并確定一級條目名稱。

表2 香原料條目標準Tab.2 Entry standards for flavor materials
2.2.2 數據結構融合
不同來源的香原料數據包含文本、表格、數值、數組等多種數據結構,同一種數據屬性也可能存在多種數據結構。在香原料數據中,結構化數據結構固定、關系明確,包括化合物基本信息、嗅香評價數據、成分分析數據等;非結構化數據包括XML 格式數據、化合物Mol 文件、色譜數據等。其中,通過圖書和期刊采集的數據多為XML格式,需要對半結構化、表格、長文本等數據進行結構化處理。因此,本研究中采取以下方法進行異構數據融合:①對于原始數據中數字形式的數據進行數值化處理,并對計量單位進行統一,如作用閾值、理化指標等屬性的測量值以數值存儲,計量單位以文本存儲;②對于長文本形式的香原料描述,在Python 3.7編程環境下采用NLTK第三方庫對文本進行分段和分句,從分割后的文本中提取感官描述、制備方法、用途用量等信息,并錄入相應數據表中;③對于數據內容相同而來源不同的表格數據,采用外連接的方式進行表格合并匯總,以提高數據的兼容性,如不同數據來源的香原料用途用量表等。
2.2.3 數據標簽標注
數據標簽是指通過數據加工得到的用于注解和分類的標注數據。通過數據標簽能夠實現數據快速分類,補充數據的支撐信息,便于對數據進行標簽檢索并實現檢索結果二次篩選,提高數據辨識度。從數據來源、數據條件、數據內容3方面構建標簽,并以key-value方式進行存儲,主要包括:①對數據來源進行標注,形成數據來源標簽;②對數據產生條件進行標注,如理化性質數據的實驗環境、實驗條件等,形成數據條件標簽;③通過數學計算、規則判定等方式對數據進行標注,形成數據內容標簽。以香原料樣品的嗅香香韻標簽(表3)為例,將嗅香指標單項分值處于該指標所有分值75%分位的香原料標記為“××香韻明顯”。

表3 嗅香香韻評價標簽Tab.3 Evaluation labels of olfactory aroma notes
依據常用的煙用香原料制定香原料清單,采集相關數據并對信息完備、描述準確的香原料數據進行篩選,根據來源保存至數據來源表。采用Python 3.7編程語言進行數據處理,通過條目標準化構建數據條目,并建立條目與數據來源之間的映射關系。將相同屬性的數據保存至同一數據模塊表中,對存在結構差異的數據進行結構轉換與數據融合。基于數據來源、數據條件、數據內容等信息對香原料數據進行標簽標注,最后對數據進行整合,建立數據表間的關聯映射,形成煙用香原料數據集。數據表映射關系見圖2。

圖2 煙用香原料數據集的數據表映射關系Fig.2 Data relationships in tobacco flavor material dataset
如圖3所示,數據集共收錄了香原料基本性質、感官特性和輔助參考3 類數據,劃分為10 個數據模塊。其中,香原料的基本信息及理化性質匯總自化學類數據庫;香原料的感官描述、卷煙加香作用評價、嗅香評價、天然來源、揮發性成分、非揮發性成分等香原料感官特性數據匯總自樣品檢測數據、圖書文獻、香精香料類數據庫;安全信息及其他輔助參考數據匯總自化學類數據庫和圖書文獻。

圖3 煙用香原料數據集指標體系結構Fig.3 Index system of tobacco flavor material dataset
以煙用香原料數據集為基礎構建數據檢索公眾端,即煙草行業香原料中心庫平臺,平臺首頁及系統架構見圖4 和圖5。在數據層中,通過Kettle 開源工具實現數據集的ETL 處理,將數據集中的結構化數據存儲至MySQL 數據庫,半結構化數據存儲至MongoDB數據庫。同時建立香原料數據索引體系,將數據庫中的表字段與索引體系中的索引域進行映射,按照映射規則進行索引與數據庫之間的同步聯動。在組件層中,分別構建檢索組件、布爾過濾器、統計組件、排序組件,在應用層面提供多種檢索功能。

圖5 煙草行業香原料中心庫平臺系統架構Fig.5 Architecture of “Tobacco Flavor Material Central Database” platform
煙用香原料數據集共收錄香原料1 105 種,含5種以上數據來源的香原料條目占72%。數據檢索公眾端基于不同應用場景提供了簡單檢索、香氣檢索、感官作用檢索、成分檢索、筆記檢索、高級檢索6大檢索功能,見圖6。其中,簡單檢索提供基于香原料名稱、CAS 號、FEMA 號等信息檢索功能,可在明確檢索目標情況下對某一種香原料進行檢索。香氣檢索提供兩種檢索途徑,一是通過感官描述詞對具備特定香氣的香原料進行模糊檢索,二是基于數字化的嗅香香韻指標對香氣組合進行精準檢索。感官作用檢索提供針對卷煙加香的香原料檢索功能,可通過數值與標簽兩種方式基于加香后煙氣品質、口感、香韻的作用效果進行香原料查詢。成分檢索提供針對特定香氣成分或成分組合的檢索功能,可在香精辨別、香精仿配等應用場景下查詢含有相應成分的香原料。此外,平臺還提供筆記檢索與高級檢索功能。筆記檢索可根據香原料的批注信息進行檢索,高級檢索可對上述檢索模塊進行復合式檢索,實現多維度、深層次的香原料檢索功能,并提供香原料的詳情信息與數據可視化展示,檢索案例見表4。

圖6 煙草行業香原料中心庫平臺數據檢索模塊Fig.6 Data retrieval module in “Tobacco Flavor Material Central Database” platform

表4 數據檢索案例Tab.4 Cases of data retrieval
3.2.1 煙用香原料主體香型分布情況
主體香型是對香原料主要香氣特征的描述,如留蘭香油的主體香型為藥草香、薄荷香,異戊酸異戊酯的主體香型為果香。通過對數據集中1 105 種香原料進行分析,發現煙用香原料涵蓋的香型分布廣泛,以果香、藥草香、辛香、花香為主體香型的香原料居多。按照香氣描述中的主體香型對香原料分布進行統計(僅統計排名前10的主體香型),結果見圖7。可見,合成香原料中果香占29.24%,花香占22.88%,兩者占比遠高于其他香型;天然香原料中排名靠前的香型為藥草香、花香和辛香。這是由于天然香原料大多來自于植物,而從植物的根、莖、葉提取的香原料大多帶有藥草香和辛香。此外,辛香、果香能夠與煙草本香相結合,這些香型的香原料在加香中也使用較多。

圖7 煙用香原料主體香型占比分布Fig.7 Proportional distributions of main aroma types of tobacco flavor materials
3.2.2 煙用香原料嗅香香韻評價得分情況
對嗅香香韻評價數據進行分析,結果表明:煙用香原料中甜香、果香的香氣強度較強,豆香、奶香、干草香等香韻的香氣強度較弱。在嗅香評價方法中,每個香韻的分值區間為0~9 分,但各香韻在香氣強度及嗅覺沖擊力上存在差異。將各香韻的數據分布繪制成盒須圖,見圖8。可見,甜香得分較高且相對集中,得分中位數達到2.4 分,遠高于其他香韻。果香與清香的中位數得分分別達到1.0 與0.2 分,其他香韻的中位數得分均為0或接近于0。表明甜香得1分代表該香原料的甜香弱于大部分香原料,而膏香得1 分則代表該香原料的膏香高于大部分香原料。從圖8中的離群值還可以看出,部分香韻存在較強的香氣強度,如酸香的最大值為8.5 分,辛香的最大值為7.5 分,而清香、膏香、奶香、干草香的最大值均不超過5分,這可能是不同香韻的嗅覺沖擊力存在差異所致。利用2.2.3節所述方法對單項指標高于上四分位數的香原料進行標簽標注,如乙基麥芽酚被標記為“焦香明顯”“奶香明顯”“甜香明顯”“烘焙香明顯”4個標簽,以提高香原料的辨識度。

圖8 嗅香香韻評價數據分布Fig.8 Distribution of evaluation data of olfactory aroma notes
3.2.3 不同香韻的煙用香原料加香作用分析
通過對香原料香韻與卷煙加香作用之間的關聯性進行分析,以驗證數據的可用性。結合香原料的卷煙加香作用指標與嗅香香韻評價指標進行線性相關分析,計算兩兩指標之間的皮爾遜相關系數r,0.2≤|r|<0.4 時表示存在弱相關,0≤|r|<0.2 時表示存在極弱相關或無相關。由圖9可見,指標間的整體相關性較弱,但部分指標間存在一定相關性。在煙氣口感方面,清香、甜香、花香、果香對口感特性整體上呈微弱正相關,青滋香、藥草香、奶香、豆香、可可香、烘焙香、焦香對各項口感指標幾乎無正向作用,清香與甜香對口感柔和具有改善效果。在煙氣品質特性方面,干草香、烘焙香、焦香與煙氣濃度具有相關性,主要由于香韻與煙草燃燒后的特征香韻相吻合,故卷煙加香后呈現煙氣濃度提升的感官效果。花香、果香、青滋香對煙氣濃度存在負向作用,而甜香、清香、干草香對提升香氣質與香氣量有積極作用。綜上可見,基于數據集所體現的卷煙加香規律與實際經驗整體相符合。

圖9 嗅香香韻評價與卷煙加香作用之間的線性關聯分析Fig.9 Linear correlation analysis between olfactory aroma note evaluation and cigarette flavoring effects
建立了基于多源異構的煙用香原料數據集,涵蓋1 105種香原料,包含基本信息、理化性質、感官描述、嗅香評價、卷煙加香作用、天然來源、揮發性成分、非揮發性成分、安全信息及其他共10 個數據模塊,能夠從多維度提供煙用調香數據。通過對主體香型分布、嗅香香韻分布、香韻與卷煙加香作用之間的關聯性進行分析,結果顯示該數據集能夠體現煙用香原料的特征,應用分析得到的卷煙加香規律與實際經驗整體相符合。基于數據集建立了煙草行業香原料中心庫平臺,可提供香氣、感官作用、成分等多種檢索功能,2022年平臺檢索量達到15 000余次/年,有效解決了香原料數據查找難、獲取難、使用難等問題,對于推動煙草數字化調香技術發展發揮了積極作用。