史波林,趙 鐳,*,汪厚銀,支瑞聰,奐 暢,云戰友,蘇玉芳
感官分析評價小組及成員表現評估技術動態分析
史波林1,趙 鐳1,*,汪厚銀1,支瑞聰1,奐 暢2,云戰友3,蘇玉芳3
(1.中國標準化研究院食品與農業標準化研究所,北京 100191;2.上海大學計算機工程與科學學院,上海 200444;3.內蒙古伊利實業集團股份有限公司技術中心,內蒙古 呼和浩特 010110)
作為感官評價儀器的“評價員/評價小組”是獲得可靠感官分析數據的關鍵,其性能表現評估技術是有效管理該儀器的重要手段。本文將信度與效度作為該“儀器”的評估指標,發現21世紀以后該類研究進入高峰期,其超過85%的研究成果發表于Food Quality and Preference與Journal of Sensory Studies這兩個感官研究類權威雜志中,其中歐美國家在此技術中占主導地位。透過技術內容發現,基于定量描述能力的評價小組及成員性能表現評估技術研究頻繁并趨于成熟,技術手段重點采用單參數或多參數方差分析、多元統計方法(主成分分析、廣義普羅克分析等),涌現了以PanelCheck、Compusense Five等為代表的評估軟件,同時國際標準化組織和美國材料與試驗協會機構也進入相關標準研制階段。而有關差別與排序的評估技術研究相對缺乏。本文提出性能評估所用樣品性質及數量、性能評估所用數據表現形式、性能評估感官實驗設計要求、性能評估期望值及置信區間、性能評估所用感官分析方法選擇、性能評估的數學統計方法選擇等關鍵要素將成為該領域未來努力的方向,并有助于形成統一的、系統的感官分析評價小組及成員表現評估技術規范。
感官分析;評價小組;評價員;性能評估
感官分析是用于喚起、測量、分析和解釋產品通過視覺、嗅覺、觸覺、味覺和聽覺所引起反應的一種科學方法[1]。其原始測量數據直接來源于感官分析儀器“評價小組及其評價員”的評價結果。經過篩選和培訓的“儀器”具有更好的靈敏度、更穩定的評價,表現出更好的重復性和再現性,體現出更小的變異性[2]。然而,人不是模式化的、相對封閉的物理性機器,而是主動的、開放的、發展的、變化的生物體系[3],易受生理因素(如感官適應、感覺增強、協同或抑制等)、心理因素(如期望誤差、刺激誤差、時序誤差、光環效應等)和環境因素(如評價間的溫度、濕度、噪聲、光線等)等影響[4],使得對食品感官性狀鑒別有爭議時往往難以下結論,從而影響感官評價結果的準確性、客觀性和一致性。
同樣作為一門測量技術的感官分析,也像其他分析檢測一樣要求其測量結果的信度與效度[5]。其中信度為同一被測樣在相同的實驗條件下應該得到相近的結果,體現結果精密性,反應結果的可信度或可靠性或穩定性。在感官評價中,信度包含重復性與再現性。重復性為同一評價員或評價小組在相同時間(包括同天、同月等)、相同環境下對同一樣品重復感官評價結果的離散情況;再現性為評價小組內部不同評價員之間或不同評價小組之間對同一樣品感官評價結果的離散情況。而效度是指測量工具或手段能夠準確測出所需測量事物的正確程度,即測量結果與要考察內容內在特征的一致程度,體現結果的準確性或正確性,反應結果的有效性。感官評價檢測中的效度為評價員或評價小組單次測量與被測內容本質的一致性,即為評價員測試結果與理論值或評價小組得出的最優估計值的離散情況,以及評價小組測試結果與理論值的離散情況。
為了保證感官檢驗結果的可靠性、重復性和準確性,需要對人的感官能力提出嚴格的要求,進而才能在可控的條件下規范化地開展感官檢驗活動[6]。感官評價員及評價小組的表現評估技術是體現“儀器”可用性特點的技術保障,它能指導評價小組與評價員在投入使用前進行校準并達到要求的精確度,也能幫助評價小組與評價員在使用一定周期后進行定期檢定以符合檢測的規范要求,保證檢測結果的有效性或正確性。該技術是實現感官評價數據價值的關鍵保障,是反映感官分析實驗室檢測能力水平的重要手段,是構成感官分析實驗室能力建設與認可的主要內容。因此,感官分析實驗室的評價小組及成員表現評估技術能有效管理“感官分析儀器”以保持良好的狀態,達到通過該儀器檢測所獲得數據的可靠性,保證感官分析科研、實驗和生產的需要,也有力助推感官分析技術的廣泛應用。
針對理化檢測儀器設備性能評估及其實驗室間能力比對技術已相當成熟,并形成了系列規范技術體系,如《檢測和校準實驗室能力認可準則》[7]、《檢測和校準實驗室能力認可準則在化學檢測領域的應用說明》[8]、《能力驗證規則》[9]、《檢測和校準實驗室能力的通用要求》[10]等,就儀器設備校準與檢定、儀器設備期間核查、實驗室能力比對與驗證、設備維護、設備量值溯源、測量不確定度等均有詳細說明與規定。
然而這些文件中的規定與方法不適用于感官評價小組及成員的表現評估及能力比對,圖1對比了基于理化的儀器測量與基于心理的感官測量的特征區別。感官評價是基于感覺差別的一種心理測量,屬于實驗心理學的范疇,是一種基于樣品間相對差別的比較檢驗和測量,而不是理化檢驗中的絕對物理量的測量[11]。因此,感官評價活動可分成有無差別、差別程度與差別方向這3 個層次測量。具體包括不同樣品之間整體品質和特定感官屬性的差別檢驗、樣品感官特性強度與消費者喜好的標度檢驗、產品評分和分等分級的類別檢驗、以及感官質量特征確定的描述性分析檢驗等[12]。這些檢測結果的數據特征分別為:名義數據(如:有無差異或分類)、順序數據(如:從弱到強的排序)、數值數據(如:評分或定量描述)。由此,儀器測量與感官測量在信度與效度的評估技術方面有很大的不同。

圖1 儀器測量與感官測量的特征比較Fig.1 Comparison of features between instrumental and sensory testing
通過Elsevier、Springer Link、Wiley-Blackwell、EBSCOhost、ACS、CUP等數據庫檢索到86 篇(1979—2014年)有關評價員及評價小組表現評估技術的SCI收錄論文。從發表論文的總量上講,是研究很窄的一個方向。為了進一步把握在此方向上研究的風向標,按照研究時間分析熱門年度,從論文來源上分析成果出處以及根據研究的區域性分析核心團隊等。
早在1979年美國的Hovenden等[13]采用8點標度感官分析牛柳品質時涉及到評價小組的重復性與差異性問題,并認為評價小組的穩定性好于評價員個體。但在20世紀90年代對評價員及評價小組表現評估研究才真正進入萌芽階段并逐漸展開,在此期間累計發表論文20 篇(圖2),并于1998年單年發表7 篇相關論文而達到高峰。進入21世紀相關研究全面發展、不斷深入,并且在2006年后發展更為活躍,特別是2008年單年發表論文8 篇。雖然2006—2010年屬于研究高峰期(發表論文24 篇),但2010年后還是有研究者繼續相關技術研究,并越來越系統與成熟,同時陸續研制國際標準化組織(International Organization for Standardization,ISO)與美國材料與試驗協會(American Society for Testing and Materials,ASTM)相關標準。

圖2 發表論文年度分布圖Fig.2 Annual distribution diagram of the published papers

圖3 發表論文雜志出處分布圖Fig.3 The journals in which the papers were published
在所檢索到的87 篇文章中,85%以上發表于目前展示感官科學相關研究成果最為權威的Food Quality and Preference(43 篇)與Journal of Sensory Studies(31 篇)這兩個雜志中(圖3),由此說明這兩個雜志 中所發表的文章代表了評價員及小組表現評估技術的發展歷史、現有研究水平及未來的發展趨勢,同時每個時間段前者幾乎都比后者的發表文獻多(除了2001—2005年)(圖4)。不過其他文章也發表在如Journal of Chemometrics、Food Control、European Food Research Technology、LWT-food Science and Technology、Journal of the Science of Food and Agriculture、Journal of Food Science等知名的食品與化學計量學領域相關雜志中。

圖4 在Food Quality and Preference與Journal of Sensory Studies發表論文年度分布表Fig.4 Annual distribution diagram of papers published in Food Quality and Preference and Journal of Sensory Studies

圖5 發表論文第一作者所屬國家分布表Fig.5 The first author’s countries of the published papers
對發表文章第一作者所在國的歸類,發現歐美在該技術研究中占主導地位,因為他們是感官科學研究的發源地,也是感官分析技術應用頻繁的葡萄酒、化妝品、其他食品等工業非常發達的國家。特別是挪威(14 篇)、法國(13 篇)、美國(12 篇)、西班牙(9 篇)、荷蘭(8 篇)、丹麥(6 篇)、英國(5 篇)等國家(圖5)。在國際上一直致力于這方面研究的科研團隊主要為來自挪威的N?s(10篇)[14-23]與Lea(3篇)[15,24-25]、英國的McEwan(5篇)[24-28]、丹麥的Martens(5篇)[19,29-32]與Brockhoff(4篇)[33-36]、美國的Bi(4篇)[37-40]、匈牙利的Kókai(3篇)[41-43]等7個團隊(按照發表論文參與作者統計)。當然這些研究團隊也研究其他感官分析技術內容。同時發現作為研究非常活躍的法國,居然沒有一個相對固定的團隊長期致力于這方面的研究,因為沒有一位法國學者在這方面的發表論文數大于等于2 篇。
而國內在這方面的研究比較落后,這跟我國感官分析技術發展水平息息相關。目前只有3 篇相關文獻報道。其中李華等[44]在葡萄酒感官評價結果的統計分析方法研究中發現,品酒員間存在評價尺度、評價位置和評價方向等方面的差異,而標準化法不僅沒有消除品酒員間的異質性,反而加大了品酒員間的差異;而置信區間法能有效地降低品酒員間的差異,真實地反映酒樣間的客觀差異。蘇玉華等[45]利用灰色關聯性分析兩組評酒員的葡萄酒感官評價結果的顯著性差異,通過克朗巴哈α系數(Cronbach’s alpha coefficient)分析每組評酒員評價結果的可信度。常玉梅等[46]在豆腐干質構感官分析及評價小組能力評估研究中,通過計算信噪比變化趨勢分析了培訓過程中評價小組的表現;采用Panel Check軟件[21],評估了培訓后的評價小組一致性、評價員區分能力和重復性。
儀器測量的評估方法有很多可借鑒的技術。目前有關評價員及評價小組表現評估技術的研究,基本上都圍繞具有量值特征的描述性分析方面。因為該感官分析評價方法所獲得檢測數據是定量的,能最大程度參考理化儀器的性能評估方法,其技術方法特征主要包括定性與定量分析方法、單變量與多變量方法、參數與非參數方法、分析型與圖表型方法、傳統計算與計算機軟件評估法[40]。在研究的應用方面各有側重,包括實驗室間多個評價小組結果的比對[27,47-48]、評價小組內異常評價員分析技術[22,35]、評價小組結果可靠性(重復性、一致性等單一評價內容或綜合評價)[2,23,49]和基于性能的評價隊伍長期監測[50-52]等。但其技術核心大多是基于方差分析的統計方法與基于多元統計方法兩個方面。
3.1 基于方差分析的性能評估技術動態
在方差分析方法使用方面,具有代表性的首先是長期致力于混合評價員模型(mixed assessor model,MAM)研究的Brockhoff等[33-36],針對定量性描述分析檢驗,在多因素方差分析方法的基礎上增加了評價員標度使用影響因素,提出了MAM評估評價小組及成員區分能力、一致能力、重復能力和標度能力的方法。Pineau等[53]采用了均方根誤差(RMSE)、相對預測誤差(REP)等性能評估參數,建立同時監測評價小組及成員表現的混合模型,由監測圖直觀展現評價員性能的動態表現與異常評價值。Etaio等[51]在紅酒感官質量控制中,考察了評價員對參比樣和樣品特征的識別力,樣品間特征的區別力、重復性、再現性;對于評價小組重點評估產品品質評分與辨別、感官特性識別與區分方面的重復性和再現性指標;但其主要統計方法都為方差分析。
3.2 基于多元統計方法的性能評估技術動態
其實在多元統計方法使用方面,早在20世紀初King等[54]就比較了聚類分析(CA)、一致性分析、主成分分析(PCA)、GRAPES法4 種方法對評價小組的性能評價,研究得出互相組合使用最為理想,但研究中并未提到評價小組結果與產品特征最優估計值或期望值的一致性問題。Castura等[50]提出采用4 種與產品感官特征期望值的距離檢測分析描述性評價小組能力監控。N?s等[14,19-21]也長期研究評價小組及成員評估技術,并開發了針對感官剖面數據的評價小組性能分析軟件(PanelCheck),主要采用經典方差分析(ANOVA)、PCA、多因素分析(MFA)、廣義普羅克分析(GPA)等方法用于實驗室內外部的感官分析能力驗證,并通過Profile、Tucker-1、Manhattan、MSE、F值等多種可視化圖來展現評價性能。
3.3 針對描述性分析的性能評估軟件動態分析
目前市面上有多款評價小組及評價員性能表現評估方面的軟件。其中前面提到的PanelCheck軟件最具有代表性、針對性和實用性。荷蘭OP&P公司的Senstools軟件主要采用方差分析與多元統計分析(PCA、GPA、MDPref、聚類分割法等)。而法國Biosystemes公司FIZZ不如前面兩款軟件全面和專業,它主要應用在質地描述分析中,通過對樣品屬性的統計,順帶對評價員的區別能力進行檢測。加拿大Compusense公司的Compusense Five軟件是在感官評價實驗設計計算機管理軟件的基礎上升級的,其含有2-way ANOVA、Friedman分析、Tukey’s HSD、Fisher’s LSD、Duncan’s Multiple Range檢驗與Crosstabulations等各種數學統計方法,專門應用于排序能力與定向描述分析能力的 評價員及小組性能評估[50]。相關的軟件還有挪威Camo公司的Unscrambler[55]、荷蘭Logic8 BV公司的EyeQuestion與美國Tragon公司的Tragon QDA[56]。同時一些數據統計軟件也可以應用于此領域,比如Senpaq、SAS、SPSS、Excel(特別是帶有XLStat輔助工具的)等。
3.4 針對描述性分析的性能評估標準動態分析
相關性能評估標準的研制工作主要針對描述性分析方法。國際標準化組織食品技術委員會感官分析分技術委員會(ISO/TC34/SC12)正在研制基于方差分析的定量感官評價小組及其成員表現評估的一般導則,并于2010年形成國際標準草案(Draft International Standard,DIS)[57],但截止到今年還未形成終稿出版。DIS稿主要是針對某一感官屬性在多個樣品的多次重復測試中的性能評估方法,包括:1)通過單因素方差分析評價員各自的重復性;2)通過評價員多次重復后均值與評價小組均值的標準偏差體現兩者之間的接近程度;3)通過評價員標度值與評價小組平均標度值的回歸模型性能來體現評價員的描述量值能力;4)通過評價員與樣品雙因素方差分析評價小組的重復性;5)小組正確性;6)通過三因素(樣品、評價員與輪次)方差分析評價小組多輪次實驗的再現性;7)通過三因素(樣品、評價小組、輪次)方差分析不同評價小組間的再現性。ISO/DIS稿主要是對于各屬性單獨分析評價小組及成員性能評估,而對于樣品多屬性整體評價時的評價員與評價小組的性能分析,標準中只提到了幾種多元統計方法(PCA、DA、GP A),但未具體展開說明。
美國材料與試驗協會感官分析技術委員會(ASTM/ E18)也通過工作項目正在研制相關標準[58],此標準也是針對描述性分析方法,其技術內容與ISO標準相同之處也提到了評價員及小組個體的重復性、不同評價員或不同評價小組之間的再現性、特性標度值的正確性、以及不同樣品在特定屬性上的區分能力(敏感性)。不同之處,ASTM標準中提到了不同評價小組或不同評價員之間對特性描述理解的一致性與對不同樣品在某特 性上的強度排序一致性問題,其實這兩項指標同樣也可以通過重復性、再現性與正確性來體現。與ISO標準最大的不同在于詳細介紹了每種多元統計方法(同向縮放因子、PCA、CA、GP A)的使用范圍與基本概念。
感官分析方法除了描述性分析外,還有差別檢驗與排序法等。而目前有關這兩個能力的評價小組及成員性能評估技術研究非常少。McEwan等[24,28]于1998—2001年期間在歐洲范圍開展了感官分析實驗室間比對研究,并首次正式提出感官分析能力驗證相關技術問題,雖然重點研究不同實驗室間不同評價小組的能力比對,而未全面涉及評價員個體的性能評價,但對于該方向研究具有里程碑意義。在感官剖面能力驗證中,提到如何獲得最優期望值,如何獲得用于評價小組判斷的性能標準與置信區間。同時還采用Friedman檢驗、單邊t檢驗分別分析了排序法與9點標度的能力驗證。在2003年,McEwan等[25]專門研究了感官排序檢測的實驗室比對,是目前唯一系統的介紹評價小組排序性能比對的研究。該研究重點形成了這類能力比對的技術流程與每個環節的判別標準。包括由Pearson相關系數法確定校準評價小組所建立的期望樣品排序及每個樣品的秩次平均值,由Friedman檢驗各評價小組的樣品 區分能力,由Conover多重比較法檢驗各評價小組區分樣品對個數,由Kendall系數評估評價小組內部評價員之間的一致性,以及評價小組排序能力的整體性能。文章最后展望了樣品選擇的重要性,各性能判別標準閾值的隨意性,以及設置期望排序能力置信區間的價值等問題。
2012年Sauvageot等[48]在對9個實驗室3類級別評價小組(消費者級、初選級、優選級)的三點檢驗結果進行比對研究中,雖然也提到了評價小組的樣品間區分力、小組內部的重復性以及不同小組間的一致性等問題,但整個研究重點分析了不同性能評價小組所帶來的小組評價結果對比,對于評價小組及成員差別能力評估技術研究的指導意義不是很強。Bi等[40]首次系統比較所有目前提到的有關評價員及小組性能評估的指標,并提出采用社會行為學測量方法中的信度與效度最為貼切;同時首次統一采用組內相關系數(ICC)建立應用于感官分析中出現的所有7 類數據(評分法的連續數據、多元連續數據、分級數據、排序數據、二項式分布數據、多項選擇數據、強迫選擇數據)下的評價小組及成員性能評價方法,并由此確立了針對不同性質數據的評價員及小組評估統一導則,特別對差別與排序的評估技術具有重要指導意義。
雖然在2000年以后,感官評價小組及成員表現評估技術研究頻繁,但基本集中在具有數值化特征的描述性分析方法中,并且所采用數學技術方法繁多、不具統一性,也未形成固定的、系統的技術規范。針對差別區分能力或排序能力的評價小組及成員表現評估技術研究匱乏,與該兩類感官分析方法的廣泛應用現狀極其不匹配。
由于感官分析方法中的差別檢驗、排序檢驗與量值性描述分析等分別獲得不同性質檢測數據(二項式分布數據、秩次數據和量值數據),因此需要分別對差別能力、排序能力、定量描述能力開展感官評價小組與成員性能表現評估技術研究,并建立對應的技術方法規范與準則。由此需要重點在性能評估所用樣品性質及數量、性能評估所用數據表現形式、性能評估實驗設計要求、性能評估期望值及置信區間、性能評估所用感官分析方法選擇、性能評估的數學統計方法選擇等方面加以深入,并作為未來的研究方向。
5.1 性能評估所用樣品性質及數量
選擇怎樣的樣品用于評價小組及成員性能表現的測試需要深入思考。通用型感官分析實驗室應該傾向于基本味、通用香氣與質地等樣品;而對于具體產品生產公司,建議選擇公司熱銷產品或類似的模擬體系物質。
感官分析是被檢樣品差異難度與評價成員靈敏度之間的博弈,因此在評價小組及成員性能表現評估中,樣品難度的選擇非常重要。若樣品難度過低,所有評價小組及成員的每次評價結果一致并正確,而未真正達到性能考察的作用;若樣品難度過大,幾乎所有評價小組及成員的每次評價結果都不正確,性能都非常差,有時差到分辨不出哪些結果優于其他結果,這樣也失去性能評估的意義。而在排序能力的評價小組及成員性能表現分析中,需要考慮幾個特定性質強度不同的樣品參與排序實驗評估中更加合適,更能便捷的監測感官分析“儀器”性能。
5.2 性能評估所用數據表現形式
特別對于差別檢驗,其評價小組或評價員測試結果為對立結果的其中一個(A或非A、正確或錯誤、有差異或無差異等),而這不能作為表現性能評估的基礎數據,需要通過一定方法進行轉化而起到科學、方便的評估目的。
在排序檢驗中,能否簡單的根據所有評價員秩次和排序代表評價小組得出的樣品順序,或以怎樣的形式代表評價小組每次的排序結果更具有科學性(總秩次已受評價員人數影響)。
5.3 性能評估感官實驗設計要求
在重復性、再現性、一致性評估中,多少次的重復或再現能在保證實驗成本的前提下達到統計意義,以及多長時間開展一次重復能最高效率的監測評價小組及成員的表現性能。在描述性分析中,需要設置幾種不同樣品用于實驗。每次實驗需要安排幾輪,每輪安排幾次重復,同時重復實驗之間的樣品如何制備以避免評價員在非檢測感官特性方面對樣品的記憶,以及感覺疲勞帶來的實驗誤差。
5.4 性能評估期望值及置信區間
為了更有效的決策單次測量與被測內容本質的一致性,以及評價小組測試結果與理論值的離散情況,如何獲得評判依據、期望值或真值,以及所能接受的相應置信區間。比如在無理論結果的排序檢驗中,如何通過評價小組獲得最優估計順序,同時在此期間如何判斷評價員異常判斷結果并加以剔除。在描述性分析的實驗室比對中,如何選擇可靠的評價小組用于期望值獲取的校準小組。差別檢驗中,任何樣品都不是完全一致的,但這種絕對的不一致能否讓評價員團隊都能感知到,并又以哪個評價小組團隊的檢測結果代表不同樣品間的差異程度。
5.5 性能評估所用感官分析方法選擇
感官分析方法既是評價樣品的方法,也是評估評價小組及成員的途徑,關鍵是在已知樣品性能的前提下,考察評價小組及成員的檢測能力。然而針對差別能力的性能評估,由于差別檢驗包括成對比較、二三點、三點、A-非A、五中取二等方法,究竟哪種差別檢驗方法更加適合差別能力下的評價小組及成員的性能表現評估值得探究。
5.6 性能評估的數學統計方法選擇
針對相對差別測量特征的感官評價,包含有無差別、差別程度與差別方向這3 個層次,其不同層次感官分析方法所獲得的數據特征各不相同,含有名義數據、順序數據、數值數據,也就是分別為二項式分布數據、秩次數據、量值數據,因此針對這些不同數據特征所要進行評價小組及成員性能評估的數學統計方法也各不相同。
[1] STONE H, SIDEL J L. 感官評定實踐[M]. 陳中, 陳志敏, 唐傳核, 等,譯. 北京: 化學工業出版社, 2007: 84-90.
[2] PINTO F S T, FOGLIATTO F S, QANNARI E M. A method for panelists’ consistency assessment in sensory evaluations based on the Cronbach’s alpha coefficient[J]. Food Quality and Preference, 2014, 32: 41-47.
[3] 李宏, 劉銳萍, 張克義. 食品感官檢測實驗室評審方法的研究[J]. 現代檢測與實驗室管理, 2013(1): 39-41.
[4] 趙鐳, 劉文. 感官分析技術應用指南[M]. 北京: 中國輕工業出版社, 2011: 3.
[5] 鄭日昌, 孫大強. 心理測量與測驗[M]. 北京: 中國人民大學出版社, 2008: 63; 102.
[6] 趙鐳, 劉文, 牛麗影, 等. 食品感官科學技術: 發展的機遇和挑戰[J].中國食品學報, 2009, 9(6): 138-143.
[7] 中國合格評定國家認可委員會. CNAS-CL10:2006 檢測和校準實驗室能力認可準則[S]. 北京: 中國合格評定國家認可委員會, 2006.
[8] 中國合格評定國家認可委員會. CNAS-CL10:2012 檢測和校準實驗室能力認可準則在化學檢測領域的應用說明[S]. 北京: 中國合格評定國家認可委員會, 2012.
[9] 中國合格評定國家認可委員會. CNAS-RL02:2007 能力驗證規則[S]. 北京: 中國合格評定國家認可委員會, 2007.
[10] 中國合格評定國家認可中心, 國家認證認可監督管理委員會, 中國計量科學研究院, 等. GB/T 27025—2008 檢測和校準實驗室能力的通用要求[S]. 北京: 中國標準出版社, 2008.
[11] 董小雷, 周廣田, 崔云前. 啤酒感官品評[M]. 北京: 化學工業出版社, 2007: 4.
[12] 徐樹來, 王永華. 食品感官分析與實驗[M]. 北京: 化學工業出版社, 2010: 15.
[13] HOVENDEN J E, DUTSON T R, HOSTETLER R L, et al. Variation and repeatability of an untrained beef sensory panel[J]. Journal of Food Science, 1979, 44: 1598-1601.
[14] N?S T, SOLHEIM R. Detection and interpretation of variation within and between assessors in sensory profiling[J]. Journal of Sensory Studies, 1991, 6(3): 159-177.
[15] LEA P, RODBOTTEN M, N?S T. Measuring validity in sensory analysis[J]. Food Quality and Preference, 1995, 6(4): 321-326.
[16] N? S T. Detecting individual differences among assessors and difference among replicates in sensory profiling[J]. Food Quality and Preference, 1998, 9(3):107-110.
[17] N? S T, LANGSRUD O. Fixed or random assessors in sensory profiling[J]. Food Quality and Preference, 1998, 9(3): 145-152.
[18] DAHL T, N?S T. Outlier and group detection in sensory panels using hierarchical cluster analysis with the Procrustes distance[J]. Food Quality and Preference, 2004, 15: 195-208.
[19] TOMIC O, NILSEN A, MARTENS M, et al. Visualization of sensory profiling data for performance monitoring[J]. LWT-Food Science and Technology, 2007, 40(2): 262-269.
[20] DAHL T, TOMIC O, WOLD J P, et al. Some new tools for visualizing multi-way sensory data[J]. Food Quality and Preference, 2008, 19(1): 103-113.
[21] TOMIC O, LUCIANO G, NILSEN A, et al. Analysing sensory panel performance in a proficiency test using the PanelCheck software[J]. European Food Research and Technology, 2009, 230(3): 497-511
[22] DAHL T, N?S T. Identifying outlying assessors in sensory profiling using fuzzy clustering and multi-block methodology[J]. Food Quality and Preference, 2009, 20: 287-294.
[23] TOMIC O, FORDE C, DELAHUNTY C, et al. Performance indices in descriptive sensory analysis: a complimentary screening tool for assessor and panel performance[J]. Food Quality and Preference, 2013, 28: 122-133.
[24] McEWAN J A, HUNTER E A, GEMERT L J, et al. Proficiencytesting for sensory profile panels: measuring panel performance[J]. Food Quality and Preference, 2002, 13(3): 181-190.
[25] McEWAN J A, HEINIO R L, HUNTER E A, et al. Proficiency testing for sensory ranking panels: measuring panel performance[J]. Food Quality and Preference, 2003, 14(3): 247-256.
[26] RISVIKUAFORSK H, COLWILL J S, McEWAN J A, et al. Multivariate analysis of conventional profiling data: a comparison of a British and a Norwegian trained panel[J]. Journal of Sensory Studies, 1992, 7: 97-118.
[27] HUNTER E A, McEWAN J A. Evaluation of an international ring trial for sensory profiling of hard cheese[J]. Food Quality and Preference, 1998, 9(5): 343-354.
[28] McEWAN J A. Comparison of sensory panels: a ring trial[J]. Food Quality and Preference, 1999, 10(3): 161-171.
[29] THYBO A K, MARTENS M. Analysis of sensory assessors in texture profiling of potatoes by multivariate modeling[J]. Food Quality and Preference, 2000, 11: 283-288.
[30] BYRNE D V, O’SULLIVAN M G, DIJKSTERHUIS G B, et al. Sensory panel consistency during development of a vocabulary for warmed-over fl avor[J]. Food Quality and Preference, 2001, 12: 171-187.
[31] BITNES J, UELAND ±, M±LLER P, et al. Reliability of sensory assessors: issues of retention and learning[J]. Journal of Sensory Studies, 2008, 23(6): 852-870.
[32] BITNES J, UELAND ±, M±LLER P, et al. Reliability of sensory assessors: issues of complexity[J]. Journal of Sensory Studies, 2009, 24(1): 25-40.
[33] BROCKHOFF P B. Statistical testing of individual differences in sensory profiling[J]. Food Quality and Preference, 2003, 14(5): 425-434.
[34] DEHLHOLM C, BROCKHOFF P B, BREDIE W L P. Confidence ellipses: a variation based on parametric bootstrapping applicable on multiple factor analysis results for rapid graphical evaluation[J]. Food Quality and Preference, 2012, 26: 278-280.
[35] BAVAY C, BROCKHOFF P B, KUZNETSOVA A, et al. Consideration of sample heterogeneity and in-depth analysis of individual differences in sensory analysis[J]. Food Quality and Preference, 2014, 32: 126-131.
[36] PELTIER C, BROCKHOFFD P B, VISALLI M, et al. The MAMCAP table: a new tool for monitoring panel performances[J]. Food Quality and Preference, 2014, 32: 24-27.
[37] ENNIS D M, BI J. The beta-binomial model: accounting for inter-trial variation in replicated difference and preference tests[J]. Journal of Sensory Studies, 1998, 13(4): 389-412.
[38] BI J, ENNIS D M. The power of the “A”-“not A” method[J]. Journal of Sensory Studies, 2001, 16(4): 343-359.
[39] BI J. Agreement and reliability assessments for performance of sensory descriptive panel[J]. Journal of Sensory Studies, 2003, 18: 61-76.
[40] BI J, KUESTEN C. Intraclass Correlation Coefficient (ICC): A framework for monitoring and assessing performance of trained sensory panels and panelists[J]. Journal of Sensory Studies, 2012, 27(5): 352-364.
[41] HUNEK K K, HESZBERGER J, KóKAI Z, et al. Testing panel consistency with GCAP method in food profile analysis[J]. Journal of Chemometrics, 2008, 22(3/4): 218-226.
[42] SIPOS L, KóVACS Z, SZOLLOSI D, et al. Comparison of novel sensory panel performance evaluation techniques with e-nose analysis integration[J]. Journal of Chemometrics, 2011, 25(5): 275-286.
[43] LOSó V, GERE A, GY?REY A, et al. Comparison of the performance of a trained and an untrained sensory panel on sweet corn varieties with the PanelCheck software[J]. Applied Studies in Agribusiness and Commerce, 2012, 6: 77-83.
[44] 李華, 劉曙東, 王華, 等. 葡萄酒感官評價結果的統計分析方法研究[J]. 中國食品學報, 2006, 6(2): 126-131.
[45] 蘇玉華, 韋師. 葡萄酒感官評價的差異性及可信度研究[J]. 河南科技, 2013(1): 254-259.
[46] 常玉梅, 鐘芳. 豆腐干質構感官分析及評價小組能力評估[J]. 食品與生物技術學報, 2013, 32(1): 37-42.
[47] LE S, PAGES J, HUSSON F. Comparison of the performance of a trained and an untrained sensory panel on sweet corn varieties with the PanelCheck software[J]. Food Quality and Preference, 2008(19): 179-184.
[48] SAUVAGEOT F, HERBRETEAU V, BERGER M, et al. A comparison between nine laboratories performing triangle tests[J]. Food Quality and Preference, 2012, 24(1): 1-7.
[49] MEYNERS M. Panel and panelist agreement for product comparisons in studies of temporal dominance of sensations[J]. Food Quality and Preference, 2011, 22: 365-370.
[50] CASTURA J C, FINDLAY C J, LESSCHAEVE I. Monitoring calibration of descriptive sensory panels using distance from target measurements[J]. Food Quality and Preference, 2006, 17(3/4): 282–289.
[51] ETAIO I, ALBISU M, OJEDA M, et al. Sensory quality control for food certification: a case study on wine. Panel training and qualification, method validation and monitoring[J]. Food Control, 2010, 21(4): 542-548.
[52] ROMANO R, VESTERGAARD J S, ZAREH M K, et al. Monitoring panel performance within and between sensory experiments by multiway analysis: classification and multivariate analysis for complex data structures[J]. Springer Berlin Heidelberg, 2011: 335-342.
[53] PINEAU N, CHABANET C, SCHLICH P. Modeling the evolution of the performance of a sensory panel: a mixed-model and control chart approach[J]. Journal of Sensory Studies, 2007, 22(2): 212-241.
[54] KING M C, HALL J, CLIFF M A. A comparison of methods for evaluating the performance of a trained sensory panel[J]. Journal of Sensory Studies, 2001, 16(6): 567-581.
[55] KERMIT M, LENGARD V. Assessing the performance of a sensory panel-panelist monitoring and tracking[J]. Journal of Chemometrics, 2005, 19: 154-161.
[56] 張愛霞, 張衛斌, 勵建榮, 等. 現代食品感官科學的國際動態與發展趨勢[J]. 中國食品學報, 2008, 8(6): 177-180.
[57] International Organization for Standardization. ISO/DIS 11132—2010 Sensory analysis-Methodology-General guidance for monitoring the performance of quantitative sensory panel[S]. United States: Information Handling Services, 2010.
[58] American Society for Testing and Materials. ASTM/WK 8435—2010 Standard guide for measuring and tracking sensory descriptive panel and assessor performance[S]. United States: Information Handling Services, 2010.
Overview of Assessment Techniques for Sensory Panel and Panelist Performance
SHI Bo-lin1, ZHAO Lei1,*, WANG Hou-yin1, ZHI Rui-cong1, HUAN Chang2, YUN Zhan-you3, SU Yu-fang3
(1. Food and Agriculture Standardization Institute, China National Institute of Standardization, Beijing 100191, China; 2. Department of Computer Engineering and Science, Shanghai University, Shanghai 200444, China; 3. Technology Center, Inner Mongolia Yili Industrial Group Co. Ltd., Hohhot 010110, China)
In sensory evaluation, panels and panelists are used as instruments that are the key tool to obtain reliable sensory data. Assessment techniques for their pe rformance can provide an important approach for managing them effectively. In this paper, the validity and reliability are used as the main indexes for performance assessment, which have reached a plateau of research since the beginning of the 21stcentury. More than 85% of the research papers have been reported in the top journals in sensory science, such as Food Quality and Preference and Journal of Sensory Studies. Especially, the majority of the research reports come from the USA and Europe and have tended to be frequent and mature in assessing the performance of descriptive sensory panels-panelists. The various methods include univariate or multivariate variance analysis, and multivariate statistical methods such as principal component analysis (PCA), generalized procrustes analysis (GP A), etc. At the same time, softwares such as PanelCheck, Compusense Five, and so on have been developed, while the International Organization for Standardization and the American Society for Testing and Materials are also formulating the relevant standards on quantitative descriptive analysis. By contrast, relatively insuff i cient research has been done on performance assessment in ranking and discrimination sensory panels-panelists. Six key research contents are proposed for future study. They include the number and property of sample, the form of data presentation, the design of sensory experiment, expected value and confidence interval, and the selection of sensory analysis methods and statistical methods. This paper will be helpful to establish the unif i ed and systemic framework for assessing performance in panels and panelists.
sensory evaluation; panel; panelist; performance assessment
TS207.3
A
1002-6630(2014)08-0029-07
10.7506/spkx1002-6630-201408006
2014-03-24
中國標準化研究院院長基金項目(562013Y-3079)
史波林(1981—),男,副研究員,博士,研究方向為食品感官評價與智能感官分析。E-mail:shibl@cnis.gov.cn*
趙鐳(1968—),女,副研究員,博士,研究方向為食品感官分析標準化。E-mail:zhaolei@cnis.gov.cn