史波林,趙 鐳,*,奐 暢,汪厚銀,支瑞聰,蘇玉芳,解 楠,李 志,張璐璐
感官評價小組及成員排序能力評估的一般導則
史波林1,趙 鐳1,*,奐 暢2,汪厚銀1,支瑞聰1,蘇玉芳3,解 楠1,李 志1,張璐璐1
(1.中國標準化研究院食品與農業標準化研究所,北京 100191;2.上海大學計算機工程與科學學院,上海 200444;3.內蒙古伊利實業集團股份有限公司技術中心,內蒙古 呼和浩特 010110)
針對感官評價小組及成員排序能力的評估,提出重復性、再現性與一致性的評估指標。分析了排序實驗樣品種類、樣品間差異程度及樣品個數對感官分析儀器性能評估的重要性。確定了以樣品間的排列秩次作為能力評估統計的基礎數據形式。排序能力評估中,對于無理論順序樣品,通過剔除重復性與再現性異常評價員結果后,采用Friedman檢驗結合最小顯著性差(least significant difference,LSD)確定實驗樣品的最優估計順序。文章重點分析用于雙變量的Spearman秩相關及用于多變量的Kendall和諧系數,在評價小組及評價員的重復性、再現性與一致性等性能評估中的具體技術應用方法與理論分析。為感官評價小組及成員排序能力評估提出了良好操作示范,也為不同感官實驗室評價小組間比對提供了理論基礎。既有利于評價小組及成員的長期監測,也有利于感官分析實驗室的良好管理能力。
感官分析;排序法;評價小組及評價員;能力評估
感官分析是一門測量技術,其評價活動可分成有無差別、差別程度與差別方向這3個層次,分別對應差別檢驗、標度與類別、描述性分析這3 類客觀性感官分析測量方法[1]。測量中按其精度從低到高可分為定類、定序、定距和定比測量這4 個層次,分別對應感官分析中的名義標度、順序標度、等距標度、等比標度[2-3]。
排序法屬于標度和類別檢驗方法,為檢驗時給評價員同時提供3 個或以上樣品,要求評價員將樣品按某種感官特性的強弱或對樣品整體印象的好壞進行排列的分類方法[4]。可用于確定不同原料、加工、處理、包裝和貯藏等條件對產品一個或多個感官指標強度水平的影響,或進行精細感官分析(如描述性分析)前的預篩,也可用于篩選、培訓評價員。排序法體現為感官分析中的順序標度,是典型的定序測量。排序法是以名義標度為代表的差別檢驗與以等距或等比標度為代表的描述性分析的橋梁。也就是,若評價員或評價小組對樣品間差異感覺不出其強度順序,則他們只適合進行差別檢驗活動;而對于排序能力好的評價小組及成員就有可能通過進一步培訓而成為描述性分析小組。因此,排序能力的好壞對感官評價小組的能力提高與發展起到舉足輕重的作用,其感官評價小組及成員排序能力的評估技術方法意義非凡。而國內外有關此方面研究的文獻報道只出現于2003年,為McEwan等[5]專門研究了感官排序檢測的實驗室比對,是目前唯一系統介紹評價小組排序性能比對的研究;該研究重點形成了這類能力比對的技術流程與每個環節的判別標準,但只是排序表現評估中的能力比對方面。
對于優秀的評價員和評價小組來講,排序同一系列樣品的多次結果間理應具有很好的重復性、再現性和一致性,有時甚至隨著能力的提高,其排序結果逐漸接近實際理論順序。由此,感官評價小組及成員排序能力評估重點是分析排序檢驗結果的重復性、再現性與一致性問題[6]。重復性為評價小組或評價員對同一系列樣品在不同時間中多次排序結果之間的一致程度。再現性為同一評價小組內部不同評價員之間或不同評價小組之間對同一系列樣品排序結果之間的一致程度。一致性為同一系列樣品,評價小組或評價員每次排序結果與理論順序或最優估計順序之間的一致程度。對于評價小組及其成員的感官排序能力評估,需要借助系列參比樣品、通過排序實驗設計,采用合適的統計分析方法才能獲得針對重復性、再現性和一致性的評估,這些同樣也構成了感官評價小組及成員排序能力評估技術的理論體系。
感官評價是“被試樣品”與“評價小組(評價員)”博弈的體現,它既可以通過合格的評價小組來分析樣品感官品質,也可以通過已知的樣品性能來考察評價小組及其成員的能力[7]。被試樣品間的差異性難度把握對于評價員及評價小組的表現評估至關重要。若樣品難度過低,所有評價小組及成員的每次評價結果一致并正確,但未真正達到性能考察的作用;若樣品難度過大,幾乎所有評價小組及成員的每次評價結果一致卻不正確,也同樣失去性能評估的意義。
排序能力面對的樣品是系列樣品,對于樣品的選擇需要考慮3 個問題:1)選擇什么種類的樣品用于排序能力的表現評估;2)系列樣品中兩兩之間的多少差異程度比較合適;3)采用多少個系列樣品用于評估測試效率較高。
對于第1個樣品選擇問題,也就是對于樣品種類來講,在通用實驗室可以采用基本味、嗅、視等樣品;在具體產品的生產公司可采用本公司的實際產品或相應的模擬體系物質。
對于第2個樣品難度問題,每次評估的結果都一樣(要么每次都排對,要么每次都排的很亂),也就沒有評估的意義,則對于各基本感覺都有個門檻值。至少是優選評價員所用排序樣品的濃度GB/T 16291.1—2012《感官分析選拔、培訓與管理評價員一般導則第1部分:優選評價員》[8],并結合排序法Spearman系數臨界值確定的數學依據,來設計樣品濃度難度。結合評價小組成員的實際敏感度,建議相鄰樣品間的差異在差別閾值的1~1.5 倍之間選擇。
對于第3個樣品個數問題,需要分析對4、5、6、7 個樣品分別排序的難度,以及Spearman系數臨界值確定背后的數學依據,這個難度的把握類似于理化檢測中誤差限的確定,誤差限范圍越小難度就越大,反之難度降低。一般建議評估用樣品數為5或6 個。
排序檢驗的結果是每個評價員對樣品的排列秩序,其中每個樣品都有各自的序位,即秩;樣品間差異只代表強度的前后順序,而不能代表差異大小。這類定序數據內部不可以加減乘除處理,而序列之間數據只可以加減處理,但不可以進行乘除運算,由此可以計算同一樣品多次排序的秩和[9]。
排序能力評估就是考察定序數據間的一致性,也就是排序結果之間的離散性或相關性,即秩相關或等級相關(rank correlation)。它是用雙變量或多變量等級/排序數據作相關分析,即是一種先將x、y或多變量分別按由小到大的次序編上排序,或者變量本身就是排序資料,然后分析兩變量或多變量排序間是否相關的一種非參數相關分析法[10]。此法適用于以下特征的數據:1)不服從正態分布,因而不宜作一般直線相關分析;2)總體分布性未知;3)用等級表示的原始數據。
秩相關程度的大小及性質用秩相關系數表示,取值為-1~+1。常用的秩相關分析方法有Spearman秩相關和Kendall秩相關。Spearman秩相關用于兩個變量的情形,Kendall和諧系數(Kendall一致性系數)用于多個變量的情形。
在評價小組及評價員排序能力評估時,需要在已知樣品排序前提下,通過樣品來考察感官分析“儀器”的好壞。一般自制的模擬樣品,都有已知順序。但在真實樣品測試中,往往很難直接知道樣品某屬性或整體感官品質的排列,如系列酸奶樣品的酸度、系列煙葉樣品的油分等。它們的最優估計排序需要通過某評價小組或多個評價小組來確定。當進行感官分析實驗室間比對時,需要多個評價小組來確定;而對于特定實驗室評價小組及其成員的維護,就只需該小組來確定最優估計順序。
3.1 通過單個評價小組確定最優估計排序
3.1.1 評價員異常排序結果分析與剔除
確定系列樣品的最優估計順序一般需要評價小組的多次重復,對于每位評價員個體也同樣經歷了多次重復排序實驗。在此基礎上剔除評價員個體自身重復性比較差的排序結果,接著剔除評價小組單次排序中小組內部再現性較差的評價員排序結果,然后就可以根據剩下的多次重復排序結果計算最優估計排序。
3.1.1.1 重復性異常評價員排序剔除
肯德爾(Kendall)和諧系數是分析兩個以上順序變量之間的相關性(一致性或等效性)問題,即可用于評價員的重復性判別[11]。按照公式(1)計算Kendall和諧系數。

式中:rw為Kendall和諧系數;K表示重復次數;n表示被試樣品個數;Ri表示K個評價次數在第i個樣品上所排秩次之和。
對于評價員個體,若多次排序結果間的重復性良好,也就是每次排序結果穩定、等效,無某次排序異常現象。若多次排序結果間的重復性不好,也就是每次排序結果無穩定、較離散,必然有一些排序結果比較偏離整體,也就有異常排序結果的現象出現。通過舍一法(舍去任意一次排序結果j),計算對應剩余排序之間的重復性r’wj,并與所有重復排序后的rw進行比較。若舍去的排序結果與整體多次排序比較等效,其剩余排序間的r’wj≤rw;若舍去的排序結果與整體多次排序間重復性不好,其剩余排序間的r’wj≥rw。由此,將所有r’wj按照降序排列,然后逐一從r’wj大到小所對應舍去的排序結果進行分析,結合Kendall和諧系數的顯著性檢驗,考察某次重復排序結果與整體多次排序的離散性。
3.1.1.2 再現性異常評價員排序剔除
對于評價小組的某次排序實驗,若小組成員中所有評價員排序結果間的再現性良好,也就是評價小組排序結果內部對系列樣品特征排列認識統一、觀點一致,無某評價員排序異常現象。若評價小組內部不同評價員排序結果再現性不好,也就是評價小組結果不穩定、內部成員較離散,必然有一些評價員排序結果比較偏離小組整體,也就有異常排序結果的現象出現。
Friedman檢驗能最大限度的顯示評價小組對樣品間差異的識別能力[12]。按照公式(2)計算Friedman檢驗系數Ftest。

式中:Ri為第i個樣品上所排秩次之和;p為評價員個數;n表示被試樣品個數。
通過舍一法(舍去任意一個評價員排序結果k),計算對應剩余評價員組成的評價小組Friedman檢驗結果F’test,并與整體Ftest進行比較。若舍去的評價員結果與小組整體排序比較等效,其剩余小組的F’test≤Ftest;若舍去的評價員結果與小組整體等效性不好,其剩余排序間的F’test≥Ftest。由此,將所有F’test按照降序排列,然后逐一從F’test大到小所對應舍去的評價員進行分析,結合Ftest的顯著性檢驗,考察再現性不佳的評價員。
3.1.2 確定評價小組對樣品的排序
將自身重復性不好的評價員排序結果與小組內再現性不好的評價員排序結果一起剔除后,計算各樣品的秩和,并根據升序排列,其各樣品秩和大小的前后順序說明了評價小組對被試樣品的評價排序。通過Friedman檢驗(如無理論順序)判斷是否有顯著差異樣品,若有顯著差異,則可通過在選定的風險α下,計算最小顯著性差(least significant difference,LSD),通過兩兩樣品的秩和之差,并與LSD值比較,來確定哪些樣品與其他樣品存在顯著性差異(α=0.05或α=0.01)[13]。按照公式(3)計算LSD。

式中:z為比較風險;p為評價員個數;n表示被試樣品個數。當雙尾正概率α=0.05時,z值為1.96;α=0.01時,z值為2.58。
若秩和之差等于或者大于LSD值,則這兩個樣品之間存在顯著性差異,即排序檢驗時,已區分出這兩個樣品之間的差異。反之,若秩和之差小于LSD值,則這兩個樣品之間不存在顯著性差異,即排序檢驗時,未區分出這兩個樣品之間的差異。即結合LSD值能反映評價小組對哪些樣品間排序無顯著差異,也就是可以歸成一類,即可排成同一秩次,由此確定評價小組多次重復排序后的系列樣品最優估計順序。
3.2 通過多個評價小組確定最優估計排序
當進行不同感官實驗室的評價小組能力比對時,首選需要確定系列樣品的最優估計順序,在此不以某個實驗室評價小組的排序結果為參考,而是需要所有評價小組共同認可的排列順序。首先根據3.1節內容確定各評價小組對特定系列產品的排序結果,并代表該小組的一次排序結果,n 個評價小組就有n 個排序結果,然后類似
3.1.1 節中評價員再現性分析方法考察不同評價小組間的再現性,并剔除再現性差的評價小組結果,把剩余的評價小組結果根據3.1.2節的方式確定由多個評價小組獲得的系列樣品最優估計順序。
4.1 評價員個體重復性評估
4.1.1 評價員重復性能評估方法
對于評價員首先要考察其重復性,也就是測量的精密性或穩定性,不然其結果就不可信。重復性為同一評價員對同一組被試樣品在不同時間多次排序重復結果間的等效性,可通過分析Kendall(肯德爾)和諧系數(rw)的顯著性而獲得。按照公式(4)計算rw卡方檢驗值。

式中:χ2為卡方檢驗值;K表示重復次數;n表示被試樣品個數;df為自由度。
通過風險水平α與自由度確定卡方檢驗臨界值,若大于臨界值,則表示多次排序結果具有等效性。
4.1.2 評價員重復性動態監控方法
若多次排序結果間的重復性良好,也就是每次排序結果穩定、等效,無某次排序異常現象。若多次排序結果間的重復性不好,也就是每次排序結果無穩定、較離散,必然有一些排序結果比較偏離整體,也就有異常排序結果的現象出現。假設每周固定一天做1 輪含5 次重復的排序評估實驗,連續12 周(3 個月),共計12 輪60 次排序結果。就可以得出周重復、月重復、季重復這3 個系列rw值。而rw的顯著性檢驗統計量只能從整體上評估評價員的重復性能,體現某個時間段后的唯一性能值;但不能直觀看到評價員每次排序效果,及多次排序之間的動態監測情況。
根據前面的假設,同時可以計算評價員每次排序結果與最優估計順序(或已知的理論順序)的Spearman秩相關系數rs值,則可動態的、直觀的觀察評價員每次排序結果與最優估計順序(或已知的理論順序)的接近程度,也在一定程度上說明了評價員的重復性。按照公式(5)計算rs[14]。

式中:di為樣品i某次重復秩次與理論秩次的差;n表示被試樣品個數。
在評價員多次排序中,rs相等的排列順序不一定完全重復。比如在系列樣品(正確順序為A、B、C、D、E)的某兩次排序中,第一次將最前面2 個樣品順序顛倒了(B、A、C、D、E),而第二次將最后2 個樣品顛倒了(A、B、C、E、D)。因此,在動態監測評價員排序重復性時,需要同時參考rw與rs值。并且對于感官評價結果來講,是以評價小組結果為依據,而非具體某個評價員的排序結果。這是因為評價員個體本身存在內在差異性,也是在一定程度允許rs一致但不完全重復的現象存在。通過實驗發現多次排序的rs一致而Spearman檢驗顯著但排列順序不同的重復性rw檢驗也顯著。
4.2 評價員個體一致性評估
這里的一致性體現為評價員每次排序結果與最優估計順序(或已知的理論順序)的吻合度。則可以通過計算每次排序結果與最優估計順序(或已知的理論順序)的Spearman秩相關系數rs值來體現。
4.3 評價員個體再現性評估
評價員個體的再現性主要體現在同一評價小組內不同評價員排序結果之間的相關性、統一性,其實也由此體現評價小組的內部穩定性,具體參考3.1.1節中的再現性異常評價員分析方法。而從另一個角度分析,其實評價員的再現性體現了評價員自身與評價小組結果之間的吻合性,其實在一定程度上是與評價小組結果一致性的體現。
5.1 評價小組排序結果表征方式
計算整體評價小組對各樣品的秩和,并根據升序排列,其各樣品秩和的前后順序說明了評價小組對被試樣品的評價排序。通過Friedman檢驗(如無理論順序)或Page檢驗(若有理論順序)判斷是否有顯著差異樣品,則可通過在選定的風險α下,計算LSD來確定哪些產品與其他產品存在無顯著性差異(α=0.05或α=0.01),也就是可以歸成一類,即可排成同一秩次,由此確定評價小組所獲得的系列樣品排序結果。按照公式(6)計算Page檢驗系數L[15]。

式中:R1是已知樣品順序中排序為第一的樣品的秩和,依次類推,Rn就是排序為最后的樣品的秩和;n表示被試樣品個數。
5.2 評價小組重復性評估
同4.1節中的評價員排序重復性方法,其中評價小組某次排序結果等同于評價員某次評價排序,并通過Kendall(肯德爾)和諧系數(rw)的顯著性檢驗確定重復性。也同樣通過rw與Spearman秩相關系數rs相結合的方式動態監測評價小組每次排序結果的重復效果。
5.3 評價小組一致性評估
同4.2節評價員一致性分析方法,只是將評價小組某次排序結果等同于評價員某次評價排序來處理。
5.4 評價小組再現性評估
對于具體某一評價小組再現性的好壞來評估該評價小組性能的作用不是很大。評價小組再現性主要應用于感官分析實驗室間不同評價小組的能力比對中,特別是比對所用系列樣品沒有理論順序時,通過小組間的再現性剔除異常評價小組結果后獲得最優估計順序。
在感官評價中,被測樣品與測量儀器“評價小組及成員”是一把雙刃劍,也是任何測量的博弈對立面。既需要通過已知樣品考察評價小組及其成員的性能,也可以通過性能合格“儀器”來檢測被試樣品。而被測樣品難度過高或過低都不能很好監控“儀器”性能的細微變化,尋找適合感官評價小組表現評估的系列樣品至關重要。同時類似于理化檢測儀器性能評估,也需要對感官分析儀器評估指標提出具體的量值化閾值(標準值)及相應的允許誤差。對于特定感官分析實驗室,可以通過長期監控確定一項適合自己實驗室的閾值與允差。對于實驗室比對來講,也需要一定實驗周期與一定數量感官分析實驗室評價小組的表現評估數據積累,獲得能代表現階段國內評價小組整體水平的表現評估閾值與允差。
[1] 趙鐳, 劉文. 感官分析技術應用指南[M]. 北京: 中國輕工業出版社, 2011.
[2] 張水華, 徐樹來, 王永華. 食品感官分析與實驗[M]. 北京: 化學工業出版社, 2006.
[3] 游正林. 社會統計學[M]. 北京: 社會科學文獻出版社, 2010.
[4] 中國標準化研究院, 北京工商大學, 中國人民解放軍總后勤部軍需裝備研究所, 等. GB/T 12315—2008 感官分析方法學排序法[S]. 北京: 中國標準出版社, 2008.
[5] MCEWAN J A, HEINIO R L, HUNTER E A, et al. Profi ciency testing for sensory ranking panels: measuring panel performance[J]. Food Quality and Preference, 2003, 14: 247-256.
[6] BI J, KUESTEN C. Intraclass Correlation Coefficient (ICC): a framework for monitoring and assessing performance of trained sensory panels and panelists[J]. Journal of Sensory Studies, 2012, 27: 352-364.
[7] 趙鐳, 劉文, 牛麗影, 等. 食品感官科學技術: 發展的機遇和挑戰[J].中國食品學報, 2009, 9(6): 138-143.
[8] 中國農業科學院質量標準與檢測技術研究所, 農業部蔬菜水果質量監督檢驗測試中心(廣州). GB/T 16291.1—2012 感官分析選拔、培訓與管理評價員一般導則第1部分: 優選評價員[S]. 北京: 中國標準出版社, 2012.
[9] STONE H, SIDEL J L. 感官評定實踐[M]. 北京: 化學工業出版社, 2007.
[10] 邵志芳. 心理統計學[M]. 北京: 中國輕工業出版社, 2012.
[11] 甘怡群, 張軼文, 鄒玲. 心理與行為科學統計[M]. 北京: 北京大學出版社, 2009.
[12] International Organization for Standardization. ISO/DIS 8587—2006 Sensory Analysis-Methodology-Ranking[S]. United States: Information Handling Services, 2006.
[13] 生慶海, 張愛霞, 馬蕊. 乳與乳制品感官品評[M]. 北京: 中國輕工業出版社, 2009.
[14] LAWLESS H T, HEYMANN H. 食品感官評價原理與技術[M]. 北京: 中國輕工業出版社, 2001.
[15] 王靜龍. 非參數統計分析[M]. 北京: 高等教育出版社, 2012.
General Guidance for Performance Evaluation of Sensory Ranking Panels and Panelists
SHI Bo-lin1, ZHAO Lei1,*, HUAN Chang2, WANG Hou-yin1, ZHI Rui-cong1, SU Yu-fang3, XIE Nan1, LI Zhi1, ZHANG Lu-lu1
(1. Food and Agriculture Standardization Institute, China National Institute of Standardization, Beijing 100191, China; 2. School of Computer Engineering and Science, Shanghai University, Shanghai 200444, China; 3. Technology Center, Inner Mongolia YiLi Industrial Group Co. Ltd., Hohhot 010110, China)
Repeatability, reproducibility and consistency are considered as the indexes for the ranking capability of panels and panelists for sensory evaluation. The type, difference and number of samples are very important in ranking performance measurement. Rank is identified as the basic data style to evaluate the ranking capability. If the order of samples is unknown, the optimal evaluation order should be firstly confirmed by the methods combining Friedman test and least significant difference (LSD) after unsuitable panelists who have less repeatability and reproducibility are rejected. This paper was focused on the application approach of the two-variable Spearman rank correlation and Kendall coefficient of concordance for multiple variables in evaluating the repeatability, reproducibility, consistency of panels and panelists. Meanwhile, a good manufacturing practice to evaluate the ranking capability of panels and panelists has been established, which will provide a theoretical foundation for proficiency testing of sensory ranking panels from different laboratories. It is not only helpful for monitoring the performance of panels and panelists, but also for improving management capacity of sensory evaluation laboratories.
sensory analysis; ranking; panels and panelists; performance evaluation
TS207.3
A
1002-6630(2014)17-0346-05
10.7506/spkx1002-6630-201417064
2014-04-03
中國標準化研究院院長基金項目(562013Y-3079);質檢公益性行業科研專項(201410006)
史波林(1981—),男,副研究員,博士,研究方向為食品感官評價與智能感官分析。E-mail:shibl@cnis.gov.cn
*通信作者:趙鐳(1968—),女,副研究員,博士,研究方向為食品感官分析標準化。E-mail:zhaolei@cnis.gov.cn