馮潤澤,雒興剛,張忠良*,湯建國,喬丹娜
1. 杭州電子科技大學管理學院,杭州市杭州經濟開發區白楊街道2 號大街1158 號 310018 2. 云南中煙工業有限責任公司技術中心,昆明市五華區紅錦路367 號 650231
卷煙葉組配方由不同產地、部位、等級的單料片煙配比而成,而卷煙配方維護是保證卷煙產品質量穩定性的手段,需要考慮配方中單料片煙之間的配伍性[1]。在我國卷煙生產實踐中,單料片煙是由單產地、單一等級的原煙加工而成或根據一定規則組合而成的,是卷煙配方的最小模塊,其相互之間的配伍性是兩個或多個單料片煙組合后形成的卷煙配方感官質量潛力的表現[2]。在工業企業的實際生產過程中,會因為一些不可抗拒因素(如自然災害、供應短缺等)造成供應鏈中一種或幾種單料片煙的產能下降,從而導致卷煙配方質量方面的波動,就需要通過評吸人員的評吸工作來尋找替代的單料片煙[3]。人工評吸不僅時間長、成本高,而且容易受到客觀環境和主觀因素的影響[4],因此研究更加快速、低成本且能反映工業企業實際生產過程的卷煙配方維護方法已成為企業的迫切需求[5]。
長期以來,一些科研人員對卷煙配方維護進行了研究,如一些學者通過配方的紅外光譜信息以及熱解差異度來輔助卷煙配方維護過程[1-2];王林等[6]使用感官質量評吸方法構建了配方模塊,評價了煙葉質量的差異;郭科等[7]使用BP 神經網絡建立了葉組化學成分與感官質量和煙氣化學成分之間的映射,得到了所選取煙葉的配方最佳比例;楊蕾等[8]使用GC/MS 法分析了煙絲中的揮發性成分,提高了配方葉組中主要致香成分含量;楊超等[9]采用因子分析、聚類分析統計方法分析了煙葉的化學成分,完善了配方維護的評價方式;一些學者通過數據挖掘或智能優化算法將經驗轉化為數據,完成配方維護的相關工作[10-11];雖然已有工作對卷煙配方維護進行了一些探索,但是現有研究基本沒有過多考慮單料片煙之間的配伍性問題;雒興剛等[12]運用關聯規則挖掘尋找可行的單料片煙配伍規則,但是此方法只能考慮非主干單料片煙之間的替換,并不能解決主干單料片煙缺失的情況;王楠等[13]利用非負矩陣分解的方法挖掘單料片煙之間隱含的配伍規則,并且解決了任意單料片煙缺失的配方維護問題,但該方法只能隱式地考慮配伍性,并不能把配伍性反映在顯式的模型或者算法中,并且只能評估數量相等的單料片煙的替換過程,不能反映實際生產過程中大量數量不對等的維護情況。
基于此,提出了一種基于互信息的卷煙配方維護方法,利用歷史數據挖掘單料片煙之間的配伍性規律,還原實際生產過程中配方人員的經驗以及配方維護過程。此方法使用互信息來表示單料片煙之間的配伍性,將配伍性顯式地表示在算法中,并用替換單料片煙與被替換單料片煙在配方中作用的相似性來生成推薦列表,以期能夠保證新形成配方的整體配伍性,并解決實際生產過程中出現頻率最高的數量不對等替換的度量問題,同時減少評吸人員的工作量,為配方維護人員提供合理可行的配方維護方案。
選擇某煙草公司3 年(即2010 年1 月到2012年12 月)的數據進行研究。數據包括24 種卷煙品牌,1 534 種配方,1 220 種單料片煙(單料片煙包括3 個部位、6 種顏色、3 個檔次,以及國內和國外2 個地區)。
配方數據文件包含1 534 條配方信息及其22個屬性信息,其中1 534 條配方信息被重新編號為FBI0001 ~FBI1534,在配方信息中,根據配方生效時間將各品牌內的配方重新排序,即在同一個品牌配方數據中,編號靠后配方數據的生效時間一定比編號靠前數據的生效時間晚。單料片煙被編號為AD0001 ~AD0716 和DLC0001 ~DLC2072 且數據不連續。調研發現,卷煙配方人員根據先驗知識就可以通過煙葉的部位、產地、顏色等信息來完成卷煙配方的維護工作。因此,單料片煙的數據根據其物理屬性(部位、顏色、檔次、地區)被重新劃分為36 個類別,其中部位分為上部、中部、下部,顏色分為枯黃色和其他(因為除枯黃色外其他顏色數量較少,故將除枯黃色的顏色合并為其他),檔次分為上等、中等、下等,地區分為國內和國外,組合共36 類,稱為36 種單料片煙。部位為上部、顏色為枯黃色、檔次為上等、地區為國內的單料片煙分為單料片煙1,部位為上部、顏色為枯黃色、檔次為上等、地區為國外的單料片煙分為單料片煙2 等依此類推。
將數據轉換為配方矩陣F(m×n),其中,行表示1 534 個配方(m),列表示36 種單料片煙(n),矩陣中的值表示配方i包含單料片煙j的數量。
1.2.1 互信息
互信息由Church 等[14]于1989 年提出,該方法已經在圖像配準、機器學習、量子信道通信等領域廣泛應用[15-20]。
在數據集中,第j種單料片煙被定義為Cigj,因此,共現關系信息CR(Cigj)的計算公式為:


其中:n為數據集中單料片煙的總種類個數;Fq(Cigj,Cigk)表示單料片煙j和單料片煙k在數據集中一起出現的相對頻率,計算公式為:

其中:Q(Cigj,Cigk)為Cigj和Cigk同時出現在一個配方中的次數;QAll為配方總數。Fq(Cigj,Cigk)的值越大,說明在卷煙配方中,單料片煙j和單料片煙k越經常同時出現。
所有單料片煙的共現關系集合CR可表示為:

第j個單料片煙和第k個單料片煙之間的互信息計算公式為:

其中:Q(Cigi)為包含Cigi的配方個數,QAll為 配方總數。
通過1.1 的數據集可以得出CR。本研究中提出的方法基于以下假設:配伍性良好的單料片煙會有較高的概率同時出現在同一個配方中。
1.2.2 基于互信息的卷煙配方維護算法
基于互信息的卷煙配方維護算法主要衡量替換單料片煙和被替換單料片煙在配方中作用的相似性。在一個配方中替換單料片煙的作用通過替換單料片煙和每一個剩余單料片煙的互信息進行計算。圖1 中展示了exi和Cigj的作用,線旁邊的數值顯示了線兩端連接節點單料片煙之間的互信息值。其中exi∈Fi表示了在第i個配方中一個替換單料片煙,Cigji表示配方中的缺失單料片煙,fpi∈Fi表示了在第i個配方中,除去被替換單料片煙之外剩余單料片煙的第p個單料片煙。
將替換單料片煙的作用role(exi)表示為一個n維向量,由以下公式得到:


圖1 exi和Cigj的作用Fig.1 Roles of exi and Cigj
Fq(Cigj,Cigk)可根據 公 式(2)得到,Mutual(Cigj,Cigk)的值越大,說明單料片煙Cigj和Cigk配伍性越好。
同樣,對于單料片煙Cigj,role(Cigj)可以將公式(6)中exi替換為Cigj來表示。例如,在圖1 中,n即為4,role(ex)可以表示為一個4 維向量。單料片 煙exi的 作 用role(exi)=(22.33,10.56,0.08,2.79),單 料 片 煙Cigj的 作 用9.98,0.12,3.17)。
計算替換單料片煙作用role(exi)和被替換單料片煙作用之間的漢明距離[21]HD(exi,是對于第i個配方來說的,例如,在圖1 中9.98|+|0.08-0.12|+|2.79-3.17|=3.42。
基于互信息的卷煙配方維護方法如圖2 所示。

圖2 基于互信息的卷煙配方維護方法流程圖Fig.2 Flow chart of proposed cigarette blend maintenance method based on mutual information
1.2.3 卷煙配方維護效果評估
在實際的配方維護過程中,除了一對一替換,多數情況下是數量不相等的單料片煙替換過程,如:一換多、多換一、多換多、直接增加、直接刪去等。在之前的研究工作中大多為一對一替換與多對多替換[1-2,10,14],還沒有對數量不相等的單料片煙替換過程進行研究。因此,提出一種排名方式來評估數量不對等的單料片煙替換實驗效果的優劣,但本研究中仍不考慮直接增加和直接刪去兩種情況。
由于在實際配方維護過程中新配方都由上一個版本的配方調整得到,如版本3 一定是由版本2調整得到,而非版本1 調整得到,因此在衡量算法效果時,只考慮能否預測成功配方與其下一個版本配方的替換結果。衡量算法效果的指標計算方法如圖3~圖5 所示。

圖3 配方矩陣轉化Fig.3 Blend matrix conversion

圖4 一次配方維護過程Fig.4 A blend maintenance process

圖5 平均排名avg 計算方法Fig.5 Calculating method for average rank avg
如圖3 所示,首先將源數據轉化為配方矩陣,在源數據中,FBI001 由AD0001、AD0002、AD0004等原煙構成,由于AD0001、AD0002 屬于單料片煙1,AD0003 屬于單料片煙7 等,統計配方FBI001 中各單料片煙的數量,可以得到配方矩陣F(m×n)。如圖4 可知在配方FBI001 經維護后變為FBI002 的過程中,FBI001 是包括3 個單料片煙1,5 個單料片煙2 等的配方,在本次維護過程中,單料片煙4 和單料片煙6 中有一個單料片煙缺少,所以在本次卷煙配方維護中,單料片煙4 和單料片煙6 為缺失單料片煙,即被替換單料片煙,并且在本次維護中,使用了單料片煙1、單料片煙3 和單料片煙7替換了單料片煙4 和單料片煙6,所以在FBI002 中單料片煙1、單料片煙3 和單料片煙7 各增加了一個。單料片煙4 和單料片煙6 被單料片煙1、單料片煙3 和單料片煙7 替換,是典型的數量不相等的單料片煙替換過程。如圖5,為了評估算法的效果,對于被替換的單料片煙4 和單料片煙6 都用1.2.2 節中算法計算一次后,排序得到推薦列表,在兩個推薦列表中,分別找出替換單料片煙的排名,然后取各自排名的最小值。因為單料片煙1 和單料片煙7 在單料片煙4 推薦列表中的排名更靠前,單料片煙3 在單料片煙6 推薦列表中的排名更靠前,可認為單料片煙1 和單料片煙7 在作用上可以替換單料片煙4,而單料片煙3 在作用上可以替換單料片煙6。在得到替換單料片煙的排名最小值后,取各自排名最小值的平均值即可得到替換單料片煙在推薦列表List中的平均排名avg。
根據平均排名,計算以下3 種模型性能度量指標:①在推薦單料片煙的有序列表List中實際替換單料片煙平均排名avg的平均數。②在推薦單料片煙的有序列表List中實際替換單料片煙平均排名avg的中位數。③實際替換的單料片煙平均排名avg位于推薦單料片煙列表List的前5 位的百分比。由于使用的是實際生產中替換過程的真實數據,因此如果前兩個指標越小,第三個指標越大,則說明算法推薦越接近實際生產,算法推薦效果越好。

對于所有非只增加或者只減少單料片煙的維護,都用1.2.2 節中的方法進行實驗,然后根據
1.2.3 節中的方法計算出算法性能度量指標。
對24 種品牌共1 534 個配方和36 種單料片煙使用1.2.2 節中描述的方法進行實驗,實驗結果如表1 所示。

表1 排名平均數、排名中位數及各排名內單料片煙數量的比例Tab.1 Rank average,rank median and percentage of single-grade strips in each rank
由表1 中排名平均數可知,在推薦單料片煙的有序列表List中實際替換單料片煙平均排名avg的平均數為6.585(共36 種單料片煙)。由排名中位數可知,在推薦單料片煙的有序列表List中,有一半的實際替換的單料片煙平均排名為1。第3個度量指標說明有85.66%的實際替換單料片煙平均排名avg在推薦單料片煙的有序列表List中的排名≤5,排名≤15 的比例達到90.16%,從上述度量指標可以看出本算法表現良好,與實際生產中的替換過程相吻合。
由上述實驗數據繪制的排名統計圖見圖6。

圖6 實際替換單料片煙平均排名的分布Fig.6 Distribution of average rank of actual single-grade tobacco strip substitution
由圖6 可以看到,在實際替換過程中,大部分實際替換單料片煙的平均排名在推薦單料片煙的有序列表List中排名為1,并且大部分都集中在排名前6 位,之后數量呈現為下降趨勢。但是在排名33 至36 位范圍內也集中了一部分數量,經過查找原始數據發現這些單料片煙出現次數極少,且只在特定的配方中出現,因此在算法計算過程中無法進行準確檢測,就會被認為這些單料片煙與配方中剩余的單料片煙的配伍性非常差,在單料片煙的有序列表List中就會排名靠后。因此這個問題不是算法本身的問題,與單料片煙本身的使用頻率、屬性等有關,遇到只在特定配方中出現的單料片煙時,再去考慮這些出現次數極少的單料片煙即可。
根據上述實驗,可以繪制出排名百分比統計圖,見圖7。

圖7 實際替換單料片煙平均排名百分比的分布Fig.7 Distribution of average rank percentage of actual single-grade tobacco strip substitution
由圖7 可以看出,有約76%的實際替換單料片煙排在推薦列表List中的第1 位,排名百分比趨勢為先快速上升,達到約90%時上升趨勢開始趨緩,然后在平均排名33 時又開始快速上升至100%,說明算法可以很好地還原實際生產過程中單料片煙的替換過程,并且能得到配伍性良好的單料片煙,可以輔助實際生產中的配方維護工作。
①提出一種基于互信息的卷煙配方維護方法,該方法通過計算單料片煙之間的共現頻率,從而計算出單料片煙之間的互信息,并通過某一配方中候選單料片煙與剩余單料片煙之間的互信息來評估候選單料片煙與該配方中剩余單料片煙之間的配伍性,從而完成配方維護過程。②提出的衡量算法效果的度量指標解決了數量不對等的單料片煙替換過程的效果度量問題,可以衡量在實際生產過程中更為常見的數量不對等的多對多的單料片煙替換問題。根據實驗結果,缺失單料片煙在推薦列表中排名平均數為6.585,排名中位數為1,且在推薦列表中排名≤5 的缺失單料片煙占比為85.66%。本算法達到了較好的效果,且與實際生產過程中的配方維護過程相吻合,能夠還原配方人員的經驗以及實際生產中配方維護的過程,且利用該方法可以生成候選卷煙配方維護方案,有效減少卷煙配方維護工作量。