摘要
为提高卷烟配方模块的分类识别准确率,并为卷烟配方模块的科学评估提供技术支撑,提出了一种基于近红外光谱特征筛选的卷烟配方模块香型预测方法。选取2017—2019年238个卷烟配方模块样品的近红外光谱数据,结合特征工程中的递归特征消除法和BP神经网络、随机森林、XGBoost 3种机器学习技术,构建了基于特征变量的香型预测模型。与全光谱数据训练的分类效果对比,经过递归特征消除法筛选后的光谱特征变量能够有效提升卷烟配方模块香型的识别准确率,其中,XGBoost算法分类效果最佳,模型对测试集的识别准确率达到了90.41%。结果表明,基于近红外光谱特征筛选的香型预测方法对卷烟配方模块的快速定位、科学评价及卷烟配方设计等有一定的辅助决策作用。
卷烟配方模块的香型是影响卷烟香气风格的重要指标,也是卷烟配方设计与产品维护的重要评价依
近红外光谱(NIRS)具有简单、快速、成本低、环保、信息量大等优点,已被广泛应用于烟草领域的定量检测和定性分
笔者前期研究运用PCA算法对近红外光谱数据降维,可实现利用12个综合变量反映原数据96%信息的效果,但因为原数据中与香型相关度低的变量占多数,PCA算法未能消除这些冗余变量,导致模型的训练效果不理想(未发表)。特征递归消除法可以有效地消除冗余变量,提高预测模型的稳定性与鲁棒性,实现对高维大数据集特征的快速筛选,但运用该方法实现近红外光谱数据降维的研究还鲜见报
试验材料为湖北中烟工业有限责任公司提供的2017—2019年份的卷烟配方模块,共计238份。其中,清香型配方模块样品76份,中间香型配方模块样品104份,浓香型配方模块58份,配方模块的生产年份主要集中在2017—2019年,具体分布如
香型 Aroma type | 2017 | 2018 | 2019 | 总计Total |
---|---|---|---|---|
清香型 Fragrance | 25 | 11 | 40 | 76 |
中间香型Intermediate fragrance | 42 | 10 | 52 | 104 |
浓香型 Strong fragrance | 22 | 7 | 29 | 58 |
样本量Sample size | 89 | 28 | 121 | 238 |
布鲁克MATRIX-I工业现场级傅立叶变换近红外光谱仪(德国布鲁克光谱仪器公司生产);宾德BD400标准培养箱(德国宾德公司生产);AUARI中药粉碎机(温岭市奥力中药机械有限公司生产)。
在进行近红外光谱数据采集之前需对待测样品进行预处理。238份卷烟配方模块在取样后放置于标准培养箱,40 ℃烘干2 h,使用中药粉碎机将样品磨成粒径0.425 nm大小的粉末并用密封袋密封待测。取约50 g待测样品放入样品杯中,用压紧器压实后放到近红外光谱仪上进行数据采集。其中,数据采集的操作过程严格保持在温度22 ℃、相对湿度60%的环境条件下进行。近红外光谱仪采集的波段范围为3 600~12 500 c

图 1 近红外光谱预处理图
Fig.1 Pre-processed NIR spectroscopy
A:原始近红外光谱图 Initial NIR spectroscopy;B:标准正态校正处理后近红外光谱图NIR spectroscopy after SNV;C:一阶导数处理后近红外光谱图NIR spectroscopy after first derivative processing.
随机森林(random forests)是Breima
本研究为模型设置了提前终止训练的条件,以获得较好的BP神经网络模型。针对XGBoost和随机森林算法,使用网格搜索确定模型重要参数,并采用五折交叉验证减少数据集划分的随机性对结果的影响,超参数的取值如
模型 Model | 超参数 Super-parameter | 取值 Value |
---|---|---|
XGBoost | learning_rate | 0.01 |
n_estimators | 700 | |
max_depth | 8 | |
min_child_weight | 3 | |
gamma | 0 | |
subsample | 0.5 | |
colsample_btree | 0.7 | |
随机森林 Random forest | estimators | 40 |
max_depth | 5 | |
max_features | 9 | |
min_samples_leaf | 7 | |
min_samples_split | 17 |
将238条模块的近红外光谱数据按照4∶1的比例随机划分5次,形成5份数据集,每份数据集包含训练集190条数据,测试集48条数据,数据集中3种香型在训练集和测试集中分布比例相同,具体的数据分布情况如
香型 Aroma type | 训练集 Training set | 测试集 Testing set |
---|---|---|
清香型 Fragrance | 58 | 15 |
中间香型 Intermediate fragrance | 83 | 21 |
浓香型 Srong fragrance | 49 | 12 |
以全光谱作为输入数据、香型为分类标签,采用BP神经网络、XGBoost、随机森林模型对5份随机生成的训练集和测试集数据进行模型学习和预测,各指标取平均值作为模型的综合评价指标,训练结果见
模型 Model | 训练准确率均值Average of training accuracy | 预测准确率均值Average of prediction accuracy |
---|---|---|
BP神经网络 BP neural network | 90.63 | 58.75 |
XGBoost | 100.00 | 76.25 |
随机森林 Random forest | 100.00 | 65.42 |
为了减少无关变量对模型训练的干扰,采用基于随机森林的递归特征消除法和五折交叉验证法进行相关指标的特征变量筛选,实现对近红外光谱1 153个特征变量的特征评价。经过试验,得到了各个特征变量的排名顺序,并筛选出与香型相关的39个特征波长,主要分布于区间[4 300,4 400]、[5 600,5 900]、[8 100,8 800]、[10 500,12 000]。由筛选结果可以看出,影响香型的特征大多为偏度和峰度,说明不同香型模块的偏度和峰度存在一定的差异,是进行影响香型分类的重要特征变量。
以筛选出的特征变量作为输入数据、香型作为分类标签,通过BP神经网络、XGBoost、随机森林3种模型对训练集和测试集数据进行模型学习和预测,训练结果见表
模型 Model | 训练准确率均值Average of training accuracy | 预测准确率均值Average of prediction accuracy |
---|---|---|
BP神经网络 BP neural network | 87.57 | 75.83 |
XGBoost | 100.00 | 90.41 |
随机森林 Random forest | 100.00 | 89.58 |
香型Aroma type | BP神经网络BP neural network | XGBoost | 随机森林 Random forest |
---|---|---|---|
清香型 Fragrance | 72.00 | 85.53 | 84.00 |
中间香型 Intermediate fragrance | 75.24 | 94.29 | 94.29 |
浓香型 Srong fragrance | 81.67 | 90.00 | 88.33 |
总计 Total | 75.83 | 90.41 | 89.58 |
数据集 Data set | 随机森林 Random forest | XGBoost | ||
---|---|---|---|---|
训练准确率 Trainingaccuracy | 预测准确率 Prediction accuracy | 训练准确率 Trainingaccuracy | 预测准确率 Prediction accuracy | |
数据集1 Data set 1 | 100.00 | 95.83 | 100.00 | 93.75 |
数据集2 Data set 2 | 100.00 | 91.67 | 100.00 | 89.58 |
数据集3 Data set 3 | 100.00 | 87.50 | 100.00 | 89.58 |
数据集4 Data set 4 | 100.00 | 87.50 | 100.00 | 89.58 |
数据集5 Data set 5 | 100.00 | 85.40 | 100.00 | 89.58 |
均值 Average | 100.00 | 89.58 | 100.00 | 90.41 |
为实现对卷烟配方模块香型风格的快速定位和科学评价,本研究提出了一种基于递归特征消除法和机器学习的分类模型。该模型利用配方模块的近红外光谱数据中与香型关联度较强的特征变量,通过递归特征消除法降低学习任务的难度并提升模型的泛化能力,实现对香型的识别。为了验证模型的有效性,本研究采用BP神经网络、随机森林、XGBoost 3种算法分别对全光谱数据和特征筛选后数据进行模型训练,并在训练集和测试集上进行了测试。结果表明,经过特征筛选的数据训练出的模型在预测效果上显著优于全光谱数据的模型,其中经过特征筛选的随机森林算法和XGBoost算法训练的模型平均预测准确率分别为89.58%和90.41%(
随机森林算法通过构建多个决策树并进行集成得出最终的分类结果,具有解决数据共线性和冗余问题以及测量变量重要性的优点,可以应用于高维数据集的特征筛选,并且具有很好的泛化能力和鲁棒
本研究中3种机器学习算法发挥了各自的优点,并结合递归特征消除法筛选特征变量进一步提升了算法的泛化能力和预测精度。试验结果表明,在利用递归特征消除法从高维度的近红外光谱数据中提取的特征信息结合随机森林算法、XGBoost算法可用于识别卷烟配方模块的香型风格特征,实现香型指标评价的客观化,为烟草行业人员提供辅助决策的科学依据。
参考文献 References
乔学义,申玉军,马宇平,等.不同香型烤烟烟叶香韵研究[J].烟草科技,2014,47(2):5-7.QIAO X Y,SHEN Y J,MA Y P,et al.Study on characteristic aroma notes of flue-cured tobacco leaves of different flavor styles[J].Tobacco science & technology,2014,47(2):5-7(in Chinese with English abstract). [百度学术]
李章海,王能如,王东胜,等.不同生态尺度烟区烤烟香型风格的初步研究[J].中国烟草科学,2009,30(5):67-70.LI Z H,WANG N R,WANG D S,et al.Preliminary study of aroma type styles of flue-cured tobacco in different ecological scale regions[J].Chinese tobacco science,2009,30(5):67-70(in Chinese with English abstract). [百度学术]
邱昌桂,孔兰芬,杨式华,等.基于GA-SVM算法的烤烟香型自动识别研究[J].烟草科技,2019,52(2):101-108.QIU C G,KONG L F,YANG S H,et al.Automatic recognition of flavor types of flue-cured tobacco based on GA-SVM algorithm[J].Tobacco science & technology,2019,52(2):101-108(in Chinese with English abstract). [百度学术]
周泽弘,曹淋海,王昌全,等.基于RBF神经网络建立库存烟叶香型的预测模型[J].中国烟草科学,2016,37(2):65-70.ZHOU Z H,CAO L H,WANG C Q,et al.The establishment of prediction model of inventory tobacco flavor based on RBF neural network[J].Chinese tobacco science,2016,37(2):65-70(in Chinese with English abstract). [百度学术]
郭东锋,闫宁,胡海洲,等.基于机器学习算法的烤烟香型分类研究[J].江西农业学报,2016,28(2):43-48.GUO D F,YAN N,HU H Z,et al.Study on classification of flue-cured tobacco based on machine learning methods[J].Acta agriculturae Jiangxi,2016,28(2):43-48(in Chinese with English abstract). [百度学术]
徐广通,袁洪福,陆婉珍.现代近红外光谱技术及应用进展[J].光谱学与光谱分析,2000,20(2):134-142.XU G T,YUAN H F,LU W Z.Development of modern near infrared spectroscopic techniques and its applications[J].Spectroscopy and spectral analysis,2000,20(2):134-142(in Chinese with English abstract). [百度学术]
鲁梦瑶,杨凯,宋鹏飞,等.基于卷积神经网络的烟叶近红外光谱分类建模方法研究[J].光谱学与光谱分析,2018,38(12):3724-3728.LU M Y,YANG K,SONG P F,et al.The study of classification modeling method for near infrared spectroscopy of tobacco leaves based on convolution neural network[J].Spectroscopy and spectral analysis,2018,38(12):3724-3728(in Chinese with English abstract). [百度学术]
栾丽丽,王宇恒,胡文雁,等.应用近红外光谱和多算法融合方法分析烤烟的香型风格特征[J].光谱学与光谱分析,2017,37(7):2046-2049.LUAN L L,WANG Y H,HU W Y,et al.Analysis of flue-cured tobacco flavor style features using near-infrared spectroscopy and multiple algorithms fusion[J].Spectroscopy and spectral analysis,2017,37(7):2046-2049(in Chinese with English abstract). [百度学术]
郝贤伟,黄文勇,徐志强,等.基于近红外光谱技术的云南片烟综合质量评价[J].中国烟草科学,2022,43(2):58-63.HAO X W,HUANG W Y,XU Z Q,et al.Comprehensive quality evaluation of Yunnan tobacco strips based on near infrared spectroscopy[J].Chinese tobacco science,2022,43(2):58-63(in Chinese with English abstract). [百度学术]
ZHANG L,DING X Q,HOU R C.Classification modeling method for near-infrared spectroscopy of tobacco based on multimodal convolution neural networks[J/OL].Journal of analytical methods in chemistry,2020:9652470[2022-06-22]. https://doi.org/10.1155/2020/9652470. [百度学术]
李武,胡冰,王明伟.基于主成分分析和支持向量机的太赫兹光谱冰片鉴别[J].光谱学与光谱分析,2014,34(12):3235-3240.LI W,HU B,WANG M W.Discrimination of varieties of borneol using terahertz spectra based on principal component analysis and support vector machine[J].Spectroscopy and spectral analysis,2014,34(12):3235-3240(in Chinese with English abstract). [百度学术]
冯晓荣,瞿国庆.基于深度学习与随机森林的高维数据特征选择[J].计算机工程与设计,2019,40(9):2494-2501.FENG X R,QU G Q.Feature selection for high dimensional data based on deep learning and random forest[J].Computer engineering and design,2019,40(9):2494-2501(in Chinese with English abstract). [百度学术]
王玲,李定明,钱红娟,等.近红外分析中的基线漂移及校正方法[J].分析试验室,2016,35(10):1203-1208.WANG L,LI D M,QIAN H J,et al.Baseline drift and calibration methods in NIR analysis[J].Chinese journal of analysis laboratory,2016,35(10):1203-1208(in Chinese with English abstract). [百度学术]
BREIMAN L.Random forests[J].Machine learning,2001,45(1):5-32. [百度学术]
丁子予,岳学军,曾凡国,等.基于机器学习和深度学习的玉米种子活力光谱检测[J].华中农业大学学报,2023,42(3):230-240.DING Z Y,YUE X J,ZENG F G,et al. Spectral detection of maize seed vigor based on machine learning and deep learning [J].Journal of Huazhong Agricultural University,2023,42(3):230-240(in Chinese with English abstract). [百度学术]
CHEN T Q,GUESTRIN C.XGBoost:a scalable tree boosting system[DB/OL] .arXrv,2016:1603.02754[2022-06-22].https://doi.org/10.48550/arXiv.1603.02754. [百度学术]
刘秀英,余俊茹,王世华.光谱特征变量和BP神经网络构建油用牡丹种子含水率估算模型[J].农业工程学报,2020,36(22):308-315.LIU X Y,YU J R,WANG S H.Estimation of moisture content in peony seed oil using spectral characteristic variables and BP neural network[J].Transactions of the CSAE,2020,36(22):308-315(in Chinese with English abstract). [百度学术]
GUYON I M,WESTON J,BARNHILL S,et al.Gene selection for cancer classification using support vector machines[J].Machine learning,2002,46:389-422. [百度学术]
WANG Z Y,POON J,WANG S Z,et al.A novel method for clinical risk prediction with low-quality data[J/OL].Artificial intelligence in medicine,2021,114:102052[2022-06-22].https://doi.org/10.1016/J.ARTMED.2021.102052. [百度学术]