摘要
为提高全蛋粉掺假检测的准确度和检测效果,应用近红外光谱技术对全蛋粉掺假进行定性判别并对掺假含量进行定量分析。分别采用标准正态变换、多元散射校正、卷积平滑、归一化、一阶导数、二阶导数等6种不同预处理方法,对原始光谱数据进行预处理,采用竞争性自适应重加权算法(CARS)、连续投影算法(SPA)及CARS-SPA结合算法对光谱数据进行特征波长筛选,建立集成学习(ensemble learning,EL)模型对掺假蛋粉进行定性判别,建立偏最小二乘模型(PLSR)对掺假含量进行定量分析。结果显示:在对掺假蛋粉进行定性判别方面,一阶导数为最佳预处理方法,CARS算法特征筛选效果最佳,EL模型对掺假蛋粉样本总体判别准确率达到98.18%,对各类掺假蛋粉样品的判别准确率在97.78%以上。在对蛋粉掺假含量进行定量分析方面,多元散射校正为最佳预处理方法,CARS算法特征筛选效果更佳,对一组分掺假、二组分掺假、三组分掺假和所有掺假样本的PLSR浓度预测模型的预测集相关系数(Rp)分别为0.958 5、0.931 2、0.945 6和0.955 8,均方根误差(RMSEP)分别为4.689 1、5.813 4、4.604 1和3.802 9。研究结果表明,近红外光谱技术可用于蛋粉掺假检测,为监管机构检测蛋粉掺假提供参考。
蛋粉的蛋白质含量高,矿物质和维生素种类丰富,具有显著的功能性质(如凝胶性、乳化性、保脂肪性、保水性等),是鸡蛋的理想替代
近红外光谱技术是一种便捷的绿色分析检测技术,已经广泛应用于奶粉、莲子粉等粉末状食品掺假检测中。Capuano
综上所述,传统的蛋粉生物化学方法检测效率低、仪器价格昂贵,无法满足大规模、快速、无损的检测需求。近红外光谱技术简单方便,适用于食品工业质量控制。本研究基于近红外光谱技术对全蛋粉掺假物进行定性检测,并对掺假物的含量进行预测,旨在为提高全蛋粉掺假检测准确度和检测效果提供参考。
购买湖北神地科贸有限公司、安徽荣达食品有限公司、江苏康德蛋业有限公司3种全蛋粉以及实验室自制的全蛋粉共4种全蛋粉。为了确保纯蛋粉之间的差异性,选择不同生产批次的纯蛋粉,最终称取纯蛋粉样品60个。为确保纯蛋粉的真实性,参照 GB 5009.5—2016《食品中蛋白质的测定》中的凯氏定氮法测定蛋粉中的蛋白质含量,每次测定取纯蛋粉样品0.5 g,氮换算为蛋白质的系数F为6.25,参照GB 5009.6—2016《食品中脂肪的测定》中的索氏抽提法测定蛋粉中的脂肪含量,每次测定取纯蛋粉样品2~5 g,最终测得纯蛋粉样品的蛋白质含量≥45.0%,脂肪含量≥40.0%,在合理范围
选择市面上常见的3种全蛋粉掺假物:大豆分离蛋白(优嘉宝食品有限公司)、麦芽糊精(优嘉宝食品有限公司)、小麦淀粉(宝鼎天鱼有限公司)。蛋粉的掺假分为一组分掺假:单独掺入大豆分离蛋白、麦芽糊精、小麦淀粉的1种,共180个样品;二组分掺假:掺入3种掺假物质中的2类,每类掺假物含量占掺假总含量的50%,共180个样品;三组分掺假:掺入全部3种掺假物质,每类掺假物含量占掺假总含量的1/3,共240个样本。3类掺假物的掺假含量均分别为0.1%、0.5%、1%、2%、5%、10%、15%、20%、30%、40%、50%、60%,最终制备掺假样品600个。对全部纯蛋粉和掺杂物过孔径1 mm标准筛进行处理,确保试验样品的颗粒大小均匀。将掺假后的蛋粉置于搅拌机中搅拌超过1 min,以确保掺假物颗粒均匀分布在蛋粉样品中。试验中把所有样本均放入样品袋(约装有样品10 g)并置于4 ℃冰箱中贮藏。制备的试验样品如

图1 试验样本
Fig.1 Samples of the experiment
光谱仪为美国Thermo Scientific公司的Antaris II型傅里叶近红外光谱分析仪。波数10 000~4 000 c
样本类别不平衡是指分类任务中不同类别的样本数目差别很大。如果类别比例超过4︰1,则视为样本不均衡。样本不均衡会导致实际预测结果对多数类别有侧重。为避免样本不均衡问题,在构建分类模型之前,需要对分类不平衡性问题进行处
(1) |
KS(Kennard-Stone,KS)算法可以有效提取光谱数据差异较大的样品作为训练集,剩余样本划分为测试集,本研究使用KS算法将样本集按照3︰1划分为训练集和测试集。KS划分数据集后,训练集样本495个(真样本45个、掺假样本450个),测试集样本165个(真样本15个、掺假样本150个)。
训练集样本存在类别不平衡的情况,采用SMOTE算法,对训练集样本以掺假样本和纯样本1︰1的比例生成纯蛋粉样本。最终得到训练集数据900个(真样本450个、掺假样本450个),测试集数据165个(真样本15个、掺假样本150个)。
为了减少全蛋粉样本光谱原始数据中噪声和冗余信息的影响,并使有用信息更突出,本研究比较标准正态变换(standard normal variate,SNV)、多元散射校正(multiplicative scatter correction,MSC)、卷积平滑(savitzky golay,SG)、归一化(normalize)、一阶导数(first derivative,FD)、二阶导数(second derivative,SD)共6种不同的预处理方法的建模效果。
采集到的原始光谱变量数有1 557个,这些光谱变量之间存在大量的冗余变量甚至是干扰变量,如果采用全波段信息建立分析判别模型,不仅会加重计算负荷,还会影响模型精度,降低模型稳健
采用集成学习模型对掺假蛋粉进行定性分析,集成学习组合了多个弱监督模型以得到一个更全面、更稳定的模型,弥补了单一模型受敏感样本扰动大、稳健性不高的缺陷。集成学习算法主要有2种:基于Bagging的算法和基于Boosting的算法。Bagging方法在训练过程中,各分类器之间并行训练。Boosting方法训练各分类器采用串行的方

图2 Boosting算法原理图
Fig.2 Schematic diagram of Boosting algorithm
(2) |
采用PLSR模型对掺假蛋粉的掺假物含量进行定量分析,PLSR建模过程结合了多元线性回归分析、典型相关性分析、主成分回归分析的优点,可以在建模分析过程中兼顾光谱数据和掺假含量对模型的影响,在复杂样品的光谱数据回归分析中应用广
定性分析模型的性能评价指标由准确率(accuracy,Acc,公式中用Acc表示)、掺假识别率(adulteration recognition rate,Arr,公式中用Arr表示)进行评价。
(3) |
(4) |
式(
(5) |
(6) |
(7) |
(8) |
1)纯蛋粉与掺假蛋白粉光谱比较。

图3 样品原始光谱图
Fig.3 Original spectra of samples
A:真样品 Real samples;B:掺假样品 Adulterated samples.
2)不同掺假物蛋粉光谱比较。

图4 不同掺假含量蛋粉光谱图
Fig.4 Spectra of egg powder with different adulteration concentrations
A:不同掺假物Different adulterants;B:不同掺假物含量蛋粉Different adulterated egg powder concentrations.
1)预处理结果。基于原始光谱和预处理后的光谱数据,建立EL分类模型,比较不同预处理方法对模型分类效果的影响,结果如
预处理 Pretreatment | 训练集 Training set | 测试集 Test set | ||
---|---|---|---|---|
Acc | Arr | Acc | Arr | |
无 None | 98.11 | 98.00 | 93.94 | 96.00 |
MSC | 99.78 | 99.56 | 95.15 | 96.88 |
SNV | 97.44 | 97.11 | 97.58 | 98.67 |
FD | 99.89 | 99.78 | 98.18 | 99.33 |
SD | 99.78 | 99.78 | 96.97 | 98.67 |
SG | 97.67 | 96.44 | 95.15 | 97.33 |
归一化 Normalize | 96.00 | 95.78 | 92.12 | 96.00 |
2)特征波长筛选结果。①CARS筛选结果。使用CARS算法对经过一阶导数预处理的蛋粉光谱数据进行特征波长筛选(

图5 CARS变量筛选结果
Fig.5 Results of CARS variable screening
A:采样变量数 Number of sampled variables;B:RMSECV趋势 RMSECV trend;C:回归系数 Regression coefficient path.
②SPA筛选结果。

图6 SPA变量筛选结果
Fig.6 Results of SPA variable screening
A:RMSE趋势 RMSE trends; B:选定的波长点序列 Selected wavelength point sequences.
③CARS-SPA筛选结果。为了尽可能在保证准确率的情况下减少特征波长,提高模型运行速度,将CARS和SPA算法结合,在CARS算法筛选一部分变量后使用SPA算法进行二次筛选。CARS-SPA算法共筛选出9个特征波长,筛选出的特征波长仅占波长总数的0.58%,对应波数分别为4 490、4 821、5 234、5 276、5 932、6 021、6 900、7 617、8 134 c
3)蛋粉掺假定性分析结果。分别使用CARS、SPA和CRAS-SPA算法进行特征波长筛选,以筛选后的波长为自变量,建立EL模型,结果如
预处理Pretreatment | 筛选算法 Filtering algorithm | 特征数 Feature number | 训练集 Training set | 测试集 Test set | 单个检测用时/s Time for individual tests | ||
---|---|---|---|---|---|---|---|
Acc/% | Arr/% | Acc/% | Arr/% | ||||
FD | CARS | 203 | 99.67 | 99.33 | 98.18 | 98.67 | 0.48 |
FD | SPA | 25 | 96.78 | 98.22 | 96.97 | 97.33 | 0.24 |
FD | CARS-SPA | 9 | 99.78 | 99.55 | 97.58 | 98.00 | 0.17 |
测试集中不同种类的掺假物的检测结果如
掺杂种类 Types of adulteration | 掺假样本Adulterationsamples | 真样本Real samples | Acc/% | Arr/% | ||
---|---|---|---|---|---|---|
总数 Total | 误判数 Misjudgment | 总数 Total | 误判数 Misjudgment | |||
一组分掺假 One-component | 45 | 0 | 15 | 1 | 98.33 | 100.00 |
二组分掺假 Two-component | 45 | 1 | 15 | 1 | 96.67 | 97.78 |
三组分掺假 Three-component | 60 | 1 | 15 | 1 | 97.33 | 98.33 |
所有掺假 All adulterated | 150 | 2 | 15 | 1 | 98.18 | 98.67 |
定量分析不存在不同类样本不均衡的问题,因此,不采用SMOTE算法对定量分析的数据集进行扩充。将掺假样本(共600个,一组分掺假180个,二组分掺假180个,三组分掺假240)按照2︰1划分为训练集和测试集,建立PLSR定量分析模型。
1)预处理结果。不同预处理方法PLSR建模结果如
预处理 Pretreatment | PCs | Rc | RMSEC | Rp | RMSEP |
---|---|---|---|---|---|
无 None | 10 | 0.955 4 | 5.987 7 | 0.883 3 | 5.306 7 |
MSC | 14 | 0.981 2 | 3.914 2 | 0.940 9 | 4.053 5 |
SNV | 13 | 0.973 4 | 4.639 5 | 0.927 6 | 4.598 9 |
FD | 15 | 0.989 9 | 3.206 4 | 0.875 5 | 5.470 4 |
SD | 8 | 0.994 2 | 2.186 2 | 0.723 3 | 7.968 2 |
SG | 16 | 0.989 4 | 2.942 1 | 0.931 7 | 4.422 7 |
归一化 Normalize | 15 | 0.979 6 | 4.068 7 | 0.903 3 | 5.069 2 |
2)蛋粉掺假定量分析结果。分别使用CARS、SPA和CRAS-SPA算法筛选特征波长,以筛选后的波长为自变量,建立PLSR模型(
预处理 Pretreatment | 筛选算法 Filtering algorithm | 特征数 Feature number | Rc | RMSEC | Rp | RMSEP |
---|---|---|---|---|---|---|
MSC | CARS | 118 | 0.996 2 | 2.759 3 | 0.955 8 | 3.802 9 |
MSC | SPA | 30 | 0.968 3 | 5.066 5 | 0.890 9 | 7.792 4 |
MSC | CARS-SPA | 27 | 0.983 9 | 3.623 5 | 0.927 6 | 5.424 3 |
使用MSC-CARS-PLSR模型分别对一组分掺假、二组分掺假、三组分掺假和预测集所有掺假样本的掺假含量进行的预测,结果如

图7 掺假含量预测结果
Fig.7 Results of adulteration concentration prediction
A:一组分掺假样本 One-component adulterated samples;B:二组分掺假样本 Two-component adulterated samples;C:三组分掺假样本 Three-component adulterated samples;D:所有掺假样本 All adulterated samples.
本研究以大豆分离蛋白、麦芽糊精、小麦淀粉等3种市面上常见的掺杂物质为掺假物,配置掺假含量为0.1%~60%的掺假蛋粉,采集掺假蛋粉和纯蛋粉的近红外光谱数据,经过比较不同预处理方法和特征波长筛选方法,建立全蛋粉掺假定性判别模型和掺假含量定量分析模型。结果表明,EL定性判别模型的最优预处理方法为FD,最优特征筛选方法为CARS,最优模型对掺假蛋粉的总体判别准确率达到98.18%,掺假识别率达到98.67%,单个样品平均检测用时0.48 s。一组分掺假、二组分掺假、三组分掺假的蛋粉判别准确率分别为98.33%、96.67%、97.33%,掺假识别率分别为100.00%、97.78%、98.33%,所建立的定性判别模型可以实现全蛋粉掺假的定性判别,满足在线检测需求。PLSR定量分析模型的最优预处理方法为MSC,最优特征筛选方法为CARS,最优模型检测下的一组分掺假、二组分掺假、三组分掺假和所有掺假样本的的Rp分别为0.958 5、0.931 2、0.945 6和0.955 8,RMSEP分别为4.689 1、5.813 4、4.604 1和3.802 9,可以实现对全蛋粉掺假含量的定量分析。
目前全蛋粉品质检测的研究还较少,相比于生物化学检测技术,本研究使用近红外光谱技术检测全蛋粉的品质,无需复杂的前处理操作且检测速度快,更适合现场检测;与文献[
为了使模型具有更好的稳健性和适用范围,后续研究可以选择更多品牌且不同生产批次的蛋粉,选择更多种类的掺假物,扩充样本的数量,提高模型的适应性;在保证准确率的前提下还可以改进光谱特征的筛选方法,进一步减少光谱特征变量个数,简化模型,提高模型的准确率和检测效率。由于全蛋粉掺假成分多元复杂,针对某一种或几种的掺杂物建立的检测方法不可能有效地覆盖所有可能的掺杂物质,如何在不影响掺假判别准确率的前提下利用数据处理技术从复杂、变动的全蛋粉数据中准确提取其真实性本征信息,筛选出有效反映全蛋粉真实性和掺假物质之间差异的特征变量,建立非定向掺假鉴别模型,是之后的一个重要探索方向。
参考文献 References
王家镔,林军,曲可欣,等.喷雾干燥与冷冻干燥鸡蛋粉特性研究[J].食品科技,2020,45(3):80-86.WANG J B,LIN J,QU K X,et al.Comparison of microstructure and physicochemical properties of spray drying and freeze-dried egg powder[J].Food science and technology,2020,45(3):80-86 (in Chinese with English abstract). [百度学术]
马爽.蛋粉冲调特性及复合型功能蛋粉的研究与开发[D].长春:吉林大学,2012.MA S.Research and development of blending characteristics of egg powder and compound functional egg powder[D].Changchun:Jilin University,2012 (in Chinese with English abstract). [百度学术]
迟玉杰,赵英,鲍志杰,等.高附加值专用型蛋粉的开发现状与展望[J].中国家禽,2014,36(19):2-4.CHI Y J,ZHAO Y,BAO Z J,et al.Development status and prospect of special egg powder with high added value[J].China poultry,2014,36(19):2-4 (in Chinese). [百度学术]
韩帅娟,林辉松,杨丰帆,等.鸡蛋粉在猪生产中的应用研究进展[J].中国畜牧杂志,2019,55(5):20-24.HAN S J,LIN H S,YANG F F,et al.Research progress on egg powder in swine production[J].Chinese journal of animal science,2019,55(5):20-24 (in Chinese with English abstract). [百度学术]
朱冠楠.市场拓展与政府缺位:全球贸易体系中的中国近代蛋粉业[J].清华大学学报(哲学社会科学版),2020,35(1):189-200.ZHU G N.Market expansion and government absence:China’s modern egg powder industry in the global trade system[J].Journal of Tsinghua University (philosophy and social sciences),2020,35(1):189-200 (in Chinese with English abstract). [百度学术]
陈佳,王爽,周巍,等.DNA条形码技术在淀粉掺假鉴别中的应用[J].食品科学,2019,40(16):281-285.CHEN J,WANG S,ZHOU W,et al.Application of DNA barcoding in detection of starch adulteration[J].Food science,2019,40(16):281-285(in Chinese with English abstract ). [百度学术]
刘平,马美湖.基于高光谱技术检测全蛋粉掺假的研究[J].光谱学与光谱分析,2018,38(1):246-252.LIU P,MA M H.Application of hyperspectral technology for detecting adulterated whole egg powder[J].Spectroscopy and spectral analysis,2018,38(1):246-252(in Chinese with English abstract). [百度学术]
CAPUANO E,BOERRIGTER-EENLING R,KOOT A,et al.Targeted and untargeted detection of skim milk powder adulteration by near-infrared spectroscopy[J].Food analytical methods,2015,8(8):2125-2134. [百度学术]
KARUNATHILAKA S R,YAKES B J,HE K Q,et al.Non-targeted NIR spectroscopy and SIMCA classification for commercial milk powder authentication:a study using eleven potential adulterants[J/OL].Heliyon,2018,4(9):e00806[2022-12-09].https://doi.org/10.1016/j.heliyon.2018.e00806. [百度学术]
胡仁伟,俞玥,倪明龙,等.基于深度信念网络的近红外光谱鉴别莲子粉掺假[J].食品科学,2020,41(6):298-303.HU R W,YU Y,NI M L,et al.Identification of lotus seed flour adulteration based on near-infrared spectroscopy combined with deep belief network[J].Food science,2020,41(6):298-303(in Chinese with English abstract). [百度学术]
MÜLLER-MAATSCH J,ALEWIJN M,WIJTTEN M,et al.Detecting fraudulent additions in skimmed milk powder using a portable,hyphenated,optical multi-sensor approach in combination with one-class classification[J/OL].Food control,2021,121:107744[2022-12-09]. https://doi.org/10.1016/j.foodcont.2020.107744. [百度学术]
马爽,刘静波,王二雷.蛋粉加工及应用的研究现状分析[J].食品工业科技,2011,32(2):393-397.MA S,LIU J B,WANG E L.Existing condition analysis of processing and application of egg powder[J].Science and technology of food industry,2011,32(2):393-397(in Chinese with English abstract). [百度学术]
黄海松,魏建安,康佩栋.基于不平衡数据样本特性的新型过采样SVM分类算法[J].控制与决策,2018,33(9):1549-1558.HUANG H S, WEI J A,KANG P D.New over-sampling SVM classification algorithm based on unbalanced data sample characteristics[J].Control and decision,2018,33(9):1549-1558(in Chinese with English abstract). [百度学术]
袁培森,翟肇裕,任守纲,等.基于SVC和过采样的类别非均衡农业高光谱数据分类[J].农业机械学报,2019,50(6)257-264.YUAN P S,ZHAI Z Y,REN S G,et al.Classification of unbalanced agricultural hyperspectral data based on SVC and oversampling[J].Transactions of the CSAM,2019,50(6)257-264 (in Chinese with English abstract). [百度学术]
CHEN J Y,HUANG H W,COHN A G,et al.Machine learning-based classification of rock discontinuity trace:smote oversampling integrated with GBT ensemble learning[J].International journal of mining science and technology,2022,32(2):309-322. [百度学术]
XU X L,CHEN W,SUN Y F.Over-sampling algorithm for imbalanced data classification[J].Journal of systems engineering and electronics,2019,30(6):1182-1191. [百度学术]
NIU C,YUAN Y H,GUO H,et al.Recognition of osmotolerant yeast spoilage in kiwi juices by near-infrared spectroscopy coupled with chemometrics and wavelength selection[J].RSC advances,2018,8(1):222-229. [百度学术]
刘燕德,黎丽莎,李斌,等.多品种苹果可溶性固形物近红外无损检测通用模型研究[J].华中农业大学学报,2022,41(2):237-244.LIU Y D,LI L S,LI B,et al.General near-infrared model of soluble solids content in multi-variety apples[J].Journal of Huazhong Agricultural University,2022,41(2):237-244 (in Chinese with English abstract). [百度学术]
郝勇,王起明,张书敏.可见-近红外光谱的鸭梨黑心缺陷在线检测AdaBoost集成模型研究[J].光谱学与光谱分析,2021,41(9):2764-2769.HAO Y,WANG Q M,ZHANG S M.Study on online detection method of “Yali” pear black heart disease based on vis-near infrared spectroscopy and AdaBoost integrated model[J].Spectroscopy and spectral analysis,2021,41(9):2764-2769 (in Chinese with English abstract). [百度学术]
蒋薇薇,鲁昌华,张玉钧,等.集成学习算法的红外光谱定量回归模型[J].光谱学与光谱分析,2021,41(4):1119-1124.JIANG W W,LU C H,ZHANG Y J,et al.Research on a quantitative regression model of the infrared spectrum based on the integrated learning algorithm[J].Spectroscopy and spectral analysis,2021,41(4):1119-1124 (in Chinese with English abstract). [百度学术]
MENDOZA F,LU R F,ARIANA D,et al.Integrated spectral and image analysis of hyperspectral scattering data for prediction of apple fruit firmness and soluble solids content[J].Postharvest biology and technology,2011,62(2):149-160. [百度学术]
李跑,申汝佳,李尚科,等.一种基于近红外光谱与化学计量学的绿茶快速无损鉴别方法[J].光谱学与光谱分析,2019,39(8):2584-2589.LI P,SHEN R J,LI S K,et al.Nondestructive identification of green tea based on near infrared spectroscopy and chemometric methods[J].Spectroscopy and spectral analysis,2019,39(8):2584-2589 (in Chinese with English abstract). [百度学术]
CHEN J B,SUN S Q,YU J,et al.Tracking the curing process of automotive paint by moving-window two-dimensional infrared correlation spectroscopy and principal component analysis[J].Journal of molecular structure,2014,1069:112-117. [百度学术]