清空記錄
歷史記錄
取消
清空記錄
歷史記錄
1、引言
高粱在發(fā)展中國家作為食糧作物,在田間種植過程中需要噴撒農藥以減少病蟲害對于產量和品質的影響。當出現嚴重的病蟲害時,農戶們會多次噴灑高濃度的農藥溶液,這導致高粱中存在過量的農藥殘留。研究表明,長期食用農藥殘留超標的食物對人體危害巨大,會造成癌癥、心臟病、神經性疾病等嚴重后果。因此,如何無損、快速、準確檢測高粱中的農藥殘留是亟待解決的問題?,F階段農藥檢測方法包括氣相色譜法、氣相色譜-串聯質譜法、高效液相色譜法等,這些方法雖然具備較高的檢測準確性和精密度,但存在制樣復雜、價格昂貴、檢測耗時長、破壞樣品和操作難度高的缺點。近些年來,研究者們已經開始利用光譜技術來檢測農藥殘留,常用的方法有拉曼光譜檢測方法、近紅外光譜檢測方法和高光譜成像(HSI)檢測方法。其中,拉曼光譜法和近紅外光譜法的檢測精度和靈敏度受環(huán)境影響較大。高光譜技術相比于傳統的光譜技術,可以同時獲得檢測樣品的圖像信息和光譜信息,可以實現對農藥殘留的準確檢測。許多研究表明高光譜技術可以用于農產品農藥殘留種類的快速無損鑒別,但只使用單一的分類模型,沒有考慮集成學習模型。本研究結合HIS技術與機器學習算法快速檢測高粱中殘留的農藥種類,可以幫助農產品生產者和食品加工廠快速識別高粱中的農藥殘留種類,從而保證生產農產品的質量。
2、實驗方法
2.1 樣品制備
本研究所使用的高粱品種為紅纓子,農藥選擇高粱種植過程中常用的農藥種類,分別為苯醚甲環(huán)唑、馬拉硫磷、氯蟲苯甲酰胺、莠去津,分別表示為B、M、L、Y。4種農藥分別用蒸餾水稀釋400、700、700、200倍,配制實驗所需的農藥溶液。用4個噴壺將農藥溶液均勻噴灑在4組高粱樣品上,并設置一組噴灑清水(Q)樣品的對照組。每組樣品包含2880顆高粱籽粒,共計14400顆。將高粱樣品放置于室內通風處,自然干燥12h后采集高粱樣品的高光譜圖像。
2.2 數據處理方法
2.2.1高光譜數據提取
采集的高光譜圖像中包含高粱樣品信息與背景信息,并且相鄰的高粱籽粒之間存在粘連現象,因此,需要對高光譜圖像進行圖像處理。圖像處理包括灰度變換、二值化和分水嶺分割。分水嶺利用圖像中的梯度灰度信息,將梯度較大的區(qū)域視為山脊,將梯度較小的區(qū)域當作盆地,通過模擬水充滿盆地的過程,實現高粱粘連籽粒的分割。將每顆高粱籽粒所在區(qū)域作為感興趣區(qū)域(ROI),提取ROI內的光譜信息。
2.2.2異常光譜值的剔除
在高光譜圖像采集過程中,由于環(huán)境變化、噪聲以及儀器穩(wěn)定性的影響,所提取的高粱籽粒光譜信息中往往會出現異常值。異常值的存在會影響后續(xù)的分析結果,因此,本研究使用IF剔除數據集中的異常數據。孤立森林由眾多的孤立樹構成,高光譜數據被不斷地劃分到每棵樹的左右兩個子節(jié)點,其劃分的路徑長度對應的數據異常得分,通過設置異常得分閾值實現異常數據的剔除。
2.2.3光譜預處理及樣品劃分
光譜曲線中存在由外部環(huán)境、基線變化以及采集過程中隨機噪聲所造成的波動。高粱籽粒在培養(yǎng)皿中分布不均,高粱籽粒大小不一,因此光譜曲線中也包含散射成分。光譜特征提取方法為降低高光譜數據維度,建立簡潔的高粱農藥殘留分類模型,采用類型提升算法(CatBoost)、梯度提升樹(GBDT)、競爭性自適應重加權采樣法(CARS)和主成分分析法(PCA)提取高粱光譜數據中的特征波長。CatBoost和GBDT是基于決策樹的集成學習方法,可以通過統計不同特征在構建模型時被選擇的次數衡量特征的重要性,實現特征波長的篩選。CARS可以通過偏最小二乘(PLS)模型選擇出權重大的波長點,并利用交叉驗證選擇出均方根誤差最低的波長子集。PCA可以將代表性強且關聯性強的成分,轉化為代表性強而無相關性的新成分,消除光譜數據之間存在復雜的關聯。
3、實驗方法
3.1 圖像處理與光譜提取
為提取高粱樣品的光譜數據,對高光譜圖像進行了圖像處理。高粱原始RGB圖像如圖2a所示,為區(qū)分背景與高粱籽粒,對圖像進行了灰度變換,改變圖像的灰度值,灰度圖像(圖2b)中背景與高粱籽粒區(qū)分更加明顯。對灰度圖像進行二值化處理,可以分離背景與高粱樣品,二值化圖像(圖2c)中的高粱籽粒之間存在粘連現象。使用分水嶺算法可以獲得高粱樣品之間的分水嶺脊線,實現對粘連的高粱籽粒的分割,分割之后的二值化圖像如圖2d所示。將每顆高粱對應的區(qū)域作為ROI,提取ROI每個像素點的光譜數據,對每個ROI內的光譜值求平均作為高粱農藥殘留籽粒的光譜信息。對于不同農藥殘留類別的平均光譜曲線,通過計算同類別農藥殘留的高粱籽粒光譜值的平均得到。
注: a: 原始圖像; b: 灰度圖像; c: 二值化圖像; d 分割圖像。
圖 2 高粱樣品的圖像處理
3.2 異常光譜值的剔除
采用IF算法剔除光譜數據中存在的異常值,消除異棒性較低,因此,本研究使用了PCA降低高光譜數據的維度,通過原始數據標準化、求解相關系數矩陣、計算矩陣特征值、計算特征向量、變換標準化后的向量為主成分以及主成分貢獻率計算,計算高粱農藥殘留樣品光譜數據前3個成分的累計貢獻率
表1樣品PCA累計貢獻率(%)
如表1所示,B、L、M、Q、Y的累計貢獻率分別為97.67%、98.38%、98.62%、98.81%、98.65%。5種樣品的累計貢獻率均超過97.5%,這說明前3個成分對應的主成分得分矩陣可以很好地代表高粱樣品的光譜數據,因此,將前3個成分帶入IF算法中剔除異常值。以B和M為例,圖3中黑點為正常值,呈簇狀集中分布,紅點為異常值,離散分布在正常值的四周。
注: a: B 類高粱樣品; b: M 類高粱樣品
圖3 異常數據可視化
3.3 光譜特征分析
為顯示不同種類農藥殘留高粱樣品光譜曲線的差異,計算每類高粱樣品的光譜曲線的平均值得到平均光譜曲線,如圖4所示。
圖 4 高粱農藥殘留樣品平均光譜曲線
由圖4中可以看出,在近紅外波段范圍內,光譜曲線出現3處較為明顯的吸收峰,分別位于925、1230、1470nm左右。925nm位置處的吸收峰與O-H的第一拉伸泛頻有關,1230nm位置處的吸收峰與C-H的第二拉伸泛頻有關,1470nm位置處的吸收峰與N-H的第一拉伸泛頻有關。在近紅外波段范圍內,各類農藥殘留高粱樣品的光譜反射率不同,但總體變化趨勢相似。無農藥殘留高粱樣品的反射率最低,與不同類型農藥殘留樣品的光譜曲線差異最明顯。此外,B與Y的平均光譜反射率非常接近,L的平均光譜反射率最高。在1000~1100nm范圍內,各類高粱樣品的反射率差距最大,由高到低分別是L、M、Y、B、Q。這些平均光譜的差異為鑒別高粱樣品農藥殘留種類提供了依據。
3.4 光譜數據的預處理
高粱農藥殘留樣品的光譜曲線在900nm和1700nm處出現了異常波動,這說明這兩個位置處的光譜數據受到的干擾較大,數據存在嚴重失真的情況。為消除數據失真對后期建模分類效果的影響,本研究截去了光譜數據開始處前15個和末尾處后41個波段信息,保留456個波段用于建模分析。利用SG、DWT、SNV預處理方法對高粱農藥殘留樣品的光譜數據進行預處理。建立預處理光譜數據的SVM農藥殘留分類模型識別農藥殘留種類,識別結果如表2所示。
表2光譜數據預處理后的建模效果(%)
結果顯示,使用SNV預處理的光譜數據建立的分類模型識別效果最好,訓練正確率和測試集正確率分別為85.94%和81.58%。這可能是SNV預處理可以同時減少噪聲和散射成分對光譜數據的影響。因此,將SNV預處理后的光譜數據用于后續(xù)的研究分析中。原始光譜曲線如圖5a所示,SNV預處理之后的高粱農藥殘留樣品光譜曲線如圖5b所示。
注: a: 原始光譜曲線; b: SNV 預處理后的光譜曲線
圖5 高粱農藥殘留樣品光譜曲線
3.5 特征光譜提取
雖然全波段內的光譜數據可以用于識別高粱樣品農藥殘留的類別,但數據中包含的冗余信息會降低模型的運算速度和識別精度。為消除光譜數據中冗余信息,提升高粱農藥殘留識別模型的識別精度,需要選擇具有代表性的波長。本研究使用了CatBoost、GBDT、CARS、PCA特征選擇方法,CatBoost和GBDT通過設置特征重要性得分閾值(0.2)選擇特征波長,PCA通過設置載荷系數閾值(0.1)選擇特征波長,CARS選擇建立最小交叉驗證均方根誤差(RMSECV)值PLS模型的波長為特征波長,分別選擇了132、147、35、12個特征波長。
注: a: CatBoost; b: GBDT; c: CARS; d: PCA
圖 6 特征波長分布位置
圖6為特征波長的具體位置分布圖,在圖6a和圖6b中,綠色線條代表特征波長的具體位置,紅色線條代表所選擇特征波長對應的特征重要性得分,特征波長大致分布在900、1100、1400、1650nm范圍內。其中,CatBoost提取的最大貢獻率波長分布在1600nm左右,特征重要性得分為10.23%,GBDT提取的最大貢獻率波長分布在1400nm左右,特征重要性得分為4.11%。在圖6c和圖6d中,紅色線條代表特征波長的具體位置。
表3 特征方法的建模結果(%)
表3為不同特征選擇方法篩選的特征波長建立的分類模型結果。全波長模型測試集分類正確率為81.58%,CatBoost-SVM模型測試集分類正確率為81.87%,GBDTSVM模型測試集分類正確率為81.30%,CARS-SVM模型測確率為59.19%。特征波長選擇方法效果由高到低分別是CatBoost、GBDT、CARS、PCA,使用CARS和PCA選擇的特征波長所建立模型的分類正確率有所下降,這可能是在特征波長的選擇過程中,減少冗余信息的同時,也刪除了對建立農藥殘留分類模型有貢獻的光譜數據。研究表明,CatBoost選擇的特征波長不僅可以減少模型的訓練時間,還能提高模型的分類正確率,因此,使用CatBoost選擇的光譜數據用于后續(xù)分析。
4、結論
高光譜成像技術作為一種新興的食品檢測技術,已經廣泛應用于農藥殘留種類的快速檢測。本研究結合高光譜成像技術與BP-Adaboost集成學習模型,與此前的相關研究相比,在多個方面取得了顯著的進展,相比于姜榮昌等對于大白菜農藥殘留種類的研究,在單類農藥殘留樣品和無農藥殘留樣品識別正確率方面都有著較大的提升。相比于沈兵兵等對于花椰菜中農藥殘留的研究在識別更多農藥殘留種類的情況下,也得到了良好的分類正確率。與HU等結合1D-CNN與高光譜成像技術識別哈密瓜表面的農藥殘留種類相比,使用了CatBoost特征選擇方法,降低了模型的訓練時間。本研究利用F算法剔除了高梁光譜數據集中的異常值,減少了異常樣品對干建模結果的影響;使用SNV預處理方法對光譜數據進行預處理,減少了噪聲和散射成分對于光譜信息的干擾:在特征波長選擇方面,使用CatBoost特征選擇方法,通過計算波長的特征重要性選擇特征波長,降低了幾余信息對于分類結果的影響,加快了模型的訓練速度,特征波長建模效果優(yōu)于PCA、CARS和GBDT選擇的特征波長,最重要的是使用BP-Adaboost集成學習模型,結合BPNN與AdaBoost方法,對多個弱分類器的結果進行集成,提高了模型的分類下確率,成功地識別出4組不同農藥殘留的高梁樣品和一組無農藥殘留的高梁樣品,其中B和Q的分類正確率均為99.80%,與XGBoost、LGBM、SVM模型相比分別高出了12.66%、13.47%、13.30%,充分體現出集成學習模型的優(yōu)勢。綜上所述,本研究提出了一種新高梁農藥殘留識別方法,融合高光譜成像技術、CatBoost特征選擇方法和BP-Adaboost集成學習模型,成功的實現了高梁農藥殘留的快速、無損識別,模型訓練集平均分類正確率為95.68%,模型測試集平均分類正確率為95.17%,為農產品中的農藥殘留種類提供了一種高效、準確的分類解決方案。
推薦:
便攜式高光譜成像系統 iSpecHyper-VS1000
專門用于公安刑偵、物證鑒定、醫(yī)學醫(yī)療、精準農業(yè)、礦物地質勘探等領域的最新產品,主要優(yōu)勢具有體積小、幀率高、高光譜分辨率高、高像質等性價比特點采用了透射光柵內推掃原理高光譜成像,系統集成高性能數據采集與分析處理系統,高速USB3.0接口傳輸,全靶面高成像質量光學設計,物鏡接口為標準C-Mount,可根據用戶需求更換物鏡。