清空記錄
歷史記錄
取消
清空記錄
歷史記錄
產地是影響山楂品質的重要因素之一,目前對于各類農產品產地的溯源主要是依靠化學分析技術,如高效液相色譜技術(HPLC)、氣相-質譜聯(lián)用技術(GC-MS)、超高效液相色譜(UPLC)等,這些方法通常在測量前需要對樣本進行粉碎或勻漿處理,并使用有機溶劑對樣本中的化學成分進行萃取,這一過程不但會損壞樣本,同時有機溶劑還可能會對環(huán)境造成污染。與之相比,高光譜成像技術是一種基于非常多窄波段的影像數(shù)據(jù)技術,可以在樣本完好的情況下對其進行定性或定量分析,具有快速、無損、無污染檢測的特點。
為滿足市場需求,本文旨在探究高光譜成像技術在山楂產地識別中的應用及不同采樣方向對于模型分類性能的影響,利用高光譜成像系統(tǒng)(410~2500 nm),分別采集山楂樣本果梗面、側面及底面的光譜數(shù)據(jù),結合多種機器學習算法分別建立產地識別模型,最終實現(xiàn)基于高光譜成像技術對山楂進行產地溯源的目的。
一、材料與方法
1.1 材料與儀器
山楂樣品均采自2022年10月至12月,其中山東省2批;山西省3批;遼寧省2批;河北省3批;河南省1批。每個批次隨機選擇80~100粒品相完好、大小相近的山楂,最終共采集900粒樣品。使用干布擦拭樣品表面殘留泥土,然后于4℃環(huán)境中冷藏保存,便于后續(xù)
圖像采集。
1.2 實驗方法
1.2.1高光譜數(shù)據(jù)采集
樣本圖像采集前,關閉環(huán)境燈光,打開鹵鎢燈并對高光譜成像系統(tǒng)進行預熱。為探究擺放方式對山楂產地識別模型的影響,將山楂樣本以果梗朝上(G)、側面朝上(C)和底面朝上(D)三種方式擺放(圖1),分別拍攝圖像。采集圖像時,將15~20粒樣本放置在水平移動平臺上,在樣本排列末端放置白板,分別采集三個方向的圖像數(shù)據(jù)。為減小環(huán)境以及儀器對圖像數(shù)據(jù)的影響,在圖像采集完成后使用軟件對原始光譜數(shù)據(jù)進行RAD校正。隨后進行黑白板校正以消除空氣等外界因素對圖像的影響并得到相對反射率,相對反射率計算公式如下:
校正完成后,使用軟件ENVI5.3在圖像中手動選取感興趣區(qū)域(ROI),對于不同拍攝方向的樣本圖像,分別取其相應部位(即果梗面、側面和底面)作為ROI,以ROI平均反射率作為樣本的光譜值。手動合并兩個鏡頭得到的光譜數(shù)據(jù),最終得到包含396個波段反射率的數(shù)據(jù)集。將樣本按照7:3的比例隨機劃分為訓練集和預測集,用于后續(xù)分類建模。
圖1三種樣本擺放方式注:a為果梗朝上(G);b為側面朝上(C);c為底面朝上(D)
1.2.2 主成分分析
本研究在得到樣本光譜原始數(shù)據(jù)后,首先利用PCA方法,對樣本數(shù)據(jù)進行初步的可視化分析。
1.2.3 光譜數(shù)據(jù)預處理方法
為消除噪聲的影響,分別采用多元散射校正(MSC)、一階導數(shù)(D1)、SG平滑(SG)和標準正態(tài)變量變換(SNV)四種方式對原始光譜數(shù)據(jù)進行預處理,再使用預處理后的數(shù)據(jù)進行分類建模。
1.2.4特征波長提取方法
在建立全波段分類模型后,為降低模型復雜度,分別采用連續(xù)投影算法(SPA)和競爭性自適應重加權采樣算法(CARS)對原始光譜數(shù)據(jù)進行特征波長提取,然后基于特征波長數(shù)據(jù)建立分類模型,為山楂專屬小型高光譜設備的開發(fā)提供參考。
1.2.5分類模型的建立
對原始數(shù)據(jù)進行預處理或特征波長提取后,基于處理得到的數(shù)據(jù),分別采用不同方法建立分類模型,并綜合對比各項評估指標以篩選出最優(yōu)模型。
1.2.6模型評估
標準模型建立完成后,分別通過以下指標篩選出最優(yōu)模型:準確率(Accuracy)是分類問題最常用的評價指標;精確率(Precision)和召回率(Recall)則反映了模型對于正例的敏感程度,三個指標計算公式如下:
本研究通過建立混淆矩陣,綜合對比模型指標,篩選出最優(yōu)分類模型。
二、結果與分析
2.1 原始光譜曲線分析
在進行分類建模前,首先對各產區(qū)樣本的光譜特征進行分析并探究部分特征峰的成因,不同產區(qū)樣本的平均光譜曲線如圖2所示。對比發(fā)現(xiàn)不同產區(qū)山楂樣品的平均反射率總體趨勢相似;但是同產區(qū)山楂平均反射率在不同數(shù)據(jù)集(C、G和D)上有所不同,這可以歸因于樣品表面信息的差異。另外,不同產區(qū)山楂樣品的反射率數(shù)值存在一定差異,這些差異主要與樣品的表面信息(如果皮、果斑顏色)和品質特性有關,其中山東產區(qū)的山楂在400~800nm波段下的反射率明顯高于其他產區(qū),區(qū)域特征較為明顯,根據(jù)楊曉寧等的研究報道:相比于其他產區(qū),山東產區(qū)山楂的有機酸含量較高,這與上述現(xiàn)象相吻合。不同產區(qū)山楂在600~700nm處的吸收峰略有不同,但總體趨勢相似;對于短波紅外波段(SWIR),各產地反射率曲線趨勢相近,但在1000~1200nm處的吸收峰有所區(qū)分。對不同波段下的吸收峰進行分析,700~800nm處的吸收峰可歸因于樣本中的葉綠素;970nm附近的吸收峰可能是水中O-H鍵的伸縮振動造成;1200nm附近的吸收峰可能與C-H的第二拉伸泛音有關,可歸因于碳水化合物和脂肪,總體而言,各產地樣本所含化學成分種類相似,但具體含量存在差異,這與張悅等報道的不同產地陳皮光譜曲線規(guī)律一致。
對比各數(shù)據(jù)集的平均反射率曲線(圖2),發(fā)現(xiàn)G數(shù)據(jù)集在700~1000nm處反射率略高于其他數(shù)據(jù)集,而此波段反射率與樣品水分及葉綠素含量密切相關,因此推測山楂樣本不同部位所含成分略有不同。山東與遼寧產區(qū)樣品的平均反射率在三個數(shù)據(jù)集上都表現(xiàn)出了較大差異(山東產區(qū)樣品反射率較高,而遼寧產區(qū)樣品則偏低),說明兩組樣品差異明顯。光譜平均反射率曲線雖然展現(xiàn)出樣本的部分差異,但是僅憑這些特征很難對樣本進行產地溯源。綜上所述,有必要建立分類模型以挖掘樣品光譜數(shù)據(jù)的潛在特征。
圖2不同產地在VNIR和SWIR波段下的平均反射率曲線
注:a、c、e分別為C、D、G數(shù)據(jù)集在VNIR波段的平均反射率曲線;
b、d、f分別為C、D、G數(shù)據(jù)集在SWIR波段的平均反射率曲線。
2.2 樣本數(shù)據(jù)PCA分析
使用主成分分析(PCA)對三個數(shù)據(jù)集進行初步的可視化分析,繪制的PCA得分圖見圖3,保留了前兩個主成分。初步分析發(fā)現(xiàn),無監(jiān)督模型分類效果并不好,三個數(shù)據(jù)集前兩個主成分能解釋的方差占比之和在75%左右。山東與遼寧產地的樣本區(qū)分相對較好,這與原始光譜分析時得出的結論相符。對于大部分樣本,使用無監(jiān)督算法進行分類的效果并不理想,因此后續(xù)還需要采用PLSDA、SVM和RF方法進行有監(jiān)督分類建模。
圖3原始數(shù)據(jù)PCA得分圖注:a、b和c分別為G、C和D數(shù)據(jù)集
推薦:
便攜式高光譜成像系統(tǒng) iSpecHyper-VS1000
專門用于公安刑偵、物證鑒定、醫(yī)學醫(yī)療、精準農業(yè)、礦物地質勘探等領域的最新產品,主要優(yōu)勢具有體積小、幀率高、高光譜分辨率高、高像質等性價比特點采用了透射光柵內推掃原理高光譜成像,系統(tǒng)集成高性能數(shù)據(jù)采集與分析處理系統(tǒng),高速USB3.0接口傳輸,全靶面高成像質量光學設計,物鏡接口為標準C-Mount,可根據(jù)用戶需求更換物鏡。