清空記錄
歷史記錄
取消
清空記錄
歷史記錄
山楂(Crataegus Pinnatifida)是薔薇科山楂屬植物,是典型的“藥食同源”植物,在我國(guó)廣泛分布于吉林、遼寧、河北、河南、山東、山西等地區(qū)。我國(guó)山楂年產(chǎn)量超過(guò) 150萬(wàn)噸,市場(chǎng)前景廣闊,但由于不同產(chǎn)地的山楂中各類營(yíng)養(yǎng)成分含量存在差異,因此其在價(jià)格上也有所區(qū)分,而當(dāng)今山楂市場(chǎng)上產(chǎn)地混用、以次充好等現(xiàn)象屢見(jiàn)不鮮,使許多消費(fèi)者上當(dāng)受騙,這些現(xiàn)象嚴(yán)重破壞了市場(chǎng)秩序。因此,目前市場(chǎng)亟需一種能夠快速準(zhǔn)確對(duì)山楂進(jìn)行產(chǎn)地溯源的方法。
為滿足市場(chǎng)需求,本文旨在探究高光譜成像技術(shù)在山楂產(chǎn)地識(shí)別中的應(yīng)用及不同采樣方向?qū)τ谀P头诸愋阅艿挠绊懀酶吖庾V成像系統(tǒng)(410~2500 nm),分別采集山楂樣本果梗面、側(cè)面及底面的光譜數(shù)據(jù),結(jié)合多種機(jī)器學(xué)習(xí)算法分別建立產(chǎn)地識(shí)別模型,最終實(shí)現(xiàn)基于高光譜成像技術(shù)對(duì)山楂進(jìn)行產(chǎn)地溯源的目的。
續(xù)
二、結(jié)果與分析
2.3 基于全波段的建模分析
2.3.1預(yù)處理及分類建模方法
篩選為篩選出最佳預(yù)處理和分類建模方法,分別采用4種預(yù)處理方法和3種分類建模方法建立模型,以樣本底面數(shù)據(jù)為代表,各模型分類準(zhǔn)確率見(jiàn)表1。對(duì)比四種預(yù)處理數(shù)據(jù)分類模型準(zhǔn)確率可以發(fā)現(xiàn),引入預(yù)處理方法之后,大部分
模型的分類精度得到了提高,而D1對(duì)于三種分類模型(PLSDA、SVM和RF)均為最優(yōu)預(yù)處理方式。對(duì)比三種不同模型(PLSDA、SVM和RF)分類準(zhǔn)確率,發(fā)現(xiàn)無(wú)論采用哪種預(yù)處理方式,采用RF建立的分類模型雖然有較高的訓(xùn)練集準(zhǔn)確率,但是預(yù)測(cè)集準(zhǔn)確率一般;采用PLSDA和SVM建立的分類模型訓(xùn)練集和預(yù)測(cè)集準(zhǔn)確率良好,其中以SVM模型分類準(zhǔn)確率最高。綜上所述,對(duì)于底面數(shù)據(jù),D1為最佳預(yù)處理方式,采用SVM建立的分類模型分類準(zhǔn)確率高,且具有優(yōu)秀的穩(wěn)定性和泛化能力。為進(jìn)一步驗(yàn)證結(jié)論,分別使用C和G數(shù)據(jù)集進(jìn)行建模對(duì)比,均呈現(xiàn)相同的規(guī)律,故判斷D1為最優(yōu)預(yù)處理方式,SVM為最佳分類建模算法,后續(xù)均采用D1-SVM(經(jīng)D1預(yù)處理后建立的SVM模型)方式進(jìn)行分類建模。
表1不同預(yù)處理分類模型準(zhǔn)確率
2.3.2不同采樣方式分類建模分析
本研究為探究不同采樣方向?qū)δP头诸惤Y(jié)果的影響,分別收集了樣本側(cè)面朝上(C)、果梗面朝上(G)和底面朝上(D)的高光譜圖像。同時(shí)為模擬實(shí)際應(yīng)用時(shí)隨機(jī)拍攝到的高光譜數(shù)據(jù),將三個(gè)數(shù)據(jù)集進(jìn)行等比混合建立一個(gè)新數(shù)據(jù)集(R),使用四個(gè)數(shù)據(jù)集分別進(jìn)行分類建模,建模方法均采用D1-SVM,綜合對(duì)比各項(xiàng)指標(biāo)篩選出最優(yōu)模型。各模型分類準(zhǔn)確率結(jié)果見(jiàn)表2。
對(duì)于使用R數(shù)據(jù)集建立的分類模型,其準(zhǔn)確率較高(100%,96.7%),根據(jù)圖4d并由公式(3)和公式(4)計(jì)算得出,不同產(chǎn)區(qū)的精確率和召回率均超過(guò)90%。對(duì)比四個(gè)數(shù)據(jù)集模型的準(zhǔn)確率可以發(fā)現(xiàn),三種單面數(shù)據(jù)集(C、D和G)模型準(zhǔn)確率均高于使用R數(shù)據(jù)集建立的模型,這說(shuō)明對(duì)于山楂樣本,在高光譜數(shù)據(jù)采集時(shí)保持樣品方向一致可以有效提高分類模型準(zhǔn)確率,這一規(guī)律與研究人員在玉米真菌感染檢測(cè)中的發(fā)現(xiàn)一致。橫向?qū)Ρ菴、G和D三個(gè)模型,其中使用D數(shù)據(jù)集建立的分類模型準(zhǔn)確率最高,訓(xùn)練集和預(yù)測(cè)集準(zhǔn)確率均達(dá)到100%,各產(chǎn)區(qū)樣本全部預(yù)測(cè)正確。為避免過(guò)擬合現(xiàn)象,對(duì)D-D1-SVM模型進(jìn)行十折交叉驗(yàn)證,其平均準(zhǔn)確率為98.8%。綜上所述,D-D1-SVM模型對(duì)于不同產(chǎn)區(qū)山楂的分類效果最優(yōu)。
表2不同方向數(shù)據(jù)分類模型準(zhǔn)確率
圖4全波段模型混淆矩陣
注:a、b、c、d分別為對(duì)應(yīng)C-D1-SVM、
G-D1-SVM、D-D1-SVM、R-D1-SVM四個(gè)模型
2.4 基于特征波長(zhǎng)的建模分析
2.4.1特征波長(zhǎng)的選擇
為篩選出最佳特征提取方法,分別使用2種提取方式提取4個(gè)數(shù)據(jù)集的特征波長(zhǎng),最終得到的波長(zhǎng)見(jiàn)表3及圖5。對(duì)比兩種方法提取得到的特征波長(zhǎng)數(shù)量發(fā)現(xiàn),使用SPA提取出的特征波長(zhǎng)數(shù)量明顯少于CARS,進(jìn)一步觀察特征波長(zhǎng)分布(圖5),發(fā)現(xiàn)使用SPA提取出的特征波長(zhǎng)分布均勻,各個(gè)波段均有涉及;而CARS提取的特征波長(zhǎng)分布較為集中,主要分布于750nm、2000nm及2250nm處的三個(gè)特征峰。觀察各組特征波長(zhǎng)重合的部分,發(fā)現(xiàn)750nm、1700nm和2200nm附近的重合波長(zhǎng)較多,說(shuō)明這三處吸收峰可能包含不同產(chǎn)區(qū)樣本的差異信息。對(duì)這些特征峰進(jìn)行深入分析,700~800nm處的吸收峰來(lái)自于樣品內(nèi)部的葉綠素,也受樣品的外部顏色特征影響;1700nm附近的吸收峰可歸因于酰胺基團(tuán);2200nm處的吸收峰為C—H和C—O的聯(lián)合吸收峰。
表3不同方法提取特征波長(zhǎng)數(shù)量
圖5不同數(shù)據(jù)集特征波長(zhǎng)
注:a、c、e、g分別為G、C、D和R數(shù)據(jù)集經(jīng)SPA提取得到的特征波長(zhǎng);b、d、f、h分別為G、C、D和R數(shù)據(jù)集經(jīng)CARS提取得到的特征波長(zhǎng)
2.4.2特征波長(zhǎng)建模分析
使用4個(gè)數(shù)據(jù)集的特征波長(zhǎng)分別建立SVM模型,其準(zhǔn)確率見(jiàn)表4。觀察發(fā)現(xiàn)使用SPA篩選特征波長(zhǎng)建立的模型分類準(zhǔn)確率優(yōu)于CARS,這一現(xiàn)象在G和D數(shù)據(jù)集上尤為明顯。綜合考慮波長(zhǎng)數(shù)量和模型準(zhǔn)確率,SPA篩選的波長(zhǎng)數(shù)量更少,模型復(fù)雜度較低,且準(zhǔn)確率更高。與本研究得到的結(jié)果不同,有研究人員在基于特征波段建立紅景天分類模型時(shí),發(fā)現(xiàn)CARS為最佳特征波段提取方法,這說(shuō)明對(duì)于不同的檢測(cè)對(duì)象,應(yīng)當(dāng)選用不同的特征提取方法,而對(duì)于山楂樣本,SPA相比于CARS特征波長(zhǎng)提取效果更好。
采用SPA提取特征波長(zhǎng)的分類模型預(yù)測(cè)集混淆矩陣見(jiàn)圖6,對(duì)比四個(gè)數(shù)據(jù)集的準(zhǔn)確率(表4)看出,R-SPA模型預(yù)測(cè)集準(zhǔn)確率為87.8%,根據(jù)其混淆矩陣(圖6d)并由公式(3)和公式(4)計(jì)算得出,模型對(duì)于河北產(chǎn)區(qū)的精確率和召回率僅為79.2%和82.4%,分類能力一般。而C-SPA、G-SPA和D-SPA三個(gè)模型準(zhǔn)確率均超過(guò)90%(分別為90.3%、91.5%和93%),這一現(xiàn)象再次證明在高光譜數(shù)據(jù)采集時(shí),保持樣品方向一致可以有效提高分類模型準(zhǔn)確率。綜合對(duì)比所有模型,D-SPA模型擁有最高的分類準(zhǔn)確率,訓(xùn)練集和預(yù)測(cè)集準(zhǔn)確率分別為95.2%和93%,根據(jù)其混淆矩陣(圖6c)并由公式(3)和公式(4)計(jì)算得出,模型對(duì)于各產(chǎn)區(qū)的精確率和召回率均超過(guò)90%(其中山東產(chǎn)區(qū)精確率和召回率最低,分別為91.6%和90%);且這一模型涉及的特征波長(zhǎng)數(shù)量最少,在保證分類準(zhǔn)確率的情況下?lián)碛休^低的模型復(fù)雜度。
綜上所述,采集高光譜數(shù)據(jù)時(shí)保持樣品擺放方式一致有助于提高模型分類準(zhǔn)確率。采用SPA提取特征波長(zhǎng)建立的產(chǎn)地分類模型復(fù)雜度較低且準(zhǔn)確率良好??梢栽诓ㄩL(zhǎng)數(shù)量有限的情況下對(duì)山楂產(chǎn)地進(jìn)行判別,為后續(xù)山楂專屬小型化高光譜設(shè)備的開(kāi)發(fā)提供了方法參考。
表4特征波長(zhǎng)建模準(zhǔn)確率
圖6特征波長(zhǎng)模型混淆矩陣
注:a、b、c、d分別對(duì)應(yīng)C-SPA-SVM、G-SPA-SVM、D-SPA-SVM、R-SPA-SVM四個(gè)模型。
綜合考慮全波段模型和特征波長(zhǎng)模型的分類結(jié)果,發(fā)現(xiàn)采集樣本光譜數(shù)據(jù)時(shí),樣本的擺放方式會(huì)影響后續(xù)分類建模準(zhǔn)確率。無(wú)論全波段還是特征波長(zhǎng)模型,使用D數(shù)據(jù)集建模分類效果都明顯優(yōu)于R數(shù)據(jù)集(提高了約5%),相對(duì)于C和G數(shù)據(jù)集也有所提高。觀察山楂樣品的外部特征,發(fā)現(xiàn)樣品底面存在萼片部位,結(jié)合寧素云等的研究報(bào)道:山楂不同部位的化學(xué)成分含量存在差異,推測(cè)不同產(chǎn)地山楂其萼片部位各成分含量的差異相比于其他部位更大,進(jìn)而導(dǎo)致分類特征更加明顯。
三、結(jié)論
本研究基于高光譜成像技術(shù)建立了山楂產(chǎn)地識(shí)別模型。為探究樣本拍攝方向?qū)Ψ诸惤Y(jié)果的影響,采集了山楂樣本三個(gè)不同方向(C、G和D)的光譜數(shù)據(jù),分別使用偏最小二乘判別分析(PLSDA)、支持向量機(jī)(SVM)和隨機(jī)森林(RF)三種方法建立模型,通過(guò)對(duì)比模型分類準(zhǔn)確率得到最優(yōu)建模方法,最終成功區(qū)分了5個(gè)不同省級(jí)產(chǎn)區(qū)的山楂,為山楂無(wú)損檢測(cè)設(shè)備的開(kāi)發(fā)提供了參考。經(jīng)過(guò)對(duì)比篩選發(fā)現(xiàn),一階導(dǎo)數(shù)(D1)為最優(yōu)預(yù)處理方式,SVM為最優(yōu)建模算法;使用連續(xù)投影算法(SPA)提取特征波長(zhǎng)數(shù)量少且分類模型準(zhǔn)確率高。全波段最優(yōu)建模方法為D-D1-SVM,訓(xùn)練集和預(yù)測(cè)集準(zhǔn)確率均達(dá)到100%;特征波長(zhǎng)最優(yōu)建模方法為D-SPA-SVM,訓(xùn)練集和預(yù)測(cè)集準(zhǔn)確率分別為95.2%和93%。本研究證明基于高光譜成像技術(shù)對(duì)山楂產(chǎn)地進(jìn)行溯源是可行的,為維護(hù)山楂市場(chǎng)秩序提供一種新的識(shí)別方式;同時(shí)驗(yàn)證高光譜圖像采集方向會(huì)對(duì)檢測(cè)結(jié)果產(chǎn)生影響,為后續(xù)開(kāi)發(fā)山楂專屬高光譜檢測(cè)設(shè)備提供理論依據(jù)和參考。
推薦:
便攜式高光譜成像系統(tǒng) iSpecHyper-VS1000
專門(mén)用于公安刑偵、物證鑒定、醫(yī)學(xué)醫(yī)療、精準(zhǔn)農(nóng)業(yè)、礦物地質(zhì)勘探等領(lǐng)域的最新產(chǎn)品,主要優(yōu)勢(shì)具有體積小、幀率高、高光譜分辨率高、高像質(zhì)等性價(jià)比特點(diǎn)采用了透射光柵內(nèi)推掃原理高光譜成像,系統(tǒng)集成高性能數(shù)據(jù)采集與分析處理系統(tǒng),高速USB3.0接口傳輸,全靶面高成像質(zhì)量光學(xué)設(shè)計(jì),物鏡接口為標(biāo)準(zhǔn)C-Mount,可根據(jù)用戶需求更換物鏡。