清空記錄
歷史記錄
取消
清空記錄
歷史記錄
1、引言
紅景天為景天科紅景天屬多年生草本植物,中國為紅景天屬植物的分布中心,有73種2亞種7變種。紅景天藥用歷史悠久,能抗疲勞、抗病毒、抗抑郁、增強免疫力、抗輻射、抗炎、抗缺氧和抗衰老等。由于紅景天需求量的急劇增加,導致市場上出現(xiàn)大量的偽品及近緣品種混用的現(xiàn)象,嚴重影響了紅景天使用的安全性和有效性。目前,紅景天的品種鑒別和質(zhì)量控制已有性狀鑒別、顯微鑒別、紫外可見分光光度法、薄層色譜法、高效液相色譜法、核磁共振光譜法、近紅外光譜法、DNA鑒別法等。但這些方法常存在主觀性過強、耗時過長、損壞樣品、操作復雜和化學試劑污染等缺點。高光譜成像是一門將光譜技術和圖像技術相結合的新型“圖譜二合一”的快速、無損的檢測技術,近幾年已被廣泛應用于農(nóng)副產(chǎn)品和中藥的質(zhì)量控制?,F(xiàn)利用高光譜成像技術采集紅景天高光譜圖像,采用支持向量機算法建立基于近紅外高光譜鑒別大花紅景天和四裂紅景天的判別模型,實現(xiàn)對紅景天的快速、準確和無損鑒別,為紅景天的品質(zhì)評價和質(zhì)量控制提供新思路和新方法。
2、儀器與試藥
iSpecHyper系列高光譜成像系統(tǒng)、紅景天采集于四川省阿壩藏族羌族自治州、甘孜藏族自治州和西藏,經(jīng)鑒定為景天科紅景天屬植物大花紅景和四裂紅景天。
3、方法與結果
3.1 樣品的制備
取大花紅景天和四裂紅景天藥材的根及根莖,干燥、粉碎、過80目篩,粉末干燥至恒重,每種藥材粉末各取10批,分裝于干凈、干燥的1.5mLEP管中,密封備用。
3.2 高光譜圖像的采集和黑白校正
用藥匙分別取適量大花紅景天和四裂紅景天的干燥藥材粉末,置高光譜成像系統(tǒng)的移動平臺上,采用推掃式的數(shù)據(jù)采集。調(diào)整相機的視場角、曝光時間間隔、成像速度、樣品和鏡頭的間距等參數(shù)的匹配,以保證數(shù)據(jù)圖像的質(zhì)量。整個系統(tǒng)置于暗箱中,可有效避免圖像采集中環(huán)境雜散光的干擾,并對高光譜圖像進行黑白校正。
3.3 高光譜平均反射率光譜和光譜數(shù)據(jù)的獲取
堆放在移動平臺上的紅景天粉末大小、形狀不規(guī)則,邊緣不整齊,會影響到后續(xù)的光譜預處理、數(shù)據(jù)降維和建模的精確性。通過ENVI5.3軟件手動標定感興趣區(qū)域(ROI),去除零散邊緣和背景,取每批粉末中心部位的4個大小相近的矩形作為ROI,提取ROI內(nèi)所有像素的平均反射率光譜值作為大花紅景天和四裂紅景天樣本的平均光譜數(shù)據(jù),共得到80個平均光譜數(shù)據(jù)。為提高信噪比,去除光譜數(shù)據(jù)起始和結尾噪聲較大的部分,選取有效波長為952.9~1702.2nm的214個波段,建立了大花紅景天和四裂紅景天的最終平均反射率光譜。由圖1A可知:大花紅景天和四裂紅景天的高光譜曲線走勢大致相同,呈現(xiàn)相似的光譜特征。但在相同波長處,大花紅景天的光譜反射率要高于四裂紅景天,在955~1400nm時,大花紅景天的反射率明顯高于四裂紅景天,而在1400~1700nm時,兩者的差距逐漸縮小并趨于一致。光譜曲線在1200、1465nm處有兩個明顯的吸收峰,1200nm處的吸收峰主要由紅景天藥材中相關物質(zhì)C-H(甲基、亞甲基)伸縮的第二泛音產(chǎn)生,1450nm處的強吸收峰主要與O-H鍵伸縮的第一泛音有關。僅從平均反射率光譜上看,特征峰的個數(shù)極少,很難通過尋找特征峰進行鑒別。因此,需要運用化學計量學方法,處理原始反射率光譜,并對高光譜的多維數(shù)據(jù)進行降維處理,提取或選擇特征部分進行建模判別分析。
(A)
(B)
圖 1 平均反射率光譜(A)和 SNV 預處理后的平均反射率光譜(B)
3.4 光譜的預處理
雖然紅景天樣品經(jīng)過粉碎、過80目篩,但并不能保證所有樣品粉末的粒徑大小和均勻度完全一致。顆粒不均、樣品表面粗糙易造成光散射效應,影響后續(xù)分析。光譜預處理通??捎脕碓鰪娀瘜W差異和去除光譜偽影,減小如散射、探測器噪聲、光學效應和樣品粗糙表面等的影響。選用標準正態(tài)變換(SNV)進行光譜預處理。圖1B為大花紅景天和四裂紅景天經(jīng)過SNV預處理之后的平均反射率光譜。與原始反射率圖譜比較,預處理后的高光譜圖峰形更尖銳,圖形特征也更明顯。
3.5 光譜數(shù)據(jù)的劃分
樣本光譜數(shù)據(jù)的有效劃分可提高判別模型的精度和魯棒性。Kennard-Stone(K-S)是一種有效的、廣泛應用的選取訓練集和測試集的方法,采用K-S算法,將80個預處理后的光譜數(shù)據(jù)按照3:1的比例劃分為60個訓練集和20個測試集。
3.6 特征的選擇
高光譜數(shù)據(jù)維度和波段間的相關性較高,具有較高的冗余性。這些冗雜信息可能會影響到建模的精度和穩(wěn)定性,另外,全波段數(shù)據(jù)信息處理時間相對緩慢。選用常用的競爭性自適應重加權算法(CARS)和連續(xù)投影算法(SPA)兩種特征波長選擇方法對數(shù)據(jù)圖像進行降維處理?;贛ATLABR2017b軟件運行代碼實現(xiàn)相關函數(shù),完成對全光譜樣本數(shù)據(jù)的CARS特征選擇。CARS算法提取特征變量的過程見圖2A,圖2A1~A3依次表示隨蒙特卡洛采樣次數(shù)的增加,變量數(shù)、交叉驗證預測均方根誤差(RM-SECV)和每個變量回歸系數(shù)的變化。由圖2A1可知:由于指數(shù)遞減函數(shù)的作用,在采樣初期,變量數(shù)目隨采樣次數(shù)的增加急劇減少;采樣后期,變量數(shù)目變化不再明顯。表明在CARS算法的執(zhí)行中,包含“粗選”和“細選”兩個進程?;诘?6次采樣中獲得的變量子集所建立的PLS回歸模型的RMSECV值達到最小,因此,選定該子集作為特征變量子集,共包含20個變量。圖2B為CARS算法最終選擇的特征變量編號,依次為65、88、99、102、110、111、117、132、135、136、166、180、182、190、195、196、199、205、213、214,對應的波長依次為1175.4、1255.9、1294.5、1305.1、1333.2、1336.7、1357.9、1410.8、1421.4、1424.9、1531.2、1581、1588.1、1616.6、1634.4、1638、1648.7、1670.1、1698.8、1702.3nm。
(A)
(B)
圖 2 CARS 特征波長的篩選過程圖(A)和 CARS 選擇的特征波長(B)
SPA具有快速降維的特點,是一種使矢量空間共線性最小化的前向變量選擇算法,根據(jù)PRESS準則對候選子集進行評估,采用MLR的分析程序計算候選子集的關聯(lián)指數(shù),并按照相關性遞減的順序?qū)λx變量進行排序。圖3A為SPA選擇過程中,均方根誤差(RMSE)隨選擇的變量數(shù)目變化的趨勢折線圖。RMSE是衡量預測值和真實值之間偏差程度的一個標準,RMSE值越小,表明偏差越小,此時預測值和真實值最接近,模型的精度最高,選擇的變量數(shù)目最適合建立鑒別模型。當變量數(shù)為0~27時,RMSE值整體呈現(xiàn)急劇下降的趨勢,在變量數(shù)為27時,RMSE值達到局部最低,為0.1。當變量數(shù)為27~30時,雖然RMSE值也有下降,但變化不大,考慮到所選擇的變量數(shù)目越多,所建模型的運行時間將會相對延長。最終系統(tǒng)選定特征變量數(shù)為27。圖3B為SPA算法在214個波段中按照相關性逐漸遞減的原則篩選的27個特征波段,編號為143、205、180、145、147、212、67、149、87、80、79、136、108、57、214、129、68、134、64、152、66、76、69、77、142、139、141,對應的波長依次為1449.7、1670.1、1581、1456.8、1463.8、1695.2、1182.4、1470.9、1252.4、1227.9、1224.4、1424.9、1326.2、1147.4、1702.3、1400.2、1185.9、1417.9、1171.9、1481.6、1178.9、1213.9、1189.4、1217.4、1446.1、1435.5、1442.6nm。從經(jīng)過SNV預處理之后的訓練集和測試集中,將SPA選擇的特征波段數(shù)據(jù)挑選出來用以進行后續(xù)分析。
(A)
(B)
圖 3 SPA 選擇過程中 RMSE 的變化趨勢折線圖(A)和 SPA 選擇的特征波長(B)
3.7 判別模型的建立與模型評價
SVM包含支持向量機的分類算法(SVC)和支持向量機的回歸算法(SVR),本試驗選用SVC為建模方法。在SVC建模過程中,核函數(shù)及其參數(shù)的選取對預測模型的精度有直接影響。核函數(shù)在建立分類邊界方面是SVM的一個優(yōu)勢,能在有效提升分類模型鑒別性能的同時,降低模型的復雜程度。目前常用的核函數(shù)有3類,分別是多項式、S形核函數(shù)和徑向基核函數(shù)(RBF)。多項式核函數(shù)屬于全局核函數(shù),參數(shù)多,當多項式的階數(shù)d比較高的時候,學習復雜性也隨之升高,易出現(xiàn)“過擬合”現(xiàn)象,核矩陣的元素值將趨于無窮大或者無窮小,計算復雜度會大到無法計算。當采用S形核函數(shù)時,SVM模型將會變成一種多層感知器神經(jīng)網(wǎng)絡。與前兩者比較,RBF是一種局部性較強的核函數(shù),參數(shù)較少,同時對數(shù)據(jù)中存在的噪聲有著較好的抗干擾能力,無論樣本的大小都能有很好的性能。因此,選用RBF作為核函數(shù),以全波段(FS)數(shù)據(jù)為例,采用布谷鳥搜索(CS)、螢火蟲算法(FA)、粒子群算法(PSO)3種參數(shù)尋優(yōu)方法,選擇最佳懲罰參數(shù)C和核函數(shù)參數(shù)g后,進行SVM網(wǎng)格訓練和預測,以測試集的分類準確率和運行時間為衡量指標,選擇最佳的參數(shù)優(yōu)化方法和最適參數(shù)。3種參數(shù)尋優(yōu)方法所建立的FS-SVC模型測試集的分類準確率都達到了100%,但在選擇的參數(shù)值和運行時間上有差別。
表1 參數(shù)尋優(yōu)的結果
由表1可知:懲罰參數(shù)C控制對錯分樣本的懲罰程度,在樣本偏差和機器泛化性能之間進行權衡;C值過大或過小容易造成過擬合或欠擬合;g值隱含地決定了數(shù)據(jù)映射到新的特征空間后的分布,g值大小與影響訓練和預測速度的支持向量個數(shù)呈正相關。綜合比較來看,F(xiàn)A算法選擇的C值適中,且運行時間較其他兩種大大縮短。因此,選擇FA算法為最佳參數(shù)優(yōu)化方法。對80個平均光譜數(shù)據(jù)進行SNV預處理后,采用K-S算法劃分為60個訓練集和20個測試集樣本。將RBF核函數(shù)作為SVC算法的核函數(shù),綜合評價CS、FA、PSO3種參數(shù)優(yōu)化方法后,選用FA算法選擇最佳懲罰參數(shù)C和核函數(shù)參數(shù)g。
FA算法是一種基于智能群的優(yōu)化算法,主要利用螢火蟲發(fā)光的特點進行隨機優(yōu)化。利用螢火蟲個體模擬問題的可行解,目標函數(shù)值表示螢火蟲的亮度。較亮的螢火蟲會吸引其他個體向此方向進行位置移動,他們之間的吸引力與距離成反比。如果某個螢火蟲周圍沒有更亮的個體,它選擇不移動或者隨機變換位置。FA算法的運行參數(shù)設置為螢火蟲數(shù)量20,最大迭代次數(shù)50,步長因子0.5,吸引度0.2,光強吸收系數(shù)1。輸出的最優(yōu)參數(shù)值為C=39.2,g=0.01,利用此數(shù)值建立SVC分類判別模型。RMSE和平方相關系數(shù)是用來衡量模型的預測值和實測值之間偏差大小的標準。優(yōu)秀的分類判別模型應同時具備高的分類準確率和平方相關系數(shù)以及低的均方根誤差。由表2可知:經(jīng)過FA算法優(yōu)化的模型在準確率和運行時間上都較未經(jīng)參數(shù)優(yōu)化的模型大大提高,3種分類鑒別模型都達到了很好的分類鑒別效果,除SPA-FA-SVC模型外的其他兩種判別模型的分類準確率均達到了100%,且CARS-FA-SVC模型的運行時間最短??紤]到在實際應用中要對大規(guī)模紅景天樣本進行分類鑒別,為節(jié)約時間成本,判別模型在具備優(yōu)秀的判別性能的同時也應盡量縮短運行時間。因此,最終選定CARS-FA-SVC為最佳判別模型。
表2 支持向量機判別模型的性能
4、討論
文中競爭性自適應重加權算法 (CARS) 和連續(xù)投影算法 (SPA) 能有效降低高光譜多維幾雜信息的影響,縮短模型的運行時間,是一種有效的特征變量選擇方法。經(jīng)過FA算法優(yōu)化的支持向量機 (SVM) 判別模型整體性能均高于未經(jīng)參數(shù)優(yōu)化的同類模型,其中以CARS-FA-SVC判別模型的表現(xiàn)最好,測試集分類的準確率達到了100%,均方根誤差為0,且平方相關系數(shù)達到了1,運行時間也為6個判別模型中最短的。FA算法能顯著提高判別模型的預測精度,并縮短運行時間,為一個較好的參數(shù)尋優(yōu)方式。
推薦:
便攜式高光譜成像系統(tǒng) iSpecHyper-VS1000
專門用于公安刑偵、物證鑒定、醫(yī)學醫(yī)療、精準農(nóng)業(yè)、礦物地質(zhì)勘探等領域的最新產(chǎn)品,主要優(yōu)勢具有體積小、幀率高、高光譜分辨率高、高像質(zhì)等性價比特點采用了透射光柵內(nèi)推掃原理高光譜成像,系統(tǒng)集成高性能數(shù)據(jù)采集與分析處理系統(tǒng),高速USB3.0接口傳輸,全靶面高成像質(zhì)量光學設計,物鏡接口為標準C-Mount,可根據(jù)用戶需求更換物鏡。