清空記錄
歷史記錄
取消
清空記錄
歷史記錄
LIBS結(jié)合機器學(xué)習(xí)算法的江西名優(yōu)春茶采收期鑒別
一、引言
激光誘導(dǎo)擊穿光譜(LIBS)技術(shù)是近些年發(fā)展起來的一種對材料所含元素進行定性和定量分析的檢測技術(shù),相對于其他分析技術(shù),LIBS技術(shù)具有多元素同時檢測、結(jié)構(gòu)簡單、檢測速度快等獨特優(yōu)勢。目前,利用LIBS檢測技術(shù)對茶葉樣品進行快速分類已成為國內(nèi)外LIBS領(lǐng)域研究的熱點。這些研究表明,利用LIBS表征的物質(zhì)元素光譜信息結(jié)合化學(xué)計量學(xué)模型對茶葉的地理來源和品種進行追溯是可行的。然而,目前缺乏春茶采收期LIBS鑒別相關(guān)研究。因此,本工作通過分析江西特色名優(yōu)春茶不同采收期的LIBS特征光譜,尋找春茶采收期快速鑒別方法。
二、材料與方法
本文分析的春茶樣品均采自中國江西省,分為明前(清明節(jié)氣前采收)茶與雨前(清明節(jié)氣到谷雨節(jié)氣間采收)茶兩類采收期春茶,樣品具體信息如表1所示,其中,CNY/50g表示的是每50g茶葉的價格。本研究以這兩種江西特色名優(yōu)茶葉為例,開展基于LIBS的春茶采收期鑒別分析工作,并據(jù)此將樣品進行規(guī)范保存、預(yù)處理和實驗。對于茶葉樣品,為獲得較好的LIBS信號,并減少樣品中元素物理、化學(xué)基體的影響,采用粉碎機將茶葉粉碎后過100目篩,利用電子天平稱量3g樣品粉末,在壓片機20t的壓力下將待測樣品壓制成直徑約為25mm、厚度約為3mm的圓餅片。每類春茶取10個重復(fù)樣本,共得到40個實驗樣本。對于茶水樣品,當(dāng)LIBS技術(shù)應(yīng)用于液體中重金屬元素檢測時,激光能量損耗大、水體的淬滅效應(yīng)、水體對等離子體的壓縮作用和水中等離子體的離散結(jié)構(gòu)等會導(dǎo)致檢測的光譜信號弱且不穩(wěn)定。為了解決這一問題,本實驗組探索了多種改變液體樣品形態(tài)的方法,包括原始溶液、冷凍樣品、木片富集和濾紙富集。經(jīng)過測試,濾紙富集技術(shù)被確定為最有效的方法。最終采取如下茶水富集實驗方案:將3g茶葉稱入100mL燒杯中,加入50mL的100℃蒸餾水,浸泡5min,再將茶水樣品浸入直徑為60mm含有定量濾紙的培養(yǎng)皿中,目的是將茶水中浸出的物質(zhì)富集在濾紙上,并讓濾紙自然干燥。對每類春茶的10個茶水樣品重復(fù)此方案,共獲得40個測試樣品。獲得的單個茶葉及茶水富集的樣品如圖1所示。
表1春茶樣品信息
圖1單個實驗樣品 (a)茶葉;(b)茶水富集
LIBS檢測系統(tǒng)主要裝置如圖2所示。
圖2LIBS主要裝置示意圖
需要說明的是,對于每類采收期春茶,前期分別獲得10個茶葉樣品和10個茶水樣品。而針對于每個樣本,隨機取10個測試位點進行光譜采集,同時為減少光譜的波動性,將每個位點產(chǎn)生的3個脈沖光譜均值作為一幅光譜,即每類茶葉和茶水樣品得到100幅光譜數(shù)據(jù),4類關(guān)聯(lián)采收期春茶的茶葉和茶水分別獲得400幅光譜數(shù)據(jù)。
三、結(jié)果與討論
3.1 樣品LIBS特征譜線分析
在優(yōu)化的LIBS實驗條件下,采集的廬山云霧茶和狗牯腦茶明前、雨前原始茶葉的LIBS平均光譜對比如圖3(a)、(b)所示,茶水富集后的LIBS平均光譜對比如圖4(a)、(b)所示??梢钥闯?,LIBS光譜包含眾多離散的光譜線,而光譜線的強度與特定化學(xué)元素的濃度有關(guān),這些元素可通過原子光譜數(shù)據(jù)庫來確定。在200~1050nm波長范圍內(nèi),所測特征譜線波長差異小,即不同采收期茶葉所含元素類型幾乎相同;而不同采收期LIBS光譜強度在特定的波長上觀察到明顯的區(qū)別。同時,本工作中的兩類名優(yōu)茶的雨前整體LIBS光譜強度較明前更高,可能的原因是雨前茶的生長周期更長。此外,可看到原始光譜在550~700nm等波段存在輕微的連續(xù)背景干擾。因此,采用一種典型的基線校正方法對原始LIBS數(shù)據(jù)進行預(yù)處理,即對譜峰進行識別,扣除基線強度,其能有效地避免基線強度對譜線強度造成的影響和防止模型過擬合。以廬山云霧春茶為例,基線校正后LIBS茶葉平均圖譜如圖5所示,LIBS光譜中連續(xù)背景輻射得到了有效消除,且光譜預(yù)處理前后的整體趨勢未發(fā)生改變。
圖3茶葉LIBS平均光譜圖。(a)廬山云霧茶葉原始光譜;(b)狗牯腦茶葉原始光譜
圖4茶水LIBS平均光譜圖。(a)廬山云霧茶原始光譜;(b)狗牯腦茶原始光譜
圖5基線校正廬山云霧茶葉平均光譜圖
在LIBS檢測過程中,會產(chǎn)生高維度的光譜數(shù)據(jù),這項工作中單幅光譜直接獲得的數(shù)據(jù)維度為16359維,而LIBS分析通常只使用特征峰的波長和強度信息。因此,對LIBS光譜數(shù)據(jù)進行特征提取有助于提高分類的識別準(zhǔn)確率和效率。對其主要的元素組成進行鑒定和標(biāo)記后可以看出Mg、Mn、Ca、Na、K等金屬以及C、H、O、N等非金屬元素清晰的特征譜線。由于實驗在自然環(huán)境下進行,為減少空氣中氧氣和氮氣對結(jié)果的影響,故不參考O和N的特征譜線。優(yōu)選出11條譜線差異的信息作為光譜指紋來識別不同類型的茶,如表2所示。
表2優(yōu)選的11條譜峰
3.3 春茶樣品PCA探索性分析
將上述優(yōu)選的11條特征譜線數(shù)據(jù)作為輸入變量,分別采用PCA法對春茶樣品的茶葉、茶水及茶葉茶水融合的光譜數(shù)據(jù)進行聚類分析。值得說明的是,茶葉茶水融合的方法是特征級融合,即將茶葉和茶水各自優(yōu)選的11個特征峰拼接起來,形成22個譜峰數(shù)據(jù)融合的特征空間。分別利用廬山云霧春茶和狗牯腦春茶的PCA前三主成分得分繪制三維散點圖,并標(biāo)出95%的置信區(qū)間,如圖6、7所示??梢钥闯?,盡管類內(nèi)樣本較為集中,但茶葉類別之間有重疊的PCA聚類屬性,這表明了區(qū)分的挑戰(zhàn)性。其可能的原因是明前茶、雨前茶生長條件類似(包括氣候和土壤等)。因此,有必要引入其他算法以實現(xiàn)春茶采收期鑒別。
圖6廬山云霧春茶PCA三維散點圖。(a)茶葉;(b)茶水;(c)融合數(shù)據(jù)
圖7狗牯腦春茶PCA三維散點圖。(a)茶葉;(b)茶水;(c)融合數(shù)據(jù)
3.4 機器學(xué)習(xí)算法
將優(yōu)選的茶葉、茶水以及茶葉茶水融合譜峰構(gòu)建特征空間,同時采用機器學(xué)習(xí)中常用的隨機化測試策略,對于每個分類任務(wù),光譜數(shù)據(jù)以3∶2的比例隨機分為訓(xùn)練樣本和測試樣本。值得說明的是,訓(xùn)練集識別率的統(tǒng)計采用小樣本的5-折交叉驗證法,即將樣本隨機分為5等份,每次將其中1份作為驗證集,剩下4份作為訓(xùn)練集進行訓(xùn)練,將5次結(jié)果的正確率平均值作為對訓(xùn)練集精度的估計。基于此,采用機器學(xué)習(xí)算法實現(xiàn)江西名優(yōu)春茶快速鑒別。此外,為了保證訓(xùn)練集和測試集的代表性和平衡性,以及避免過擬合或欠擬合的問題。評估隨機劃分訓(xùn)練集和測試集1000次的分類效果,同時這個過程并沒有進行迭代優(yōu)化,以保證結(jié)果的獨立性和可靠性。值得提出的是,茶葉、茶水和融合數(shù)據(jù)在單次的模式識別用時都穩(wěn)定在0.1s左右,說明茶葉茶水融合之后數(shù)據(jù)處理過程并沒有增加太多時間消耗。廬山云霧春茶、狗牯腦春茶的每種模式識別連續(xù)1000次交叉驗證集和測試集平均識別率結(jié)果如表3、表4所示,括號內(nèi)數(shù)值表示的是1000次分類結(jié)果的標(biāo)準(zhǔn)誤差。
表3 廬山云霧茶的交叉驗證集和測試集的分類模型結(jié)果比較
表4 狗牯腦茶的交叉驗證集和測試集的分類模型結(jié)果比較
繪制廬山云霧春茶、狗牯腦春茶測試集連續(xù)1000次平均識別率,如圖8(a)、(b)所示,誤差棒表示的是1000次分類結(jié)果的標(biāo)準(zhǔn)誤差。
圖81000 次平均識別率對比圖。(a)廬山云霧春茶;(b)狗牯腦春茶
分析驗證集和測試集的平均識別率結(jié)果可知,茶葉的分類效果優(yōu)于茶水,而數(shù)據(jù)融合之后的效果最好,同時數(shù)據(jù)融合之后1000次運行結(jié)果的標(biāo)準(zhǔn)差變小了,即分類結(jié)果更為穩(wěn)定。以LDA模型為例:廬山云霧春茶數(shù)據(jù)融合之后測試集準(zhǔn)確率相較于茶葉和茶水分別提升了約1.82個百分點和7.12個百分點,而標(biāo)準(zhǔn)差分別降低了約30.81%和45.42%;狗牯腦春茶數(shù)據(jù)融合之后測試集準(zhǔn)確率相較于茶葉和茶水分別提升了約0.29個百分點和4.25個百分點,而標(biāo)準(zhǔn)差分別降低了約13.48%和64.84%。因此,融合方法比單獨的方法具有更好的穩(wěn)定性和魯棒性。
通過比較4種識別算法,發(fā)現(xiàn)LDA模型具有更好的性能和穩(wěn)定性:廬山云霧春茶的茶葉、茶水及數(shù)據(jù)融合的1000次測試集平均識別率分別為96.78%、91.48%和98.60%;狗牯腦春茶的茶葉、茶水及數(shù)據(jù)融合的1000次測試集平均識別率分別為99.09%、95.13%和99.38%。而KNN模式識別測試結(jié)果較差,但表現(xiàn)較差的茶水分類結(jié)果仍在87%以上,數(shù)據(jù)融合之后可達95%的準(zhǔn)確率,可見所使用的機器學(xué)習(xí)算法均具有良好的分類性能。
四、總結(jié)
在茶葉檢測中,對不同采收期春茶的鑒別是一項重要工作。本研究采集了2022年江西兩種名優(yōu)茶春季不同采收期LIBS光譜,采用基線校正方法對LIBS光譜背景信號進行修正,并優(yōu)選出11組特征變量,引入算法構(gòu)建訓(xùn)練分類模型。結(jié)果表明,融合數(shù)據(jù)的分類結(jié)果優(yōu)于單獨使用茶葉或茶水獲得的結(jié)果,其中,LDA模型表現(xiàn)較好,對于廬山云霧春茶與狗牯腦春茶的1000次交叉驗證集和測試集,平均準(zhǔn)確率分別達到98.29%和98.60%以及99.20%和99.38%。研究結(jié)果表明,LIBS結(jié)合機器學(xué)習(xí)方法對春茶采收期鑒別具有可觀潛力。此外,針對茶葉和茶水的LIBS光譜學(xué)和化學(xué)計量學(xué)相結(jié)合的方法可以擴展到其他茶葉類型的識別。
推薦:
激光誘導(dǎo)擊穿光譜技術(shù)在低碳鋼鐵冶金行業(yè)的應(yīng)用
LlBS激光誘導(dǎo)擊穿光譜系統(tǒng)是該技術(shù)通過超短脈沖激光聚焦樣品表面形成等離子體,利用光譜儀對等離子體發(fā)射光譜進行分析,識別樣品中的元素組成成分,可以進行材料的識別、分類、定性以及定量分析。