取消
清空記錄
歷史記錄
清空記錄
歷史記錄
近紅外光譜檢測(cè)技術(shù)的成本低,對(duì)于樣本無(wú)損傷、無(wú)污染、方便在線分析。在食品無(wú)損檢測(cè)中得到了廣泛的應(yīng)用。
近紅外光譜技術(shù)是建立一個(gè)穩(wěn)定可靠的定性或者定量模型來(lái)實(shí)現(xiàn)數(shù)據(jù)樣本的校準(zhǔn),常用于定性分析。定性分析中常用的方法有主成分分析法(principal component analysis ,PCA)、模式識(shí)別方法等;定量分析中常用的方法主要是各種多元校正技術(shù),如偏最小二乘回歸(partial least squares ,PLS)、支持向量機(jī)(support vector machine ,SVM)以及神經(jīng)網(wǎng)絡(luò)算法(back propagation ,BP)等。
偏最小二乘法
偏最小二乘法(partial least squares ,PLS)是一種新的多元校正方法,可以建立多元的回歸模型,主要是基于因子分析。偏最小二乘法的原理是首先將樣本的光譜矩陣X和光譜濃度矩陣Y進(jìn)行分解,同時(shí)把包含在樣本中的信息引入進(jìn)來(lái),分解后提取出樣本中的m個(gè)主因子,如公式(1)所示:
式(1)中:測(cè)量矩陣X和Y的得分矩陣分別是T和U;tk和uk分別表示光譜矩陣X的第k個(gè)主成分因子和濃度矩陣的第k個(gè)主成分因子;pk和qk表示主成分因子的載荷,m為成分因子的個(gè)數(shù)。對(duì)于和進(jìn)行線性關(guān)聯(lián),如公式(2)所示:
在進(jìn)行回歸預(yù)測(cè)時(shí),首先求出未知樣品光譜矩陣的得分Tx,再根據(jù)公式(3)得到組分濃度預(yù)測(cè)值,如公式(3)所示:
在該算法的整個(gè)運(yùn)算過(guò)程中,矩陣的分解和回歸分析是同時(shí)進(jìn)行的,計(jì)算新的主成分時(shí),首先交換T和U,使的主成分和測(cè)量矩陣Y直接關(guān)聯(lián)。偏最小二乘PLS算法分析是通過(guò)建立光譜數(shù)據(jù)和品種分類之間的回歸模型來(lái)實(shí)現(xiàn)的。使用PLS分析得到的結(jié)果中,不僅可以建立更優(yōu)化的回歸模型,還可以同時(shí)進(jìn)行主成分分析來(lái)簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu),觀察變量之間的相互關(guān)系等研究?jī)?nèi)容,提供更多的建模信息。所有的獨(dú)立變量都可以包含在最終建立的回歸模型中,PLS可以有效解決變量多重性問(wèn)題。
主成分分析
主成分分析是一種線性投影方法,它主要被應(yīng)用在多元統(tǒng)計(jì)分析中,在不損害樣本的原始信息的前提下,對(duì)高維數(shù)據(jù)進(jìn)行降維處理,將其映射到低維空間中。PCA的基本思路是通過(guò)最優(yōu)化方法簡(jiǎn)化樣本的數(shù)據(jù)矩陣,降低維數(shù),從原本樣本的指標(biāo)中,得到幾個(gè)主成分,用來(lái)揭示樣本中包含的信息。
計(jì)算步驟首先是對(duì)原始數(shù)據(jù)矩陣X進(jìn)行拆分,如公式(4)所示:
借助投影矩陣LT將X投影到多維子空間。T中的列向量和L中的列向量是相互正交的關(guān)系,如公式(5)所示:
重建后的數(shù)據(jù)變量相互獨(dú)立,各主成分按照方差順序進(jìn)行排列,第一主成分包含了數(shù)據(jù)方差的絕大部分,排名越靠前的主成分,其所包含的的數(shù)據(jù)信息量越大。經(jīng)過(guò)計(jì)算所得到的新的橫坐標(biāo)是樣本原來(lái)變量的線性組合。第一主成分元素可以表示為如下形式:
主成分分析的對(duì)象減少,從而可以有效地降低分析的工作量和誤差。分析過(guò)程中只使用獨(dú)立變量,這樣可以達(dá)到消除噪音的目的。對(duì)數(shù)據(jù)進(jìn)行降維處理可以幫助信息的提取和聚類分析。
BP神經(jīng)網(wǎng)絡(luò)算法
BP算法又稱為誤差反向傳播算法,是人工神經(jīng)網(wǎng)絡(luò)中的一種基于誤差反向傳播的監(jiān)督式學(xué)習(xí)算法。在理論上,BP神經(jīng)網(wǎng)絡(luò)算法可以逼近任意函數(shù),基本的結(jié)構(gòu)是由很多非線性變化的單元組成,具有實(shí)現(xiàn)輸入和輸出數(shù)據(jù)高度非線性映射能力。人工神經(jīng)網(wǎng)絡(luò)是對(duì)人類大腦結(jié)構(gòu)以及信息處理運(yùn)作過(guò)程進(jìn)行模擬之后,提出的信息處理系統(tǒng)。因此具有自學(xué)習(xí)和自適應(yīng)的能力。
BP神經(jīng)網(wǎng)絡(luò)的計(jì)算包括正向和反向兩個(gè)子過(guò)程。正向傳播過(guò)程中,是從輸入層逐層轉(zhuǎn)向傳出層。如果輸出和期望不同的時(shí)候,則進(jìn)行反向傳播,把誤差沿著正向傳播路徑的原路徑反向傳播回去,經(jīng)過(guò)各個(gè)神經(jīng)元的修改,使得誤差達(dá)到最小。BP神經(jīng)網(wǎng)絡(luò)法的缺點(diǎn)是學(xué)習(xí)速度慢;在解決全局問(wèn)題時(shí),很有可能陷入局部最優(yōu)化,使得訓(xùn)練失敗;由于學(xué)習(xí)能力和泛化能力之間的矛盾,過(guò)程中容易出現(xiàn)“過(guò)擬合”現(xiàn)象。
支持向量機(jī)算法
支持向量機(jī)算法的優(yōu)化原則是采用以結(jié)構(gòu)化風(fēng)險(xiǎn)最小化取代我們常用的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化;基本思想是利用核函數(shù)代替向高維空間的非線性映射,對(duì)于樣本,若是非線性可再分,則構(gòu)建一個(gè)或多個(gè)甚至無(wú)限多個(gè)高維的超平面,在經(jīng)過(guò)變換后的高維空間,利用這個(gè)超平面來(lái)對(duì)樣本點(diǎn)進(jìn)行分類。一個(gè)好的超平面要求離分類邊界最近的訓(xùn)練樣本點(diǎn)的與分類邊界的距離越大越好,這個(gè)距離被稱之為間隔(Margin),這些樣本點(diǎn)被稱之為支持向量。SVM的目標(biāo)就是要找出使間隔最大的分類超平面。
給定的樣本集,步驟一般如下:首先要將樣本集分為訓(xùn)練集和測(cè)試集,訓(xùn)練集是(x1,y1) (x2,y2)…(xi,yi),其中橫坐標(biāo)xi∈Rn為輸入變量的值,yi∈Rn為相應(yīng)的輸出值。通過(guò)對(duì)訓(xùn)練集進(jìn)行機(jī)器學(xué)習(xí),尋求最優(yōu)化的模式M(x),要求這個(gè)模式不僅滿足訓(xùn)練集輸入和輸出的對(duì)應(yīng)關(guān)系,而且對(duì)于測(cè)試集的樣本輸入變量的值進(jìn)行預(yù)測(cè),同樣能得到效果較好的輸出。
在支持向量機(jī)算法中,使用不同的核函數(shù)會(huì)產(chǎn)生不同的算法,因?yàn)?/span>SVM具有優(yōu)秀的泛化能力,所以是一種適合小樣本的學(xué)習(xí)方法。在SVM進(jìn)行分類的時(shí)候,起到?jīng)Q定性作用的是支持向量。計(jì)算的復(fù)雜性取決于支持向量的數(shù)目,在實(shí)驗(yàn)的過(guò)程中只需要抓住關(guān)鍵的樣本。SVM在運(yùn)算的過(guò)程中很少涉及到概率測(cè)度及大數(shù)定律等規(guī)律,而且支持向量法整體具有較好的“魯棒”性。
在數(shù)據(jù)挖掘的實(shí)際應(yīng)用中,一般要解決多類的分類問(wèn)題。如:將SVM與粗集理論結(jié)合,形成一種優(yōu)勢(shì)互補(bǔ)的多類問(wèn)題的組合分類器。
最小二乘支持向量機(jī)算法
最小二乘支持向量機(jī)(least square support vector machines ,LS—SVM)是支持向量機(jī)的一種類型,是在經(jīng)典SVM的基礎(chǔ)上改進(jìn)得來(lái)的。LS—SVM既可以進(jìn)行線性,也可以進(jìn)行非線性的多元建模,支持少量的訓(xùn)練樣本中高維特征空間的學(xué)習(xí),是解決多元建模的一種快速方法。最小二乘支持向量機(jī)具有建模速度快、優(yōu)化參數(shù)少、泛化能力強(qiáng)等優(yōu)點(diǎn),因此被廣泛應(yīng)用于近紅外光譜技術(shù)檢測(cè)的定量分析中。最小二乘支持向量機(jī)同時(shí)具有很好的非線性處理能力,可以用于快速建立多元模型。
K最近鄰分類算法
在K最近鄰分類算法(K-nearest neighbor,KNN)算法中每個(gè)樣本都可以用它最接近的k個(gè)鄰居來(lái)代表。KNN算法的核心思想是在特征空間中,如果以一個(gè)樣本為中心,它周圍最相鄰的k個(gè)樣本,它們大多數(shù)屬于某一個(gè)類別,則這個(gè)樣本也屬于這個(gè)類別,并且具有這個(gè)類別上其他k個(gè)樣本的特性。
如圖1所示,有三類不同樣本,分別以方框、空心圓點(diǎn)和實(shí)心圓點(diǎn)表示。其中以“+”標(biāo)記出的樣本,需要分析出它所屬的類別。在此圖中以該樣本作為圓心,畫出兩個(gè)圓,如果以小圓為界線,只有2個(gè)實(shí)心圓點(diǎn)落在小圓的范圍內(nèi),此時(shí)按照KNN原理應(yīng)該將樣本劃分為實(shí)心圓點(diǎn)那一類。如果以大圓為界線,共有10個(gè)點(diǎn)落在了大圓的范圍內(nèi),其中有3個(gè)方框類,有8個(gè)實(shí)心圓點(diǎn)類,按照KNN理論,也應(yīng)該被劃為實(shí)心圓點(diǎn)這一類。這說(shuō)明K值的大小對(duì)判別的結(jié)果是有一定的影響的。如果K>1,則這K個(gè)最近鄰樣本不一定都屬于這一類。如果K=1,很自然這一個(gè)最近鄰樣本屬于哪類,那么未知樣本就屬于此類。
KNN分類算法的最大優(yōu)點(diǎn)是其適合于屬性較多或者數(shù)據(jù)量很大的問(wèn)題。在進(jìn)行數(shù)據(jù)處理的過(guò)程中,不需要提前設(shè)計(jì)分類器對(duì)訓(xùn)練樣本進(jìn)行分類,而是可以直接進(jìn)行分類,確定每個(gè)類的類標(biāo)識(shí)號(hào),不需要估計(jì)參數(shù),無(wú)需訓(xùn)練;在解決多分類的問(wèn)題上KNN比SVM表現(xiàn)要好。KNN在實(shí)際的應(yīng)用中存在下面兩個(gè)問(wèn)題:當(dāng)對(duì)估計(jì)參數(shù)沒(méi)有相應(yīng)的限制時(shí),訓(xùn)練集的數(shù)目又比較大,這時(shí)尋找最近鄰所花費(fèi)的時(shí)間較長(zhǎng)。其次,對(duì)于觀測(cè)集的增長(zhǎng)速度有較高要求。
線性判別分析法
主要用來(lái)判斷樣品的類別,即可以對(duì)樣品中的成分進(jìn)行定性分析,線性判別分析法(linear discriminant analysis,LDA)在醫(yī)學(xué)診斷、氣象學(xué)、市場(chǎng)預(yù)測(cè)、經(jīng)濟(jì)學(xué)和地質(zhì)勘探等領(lǐng)域中均已起著重要作用。
LDA算法的基本思想是通過(guò)特征向量將已經(jīng)分組的數(shù)據(jù)向低維的方向投影,使得同一個(gè)組的數(shù)據(jù)關(guān)系更為緊密,不同組的之間盡可能的分開(kāi)。LDA的目標(biāo)是要根據(jù)樣本中的n個(gè)指標(biāo)變量x=(x1,x2,…,xn)T建立一個(gè)最優(yōu)分類判別函數(shù),判別函數(shù)的建立最終是尋找一個(gè)矢量w=(w1,w2,…,wn)T,那建立一個(gè)如下的判別模型,如公式(9)所示:
矢量w是個(gè)常數(shù),稱作閥值權(quán),相應(yīng)的決策規(guī)則則可表示為,如公式(10)所示:
f(w,x)=0是相應(yīng)的決策面方程,如公式(11)所示:
f(w,x)也就是該決策面到d維空間中任一點(diǎn)w距離的代數(shù)度量,根據(jù)其到該面距離的正負(fù)號(hào),該決策平面將樣本分類,并且確定出相應(yīng)的類別。W(w0≠0)表示的是決策面在特征空間中的位置,當(dāng)其值為0時(shí),表示這個(gè)決策面過(guò)原點(diǎn)。
連續(xù)投影算法
連續(xù)投影算法(successive projections algorithm,SPA)是在線性空間中,使共線性達(dá)到最小化的一種前向變量選擇算法。設(shè)定標(biāo)集中樣品個(gè)數(shù)為n,包含波長(zhǎng)數(shù)為m,組成一個(gè)光譜矩陣Xn×m,SPA從任選一個(gè)波長(zhǎng)作為起始波長(zhǎng)點(diǎn),循環(huán)進(jìn)行搜索,搜索投影中沒(méi)有被引入波長(zhǎng)組合的部分,每次都將最大的投影方向不斷地引入,直到循環(huán)W(w
選擇其中最大的投影,并且記錄下相應(yīng)序號(hào)作為入選的波長(zhǎng),如公式(13)所示:
當(dāng)n=w時(shí)停止循環(huán),否則返回到第二步不斷地做投影優(yōu)選波長(zhǎng)。這樣總共得到w×m個(gè)模型。
連續(xù)投影算法的優(yōu)點(diǎn)是:最大程度的降低了變量之間的共線性,提取最低限度的冗余信息變量組可以減少建立模型所需要變量的個(gè)數(shù),提高建模效率和速度。
以上算法都是近紅外光譜在建立定性或定量模型中的常見(jiàn)算法。但目前很多商用的近紅外光譜儀將算法整合到建模軟件中,并不需要使用人員完全了解算法即可建模。但今后近紅外的發(fā)展離不開(kāi)人們對(duì)算法的研究??梢灶A(yù)見(jiàn)的是,隨著近紅外的發(fā)展普及,越來(lái)越多人會(huì)對(duì)近紅外的算法產(chǎn)生興趣。隨著時(shí)代,未來(lái)將會(huì)有新的技術(shù)誕生,給光譜儀產(chǎn)業(yè)帶來(lái)翻天覆地的變化。