首页  技术文章  拉曼多组分分析中的偏最小二乘算法

拉曼多组分分析中的偏最小二乘算法

发布时间:2022-05-10 11:44:02 浏览量:1550 作者:Leon

摘要

拉曼光谱是分析生物样品中生物分子含量的有力工具。通过检测光子的波长变化和发生这种变化的光子的大小,就可能确定化学键和当前化学物质的浓度。拉曼光谱在多组分分析中的应用一直是一个活跃的研究领域,例如仅使用少量液体就可瞬间测量人体血液和尿液样本中的一系列分析物。该方法不需要额外的化学品,样品不受测量过程的影响。

正文


拉曼多组分分析中的偏最小二乘算法

在过去的二十年中,人们对拉曼光谱在测量多组分混合物中不同组分浓度方面的应用有相当大的兴趣。首先是建立一个纯形式的单个组分的拉曼光谱数据库来实现的。然后应用最小二乘算法找到一个最佳拟合说明混合光谱。偏最小二乘算法返回的权值表示每个分量的相对浓度。该方法可应用来估计血液和尿液样品中各种分析物的浓度,包括葡萄糖。多分量分析的核心的算法为偏最小二乘(PLS)。下面将讨论如何利用PLS对生物样品中的化学浓度进行建模和预测,并验证所建立模型的预测精度。


PLS是用拉曼光谱进行多组分分析的核心数学方法。PLS结合多元回归和主成分分析(PCA)的原理,以检验因变量和自变量的方差,同时考虑它们之间的相关性。偏最小二乘回归(PLSR)是基于自变量(例如波长变化)和因变量(例如分析物的浓度)之间的线性关系的假设。它类似于主成分回归(PCR),因为它试图构建一个稀疏潜变量的矩阵,然而,不同的是,在PLS中,自变量被构建为与因变量具有高协方差。因此,PLS优化了方差解释和与因变量的相关性,而PCR在构建自在变量时没有使用响应。


在预测数据时,需要评估或验证模型的准确性及其预测精度。相关系数r是变量之间线性关系强度的度量。在回归分析中,r2被称为决定系数,它是衡量自变量用来预测因变量的准确性的一个指标。r更明确地定义为:



其中n表示数据对的个数。r2是r的平方。r的取值范围是+1到-1,+1表示线性正相关,即x增加,y增加。-1表示负相关,即x增加,y减少。r2在0和1之间,1表示完全相关,0表示不相关。


均方根误差(RMSE)是衡量包括PCR和PLSR在内的回归模型拟合优度的常用指标。它是预测浓度(残差)与观测浓度(残差)之差的样本标准差。交叉验证涉及到将数据分割成子集,用于训练和测试模型。交叉验证的留一法涉及分离单个样品及其光谱。其余的样本用于训练目的,然后该模型用于预测分离样本。这个过程会反复进行,直到每个样本都被用作针对剩余池的数据测试集。验证测试结果等措施的根均方误差预测(RMSEP),当处理一组测试数据和一组训练数据,和交叉验证的根均方误差(RMSECV),当处理多个测试和训练数据的组合。更明确:



其中n为集合中元素的总数,L为训练数据,k为所选训练数据的子集。


您可以通过我们昊量光电的官方网站www.auniontech.com了解更多的产品信息,或直接来电咨询4006-888-532,我们将竭诚为您服务。