PCA信息处理方法及应用（PCA）主成分分析-唐朝资源网

PCA信息处理方式及应用主元剖析法（PCA，又称主成份剖析）是一种应用广泛的多元统计剖析方式，作为一种聚类统计工具，它可以从检测含噪音的高维数据中提取出反映过程特点的低维变量，借助低维变量可以构造出测量统计量，从而进行故障监测。克服了因为噪音的影响，无法从数据中提取和解释信息的困难。由Pearson提出，此后大量的文献对其做了深入研究，使其逐渐建立。PCA把过程空间分为主元子空间和方差子空间，并分别定义统计量，当统计量超过相应的控制上限，则觉得出现异常，实现故障的检查与隔离。7.1PCA的故障确诊原理主元剖析法是一种才能处理数据相关性的统计剖析技术。对于高维原始变量X进行聚类处理，忽视具有较小残差的线性组成部份，保留具有较大方差项，最大限度地携带原变量中的有效信息，实现数据的有效压缩。设原始变量为一m维随机矢量，其每位份量的均值为零，Xj的协残差，A为一半元氏对称矩阵，设的m个特点值，则存在正交矩阵P促使：其中为对角阵应的特点向量。令则有：。pi之间互相标准正交，ti之间互相无关[30]。对于此变换，在多元统计学中有如下定义[31]：ti称为第i控向量的一组检测值经过变换后得到的值称为检测值在第i得分，向量pi被称为第i主元的负荷向量。

求取主元，得分及负荷向量的方式被称为主元剖析法。基于主元剖析原理，设k为最终保留的主元个数，过程处于正常状态下的检测数据在经过标准化处理(每位变量都为零均值单位残差)后矩阵记为X，对X进行个主元对应的负荷向量组成的矩阵，被称为负荷矩阵，它所支撑的子空间被称为主元子空间(PCS)。个主元对应的得分向量组成的矩阵，在PCS上的恐怕(或投影)。表示后被称为得分矩阵，X0个主元对应的负荷向量组成的矩阵，被称为方差负荷矩阵，它所支撑的空间被称为方差子空间(RS),E为检测数据在方差子空间上的投影，被称为模型的恐怕残差矩阵。通过前面的描述可知，通过对正常数据进行PCA，可以把过程变量所处的空间进行如下分解：这时，我们可以在这两个子空间上分别构造检查统计量，对一组新测数据，在RS上定义SPE统计量，又称Q统计量，2T2在PCS上定义HotellingT统计量，-5)T2对于任一组新检测数据，假如估算得到的上述两个统计量超过了相应的控制上限，则觉得过程中出现了异常，可以实现故障检查[32]。7.2基于PCA的故障可测量性研究针对不同过程中存在的不同特点，借助历史数据构建起PCA统计模型后，便可以进行故障检查。

当新检测数据的分布情况与历史不相符合造成相关检查统计量超出控制限时，便意味着过程中出现了故障。当故障发生时，假若某方式能检测出故障，则称故障对该方式是可测量的。故障的可检性即确诊方式对故障的检测能力。故障可测量性研究的内容包括阐明故障可测量的条件，对检查方式改进及提高其测量能力等。在基于PCA的故障检查中，通常会有四种情况：(1).T和SPE统计量都不超222控制限；(2).T正常，但SPE超出控制限；(3).T超出控制限，但SPE正常；SPE都超出控制限。一些文献觉得(2)和(4)为故障，另两种正常，即以SPE统计量是否超出控制限作为是否发生故障的标准。冯雄蜂(1999)[34]通过对两个统计量均值的剖析，对上述四种情况对应的工况进行了研究，强调(3)有可能是工况变化导致的，也有可能是故障导致。Doymaz等(2001)针对情况(3)进行了深入研究，提出结合T和SPE实现传感故障检查[35]。Yue和fú提出了一种复合式统计量，并给出控制限估算方式，简化了故障检查问题[36]。Choi等(2002)把基于此复合式统计量的故障检查方式成功地推广到非线性过程中[29]。

在参考文献[32]中第三章，通过对T和SPE统计量期望变化的定量剖析，对种测量结果的定性推论，给出了一定的物理根据。同时还得出，对每种故障都存在统计量完全检查不到的情况，据悉，被定义为故障的几种过程变动都可能会导致SPE统计量期望的变化，而工作点的改变只造成T2的变化，所以在大多数的文献研究中，都以SPE统计量作为故障监测指标，7.3基于PCA的传感讯号预测模型所以，Ti与Tj是不相关的，若总体X为正态随机矢量，则它们还是独立的。，因为Ti均值为零，所以即为Ti的残差，因为相像矩阵的迹相等，故有：的平均能量。设为介于之间的数，令：，选定整数s，致使携带能量的比重早已超过，为此，可以把看成随机扰动。通常个主元集中了随机变量X的各个份量的共同特点。另一方面，即便存在逆变换：过正交变换求出正交矩阵P，及其主成份矩阵T，有：。依据X个才能代表随机变量X的各个份量共同特点的主成份数据份量，对其进行重点建模预测。而对后行数据，其数值通常相对较小，对精度的影响不大，可以进行简单建模预测，也可以看作是随机扰动，何必建模[37]。对于前s个主元数据份量，通过对其进行预测，预测得到的主元可以获得历史数据的预测值根据逆正交变换：X。

具体短期讯号预测模型如图2-1所示。X12m因为主元剖析就能增加输入变量的维数，最大限度地携带原变量中的有用信息，但是新变量之间互不相关，实现数据的有效压缩，因而被广泛地应用于参数特点提取，目标跟踪，模式辨识，图象处理，过程控制及故障确诊等方面[38-44]。针对不同应用要求，对其模型结构的设计研究造成众多关注，近些年来，随着神经网路发展的日趋成熟，一些基于神经网路的PCA的故障确诊模型被陆续提出，如通过5层偏差反传神经网路[45]、双径向基函数(RBF，RadialBasisFunction)神经网路[46-47]的PCA模型及基于自组织基于PCA的的讯号预测模型图7-1基于PCA讯号预测模型映射(SOM，SelfOrganizingMapping)神经网路[48]的PCA模型等。并且这种模型普遍存在结构复杂，估算量大，收敛速率慢等缺点，影响了模型的实际应用效7.4基于PCA讯号预测模型的传感故障确诊基于PCA讯号预测模型进行故障确诊的原理是：借助历史数据的时间序列关系，通过PCA讯号预测模型预测下一时刻的参数值，将该值与实际检测值进行比较，通过估算系统的SPE值来进行故障确诊。

7.4.1传感故障检查当传感系统发生故障时，按照新的实测数据样本与统计模型预测值的背离程度来测量故障[49]，即检测传感的检测值与正常预测值之间的平方预期偏差SPE，e(k)为各传感在第k个时刻的偏差向量，个时刻的检测值,X12n由PCA模型得到的第k时刻数据的构建值，则k时刻传感系统的SPE正常无故障情况下，偏差较小，因而SPE值很小，但若果某传感发生故障，其实时检测值将与该时刻正常值有很大误差，即便其SPE值会显著减小。依据(2-12)式估算可得一在各时刻的SPE变化曲线，假如发觉某时刻SPE值忽然变大，则表明该传感系统有故障发生。故障检查的规则为：(7-13)传感系统有故障其中是SPE的故障阀值。7.4.2传感故障隔离检测到传感系统发生故障，为了能及时排除故障，必须才能确切发觉故障源。在传感故障确诊中，即要明晰是那个传感出了故障，便于才能及时隔离该传感器，同时用模型的预测值取代传感的正常值来保证系统的正常运行，实现容错控制。在此，我们应用Dunia等曾提出的传感故障隔离的线性变量构建方式[50]。该方式的思想是：假定任何一个传感都是可能的故障源（同一时刻是单个故障），用基于PCA的讯号预测模型构建假设有故障的传感讯号，其它传感器器讯号仍保留为原输入变量，通过检测构建前后的SPE值来确定故障传感。

在传感系统发生故障以后，基于PCA的讯号构建模型，应用时刻曾经的检测，数据，可以得到各传感k时刻的构建值，X1212jn时刻的传感的实际检测值中，将第j个传感k时刻的PCA构建讯号Xj其中，SPEj(k)表示构建了第j个变量以后的SPE(k)值，因而，一旦有故障的传感器检测值被重塑，SPEj(k)值会因为故障被重塑排除，而处于故障阀值以内。相反，若构建的不是故障变量，SPEj(k)值则仍会受故障影响，而处于故障阀值之外[51]。其实，当故障被测量下来，分别估算构建后各传感的SPEj(k)值，若满足，则可以确定第j个传感是有故障的，因而实现传感故障隔离.7.5基于BP的PCA模型及其传感故障确诊在图7-1所示的模型中，实现讯号预测的方式好多，针对在线故障确诊对预测精度和速率要求较高的特征，本课题中采用神经网路预测的方式。人工神经网路诞生于20世纪40年代。1964年，Hu应用自适应线性网路进行天气预报，开创了人工神经网路预测的先河，随着神经网路的发展，基于神经网路的短期讯号预测的研究也越来越多。基于神经网路模型的预测原理为：用一部份数据训练模型，即确定网路结构（包括蕴涵层数、各层节点数、层联接残差、各层神经元的传递函数），网路结构确定之后，用剩余部份数据进行预测。

总结上去，大体可以分类：单一的一类神经网路模型；多种神经网路相结合的优化模型；有神经网路结合其他方式进行预测的综合模型等。7.5.1BP神经网路简介BP神经网路是目前应用最为广泛和成功的神经网路之一。它是由Rumelhant和McClelland在1986年提出的，是一种多层网路的―逆推‖学习算法，其基本思想是，学习过程由讯号的正向传播与偏差的反向传播两个过程组成。正向传播时，输入样本从输入层传入，经隐层逐层处理后传向输出层。若输出层的实际输出与期望输出(班主任讯号)不符，则转向偏差的反向传播阶段。偏差的反向传播是将误差平摊给各层的所有单元，因而获得各层单元的偏差讯号，此偏差讯号即作为修正各单元残差的根据。这些讯号的正向传播与偏差反向传播的各层残差调整过程是周而复始地进行的。残差不断调整的过程，也就是网路的学习训练过程。此过程仍然进行到网路输出的偏差降低到可以接受的程度，或进行到预先设定的学习次数为止。具体算法相见参考文献[52]。从理论上说，BP神经网路能以任意精度迫近任意非线性映射。为了使BP神经网路实现讯号预测的功能，对于单个主元，借助时刻的数据作为神经网路的输入讯号，将t时刻的数据作为输出讯号，通过反复训练BP网路，使其能否把握讯号变化的规律，具有预测讯号的能力。

具体神经网路的构成如图7-2所示。图7-2BP神经网路讯号预测结构7.5.2仿真实例是分布在[-0.1,0.1]上的独立白噪音变量，t是定义在[-1，1]上的变量，，采用400个训练测量数据点，为传感取样点。采用的预测模型如图7-3所示。7.5.2.1传感故障检查按照基于PCA讯号预测的模型，通过正交变换得到历史讯号的主成份矩阵T，得到明显性水平为0.9203个才能代表随机变量X的各个份量共同特点的主成份数据份量T1,T2。此后，通过BP经网路对T1,T2进行预测，在此采用时刻的数据，预测t时刻的数据T1,T2。最后，通过逆正交变样点，对变量x1从250到400个取样点进行故障模拟，故障的幅度达到变量x1变差范围的13%。图7-4为传感图7-3基于PCA的BP神经网路预测模型通过比较容易发觉，检测讯号与预测讯号间很紧贴pca数据处理原程序，而故障讯号非常显著。即证明图7-5为正常状况下的SPE值。可以看出，在正常情况下，SPE值处于比较平稳的状态，且处于故障阀值以下。图7-4×1的正常值，预测值和故障值之间的关系图SPE取样点k图7-5正常无故障情况下传感系统的SPE图7-6是x1有故障的情况下系统的SPE值，显著看出，从第250个取样点开始，SPE值忽然下降，即发生跳变，超过了控制阀值。

因而依据故障监测原理可以推断系统发生了故障。SPE取样点k图7-6有故障情况下传感系统的SPE7.5.2.2传感故障隔离为对发生故障的传感系统进行故障传感的隔离，分别单独对x1,x2,x3,x4,x5进行构建。由故障隔离原理可知，若传感j被构建后，系统的SPE值大于控制阀值，则是传感j故障。图7-7为变量x1构建后的SPE1值。其实，变量x1被构建之后，系统的SPE值会降到故障阀值以下。图3-7为变量x2构建后的SPE2值，同理，对变量x3,x4,x5进行构建pca数据处理原程序，SPE3,SPE4,SPE5的结果与图7-8相同，系统的值SPE仍低于故障阈的值x1被构建后，传感系统的SPE值增长到故障控制阀值以下，说明故障被排除；而当x2,x3,x4,x5被分别构建后，传感系统的SPE值依然处于故障控制阀值以上，说明故障一直没有被排除。为此，我们可以确切判断传感1发生了故障，因而隔离出故障传感。SPE取样点k图7-7传感1的值被构建后系统的SPESPE取样点k图7-8传感2的值被构建后系统的SPE7.6CMAC神经网路在PCA故障确诊模型中的应用基于BP神经网路的PCA模型,尽管结构简单容易编程仿真，并且也存在着固有的缺点：对于网路结构的确定，其隐层节点个数的选定，只能靠经验选定；由于物理角度上的非线性优化，此网路结构存在局部极小值问题；此学习算法相比于其他算法收敛速率慢好多，一般须要几千步迭代或则更多。

为了提升故障确诊的实时性，CMAC神经网路算法由J.S.Albus于1975年提出[53-54]，是仿造脑干控制肢体运动的原理而建成的神经网路模型，是一种局部迫近网路，具有线性结构，算法简单，速率快，精度高等特性，有一定的泛化能力，已然成功的应用于机器人控制，模糊控制和非线性时间序列剖析等领域[55-56]。CMAC的基本思想就是将学习的数据(知识)储存在交叠的储存单元(记忆空间)中，其输出为相应激活单元数据的累加和。第5章已介绍了CMAC及其改进算法，本节将基于效度分配CMAC模型应用到PCA讯号预测中，代替BP神经网路。7.6.1基于效度分配的CMAC神经网路(CA-CMAC)在常规CMAC算法中，偏差被平均分配到所有被激活的单元，并且CMAC次迭代之后，最初的储存单元早已包含了原本学习的知识，不是每一个储存单元都有相同的学习历史，所以这种储存单元也不应当有相同的可效度。但是,CMAC学习过程中，还没有一个好的方式来决定某一储存单元对目前的偏差负更多的责任。换句话说，还没有一个好的方式来决定储存单元残差的可效度。惟一可用的信息是该储存单元残差目前更新的次数，假定储存单元更新次数越多，其储存的值越可靠。

为此，储存单元的学习次数被看成其可效度，可效度越高，其残差修正越小。设个储存单元的学习次数，可看成该储存单元的可效度，m是某状态激活的储存单元数，被激活储存单元的残差调整反比于善学习性能。具体算法写为[57]：取代(3-4)式中的1/m，才能有效的改7.6.3仿真实例是分布在[-0.1,0.1]上的独立白噪音变量，t是定义在[-1，1]上的变量，采用400个训练数据点。具体模型如图7-9所示。按照基于PCA讯号预测模型，通过正交变换得到历史讯号个主成份数据份量T1,T2。此后，通过CA-CMAC神经网路对T1,T2进行预测，在此采用时刻的数据，预测过逆正交变换得到X的恐怕值X由式(2-12)估算系统SPE。图7-10为正常无故障状况下的SPE值。可见，在正常情况下，SPE值处于比较平稳的状态，且处于故障阀值以下。图7-9基于PCA的CMAC神经网路讯号预测模型图7-10正常情况下传感系统的SPE图7-11有故障情况下传感系统的SPE为对发生故障的传感系统进行故障传感的隔离，分别单独对x1,x2,x3进行构建。由故障隔离原理，若传感j被构建后，系统的SPEj值大于控制阀值则是传感j发生了故障。

图7-12中分别显示了SPE1的值，图7-13中为SPE2和SPE3图7-12传感1的值被构建后系统的SPESPE取样点k图7-13传感2其实，当x1被构建后，传感系统的SPE值增长到故障控制阀值以下，而当x2和x3被构建后，传感系统的SPE值依然处于故障控制阀值以上，说明故障一直没有被排除。为此，我们可以判断是变量x1，即传感发生了故障。当明晰传感1发生故障后，可以用恐怕在短期内取代x1，模拟传感1进行工作，实现容错控制。图7-15有故障情况下传感的实际检测值与预测值之间的三维关系图BP，CMAC与CA-CMAC网路的性能比较为了说明在本模型中采用的CA-CMAC神经网路的优势，应用上述同样的传感器器模型作为样本，讯号预测构建模型中分别采用不同的神经网路来比较各网路模型的预测性能。其中CMAC与CA-CMAC采用同样的网路结构，输入状态数为3，输出状态数为1；BP网路采用三层网路（输入层，隐型层，输出层），各层的结点数分别为3，6，1，隐型层结点为sigmoid函数，输出层结点为线性函数。在比较不同结构PCA收敛速率时，均采用均方偏差（MSE）作为性能指标。

MSE定义如下：k-Ytargk)2(7-18)式中，Ysimuk为网路的输出值，Ytargk为期望值，N为样本数。BP是一个全局迫近网路，对于每一个输入输出数据对，网路的每一个联接权值都须要进行调整，且采用梯度增长算法，因而造成速率较慢。CMAC是局部迫近网路，只调整部分权值，采用简单的算法，其收敛速率要比BP算法快很多，且不存在局部极小问题，在训练精度与训练时间上存在显著优势。CA-CAMC因为引入了效度分配的概念，储存单元的学习次数越多，其存储值越可靠，使校正偏差与激活单元的学习次数成正比，防止了未学习状态形成的偏差对原本学习的信息形成―腐蚀‖，因而进一步改善了CMAC的学习性能。均方偏差MSE10-4图7-16预测主元份量1的训练过程中MSE随周期变化曲线CMAC的收敛速率远小于BP神经网路，而CA-CMAC在速率上和精度上更胜CMAC一筹。三种神经网路训练过程中MSE值随周期变化的数据表7-1和表7-2所示。从表格中的数据可以看出，CA-CMAC的收敛速率远快于BP网路，也低于CMAC网路，更适应故障确诊系统对偏差的要求。图7-17预测主元份量2的训练过程中MSE随周期变化曲线表7-1采用不同的神经网路训练主元份量1时MSE随训练周期变化情况

本站下载的源码均来自公开网络收集转发二次开发而来，若侵犯了您的合法权益，请来信通知我们1413333033@qq.com，我们会及时删除，给您带来的不便，我们深表歉意。下载用户仅供学习交流，若使用商业用途，请购买正版授权，否则产生的一切后果将由下载用户自行承担，访问及下载者下载默认同意本站声明的免责申明，请合理使用切勿商用。

THE END