【香樟推文】工业网络复杂多样的数据检测率

刊物:

IEEETransactionsonIndustrialInformatics

引用:LiangW,LiKC,LongJ,etal.Anindustrialnetworkintrusiondetectionalgorithmbasedonmulti-featuredataclusteringoptimizationmodel[J].IEEETransactionsonIndustrialInformatics,2019.

摘要:

工业网路复杂多样。在现有的现有入侵防御系统中,其中一些存在问题,比如测量确切率低,假阴性(FP)率高以及模拟功击的实时性能低。为了解决这种问题,本文提出了一种基于多特征数据降维优化模型的工业网路入侵检查算法,其中基于数据属性特点的优先级阀值对数据的加权距离和安全系数进行分类。鉴于工业网路环境中的数据模块多种多样且便于确诊,还原和重建,因而网路。该算法可以有效提升工业网路中多特征数据的异常行为检查率和实时性。新功能具有双重性,可以快速选择具有高安全系数的节点作为群集中心,并将该中心周围的多功能数据匹配到群集中。实验结果表明,与其他算法相比,该算法在检查率和时间上均具有较好的优越性。在工业网路中,异常数据的测量精度达到97.8%,测量的FP增加了8.8%。

1序言

随着工业信息化的深度融合和快速发展,工业网路常常遭到非法入侵功击,这种功击的类型显得越来越多元化和复杂。工业网路中的数据具有多样性,便于确诊和重建的特性。结果,由下一贴牌业网路的入侵导致的快速检查和避免异常行为早已造成了世界各国政府和工业公司的高度关注。

近些年来,工业网路中发生了许多功击风波,这种风波引起了严重的后果。诸如,2010年,Stuxnet病毒严重恐吓了各国的重要估算设施[1],比如水力发电厂和核电网路。俄罗斯的核电设备遭受严重破坏,因而遭到了最严重的袭击。在适当的时侯,超过60%的个人计算机和设备遭到了Stuxnet病毒的功击。2015年,HawkEyeRAT[2]入侵企业的计算机系统以盗取核心系统访问信息。同年,美国的电力系统遭到恶意功击[3],在广泛的地区引起数小时的停水。WannaCry病毒[4]在2017年风靡全球,并影响了许多中国工业公司,比如中石油。综上所述,全球工业网路的安全风险在不断降低,事实上,除上述风波外,还发生了其他几种功击风波。

入侵测量的基本结构如图1所示。网路活动企图通过非法入侵手段破坏工业网路的完整性,绝密性和可用性,可以将其视为工业网路中的入侵功击。入侵监测系统可以主动监测和跟踪入侵风波,虽然对于网路防御技术而言是不可能的。为此,在工业网路中使用入侵测量系统可以填补传统网络防御策略的不足,因而建立工业网路的整个安全系统。

图片[1]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

工业网路测量技术可以分为四类,即基于规则,基于神经网路,基于支持向量机(SVM)和基于降维剖析的入侵检查。基于规则的测量可以将入侵规则转换为相关的结构,其性能取决于规则储存库的完整性,而规则储存库的完整性又取决于审计记录的完整性和实时性能。它们具有较高的确切率,但是测量中的误报率(FP)低;并且,测量速率很慢。人工神经网路的结构类似于人脑的突触联接,由于它们是具有许多互相联接的处理单元的非线性且自适应的信息处理系统。神经网路模型因网路拓扑,神经元特点和学习规则的差别而有所不同。基于SVM的入侵检查技术致力解决学习,分类和预测中的各类问题,由于它通过非线性映射将输入空间转换为高维空间,并在高维区域中构建了最佳的分离平面。最后,在基于降维剖析的入侵检查技术中,降维剖析可以发觉每位降维的全局分布和内部结构。即,因为结构考虑了没有分类指示的样本数据,因而该结构可以辨识个人是否属于集群。该技术致力找到使内部降维中的样本相像且不同降维中的样本完全不同的降维的内部结构,其中这些结构可用于匹配和辨识检查到的数据。并且,入侵检查技术中仍存在一些安全问题,如下所述。

因为工业网路中数据的特点是多种多样的,因而在工业网路中使用多功能分类模型不会占用额外的带宽而且不会被隐藏。网路中的任何细微异常变化都可能轻易造成相当大的安全风险。

隐藏了工业网路中的入侵功击,其中包含大量入侵信息,进而对工业网路引起了严重破坏。通过现有的防火墙,防病毒软件和工业网路中的网路测量来避免或去除混和类型的入侵功击具有挑战性。

现有的用于工业网路的入侵测量技术属于主动防御,在被动环境中具有低测量效率和高漏检率和误检率。因为对工业网路的特点和入侵讯号的普遍性的理论研究有限,工业网路中一直存在潜在的安全问题,比如安全漏洞。

入侵测量的中级模型借助监督学习算法。因此,应提供大量带有类别标记的训练数据,以实现对入侵功击的正确分类。假如类别标记错误,将生成不正确的经过训练的入侵测量模型。降维是无监督学习的最常见方式,由于它可以剖析数据样本中每位降维的全局分布和内部结构。该结构可以辨识样本是否属于给定类别。在这些情况下,将降维剖析引入入侵检查,并使用未标记的工业网路联接记录将其用于快速正确地辨识异常网路行为。

本文的其余部份安排如下。第二节介绍了相关工作并剖析了现有算法的不足,第三节介绍了定义并详尽介绍了物理模型,并挺好地介绍了基于该模型的入侵检查算法。实验结果在第四节中讨论,最后,第五节总结了本文。

2相关工作

可以使用几种功击工具来隐藏网路信息。惊悚组织或非法功击者可能会借助它们来隐藏各类数据载体中的特定秘密,因而,当载体在工业网路中运行时,可能会发生入侵功击。这种功击的后果无法想像,使工业经济截瘫或造成公众恐慌。为此,借助现有技术一直无法应对被动入侵功击。英国,保加利亚,捷克和斯洛伐克等国家已尝试研究隐蔽的入侵和入侵测量技术。基于这种问题,网路安全造成了人们的关注,成为大多数发达国家/发展中国家的研究热点。虽然这么,对工业网路入侵测量系统安全机制的研究仍处于起步阶段,主要集中在主动隐藏式入侵功击的防范上。

工业网路中的许多安全问题都须要解决[5],[6],比如,节点成功联接到工业网路后,节点数据是否受到恶意篡改,数据是否集成或怎样确切检查异常入侵行为。提出了一种基于决策树的合同剖析方式,对合同的每位级别进行解码[7]。入侵检查被简化为监视多个数组和调用相关功能。该方式才能借助合同特点确切地捕获入侵讯号,进而大大提升了入侵检查系统的性能。在[8]中,作者提出了一种基于机器学习的入侵检查方式,该方式将搜集的数据分为训练集和测量集。在此,通过使用训练集生成安全可靠的模型,由于测量集用于实验剖析。在[9],[10]中,作者使用神经网路进行滥用检查。该系统通过在网路流中搜索功击的关键代码来测量入侵功击。多层感知器用于测量小型机的入侵,包括已知功击和未知功击。在[11]中,通过为每位参数预设安全阀值,使用数据特征收集方式来测量入侵中的异常参数值。

低于阀值的值被视为异常。此方式可以在单个过程中检查异常参数值,但可能会造成较高的FP检查率。高等。提出了一种基于SVM的入侵测量模型,并讨论了使用系统调用执行构建模型的过程[12]。文献[13]提出了另一种基于被动学习的网路入侵测量技术,其中使用一类支持向量机构建入侵测量模型。通过实现低安全性,这些提出的技术具有良好的鲁棒性。通过假定样本较少的群集很可能是异常群集,将群集方式应用于数据联接[14]。无监督学习被觉得是学习正常的网路行为。因而,保留少量异常数据以防止将大量异常数据搜集为训练数据集中的重要簇。降维后​​,超过特定规模的降维将被视为正常行为。当测量到联接记录时,使用记录与正常行为之间的相像性来确定其是否异常。文献[15]提出了一种无监督的降维算法,该算法不须要人为设置参数,而且不受数据输入次序的影响。降维的形状是任意的,而且反映了实际的数据分布,由于该算法通过比较训练集之间的距离来确定恒定数据降维,而无需对该类进行任何指示。

在文献[16]中提出了一种基于窗口的特点提取技术来进行入侵测量,它采用卷积神经网路和反向传播训练算法来建模网路中数据特点的标准行为边沿。并且,它须要在出现新行为之前再度学习正常行为的边沿,但是在训练阶段会耗费大量时间。针对工业网路,提出了几种基于机器学习的入侵检查算法[17][18][19],其中借助机器学习技术对网路数据属性的时空相关性进行建模。这样的方式才能提升测量质量并增加FP率。但是,因为工业网路环境的多样性和复杂性,网路功击显得复杂。为此,解决工业网路中的安全和防御问题是一个巨大的挑战。

3基于多特征数据降维优化模型的入侵检查算法

A.多功能数据降维的定义

Merriam-Webster给出的降维定义是一种基于统计的多特征分类技术[20]。定量比较多个特点,以确定类别中的个体;也就是说,这是一种无监督的学习技巧。多功能集群要求规则集将数据界定为几个类别,其中一个类别中的数据相像,而各个类别中的数据则完全不同。

定义1:

令R为簇。假定数据集X={X1,X2,…,Xn},但是X的集群R将X分为K个集合U1,U2,…,UK。

多功能集群R涉及三个步骤。1)数据预处理:数据对象的属性一般是不同的,因而造成算法迭代中的重大误差。预处理过程可以有效地提取特点并使数据值标准化;2)多特征降维:因为特定的规则,数据被分配给几个降维。该过程可能涉及选择第一个降维中心和多特征降维的数目,以及3)降维结果剖析:相像性用于评估和剖析降维结果。

1)数据预处理

多功能数据集应在0到1的范围内进行归一化,以增强测量精度和测量效率。如图2所示,测试数据集用X表示。Max(X)和Min(X)是X的最大和最小特点值。任何x∈X可以通过以下方法归一化为新的特点值x'使用(1)。

2)多个特点的距离测度

距离测度功能通常用于检测多特征数据的相像性。距离越短,相像度越高。令Xi={xi1,xi2,…,xiM}和Xj={xj1,xj2,…,xjM}是X中包含M个属性特点的两个数据对象。本文介绍了Mahalanobis距离,并通过协残差矩阵在距离估算中使用了数据之间的相关性,如(2)所示。

其中S表示协残差矩阵,当它是单位矩阵时,距离测度类似于马氏距离。距离测度功能可用于评估多特征数据降维的相像性。因为每位测度标准都适宜特定的应用场景,因而降维算法将在各类情况下形成不同的结果。为此,可以通过相像度,即n×n对称相像度矩阵,来评估多维数据集X中数据对象的接近度,如(3)。

图片[2]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

3)多功能降维疗效的评价功能

多功能降维算法的迭代有两个中止条件,即达到预设的迭代次数或达到最佳的降维疗效。降维的最佳标准由评估函数估算,该函数将在每次迭代后估算结果。假如达到中止条件,则迭代中止,但是将继续进行,直至结果最合适为止(否则)。评估降维疗效的通用方式是平方偏差准则。

定义2:

σ是平方偏差的和,为(4)。

其中uj是第j个集群Uj的集群中心。σ值越小表示降维结果越好;为此入侵检测系统标准化分析研究,假如σ是最佳值,则降维完成。

B.物理模型

令数据集为X={X1,X2,…,Xn}。每位数据对象Xi={xi1,xi2,…,xiM}(1≤i≤n)是具有M个属性特点的M维向量。第k个属性特点由Fk={x1k,x2k,…,xnk}表示。ωk(1≤k≤M)是第k个属性特点的权重。

定义3:

对于完整的图G,每位节点都是X中的点Xi(1≤i≤n)。节点Xi与Xj之间的边沿eij的加残差可以估算为(5)

图片[3]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

定义4:

令N(Xi)={X(1)i,X(2)i,…,X(L)i}是距离Xi近来的L个点的集合。可以通过(6)估算安全系数s(Xi,L)

令节点Xi的加残差为WXi=s(Xi,L)。可以选择K个降维中心u1,u2,…,uK(ui∈X,i=1,2,…,K)。接出来,将X中的每位数据对象Xi添加到与降维中心ui具有近来距离的降维Ui,估算∑nii=1Xi/ni。在此,ni是第i个群集中数据对象的数目。基于平均值和σ优化的原理,可以调整降维中心u1,u2,…,uK。最后,将生成K个群集U1,U2,…,UK,直至不修改群集中心。借助每位降维的刚体,直径和平均安全系数,生成检查规则r={r1,r2,r3}。

为了提升检查效率,减少FP率和提高降维的稳定性,在选择ωk,L和降维中心u1,u2,…,uK时要考虑三个方面。

1)选择ωk

在ωk的选择过程中,应首先考虑在降维过程中优先选择归因特点的原理。测试数据可能具有冗余或不相关的属性,这种属性会增加分类确切性,降低估算开支和时间。在这一点上,给出了评估方式来评判属性特点的重要性。即,重要性被转换为ωk的权重,因而可以将这种关键属性搜集在集合中以简化属性特点。

定义5:

令第k个特点特点为Fk,而p(xik)的Fk机率等于xik。信息熵由(7)估算

定义6:

给定属性特点Fk的值时,Fk的条件熵可以表示为(8)

定义7:

基于信息熵和条件熵,互信息可以表示为(9)

定义8

Fk的相关度可以由Fk的平均互信息和其他可能的属性特点Fk'(1≤k'≤M)表示,如式(10)所示

图片[4]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

Fk'与Fk条件的条件相关度可以表示为(11)

定义9:

冗余度Red(Fk,Fk')由(12)估算

在此基础上,属性特点的重要性定义为(13)

定律1:

权重ωk(1≤k≤M)由(14)选择

图片[5]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

图片[6]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

2)L的选择

在现有算法中,一般将L设置为经验值。它很快引起测量效率低下和人为错误,使结果不确定。本节介绍了一种选择L值以实现最佳测量精度和效率的技巧。

定律2:

工业节点Xi的安全系数s(Xi,l)是单调递减序列。当l等于不同值时,所有数据对象的s(Xi,l)的总和可通过(16)估算

为此,S(l)也是l的单调递减序列。

3)集群中心的选择

如图3所示,不同的降维中心会形成不同的降维结果。为了增强异常数据测量的稳定性和确切性,至关重要的是选择一个更好的群集中心初始集合,这将为选择具有均匀分布特点的初始群集中心提供一种技巧。安全阀值δ是安全系数的临界值。当满足s(Xi,l)≥δ时,数据对象Xi具有较高的安全系数,而且可以用U表示高安全系数点的集合。

图片[7]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

1)从X的(10)中选择安全系数最高的节点,用u1表示;

2)从U中选择到u1距离最大的安全系数最高的节点,用u2表示;

3)每位节点uj到降维中心u1,u2,…,ui的距离为d(uj,u1),d(uj,u2),…,d(uj,ui),j≠1,2,…,一世。满足(18)中条件的节点用ui+1表示。

4)重复步骤(3),直至生成所有具有高安全系数的均匀分布的群集中心u1,u2,…,uK。

C.提议的入侵测量技术

所提出的算法主要集中于从入侵数据中提取和预处理有用的数据属性特点。按照往年的经验和实际情况对结果进行剖析。工业网路入侵检查中使用的降维剖析算法是使用特定的人工智能算法进行数据降维剖析。按照每位群集中数据对象的分布,可以将群集标记为正常或异常。以后,可以使用降维中心,直径和平均安全系数来世成检查规则。多功能数据测量的图表如图4所示。

图片[8]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

所提出算法的内核说明如下。令数据集为X={X1,X2,…,Xn},每位数据对象Xi={xi1,xi2,…,xiM}(1≤i≤n)是具有M个属性特点的M维向量。考虑到重要属性特点Fk和权重值ωk,1≤k≤M的原理,可以估算出每位数据对象的加权距离和安全系数。接出来,选择分布均匀的降维中心。以后,X中的每位数据对象Xi将被添加到群集Ui,群集Ui距群集中心Ui的距离很近。利用平均值和σ优化的原理,可以调整降维中心u1,u2,…入侵检测系统标准化分析研究,uK。最后,只要不改变群集中心,都会生成K个群集U1,U2,…,UK。

为了提升降维结果的稳定性和确切性,选择一个声音降维中心至关重要。降维中心的选择算法如算法1所示。

集群中心的选择过程如图5所示。在训练过程中,可以对正常行为生成的系统流程进行建模。在测量阶段,可以将当前工业网路中的真实数据特点与模型进行比较,并形成误差程度。假如误差程度超过预设阀值,则将当前网路行为标记为入侵活动。提出的集群中心选择算法虽然FP率很高,但仍可以有效地测量到新的未知功击。请注意,网路入侵节点在物理和统计上与正常节点不同。

图片[9]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

图6显示了用于多特征数据的加权降维模型。测量模型和安全阀值等诱因对于检查工业网路中的异常行为至关重要。提出的算法应具有的一个重要特点是将其标记为正常和异常行为。不幸的是,这将浪费大量时间来辨识海量数据的分类标签。由此,所提出的模型可以有效地标记来自未标记数据的正常和异常数据,进而解决效率低和确切性低的问题。伪代码在算法2中进行了描述。

图片[10]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

图片[11]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

图片[12]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

4实验

在本节中,将对所提出算法的性能进行评估和剖析,主要涉及安全性,测量时间和测量确切性等指标。

图片[13]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

A.实验环境

NSL-KDD和KDDCUP’99数据集用于实验中,同时考虑了针对不同数据特点的降维剖析[21]–[22][23][24]。原始记录和参数值标签包含在数据集中,以反映记录是正常还是异常。数据集中入侵功击,参数和数据类型的差别为评估入侵测量的可靠性提供了证据。实验参数见表I。实验环境包括两部份:工业网路中的通讯仿真和异常网路流量监测。后者在具有WindowsOS的主机上实现,而前者在具有UbuntuOS的虚拟机上实现。二者都通过虚拟机的串行端口联接。

B.安全

可以通过使用真实阴性率(TP)和FP率来评估入侵检查算法的安全性[25][26][27],其中TP是确切辨识的异常数据对象与全部异常数据对象的百分比,定义如下(19)。据悉,FP是标记为异常的正常数据对象数与正常对象总量之比,如下所示(20)。

图片[14]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

其中,A1为未测量到的异常数据的数目,A2为测量到的异常数据的数目,N1为已辨识的正常数据的数目,N2为标记为异常的正常数据的数目。

图片[15]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

按照数据特点在不同维度上的分类,该实验从每位降维中选择五个样本以建立训练集,并将它们用于分类评估,结果如图7所示。作为实验设置,特点数目会发生变化从0到100以及每位步骤20的增量,将所提出的算法与[28]和[29]中描述的具有不同安全阀值的算法进行比较。从进行的比较来看,所提出的算法具有最低的FP率。但是,对于相同的数据集,与[28]中的算法相比,所提出的算法将FP率增加了8.8%,表明所提出的算法比其他比较算法具有更好的安全性。

在实验数据集中,选择差别显着的不平衡数据进行评估。图8显示了在选择多个特点之前和以后参数对分类确切性的影响,并注意到参数值的变化造成TP的变化最小。结果,假定参数优化与数据特点的降维有关,则所提出的算法对参数不敏感。

C.测量时间

在工业网路环境中,测量时间一般用于评估入侵检查算法的实时性能。该实验是使用NSL-KDD数据集进行的,但是使用六种不同的功击方式来评估检查时间。

如表II所示,使用了六种功击方式来评估实时性能。从具有几种不同功能的NSL-KDD中选择测试数据,并使用[28]和[29]中的算法进行比较,测量时间的结果列在表II中。通过比较,所提出的算法比[28]和[29]中的算法具有更低的平均测量时间。这是因为多特征数据降维模型可以确切,快速地测量出高伪装类的异常行为。据悉,实时观察训练数据集表明特点数据的训练记录数太少。为此,提出的模型在测量时间上取得了良好的性能。

图片[16]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

D.测量精度

工业网路中的原始数据样本一般是高维的,为了有效地应用多维数据降维方式来提取工业网路中的异常数据,应将高维数据转换为低维数据以进行监测。该方式可以减轻入侵测量系统的储存量,又可以减少模型学习的估算复杂度,并减少噪音,进而揭示数据的潜在结构。如所观察到的,提高了在工业网路中检查异常行为的确切率。训练数据集中每位数据的测量确切性是评估所提出算法性能的重要指标。

训练数据集中的数据被标记为正常或异常。另外,通过使用安全加权的阀值比较正常和异常数据集的测量精度,如图9所示。阀值分别为0.2、0.4、0.6和0.8时的测量精度评估结果显示在图9中。图9(a)-(d)分别。我们观察到,随着特点值的降低,当阀值为0.6时,与[28]和[29]中的比较算法相比,所提出的算法具有更好的测量精度。对于NSL-KDD数据集,检出率可达到97.8%。为此,所提出的算法可以通过使用经验值来解决测量精度低的问题。

图片[17]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

5推论

随着工业网路技术的急速发展,入侵功击可能会被重叠和掩藏。众所周知,许多入侵检查算法在检查中存在精度低和FP高的问题。针对这种问题,本文提出了一种基于多特征数据降维优化模型的工业网路入侵检查算法。这些算法为工业网路中的入侵功击构建了数据降维优化模型,此后提出了针对多特征数据的降维中心选择算法和入侵检查算法。在该算法中,虽然跟踪过程降低了模型的训练中心,但对重叠和伪装程度高的功击的测量精度却大大增强。实验结果表明,与现有的其他入侵检查算法相比,该算法具有更高的测量精度和更低的FP。

一些研究机构和组织旨在于检查工业网路中的异常行为以抵挡病毒和特洛伊木马等功击,并提早评估和预测潜在的入侵功击。实时确切地检查潜在的网路入侵功击对于确保未来工业网路的安全至关重要。因为入侵测量系统正在运行,因而可以使用例如系统流,每位节点的行为特点以及历史节点的数据集之类的信息来确定节点是否非法或遭到恐吓的系统,这种问题将作为本研究的未来方向。

参考文献:

图片[18]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

图片[19]-【香樟推文】工业网络复杂多样的数据检测率-唐朝资源网

© 版权声明
THE END
喜欢就支持一下吧
点赞33赞赏 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容