专利名称:一种攻击意图识别方法及装置
专利类型:实用新型专利
专利申请号:CN202011038322.7
专利申请(专利权)人:绿盟科技集团股份有限公司,北京神州绿盟科技有限公司
权利人地址:北京市海淀区北洼路4号益泰大厦三层
专利发明(设计)人:吴复迪,刘文懋,薛见新,张润滋,吴子建
专利摘要:本申请涉及网络安全技术领域,尤其涉及一种攻击意图识别方法及装置,获取告警载荷数据,并对所述告警载荷数据进行特征提取,获得所述告警载荷数据的载荷特征,其中,所述告警载荷数据为产生告警信息的原始输入的数据;基于已训练的攻击意图识别模型,以所述载荷特征为输入参数,根据所述攻击意图识别模型中的回归函数和所述载荷特征向量,确定所述告警载荷数据的攻击意图向量,其中,所述回归函数为根据载荷特征样本和攻击意图向量样本通过迭代训练获得的;根据所述攻击意图向量,确定所述告警信息指示的攻击行为的攻击意图,这样,通过预先训练的攻击意图模型确定告警信息所指示的攻击行为的攻击意图,能够提高识别攻击意图的准确度。
主权利要求:
1.一种攻击意图识别方法,其特征在于,包括:
获取告警载荷数据,并对所述告警载荷数据进行特征提取,获得所述告警载荷数据的载荷特征,其中,所述告警载荷数据为产生告警信息的原始输入的数据,所述告警载荷数据包括多个属性信息,所述属性信息至少包括以下信息之一:文件路径、IP地址、域名、URL、操作系统命令、脚本函数名、SQL关键字、系统表名、混淆函数名;
基于已训练的攻击意图识别模型,以所述载荷特征为输入参数,根据所述攻击意图识别模型中的回归函数和所述载荷特征,确定所述告警载荷数据的攻击意图向量,其中,所述回归函数为根据载荷特征样本和攻击意图向量样本通过迭代训练获得的;
根据所述攻击意图向量,确定所述告警信息指示的攻击行为的攻击意图;
若所述回归函数为第一超平面和第二超平面,则根据所述意图识别模型中的回归函数和所述载荷特征,确定所述告警载荷数据的攻击意图向量,具体包括:根据所述第一超平面和所述载荷特征,确定所述告警载荷数据的试探性分值分量,其中,所述试探性分值分量为攻击意图向量的分量,所述试探性分值分量表征攻击行为期望确定安全漏洞是否存在的期望度分值对应的向量;
根据所述第二超平面和所述载荷特征,确定所述告警载荷数据的利用性分值分量,其中,所述利用性分值分量为所述攻击意图向量的分量,所述利用性分值分量表征攻击行为期望构成实际危害的期望性分值对应的向量;
根据所述试探性分值分量和所述利用性分值分量,确定所述告警信息指示的攻击行为的攻击意图向量。
2.如权利要求1所述的方法,其特征在于,对所述告警载荷数据进行特征提取,具体包括:获取所述告警载荷数据的各属性信息;
对所述各属性信息进行去重处理,获得去重后的各属性信息;
获取预设的模板属性信息,并对所述模板属性信息在所述去重后的各属性信息中出现的次数进行次数统计,获得所述告警载荷数据的各属性信息的计数统计结果;
将所述计数统计结果作为所述告警载荷数据的载荷特征。
3.如权利要求1所述的方法,其特征在于,获取告警载荷数据之后,进一步包括:若确定所述告警载荷数据中包括编码块,则通过所述编码块的内容模式识别所述编码块的编码类型,根据所述编码类型,确定对应的预设解码方式,对所述编码块进行解码,获得解码结果数据,若确定所述解码结果数据中包含有编码块,则对所述解码结果数据中的编码块进行解码,直至所述解码结果数据中未包含编码块,则停止解码;
则对所述告警载荷数据进行特征提取,具体包括:
对所述告警载荷数据和所述解码结果数据进行特征提取。
4.如权利要求1所述的方法,其特征在于,所述第一超平面的获得方式为:获取载荷特征样本集和对应的试探性分值分量样本集;
根据所述各载荷特征样本和所述试探性分值分量,获得各第一标注数据样本,并根据所述各第一标注数据样本训练获得第一超平面,并使得各第一标注数据样本到预设的第一超平面之间的距离损失最小化,其中,所述距离损失为所述第一标注数据样本与第一超平面之间的距离大于等于距离阈值时,第一标注数据样本与第一超平面之间的距离差值。
5.如权利要求1所述的方法,其特征在于,所述第二超平面的获得方式为:获取载荷特征样本集和对应的利用性分值分量样本集;
根据所述各载荷特征样本和所述利用性分值分量样本,获得各第二标注数据样本,并根据所述各第二标注数据样本训练获得第二超平面,并使得各第二标注数据样本到预设的第二超平面之间的距离损失最小化,其中,所述距离损失为所述第二标注数据样本与第二超平面之间的距离大于等于距离阈值时,第二标注数据样本与第二超平面之间的距离差值。
6.如权利要求4或5所述的方法,其特征在于,获取载荷特征样本集,具体包括:确定捕获到的告警信息样本,并读取所述告警信息样本的告警类型,其中,所述告警类型分为已知告警、非已知告警;
将所述告警类型为非已知告警对应的载荷特征样本,输入至预设的样本采集模型中,将各载荷特征样本进行聚类,获得预设数量的样本主题,并获得各样本主题对应的载荷特征样本的概率矩阵,分别从各概率矩阵中选取预设数个最高概率对应的载荷特征样本,获得第一特征样本集;
将所述告警类型为已知告警对应的载荷特征样本进行去重,获得第二特征样本集;
将所述第一特征样本集和所述第二特征样本集进行合并,获得载荷特征样本集。
7.一种攻击意图识别装置,其特征在于,包括:
特征提取模块,用于获取告警载荷数据,并对所述告警载荷数据进行特征提取,获得所述告警载荷数据的载荷特征,其中,所述告警载荷数据为产生告警信息的原始输入的数据,所述告警载荷数据包括多个属性信息,所述属性信息至少包括以下信息之一:文件路径、IP地址、域名、URL、操作系统命令、脚本函数名、SQL关键字、系统表名、混淆函数名;
识别模块,用于基于已训练的攻击意图识别模型,以所述载荷特征为输入参数,根据所述攻击意图识别模型中的回归函数和所述载荷特征向量,确定所述告警载荷数据的攻击意图向量,其中,所述回归函数为根据载荷特征样本和攻击意图向量样本通过迭代训练获得的;
确定模块,用于根据所述攻击意图向量,确定所述告警信息指示的攻击行为的攻击意图;
可选的,若所述回归函数为第一超平面和第二超平面,则识别模块具体用于:根据所述第一超平面和所述载荷特征,确定所述告警载荷数据的试探性分值分量,其中,所述试探性分值分量为攻击意图向量的分量,所述试探性分值分量表征攻击行为期望确定安全漏洞是否存在的期望度分值对应的向量;
根据所述第二超平面和所述载荷特征,确定所述告警载荷数据的利用性分值分量,其中,所述利用性分值分量为所述攻击意图向量的分量,所述利用性分值分量表征攻击行为期望构成实际危害的期望性分值对应的向量;
根据所述试探性分值分量和所述利用性分值分量,确定所述告警信息指示的攻击行为的攻击意图向量。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1‑6任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1‑6任一项所述方法的步骤。 说明书 : 一种攻击意图识别方法及装置技术领域[0001] 本申请涉及网络安全技术领域,尤其涉及一种攻击意图识别方法及装置。背景技术[0002] 目前,检测系统每天产生告警信息的数量非常多,然而,这些海量的告警信息中,绝大多数的告警信息的实际价值都很低,不需要关注,只有极少数关键的告警信息是需要去关注的。[0003] 为了从大量的告警信息中快速查找到这些关键的告警信息,需要识别攻击行为的攻击意图,现有技术中,可以通过贝叶斯网络推理进而识别攻击行为的攻击意图,但是,现有技术中的这种识别方式需要人工定义攻击场景和攻击规则,因此,现有技术中的这种识别方式效率不高。发明内容[0004] 本申请实施例提供一种攻击意图识别方法及装置,以提高对攻击意图识别的效率和准确度。[0005] 本申请实施例提供的具体技术方案如下:[0006] 一种攻击意图识别方法,包括:[0007] 获取告警载荷数据,并对所述告警载荷数据进行特征提取,获得所述告警载荷数据的载荷特征,其中,所述告警载荷数据为产生告警信息的原始输入的数据;[0008] 基于已训练的攻击意图识别模型,以所述载荷特征为输入参数,根据所述攻击意图识别模型中的回归函数和所述载荷特征,确定所述告警载荷数据的攻击意图向量,其中,所述回归函数为根据载荷特征样本和攻击意图向量样本通过迭代训练获得的;[0009] 根据所述攻击意图向量,确定所述告警信息指示的攻击行为的攻击意图。[0010] 可选的,对所述告警载荷数据进行特征提取,具体包括:[0011] 获取所述告警载荷数据的各属性信息,其中,所述属性信息至少包括文件路径、IP地址、域名、URL、操作系统命令、脚本函数名、SQL关键字、系统表名、混淆函数名;[0012] 对所述各属性信息进行去重处理,获得去重后的各属性信息;[0013] 获取预设的模板属性信息,并对所述模板属性信息在所述去重后的各属性信息中出现的次数进行次数统计,获得所述告警载荷数据的各属性信息的计数统计结果;[0014] 将所述计数统计结果作为所述告警载荷数据的载荷特征。[0015] 可选的,获取告警载荷数据之后,进一步包括:[0016] 若确定所述告警载荷数据中包括编码块,则通过所述编码块的内容模式识别所述编码块的编码类型,根据所述编码类型,确定对应的预设解码方式,对所述编码块进行解码,获得解码结果数据,若确定所述解码结果数据中包含有编码块,则对所述解码结果数据中的编码块进行解码,直至所述解码结果数据中未包含编码块,则停止解码;[0017] 则对所述告警载荷数据进行特征提取,具体包括:[0018] 对所述告警载荷数据和所述解码结果数据进行特征提取。[0019] 可选的,若所述回归函数为第一超平面和第二超平面,则根据所述意图识别模型中的回归函数和所述载荷特征向量,确定所述告警载荷数据的攻击意图向量,具体包括:[0020] 根据所述第一超平面和所述载荷特征,确定所述告警载荷数据的试探性分值分量,其中,所述试探性分值分量为攻击意图向量的分量,所述试探性分值分量表征攻击行为期望确定安全漏洞是否存在的期望度分值对应的向量;[0021] 根据所述第二超平面和所述载荷特征,确定所述告警载荷数据的利用性分值分量,其中,所述利用性分值分量为所述攻击意图向量的分量,所述利用性分值分量表征攻击行为期望构成实际危害的期望性分值对应的向量;[0022] 根据所述试探性分值分量和所述利用性分值分量,确定所述告警信息指示的攻击行为的攻击意图向量。[0023] 可选的,所述第一超平面的获得方式为:[0024] 获取载荷特征样本集和对应的试探性分值分量样本集;[0025] 根据所述各载荷特征样本和所述试探性分值分量,获得各第一标注数据样本,并根据所述各第一标注数据样本训练获得第一超平面,并使得各第一标注数据样本到预设的第一超平面之间的距离损失最小化,其中,所述距离损失为所述第一标注数据样本与第一超平面之间的距离大于等于距离阈值时,第一标注数据样本与第一超平面之间的距离差值。[0026] 可选的,所述第二超平面的获得方式为:[0027] 获取载荷特征样本集和对应的利用性分值分量样本集;[0028] 根据所述各载荷特征样本和所述利用性分值分量样本,获得各第二标注数据样本,并根据所述各第二标注数据样本训练获得第二超平面,并使得各第二标注数据样本到预设的第二超平面之间的距离损失最小化,其中,所述距离损失为所述第二标注数据样本与第二超平面之间的距离大于等于距离阈值时,第二标注数据样本与第二超平面之间的距离差值。[0029] 可选的,获取载荷特征样本集,具体包括:[0030] 确定捕获到的告警信息样本,并读取所述告警信息样本的告警类型,其中,所述告警类型分为已知告警、非已知告警;[0031] 将所述告警类型为非已知告警对应的载荷特征样本,输入至预设的样本采集模型中,将各载荷特征样本进行聚类,获得预设数量的样本主题,并获得各样本主题对应的载荷特征样本的概率矩阵,分别从各概率矩阵中选取预设数个最高概率对应的载荷特征样本,获得第一特征样本集;[0032] 将所述告警类型为已知告警对应的载荷特征样本进行去重,获得第二特征样本集;[0033] 将所述第一特征样本集和所述第二特征样本集进行合并,获得载荷特征样本集。[0034] 一种攻击意图识别装置,包括:[0035] 特征提取模块,用于获取告警载荷数据,并对所述告警载荷数据进行特征提取,获得所述告警载荷数据的载荷特征,其中,所述告警载荷数据为产生告警信息的原始输入的数据;[0036] 识别模块,用于基于已训练的攻击意图识别模型,以所述载荷特征为输入参数,根据所述攻击意图识别模型中的回归函数和所述载荷特征向量,确定所述告警载荷数据的攻击意图向量,其中,所述回归函数为根据载荷特征样本和攻击意图向量样本通过迭代训练获得的;[0037] 确定模块,用于根据所述攻击意图向量,确定所述告警信息指示的攻击行为的攻击意图。[0038] 可选的,对所述告警载荷数据进行特征提取时,特征提取模块具体用于:[0039] 获取所述告警载荷数据的各属性信息,其中,所述属性信息至少包括文件路径、IP地址、域名、URL、操作系统命令、脚本函数名、SQL关键字、系统表名、混淆函数名;[0040] 对所述各属性信息进行去重处理,获得去重后的各属性信息;[0041] 获取预设的模板属性信息,并对所述模板属性信息在所述去重后的各属性信息中出现的次数进行次数统计,获得所述告警载荷数据的各属性信息的计数统计结果;[0042] 将所述计数统计结果作为所述告警载荷数据的载荷特征。[0043] 可选的,获取告警载荷数据之后,进一步包括:[0044] 解码模块,用于若确定所述告警载荷数据中包括编码块,则通过所述编码块的内容模式识别所述编码块的编码类型,根据所述编码类型,确定对应的预设解码方式,对所述编码块进行解码,获得解码结果数据,若确定所述解码结果数据中包含有编码块,则对所述解码结果数据中的编码块进行解码,直至所述解码结果数据中未包含编码块,则停止解码;[0045] 则对所述告警载荷数据进行特征提取时,特征提取模块具体用于:[0046] 对所述告警载荷数据和所述解码结果数据进行特征提取。[0047] 可选的,若所述回归函数为第一超平面和第二超平面,则识别模块具体用于:[0048] 根据所述第一超平面和所述载荷特征,确定所述告警载荷数据的试探性分值分量,其中,所述试探性分值分量为攻击意图向量的分量,所述试探性分值分量表征攻击行为期望确定安全漏洞是否存在的期望度分值对应的向量;[0049] 根据所述第二超平面和所述载荷特征,确定所述告警载荷数据的利用性分值分量,其中,所述利用性分值分量为所述攻击意图向量的分量,所述利用性分值分量表征攻击行为期望构成实际危害的期望性分值对应的向量;[0050] 根据所述试探性分值分量和所述利用性分值分量,确定所述告警信息指示的攻击行为的攻击意图向量。[0051] 可选的,获得所述第一超平面时,进一步包括:[0052] 第一获取模块,用于获取载荷特征样本集和对应的试探性分值分量样本集;[0053] 第一训练模块,用于根据所述各载荷特征样本和所述试探性分值分量,获得各第一标注数据样本,并根据所述各第一标注数据样本训练获得第一超平面,并使得各第一标注数据样本到预设的第一超平面之间的距离损失最小化,其中,所述距离损失为所述第一标注数据样本与第一超平面之间的距离大于等于距离阈值时,第一标注数据样本与第一超平面之间的距离差值。[0054] 可选的,获得所述第二超平面时,进一步包括:[0055] 第二获取模块,用于获取载荷特征样本集和对应的利用性分值分量样本集;[0056] 第二训练模块,用于根据所述各载荷特征样本和所述利用性分值分量样本,获得各第二标注数据样本,并根据所述各第二标注数据样本训练获得第二超平面,并使得各第二标注数据样本到预设的第二超平面之间的距离损失最小化,其中,所述距离损失为所述第二标注数据样本与第二超平面之间的距离大于等于距离阈值时,第二标注数据样本与第二超平面之间的距离差值。[0057] 可选的,获取载荷特征样本集时,第一获取模块或第二获取模块具体用于:[0058] 确定捕获到的告警信息样本,并读取所述告警信息样本的告警类型,其中,所述告警类型分为已知告警、非已知告警;[0059] 将所述告警类型为非已知告警对应的载荷特征样本,输入至预设的样本采集模型中,将各载荷特征样本进行聚类,获得预设数量的样本主题,并获得各样本主题对应的载荷特征样本的概率矩阵,分别从各概率矩阵中选取预设数个最高概率对应的载荷特征样本,获得第一特征样本集;[0060] 将所述告警类型为已知告警对应的载荷特征样本进行去重,获得第二特征样本集;[0061] 将所述第一特征样本集和所述第二特征样本集进行合并,获得载荷特征样本集。[0062] 一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述攻击意图识别方法的步骤。[0063] 一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述攻击意图识别方法的步骤。[0064] 本申请实施例中,对获取到的告警载荷数据进行特征提取,获得告警载荷数据的载荷特征,将载荷特征输入至已训练的攻击意图识别模型中,根据攻击意图识别模型中的回归函数和载荷特征向量,确定告警载荷数据的攻击意图向量,并根据攻击意图向量,确定告警信息指示的攻击行为的攻击意图,这样,通过预先训练的攻击意图识别模型,能够识别出告警信息指示的所存在的攻击行为的攻击意图,相比与现有技术中通过人工定义攻击规则识别攻击意图来说,能够提高识别攻击意图的准确度和效率,并且,由于告警载荷数据能够体现攻击的威胁程度,告警载荷数据为产生告警信息的原始输入的数据,因此,本申请实施例中,通过告警载荷数据来体现攻击意图,能够更加全面准确地体现攻击意图。附图说明[0065] 图1为本申请实施例中一种攻击意图识别方法的流程图;[0066] 图2为本申请实施例中特征提取的效果示意图;[0067] 图3为本申请实施例中聚类采样结果的攻击意图均值分布图;[0068] 图4为本申请实施例中攻击意图向量抽样分布图;[0069] 图5为本申请实施例中攻击意图量化表示平面图;[0070] 图6为本申请实施例中概念关联图;[0071] 图7为本申请实施例中一种攻击意图识别方法的另一流程图;[0072] 图8为本申请实施例中攻击意图识别装置的结构示意图;[0073] 图9为本申请实施例中电子设备的结构示意图。具体实施方式[0074] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。[0075] 目前,检测系统每天产生告警信息的数量非常多,已经远远超出了运维人员的排查能力,然而,从安全运维现场的情况来看,这些海量的告警信息中,绝大多数的告警信息的实际价值都很低,最多只是需要留存一段时间以供排查参考,因此不需要过多关注这些不关键的告警信息,但是有极少数关键的告警信息是需要去关注的。[0076] 为了从大量的告警信息中快速寻找到关键的告警信息,在实际的攻防场景中,运维人员监控告警信息时,经常会采取一定的筛选策略,常见的筛选策略包括:关注高中风险等级的告警信息、关注特定防护规则的告警信息、关注敏感业务系统的告警信息、关注恶意源IP触发的告警信息等,但是,通过上述的筛选策略来查找关键的告警信息时,无法有效减少告警信息的数量,并且,也容易漏掉关键的告警信息,因此,如何能够查找到关键的告警信息,成为了一个亟待解决的问题。[0077] 现有技术中,可以通过识别攻击行为的攻击意图,进而从大量的告警信息中,筛选出关键的告警信息,例如,可以通过贝叶斯网络推理进而识别攻击行为的攻击意图,但是,现有技术中的这种识别方式需要人工定义攻击场景和攻击规则,因此,现有技术中的这种识别方式效率不高,并且准确度不高。[0078] 为了解决上述问题,本申请实施例中,提供了一种攻击意图识别方法,对获取到的告警载荷数据进行特征提取,获得告警载荷数据的载荷特征,将载荷特征输入至已训练的攻击意图识别模型中,确定告警载荷数据的攻击意图向量,并根据攻击意图向量,确定告警信息指示的攻击行为的攻击意图,这样,通过已训练的攻击意图识别模型,能够确定出攻击意图向量,并确定能够显示告警信息指示的攻击行为的攻击意图,相比于现有技术中通过人为规定的规则来确定攻击意图来说,能够提高确定攻击意图的准确度和效率。[0079] 基于上述实施例,参阅图1所示,为本申请实施例中一种攻击意图识别方法的流程图,具体包括:[0080] 步骤100:获取告警载荷数据,并对告警载荷数据进行特征提取,获得告警载荷数据的载荷特征。[0081] 其中,告警载荷数据为产生告警信息的原始输入的数据。[0082] 具体地,攻击检测系统和防护系统实时产生告警信息,若确定产生告警信息,则获取告警信息的告警载荷数据,进而对获取到的告警载荷数据进行特征提取,获得告警载荷数据的载荷特征。[0083] 其中,告警载荷数据指的是直接导致攻击检测系统或防护系统产生告警信息的原始输入,对于大部分攻击检测系统和防护系统而言,告警载荷数据通常是网络流量的片段。[0084] 目前,面对大量的告警信息筛选问题时,通常是依靠人工对告警信息进行筛选,效率低下,部分企业会采取一些威胁评估或势态感知方法,但这些方法针对告警信息筛选问题的效率普遍也无法满足安全运维工作需要,究其原因,现有的威胁评估和势态感知方法,大多都忽略产生告警信息的原始的载荷数据,主要原因有两个:其一,载荷数据的结构混杂多样,及其不易处理;其二,载荷数据的分析往往需要大量的安全攻防专家知识,仅靠数据分析方法难以有效实现,并且,现有的攻击检测系统和防护系统主要关心网络中的攻击行为是否利用了漏洞,而不去评估利用漏洞的目的,这是片面的做法,并且,原始的告警信息的实际价值很低,能够对应到实际安全事件的告警信息很少,为了解决这个问题,本申请实施例中,获取告警载荷数据,并根据告警载荷数据,识别告警信息所指示的攻击行为的攻击意图,能够帮助网络运维人员全方面地从大量的告警信息中筛选出关键的告警信息。[0085] 下面对本申请实施例中获取告警载荷数据的步骤进行详细阐述,具体包括:[0086] S1:获取告警载荷数据。[0087] 本申请实施例中,若攻击检测系统和防护系统产生告警信息,则获取告警载荷数据。[0088] S2:若确定告警载荷数据中包括编码块,则通过编码块的内容模式识别编码块的编码类型,根据编码类型,确定对应的预设解码方式,对编码块进行解码,获得解码结果数据,若确定解码结果数据中包含有编码块,则对解码结果数据中的编码块进行解码,直至解码结果数据中未包含编码块,则停止解码。[0089] 本申请实施例中,由于实际的告警载荷数据中经常包含有各种编码块,因此,需要识别并递归解析这些编码块,那么,在对告警载荷数据进行特征提取之前,需要先判断告警载荷数据中是否包含有编码块,若确定告警载荷数据中包括编码块,则识别编码块的编码类型,由于这些编码块都有明显的内容模式,因此,通过编码块的内容模式,识别编码块的编码类型,并根据编码块的编码类型,确定对应的预设解码方式,然后,对编码块进行解码,获得解码结果数据。[0090] 在获得解码结果数据之后,由于解码结果数据中可能还会含有解码后的新的编码块,因此,在获得解码结果数据之后,需要判断解码结果数据中是否包含有新的编码块,若确定包含有新的编码块,则对新的编码块进行解码处理,直至告警载荷数据和解码结果数据中都不包含新的编码块,则停止解码,获得解码结果数据。[0091] 在告警载荷数据中包含编码块的情况下,对告警载荷数据和解码结果数据进行特征提取。[0092] 若确定告警载荷数据中不包含有编码块,那么可直接对告警载荷数据进行特征提取。[0093] 其中,编码类型例如可以为统一资源定位符(UniformResourceLocator,URL)编码、可扩展标记语言(eXtensibleMarkupLanguage,XML)编码、十六进制编码、Base64编码、“/”字符串转义编码、CHR/CHAR编码等,本申请实施例中对此并不进行限制。[0094] 在获取到告警载荷数据之后,就需要对获取到的告警载荷数据进行特征提取,下面对本申请实施例中的对载荷数据进行特征提取的步骤进行详细阐述,具体包括:[0095] S1:获取告警载荷数据的各属性信息。[0096] 其中,属性信息至少包括文件路径、IP地址、域名、URL、操作系统命令、脚本函数名、结构化查询语言(StructuredQueryLanguage,SQL)关键字、系统表名、混淆函数名。[0097] 本申请实施例中,在获取到告警载荷数据之后,读取告警载荷数据的属性信息,属性信息为告警载荷数据的各种常见模式,例如可以为文件路径、IP地址、域名、URL、操作系统命令、脚本函数名、SQL关键字、系统表名和一些常见的混淆函数名等,本申请实施例中对此并不进行限制。[0098] 需要说明的是,本申请实施例中的这些常见的属性信息都不针对特定的漏洞利用方法。[0099] S2:对各属性信息进行去重处理,获得去重后的各属性信息。[0100] 本申请实施例中,对各属性信息进行去重处理,也就是说,若确定有相同的属性信息,则在相同的属性信息中,选择保留其中一个属性信息,并将与保留的属性信息相同的其它属性信息删除,这样,就能够获得去重后的各属性信息,因此,去重后的各属性信息均为不同的属性信息。[0101] 例如,假设获取到的各属性信息中,出现文件路径/etc/passwd2次,出现/etc/shadow1次,那么,/etc/passwd模式下,出现了与其相同的属性信息,因此,选择保留其中一个属性信息/etc/passwd,并将另一个属性信息/etc/passwd删除,由此实现去重,这样,在去重后的各属性信息中,文件路径/etc/passwd为一个,/etc/shadow为一个,去重后的各属性信息均为不同的属性信息。[0102] S3:获取预设的模板属性信息,并对模板属性信息在去重后的各属性信息中出现的次数进行次数统计,获得告警载荷数据的各属性信息的计数统计结果。[0103] 本申请实施例中,获取预设的模板属性信息,预设的模板属性信息中包括去重后的各属性信息,然后,对模板属性信息在去重后的各属性信息中出现的次数进行次数统计,如果去重后的各属性信息中出现了其中一个模板属性信息,则将该模板属性信息的值记为出现的次数,若去重后的各属性信息中未出现其中一个属性信息,则将该模板属性信息的取值记为0,进而获得告警载荷数据的计数统计结果。[0104] 例如,假设模板属性信息为文件路径和IP地址,去重后的属性信息为/etc/passwd、/etc/shadow和192.168.1.1,根据去重后的属性信息可知,/etc/passwd和/etc/shadow为文件路径,192.168.1.1为IP地址,则对去重后的属性信息进行计数统计后可知,文件路径对应的特征分量为2,IP地址对应的特征分量为1。[0105] 又例如,假设模板属性信息为IP地址,其中,“192.168.1.1”出现3次,“192.168.1.2”出现4次,则IP地址对应的特征分量应为2,而不是7。[0106] 并且,本申请实施例中,在获得告警载荷数据的各属性信息的计数统计结果时,是以模式为单位进行统计的,也就是说,在进行计数统计时,以属性信息的类型进行统计,而非是对具体的属性信息进行统计。[0107] 例如,假设告警载荷数据中“/etc/passwd”与“/etc/shadow”各出现1次,则只统计一个文件路径模式分量为2,而非“/etc/passwd”和“/etc/shadow”两个分量均为1。[0108] S4:将计数统计结果作为告警载荷数据的载荷特征。[0109] 本申请实施例中,在获得告警载荷数据的计数统计结果之后,由于每一个模板属性信息对应的数值都是告警载荷数据的一个特征分量,因此,可以将告警载荷数据的计数统计结果作为告警载荷数据的载荷特征,参阅图2所示,为本申请实施例中特征提取的效果示意图,如图2所示,timestamp为时间戳,sip为源地址,dip为目的地址,dpor为目的端口,rule_id为产生告警信息的规则,last_times为触发次数,acted为行为,features为载荷特征。[0110] 步骤110:基于已训练的攻击意图识别模型,以载荷特征为输入参数,根据意图识别模型中的回归函数和载荷特征,确定告警载荷数据的攻击意图向量。[0111] 其中,回归函数为根据载荷特征样本和攻击意图向量样本通过迭代训练获得的。[0112] 本申请实施例中,将载荷特征输入至攻击意图识别模型中,根据攻击意图识别模型中的回归函数和载荷特征,确定告警载荷数据的攻击意图向量。[0113] 执行步骤110时,具体包括:[0114] S1:根据第一超平面和载荷特征,确定告警载荷数据的试探性分值分量。[0115] 其中,试探性分值分量为攻击意图向量的分量,试探性分值分量表征攻击行为期望确定安全漏洞是否存在的期望度分值对应的向量。[0116] 本申请实施例中,当回归函数为第一超平面时,则根据N+1维的第一超平面和N维的载荷特征,确定1维的试探性分值分量,第一超平面为根据载荷特征样本和对应的试探性分值分量样本通过迭代训练获得的,试探性分值分量表征告警信息所指示的攻击行为期望确定安全漏洞是否存在的期望度分值对应的向量,也就是说,试探性分值分量表征攻击行为有多么想要确定安全漏洞是否存在的期望度分值对应的向量,参阅图3所示,为本申请实施例中超平面的示意图。[0117] 其中,1维的试探性分值分量为2维的攻击意图向量的其中一个分量。[0118] 需要说明的是,在具体执行的时候,实际样本点的分布可能是线性不可分的,此时满足要求的超平面可能是不存在的,因此,在具体执行的时候需要引入核函数,将样本点映射到足以令其线性可分的高维空间中,从而确保能够找到一个合适的超平面。[0119] 下面对本申请实施例中第一超平面的获得方式详细阐述。[0120] A1:获取载荷特征样本集和对应的试探性分值分量样本集。[0121] 本申请实施例中,获取载荷特征样本集和对应的试探性分值分量样本集,并且,载荷特征样本集中的各载荷特征样本分别对应于试探性分值分量样本集中的试探性分值分量样本。[0122] A2:根据各载荷特征样本和试探性分值分量,获得各第一标注数据样本,并根据各第一标注数据样本训练获得第一超平面,并使得各第一标注数据样本到预设的第一超平面之间的距离损失最小化。[0123] 其中,距离损失为第一标注数据样本与第一超平面之间的距离大于等于距离阈值时,第一标注数据样本与第一超平面之间的距离差值。[0124] 本申请实施例中,若各载荷特征样本对应的维度是N维,试探性分值分量样本对应的维度是1维,则根据N维的载荷特征样本和对应的1维的试探性分值分量样本,生成第一标注数据样本,第一标注数据样本可以表示为N+1维的一个高维空间中的点,在获得各第一标注数据样本之后,寻找到一个第一超平面,使得各第一标注数据样本对应的点均位于第一超平面两侧的预设的距离阈值内,超平面两侧的预设距离阈值内的点不计入损失,如果无法找到这样的第一超平面,那么就计算超出距离阈值的点与第一超平面之间的距离差值,获得各距离损失,并使得距离损失最小化,也就是说,让超出预设距离阈值的点与第一超平面之间的间距尽可能的小,获得第一超平面。[0125] S2:根据第二超平面和载荷特征,确定告警载荷数据的利用性分值分量。[0126] 其中,利用性分值分量为攻击意图向量的分量,利用性分值分量表征攻击行为期望构成实际危害的期望性分值对应的向量。[0127] 本申请实施例中,当回归函数为第二超平面时,则根据N+1维的第二超平面和N维的载荷特征,确定1维的利用性分值分量,第二超平面为根据载荷特征样本和对应的利用性分值分量样本通过迭代训练获得的,利用性分值分量表征告警信息所指示的攻击行为期望构成实际危害的期望性分值对应的向量,也就是说,利用性分值分量表征攻击行为有多么想要构成实际危害的期望度分值对应的向量。[0128] 其中,1维的利用性分值分量为2维的攻击意图向量的其中一个分量。[0129] 下面对本申请实施例中第二超平面的获得方式进行详细阐述。[0130] A1:获取载荷特征样本集和对应的利用性分值分量样本集。[0131] 本申请实施例中,获取载荷特征样本集和对应的利用性分值分量样本集,并且,载荷特征样本集中的各载荷特征样本分别对应于利用性分值分量样本集中的利用性分值分量样本。[0132] A2:根据各载荷特征样本和利用性分值分量样本,获得各第二标注数据样本,并根据各第二标注数据样本训练获得第二超平面,并使得各第二标注数据样本到预设的第二超平面之间的距离损失最小化。[0133] 其中,距离损失为第二标注数据样本与第二超平面之间的距离大于等于距离阈值时,第二标注数据样本与第二超平面之间的距离差值。[0134] 本申请实施例中,若各载荷特征样本对应的维度是N维,利用性分值分量样本对应的维度是1维,则根据N维的载荷特征样本和对应的1维的利用性分值分量样本,生成第二标注数据样本,第二标注数据样本可以表示为N+1维的一个高维空间中的点,在获得各第二标注数据样本之后,寻找到一个第二超平面,使得各第二标注数据样本对应的点均位于第二超平面两侧的预设的距离阈值内,超平面两侧的预设距离阈值内的点不计入损失,如果无法找到这样的第二超平面,那么就计算超出距离阈值的点与第二超平面之间的距离差值,获得各距离损失,并使得距离损失最小化,也就是说,让超出预设距离阈值的点与第二超平面之间的间距尽可能的小,获得第二超平面。[0135] 需要说明的是,本申请实施例中的攻击意图识别模型例如可以为支持向量回归(SupportVactorRegression,SVR)模型,SVR模型是一种有监督的回归模型,与大多数回归算法不同的是,SVR的学习结果是由少数具有代表性的支持向量决定的,对训练集规模的需求较小,在告警信息对应的告警载荷数据真阳性样本稀缺的情况下,也能够最大限度地发挥回归效果由于SVR对训练集规模的需求较小,因此,在对攻击意图识别模型进行训练时,不需要太多的训练数据,并且,由于原始的告警载荷数据本身分布并不均匀,如果从全体样本中随机抽样,高概率会反复抽到同类的告警载荷数据样本,标注价值很低,那么面对大量的告警载荷数据,首先需要进行数据筛选,筛选出具有代表性的训练数据,以确保模型训练的效果,下面对本申请实施例中获取载荷特征样本集的方式进行详细说明,具体包括:[0136] A1:确定捕获到的告警信息样本,并读取告警信息样本的告警类型。[0137] 其中,告警类型分为已知告警、非已知告警。[0138] 本申请实施例中,获取捕获到的告警信息样本,并读取告警信息样本的属性信息,然后,读取属性信息中的告警类型。[0139] 其中,告警类型可以分为以下三种,但不仅限于以下三种类型。[0140] 第一种类型:已知告警。[0141] 已知告警表征已经指示了明确的攻击行为的攻击告警,例如:已知扫描器告警、已知蠕虫告警等。[0142] 需要说明的是,本申请实施例中的已知告警已经直接关联到具体的攻击意图,因此,已知告警不需要专门进行攻击意图评估。[0143] 对于已知告警来说,可以直接确定其试探性分值和利用性分值,例如,已知扫描器告警,应为高试探性、低利用性。已知蠕虫病毒告警,应为高试探性、高利用性。[0144] 第二种类型:非已知告警。[0145] 非已知告警表征没有指示明确的攻击行为的攻击告警,这些非已知告警由于还未直接关联到具体的攻击意图,因此,需要进行攻击意图的评估。[0146] 第三种类型:非攻击告警。[0147] 非攻击表征网络攻击检测或防护系统所产生的部分原始告警本身并未直接指示任何攻击行为,并非是攻击告警,例如,故障告警、日志类告警等。[0148] 需要说明的是,由于非攻击告警并未直接指示任何攻击行为,因此,无法直接关联到具体的攻击意图,不需要专门进行攻击意图评估,应当从载荷数据特征中清洗掉,并直接丢弃即可。[0149] A2:将告警类型为非已知告警对应的载荷特征样本,输入至预设的样本采集模型中,将各载荷特征样本进行聚类,获得预设数量的样本主题,并获得各样本主题对应的载荷特征样本的概率矩阵,分别从各概率矩阵中选取预设数个最高概率对应的载荷特征样本,获得第一特征样本集。[0150] 本申请实施例中,若确定告警类型为非已知告警,则获取告警类型为非已知告警对应的告警载荷数据样本,以及告警载荷数据样本对应的载荷特征样本,并将载荷特征样本输入至预设的样本采集模型中,将各载荷特征样本进行聚类,将同类别的载荷特征样本归集为一个样本主题,获得预设数量的样本主题,然后,获得各样本主题对应的载荷特征样本的概率矩阵,获得的概率矩阵中,包括该样本主题中的每一个载荷特征样本相对于该样本主题的概率,然后,分别从各概率矩阵中选取预设数个最高概率对应的载荷特征样本,作为第一特征样本集中的载荷特征样本,获得第一特征样本集。[0151] 其中,本申请实施例中的样本采集模型例如可以为潜在狄利克雷分配(LatentDirichletAllocation,LDA)模型,LDA模型是一种概率文档主题模型,给定一组文档的载荷特征样本作为输入,能够无监督地生成一定数量的样本主题,并给出每个载荷特征样本属于各个主题的概率矩阵,因此,将载荷特征样本作为词频向量输入LDA模型中,得到若干个主题和“载荷特征样本‑主题”概率矩阵,然后在每个主题中选取概率最高的少量几个载荷特征样本,为其添加试探性分值分量和利用性分值分量即可,参阅图3所示,为本申请实施例中聚类采样结果的攻击意图均值分布图,如图3所示,为真实的告警信息的载荷特征执行LDA聚类采样并标注后的类内攻击意图向量的条件期望分布图,其中,横轴为试探性分值分量,纵轴为利用性分值分量,数字表征主题,共有36个主题。[0152] A3:将告警类型为已知告警对应的载荷特征样本进行去重,获得第二特征样本集。[0153] 本申请实施例中,若确定告警类型为已知告警,则获取告警类型为已知告警对应的告警载荷数据样本,以及告警载荷数据样本对应的载荷特征样本,并将获取到的载荷特征样本进行去重处理和下采样处理,删除相同的载荷特征样本,获得去重后的载荷特征样本,并将去重后的载荷特征样本进行合并,生成第二特征样本集。[0154] 需要说明的是,由于载荷特征样本进行了去重处理,因此,第二特征样本集中的各载荷特征样本均为不相同的载荷特征样本。[0155] A4:将第一特征样本集和第二特征样本集进行合并,获得载荷特征样本集。[0156] 本申请实施例中,在获得第一特征样本集和第二特征样本集之后,将第一特征样本集和第二特征样本集进行合并,获得载荷特征样本集。[0157] 因此,本申请实施例中的载荷特征样本集中,包括具有代表性的非已知告警对应的载荷特征样本,以及去重后的已知告警对应的载荷特征样本。[0158] 进一步地,在将第一特征样本集和第二特征样本集进行合并之前,还需要分别对第一特征样本集和第二特征样本集进行标注,获得对应的试探性分值分量样本集和利用性分值分量样本集。[0159] 对于第一特征样本集中的各载荷特征样本来说,可直接为第一特征样本集中的各载荷特征样本添加试探性分值分量样本和利用性分值分量样本的标注。[0160] 对于第二特征样本集中的各载荷特征样本来说,由于第二特征样本集中的各载荷特征样本为指示了明确的攻击行为的告警信息的载荷特征样本,可以直接确定其试探性分值分量样本和利用性分值分量样本,例如:[0161] 已知扫描器告警,应为高试探性、低利用性。[0162] 已知蠕虫病毒告警,应为高试探性、高利用性。[0163] 然后,将第一特征样本集和第二特征样本集合并,生成载荷特征样本集合,同时,获取载荷特征样本集对应的试探性分值分量样本集,以及对应的利用性分值分量样本集。[0164] 下面对本申请实施例中获取试探性分值分量样本集和利用性分值分量样本集进行说明。[0165] 试探性分值分量表示攻击行为有多么想要确定漏洞是否存在,利用性分值分量表示攻击行为有多么想要构成实际危害。[0166] 标注过程中,具有下列特征之一的告警信息对应的载荷特征应当标注低试探性,反之为高试探性:[0167] 告警载荷数据中不包含有效的漏洞利用代码;[0168] 告警载荷数据中包含漏洞利用代码,但这些代码对运行环境要求苛刻;[0169] 告警载荷数据中客户端发往服务端的流量部分包含服务端特有的未公开信息,例如:非默认的主机名、用户名、文件路径等;[0170] 其它能够认定告警所指示的攻击行为不适合探测漏洞是否存在的情况。[0171] 标注过程中,具有下列特征之一的告警信息对应的载荷特征应当标注低利用性,反之为高利用性:[0172] 告警载荷数据中不包含有效的漏洞利用代码;[0173] 告警载荷数据中包含漏洞利用代码,但这些代码对目标主机几乎没有恶性影响,例如:输出一个常量或常量表达式、读取不敏感的系统信息等;[0174] 其它能够认定告警信息所指示的攻击行为即使对于存在漏洞的主机也不会构成实际危害的情况。[0175] S3:根据试探性分值分量和利用性分值分量,确定告警信息指示的攻击行为的攻击意图向量。[0176] 本申请实施例中,在确定出试探性分值分量和利用性分值分量之后,根据确定出的一维的试探性分值分量和一维的利用性分值分量,得到二维的攻击意图向量。[0177] 步骤120:根据攻击意图向量,确定告警信息指示的攻击行为的攻击意图。[0178] 本申请实施例中,根据得到的攻击意图向量,以及攻击意图向量与攻击意图之间的对应关系,确定告警信息指示的攻击行为的攻击意图,参阅图4所示,为本申请实施例中攻击意图向量抽样分布图。[0179] 其中,攻击意图向量是对攻击意图的向量化表示,是攻击者执行攻击动作时所期望达到的目的。[0180] 参阅图5所示,为本申请实施例中攻击意图量化表示平面图,第一象限为高试探性、高利用性,第二象限为低试探性、高利用性、第三象限为低试探性、低利用性,第四象限为高试探性、低利用性,因此,根据攻击意图向量,能够确定出攻击意图向量对应的攻击意图,进而网络运维工作人员能够根据确定出的攻击意图,判断该告警信息是否为需要关注的告警信息,例如,网络运维人员可以优先关注位于第二象限(低试探性、高利用性)的告警信息,其次是位于第一象限(高试探性、高利用性)的告警信息,从而提高运维效率。[0181] 进一步地,在训练获得攻击意图识别模型之后,即可根据实时告警信息的告警载荷数据,识别其攻击意图,如果后续反馈认为识别出的攻击意图有误,可将反馈数据加入载荷特征样本集中的第一特征样本集中,然后重新训练回归模型,这样,能够持续改善识别效果,并且,由于标注样本数量少,SVR的训练速度非常快,实际网络运维场景中重新训练模型的计算开销几乎可以忽略,能够实时反馈实时生效。[0182] 并且,本申请实施例中的方法在识别告警信息对应的攻击意图时,不考虑告警信息之间的上下文关联,因此,可以实时在线运行并输出攻击意图的分值,输出的攻击意图分值可供各种安全运维工作参考。[0183] 下面对本申请实施例中的各概念之间的关系进行详细阐述,参阅图6所示,为本申请实施例中概念关联图,发生攻击行为时,攻击行为会产生网络流量,网络流量被检测系统或防护系统采集之后,检测系统或防护系统会产生告警,告警可能指示出攻击行为,攻击行为蕴含攻击意图,攻击意图可以数值化为攻击意图向量,攻击意图决定攻击行为的实际危害程度,攻击意图和试探性分值与利用性分值之间是等价的,试探性分值与利用性分值能够间接反映实际危害程度,而攻击行为可能导致安全事件,安全事件中包含实际危害程度的属性,并且,告警中包含告警载荷数据,告警载荷数据是节选自网络流量的,从告警载荷数据中提取出载荷特征,并通过SVR回归能够获得试探性分值与利用性分值。[0184] 本申请实施例中,已有的攻击检测和防护系统中产生一定时间的告警信息,以及告警信息的告警载荷数据,进行数据清洗之后,对告警载荷数据中包含的编码块进行递归识别和解码,对解码前后数据中的属性信息进行分组消重和计数统计,并将计数统计结果作为告警载荷数据的载荷特征,在得到载荷特征之后,若确定载荷特征对应的告警类型为非已知告警,则使用样本采集模型从多个载荷特征中筛选出少量具有代表性的载荷特征样本,并进行标注,若确定载荷特征样本对应的告警类型为已知告警,则对载荷特征样本进行去重和下采样,并添加标注,形成载荷特征样本集,从而根据载荷特征样本集训练攻击意图识别模型,模型训练完成之后,即可根据实时告警的载荷特征评估其攻击意图向量,这样,通过已训练的攻击意图识别模型来识别告警信息指示的攻击行为的攻击意图,相比于现有技术中通过人为的规则识别攻击意图来说,能够提高识别的准确度和效率,并且,由于本申请实施例中在识别攻击意图时,是基于告警载荷数据进行识别,而告警载荷数据是告警信息的属性信息中最能够体现攻击威胁程度的部分,因此,通过告警载荷数据来识别攻击意图,能够全方面体现攻击意图,准确获得安攻击意图能够帮助网络运维人员更加快速定位关键的告警信息,提高安全运维的效率。[0185] 基于上述实施例,参阅图7所示,为本申请实施例中一种攻击意图识别方法的另一流程图,具体包括:[0186] 步骤700:确定捕获到的告警信息样本,并读取告警信息样本的告警类型。[0187] 其中,告警类型分为已知告警、非已知告警。[0188] 步骤701:判断告警类型是否为已知告警,若是,则执行步骤702,若否,则执行步骤703。[0189] 步骤702:根据告警类型为已知告警对应的载荷特征样本,获得第二特征样本集。[0190] 具体地,将告警类型为已知告警对应的载荷特征样本进行去重,获得第二特征样本集,并对去重后的各载荷特征样本添加试探性分值分量标注和利用性分值分量标注。[0191] 步骤703:根据告警类型为非已知告警对应的载荷特征样本,获得第一特征样本集。[0192] 具体地,将告警类型为非已知告警对应的载荷特征样本,输入至预设的样本采集模型中,将各载荷特征样本进行聚类,获得预设数量的样本主题,并获得各样本主题对应的载荷特征样本的概率矩阵,分别从各概率矩阵中选取预设数个最高概率对应的载荷特征样本,获得第一特征样本集。[0193] 步骤704:将第一特征样本集和第二特征样本集进行合并,获得载荷特征样本集。[0194] 步骤705:根据各载荷特征样本和对应的试探性分值分量样本,以及利用性分值分量样本,训练攻击意图识别模型。[0195] 步骤706:获取实时的告警载荷数据。[0196] 步骤707:获取告警载荷数据的各属性信息,并对各属性信息进行次数统计,获得告警载荷数据的各属性信息的计数统计结果。[0197] 具体地,获取告警载荷数据的各属性信息,对各属性信息进行去重处理,获得去重后的各属性信息,获取预设的模板属性信息,并对模板属性信息在去重后的各属性信息中出现的次数进行次数统计,获得告警载荷数据的各属性信息的计数统计结果。[0198] 步骤708:基于已训练的攻击意图识别模型,以载荷特征为输入参数,根据攻击意图识别模型中的回归函数和载荷特征,确定告警载荷数据的攻击意图向量。[0199] 步骤709:根据攻击意图向量,确定告警信息指示的攻击行为的攻击意图。[0200] 步骤710:判断确定出的攻击意图是否正确,若是,则执行步骤711,若否,则执行步骤712。[0201] 步骤711:继续进行其它运维流程。[0202] 步骤712:生成反馈结果,并将反馈结果作为标注,执行步骤。[0203] 本申请实施例中,基于预先训练的攻击意图识别模型,对告警信息所指示的攻击行为的攻击意图进行识别,能够提高对攻击意图识别的准确度和效率,进而能够帮助网络运维人员快速定位关键的告警信息。[0204] 基于同一发明构思,本申请实施例中还提供了一种攻击意图识别装置,该攻击意图识别装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例,参阅图8所示为本申请实施例中攻击意图识别装置的结构示意图,具体包括:[0205] 特征提取模块800,用于获取告警载荷数据,并对所述告警载荷数据进行特征提取,获得所述告警载荷数据的载荷特征,其中,所述告警载荷数据为产生告警信息的原始输入的数据;[0206] 识别模块810,用于基于已训练的攻击意图识别模型,以所述载荷特征为输入参数,根据所述攻击意图识别模型中的回归函数和所述载荷特征向量,确定所述告警载荷数据的攻击意图向量,其中,所述回归函数为根据载荷特征样本和攻击意图向量样本通过迭代训练获得的;[0207] 确定模块820,用于根据所述攻击意图向量,确定所述告警信息指示的攻击行为的攻击意图。[0208] 可选的,对所述告警载荷数据进行特征提取时,特征提取模块800具体用于:[0209] 获取所述告警载荷数据的各属性信息,其中,所述属性信息至少包括文件路径、IP地址、域名、URL、操作系统命令、脚本函数名、SQL关键字、系统表名、混淆函数名;[0210] 对所述各属性信息进行去重处理,获得去重后的各属性信息;[0211] 获取预设的模板属性信息,并对所述模板属性信息在所述去重后的各属性信息中出现的次数进行次数统计,获得所述告警载荷数据的各属性信息的计数统计结果;[0212] 将所述计数统计结果作为所述告警载荷数据的载荷特征。[0213] 可选的,获取告警载荷数据之后,进一步包括:[0214] 解码模块830,用于若确定所述告警载荷数据中包括编码块,则通过所述编码块的内容模式识别所述编码块的编码类型,根据所述编码类型,确定对应的预设解码方式,对所述编码块进行解码,获得解码结果数据,若确定所述解码结果数据中包含有编码块,则对所述解码结果数据中的编码块进行解码,直至所述解码结果数据中未包含编码块,则停止解码;[0215] 则对所述告警载荷数据进行特征提取时,特征提取模块800具体用于:[0216] 对所述告警载荷数据和所述解码结果数据进行特征提取。[0217] 可选的,若所述回归函数为第一超平面和第二超平面,则识别模块810具体用于:[0218] 根据所述第一超平面和所述载荷特征,确定所述告警载荷数据的试探性分值分量,其中,所述试探性分值分量为攻击意图向量的分量,所述试探性分值分量表征攻击行为期望确定安全漏洞是否存在的期望度分值对应的向量;[0219] 根据所述第二超平面和所述载荷特征,确定所述告警载荷数据的利用性分值分量,其中,所述利用性分值分量为所述攻击意图向量的分量,所述利用性分值分量表征攻击行为期望构成实际危害的期望性分值对应的向量;[0220] 根据所述试探性分值分量和所述利用性分值分量,确定所述告警信息指示的攻击行为的攻击意图向量。[0221] 可选的,获得所述第一超平面时,进一步包括:[0222] 第一获取模块840,用于获取载荷特征样本集和对应的试探性分值分量样本集;[0223] 第一训练模块850,用于根据所述各载荷特征样本和所述试探性分值分量,获得各第一标注数据样本,并根据所述各第一标注数据样本训练获得第一超平面,并使得各第一标注数据样本到预设的第一超平面之间的距离损失最小化,其中,所述距离损失为所述第一标注数据样本与第一超平面之间的距离大于等于距离阈值时,第一标注数据样本与第一超平面之间的距离差值。[0224] 可选的,获得所述第二超平面时,进一步包括:[0225] 第二获取模块860,用于获取载荷特征样本集和对应的利用性分值分量样本集;[0226] 第二训练模块870,用于根据所述各载荷特征样本和所述利用性分值分量样本,获得各第二标注数据样本,并根据所述各第二标注数据样本训练获得第二超平面,并使得各第二标注数据样本到预设的第二超平面之间的距离损失最小化,其中,所述距离损失为所述第二标注数据样本与第二超平面之间的距离大于等于距离阈值时,第二标注数据样本与第二超平面之间的距离差值。[0227] 可选的,获取载荷特征样本集时,第一获取模块840或第二获取模块860具体用于:[0228] 确定捕获到的告警信息样本,并读取所述告警信息样本的告警类型,其中,所述告警类型分为已知告警、非已知告警;[0229] 将所述告警类型为非已知告警对应的载荷特征样本,输入至预设的样本采集模型中,将各载荷特征样本进行聚类,获得预设数量的样本主题,并获得各样本主题对应的载荷特征样本的概率矩阵,分别从各概率矩阵中选取预设数个最高概率对应的载荷特征样本,获得第一特征样本集;[0230] 将所述告警类型为已知告警对应的载荷特征样本进行去重,获得第二特征样本集;[0231] 将所述第一特征样本集和所述第二特征样本集进行合并,获得载荷特征样本集。[0232] 基于上述实施例,参阅图9所示为本申请实施例中电子设备的结构示意图。[0233] 本申请实施例提供了一种电子设备,该电子设备可以包括处理器910(CenterProcessingUnit,CPU)、存储器920、输入设备930和输出设备940等,输入设备930可以包括键盘、鼠标、触摸屏等,输出设备940可以包括显示设备,如液晶显示器(LiquidCrystalDisplay,LCD)、阴极射线管(CathodeRayTube,CRT)等。[0234] 存储器920可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器910提供存储器920中存储的程序指令和数据。在本申请实施例中,存储器920可以用于存储本申请实施例中任一种攻击意图识别方法的程序。[0235] 处理器910通过调用存储器920存储的程序指令,处理器910用于按照获得的程序指令执行本申请实施例中任一种攻击意图识别方法。[0236] 基于上述实施例,本申请实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的攻击意图识别方法。[0237] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。[0238] 本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。[0239] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。[0240] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。[0241] 显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
专利地区:北京
专利申请日期:2020-09-28
专利公开日期:2024-07-26
专利公告号:CN112131249B