可左右滑动选省市

风险图模式的挖掘方法、风险识别方法及对应装置

更新时间:2024-07-04
风险图模式的挖掘方法、风险识别方法及对应装置 专利申请类型:实用新型专利;
地区:浙江-杭州;
源自:杭州高价值专利检索信息库;

专利名称:风险图模式的挖掘方法、风险识别方法及对应装置

专利类型:实用新型专利

专利申请号:CN202210569609.5

专利申请(专利权)人:支付宝(杭州)信息技术有限公司
权利人地址:浙江省杭州市西湖区西溪路556号8层B段801-11

专利发明(设计)人:胡逸飞,王宝坤,王维强

专利摘要:本说明书实施例提供了一种风险图模式的挖掘方法、风险识别方法及对应装置。其中主要挖掘方法包括:获取利用用户的网络行为数据构建的异构网络图;利用已知风险行为对应的边在异构网络图中确定风险子图,以及利用已知安全行为对应的边在异构网络图中确定安全子图;从风险子图和安全子图中进行图模式采样,得到多个候选图模式;分别确定各候选图模式在风险子图和安全子图中的出现状况,依据确定的出现状况从多个候选图模式中确定风险图模式,风险图模式用以对待识别的网络行为数据进行风险识别。通过本公开可以对用户在网络的各种风险行为模式进行挖掘,并基于此快速、有效地对用户在网络的各种行为进行风险识别。

主权利要求:
1.一种风险图模式的挖掘方法,其特征在于,该方法包括:
获取利用用户的网络行为数据构建的异构网络图,所述异构网络图包括节点和边,所述节点包括行为主体和行为对象,所述边依据行为主体和行为对象之间的网络行为关系确定;
利用已知风险行为对应的边在所述异构网络图中确定风险子图,以及利用已知安全行为对应的边在所述异构网络图中确定安全子图;
从所述风险子图和所述安全子图中分别进行图模式采样,得到多个候选图模式;
分别确定各候选图模式在风险子图和安全子图中的出现状况,依据确定的出现状况从所述多个候选图模式中确定风险图模式,所述风险图模式用以对待识别的网络行为数据进行风险识别;
其中,
所述利用已知风险行为对应的边在所述异构网络图中确定风险子图包括:在所述异构网络图中确定已知风险行为对应的边,从所述已知风险行为对应的边的两端节点开始,分别向外扩展N跳节点,得到风险子图,所述N为预设的正整数;
所述利用已知安全行为对应的边在所述异构网络图中确定安全子图包括:在所述异构网络图中确定已知安全行为对应的边,从所述安全风险行为对应的边的两端节点开始,分别向外扩展N跳节点,得到安全子图;
从所述风险子图和所述安全子图中分别进行图模式采样,得到多个候选图模式包括:从所述风险子图和所述安全子图中分别采样包含预设数量节点的连通子图;将采样得到的连通子图分别作为候选图模式;
其中,
风险为网络交易风险,则所述行为主体包括账户以及银行卡,所述行为对象包括账户、银行卡以及红包id,所述节点之间的边包括行为主体和行为对象之间发生的支付行为、存取款行为、签约绑定行为以及收发红包行为;
或者,风险为网络交友诈骗风险,则所述行为主体包括社交网络账户、实时通信工具账户、金融账户、主机地址以及客户端标识,所述节点之间的边包括发送好友请求的行为、添加好友的行为、聊天行为、转账行为、收发红包行为以及发送链接的行为。
2.根据权利要求1所述的方法,其特征在于,所述获取利用用户的网络行为数据构建的异构网络图包括:从数据仓库中获取目标场景所对应行为主体类型、行为对象类型和网络行为类型的行为主体、行为对象和网络行为,用以构建所述异构网络图。
3.根据权利要求1所述的方法,其特征在于,所述分别确定各候选图模式在风险子图和安全子图中的出现状况包括:利用图神经网络分别对各候选图模式进行编码,得到各候选图模式的特征表示;
利用各候选图模式的特征表示在从风险子图中采样得到的各候选图模式以及从安全子图中采样得到的各候选图模式中进行匹配,以统计该候选图模式在风险子图中的出现次数以及在安全子图中的出现次数。
4.根据权利要求3所述的方法,其特征在于,所述利用图神经网络分别对各候选图模式进行编码包括:利用图同构神经网络确定候选图模式中各节点的特征表示,其中节点的特征表示由节点的特征、该节点的入边的特征以及该入边的出发节点的特征融合得到;
将各节点的特征表示进行合并处理,得到候选图模式的特征表示。
5.根据权利要求1所述的方法,其特征在于,所述依据确定的出现状况从所述多个候选图模式中确定风险图模式包括:若候选图模式在风险子图中的出现次数大于或等于预设第一次数阈值且在安全子图中的出现次数小于预设第二次数阈值,则将该候选图模式确定为风险图模式,其中所述第一次数阈值大于或等于所述第二次数阈值;或者,若候选图模式在风险子图中的出现次数与在安全子图中的出现次数的比值大于或等于预设的比例阈值,则将该候选图模式确定为风险图模式;或者,若候选图模式在风险子图中的出现次数大于或等于预设第一次数阈值且在安全子图中的出现次数小于预设第二次数阈值,则将该候选图模式提供给管理人员,并获取所述管理人员确定所述候选图模式是否为风险图模式;或者,若候选图模式在风险子图中的出现次数与在安全子图中的出现次数的比值大于或等于预设的比例阈值,则将该候选图模式提供给管理人员,并获取所述管理人员确定所述候选图模式是否为风险图模式。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述异构网络图被划分为M个图分区,由M个计算节点并发针对M个图分区确定风险子图和安全子图;
在每个计算节点中采用多线程并发从各风险子图和安全子图中进行图模式采样;
所述风险子图、安全子图和候选图模式的数据采用列式存储。
7.一种风险识别方法,其特征在于,该方法包括:
获取待识别的网络行为数据;
利用风险图模式对所述待识别的网络行为数据进行识别,若所述待识别的网络行为数据符合任一种风险图模式则确定所述待识别的网络行为数据存在风险;
其中所述风险图模式采用如权利要求1至6中任一项所述的方法预先建立。
8.一种风险图模式的挖掘装置,其特征在于,该装置包括:
图构建单元,被配置为获取利用用户的网络行为数据构建的异构网络图,所述异构网络图包括节点和边,所述边依据行为主体和行为对象之间的网络行为关系确定;
子图确定单元,被配置为利用已知风险行为对应的边在所述异构网络图中确定风险子图,以及利用已知安全行为对应的边在所述异构网络图中确定安全子图;
图采样单元,被配置为从所述风险子图和所述安全子图中分别进行图模式采样,得到多个候选图模式;
模式确定单元,被配置为分别确定各候选图模式在风险子图和安全子图中的出现状况,依据确定的出现状况从所述多个候选图模式中确定风险图模式,所述风险图模式用以对待识别的网络行为数据进行风险识别;
其中,
所述子图确定单元具体被配置为:在异构网络图中确定已知风险行为对应的边,从已知风险行为对应的边的两端节点开始,分别向外扩展N跳节点,得到风险子图,N为预设的正整数;在异构网络图中确定已知安全行为对应的边,从安全风险行为对应的边的两端节点开始,分别向外扩展N跳节点,得到安全子图;
所述图采样单元具体被配置为:从风险子图和安全子图中采样包含预设数量的节点的连通子图;将采样得到的连通子图分别作为候选图模式;
其中,
风险为网络交易风险,则所述行为主体包括账户以及银行卡,所述行为对象包括账户、银行卡以及红包id,所述节点之间的边包括行为主体和行为对象之间发生的支付行为、存取款行为、签约绑定行为以及收发红包行为;
或者,风险为网络交友诈骗风险,则所述行为主体包括社交网络账户、实时通信工具账户、金融账户、主机地址以及客户端标识,所述节点之间的边包括发送好友请求的行为、添加好友的行为、聊天行为、转账行为、收发红包行为以及发送链接的行为。
9.一种风险识别装置,其特征在于,该装置包括:
数据获取单元,被配置为获取待识别的网络行为数据;
风险识别单元,被配置为利用风险图模式对所述待识别的网络行为数据进行识别,若所述待识别的网络行为数据符合任一种风险图模式则确定所述待识别的网络行为数据存在风险;
其中所述风险图模式由如权利要求8所述的装置预先建立。
10.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1至7中任一项所述的方法。 说明书 : 风险图模式的挖掘方法、风险识别方法及对应装置技术领域[0001] 本说明书一个或多个实施例涉及计算机技术,尤其涉及风险图模式的挖掘方法、风险识别方法及对应装置。背景技术[0002] 在互联网技术日益发展的今天,用户在使用互联网的各种行为中出现各种风险。例如可能存在诸如网络交易诈骗、虚假兼职诈骗、网络交友诈骗等各种各样的欺诈形式。还可能存在诸如洗钱、作弊等风险形式。因此,如何快速、有效地进行风险识别成为各大服务提供商致力解决的问题。发明内容[0003] 本说明书一个或多个实施例公开了一种风险图模式的挖掘方法、风险识别方法及对应装置,用以快速、有效地对用户在互联网的各种行为进行风险识别。[0004] 根据第一方面,本公开提供了一种风险图模式的挖掘方法,该方法包括:[0005] 获取利用用户的网络行为数据构建的异构网络图,所述异构网络图包括节点和边,所述节点包括行为主体和行为对象,所述边依据行为主体和行为对象之间的网络行为关系确定;[0006] 利用已知风险行为对应的边在所述异构网络图中确定风险子图,以及利用已知安全行为对应的边在所述异构网络图中确定安全子图;[0007] 从所述风险子图和所述安全子图中分别进行图模式采样,得到多个候选图模式;[0008] 分别确定各候选图模式在风险子图和安全子图中的出现状况,依据确定的出现状况从所述多个候选图模式中确定风险图模式,所述风险图模式用以对待识别的网络行为数据进行风险识别。[0009] 根据本公开实施例中一可实现的方式,所述获取利用用户的网络行为数据构建的异构网络图包括:[0010] 从数据仓库中获取目标场景所对应行为主体类型、行为对象类型和网络行为类型的行为主体、行为对象和网络行为,用以构建所述异构网络图。[0011] 根据本公开实施例中一可实现的方式,所述利用已知风险行为对应的边在所述异构网络图中确定风险子图包括:在所述异构网络图中确定已知风险行为对应的边,从所述已知风险行为对应的边的两端节点开始,分别向外扩展N跳节点,得到风险子图,所述N为预设的正整数;[0012] 所述利用已知安全行为对应的边在所述异构网络图中确定安全子图包括:在所述异构网络图中确定已知安全行为对应的边,从所述安全风险行为对应的边的两端节点开始,分别向外扩展N跳节点,得到安全子图。[0013] 根据本公开实施例中一可实现的方式,从所述风险子图和所述安全子图中分别进行图模式采样,得到多个候选图模式包括:[0014] 从所述风险子图和所述安全子图中分别采样包含预设数量节点的连通子图;[0015] 将采样得到的连通子图分别作为候选图模式。[0016] 根据本公开实施例中一可实现的方式,所述分别确定各候选图模式在风险子图和安全子图中的出现状况包括:[0017] 利用图神经网络分别对各候选图模式进行编码,得到各候选图模式的特征表示;[0018] 利用各候选图模式的特征表示在从风险子图中采样得到的各候选图模式以及从安全子图中采样得到的各候选图模式中进行匹配,以统计该候选图模式在风险子图中的出现次数以及在安全子图中的出现次数。[0019] 根据本公开实施例中一可实现的方式,所述利用图神经网络分别对各候选图模式进行编码包括:[0020] 利用图同构神经网络确定候选图模式中各节点的特征表示,其中节点的特征表示由节点的特征、该节点的入边的特征以及该入边的出发节点的特征融合得到;[0021] 将各节点的特征表示进行合并处理,得到候选图模式的特征表示。[0022] 根据本公开实施例中一可实现的方式,所述依据确定的出现状况从所述多个候选图模式中确定风险图模式包括:[0023] 若候选图模式在风险子图中的出现次数大于或等于预设第一次数阈值且在安全子图中的出现次数小于预设第二次数阈值,则将该候选图模式确定为风险图模式,其中所述第一次数阈值大于或等于所述第二次数阈值;或者,[0024] 若候选图模式在风险子图中的出现次数与在安全子图中的出现次数的比值大于或等于预设的比例阈值,则将该候选图模式确定为风险图模式;或者,[0025] 若候选图模式在风险子图中的出现次数大于或等于预设第一次数阈值且在安全子图中的出现次数小于预设第二次数阈值,则将该候选图模式提供给管理人员,并获取所述管理人员确定所述候选图模式是否为风险图模式;或者,[0026] 若候选图模式在风险子图中的出现次数与在安全子图中的出现次数的比值大于或等于预设的比例阈值,则将该候选图模式提供给管理人员,并获取所述管理人员确定所述候选图模式是否为风险图模式。[0027] 根据本公开实施例中一可实现的方式,所述异构网络图被划分为M个图分区,由M个计算节点并发针对M个图分区确定风险子图和安全子图;[0028] 在每个计算节点中采用多线程并发从各风险子图和安全子图中进行图模式采样;[0029] 所述风险子图、安全子图和候选图模式的数据采用列式存储。[0030] 根据第二方面,本公开提供了一种风险识别方法,该方法包括:[0031] 获取待识别的网络行为数据;[0032] 利用风险图模式对所述待识别的网络行为数据进行识别,若所述待识别的网络行为数据符合任一种风险图模式则确定所述待识别的网络行为数据存在风险;[0033] 其中所述风险图模式采用如第一方面所述的方法预先建立。[0034] 根据第三方面,本公开提供了一种风险图模式的挖掘装置,该装置包括:[0035] 图构建单元,被配置为获取利用用户的网络行为数据构建的异构网络图,所述异构网络图包括节点和边,所述节点包括行为主体和行为对象,所述边依据行为主体和行为对象之间的网络行为关系确定;[0036] 子图确定单元,被配置为利用已知风险行为对应的边在所述异构网络图中确定风险子图,以及利用已知安全行为对应的边在所述异构网络图中确定安全子图;[0037] 图采样单元,被配置为从所述风险子图和所述安全子图中分别进行图模式采样,得到多个候选图模式;[0038] 模式确定单元,被配置为分别确定各候选图模式在风险子图和安全子图中的出现状况,依据确定的出现状况从所述多个候选图模式中确定风险图模式,所述风险图模式用以对待识别的网络行为数据进行风险识别。[0039] 根据第四方面,本公开提供了一种风险识别装置,该装置包括:[0040] 数据获取单元,被配置为获取待识别的网络行为数据;[0041] 风险识别单元,被配置为利用风险图模式对所述待识别的网络行为数据进行识别,若所述待识别的网络行为数据符合任一种风险图模式则确定所述待识别的网络行为数据存在风险;[0042] 其中所述风险图模式由上第三方面所述的装置预先建立。[0043] 根据第五方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行如上所述的方法。[0044] 根据第六方面,本公开提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现如上所述的方法。[0045] 由以上技术方案可以看出,本公开基于用户的网络行为数据构建异构网络图后,利用已知风险行为和安全行为对应的边在异构网络中确定风险子图和安全子图,在从风险子图和安全子图中采样得到候选图模式后,利用候选图模式在风险子图和安全子图中的出现状况确定风险图模式,利用得到的风险图模式可以对待识别的网络行为数据进行快速、有效地风险识别。附图说明[0046] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0047] 图1示出了可以应用本公开实施例的示例性系统架构图;[0048] 图2为本公开实施例提供的挖掘风险图模式的方法流程图;[0049] 图3为本公开实施例提供的一个风险子图的示意图;[0050] 图4为本公开实施例提供的从图3所示风险子图中采集的部分候选图模式;[0051] 图5为本公开实施例提供的离线挖掘风险图模式的一个优选流程图;[0052] 图6为本公开实施例提供的风险识别方法的流程图;[0053] 图7示出根据本公开一个实施例的风险图模式的挖掘装置的结构图;[0054] 图8示出根据本公开一个实施例的风险识别装置的结构图。具体实施方式[0055] 下面结合附图,对本说明书提供的方案进行描述。[0056] 在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。[0057] 应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。[0058] 取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。[0059] 图1示出了可以应用本公开实施例的示例性系统架构。该系统主要包括风险图模式的挖掘装置和风险识别装置。其中,风险图模式的挖掘装置从数据仓库中获取批量的用户网络行为数据,对用户网络行为数据进行离线挖掘,得到风险图模式。[0060] 所谓图模式实际上是一种子图,该子图中包含节点和节点之间的边,节点和边均具有各自的属性信息。若图模式中的至少一个点或边在实际场景中存在风险,则认为该图模式为风险图模式。[0061] 风险识别装置利用离线挖掘得到的风险图模式,在线上对待识别网络行为数据进行风险识别。其中待识别网络行为可以是实时的流数据,也可以是非实时的近期数据,甚至可以是历史数据。[0062] 上述系统中的风险图模式的挖掘装置和风险识别装置可以在服务器端实现。该服务器端可以是单一服务器,也可以是多个服务器构成的服务器群组,还可以是云服务器。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPs,VirtualPrivateServer)服务中存在的管理难度大,业务扩展性弱的缺陷。除了在服务器端实现之外,也可以在具有强大计算能力的计算机终端实现。[0063] 应该理解,图1中的风险图模式的挖掘装置、风险识别装置和数据仓库的数目仅仅是示意性的。根据实现需要,可以具有任意数目的风险图模式的挖掘装置、风险识别装置和数据仓库。[0064] 图2为本公开实施例提供的挖掘风险图模式的方法流程图。可以理解,该方法可以通过图1所示系统中的风险图模式的挖掘装置来执行。参见图2,该方法包括:[0065] 步骤201:获取利用用户的网络行为数据构建的异构网络图,该异构网络图包括节点和边,节点包括行为主体和行为对象,边依据行为主体和行为对象之间的网络行为关系确定。[0066] 步骤203:利用已知风险行为对应的边在异构网络图中确定风险子图,以及利用已知安全行为对应的边在异构网络图中确定安全子图。[0067] 步骤205:从风险子图和安全子图中进行图模式采样,得到多个候选图模式。[0068] 步骤207:分别确定各候选图模式在风险子图和安全子图中的出现状况,依据确定的出现状况从多个候选图模式中确定风险图模式。[0069] 由以上实施例提供的技术内容可以看出,本公开基于用户的网络行为数据构建异构网络图后,利用已知风险行为和安全行为对应的边在异构网络中确定风险子图和安全子图,在从风险子图和安全子图中采样得到候选图模式后,利用候选图模式在风险子图和安全子图中的出现状况确定风险图模式,以用于对待识别的网络行为数据进行快速、有效地风险识别。[0070] 下面对图2所示的各个步骤进行说明。[0071] 首先结合实施例对上述步骤201即“获取利用用户的网络行为数据构建的异构网络图”进行详细描述。[0072] 用户在使用网络的过程中被服务器端记录了大量的网络行为数据,这些网络行为数据通常记录于数据仓库中,体现了大量行为主体和行为对象之间的关联。其中一些行为是具有风险的,并且一些行为的特征反映了一些风险用户集(例如团伙)的风险行为,本公开的目的就是将这些具有风险的行为的模式以图的形式提取出来。[0073] 通常进行的风险识别是针对特定场景的,在特定场景下要关注和分析的行为主体、行为对象和网络行为的类型也是特定的。因此可以从数据仓库中获取目标场景所对应行为主体类型、行为对象类型和网络行为类型的行为主体、行为对象和网络行为,用以构建异构网络图。这种基于特定场景构建异构网络图的方式可以大大降低图数据的规模。异构网络图包括节点和边,节点包括行为主体和行为对象,边依据行为主体和行为对象之间的网络行为关系确定。[0074] 其中,目标场景所对应的主体类型、行为对象类型和网络行为类型可以预先根据经验设置。[0075] 以网络交易风险为例,行为主体可能是账户、银行卡等。行为对象也可能是账户、银行卡等,还可能是红包id等。也就是说,行为主体和行为对象是与金融类相关的主体和对象。节点之间的边可以是行为主体和行为对象之间发生的支付行为、存取款行为、签约绑定行为、收发红包行为等等与金融类相关的行为关系。[0076] 以网络交友诈骗风险为例,行为主体可能是社交网络账户、实时通信工具账户、金融账户、主机地址、客户端标识等等。节点之间的边可以是发送好友请求的行为、添加好友的行为、聊天行为、转账行为、收发红包行为、发送链接的行为,等等。[0077] 下面结合实施例对上述步骤203即“利用已知风险行为对应的边在异构网络图中确定风险子图,以及利用已知安全行为对应的边在异构网络图中确定安全子图”进行详细描述。[0078] 数据仓库中的用户行为数据是历史数据,存在一些用户行为数据是已经明确知道是风险行为还是安全行为的。例如,可以从诸如公安、法院等官方机构的数据库中可以获取到消息指明一些用户行为是违反法律、法规等的行为,或者产生的结果是违反法律、法规等,可以将这些消息所指明的用户行为确定为已知风险行为,并在异构网络中确定对应的边。再例如,一些用户行为被投诉,则可以认为该用户行为为已知风险行为,并在异构网络中确定对应的边。再例如,通过一些已有的高准确性地检测工具检测出一些用户行为是风险行为,则可以将这些用户行为确定为已知风险行为,并在异构网络中确定对应的边。再例如,可以通过人工鉴别的方式鉴别出一些风险行为,在异构网络中确定对应的边。[0079] 类似地,也存在一些用户行为是明确为安全行为的。例如,从一些官方渠道获取到消息指明一些用户行为是被高度推荐或赞许的,例如慈善行为、对城市建设起推动作用的投资行为等等,这些行为被确定为已知安全行为,并在异构网络中确定对应的边。再例如,能够通过一些已有的高准确性地检测工具检测出一些用户行为是安全行为,则可以将这些用户行为确定为已知安全行为,并在异构网络中确定对应的边。再例如,可以通过人工鉴别的方式鉴别出一些安全行为,在异构网络中确定对应的边。[0080] 在确定风险子图时,是利用已知风险行为对应的边在异构网络图中进行扩散得到的。具体地,可以在异构网络图中确定已知风险行为对应的边,从已知风险行为对应的边的两端节点开始,分别向外扩展N跳节点,得到风险子图,N为预设的正整数。[0081] 以图3为例,假设一笔账户到卡的交易行为被投诉,该交易行为被认定为已知风险行为。可以确定该行为对应的边,在图3所示的异构网络图中该边为节点1和节点2之间的边,该边用粗线箭头示出。然后这条边两端的节点,即节点1和节点2,分别出发向外扩展2跳(2条边)节点。节点1扩展两跳节点,就是节点5、节点6、节点3、节点4、节点7和节点8。节点2扩展两跳节点,就是节点9、节点10、节点11、节点12、节点13和节点14。这些节点及其之间的边构成了风险子图。[0082] 利用已知安全行为对应的边在异构网络中扩散得到安全子图的方式与上述风险子图得到的方式类似,在此不做详述。[0083] 下面结合实施例对上述步骤205即“从风险子图和安全子图中进行图模式采样,得到多个候选图模式”进行详细描述。[0084] 风险图模式一定是来源于风险子图的,但风险子图中并非所有部分都具有风险。因此,可以先从风险子图中枚举出所有可能的图模式作为候选图模式,另外为了方便统计候选图模式在安全子图中的出现状况,也会从安全子图中枚举出所有可能的图模式作为候选图模式,然后从候选图模式中再进一步识别风险图模式。[0085] 作为其中一种可实现的方式,在进行枚举时,可以从风险子图和安全子图中采样包含预设数量的节点的连通子图(包括节点、边以及节点和边的属性信息),将采样得到的连通子图分别作为候选子图。其中预设数量可以是一种数量,也可以是多种数量。[0086] 仍以图3所示风险子图为例,从该风险子图中枚举所有包含3个节点的连通子图以及包含4个节点的连通子图,这些连通子图构成候选图模式集合。例如图4中所示,得到节点5、节点6和节点3构成的连通子图作为候选图模式1,节点6、节点3、节点1构成的连通子图作为候选图模式2,节点5、节点3和节点1构成的连通子图作为候选图模式3,节点5、节点5、节点3和节点1构成的连通子图作为候选图模式4,等等,在此不做一一罗列。[0087] 下面结合实施例对上述步骤207即“分别确定各候选图模式在风险子图和安全子图中的出现状况,依据确定的出现状况从多个候选图模式中确定风险图模式”进行详细描述。[0088] 在本公开实施例中,在确定候选图模式在风险子图中的出现状况时,可以利用候选图模式在各风险子图和安全子图中进行遍历查询。但这种方式效率较低,对计算资源的要求较高。因此,本公开实施例提供了一种优选的方式,可以利用图神经网络分别对各候选图模式进行编码,得到各候选图模式的特征表示;然后利用候选图模式的特征表示在从风险子图中采样得到的各候选图模式以及从安全子图中采样得到的各候选图模式中进行匹配,以统计该候选图模式在风险子图中的出现次数以及在安全子图中的出现次数。[0089] 本公开实施例借鉴了图神经网络前向计算的思路。图神经网络有多种类型。作为其中一种可实现的方式,上述图神经网络可以采用GCN(GraphConvolutionalNetworks,图卷积神经网络)。[0090] 作为另一种可实现的方式,为了保证对不同结构的图模式计算出不同的表征,我们使用并改进了在图模式级别的任务上表现更好的GIN(GraphIsomorphismNetwork,图同构神经网络),GIN的主要优势在于它在邻居节点聚合时选择了加性的聚合方式,在区分图拓扑结构上更加有效。[0091] GIN主要包括图卷积层和输出层两个部分。其中,图卷积层可以采用MLP(MultilayerPerceptron,多层感知机)实现,用以确定输入的图结构中各节点的特征表示,可以采用下面的公式(1)[0092][0093] 其中, 表示节点v在图卷积层中第k个隐层所得到的特征表示,下标表示节点,上标表示隐层序号。 就是节点v在图图卷积层中第k个隐层卷基层中第k‑1个隐层所(k)得到的特征表示。N(v)是节点v的相邻节点。MLP ()是图卷积层中第k个隐层所采用的函(k)数。∈ 是预设的常数,通常是一个较小的浮点数,例如0.01。[0094] 除了上述公式(1)之外,作为一种优选的方式,可以利用节点的特征、该节点的入边的特征以及该入边的出发节点的特征融合得到该节点的特征表示。例如可以采用下面的公式(2):[0095][0096] 其中,fe为边e的特征表示。IN(v)为节点v的入边集合,所谓节点v的入边指的是指向节点v的边。Se为边e的出发节点。||是拼接处理,即将||前后的特征表示进行拼接。[0097] 输出层用以将上述输入的图结构中各节点的特征表示进行合并处理,得到该图结构的特征表示。例如,可以采用以下公式(3)确定图结构G的特征表示hG:[0098][0099] 其中,Readout()是进行加和处理的函数,CONCAT()是进行合并处理的函数。[0100] 将各候选图模型作为上述输入的图结构输入GIN,能够得到GIN输出的各候选图模型的特征表示。[0101] 另外需要说明的是,本公开实施例并未涉及上述诸如GIN的图神经网络的训练过程,本公开实施例仅仅是利用图神经网络对输入的图结构进行编码,只要保证所有图结构采用的编码方式是一致的,即将所有图结构的特征表示都映射到同一特征向量空间即可。哪怕是使用图神经网络的初始化参数对输入的各图结构进行编码也可以实现。[0102] 举个例子,从风险子图中得到候选图模式集合S1,从安全子图中得到候选图模式集合S2,S1和S2中的每一个候选图模式都利用GIN得到对应的特征表示。针对每一个候选图模式,或者针对风险子图中的每一个候选图模式,利用其特征表示在S1和S2中查询。查询S1中与该候选图模式的特征表示一致的候选图模式数量作为该候选图模式在风险子图中的出现次数。查询S2中与该候选图模式的特征表示一致的候选图模式数量作为该候选图模式在安全子图中的出现次数。[0103] 在确定出候选图模式在风险子图的出现次数以及在安全子图的出现次数后,确定风险模式的原则主要是:风险模式在风险子图的出现次数多,并且对安全子图的打扰小即在安全子图的出现次数少。[0104] 作为其中一种可实现的方式,若候选图模式在风险子图中的出现次数大于或等于预设第一次数阈值且在安全子图中的出现次数小于预设第二次数阈值,则将该候选图模式确定为风险图模式,其中第一次数阈值大于或等于第二次数阈值。或者可以进一步结合人工筛选的方式,即若候选图模式在风险子图中的出现次数大于或等于预设第一次数阈值且在安全子图中的出现次数小于预设第二次数阈值,则将该候选图模式提供给管理人员,由管理人员确定该候选图模式是否为风险图模式。[0105] 作为另一种可实现的方式,若候选图模式在风险子图中的出现次数与在安全子图中的出现次数的比值大于或等于预设的比例阈值,则将该候选图模式确定为风险图模式。或者可以进一步结合人工筛选的方式,即若候选图模式在风险子图中的出现次数与在安全子图中的出现次数的比值大于或等于预设的比例阈值,则将该候选图模式提供给管理人员,由管理人员确定该候选图模式是否为风险图模式。[0106] 上述离线挖掘风险图模式的一个优选流程可以如图5中所示。首先从数据仓库中获取目标场景所对应行为主体类型、行为对象类型和网络行为类型的行为主体,用以构建异构网络图。然后在异构网络图中确定已知风险行为对应的边,从已知风险行为对应的边的两端节点开始,分别向外扩展2跳节点,得到风险子图;在异构网络图中确定已知安全行为对应的边,从安全风险行为对应的边的两端节点开始,分别向外扩展2跳节点,得到安全子图。再从风险子图和安全子图中采样包含3个和4个的节点的连通子图,将采样得到的连通子图分别作为候选图模式。将各候选图模式分别输入GIN进行编码得到各候选图模式的特征表示。然后利用各候选图模式的特征表示统计各候选图模式在风险子图和安全子图中的出现状况。若候选图模式在风险子图中的出现次数与在安全子图中的出现次数的比值大于或等于预设的比例阈值,则将该候选图模式提供给管理人员,并获取管理人员确定该候选图模式是否为风险图模式。最后将确定出的风险图模式进行存储供风险识别任务进行调用和查询。[0107] 在上述离线挖掘过程中,图扩散、图采样、图表示计算和出现次数统计等处理过程可以在多个计算节点上并行执行。例如,异构网络图可以被划分为M个图分区,M个图分区的数据分别被分配到M个计算节点。由M个计算节点并发针对M个图分区进行图扩散确定风险子图和安全子图。在每个计算节点内部可以采用多线程执行引擎来实现更细粒度的并发,例如在每个计算节点中采用多线程并发从各风险子图中进行图模式采样。这种方式大大缓解了计算压力,且不需要一次性地将大图读入内存,而是各计算节点按需读取自己被分配的图数据,降低了存储压力。[0108] 由于图数据的特殊性,上述图分区可能会造成一个节点和它的邻居节点被分配于不同的计算节点,这就造成图模式采样过程涉及大量计算节点之间的通信,可以采用异步shuffle来实现高吞吐量。[0109] 得到风险子图和安全子图后需要采样候选图模式并确定候选图模式的特征表示。由于在每个节点和边上存在大量属性,确定特征表示的过程往往涉及到图数据存储的某一列,例如原始特征列。因此可以对风险子图、安全子图和候选图模式的数据采用列式存储,以更好地支持这种对列进行大规模遍历的场景,提高效率。[0110] 在经过上述过程获取风险图模式后,将获取的风险图模式进行存储,以供后续风险识别流程中进行调用和查询。图6为本公开实施例提供的风险识别方法的流程图,该方法可以通过图1所示系统中的风险识别装置来执行。如图6中所示,该方法可以包括以下步骤:[0111] 步骤601:获取待识别的网络行为数据。[0112] 待识别的网络行为数据可以是实时的流数据,即大量用户在使用互联网产生网络行为的过程中,获取包含用户网络行为数据的流数据,将流数据中包含的网络行为数据作为待识别的网络行为数据进行识别,从而实现实时的风险识别。[0113] 待识别的网络行为数据也可以是非实时的近期数据,例如对近一天收集的网络行为数据进行风险识别。[0114] 步骤603:利用风险图模式对待识别的网络行为数据进行识别,若网络行为数据符合任一种风险图模式则确定待识别的网络行为数据存在风险。[0115] 可以将待识别的网络行为数据分别与各风险图模式进行匹配。作为其中一种可实现的方式,可以通过DSL(DomainSpecificLanguage,领域专用语言)等查询指令在待识别的网络数据中查询各风险图模式,一旦待识别的网络数据命中任一种风险图模式,则认为该待识别的网络行为数据存在风险。可以针对存在风险的网络行为数据按照一定策略进行处理。例如,输出识别得到的存在风险的网络行为数据的信息。再例如,对存在风险的网络行为进行拦截。再例如,对存在风险的网络行为对应的行为主体进行问询,等等。[0116] 另外,利用风险图模式的方式对网络行为数据进行风险识别也使得风险识别结果具有可解释性,即知道为何将该网络行为识别为风险行为。[0117] 以上是对本公开所提供方法进行的详细描述,下面对本公开所提供的装置进行详细描述。[0118] 图7示出根据本公开一个实施例的风险图模式的挖掘装置的结构图,如图7所示,该装置700可以包括:图构建单元701、子图确定单元702、图采样单元703和模式确定单元704,还可以进一步包括图编码单元705。其中各组成单元的主要功能如下:[0119] 图构建单元701,被配置为获取利用用户的网络行为数据构建的异构网络图,异构网络图包括节点和边,节点包括行为主体和行为对象,边依据行为主体和行为对象之间的网络行为关系确定。[0120] 子图确定单元702,被配置为利用已知风险行为对应的边在异构网络图中确定风险子图,以及利用已知安全行为对应的边在异构网络图中确定安全子图。[0121] 图采样单元703,被配置为从风险子图和安全子图中进行图模式采样,得到多个候选图模式。[0122] 模式确定单元704,被配置为分别确定各候选图模式在风险子图和安全子图中的出现状况,依据确定的出现状况从多个候选图模式中确定风险图模式,风险图模式用以对待识别的网络行为数据进行风险识别。[0123] 作为其中一种可实现的方式,图构建单元701可以具体被配置为:从数据仓库中获取目标场景所对应行为主体类型、行为对象类型和网络行为类型的行为主体、行为对象和网络行为,用以构建异构网络图。[0124] 作为其中一种可实现的方式,子图确定单元702可以具体被配置为:在异构网络图中确定已知风险行为对应的边,从已知风险行为对应的边的两端节点开始,分别向外扩展N跳节点,得到风险子图,N为预设的正整数;在异构网络图中确定已知安全行为对应的边,从安全风险行为对应的边的两端节点开始,分别向外扩展N跳节点,得到安全子图。[0125] 作为其中一种可实现的方式,图采样单元703可以具体被配置为:从风险子图和安全子图中采样包含预设数量的节点的连通子图;将采样得到的连通子图分别作为候选图模式。[0126] 作为其中一种可实现的方式,图编码单元705,被配置为利用图神经网络分别对各候选图模式进行编码,得到各候选图模式的特征表示。[0127] 模式确定单元704,具体被配置为利用各候选图模式的特征表示在从风险子图中采样得到的各候选图模式以及从安全子图中采样得到的各候选图模式中进行匹配,以统计该候选图模式在风险子图中的出现次数以及在安全子图中的出现次数。[0128] 作为一种优选的实施方式,图编码单元705具体被配置为:利用图同构神经网络确定候选图模式中各节点的特征表示,其中节点的特征表示由节点的特征、该节点的入边的特征以及该入边的出发节点的特征融合得到;将各节点的特征表示进行合并处理,得到候选图模式的特征表示。[0129] 作为其中一种可实现的方式,模式确定单元704可以具体被配置为:若候选图模式在风险子图中的出现次数大于或等于预设第一次数阈值且在安全子图中的出现次数小于预设第二次数阈值,则将该候选图模式确定为风险图模式,其中第一次数阈值大于或等于第二次数阈值;或者,[0130] 若候选图模式在风险子图中的出现次数与在安全子图中的出现次数的比值大于或等于预设的比例阈值,则将该候选图模式确定为风险图模式;或者,[0131] 若候选图模式在风险子图中的出现次数大于或等于预设第一次数阈值且在安全子图中的出现次数小于预设第二次数阈值,则将该候选图模式提供给管理人员,并获取管理人员确定候选图模式是否为风险图模式;或者,[0132] 若候选图模式在风险子图中的出现次数与在安全子图中的出现次数的比值大于或等于预设的比例阈值,则将该候选图模式提供给管理人员,并获取管理人员确定候选图模式是否为风险图模式。[0133] 图8示出根据本公开一个实施例的风险识别装置的结构图,如图8所示,该装置800可以包括:数据获取单元801和风险识别单元802。其中各组成单元的主要功能如下:[0134] 数据获取单元801,被配置为获取待识别的网络行为数据。[0135] 风险识别单元802,被配置为利用风险图模式对待识别的网络行为数据进行识别,若待识别的网络行为数据符合任一种风险图模式则确定待识别的网络行为数据存在风险。[0136] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。[0137] 本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。[0138] 以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

专利地区:浙江

专利申请日期:2022-05-24

专利公开日期:2024-06-18

专利公告号:CN115018280B

电话咨询
读内容
搜本页
回顶部