专利名称:一种确定用户亲密度的方法、装置以及存储介质
专利类型:发明专利
专利申请号:CN202210573056.0
专利申请(专利权)人:厦门市美亚柏科信息股份有限公司
权利人地址:福建省厦门市软件园二期观日路12号102-402单元
专利发明(设计)人:蔡晓强
专利摘要:本发明涉及数据分析技术领域。本发明公开了一种确定用户亲密度的方法,用于确定社交主体间的亲密度,所述方法包括:获取社交主体在多个社交网络的社交网络数据资源,根据每一个社交网络数据资源构建对应社交网络的无向图,合并所有无向图生成全信息无向图;分别确定每一社交网络的资源因子系数和每一社交网络中每对社交主体间的次数因子系数;确定每一社交网络对应的无向图中节点x和节点y间的边的权重系数,并确定在全信息无向图中节点x和节点y间的边的加权权重系数;确定全信息无向图中的节点x和节点y对应的社交主体间的亲密度。本发明提供的确定用户亲密度的方法和装置,能够综合多个社交网络数据资源计算社交主体间的亲密度。
主权利要求:
1.一种确定用户亲密度的方法,用于确定社交主体之间的亲密度,其特征在于,包括:
S1,获取社交主体在多个社交网络的社交网络数据资源,每一个社交网络对应一个社交网络数据资源,根据每一个社交网络数据资源构建对应社交网络的无向图,所述无向图的节点表示对应社交网络中的社交主体,所述无向图的边表示对应社交网络中社交主体之间存在关系,合并所有无向图,生成全信息无向图,所述全信息无向图包含所有无向图中的节点和边;
S2,根据如下公式(1)和(2)分别确定每一社交网络的资源因子系数和每一社交网络中每对社交主体之间的次数因子系数:s(T)=FN(T)(2)
其中,n(N)为社交网络数据资源N对应的社交网络的资源因子系数,V为社交网络数据资源N对应的无向图中包含的节点的个数,E为社交网络数据资源N对应的无向图中包含的边的数量,ceil为向上取整函数,其中资源因子系数越大表明对应的社交网络数据资源对社交主体之间的亲密度的影响越大;s(T)为社交网络数据资源N对应的社交网络中每对社交主体之间的次数因子系数,其中次数因子系数越大表明对应社交网络中对应社交主体之间的亲密度越大,FN(x)为根据每对社交主体的关系次数生成的经验分布函数,T为社交网络数据资源N中每对社交主体之间的关系次数,关系次数为T的一对社交主体之间的次数因子系数为FN(T);
S3,根据如下公式(3)确定每一社交网络对应的无向图中节点x和节点y之间的边的权重系数wxy(N,T),并根据如下公式(4)确定在所述全信息无向图中所述节点x和节点y之间的边的加权权重系数wxy:wxy(N,T)=n(N)*s(T)(3)
其中,wxy(Ni,Ti)为第i个社交网络对应的无向图中边的权重系数,k为社交网络的个数,i为正整数;
S4,根据如下公式(5)和(6)确定所述全信息无向图中的节点x和节点y对应的社交主体之间的亲密度R(x,y):其中,N(x)和N(y)分别为节点x和节点y的邻接节点集合,u为节点x和节点y的共同邻接点, 为节点u对节点x和节点y的亲密度的贡献度,wxy为节点x和节点y之间的边的加权权重系数,wxu为节点x和节点u之间的边的加权权重系数,wyu为节点y和节点u之间的边的加权权重系数,N(u)为节点u的邻接节点集合,z为节点u的非节点x且非节点y的邻接点,wzu为节点z和节点u之间的边的加权权重系数。
2.根据权利要求1所述的方法,其特征在于,社交网络包括通话记录、往来邮件、微信、微博、Twitter和/或Facebook。
3.根据权利要求1所述的方法,其特征在于,社交网络数据资源为社交网络中包含社交主体和社交主体之间存在关系的结构化二维表数据。
4.根据权利要求1所述的方法,其特征在于,所述S1中,根据每一个社交网络数据资源构建对应社交网络的无向图时,两个不同社交主体在无向图中对应的节点只建立一条边。
5.根据权利要求1所述的方法,其特征在于,所述S1中,合并所有无向图,生成全信息无向图时,所述全信息无向图中的两个不同节点在不同的无向图中存在边时只建立一条边。
6.根据权利要求1所述的方法,其特征在于,所述经验分布函数FN(x)的函数值的取值范围为(0,1],所述每对社交主体的关系次数越多则所述函数值越大。
7.根据权利要求1所述的方法,其特征在于,当社交网络对应的无向图中包含的节点的个数超过预设阈值时,根据如下公式确定每一社交网络的资源因子系数:
8.一种确定用户亲密度的装置,其特征在于,包括存储器和处理器,所述存储器存储有至少一段程序,所述至少一段程序由所述处理器执行以实现如权利要求1至7任一所述的确定用户亲密度的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器执行以实现如权利要求1至7任一所述的确定用户亲密度的方法。 说明书 : 一种确定用户亲密度的方法、装置以及存储介质技术领域[0001] 本发明涉及数据分析技术领域,尤其涉及一种确定用户亲密度的方法、装置以及存储介质。背景技术[0002] 人与人之间的关系数据通常以二维表的结构化形式存储,无法还原社交圈或人际圈的复杂原貌,因此此类问题往往转化为图模型,以图的节点表示社交主体,边表示社交关系,利用图论知识分析节点和边的性质,挖掘社交网络的潜在信息。[0003] 根据图论知识,可计算边的权重,反映节点之间的链接程度,例如,在商业领域中可作为有相似喜好客户的商品推荐,在生物领域中可作为可能发生相互作用的蛋白质预测。[0004] 在社交网络问题中,不同的社交形式可能有不同的边的权重,而现有技术关于权重的分配大多依赖于专家或以往经验的主观评定,在后续的图论计算中也只考虑一种社交因素,无法将多元权重结合起来,且实际计算节点亲密度时未能将边的权重加入到模型当中。发明内容[0005] 为了克服如上所述的技术问题,本发明提出一种确定用户亲密度的方法,用于确定社交主体之间的亲密度,所述方法的技术方案如下:[0006] S1,获取社交主体在多个社交网络的社交网络数据资源,每一个社交网络对应一个社交网络数据资源,根据每一个社交网络数据资源构建对应社交网络的无向图,所述无向图的节点表示对应社交网络中的社交主体,所述无向图的边表示对应社交网络中社交主体之间存在关系,合并所有无向图,生成全信息无向图,所述全信息无向图包含所有无向图中的节点和边;[0007] S2,根据如下公式(1)和(2)分别确定每一社交网络的资源因子系数和每一社交网络中每对社交主体之间的次数因子系数:[0008][0009] s(T)=FN(T)(2)[0010] 其中,n(N)为社交网络数据资源N对应的社交网络的资源因子系数,V为社交网络数据资源N对应的无向图中包含的节点的个数,E为社交网络数据资源N对应的无向图中包含的边的数量,ceil为向上取整函数,其中资源因子系数越大表明对应的社交网络数据资源对社交主体之间的亲密度的影响越大;[0011] s(T)为社交网络数据资源N对应的社交网络中每对社交主体之间的次数因子系数,其中次数因子系数越大表明对应社交网络中对应社交主体之间的亲密度越大,FN(x)为根据每对社交主体的关系次数生成的经验分布函数,T为社交网络数据资源N中每对社交主体之间的关系次数,关系次数为T的一对社交主体之间的次数因子系数为FN(T);[0012] S3,根据如下公式(3)确定每一社交网络对应的无向图中节点x和节点y之间的边的权重系数wxy(N,T),并根据如下公式(4)确定在所述全信息无向图中所述节点x和节点y之间的边的加权权重系数wxy:[0013] wxy(N,T)=n(N)*s(T)(3)[0014][0015] 其中,wxy(Ni,Ti)为第i个社交网络对应的无向图中边的权重系数,k为社交网络的个数,i为正整数;[0016] S4,根据如下公式(5)和(6)确定所述全信息无向图中的节点x和节点y对应的社交主体之间的亲密度R(x,y):[0017][0018][0019] 其中,N(x)和N(y)分别为节点x和节点y的邻接节点集合,u为节点x和节点y的共同邻接点, 为节点u对节点x和节点y的亲密度的贡献度,wxy为节点x和节点y之间的边的加权权重系数,wxu为节点x和节点u之间的边的加权权重系数,wyu为节点y和节点u之间的边的加权权重系数,N(u)为节点u的邻接节点集合,z为节点u的非节点x且非节点y的邻接点,wzu为节点z和节点u之间的边的加权权重系数。[0020] 进一步的,社交网络包括通话记录、往来邮件、微信、微博、Twitter和/或Facebook。[0021] 进一步的,社交网络数据资源为社交网络中包含社交主体和社交主体之间存在关系的结构化二维表数据。[0022] 进一步的,所述S1中,根据每一个社交网络数据资源构建对应社交网络的无向图时,两个不同社交主体在无向图中对应的节点只建立一条边。[0023] 进一步的,所述S1中,合并所有无向图,生成全信息无向图时,所述全信息无向图中的两个不同节点在不同的无向图中存在边时只建立一条边。[0024] 进一步的,所述经验分布函数FN(x)的函数值的取值范围为(0,1],所述每对社交主体的关系次数越多则所述函数值越大。[0025] 进一步的,当社交网络对应的无向图中包含的节点的个数超过预设阈值时,根据如下公式确定每一社交网络的资源因子系数:[0026][0027] 本发明还提出一种确定用户亲密度的装置,所述确定用户亲密度的装置包括存储器和处理器,所述存储器存储有至少一段程序,所述至少一段程序由所述处理器执行以实现如上文所述的确定用户亲密度的方法。[0028] 本发明还提出了一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述至少一段程序由所述处理器执行以实现如上文所述的确定用户亲密度的方法。[0029] 本发明提供的技术方案带来的有益效果是:[0030] 本发明的一种确定用户亲密度的方法和装置,能够综合多个社交网络用来计算不同社交网络的社交网络数据资源和同一个社交网络中的社交主体之间的关系次数对用户亲密度的影响系数,不再依赖于专家评审等主观意愿,一方面能够确定已有社交网络数据的用户亲密度,另一方面能够发现潜在的亲密关系。在本发明的进一步方案中,将二维表数据转换为图的节点与边,为后续可视化展示提供了便利,在分析两个社交主体的亲密度时,充分考虑其他社交主体的影响,并在计算亲密度时作为中间结果输出其他社交主体的贡献度。附图说明[0031] 图1为本发明实施例的一种确定用户亲密度的方法的流程图;[0032] 图2为本发明实施例的合并了3个社交网络数据资源的全信息无向图的示意图;[0033] 图3为本发明实施例的亲密度估计值箱线图;[0034] 图4为本发明实施例的好友关系下的亲密度与邻接节点个数关系;[0035] 图5为本发明实施例的非好友关系下的亲密度与邻接节点个数关系;[0036] 图6为本发明实施例所涉及的一种确定用户亲密度的装置结构示意图。具体实施方式[0037] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。[0038] 实施例一:[0039] 如图1所示为本发明实施例的一种确定用户亲密度的流程图,示出了该方法的具体实施步骤,包括:[0040] S1,获取社交主体在多个社交网络的社交网络数据资源,每一个社交网络对应一个社交网络数据资源,根据每一个社交网络数据资源构建对应社交网络的无向图,所述无向图的节点表示对应社交网络中的社交主体,所述无向图的边表示对应社交网络中社交主体之间存在关系,合并所有无向图,生成全信息无向图,所述全信息无向图包含所有无向图中的节点和边;[0041] S2,根据如下公式(1)和(2)分别确定每一社交网络的资源因子系数和每一社交网络中每对社交主体之间的次数因子系数:[0042][0043] s(T)=FN(T)(2)[0044] 其中,n(N)为社交网络数据资源N对应的社交网络的资源因子系数,V为社交网络数据资源N对应的无向图中包含的节点的个数,E为社交网络数据资源N对应的无向图中包含的边的数量,ceil为向上取整函数,其中资源因子系数越大表明对应的社交网络数据资源对社交主体之间的亲密度的影响越大;s(T)为社交网络数据资源N对应的社交网络中每对社交主体之间的次数因子系数,其中次数因子系数越大表明对应社交网络中对应社交主体之间的亲密度越大,FN(x)为根据每对社交主体的关系次数生成的经验分布函数,T为社交网络数据资源N中每对社交主体之间的关系次数,关系次数为T的一对社交主体之间的次数因子系数为FN(T);[0045] S3,根据如下公式(3)确定每一社交网络对应的无向图中节点x和节点y之间的边的权重系数wxy(N,T),并根据如下公式(4)确定在所述全信息无向图中所述节点x和节点y之间的边的加权权重系数wxy:[0046] wxy(N,T)=n(N)*s(T)(3)[0047][0048] 其中,wxy(Ni,Ti)为第i个社交网络对应的无向图中边的权重系数,k为社交网络的个数,i为正整数;[0049] S4,根据如下公式(5)和(6)确定所述全信息无向图中的节点x和节点y对应的社交主体之间的亲密度R(x,y):[0050][0051][0052] 其中,N(x)和N(y)分别为节点x和节点y的邻接节点集合,u为节点x和节点y的共同邻接点, 为节点u对节点x和节点y的亲密度的贡献度,wxy为节点x和节点y之间的边的加权权重系数,wxu为节点x和节点u之间的边的加权权重系数,wyu为节点y和节点u之间的边的加权权重系数,N(u)为节点u的邻接节点集合,z为节点u的非节点x且非节点y的邻接点,wzu为节点z和节点u之间的边的加权权重系数。[0053] 具体的,社交网络包括通话记录、往来邮件、微信、微博、Twitter和/或Facebook。[0054] 具体的,社交网络数据资源为社交网络中包含社交主体和社交主体之间存在关系的结构化二维表数据。[0055] 本发明的实施例中,用关系次数来表示在一社交网络中存在关系的社交主体之间产生相互关系的次数。具体的相互关系可以根据社交网络的实际类型指定或确定。示例性地,关系次数为社交网络中不同社交主体在结构化二维表数据中所记载的存在关系的记录的数量。示例性但不作为限制的,当社交网络为通话记录时,关系次数可以为通话记录数据资源中包含的不同社交主体之间的通话次数;当社交网络为往来邮件时,关系次数可以为往来邮件数据资源中包含的不同社交主体之间的邮件通信次数;当社交网络为微信、微博、Twitter或Facebook时,关系次数可以为社交网络的聊天数据资源中包含的聊天记录条数或社交网络的通讯录数据资源中的好友关系。[0056] 具体的,所述S1中,根据每一个社交网络数据资源构建对应社交网络的无向图时,两个不同社交主体在无向图中对应的节点只建立一条边。[0057] 具体的,所述S1中,合并所有无向图,生成全信息无向图时,所述全信息无向图中的两个不同节点在不同的无向图中存在边时只建立一条边。[0058] 具体的,所述经验分布函数FN(x)的函数值的取值范围为(0,1],所述每对社交主体的关系次数越多则所述函数值越大。[0059] 具体的,当社交网络对应的无向图中包含的节点的个数超过预设阈值时,根据如下公式确定每一社交网络的资源因子系数:[0060][0061] 实施例二:[0062] 本发明提出了一种将不同社交网络作为多元影响因素的边预测模型,将不同社交网络的社交网络数据资源转化为无向图,量化所有已有边的权重,作为多元影响因素进行加权,合并为最终的全信息无向图,之后计算已观测到的边的权重并预测未观测到的边的权重,作为社交主体之间的亲密度的预测值。[0063] 本发明将社交网络的社交网络数据资源转换为无向图,每个节点表示社交主体,每条边表示社交主体之间的存在关系,边的权重即表示社交主体的亲密度。根据不同社交网络数据资源的特性与社交主体之间存在关系的统计次数,计算两个影响边的权重计算的系数:资源因子系数与次数因子系数,基于两个因子系数计算已有边的权重,将不同社交网络的无向图进行加权,得到最终的全信息无向图,基于最终的全信息无向图计算已观测到的边的权重并预测未观测到关系的边的权重,作为社交主体之间的亲密度的预测值,并且返回权重计算时各节点的贡献度。[0064] 社交网络包括通话记录、往来邮件、微信、微博、Twitter和/或Facebook等,社交网络数据资源为社交网络中包含社交主体和社交主体之间存在关系的结构化二维表数据。[0065] 本发明提出的亲密度计算的方法包括以下三个阶段:[0066] 阶段一,社交网络数据资源的图转化;[0067] 以社交网络数据资源为单位,将所有社交主体的关系绘制成无向图,然后将不同社交网络数据资源对应的无向图进行合并,得到最终的全信息无向图,包括以下3个步骤:[0068] 步骤11,遍历节点和连接边;[0069] 在一个社交网络数据资源中,遍历所有记录,每条记录确定两个节点和这两个节点的边,两个社交主体的多条记录只建立一条边,生成无向图,无向图的节点表示社交主体,无向图的边表示社交主体之间存在关系。[0070] 步骤12,统计社交主体之间存在关系的次数;[0071] 社交网络数据资源对应的结构化二维表数据中的每一记录包含了不同社交主体之间的存在关系,分别遍历步骤11中每个社交网络数据资源中的所有记录,统计每对社交主体之间存在关系的次数。[0072] 步骤13,合并不同社交网络数据资源的无向图;[0073] 多个社交网络数据资源根据步骤11生成多个无向图,将所有无向图的所有节点和所有边合并到一张全信息无向图中,两个节点在不同图中同时存在边时,只建立一条边。[0074] 阶段二,计算资源因子系数与次数因子系数;[0075] 根据阶段一中步骤11的无向图与步骤12所得的关系次数统计数据,计算资源因子系数与次数因子系数,包括以下2个步骤:[0076] 步骤21,资源因子系数计算;[0077] 社交网络数据资源N根据阶段一中步骤11生成一张无向图G,包含V个节点,E条边,在关系类型的社交网络数据资源中,所有节点的度至少为1,因此最小边数为不小于V/2的最小整数ceil(V/2),最大边数为两两相连的组合数V(V‑1)/2,资源因子系数n(N)计算公式为:[0078][0079] 公式(1)中的资源因子系数n(N)具有如下性质:[0080] 1)显然1/(V‑1)<=n(N)<=1;[0081] 2)当节点数较多时,ceil(V/2)近似于V/2;[0082] 3)本发明认为,当社交主体与社交主体之间的关系更“专一”时,边对亲密度的反映更显著,此时无向图G的边数更少,即具有更小的E和更大的n(N)。[0083] 步骤22,次数因子系数计算;[0084] 社交网络数据资源N根据阶段一中步骤12获得每对社交主体的关系次数T,生成经验分布函数FN(x),每对社交主体之间的次数因子系数计算公式为:[0085] s(T)=FN(T)(2)[0086] 公式(2)中的次数因子系数s(T)具有如下性质:[0087] 1)显然0<=s(T)<=1,关系次数越多,s(T)越大;[0088] 2)生成FN(x)的方式是灵活的,可以将所有数据作为样本,不必局限于短期内的数据。[0089] 阶段三,计算边的权重和节点的贡献度;[0090] 步骤31,边的权重计算;[0091] 假设在一个社交网络数据资源N中,任意社交主体x和社交主体y之间的关系次数为T,根据阶段二中得到的资源因子系数n(N)与次数因子系数s(T),计算阶段一中步骤11的无向图中边的权重系数wxy(N,T):[0092] wxy(N,T)=n(N)*s(T)(3)[0093] 若社交主体x和社交主体y在多个社交网络数据资源N1,N2,...,Nk中都有多次记录T1,T2,...,Tk,则根据步骤31的权重系数计算社交主体x和社交主体y的边的加权权重系数:[0094][0095] 步骤32,亲密度计算;[0096] 根据公式(4)得到的边的加权权重系数wxy,计算阶段一中步骤13的全信息无向图中任意两个节点x和节点y的亲密度R(x,y):[0097][0098][0099] 其中,N(x)表示节点x的邻接节点集合,N(y)表示节点y的邻接节点集合,N(u)表示节点u的邻接节点集合。[0100] 对于此计算公式,本发明有如下解释:[0101] 1)在公式(5)中:[0102] a)wxy代表了节点x与节点y的直接关系,根据公式(4)计算wxy的数值,显然R(x,y)随wxy增加而增加;[0103] b)u表示节点x与节点y的共同邻接点,共同的邻接点越多,节点x与节点y的亲密度越高;[0104] c)wxy的系数为2,旨在与节点u的亲密度因素1/|W(u)|保持相同量纲,1/|W(u)|的计算见公式(6)。[0105] 2)在公式(6)中:[0106] a)wxu和wyu代表了节点x与节点y的共同邻接点u与二者的关系程度,根据公式(4)计算wxu和wyu的数值,显然R(x,y)随wxu和wyu的增加而增加;[0107] b)z代表了非x且非y的u的邻接点,wzu表示了这样的情况:u作为节点x与节点y的共同邻接点,依旧与其他节点存在关系,这样的关系越多,认为节点u对于节点x与节点y的亲密度贡献越低,是为消极影响,而∑wzu就是对这些消极影响的度量。显然R(x,y)随着节点z的数量增加或wzu的增大而减小。[0108] 步骤33,节点贡献度计算;[0109] 在步骤32中计算节点x与节点y的亲密度时,中间结果1/|W(u)|即为社交主体u对节点x和节点y的亲密度的贡献度。[0110] 本发明所述的方案使用了图模型来表示社交网络,通过三个步骤,将不同社交网络数据资源的关系记录转化为全信息无向图,并以全信息无向图的边的权重表示节点之间的亲密度。从数据自身出发,计算社交网络数据资源的资源因子系数与每对社交主体之间的次数因子系数,最终得到任意社交主体之间的边的权重,最终基于边的权重信息量化社交主体之间的亲密度,实现已知边的量化与未知边的预测。本发明在计算亲密度的同时,还能够获取算法中参与的社交主体的贡献度。[0111] 本发明所述的资源因子系数与次数因子系数,可应用于各类无向图的边的系数的估计当中,例如边的权重系数的估计。所述确定用户亲密度的算法可在各类社交网络场景中得到应用,例如,可作为商业领域的相似客户推荐的依据,或者是线上交互平台的好友推荐和亲密度估计值,所述的边的加权权重系数可作为后续中心度计算的依据。[0112] 实施例三:[0113] 本发明以一个理论简单情形为例,讨论8个假设的社交主体之间的关系,旨在验证方法的可行性。[0114] 在N1、N2和N3三个社交网络数据资源中分别存储了不同社交主体之间的关系记录,根据社交网络数据资源中存储的关系记录,统计不同社交主体之间的关系次数,分别见表1、表2和表3。[0115]社交主体1 社交主体2 关系次数A B 10C D 3B E 5B F 2[0116] 表1[0117]社交主体1 社交主体2 关系次数B C 2D E 3B F 7[0118] 表2[0119]社交主体1 社交主体2 关系次数A D 15A F 20A B 7[0120] 表3[0121] 阶段一,将3个社交网络数据资源转换为全信息无向图。如图2所示为本发明实施例的合并了3个社交网络数据资源的全信息无向图的示意图,示出了合并表1、表2和表3后生成的全信息无向图。[0122] 阶段二,计算资源因子系数和次数因子系数。资源因子系数的计算过程见表4,次数因子系数的计算过程见表5。[0123][0124][0125] 表4[0126][0127] 表5[0128] 阶段三,计算边的权重、节点间的亲密度和节点的贡献度。边的权重的计算过程见表6,节点A和节点B、节点B和节点F以及节点E和节点F的亲密度的计算过程见表7。[0129][0130][0131] 表6[0132][0133] 表7[0134] 基于以上计算结果分析可知:[0135] 1)节点A与节点B的亲密度为1.985,节点A与节点B的共同邻接点为节点F,节点F对于节点A与节点B的贡献度为0.375;[0136] 2)节点B与节点F的亲密度为2.0431,节点B与节点F的共同邻接点为节点A,由于节点A还和节点D有关系,降低了节点A对于节点B与节点F的贡献度;[0137] 3)对于节点B而言,节点B与节点F的亲密度稍大于节点B与节点A的亲密度,主要因素是节点B与节点F的直接关系权重为0.8645,高于节点B与节点A的0.805;[0138] 4)节点E与节点F的亲密度为0.2484,尽管它们没有直接关系,但它们的共同邻接点B贡献了0.2484的贡献度。[0139] 5)事实上,从这个实施例会发现,对于节点E与节点F而言,除了节点B的贡献以外,由于存在路径:E→D→A→F,因此不能消除节点D或节点A对节点E与节点F的亲密度存在贡献的可能性。本发明的图计算仅考虑一阶邻接,若扩展为二阶邻接模型,节点D与节点A则成为E与F的共同邻接点(二阶邻接),此类问题或将得到解决。[0140] 实施例四:[0141] 本发明以一个真实复杂情形为例,讨论法国马赛一所高中的学生之间的联系和友谊关系,旨在验证方法的有效性。[0142] 本实施例采用2013年12月法国马赛一所高中的学生之间的联系和友谊关系数据集(涉及204个学生)验证本发明所述方法的有效性,该数据经过简单预处理后,包括以下部分:[0143] 1、集合N1:根据一段时间内学生与学生之间相处的时间长度,换算得到学生与学生之间的直接联系次数,将直接联系次数作为集合N1中的学生与学生之间的关系次数;[0144] 2、集合N2:Facebook好友关系,统计每个学生的Facebook好友关系的出现次数,作为集合N2中的学生与学生之间的关系次数;[0145] 3、集合M:可靠的现实好友关系,共涉及134名学生之间的406对好友关系(社交网络数据资源中包含699对有向关系,因本发明仅考虑无向关系,合并后为406对)。[0146] 集合N1和集合N2为本实施例的2个不同的社交网络数据资源,集合N1和集合N2中的学生为本实施例的社交主体。本实施例将集合N1和集合N2作为输入,输出这204名学生之间的亲密度信息,列举部分结果如表8所示:[0147][0148][0149] 表8[0150] 同时,将集合M作为参考依据,通过已然观测到的真实好友关系,评估他们之间的亲密度估计效果,并分别绘制两个箱线图。如图3所示为本发明实施例的亲密度估计值箱线图,图3中左侧的箱线图对应箱线图1,右侧的箱线图对应箱线图2。[0151] 箱线图1:集合M中确定存在好友关系的学生构成了406个关系对,但由于集合M中的部分学生未出现在集合N1和集合N2中,无法根据本发明的方法预测亲密度,排除未出现在集合N1和集合N2的学生后,剩余186个关系对,存在亲密度估计值的有69个关系对,基于这69个关系对的亲密度估计值绘制箱线图1;[0152] 箱线图2:排除集合M中确定存在好友关系的学生后,现实中不存在好友关系的学生之间构成了20520个关系对,存在亲密度估计值的有8152个关系对,基于这8152个关系对的亲密度估计值绘制箱线图2。[0153] 如表9所示,示出了箱线图1和箱线图2中对应的最小值、0.25分位数、中位数、0.75分位数和最大值对应的亲密度估计值。[0154]分位数 箱线图1 箱线图2最小值 0.015316455 0.0113257640.25分位数 0.036420259 0.031510914中位数 0.065819748 0.0762619350.75分位数 0.330660609 0.201446023最大值 0.861516722 1.4236327[0155] 表9[0156] 从图3与表9可以得出以下结论:[0157] 对于最小值、0.25分位数和中位数而言,好友之间(即集合M中存在的好友关系)与非好友之间(即集合M中不存在的好友关系)的亲密度相差不大,好友之间的0.75分位数略高于非好友之间,但最大值明显低于非好友之间;[0158] 左右两个箱线图的中位数以上部分,好友之间的分布明显高于非好友之间的分布,这说明,确定好友关系的亲密度,由于某些原因,比如电话沟通或Facebook好友,使其亲密度的预测值得到快速提升与鉴别,说明了本发明的确认亲密度的方法考虑资源因子系数和次数因子系数的有效性。[0159] 如图4所示为本发明实施例的好友关系下的亲密度与邻接节点个数关系,如图5所示为本发明实施例的非好友关系下的亲密度与邻接节点个数关系。图4和图5中的相关系数用来评估邻接节点数量与亲密度的线性相关性,考虑的是存在好友关系的个体,当邻接节点增多时,估计的亲密度的变化趋势,图4和图5中的圆点为好友关系,圆点的横坐标为好友关系包含的邻接节点个数,圆点的纵坐标为亲密度的估计值。从图4和图5中能够发现,好友之间的亲密度估计值随着好友关系中的邻接节点个数个增加而增长,说明了本发明的确认亲密度的方法考虑的一阶邻接节点的合理性。[0160] 实施例五:[0161] 本发明还提供一种确定用户亲密度的装置,如图6所示,该装置包括处理器601、存储器602、总线603、以及存储在存储器602中并可在处理器601上运行的计算机程序,处理器601包括一个或一个以上处理核心,存储器602通过总线603与处理器601相连,存储器602用于存储程序指令,处理器执行计算机程序时实现本发明的上述方法实施例中的步骤。[0162] 进一步地,作为一个可执行方案,确定用户亲密度的装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。系统/电子设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述系统/电子设备的组成结构仅仅是系统/电子设备的示例,并不构成对系统/电子设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件。例如系统/电子设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。[0163] 进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field‑ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是系统/电子设备的控制中心,利用各种接口和线路连接整个系统/电子设备的各个部分。[0164] 存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现系统/电子设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。[0165] 实施例六:[0166] 本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现本发明实施例上述方法的步骤。[0167] 系统/电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read‑OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。[0168] 尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
专利地区:福建
专利申请日期:2022-05-25
专利公开日期:2024-07-26
专利公告号:CN115017155B