专利名称:一种基于聚类算法的网络信息处理方法
专利类型:发明专利
专利申请号:CN202110201619.9
专利申请(专利权)人:广东精点数据科技股份有限公司
权利人地址:广东省广州市天河区天河北路906号高科大厦A幢第7层701室
专利发明(设计)人:许飞月,李青海,简宋全,邹立斌,巫泽鑫,秦于钦,王平,张清瑞
专利摘要:本发明公开了一种基于聚类算法的网络信息处理方法,涉及信息处理技术领域。具体包括获取初始数据,设定所述初始数据的中心点,根据所述中心点将初始数据划分成至少两个初始簇;计算各初始簇中的数据与该初始簇的中心点之间的距离并形成距离矩阵,根据该距离矩阵获取数据相似性的权重;根据数据相似性的权重对参数进行调整和数据更新并生成新的簇。旨在自动对不完整的多数据形态信息将信息进行分类,以将缺少部分信息的同类数据融合在一起,以得到包含所有信息的数据,方便信息提取和应用。
主权利要求:
1.一种基于聚类算法的网络信息处理方法,其特征在于,包括获取初始数据,设定所述初始数据的中心点,根据所述中心点将初始数据划分成至少两个初始簇;
计算各初始簇中的数据与该初始簇的中心点之间的距离并形成距离矩阵,根据该距离矩阵获取数据相似性的权重;计算各初始簇中的数据与该初始簇的中心点之间的距离公式为:其中,nk为簇Rk中数据对象数量,nj为簇Rj中数据对象数量,v表示初始数据中存在的数据形态, 为第v个数据形态中的第k个中心点, 为第v个数据形态中的第i个对象;
根据数据相似性的权重对参数进行调整和数据更新并生成新的簇;
对数据更新包括:
获取各个簇中数据对象与中心点之间的最小距离,其中最小距离minD(x)的计算公式为:其中, 为第v个数据形态中第i个对象;并在距离矩阵中取选中心点最大和最小的距离,根据各个簇中数据对象与中心点之间的最小距离以及在距离矩阵中取选中心点最大和最小的距离对中心点进行调整和数据更新;
数据更新的步骤包括:
定义DM为距离矩阵,距离矩阵中最大距离为max(DM),距离矩阵中最小距离为min(DM),X为新数据;
当minD(x)>max(DM)时,生成只含有x的新簇,x即为新簇的中心点;
当minD(x)mix(DM),x被划分到距离其最近的簇中。
2.如权利要求1所述的基于聚类算法的网络信息处理方法,其特征在于,获取初始数据时还包括判断所述初始数据是否包括类型标签,当所述初始数据包括类型标签时,对应获取与所述类型标签相对应聚类模式对初始出具进行初始簇划分。
3.如权利要求2所述的基于聚类算法的网络信息处理方法,其特征在于,当所述初始数据不包括类型标签时,获取初始数据中至少两个任意对象并根据选取的对象类型获取对应的聚类模式对初始数据进行初始簇划分。
4.如权利要求1所述的基于聚类算法的网络信息处理方法,其特征在于,数据相似性权重 的计算公式为:其中, 为中间变量,exp:为指数函数。
5.如权利要求1所述的基于聚类算法的网络信息处理方法,其特征在于,还包括判断信息的处理方法的纯度值或熵值是否满足预设条件,当数据增量更新的纯度值或熵满足预设条件时,保存结果。
6.如权利要求1所述的基于聚类算法的网络信息处理方法,其特征在于,信息的处理方法的纯度值Purity计算公式为:其中,ωk代表第k个聚类簇,N代表数据形态信息总数,Cj代表第j个初始数据。
7.如权利要求1所述的基于聚类算法的网络信息处理方法,其特征在于,信息的处理方法的熵值Entropy计算公式为:其中,mi是簇i中所有的成员数量,mij是簇i中的成员属于类j的个数,m是表示数据形态信息的对象总数。 说明书 : 一种基于聚类算法的网络信息处理方法技术领域[0001] 本发明涉及信息处理技术领域,特别涉及一种基于聚类算法的网络信息处理方法。背景技术[0002] 随着网络时代的发展,网络上的信息在以一个越来越快速的速度增加,挖掘信息背后的含义对于企业愈发重要,企业需要从这些海量的信息中提炼出对企业发展的关键信息以使企业健康发展。[0003] 在这些海量的网络信息中,多数据形态信息这一能够从不同方面描述对象的数据越来越常见,比如一则新闻可以用多种不同国家的语言发表或一个网页需要用图片、文本、超链接和视频多种数据形态等进行展示等。多数据形态数据可以从不同侧面反映数据的不同特征,融合多数据形态数据的各个数据形态特征、互补学习隐藏在不同数据形态中的信息可以有效完成相关数据分析任务。[0004] 由于在实际生活中多数据形态数据经常会丢失特征,如何从这些不完整的多数据形态信息中提取全部内容,成为了亟待解决的技术难题。发明内容[0005] 本发明的主要目的是提供一种基于聚类算法的网络信息处理方法,旨在自动对不完整的多数据形态信息进行分类,将信息进行分类,以将缺少部分信息的同类数据融合在一起,以得到包含所有信息的数据,方便信息提取和应用。[0006] 为了实现上述目的,本发明提出一种基于聚类算法的网络信息处理方法,包括[0007] 获取初始数据,设定所述初始数据的中心点,根据所述中心点将初始数据划分成至少两个初始簇;[0008] 计算各初始簇中的数据与该初始簇的中心点之间的距离并形成距离矩阵,根据该距离矩阵获取数据相似性的权重;[0009] 根据数据相似性的权重对参数进行调整和数据更新并生成新的簇。[0010] 在本申请的一实施例中,获取初始数据时还包括判断所述初始数据是否包括类型标签,当所述初始数据包括类型标签时,对应获取与所述类型标签相对应聚类模式对初始出具进行初始簇划分。[0011] 在本申请的一实施例中,当所述初始数据不包括类型标签时,获取初始数据中至少两个任意对象并根据选取的对象类型获取对应的聚类模式对初始数据进行初始簇划分。[0012] 在本申请的一实施例中,计算各初始簇中的数据与该初始簇的中心点之间的距离公式为:[0013][0014] 其中,nk为簇Rk中数据对象数量,nj为簇Rj中数据对象数量,v表示初始数据中存在的数据形态, 为第v个数据形态中的第k个中心点, 为第v个数据形态中的第i个对象。[0015] 在本申请的一实施例中,数据相似性权重 的计算公式为:[0016][0017][0018] 其中, 为中间变量,exp:为指数函数。[0019] 在本申请的一实施例中,对数据更新包括:[0020] 获取各个簇中数据对象与中心点之间的最小距离,其中最小距离minD(x)的计算公式为:[0021][0022] 其中, 为第v个数据形态中第i个对象;并在距离矩阵中取选中心点最大和最小的距离,根据各个簇中数据对象与中心点之间的最小距离以及在距离矩阵中取选中心点最大和最小的距离对中心点进行调整和数据更新。[0023] 在本申请的一实施例中,中心点调整和数据更新的步骤包括:[0024] 定义DM为距离矩阵,距离矩阵中最大距离为max(DM),距离矩阵中最小距离为min(DM),X为新数据;[0025] 当minD(x)>max(DM)时,生成只含有x的新簇,x即为新簇的中心点;[0026] 当minD(x)mix(DM),x被划分到距离其最近的簇中。[0027] 在本申请的一实施例中,还包括判断信息的处理方法的纯度值或熵值是否满足预设条件,当数据增量更新的纯度值或熵满足预设条件时,保存结果。[0028] 在本申请的一实施例中,信息的处理方法的纯度值Purity计算公式为:[0029][0030] 其中,ωk代表第k个聚类簇,N代表数据形态信息总数,Cj代表第j个初始数据。[0031] 在本申请的一实施例中,信息的处理方法的熵值Entropy计算公式为:[0032][0033][0034][0035] 其中,mi是簇i中所有的成员数量,mij是簇i中的成员属于类j的个数,m是表示数据形态信息的对象总数。[0036] 采用上述技术方案具有以下优点:可自动对不完整的多数据形态信息进行分类,同时提高了分类精度,降低了成本的投入。附图说明[0037] 下面结合具体实施例和附图对本发明进行详细的说明,其中:[0038] 图1为本发明第一种实施例的流程示意图。具体实施方式[0039] 为了使本发明的目的、技术方案及优点更加清楚,以下结合附图和实施例对本发明进行详细的说明。应当理解,以下具体实施例仅用以解释本发明,并不对本发明构成限制。[0040] 如图1所示,本发明提出一种基于聚类算法的网络信息处理方法,包括S10:获取初始数据,设定所述初始数据的中心点,根据所述中心点将初始数据划分成至少两个初始簇;[0041] S20:计算各初始簇中的数据与该初始簇的中心点之间的距离并形成距离矩阵,根据该距离矩阵获取数据相似性的权重;[0042] S30:根据数据相似性的权重对参数进行调整和数据更新并生成新的簇。[0043] 具体的,初始数据的类型包括图片、文本、超链接、视频、音频,也可以是以上数据的任意组合。[0044] 首先获取需要进行聚类的初始数据,获取初始数据后,确定初始数据中的中心点。具体方法为在初始数据中任意选取至少两个初始数据中的对象作为中心点,将初始数据中除中心点以外的其他数据全部包含于以中心点为中心的初始簇中。[0045] 完成了初始簇的划分后,计算各个簇中的对象到中心点之间的距离,并形成距离矩阵,生成距离矩阵后可知初始数据在各簇中的分布情况。根据生成的距离矩阵计算各个簇中对象之间的相似性的权重,判断各个簇中数据的相似度是否满足预设的条件,当满足预设的条件是,无需调整中心点的位置,当各个簇中的数据的相似度不满足预设的条件时,调整中心节点的位置并重新将各个簇中的对象参照新的中心点进行重新划分。[0046] 采用上述技术方案,可自动对不完整的多数据形态信息进行分类,同时提高了分类精度,降低了成本的投入。[0047] 在本申请的一实施例中,获取初始数据时还包括判断所述初始数据是否包括类型标签,当所述初始数据包括类型标签时,对应获取与所述类型标签相对应聚类模式对初始出具进行初始簇划分。[0048] 具体的,在获取初始数据之前,先检测获取的初始数据中部是否包含类型标签,其中数据的类型包括:图片、文本、超链接、视频以及语音等。当获取的初始数据中含有图片标签,则将获取的初始数据采用图片类型的聚类模式进行聚类。当初始数据中含有文本标签时,则将获取的初始数据采用文本类型的聚类模式进行聚类。[0049] 采用上述技术方案,对在获取初始数据之前,先对初始数据进行类型标签检测,获取标签后采用对应标签的类型对初始数据进行聚类,提高了聚类的效率,同时保证了聚类的精度。[0050] 在本申请的一实施例中,当所述初始数据不包括类型标签时,获取初始数据中至少两个任意对象并根据选取的对象类型获取对应的聚类模式对初始数据进行初始簇划分。[0051] 具体的,当初始数据中不包括类型标签时,即无法判断该初始数据属于哪一类具体类型时,获取初始数据中至少两个任意的对象,判断该任意的对象属于哪一类型。当随机获取的对象是文本类型是,采用文本类型的聚类模式,当随机获取的对象是图片类型的,则采用图片类型的聚类模式,从而保证采用的聚类模式与获取的初始数据至少处于部分统一状态,提高了聚类的效率同时也保证在聚类过程中保持较高的聚类精度。[0052] 在本申请的一实施例中,计算各初始簇中的数据与该初始簇的中心点之间的距离公式为:[0053][0054] 其中,nk为簇Rk中数据对象数量,nj为簇Rj中数据对象数量,v表示初始数据中存在的数据形态, 为第v个数据形态中的第k个中心点, 为第v个数据形态中的第i个对象。[0055] 采用上述公式计算初始簇中的数据与该初始簇的中心点之间的距离,提高了距离计算的精度,减少了计算量,提高了计算效率。[0056] 在本申请的一实施例中,数据相似性权重 的计算公式为:[0057][0058][0059] 其中, 为中间变量,exp:为指数函数。[0060] 采用上述技术方案,通过上述公式计算数据相似性的权重,减少了计算量,提高的计算效率,提高了聚类精度。[0061] 在本申请的一实施例中,对数据更新包括:[0062] 获取各个簇中数据对象与中心点之间的最小距离,其中最小距离minD(x)的计算公式为:[0063][0064] 其中, 为第v个数据形态中第i个对象;并在距离矩阵中取选中心点最大和最小的距离,根据各个簇中数据对象与中心点之间的最小距离以及在距离矩阵中取选中心点最大和最小的距离对中心点进行调整和数据更新。[0065] 采用上述技术方案,在对初始簇进行更新前,先计算新获取的数据与各个簇中心点之间的距离,并通过与各个簇自身最大值或最小值进行判断,提高了对新获取数据划分簇的准确性,采用上述计算方法,减少了计算过程,提高了计算效率。[0066] 在本申请的一实施例中,数据更新的步骤包括:[0067] 定义DM为距离矩阵,距离矩阵中最大距离为max(DM),距离矩阵中最小距离为min(DM),X为新数据;[0068] 当minD(x)>max(DM)时,生成只含有x的新簇,x即为新簇的中心点;[0069] 当minD(x)mix(DM),x被划分到距离其最近的簇中。[0070] 采用上述技术方案,当minD(x)>max(DM)时表示minD(x)位于DM矩阵的外,为保证数据的合理划分,重新生成只含X的新簇,提高了对初始数据划分的精度。当minD(x)mix(DM),x被划分到距离其最近的簇中,采用上述技术方案,保证新数据被划分至合理簇中,提高了聚类精度。[0071] 在本申请的一实施例中,还包括判断信息的处理方法的纯度值或熵值是否满足预设条件,当数据增量更新的纯度值或熵满足预设条件时,保存结果。[0072] 在本申请的一实施例中,信息的处理方法的纯度值Purity计算公式为:[0073][0074] 其中,ωk代表第k个聚类簇,N代表数据形态信息总数,Cj代表第j个初始数据。[0075] 采用上述技术方案,提高了处理方法的精确度。[0076] 在本申请的一实施例中,信息的处理方法的熵值Entropy计算公式为:[0077][0078][0079][0080] 其中,mi是簇i中所有的成员数量,mij是簇i中的成员属于类j的个数,m是表示数据形态信息的对象总数。[0081] 采用上述技术方案,提高了处理方法的精确度。[0082] 以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
专利地区:广东
专利申请日期:2021-02-23
专利公开日期:2024-07-26
专利公告号:CN114970649B