可左右滑动选省市

数据库管理方法及装置、计算机可读存储介质、电子设备

更新时间:2024-07-01
数据库管理方法及装置、计算机可读存储介质、电子设备 专利申请类型:发明专利;
源自:北京高价值专利检索信息库;

专利名称:数据库管理方法及装置、计算机可读存储介质、电子设备

专利类型:发明专利

专利申请号:CN202010504496.1

专利申请(专利权)人:京东科技控股股份有限公司
权利人地址:北京市大兴区北京经济技术开发区科创十一街18号C座2层221室

专利发明(设计)人:刘士超

专利摘要:本发明实施例是关于一种数据库管理方法及装置、计算机可读存储介质、电子设备,涉及计算机技术领域,该数据库管理方法包括:获取目标数据库的库目录以及与库目录对应的根目录;计算各根目录的数量以及各根目录的容量,并计算与各根目录对应的子目录的数量以及各子目录的容量;根据库目录、根目录、各根目录的数量、各根目录的容量、各子目录的数量以及各子目录的容量生成目标数据库的数据库表;将目标数据库的数据库表存储至关系型数据库中,以便于用户通过正则表达式匹配的方式对目标数据库的数据库表进行查看。本发明实施例解决了现有技术中由于当前主流开源大数据管理平台都没有对数据库表格的使用容量进行统计的问题。

主权利要求:
1.一种数据库管理方法,其特征在于,包括:
获取目标数据库的库目录以及与所述库目录对应的根目录,所述目标数据库为Hive数据库和/或Hbase数据库;
计算各所述根目录的数量以及各所述根目录的容量,并计算与各所述根目录对应的子目录的数量以及各所述子目录的容量;
根据所述库目录、所述根目录、各所述根目录的数量、各所述根目录的容量、各所述子目录的数量以及各所述子目录的容量生成所述目标数据库的数据库表;
将所述目标数据库的数据库表存储至关系型数据库中,以便于用户通过正则表达式匹配的方式对所述目标数据库的数据库表进行查看;
所述方法还包括:根据所述目标数据库的数据库表计算所述目标数据库的总容量;
根据所述目标数据库的总容量计算所述目标数据库在分布式系统中的存储占比,并判断所述存储占比是否大于第一预设阈值,所述第一预设阈值为根据一段时间内所述目标数据库每一天的存储占比的平均值确定;
在确定所述存储占比大于第一预设阈值时,根据所述目标数据库的数据库表对产生异常数据的根目录和/或子目录进行定位;
获取所述产生异常数据的根目录和/或子目录下对应的表数据,并根据所述表数据对产生异常数据的原因进行分析。
2.根据权利要求1所述的数据库管理方法,其特征在于,所述数据库管理方法还包括:判断所述存储占比是否大于第二预设阈值;
在确定所述存储占比大于第二预设阈值时,根据所述目标数据库的数据库表生成与所述目标数据库对应的告警信息;
将所述告警信息存储至目标数据库中,以便于用户根据所述告警信息对所述分布式系统进行扩容。
3.根据权利要求1所述的数据库管理方法,其特征在于,将所述目标数据库的数据库表存储至关系型数据库中包括:根据所述目标数据库的数据库表以及所述目标数据库的令牌生成数据存储请求;
将所述数据存储请求发送至所述关系型数据库中,以使得所述关系型数据库在确认所述令牌通过校验时,对所述数据库表进行存储。
4.根据权利要求1所述的数据库管理方法,其特征在于,获取目标数据库的库目录以及与所述库目录对应的根目录包括:间隔预设时间,定时的通过统计脚本获取目标数据库的库目录以及与所述库目录对应的根目录。
5.一种数据库管理装置,其特征在于,包括:
目录获取模块,用于获取目标数据库的库目录以及与所述库目录对应的根目录,所述目标数据库为Hive数据库和/或Hbase数据库;
第一计算模块,用于计算各所述根目录的数量以及各所述根目录的容量,并计算与各所述根目录对应的子目录的数量以及各所述子目录的容量;
数据库表生成模块,用于根据所述库目录、所述根目录、各所述根目录的数量、各所述根目录的容量、各所述子目录的数量以及各所述子目录的容量生成所述目标数据库的数据库表;
数据库表存储模块,用于将所述目标数据库的数据库表存储至关系型数据库中,以便于用户通过正则表达式匹配的方式对所述目标数据库的数据库表进行查看;
所述数据库管理装置还包括:
第二计算模块,可以用于根据所述目标数据库的数据库表计算所述目标数据库的总容量;
第三计算模块,可以用于根据所述目标数据库的总容量计算所述目标数据库在分布式系统中的存储占比,并判断所述存储占比是否大于第一预设阈值;
目录定位模块,可以用于在确定所述存储占比大于第一预设阈值时,根据所述目标数据库的数据库表对产生异常数据的根目录和/或子目录进行定位,所述第一预设阈值为根据一段时间内所述目标数据库每一天的存储占比的平均值确定;
异常原因分析模块,可以用于获取所述产生异常数据的根目录和/或子目录下对应的表数据,并根据所述表数据对产生异常数据的原因进行分析。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1‑4任一项所述的数据库管理方法。
7.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1‑4任一项所述的数据库管理方法。 说明书 : 数据库管理方法及装置、计算机可读存储介质、电子设备技术领域[0001] 本发明实施例涉及计算机技术领域,具体而言,涉及一种数据库管理方法、数据库管理装置、计算机可读存储介质以及电子设备。背景技术[0002] 为了合理利用机器资源,大数据集群都会根据预算创建,很多都是公用集群,并且资源使用比较充足,如果某一些数据库表格突然增加使用容量,会造成整体使用率变大,甚至影响其他团队的写入,导致任务执行失败,造成事故。[0003] 为了解决上述问题,需要及时的统计各数据库表格的使用容量,并在使用容量发生异常时,及时的对该集群进行处理。[0004] 但是,当前主流开源大数据管理平台都没有对数据库表格的使用容量进行统计功能。[0005] 因此,需要提供一种新的数据库管理方法及装置。[0006] 需要说明的是,在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。发明内容[0007] 本发明的目的在于提供一种数据库管理方法、数据库管理装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的不能对数据库表格的使用容量进行统计的问题。[0008] 根据本公开的一个方面,提供一种数据库管理方法,包括:[0009] 获取目标数据库的库目录以及与所述库目录对应的根目录;[0010] 计算各所述根目录的数量以及各所述根目录的容量,并计算与各所述根目录对应的子目录的数量以及各所述子目录的容量;[0011] 根据所述库目录、所述根目录、各所述根目录的数量、各所述根目录的容量、各所述子目录的数量以及各所述子目录的容量生成所述目标数据库的数据库表;[0012] 将所述目标数据库的数据库表存储至关系型数据库中,以便于用户通过正则表达式匹配的方式对所述目标数据库的数据库表进行查看。[0013] 在本公开的一种示例性实施例中,所述数据库管理方法还包括:[0014] 根据所述目标数据库的数据库表计算所述目标数据库的总容量;[0015] 根据所述目标数据库的总容量计算所述目标数据库在分布式系统中的存储占比,并判断所述存储占比是否大于第一预设阈值;[0016] 在确定所述存储占比大于第一预设阈值时,根据所述目标数据库的数据库表对产生异常数据的根目录和/或子目录进行定位。[0017] 在本公开的一种示例性实施例中,所述数据库管理方法还包括:[0018] 获取所述产生异常数据的根目录和/或子目录下对应的表数据,并根据所述表数据对产生异常数据的原因进行分析。[0019] 在本公开的一种示例性实施例中,所述数据库管理方法还包括:[0020] 判断所述存储占比是否大于第二预设阈值;[0021] 在确定所述存储占比大于第二预设阈值时,根据所述目标数据库的数据库表生成与所述目标数据库对应的告警信息;[0022] 将所述告警信息存储至目标数据库中,以便于用户根据所述告警信息对所述分布式系统进行扩容。[0023] 在本公开的一种示例性实施例中,将所述目标数据库的数据库表存储至关系型数据库中包括:[0024] 根据所述目标数据库的数据库表以及所述目标数据库的令牌生成数据存储请求;[0025] 将所述数据存储请求发送至所述关系型数据库中,以使得所述关系型数据库在确认所述令牌通过校验时,对所述数据库表进行存储。[0026] 在本公开的一种示例性实施例中,获取目标数据库的库目录以及与所述库目录对应的根目录包括:[0027] 间隔预设时间,定时的通过统计脚本获取目标数据库的库目录以及与所述库目录对应的根目录。[0028] 在本公开的一种示例性实施例中,所述目标数据库为Hive数据库和/或Hbase数据库。[0029] 根据本公开的一个方面,提供一种数据库管理装置,包括:[0030] 目录获取模块,用于获取目标数据库的库目录以及与所述库目录对应的根目录;[0031] 第一计算模块,用于计算各所述根目录的数量以及各所述根目录的容量,并计算与各所述根目录对应的子目录的数量以及各所述子目录的容量;[0032] 数据库表生成模块,用于根据所述库目录、所述根目录、各所述根目录的数量、各所述根目录的容量、各所述子目录的数量以及各所述子目录的容量生成所述目标数据库的数据库表;[0033] 数据库表存储模块,用于将所述目标数据库的数据库表存储至关系型数据库中,以便于用户通过正则表达式匹配的方式对所述目标数据库的数据库表进行查看。[0034] 根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据库管理方法。[0035] 根据本公开的一个方面,提供一种电子设备,包括:[0036] 处理器;以及[0037] 存储器,用于存储所述处理器的可执行指令;[0038] 其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据库管理方法。[0039] 本发明实施例提供的一种数据库管理方法,一方面,通过获取目标数据库的库目录以及与库目录对应的根目录;并计算各根目录的数量以及各根目录的容量,并计算与各根目录对应的子目录的数量以及各子目录的容量;然后根据库目录、根目录、各根目录的数量、各根目录的容量、各子目录的数量以及各子目录的容量生成目标数据库的数据库表;最后将目标数据库的数据库表存储至关系型数据库中,以便于用户对目标数据库的数据库表进行查看,解决了现有技术中由于当前主流开源大数据管理平台都没有对数据库表格的使用容量进行统计的问题;另一方面,通过将目标数据库的数据库表存储至关系型数据库中,使得用户可以通过正则表达式匹配的方式对目标数据库的数据库表进行查看,提高查看速度,进而提升了用户体验;再一方面,由于数据库表中包括了目标数据库的库目录、根目录、各根目录的数量、各根目录的容量、各子目录的数量以及各子目录的容量,使得用户可以直观的看到各个目录的容量使用情况,进而便于对容量过大或者过小的目录进行定位。[0040] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。附图说明[0041] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0042] 图1示意性示出根据本发明示例实施例的一种数据库管理方法的流程图。[0043] 图2示意性示出根据本发明示例实施例的另一种数据库管理方法的流程图。[0044] 图3示意性示出根据本发明示例实施例的另一种数据库管理方法的流程图。[0045] 图4示意性示出根据本发明示例实施例的另一种数据库管理方法的流程图。[0046] 图5示意性示出根据本发明示例实施例的一种库数量变化趋势图。[0047] 图6示意性示出根据本发明示例实施例的一种表数量变化趋势图。[0048] 图7示意性示出根据本发明示例实施例的一种表容量变化趋势图。[0049] 图8示意性示出根据本发明示例实施例的一种数据库管理装置的框图。[0050] 图9示意性示出根据本发明示例实施例的一种用于实现上述数据库管理方法的电子设备。具体实施方式[0051] 现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。[0052] 此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。[0053] 本示例实施方式中首先提供了一种数据库管理方法,该方法可以运行于终端设备、服务器、服务器集群或云服务器等;当然,本领域技术人员也可以根据需求在其他平台运行本发明的方法,本示例性实施例中对此不做特殊限定。参考图1所示,该数据库管理方法可以包括以下步骤:[0054] 步骤S110.获取目标数据库的库目录以及与所述库目录对应的根目录。[0055] 步骤S120.计算各所述根目录的数量以及各所述根目录的容量,并计算与各所述根目录对应的子目录的数量以及各所述子目录的容量。[0056] 步骤S130.根据所述库目录、所述根目录、各所述根目录的数量、各所述根目录的容量、各所述子目录的数量以及各所述子目录的容量生成所述目标数据库的数据库表。[0057] 步骤S140.将所述目标数据库的数据库表存储至关系型数据库中,以便于用户通过正则表达式匹配的方式对所述目标数据库的数据库表进行查看。[0058] 上述数据库管理方法中,一方面,通过获取目标数据库的库目录以及与库目录对应的根目录;并计算各根目录的数量以及各根目录的容量,并计算与各根目录对应的子目录的数量以及各子目录的容量;然后根据库目录、根目录、各根目录的数量、各根目录的容量、各子目录的数量以及各子目录的容量生成目标数据库的数据库表;最后将目标数据库的数据库表存储至关系型数据库中,以便于用户对目标数据库的数据库表进行查看,解决了现有技术中由于当前主流开源大数据管理平台都没有对数据库表格的使用容量进行统计的问题;另一方面,通过将目标数据库的数据库表存储至关系型数据库中,使得用户可以通过正则表达式匹配的方式对目标数据库的数据库表进行查看,提高查看速度,进而提升了用户体验;再一方面,由于数据库表中包括了目标数据库的库目录、根目录、各根目录的数量、各根目录的容量、各子目录的数量以及各子目录的容量,使得用户可以直观的看到各个目录的容量使用情况,进而便于对容量过大或者过小的目录进行定位。[0059] 以下,将结合附图对本发明示例实施例数据库管理方法中涉及的各步骤进行详细的解释以及说明。[0060] 首先,对本发明示例实施例中涉及到的名词进行解释以及说明。[0061] Hbase,是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Google论文“Bigtable:一个结构化数据的分布式系统”。就像Bigtable利用了Google文件系统(FileSystem)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目,HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,另一个不同的是HBase基于列的而不是基于行的模式。[0062] Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化以及加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序,Hive是十分适合数据仓库的统计分析和Windows注册表文件。[0063] 并且,Hbase和Hive都是基于HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)存储的,都有库(Namespace,Hbase以及Hive中的命名空间,是表的合集)、Table(表,Hbase以及Hive中存储数据的结构),对应到HDFS上,则分别是不同的存储目录。[0064] 其次,对本发明示例实施例的发明目的进行解释以及说明。具体的,由于Hbase和Hive数据库表格没有变化汇总统计的开源产品,当大数据集群出现容量大增时,无法判断是哪个库或哪个表突增导致的,不方便快速定位问题,很可能会造成业务受到影响。本案收集了Hbase、Hive等基于HDFS储的数据库每天的库表容量、数量、文件数量,方便查看变化趋势,方便确定大表,根据文件数量,也便于确定是否需要优化存储。根据平台设置的阈值,库表容量出现突增突降时,也会主动通知管理员关注是否异常,进而可以及时的发现问题,避免业务受到影响。[0065] 以下,将对步骤S110‑步骤S140进行解释以及说明。[0066] 在步骤S110中,获取目标数据库的库目录以及与所述库目录对应的根目录。[0067] 在本示例实施例中,上述目标数据库可以是Hive数据库以及Hbase数据库,也可以是其他类型的基于HDFS存储的数据库,本示例对此不做特殊限制。具体的,可以通过间隔预设时间,定时的通过统计脚本获取目标数据库的库目录以及与所述库目录对应的根目录;其中,该预设时间例如可以是一天,也可以是12小时。[0068] 譬如,数据管理平台可以通过内置统计脚本,然后在每一天的同一个时间段定时的触发该统计脚本执行统计任务,统计脚本中会根据要统计的集群信息,去Hbase和/或Hive任意一台机器执行统计任务,获取基于HDFS存储的库目录以及与该库目录对应的根目录。其中,库目录例如可以是/hbase/data,或者/hive/data,与库目录对应的根目录例如可以是/hbase/data/default以及/hbase/data/test1等等。当然,也可以包括其他形式的根目录,本示例对此不做特殊限制。[0069] 在步骤S120中,计算各所述根目录的数量以及各所述根目录的容量,并计算与各所述根目录对应的子目录的数量以及各所述子目录的容量。[0070] 在本示例实施例中,当获取到上述库目录以及与库目录对应的根目录以后,可以通过上述统计脚本去统计各库目录下的根目录的数量,以及根目录下的子目录的数量,然后在通过du命令统计每个根目录的容量,以及与根目录对应的子目录的容量,其中,容量是指已经使用了的容量。[0071] 例如,Hbase存储在HDFS上面的目录为/hbase/data,这里目录下存储的就是Hbase的库表,则统计脚本会去统计该目录下所有目录的数量,使用du命令统计每个目录的容量,这些数据就是Hbase库的数量和每个库的容量,例如/hbase/data下面有两个目录,default和test1,则这两个目录为当前Hbase数据库下面的两个库名,脚本通过Hadoop命令du统计这两个目录的容量大小。统计完库数量和容量大小后,脚本会再分别统计每个库目录下的目录数量、容量,则是这个库下面的表数量和容量,统计方法同样是使用Hadoop命令,计算目录count(数量),du计算容量大小,例如test1目录下,存在100个目录,说明Hbase数据库中,test1库下存在100个表,分别du计算每个表的容量大小。每个库表下面的文件数量,是通过Hadoop的count参数获取。[0072] 在步骤S130中,根据所述库目录、所述根目录、各所述根目录的数量、各所述根目录的容量、各所述子目录的数量以及各所述子目录的容量生成所述目标数据库的数据库表。[0073] 在本示例实施例中,当得到上述库目录、根目录、各根目录的数量、各根目录的容量、各子目录的数量以及各子目录的容量以后,可以根据库目录、根目录、各根目录的数量、各根目录的容量、各子目录的数量以及各子目录的容量生成该目标数据库的数据库表。通过该方式,可以迅速的定位哪个库、哪个表突增突降,或者占用量的大小,文件数的多少,方便业务及时调整,合理使用Hbase和Hive服务。[0074] 在步骤S140中,将所述目标数据库的数据库表存储至关系型数据库中,以便于用户通过正则表达式匹配的方式对所述目标数据库的数据库表进行查看。[0075] 在本示例实施例中,首先,将目标数据库的数据库表存储至关系型数据库中。其中,将目标数据库的数据库表存储至关系型数据库中可以包括:首先,根据所述目标数据库的数据库表以及所述目标数据库的令牌生成数据存储请求;其次,将所述数据存储请求发送至所述关系型数据库中,以使得所述关系型数据库在确认所述令牌通过校验时,对所述数据库表进行存储。其中,上述令牌是关系型数据库在对目标数据库进行认证以后,提供给目标数据库的。因此,可以根据令牌以及数据库表生成数据存储请求,当关系型数据库接收到该数据存储请求以后,可以在令牌校验通过以后,对该数据库表进行存储;并且,在该关系型数据库中,存储的键可以是目标数据库的数据库名,值可以是与该目标数据库对应的数据库表。[0076] 其次,当数据库表存储成功以后,当用户需要对目标数据库的数据库表查看时,可以通过正则表达式匹配的方式直接对该目标数据库进行查看;譬如,可以直接通过hbase+data+default的方式对Hbase数据库的data库目录下根目录default下的子目录进行查看;通过该方法,可以提高查看速度。[0077] 图2示意性示出根据本发明示例实施例的另一种数据库管理方法。参考图2所示,该数据库管理方法还可以包括步骤S210‑步骤S230。其中:[0078] 在步骤S210中,根据所述目标数据库的数据库表计算所述目标数据库的总容量。[0079] 在步骤S220中,根据所述目标数据库的总容量计算所述目标数据库在分布式系统中的存储占比,并判断所述存储占比是否大于第一预设阈值。[0080] 在步骤S230中,在确定所述存储占比大于第一预设阈值时,根据所述目标数据库的数据库表对产生异常数据的根目录和/或子目录进行定位。[0081] 以下,将对步骤S210‑步骤S230进行解释以及说明。首先,可以根据目标数据库的数据库表中各目录的容量(根目录的容量以及子目录的容量)计算该目标数据库的总容量,然后根据该目标数据库的总容量(目标数据库已使用的容量)以及分布式系统的总容量(分布式系统总共可以使用的容量)计算该目标数据库在分布式系统中的存储占比,然后判断该存储占比是否大于第一预设阈值;其中,该第一预设阈值可以根据一段时间内该目标数据每一天的存储占比的平均值进行决定;进一步的,如果大于该第一预设阈值,则说明该数据库的数据产生了异常,则可以直接根据数据库表对产生异常数据的根目录和/或子目录进行定位;通过该方法,可以提高定位速度,使得管理人员可以尽快的对异常原因进行分析。[0082] 同时,为了可以进一步的避免由于异常数据对分布式系统产生影响进而影响其他用户的使用,该数据库管理方法还可以包括:获取所述产生异常数据的根目录和/或子目录下对应的表数据,并根据所述表数据对产生异常数据的原因进行分析。其中,如果产生异常数据的原因是因为正常的流量增大进而引起数据激增的话,则可以直接扩容或者不用理会,如果是其他恶意原因,则可以对产生该异常数据的数据生产方采取对应的措施,进而可以提高分布式系统的安全性。[0083] 此处需要补充说明的是,如果存储占比过小,也可以被认为是数据异常,则可以对容量小于一定数值的子目录和/或根目录进行删除,进而避免数据库表中的目录过多进而不便于查看的问题。[0084] 图3示意性示出根据发明示例实施例的另一种数据库管理方法。参考图3所示,该数据库管理方法还可以包括步骤S310‑步骤S330。其中:[0085] 在步骤S310中,判断所述存储占比是否大于第二预设阈值。[0086] 在步骤S320中,在确定所述存储占比大于第二预设阈值时,根据所述目标数据库的数据库表生成与所述目标数据库对应的告警信息。[0087] 在步骤S330中,将所述告警信息存储至目标数据库中,以便于用户根据所述告警信息对所述分布式系统进行扩容。[0088] 以下,将对步骤S310‑步骤S330进行解释以及说明。首先,判断存储占比是否大于第二预设阈值,其中,该第二预设阈值可以是百分之九十,当然也可以是其他数值,可以根据需要自行设置,本示例对此不做特殊限制;其次,如果大于百分之九十,则生成对应的告警信息,进而便于管理人员对分布式系统进行扩容,进而避免影响其他用户的使用;当然,如果介于百分之七十以及百分之九十之间的话,也可以通过黄色进行警戒,管理人员可以根据实际情况进行判断是否需要进行扩容处理。[0089] 以下,结合图4对本发明示例实施例的数据库管理方法进行进一步的解释以及说明。参考图4所示,该数据库管理方法可以包括以下步骤:[0090] 步骤S410,程序内置定时任务,每天执行统计。[0091] 步骤S420,根据统计脚本参数,到指定Hbase、Hive执行统计,存储关系型数据库。具体的,选择一台Hbase或者Hive的客户端机器,执行Hadoop命令统计大小和数量,路径由自研平台记录,提供给统计脚本,例如,Hbase存储在HDFS上面的目录为/hbase/data,这里目录下存储的就是Hbase的库表,则统计脚本会去统计该目录下所有目录的数量,使用du命令统计每个目录的容量这些数据就是Hbase库的数量和每个库的容量,例如/hbase/data下面有两个目录,default和test1,则这两个目录为当前Hbase数据库下面的两个库名,脚本通过Hadoop命令du统计这两个目录的容量大小。统计完库数量和容量大小后,脚本会再分别统计每个库目录下的目录数量、容量,则是这个库下面的表数量和容量,统计方法同样是使用Hadoop命令,计算目录count,du计算容量大小,例如test1目录下,存在100个目录,说明Hbase数据库中,test1库下存在100个表,分别du计算每个表的容量大小。每个库表下面的文件数量,是通过Hadoop的count参数获取。最后,通过自研平台提供的接口,通过token认证方式,传入自研平台数据库中。[0092] 步骤S430,根据条件汇总数据库表信息,以使得用户根据需要进行查看。具体的,用户在查看库表统计信息时,在平台对应的Hbase、Hive等详情页面,点击查看库表统计即可。以Hbase举例,具体展示图可以参考图5所示。其中,图5展示了Hbase下的库数量的趋势图,使得用户可以查看这个仓库容量的变化趋势。[0093] 进一步的,通过点击详情,则可以进入到这个仓库中,查看仓库中所有表的数量、容量大小、文件数量信息。同样,柱状图表示这个仓库下面的表数量变化趋势(具体可以参考图6所示),列表显示当前每个表的详细信息。同样的,点击表名后面的趋势,则可以看到表容量的变化趋势(具体可以参考图7所示)。[0094] 更进一步的,每日收集完库表信息后,自研平台会计算每个库、表的增减量,如果增加量超过平台设置的阈值,则会发送告警信息给管理员,提示注意观察是否有异常。如果表的容量大小近期一直没有变化,可与业务方沟通,是否已经不在使用,是否可以清理,减少仓库中的无用表。[0095] 本发明示例实施例提供的数据库管理方法,至少具有以下优点:[0096] 一方面,通过集群部署时收集的配置信息,如仓库存储在HDFS上的位置,客户端信息等,每天定时通过客户端执行Hadoop命令在配置的存储目录,获取Hbase、Hive库表统计信息,包括容量、数量、文件数量,并存入平台数据库中,方便问题排查,同时,出现突增突降可以触发报警通知。[0097] 另一方面,可以在Hbase和Hive库表使用存储容量报警时,快速判断是哪个库表导致的,或者判断业务是否有很多无用表;同时,也可以方便查看Hbase和Hive的库表容量、数量、文件数变化,方便定位哪个库、哪个表突增突降,或者占用量的大小,文件数的多少,方便业务及时调整,合理使用Hbase和Hive服务。[0098] 再一方面,基于自研大数据管理平台,每天定时执行统计脚本,会到平台上每个Hbase、Hive等基于HDFS存储的数据库统计库表信息,收集信息存入到自研平台的关系型数据库中。[0099] 进一步的,每日统计已有大数据集群的Hbase、Hive的库数量、库容量、表数量、表容量和文件个数,并且可以查看近期的变化趋势,方便排查哪个库、哪个表近期变化较大,方便定位问题。统计时,库名和表名均可以根据正则表达式进行匹配,避免统计大量不重要的库或表,造成统计周期较长的问题。[0100] 本发明示例实施例还提供了一种数据库管理装置。参考图8所示,该数据库管理装置可以包括目录获取模块810、第一计算模块820、数据库表生成模块830以及数据库表存储模块840。其中:[0101] 目录获取模块810可以用于获取目标数据库的库目录以及与所述库目录对应的根目录。[0102] 第一计算模块820可以用于计算各所述根目录的数量以及各所述根目录的容量,并计算与各所述根目录对应的子目录的数量以及各所述子目录的容量。[0103] 数据库表生成模块830可以用于根据所述库目录、所述根目录、各所述根目录的数量、各所述根目录的容量、各所述子目录的数量以及各所述子目录的容量生成所述目标数据库的数据库表。[0104] 数据库表存储模块840可以用于将所述目标数据库的数据库表存储至关系型数据库中,以便于用户通过正则表达式匹配的方式对所述目标数据库的数据库表进行查看。[0105] 在本公开的一种示例性实施例中,所述数据库管理装置还包括:[0106] 第二计算模块,可以用于根据所述目标数据库的数据库表计算所述目标数据库的总容量;[0107] 第三计算模块,可以用于根据所述目标数据库的总容量计算所述目标数据库在分布式系统中的存储占比,并判断所述存储占比是否大于第一预设阈值;[0108] 目录定位模块,可以用于在确定所述存储占比大于第一预设阈值时,根据所述目标数据库的数据库表对产生异常数据的根目录和/或子目录进行定位。[0109] 在本公开的一种示例性实施例中,所述数据库管理装置还包括:[0110] 异常原因分析模块,可以用于获取所述产生异常数据的根目录和/或子目录下对应的表数据,并根据所述表数据对产生异常数据的原因进行分析。[0111] 在本公开的一种示例性实施例中,所述数据库管理装置还包括:[0112] 存储占比判断模块,可以用于判断所述存储占比是否大于第二预设阈值;[0113] 告警信息生成模块,可以用于在确定所述存储占比大于第二预设阈值时,根据所述目标数据库的数据库表生成与所述目标数据库对应的告警信息;[0114] 告警信息存储模块,可以用于将所述告警信息存储至目标数据库中,以便于用户根据所述告警信息对所述分布式系统进行扩容。[0115] 在本公开的一种示例性实施例中,将所述目标数据库的数据库表存储至关系型数据库中包括:[0116] 根据所述目标数据库的数据库表以及所述目标数据库的令牌生成数据存储请求;[0117] 将所述数据存储请求发送至所述关系型数据库中,以使得所述关系型数据库在确认所述令牌通过校验时,对所述数据库表进行存储。[0118] 在本公开的一种示例性实施例中,获取目标数据库的库目录以及与所述库目录对应的根目录包括:[0119] 间隔预设时间,定时的通过统计脚本获取目标数据库的库目录以及与所述库目录对应的根目录。[0120] 在本公开的一种示例性实施例中,所述目标数据库为Hive数据库和/或Hbase数据库。[0121] 上述数据库管理装置中各模块的具体细节已经在对应的数据库管理方法中进行了详细的描述,因此此处不再赘述。[0122] 应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。[0123] 此外,尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。[0124] 在本发明的示例性实施例中,还提供了一种能够实现上述方法的电子设备。[0125] 所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。[0126] 下面参照图9来描述根据本发明的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。[0127] 如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930以及显示单元940。[0128] 其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元910执行,使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元910可以执行如图1中所示的步骤S110:获取目标数据库的库目录以及与所述库目录对应的根目录;步骤S120:计算各所述根目录的数量以及各所述根目录的容量,并计算与各所述根目录对应的子目录的数量以及各所述子目录的容量;步骤S130:根据所述库目录、所述根目录、各所述根目录的数量、各所述根目录的容量、各所述子目录的数量以及各所述子目录的容量生成所述目标数据库的数据库表;步骤S140:将所述目标数据库的数据库表存储至关系型数据库中,以便于用户通过正则表达式匹配的方式对所述目标数据库的数据库表进行查看。[0129] 存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)9201和/或高速缓存存储单元9202,还可以进一步包括只读存储单元(ROM)9203。[0130] 存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204,这样的程序模块9205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。[0131] 总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。[0132] 电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且,电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器960通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。[0133] 通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD‑ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施方式的方法。[0134] 在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。[0135] 根据本发明的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD‑ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。[0136] 所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。[0137] 计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。[0138] 可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。[0139] 可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。[0140] 此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。[0141] 本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其他实施例。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。

专利地区:北京

专利申请日期:2020-06-05

专利公开日期:2024-06-18

专利公告号:CN113760856B

电话咨询
读内容
搜本页
回顶部