专利名称:日志处理方法和装置
专利类型:实用新型专利
专利申请号:CN201910914657.1
专利申请(专利权)人:中国电信股份有限公司
权利人地址:北京市西城区金融大街31号
专利发明(设计)人:汪少敏,阮宜龙,王铮,杨迪,任华
专利摘要:本公开公开了一种日志处理方法和装置,涉及数据处理领域。该方法包括:利用停用词库对样本日志文件进行分词处理,得到样本日志文件中的多个词语;对多个词语进行词频统计,将词频数大于词频阈值的词语作为高频词;将样本日志文件中连续出现的预定个数的高频词,作为高频词组;计算每个高频词组与标点组合的加权概率;根据加权概率大于概率阈值的高频词组与标点组合,构建日志模版;根据日志模版,提取日志数据中的关键信息。本公开提高了日志处理的准确性。
主权利要求:
1.一种日志处理方法,包括:
利用停用词库对样本日志文件进行分词处理,得到所述样本日志文件中的多个词语;
对所述多个词语进行词频统计,将词频数大于词频阈值的词语作为高频词;
将所述样本日志文件中连续出现的预定个数的高频词,作为高频词组;
计算每个所述高频词组与标点组合的加权概率;
根据加权概率大于概率阈值的高频词组与标点组合,构建日志模版;
根据所述日志模版,提取日志数据中的关键信息。
2.根据权利要求1所述的日志处理方法,还包括:验证每个所述高频词组中词语间的关联性;
计算具有关联性的词组构成的高频词组与标点组合的加权概率。
3.根据权利要求2所述的日志处理方法,其中,计算具有关联性的词组构成的高频词组与标点组合的加权概率包括:统计所述具有关联性的词组构成的高频词组的前后出现标点的概率;
确定对应标点的权值;
将所述出现标点的概率与对应标点的权值之积,作为所述具有关联性的词组构成的高频词组与标点组合的加权概率。
4.根据权利要求2所述的日志处理方法,其中,验证每个所述高频词组中词语间的关联性包括:将每个所述高频词组中的词语进行卡方验证,确定每个所述高频词组中词语间的关联性。
5.根据权利要求1所述的日志处理方法,其中,将连续出现的预定个数的高频词,作为高频词组包括:将预定个数的高频词作为组合,统计在所述样本日志文件中,所述组合出现的频率;
将出现频率大于频率阈值的组合,作为高频词组。
6.根据权利要求1‑5任一所述的日志处理方法,其中,所述停用词库中不包含标点符号和空格。
7.一种日志处理装置,包括:
分词处理单元,被配置为利用停用词库对样本日志文件进行分词处理,得到所述样本日志文件中的多个词语;
高频词确定单元,被配置为对所述多个词语进行词频统计,将词频数大于词频阈值的词语作为高频词;
高频词组确定单元,被配置为将所述样本日志文件中连续出现的预定个数的高频词,作为高频词组;
加权概率确定单元,被配置为计算每个所述高频词组与标点组合的加权概率;
日志模版构建单元,被配置为根据加权概率大于概率阈值的高频词组与标点组合,构建日志模版;
关键信息提取单元,被配置为根据所述日志模版,提取日志数据中的关键信息。
8.根据权利要求7所述的日志处理装置,还包括:关联性验证单元,被配置为验证每个所述高频词组中词语间的关联性;
其中,所述加权概率确定单元被配置为计算具有关联性的词组构成的高频词组与标点组合的加权概率。
9.一种日志处理装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至6任一项所述的日志处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至6任一项所述的日志处理方法。 说明书 : 日志处理方法和装置技术领域[0001] 本公开涉及数据处理领域,尤其涉及一种日志处理方法和装置。背景技术[0002] 日志分析平台中,需要对各种系统的不同日志进行收集、存储和分析。其中,日志包括系统日志、webserver(网页服务器)日志、错误日志、应用日志等。其中对日志的分析处理,主要通过文本处理的形式进行过滤、标签、统计等操作。目前的方法为:对每条日志进行分词、词向量化等文本处理后,进行模型训练和分析。[0003] 目前方法中存在一些缺陷,例如,对日志中的文本进行全量分析,耗费大量资源。另外,模型学习和分析过程中,会受到日志中和分析需求相关性低的信息的干扰,影响模型学习和分析的准确性。发明内容[0004] 本公开要解决的一个技术问题是,提供一种日志处理方法和装置,能够提高日志分析的准确率。[0005] 根据本公开一方面,提出一种日志处理方法,包括:利用停用词库对样本日志文件进行分词处理,得到样本日志文件中的多个词语;对多个词语进行词频统计,将词频数大于词频阈值的词语作为高频词;将样本日志文件中连续出现的预定个数的高频词,作为高频词组;计算每个高频词组与标点组合的加权概率;根据加权概率大于概率阈值的高频词组与标点组合,构建日志模版;根据日志模版,提取日志数据中的关键信息。[0006] 在一些实施例中,验证每个高频词组中词语间的关联性;计算具有关联性的词组构成的高频词组与标点组合的加权概率。[0007] 在一些实施例中,计算具有关联性的词组构成的高频词组与标点组合的加权概率包括:统计具有关联性的词组构成的高频词组的前后出现标点的概率;确定对应标点的权值;将出现标点的概率与对应标点的权值之积,作为具有关联性的词组构成的高频词组与标点组合的加权概率。[0008] 在一些实施例中,验证每个高频词组中词语间的关联性包括:将每个高频词组中的词语进行卡方验证,确定每个高频词组中词语间的关联性。[0009] 在一些实施例中,将连续出现的预定个数的高频词,作为高频词组包括:将预定个数的高频词作为组合,统计在样本日志文件中,组合出现的频率;将出现频率大于频率阈值的组合,作为高频词组。[0010] 在一些实施例中,停用词库中不包含标点符合和空格。[0011] 根据本公开的另一方面,还提出一种日志处理装置,包括:分词处理单元,被配置为利用停用词库对样本日志文件进行分词处理,得到样本日志文件中的多个词语;高频词确定单元,被配置为对多个词语进行词频统计,将词频数大于词频阈值的词语作为高频词;高频词组确定单元,被配置为将样本日志文件中连续出现的预定个数的高频词,作为高频词组;加权概率确定单元,被配置为计算每个高频词组与标点组合的加权概率;日志模版构建单元,被配置为根据加权概率大于概率阈值的高频词组与标点组合,构建日志模版;关键信息提取单元,被配置为根据日志模版,提取日志数据中的关键信息。[0012] 在一些实施例中,关联性验证单元,被配置为验证每个高频词组中词语间的关联性;其中,加权概率确定单元被配置为计算具有关联性的词组构成的高频词组与标点组合的加权概率。[0013] 根据本公开的另一方面,还提出一种日志处理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上述的日志处理方法。[0014] 根据本公开的另一方面,还提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述的日志处理方法。[0015] 与相关技术相比,本公开通过发现日志中隐藏的日志模版,并利用日志模版提取日志中和分析需求相关的关键信息,从而在后续处理过程中,排除其他文本信息的干扰,提高了日志分析的准确率。并且,在后续模型学习和分析过程中,仅对日志中的关键信息进行分析处理,还节省了分析时间和资源,提升了系统效率。[0016] 通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。附图说明[0017] 构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。[0018] 参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:[0019] 图1为本公开日志处理方法的一些实施例的流程示意图。[0020] 图2为本公开日志处理方法的另一些实施例的流程示意图。[0021] 图3为本公开日志处理装置的一些实施例的结构示意图。[0022] 图4为本公开日志处理装置的另一些实施例的结构示意图。[0023] 图5为本公开日志处理装置的另一些实施例的结构示意图。[0024] 图6为本公开日志处理装置的另一些实施例的结构示意图。具体实施方式[0025] 现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。[0026] 同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。[0027] 以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。[0028] 对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。[0029] 在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。[0030] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。[0031] 为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。[0032] 图1为本公开日志处理方法的一些实施例的流程示意图。[0033] 在步骤110,利用停用词库对样本日志文件进行分词处理,得到样本日志文件中的多个词语。[0034] 停用词库中的词语为出现频率高、但和模版信息不相关的词语。停用词库例如包括通用停用词、系统涉及的专用停用词,但该停用词库中不包含标点符号和空格。[0035] 在步骤120,对多个词语进行词频统计,将词频数大于词频阈值的词语作为高频词。词频统计过程不包括对标点符号、空格等字符的统计。[0036] 在一些实施例中,可以对分词后的样本日志文件,按照词语出现的次数或百分比等方法进行词频统计,并按照词频由大到小的顺序对词语进行排序,选取词频数大于词频阈值的词语为高频词。[0037] 在步骤130,将样本日志文件中连续出现的预定个数的高频词,作为高频词组。[0038] 例如,将预定个数的高频词作为组合,统计在样本日志文件中,该组合出现的频率;将出现频率大于频率阈值的组合,作为高频词组。[0039] 在步骤140,计算每个高频词组与标点组合的加权概率。[0040] 由于日志模版中多以词组和标点相结合的方式出现,因此,可以先统计该高频词组前后出现标点的概率,然后确定对应的标点的权值,例如,【】权值为2,:权值为1,空格权值为0.8,没有标点权值为0.2等等。其中,标点在日志模版中出现的频率越高,则权值越大。将出现标点的概率与对应标点的权值之积,作为加权概率。[0041] 在步骤150,根据加权概率大于概率阈值的高频词组与标点组合,构建日志模版。[0042] 例如,将加权概率按照从大到小的排列,取前N个高频词组与标点组合,构建日志模版。[0043] 在步骤160,根据日志模版,提取日志数据中的关键信息。在后续模型学习或分析过程中,可以仅对日志中的关键信息进行分析处理。[0044] 在该实施例中,通过发现日志中隐藏的日志模版,并利用日志模版提取日志中和分析需求相关的关键信息,从而在后续处理过程中,排除其他文本信息的干扰,提高了日志分析的准确率。[0045] 图2为本公开日志处理方法的另一些实施例的流程示意图。[0046] 在步骤210,利用停用词库对样本日志文件进行分词处理,得到样本日志文件中的多个词语。为了执行步骤250,在该步骤中,停用词库中不标点符合和空格。[0047] 在步骤220,对多个词语进行词频统计,将词频数大于词频阈值的词语作为高频词。例如,将词频数大于30%的词语作为高频词。[0048] 在步骤230,将预定个数的高频词作为组合,统计在样本日志文件中,该组合出现的频率,将出现频率大于频率阈值的组合,作为高频词组。[0049] 例如,将高频词两两组合,统计在同一样本日志文件中,该组合出现的频率;然后将三个高频词作为一个组合,统计该组合在同一样本日志文件中的频率;将出现频率大于15%的组合标记为一个高频词组。[0050] 在步骤240,验证每个高频词组中词语间的关联性。[0051] 对于达到一定阈值以上的高频率同时出现的两个词或三个词,由于每个词本身是高频词,所以不能确定这两个词或三个词是固定词组搭配还是大量随机出现的结果,因此,需要验证词语间的关联性。[0052] 在一些实施例中,将每个高频词组中的词语进行卡方验证,确定每个高频词组中词语间的关联性。例如,将高频词组中的两个词语作为独立的变量,计算两个变量间的卡方值,当卡方值大于3.84时,认为这两个词语具有相关性。例如,高频词组“登陆时间”中的“登陆”和“时间”具有关联性;高频词组“错误代码”中的“错误”和“代码”具有关联性。[0053] 在一些实施例中,将每个高频词组中的词语进行词向量化,然后计算词向量间的距离来确定每个高频词组中词语间的关联性。[0054] 在步骤250,计算具有关联性的词组构成的高频词组与标点组合的加权概率。[0055] 例如,对高频词组进行扫描,统计该高频词组前后出现标点的概率,并乘以对应标点的权值,得到加权概率。例如,得到“登陆时间”的加权概率为0.3,“错误代码”的加权概率为0.4等。[0056] 在步骤260,根据加权概率大于概率阈值的高频词组与标点组合,构建日志模版。例如,取加权概率最大的三组高频词组与标点组合,得到日志模版。[0057] 在步骤270,根据日志模版,提取日志数据中的关键信息。[0058] 在步骤280,根据日志数据中的关键信息,进行模型学习和分析。[0059] 在该实施例中,通过发现日志中隐藏的日志模版,并利用日志模版提取日志中和分析需求相关的关键信息,根据日志数据中的关键信息,进行模型学习和分析,节省了分析时间和资源,提升了系统效率。[0060] 图3为本公开日志处理装置的一些实施例的结构示意图。该日志处理装置包括:分词处理单元310、高频词确定单元320、高频词组确定单元330、加权概率确定单元340、日志模版构建单元350和关键信息提取单元360。[0061] 分词处理单元310被配置为利用停用词库对样本日志文件进行分词处理,得到样本日志文件中的多个词语。[0062] 高频词确定单元320被配置为对多个词语进行词频统计,将词频数大于词频阈值的词语作为高频词。[0063] 高频词组确定单元330被配置为将样本日志文件中连续出现的预定个数的高频词,作为高频词组。[0064] 例如,将预定个数的高频词作为组合,统计在样本日志文件中,组合出现的频率;将出现频率大于频率阈值的组合,作为高频词组。[0065] 加权概率确定单元340被配置为计算每个高频词组与标点组合的加权概率。[0066] 例如,统计高频词组的前后出现标点的概率;确定对应标点的权值;将出现标点的概率与对应标点的权值之积,作为加权概率。[0067] 日志模版构建单元350被配置为根据加权概率大于概率阈值的高频词组与标点组合,构建日志模版。[0068] 关键信息提取单元360被配置为根据日志模版,提取日志数据中的关键信息。[0069] 在该实施例中,通过发现日志中隐藏的日志模版,并利用日志模版提取日志中和分析需求相关的关键信息,从而在后续处理过程中,排除其他文本信息的干扰,提高了数据处理的准确性。[0070] 在本公开的另一些实施例中,如图4所示,该日志处理装置还包括关联性验证单元410,被配置为验证每个高频词组中词语间的关联性;其中,加权概率确定单元340被配置为计算具有关联性的词组构成的高频词组与标点组合的加权概率。[0071] 对于达到一定阈值以上的高频率同时出现的两个词或三个词,由于每个词本身是高频词,所以不能确定这两个词或三个词是固定词组搭配还是大量随机出现的结果,因此,需要验证词语间的关联性。[0072] 在一些实施例中,将每个高频词组中的词语进行卡方验证,确定每个高频词组中词语间的关联性。例如,将高频词组中的两个词语作为独立的变量,计算两个变量间的卡方值,当卡方值大于3.84时,认为这两个词语具有相关性。例如,高频词组“登陆时间”中的“登陆”和“时间”具有关联性;高频词组“错误代码”中的“错误”和“代码”具有关联性。[0073] 图5为本公开日志处理装置的另一些实施例的结构示意图。该日志处理装置包括:存储器510和处理器520,其中:[0074] 存储器510可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1、2所对应实施例中的指令。处理器520耦接至存储器510,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器520用于执行存储器中存储的指令。[0075] 在一些实施例中,还可以如图6所示,该日志处理装置600包括存储器610和处理器620。处理器620通过BUS总线630耦合至存储器610。该日志处理装置600还可以通过存储接口640连接至外部存储装置660以便调用外部数据,还可以通过网络接口660连接至网络或者另外一台计算机系统(未标出),此处不再进行详细介绍。[0076] 在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,提高数据处理的准确性。[0077] 在另一些实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现图1、2所对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。[0078] 本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。[0079] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。[0080] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。[0081] 至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。[0082] 虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
专利地区:北京
专利申请日期:2019-09-26
专利公开日期:2024-09-03
专利公告号:CN112559474B