专利名称:一种电网运维相似故障确定方法、系统及存储介质
专利类型:发明专利
专利申请号:CN202310647733.3
专利申请(专利权)人:国网江苏省电力有限公司南京供电分公司,国网江苏省电力有限公司
权利人地址:江苏省南京市建邺区奥体大街1号
专利发明(设计)人:常飞,朱进,酆尘颖,贾劲颂,汪源远,沈忱,徐晓冬,郭晏,徐然,张英娇
专利摘要:本发明涉及一种电网运维相似故障确定方法、系统及存储介质。本发明中的方法包括以下步骤,先对历史电网运维文本进行处理得到历史词向量序列X,然后对现实故障文本进行处理得到现实词向量序列Y,通过计算历史词向量序列X与现实词向量序列Y之间相似度将相似度最高的历史词向量x所对应的历史运维文本作为该现实故障文本的参考。本发明中的系统,包括数据获取模块、文本检索模块和结果展示模块;本发明不仅解决了电网专业词建模和识别的困难,改进的词向量还增加了检索精确度。在电网运维人员输入故障信息文本后能够更准确地检索到同类型故障的历史运维记录以辅助运维作业的开展,给电网运维人员提供更正确的历史经验指导。
主权利要求:
1.一种电网运维相似故障确定方法,其特征在于,包括以下步骤:
S1、对历史运维文本进行分词,再去除分出的词中的停用词,得到历史运维文本关键词;
S2、使用TF‑IDF算法计算历史运维文本关键词的权重;
S3、将历史运维文本关键词的权重作为Skip‑Gram模型输入数据进行训练,得到优化的历史词向量序列X,X={x1、x2、…、xn},其中x1是历史运维文本关键词通过Skip‑Gram模型进行训练后得到的第一历史词向量;xn是历史运维文本关键词通过Skip‑Gram模型进行训练后得到的最后历史词向量;
S4、运维人员输入现实故障信息文本;
S5、重复步骤S1‑S3中历史运维文本的处理方法对现实故障信息文本进行处理,同样得到优化的现实词向量序列Y,Y={y1、y2、…、yn},其中y1是现实故障信息文本关键词通过Skip‑Gram模型进行训练后得到的第一现实词向量;yn是现实故障信息文本关键词通过Skip‑Gram模型进行训练后得到的最后现实词向量;
S6、使用余弦算法依次计算现实词向量序列Y中的第一现实词向量y1和历史词向量序列X中的所有的历史词向量之间的相似度,将相似度值最高的历史词向量x所对应的历史运维文本作为第一现实词向量y1对应的第一推送文本;重复上述步骤使得现实词向量序列Y中所有的现实词向量y都获得对应的推送文本,依次将所有的推送文本推送给运维人员。
2.根据权利要求1所述的一种电网运维相似故障确定方法,其特征在于,步骤S2中TF‑IDF算法的公式如(1)所示,公式(1)中,Ni,j表示词语i在文本j中出现的次数, 表示文本j中所有词语的总词数,D表示文本总数,DFi表示包含词语i的文本数。
3.根据权利要求1所述的一种电网运维相似故障确定方法,其特征在于,步骤S3中Skip‑Gram模型的向量化公式如(2)所示,公式(2)中,假定词序列Q={r1,r2,…,rM},M表示中心词位置,k表示window‑size大小,词汇上下文为c,ri、ri+c是目标词ri以及上下文词汇ri+c的词向量,p(ri+c|ri)=softmax(ri+c*ri),softmax函数是归一化指数函数。
4.根据权利要求1所述的一种电网运维相似故障确定方法,其特征在于,步骤S6中余弦算法公式如(3)所示,式(3)中,x是历史词向量序列X中的历史词向量,y是现实词向量序列Y中的现实词向量;||x||是历史词向量x对应的模||y||是现实词向量y对应的模。
5.一种承载所述权利要求1‑4中任一所述电网运维相似故障确定方法的电网运维相似故障确定系统,其特征在于:包括数据获取模块、文本检索模块和结果展示模块;
所述数据获取模块承载所述权利要求1‑4中任一所述电网运维相似故障确定方法的所述步骤S1、S2和S3,将历史运维文本进行分词,再去除分出的词中的停用词,得到历史运维文本关键词;通过TF‑IDF算法计算历史运维文本关键词的权重,最后将历史运维文本关键词的权重通过Skip‑Gram模型进行向量化;所述文本检索模块承载所述权利要求1‑4中任一所述电网运维相似故障确定方法的所述步骤S4、S5和步骤S6,将运维人员输入的现实故障信息文本进行向量化,并将向量化后的现实故障信息文本用于在系统的历史数据库中进行检索,得到与向量化后的现实故障信息文本相似度高的历史运维文本;
所述结果展示模块承载所述权利要求1‑4中任一所述电网运维相似故障确定方法的所述步骤S6,用于将检索得到的相似度较高的几个历史运维文本及其相似度推送给运维人员。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述电网运维相似故障确定方法的步骤。 说明书 : 一种电网运维相似故障确定方法、系统及存储介质技术领域[0001] 本发明涉及一种电网运维相似故障确定方法、系统及存储介质,特别涉及电网文本数据检索领域。背景技术[0002] 电网公司的运维人员在解决电力故障时,常常需要参考历史相似故障的处理方法,目前只能按文章标题、文章作者等这些信息检索,而在实际工作中碰到的故障现象往往是属于描述性的,仅凭这些信息并不能及时找到类似的案例。因此,适用于电网公司的相似故障检索匹配方法已成为运维人员的迫切的需求。[0003] 电网相似故障的检索难点一是电网运维文本词汇具有极强的专业性,建模和识别电网专业词还存在困难;二是档案库数据量庞大,传统的搜索引擎匹配到的数据不够准确,难以满足电网公司的应用需求。面对复杂的实际情况,单个模型可能达不到理想的检索识别效果,组合运用多种模型来完成高难度工作是可能的技术方向。发明内容[0004] 本发明要解决的第一技术问题是:提出一种电网运维相似故障确定方法,用以提高现有的搜索算法对电网运维文本检索结果确性。[0005] 本发明要解决的第二技术问题是:提出一种电网运维相似故障确定系统和存储介质,可以承载上述电网运维相似故障确定方法。[0006] 为解决上述第一技术问题,本发明提出的技术方案一是:一种电网运维相似故障确定方法,包括以下步骤:S1、对历史运维文本进行分词,再去除分出的词中的停用词,得到历史运维文本关键词;[0007] S2、使用TF‑IDF算法计算历史运维文本关键词的权重;[0008] S3、将历史运维文本关键词的权重作为Skip‑Gram模型输入数据进行训练,得到优化的历史词向量序列X,X={x1、x2、…、xn},其中x1是历史运维文本关键词通过Skip‑Gram模型进行训练后得到的第一历史词向量;xn是历史运维文本关键词通过Skip‑Gram模型进行训练后得到的最后历史词向量;[0009] S4、运维人员输入现实故障信息文本;[0010] S5、重复步骤S1‑S3中历史运维文本的处理方法对现实故障信息文本进行处理,同样得到优化的现实词向量序列Y,Y={y1、y2、…、yn},其中y1是现实故障信息文本关键词通过Skip‑Gram模型进行训练后得到的第一现实词向量;yn是现实故障信息文本关键词通过Skip‑Gram模型进行训练后得到的最后现实词向量;[0011] S6、使用余弦算法依次计算现实词向量序列Y中的第一现实词向量y1和历史词向量序列X中的所有的历史词向量之间的相似度,将相似度值最高的历史词向量x所对应的历史运维文本作为第一现实词向量y1对应的第一推送文本;重复上述步骤使得现实词向量序列Y中所有的现实词向量y都获得对应的推送文本,依次将所有的推送文本推送给运维人员。[0012] 进一步,步骤S2中TF‑IDF算法的公式如(1)所示,[0013][0014] 公式(1)中,Ni,j表示词语i在文本j中出现的次数, 表示文本j中所有词语的总词数,D表示文本总数,DFi表示包含词语i的文本数。[0015] 进一步,步骤S3中Skip‑Gram模型的向量化公式如(2)所示,[0016][0017] 公式(2)中,假定词序列Q={r1,r2,…,rM},M表示中心词位置,k表示window‑size大小,词汇上下文为c,ri、ri+c是目标词ri以及上下文词汇ri+c的词向量,p(ri+c|ri)=softmax(ri+c*ri),softmax函数是归一化指数函数。[0018] 进一步,步骤S6中余弦算法公式如(3)所示,[0019][0020] 式(3)中,x是历史词向量序列X中的历史词向量,y是现实词向量序列Y中的现实词向量;||x||是历史词向量x对应的模,||y||是现实词向量y对应的模。[0021] (3)为解决上述第二技术问题,本发明所提出的技术方案二是:一种电网运维相似故障确定系统,包括:[0022] 数据获取模块,用于获取电网作业人员输入的电网运维故障特征,并将其转化为词向量;[0023] 文本检索模块,用于在系统的历史数据库中检索与输入词向量相似度高的历史运维文本;[0024] 结果展示模块,用于将检索得到的相似度较高的几个历史运维文本及其相似度展示给运维人员;[0025] 为解决上述第二技术问题,本发明所提出的技术方案三是,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述储电网运维相似故障确定方法的步骤。[0026] 本发明的有益效果是:1.将TF‑IDF算法引入Skip‑Gram模型对词向量进行加权,不仅解决了电网专业词建模和识别的困难,改进的词向量还增加了检索精确度。在电网运维人员输入故障信息文本后能够更准确地检索到同类型故障的历史运维记录以辅助运维作业的开展,给电网运维人员提供更正确的历史经验指导。2.本发明搭建了一个可以承载一种电网运维问题相似故障确定方法的系统平台、计算机设备和存储介质,使得一种电网运维问题相似故障确定方法可以更加流畅的应用于不同的场景。附图说明[0027] 图1为本实施例的一种电网运维相似故障确定方法流程图。[0028] 图2为本发明实施例的电网运维相似故障确定系统结构框图具体实施方式[0029] 为了使本技术领域的人员更好地理解本申请方案,下面将结合附图对本申请实施例的技术方案进行清楚、完整地描述。[0030] 如图1所示,本实施例的一种电网故障相似问题确定匹配方法具体描述如下:[0031] S1、对历史运维文本进行分词,再去除分出的词中的停用词,得到历史运维文本关键词;[0032] 首先展开电网运维文本档案数据库构建工作,为使得后续数据处理顺利开展,需要对档案数据库内文本进行预处理工作。本发明采用Python语言的jieba分词对数据文本进行分词处理,然后根据《哈工大停用词表》将数据中无意义的停用词去掉,得到历史运维文本关键词。[0033] S2、使用TF‑IDF算法计算历史运维文本关键词的权重;[0034] 接着运用Python软件对文本关键词进行挖掘,并计算其词频,然后根据TF‑IDF算法得到每个关键词的权重,TF‑IDF算法如下:[0035][0036] 公式(1)中,Ni,j表示词语i在文本j中出现的次数, 表示文本j中所有词语的总词数,D表示文本总数,DFi表示包含词语i的文本数。[0037] S3、将历史运维文本关键词的权重作为Skip‑Gram模型输入数据进行训练,得到优化的历史词向量序列X,X={x1、x2、…、xn},其中x1是历史运维文本关键词通过Skip‑Gram模型进行训练后得到的第一历史词向量;xn是历史运维文本关键词通过Skip‑Gram模型进行训练后得到的最后历史词向量;[0038] 计算出每个单词的TF‑IDF权重后,将它们作为输入数据用于训练Skip‑Gram模型,可以提高关键词在文本向量中的权重,从而使得这些关键词在训练过程中更容易被捕捉到,以获得更好的单词向量表示。因此,通过使用TF‑IDF算法,可以减少一些无意义词语在文本向量中的影响,从而更好地反映文本的语义信息。Skip‑Gram模型的向量化公式如下所示:[0039][0040] 公式(2)中,假定词序列Q={r1,r2,…,rM},M表示中心词位置,k表示window‑size大小,词汇上下文为c,ri、ri+c是目标词ri以及上下文词汇ri+c的词向量,p(ri+c|ri)=softmax(ri+c*ri),softmax函数是归一化指数函数。[0041] S4、运维人员输入现实故障描述文本;[0042] S5、重复步骤S1‑S3中历史运维文本的处理方法对现实故障信息文本进行处理,同样得到优化的现实词向量序列Y,Y={y1、y2、…、yn},其中y1是现实故障信息文本关键词通过Skip‑Gram模型进行训练后得到的第一现实词向量;yn是现实故障信息文本关键词通过Skip‑Gram模型进行训练后得到的最后现实词向量;[0043] 在处理现实故障的实际应用中,电网运维人员输入故障的相关信息后,现实故障信息文本进行步骤S1‑S3相同的处理方法,包括预处理,计算TF‑IDF权重和训练Skip‑Gram模型,得到现实故障信息文本的词向量的表征形式,以备下一步的匹配工作。[0044] S6、使用余弦算法依次计算现实词向量序列Y中的第一现实词向量y1和历史词向量序列X中的所有的历史词向量之间的相似度,将相似度值最高的历史词向量x所对应的历史运维文本作为第一现实词向量y1对应的第一推送文本;重复上述步骤使得现实词向量序列Y中所有的现实词向量y都获得对应的推送文本,依次将所有的推送文本推送给运维人员。历史运维文本和现实故障描述文本的词向量进行相似度匹配,余弦相似度的范围是0到1,分值越高表示检索词与库中文本之间的相似度越高。余弦相似度计算公式如下所示:[0045][0046] 式(3)中,x是历史词向量序列X中的历史词向量,y是现实词向量序列Y中的现实词向量;||x||是历史词向量x对应的模,||y||是现实词向量y对应的模。[0047] 选取故障运维文本如下:[0048] 故障检修运维记录1:“地点:XX变电站。故障描述:收到XX变电站跳闸信号,导致供电中断。检修过程:到达现场后,对变电站设备进行全面检查,发现变压器绕组接线处出现松动。立即进行紧固处理,重新合闸成功,供电恢复正常。故障原因:变压器绕组接线处松动导致供电中断。维修措施:对变压器绕组接线处进行紧固处理,并加强设备巡检和维护。”[0049] 故障检修运维记录2:“地点:XX变电站。故障描述:接到用户报修,称电力质量异常,导致设备无法正常运转。检修过程:经现场检查,发现变电站接地电阻超过了允许范围,通过清理接地电极表面和加强接地线夹紧,使得接地电阻回到正常范围内,电力质量恢复正常。故障原因:变电站接地电阻超过允许范围,导致电力质量异常。维修措施:清理接地电极表面,加强接地线夹紧,并对接地电阻进行定期检测。”[0050] 故障检修运维记录3:“地点:XX配电箱。故障描述:接到用户报修,称配电箱内发生短路,导致供电中断。检修过程:到达现场后,检查配电箱内部,发现接线处存在松动,导致短路现象。立即进行紧固处理,重新合闸成功,供电恢复正常。故障原因:配电箱接线处松动,导致短路现象发生。维修措施:对配电箱接线处进行紧固处理,并加强设备巡检和维护。”[0051] 故障检修运维记录4:“地点:XX变电站。故障描述:接到XX变电站跳闸信号,导致供电中断。检修过程:到达现场后,对变电站设备进行全面检查,发现变压器油位过低,导致设备故障。立即进行加注变压器油,并进行设备维护,使得供电恢复正常。故障原因:变压器油位过低,导致设备故障。维修措施:加注变压器油,进行设备维护,并加强设备巡检和维护。”[0052] 故障检修运维记录5:“地点:XX配电箱。故障描述:接到用户报修,称配电箱内存在异响,导致设备无法正常运转。检修过程:经现场检查,发现配电箱内存在电缆松动现象,导致设备故障。立即进行松动电缆的处理,并进行设备维护,使得供电恢复正常。故障原因:配电箱内电缆松动导致设备故障。维修措施:对松动电缆进行处理,进行设备维护,并加强设备巡检和维护。”[0053] 在检索系统中输入“配电箱异响”的检索结果及其相似度如表1所示,表中展示了相似度较高的三篇文本,其中故障检修运维记录5与搜索内容高度相似,具有重要参考价值。[0054] 表1[0055][0056] 在检索系统中输入“电压异常”的检索结果及其相似度如表2所示,由于输入的搜索内容与数据库中的文本并不完全匹配,因此在返回的结果中只能看到一些相对较低的相似度分值,但是仍然具有一定的参考价值。[0057] 表2[0058][0059] 通过以上步骤S1‑S6就完成了运维人员对历史运维文本的检索,将平均相似度最高的前几个文本返回给运维人员以辅助其展开检修工作。[0060] 本实施例的一种电网故障相似问题检索确定系统具体描述如下:如图2所示,一种电网运维相似故障确定系统,能够用于实现上述的电网运维相似故障确定方法,具体的,该电网运维相似故障确定系统包括数据获取模块、文本检索模块以及结果展示模块。[0061] 其中,数据获取模块用于获取电网作业人员输入的电网运维故障特征,并将其转化为词向量;文本检索模块用于在系统的历史数据库中检索与输入词向量相似度高的历史运维文本;结果展示模块用于将检索得到的相似度较高的几个历史运维文本及其相似度展示给运维人员;[0062] 数据获取模块具体用于:[0063] 电网运维人员输入故障的相关信息后,现实故障信息文本进行步骤S1‑S3相同的处理方法,包括预处理,计算TF‑IDF权重和训练Skip‑Gram模型,得到现实故障信息文本的词向量的表征形式,以备下一步的匹配工作。[0064] 文本检索模块具体用于:[0065] 历史运维文本和现实故障描述文本的词向量进行相似度匹配,余弦相似度的范围是0到1,分值越高表示检索词与库中文本之间的相似度越高。余弦相似度计算公式如下所示:[0066][0067] 其中,x是历史词向量序列X中的历史词向量,y是现实词向量序列Y中的现实词向量;||x||是历史词向量x对应的模,||y||是现实词向量y对应的模。[0068] 结果展示模块具体用于:[0069] 使用余弦算法依次计算现实词向量序列Y中的第一现实词向量y1和历史词向量序列X中的所有的历史词向量之间的相似度,将相似度值最高的历史词向量x所对应的历史运维文本作为第一现实词向量y1对应的第一推送文本;重复上述步骤使得现实词向量序列Y中所有的现实词向量y都获得对应的推送文本,依次将所有的推送文本推送给运维人员,并展示相应的相似度。[0070] 前述的电网运维相似故障确定方法的实施例涉及的各步骤的所有相关内容均可以援引到本发明施例中的电网运维相似故障确定系统所对应的功能模块的功能描述,在此不再赘述。[0071] 本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本发明各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功模块的形式实现。[0072] 本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non‑volatilememory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关电网运维相似故障确定方法的相应步骤。[0073] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。[0074] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。[0075] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。[0076] 最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
专利地区:江苏
专利申请日期:2023-06-02
专利公开日期:2024-09-03
专利公告号:CN117009457B