专利名称:基于自然语言语义解析的数据中心智能查询统计方法
专利类型:发明专利
专利申请号:CN202011038101.X
专利申请(专利权)人:范馨月
权利人地址:贵州省贵阳市花溪区贵州大学数学与统计学院
专利发明(设计)人:范馨月,沈齐,何清龙,李建森,廖斌,杜逆索
专利摘要:本发明公开了基于自然语言语义解析的数据中心智能查询统计方法。在查询任务中,解析具体语义关键词,对关键词中的复合词进行分词,分词后对分词的同义词分析重组,将分析重组的结果与转义字典进行匹配;匹配成功,则分析并建立网络及重新定义权重信息,结合数据信息的数据中心权限、数据质量、使用频次信息,构建推荐算法将任务所用到的数据库中的表、字段等拼接成SQL进行查询、统计。本发明具有实用性强、使用简单方便、查询结果具有行业针对性,且查询结果与用户需求契合度高的特点。
主权利要求:
1.基于自然语言语义解析的数据中心智能查询统计方法,其特征在于,在查询任务中,解析具体语义关键词,对关键词中的复合词进行分词,分词后对分词的同义词分析重组,将分析重组的结果与转义字典进行匹配;匹配成功,则分析并建立网络及重新定义权重信息,结合数据信息包括的数据中心权限、数据质量、使用频次信息,构建推荐算法将任务所用到的数据中心中的表、字段拼接成SQL进行查询、统计;
基于自然语言语义解析的数据中心智能查询统计方法,包括下述步骤:a.接收规范化处理的数据信息;
b.接收基于用户自然语言,进行语义解析后生成的用户需求关键词或实体;
c.针对行业词汇的转义解释,构建转义词典;
d.在步骤a的数据信息中匹配步骤b的用户需求关键词或实体、用户需求关键词或实体的同义词,和/或关键词的转义后的同义词;对匹配到的相应词汇及对应的字段信息进行保存记录、建立索引;
e.生成由表和关键词为节点、有序对为边构成的有向图;
f.基于有向图构建权重矩阵,以优化PageRank算法评估表及字段并推荐给用户,之后根据数据库类型生成与所述的相应词汇对应关系的SQL;
步骤a中,所述的数据信息,是包括数据中心所有的数据库、表、字段、中文数据字典、数据质量情况、字段使用频次信息构成的一张或多张数据信息表;
步骤e中,有向图的生成具体如下:
记有向图作D=;其中,
顶点集V={Ki,Tl},Ki为第i个用户需求关键词或实体,i=1,..,n;Tl表示l张数据信息表,l=1,...,m;
边集定义为E={,|i=1,2,3,...,n,l=1,...,m,r为第i个用户需求关键词或实体关联的数据信息表};
当一个用产需求关键词或实体对应同一张数据信息表的几个字段时,取相似度最大的字段,∑γ=m;
步骤f具体如F:
记第i个用户需求关键词或实体对应的第j张数据信息表的权限为 其中i=J,2,
3,...,n,j=n+1,n+2,...,n+m;
f
Kij为该字段的使用频次,使用频次越多的字段应优先推荐;
q
Kij为该字段的数据质量,量化为百分比数字;
Sim
Kij 为匹配到的词相似度,其中i=1,2,3,..,n,j=1,2,..,m;其中,i表示第i个用户需求关键词或实体,j表示匹配到的字段在第j张数据信息表中,n是关键词的个数,m是数据信息表中匹配的表的数量;
定义权值
这里
构造初始权重矩阵
计算有向图D=的邻接矩阵A,按行归一化后记为A′,最终的权重矩阵TM=Q·(A′)(2)k+I
数据中心中,数据信息表的重要程度由IPR值决定,IPR 表示第k次迭代后的IPR值+I(Tl)为与Tl相关联的关键词的集合,Δ (Kj)为与Tl相关联的关键词Kj的出度,初值一般地β=0.85;
*
迭代后稳定值IPR(Tl)即为每张数据信息表的评价值;
*
对Tl的IPR (Tl)值进行排序,其中l=1,2,...,m,若最大值的表Tj均有,i=
1,...,m,则统计、查询任务可以在Tj这张数据信息表内完成,生成与关键词对应关系的SQL。
2.根据权利要求1所述的基于自然语言语义解析的数据中心智能查询统计方法,其特征在于,步骤c中,转义词典的构建如下:
c1.将行业词汇进行分词,标记词性;根据所述的词性到转义词典中进行匹配,匹配到后将原转义词典中对应的词汇替换为转义词;
c2.采用词义相似度Sim计算相似度高于90%的词,进行同义词识别,将识别到的同义词添加到转义词典中。
3.根据权利要求2所述的基于自然语言语义解析的数据中心智能查询统计方法,其特征在于:步骤c1中,匹配失败时,返回失败原因,由人工添加解释进转义词典。
4.根据权利要求2所述的基于自然语言语义解析的数据中心智能查询统计方法,其特征在于:步骤c2中,同义词识别的方法具体为:通过词义相似度Sim计算,识别到相似度值Sim>
90%的词汇,之后依据语义拼接构造同义词向量,并记录该词向量的相似度值。
5.根据权利要求1所述的基于自然语言语义解析的数据中心智能查询统计方法,其特征在于:步骤d小,若匹配失败,则返回信息给用产以便添加解释进转义词典。
6.根据权利要求1所述的基于自然语言语义解析的数据中心智能查询统计方法,其特*征在于:若一张数据信息表不能完成查询、统计分析任务,依次选择IPR值完成SQL拼接。 说明书 : 基于自然语言语义解析的数据中心智能查询统计方法技术领域[0001] 本发明涉及数据查询统计技术领域,特别是基于自然语言语义解析的数据中心智能查询统计方法。背景技术[0002] 随着人工智能技术的不断发展,自然语言语义解析与交互技术越来越受到重视。目前对话系统针对某个行业有自身的语料库,并不能对数据进行智能管理和统计计算或者模板相对固定,对大型的数据中心,要完成某项查询、统计任务,需要用到哪个数据库中的哪些表、哪个字段能够完成,要求技术人员必须对业务有一定程度的理解及对数据中心表结构熟悉才能够完成。当前对应用行业的数据中心基于中文自然语言数据智能应用成为迫切需求,也是人工智能时代发展的一大趋势。发明内容[0003] 本发明的目的在于,提供一种基于自然语言语义解析的数据中心智能查询统计方法。本发明具有实用性强、使用简单方便、查询结果具有行业针对性,且查询结果与用户需求契合度高的特点。[0004] 本发明的技术方案:一种基于自然语言语义解析的数据中心智能查询统计方法,在查询任务中,解析具体语义关键词,对关键词中的复合词进行分词,分词后对分词的同义词分析重组,将分析重组的结果与转义字典进行匹配;匹配成功,则分析并建立网络及重新定义权重信息,结合数据信息的数据中心权限、数据质量、使用频次信息,构建推荐算法将任务所用到的数据中心中的表、字段等拼接成SQL进行查询、统计。[0005] 具体地,前述的基于自然语言语义解析的数据中心智能查询统计方法,包括下述步骤:[0006] a.接收规范化处理的数据信息;[0007] b.接收基于用户自然语言,进行语义解析后生成的用户需求关键词或实体;[0008] c.针对行业词汇的转义解释,构建转义词典;[0009] d.在步骤a的数据信息中匹配步骤b的用户需求关键词或实体、用户需求关键词或实体的同义词,和/或关键词的转义后的同义词;对匹配到的相应词汇及对应的字段信息进行保存记录、建立索引;[0010] e.生成由表和关键词为节点、有序对为边构成的有向图;[0011] f.基于有向图构建权重矩阵,以优化PageRank算法评估表及字段并推荐给用户,之后根据数据库类型生成与所述的相应词汇对应关系的SQL。[0012] 前述的基于自然语言语义解析的数据中心智能查询统计方法所述的步骤a中,所述的数据信息,是由数据中心所有的数据库、表、字段、中文数据字典、数据质量情况、字段使用频次等信息构成的一张或多张数据信息表。[0013] 前述的基于自然语言语义解析的数据中心智能查询统计方法所述的步骤c中,转义词典的构建如下:[0014] c1.将行业词汇进行分词,标记词性;根据所述的词性到转义词典中进行匹配,匹配到后将原转义词典中对应的词汇替换为转义词;[0015] c2.采用词义相似度Sim计算相似度高于90%的词,进行同义词识别,将识别到的同义词添加到转义词典中。[0016] 前述的基于自然语言语义解析的数据中心智能查询统计方法所述的步骤c1中,匹配失败时,返回失败原因,由人工添加解释进转义词典。[0017] 前述的基于自然语言语义解析的数据中心智能查询统计方法所述的步骤c2中,同义词识别的方法具体为:通过词义相似度Sim计算,识别到相似度值Sim>90%的词汇,之后依据语义拼接构造同义词向量,并记录该词向量的相似度值。[0018] 前述的基于自然语言语义解析的数据中心智能查询统计方法所述的步骤d中,若匹配失败,则返回信息给用户以便添加解释进转义词典。[0019] 前述的基于自然语言语义解析的数据中心智能查询统计方法所述的步骤e中,有向图的生成具体如下:[0020] 记有向图作D=;其中,[0021] 顶点集V={Ki,Tl},Ki为第i个用户需求关键词或实体,i=1,…,n;Tl表示l张数据信息表,l=1,…,m;[0022] 边集定义为E={,|i=1,2,3,…,n,l=1,…,m,r为第i个用户需求关键词或实体关联的数据信息表};[0023] 当一个用户需求关键词或实体对应同一张数据信息表的几个字段时,取相似度最大的字段,Σr=m。[0024] 前述的基于自然语言语义解析的数据中心智能查询统计方法所述的步骤f具体如下:[0025] 记第i个用户需求关键词或实体对应的第j张数据信息表的权限为Kijp,其中i=1,2,3,…,n,j=n+1,n+2,…,n+m;[0026][0027] Kijf为该字段的使用频次,使用频次越多的字段应优先推荐;[0028] Kijq为该字段的数据质量,量化为百分比数字;[0029] KijSim为匹配到的词相似度,其中i=1,2,3,…,n,j=1,2,…,m;其中,i表示第i个用户需求关键词或实体,j表示匹配到的字段在第j张数据信息表中,n是关键词的个数,m是数据信息表中匹配的表的数量;[0030] 定义权值[0031][0032] 这里[0033][0034] 构造初始权重矩阵[0035][0036] 计算有向图D=的邻接矩阵A,按行归一化后记为A’,最终的权重矩阵[0037] M=Q·(A')T(2)[0038] 数据中心中,数据信息表的重要程度由IPR值决定,IPRk+1表示第k次迭代后的IPR值[0039][0040] I(Tl)为与Tl相关联的关键词的集合,△+(Kj)为与Tl相关联的关键词Kj的出度,初值 一般地β=0.85;[0041][0042] 迭代后稳定值IPR*(Tl)即为每张数据信息表的评价值;[0043] 对Tl的IPR*(Tl)值进行排序,其中l=1,2,…,m,若最大值的表Tj均有,i=1,…,m,则统计、查询任务可以在Tj这张数据信息表内完成,生成与关键词对应关系的SQL。[0044] 前述的基于自然语言语义解析的数据中心智能查询统计方法中,若一张数据信息*表不能完成查询、统计分析任务,依次选择IPR值完成SQL拼接。[0045] 有益效果:与现有技术相比,本发明具有如下优点:[0046] 1.本发明对不同行业的领域增加了自学习的转义词典,能够对不同行业的专业词汇进行学习,使得查询结果更具行业针对性,实用性更强。[0047] 2.本发明在相似度的处理方式上对复合关键词做了词义(语义)拼接,通过该方法更够有效提高查询的精度,极大降低了查询结果噪音。[0048] 3.使用本发明对大型数据中心进行查询统计时,用户无需知道数据中心中表结构,只需要提供数据字典便可自动执行本发明分析查询、统计任务,并且本发明还能够对不同数据库生产结构化语言查询,因此其使用简单方便。[0049] 4.本发明基于词义相似度、数据中心权限、数据质量、精确到字段的使用频次,构建了适用于数据中心的智能推荐算法,对行业词汇的语义进行了转义词库的自学习,避免了因同一词汇在不同行业的不同意义而使得查询结果呈现出不具行业针对性的情况,通过该推荐算法重新定义网络节点及其权重信息后,提高了查询结果与用户查询需求的契合度。附图说明[0050] 图1是本发明流程图。具体实施方式[0051] 下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。[0052] 实施例1。一种基于自然语言语义解析的数据中心智能查询统计方法,在查询任务中,解析具体语义关键词,对关键词中的复合词进行分词,分词后对分词的同义词分析重组,将分析重组的结果与转义字典进行匹配;匹配成功,则分析并建立网络及重新定义权重信息,结合数据信息的数据中心权限、数据质量、使用频次等信息,构建推荐算法将任务所用到的数据中心中的表、字段等拼接成SQL(可以转化为不同的数据库语句)进行查询、统计。[0053] 具体地,所述的查询方法,流程参见图1,图1中Ci,(i=1,2,3,...)代表本发明实施流程的第i个步骤,即下述第a,b,…个步骤;A、B为外部流程编号,N表示不需要接收参数,2s表示最长允许等待时间。[0054] 具体地,所述的查询方法包括下述步骤:[0055] a.接收规范化处理的数据信息;规范化处理的数据信息可为Json格式文件;[0056] b.接收基于用户自然语言,进行语义解析后生成的用户需求关键词或实体;用户需求关键词或实体可标记为K1,K2,…,Kn;[0057] c.针对行业词汇的转义解释,构建带有自学习功能的转义词典;比如“轨迹”转义为“车牌”,因为要完成对车辆行驶轨迹的统计,计算机无法像人一样完成转义的工作,要统计轨迹,数据中心并没有此相似的字段,转而需要在有车牌信息的过车表中完成分析任务,让计算机有自动学习的能力;转义词典的建立,需要多次运行本发明分析任务;[0058] d.在步骤a的数据信息中匹配步骤b的用户需求关键词或实体、用户需求关键词或实体的同义词,和/或关键词的转义后的同义词;对匹配到的相应词汇(即用户需求关键词或实体、用户需求关键词或实体的同义词,和/或关键词的转义后的同义词)及对应的字段Sim信息进行保存记录、建立索引;将匹配到的词相似度记为Ki,j (i=1,2,3,…,n,j=1,2,…,m)这里i表示第几个关键词/实体,j表示匹配到的字段在第几张表中,n是关键词的个数,m是数据信息表中匹配的表的数量。[0059] e.生成由表和关键词为节点、有序对为边构成的有向图;[0060] f.基于有向图构建权重矩阵,以优化PageRank算法评估表及字段并推荐给用户,之后根据数据库类型生成与所述的相应词汇对应关系的SQL。[0061] 具体地,前述的步骤a中,所述的数据信息,是由数据中心所有的数据库、表、字段、中文数据字典、数据质量情况(量化为百分比)、字段使用频次等信息构成的一张或多张数据信息表。[0062] 具体地,前述的步骤c中,转义词典的基本词库可基于维基百科的词库;转义词典的构建如下:[0063] c1.将行业词汇进行分词,标记词性;根据所述的词性到转义词典中进行匹配,匹配到后将原转义词典中对应的词汇替换为转义词;所述的词性包括名词、动词、处所词等;标记词性可采用现有的Python包,比如jieba\hanlp等;[0064] c2.采用词义相似度Sim计算相似度高于90%的词,进行同义词识别,将识别到的同义词添加到转义词典中,所用的词库可基于哈工大词林扩展版。通过方法,能够避免实体中的形容词、副词等影响后续的推荐算法,比如实体“上传时间”,“时间/n”可以是日期,相似度计算可以找到和时间相似(Sim(x,y)>90%)的词语“日期”,那么将“上传”和“日期”进行重组为“上传日期”实现语义拼接,构造相似词向量并记录词向量的相似度值。[0065] 前述的步骤c1中,匹配失败时,返回失败原因,由人工添加解释进转义词典。[0066] 步骤c2中,同义词识别的方法具体为:通过词义相似度Sim计算,识别到相似度值Sim>90%的词汇,之后依据语义拼接构造同义词向量,并记录该词向量的相似度值。[0067] 具体地,前述的步骤d中,若匹配失败,则返回信息给用户以便添加解释进转义词典。[0068] 具体地,前述的步骤e中,有向图的生成具体如下:[0069] 记有向图作D=;其中,[0070] 顶点集V={Ki,Tl},Ki为第i个用户需求关键词或实体,i=1,…,n;Tl表示l张数据信息表,l=1,…,m;[0071] 边集定义为E={,|i=1,2,3,…,n,l=1,…,m,r为第i个用户需求关键词或实体关联的数据信息表};[0072] 当一个用户需求关键词或实体对应同一张数据信息表的几个字段时,取相似度最大的字段,Σr=m。[0073] 具体地,前述的步骤f具体如下:[0074] 大型的数据中心各部门之间数据不一定都会开放权限,因此对于没有权限的用户不能对某些数据进行操作;[0075] 记第i个用户需求关键词或实体对应的第j张数据信息表的权限为Kijp,其中i=1,2,3,…,n,j=n+1,n+2,…,n+m;[0076][0077] Kijf为该字段的使用频次,使用频次越多的字段应优先推荐;[0078] Kijq为该字段的数据质量,量化为百分比数字;[0079] KijSim为匹配到的词相似度,其中i=1,2,3,…,n,j=1,2,…,m;其中,i表示第i个用户需求关键词或实体,j表示匹配到的字段在第j张数据信息表中,n是关键词的个数,m是数据信息表中匹配的表的数量;[0080] 定义权值[0081][0082] 这里[0083][0084] 构造初始权重矩阵[0085][0086] 计算有向图D=的邻接矩阵A,按行归一化后记为A’,最终的权重矩阵[0087] M=Q·(A')T(2)[0088] 数据中心中,数据信息表的重要程度由IPR值决定,IPRk+1表示第k次迭代后的IPR值[0089][0090] I(Tl)为与Tl相关联的关键词的集合,△+(Kj)为与Tl相关联的关键词Kj的出度,初值 一般地β=0.85;[0091][0092] 迭代后稳定值IPR*(Tl)即为每张数据信息表的评价值;[0093] 对Tl的IPR*(Tl)值进行排序,其中l=1,2,…,m,若最大值的Tj均有,i=1,…,m,则统计、查询任务可以在Tj这张数据信息表内完成,生成与关键词对应关系的SQL;*若一张数据信息表不能完成查询、统计分析任务,依次选择IPR值完成SQL拼接。
专利地区:贵州
专利申请日期:2020-09-28
专利公开日期:2024-08-30
专利公告号:CN112131246B