可左右滑动选省市

一种基于域感知的简单问题知识库问答方法发明专利

更新时间:2024-07-01
一种基于域感知的简单问题知识库问答方法发明专利 专利申请类型:发明专利;
地区:辽宁-沈阳;
源自:沈阳高价值专利检索信息库;

专利名称:一种基于域感知的简单问题知识库问答方法

专利类型:发明专利

专利申请号:CN202111067002.9

专利申请(专利权)人:东北大学
权利人地址:辽宁省沈阳市和平区文化路三巷11号

专利发明(设计)人:李红羽,姜琳颖

专利摘要:本发明属于智能问答的技术领域,具体涉及一种基于域感知的简单问题知识库问答方法,其包括指称识别、实体链接、候选事实生成及事实选取等步骤。本发明的方法提出利用实体的类型信息和字形信息对主语候选集做一个排序,提高了主语候选集的召回率,对具有相同名字的主语进行有效的消歧,而且减少了错误的传播。本发明的方法提高了基于知识库的单关系问答的准确性。

主权利要求:
1.一种基于域感知的简单问题知识库问答方法,其特征在于,所述的基于域感知的简单问题知识库问答方法包括以下步骤:(1)指称识别:采用BiLSTM‑CRF算法识别出问题中提到的实体指称,实体指称识别的输出作为实体链接的输入;
(2)实体链接:给定指称识别的输出结果,基于字典将实体指称映射到知识库中的节点,生成候选主语集;利用候选实体的类型信息和字形信息与问题的相关度为主语候选集排序;
进一步包括以下步骤:
步骤S201)将实体指称映射到知识库中的节点,生成候选实体集;
步骤S202)计算步骤S201)中获得的候选实体的类型信息与问题的相关度得分;
步骤S203)计算出候选实体的字形与问题的相似度得分Sl,再计算候选实体与问题的相关度的最终得分,表示为:Ss=αSl+(1‑αSt)
其中,Sl为类型信息与问题的相关度得分,α为字形与问题相似度得分度权重:步骤S204)根据得分,对候选实体进行排序,选择前N个实体作为候选实体集;
(3)候选事实生成:根据步骤(2)中获得的候选实体,以候选实体为头实体从知识库中召回事实三元组作为候选事实集;
(4)事实选取:利用一个事实匹配与域匹配相结合的事实选择模型从候选事实集和中挑选出与问题最匹配的事实作为问题的答案;
进一步包括以下步骤:
步骤S401)域匹配,使用孪生网络进行匹配,用余弦相似度衡量匹配度;
步骤S402)计算事实匹配得分,事实匹配由主语匹配Ssub与谓词匹配Spre两部分组成:Sfac=Ssub+Spre
步骤S403)结合事实语义匹配和域匹配两部分为候选事实计算一个最终评分:S=Sdom+Sfac。
2.根据权利要求1所述的基于域感知的简单问题知识库问答方法,其特征在于,步骤S202)进一步包括以下步骤:步骤S2021)用GloVe为实体类型中的每一个词编码,生成实体类型的词向量:ti=ENC(w1,w2,...)
其中,wi(i=1,2,3...)是每一个类型中的一个词,ENC是用GloVe为实体类型的每一个词编码;
步骤S2022)把步骤S2021)中获得的实体类型的词向量通过一个平均池化层,得到最终的类型语义表示:Rt=avg(t1,t2,...)
其中,avg是平均池化,ti(i=1,2,3..)是实体类型词的词向量;
步骤S2023)用GloVe为问题中的每一个词编码,生成问题的词向量qj(j=1,2,3…),用余弦相似度计算类型的语义表示对问题中每个词的注意力权重,加权求和得到问题语义表示Rq:aj=cos(qj,Rt)
其中,cos是计算余弦相似度,aj是余弦相似度得分,αj是归一化之后的注意力权重;
步骤S2024)用余弦相似度计算候选实体的类型信息与问题的相关度得分St:St=cos(Rq,Rt)。
3.根据权利要求1或2所述的基于域感知的简单问题知识库问答方法,其特征在于,步骤S401)进一步包括以下步骤:步骤S4011)将整个问题作为输入提取问题域的特征,用卷积神经网络作为特征提取器,最大池化之后得到问题域的语义表示:ei=ENC(wi)
rj=tanh(W·ci+b)
dq=max(r1,r2,…rl)
nd
其中,wi是问题中的每个词,ci∈R 是ei的拼接,W是权重矩阵,b是偏置项,n是卷积核的尺寸,l是问题的词长度;同理得到事实的域的语义表示dl;
步骤S4012)计算问题域与事实域的匹配得分为:Sdom=cos(dq,df)。
4.根据权利要求3所述的基于域感知的简单问题知识库问答方法,其特征在于,步骤(4)后还包括以下步骤:(5)训练事实选取模型:根据步骤(4)构造的事实选取模型,使用公开的SimpleQuestions数据集中的训练集进行训练,得到带有参数权重的事实选取模型;
(6)预测问题答案:将SimpleQuestions数据集中测试集的数据依次根据步骤(1)到步骤(3)得到问题的候选事实集,再通过步骤(5)训练好的事实选取模型选出得分最高的一个事实作为问题的答案。 说明书 : 一种基于域感知的简单问题知识库问答方法技术领域[0001] 本发明属于智能问答的技术领域,具体涉及一种基于域感知的简单问题知识库问答方法。背景技术[0002] 问答是自然语言处理的一个核心领域,它应用广泛,比如虚拟家庭助手、客服、聊天机器人等。随着包含大量丰富信息的知识库的出现(就像Freebase、DBpedia和WikiData),人们开始将越来越多的注意力集中到如何高效的利用知识库来进行问答。然而知识库很大,需要用专门的查询语句,所以对用户很不友好,因此基于知识库的问答成为了问答领域一个重要的研究方向。知识库是由一条一条的知识汇聚起来,由三元组的形式表示,这些知识包含了回答问题的信息。为了方便计算机的处理和理解,用三元组的形式表示一条知识,即(主语,谓词,宾语),每一个三元组称为一个事实。知识库问答就是通过对给定问题进行语义理解和解析,进而在知识库查询与问题最匹配的三元组(即为事实选取),三元组的尾实体就是问题的答案。[0003] 有两种主要对方法来解决知识库问答,一种是基于语义解析的方法,通过将自然语言问题解析为结构化查询语句(例如SPARQL),然后在知识库上执行查询语句,返回问题的答案。随着深度学习的发展,基于神经网络的相似度匹配方法逐渐变成了解决知识库问答的主流方法。这种方法主要分为两步完成,第一步实体链接,根据问题中的指称,映射到知识库中,从知识库中召回候选实体集。有许多不同的方法用于实体链接,Yin等人利用最长公共子序对候选实体评分(SimplequestionansweringbyattentiveconvolutionalneuralnetworkW.Yin,M.Yu,B.Xiang,B.Zhou,H.Schütze,Simplequestionansweringbyattentiveconvolutionalneuralnetwork,in:ProceedingsofCOLING2016,the26thInternationalConferenceonComputationalLinguistics:TechnicalPapers,TheCOLING2016OrganizingCommittee,Osaka,Japan,2016,pp)。Yu等人利用与实体相连的关系的信息对候选实体评分(IprovedneuralrelationdetectionforknowledgebasequestionansweringM.Yu,W.Yin,K.S.Hasan,C.dosSantos,B.Xiang,B.Zhou,Improvedneuralrelationdetectionforknowledgebasequestionanswering,in:Proceedingsofthe55thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers),AssociationforComputationalLinguistics,Vancouver,Canada,2017,pp.571–581.)。Zhao等人利用指称与知识库中实体的字形与字义两部分的相似度得分对实体评分(Simplequestionansweringwithsubgraphrankingandjoint‑scoringW.Zhao,T.Chung,A.Goyal,A.Metallinou,Simplequestionansweringwithsubgraphrankingandjoint‑scoring,in:Proceedingsofthe2019ConferenceoftheNorthAmericanChapterof theAssociationforComputationalLinguistics:HumanLanguageTechnologies,Volume1(LongandShortPapers),AssociationforComputationalLinguistics,Minneapolis,Minnesota,2019,pp.),解决两者之间的不精确匹配问题。[0004] 根据候选实体集再从知识库中选出事实三元组作为候选事实集,第二步事实选取,即从候选事实集中选出与问题最匹配的事实,事实三元组的尾实体即为问题的答案。对于第一步,现有的方法首先用一个序列标记模型将问题标记为实体指称部分(mention)和非实体指称部分(pattern),然后用mention作为指导从知识库中找到包含mention的实体构成主语候选集。第二步普遍的做法是分别将mention与主语和pattern与谓词做匹配,使用不同的神经网络表示问题与事实,计算两者的相似度得分,然后选出得分最高的事实。Yih等人利用卷积神经网络分别表示问题和事实(Semanticparsingviastagedquerygraphgeneration:QuestionansweringwithknowledgebaseS.W.‑t.Yih,M.‑W.Chang,X.He,J.Gao,Semanticparsingviastagedquerygraphgeneration:Questionansweringwithknowledgebase(2015).),Bordes等人提出利用记忆网络(Large‑scalesimplequestionansweringwithmemorynetworksA.Bordes,N.Usunier,S.Chopra,J.Weston,Large‑scalesimplequestionansweringwithmemorynetworks,arXivpreprintarXiv:1506.02075(2015).)。Qu等人利用循环神经网络和卷积神经网络去捕捉问题和谓词之间的浅层和深层语义相似度(QuestionansweringoverfreebaseviaattentivernnwithsimilaritymatrixbasedcnnY.Qu,J.Liu,L.Kang,Q.Shi,D.Ye,Questionansweringoverfreebaseviaattentivernnwithsimilaritymatrixbasedcnn,arXivpreprintarXiv:1804.0331738(2018).)[0005] )。最近,Zhao等人利用主语和谓词之间的依赖性提高事实选取的准确性(Simplequestionansweringwithsubgraphrankingandjoint‑scoringW.Zhao,T.Chung,A.Goyal,A.Metallinou,Simplequestionansweringwithsubgraphrankingandjoint‑scoring,in:Proceedingsofthe2019ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies,Volume1(LongandShortPapers),AssociationforComputationalLinguistics,Minneapolis,Minnesota,2019,pp.)。[0006] 虽然已有的方法对解决这个任务效果明显,但是它们有两个个缺点。第一,实体歧义问题,在实体链接的部分,主语候选集由许多具有相似或相同名字的实体构成,然而之前的方法不能很好地解决当实体具有相同实体名时的矛盾,无法确定哪一个实体才是问题中提及的实体。第二,域不匹配问题,在事实选取的时候,之前的方法将问题切分成两部分分别提取信息,这样就会导致问题全局信息的丢失,进而导致问题与事实之间域不匹配的问题。发明内容[0007] 本发明的目的在于通过解决实体链接部分的实体歧义问题和事实选取部分的问题与事实之间域不匹配的问题,进而提高基于知识库的简单问题问答的准确性。[0008] 本发明提出了一种基于域感知的简单问题知识库问答方法。为了解决上述实体链接中实体名歧义的问题,本发明提出利用实体的类型信息对主语候选集中具有相同实体名的实体进行消歧。在这些具有相同实体名的实体中,如果一个主语实体与问题中提到的实体具有相同的类型,那么这个主语实体更有可能是正确的实体。而且由于实体之间字形的匹配会提供一个更直接的线索,所以本发明利用实体的类型信息和字形信息对主语候选集做一个排序。为了解决全局信息的丢失导致问题与事实的域不匹配问题,本发明提出了一个事实匹配与域匹配相结合的事实选择模型。该模型通过将mention和pattern放到一起提取问题域的信息,然后检查问题与事实是否属于一个域。本发明不仅利用问题与事实之间的语义相似性,而且利用问题与事实之间域的一致性提高事实选取的准确性。[0009] 为了实现上述目的,本发明提出了一种基于域感知的简单问题知识库问答方法。给定一个问题与知识库,利用本发明提出的方法回答这个问题,包括以下步骤:[0010] (1)指称识别:采用通用的BiLSTM‑CRF算法识别出问题中提到的实体指称,实体指称识别的输出作为实体链接的输入。[0011] (2)实体链接:给定指称识别的输出结果,基于字典将实体指称映射到知识库中的节点,生成候选主语集。利用候选实体的类型信息和字形信息与问题的相关度为主语候选集排序。具体包括如下步骤:[0012] 步骤S201)将实体指称映射到知识库中的节点,生成候选实体集;[0013] 步骤S202)计算步骤S201)中获得的候选实体的类型信息与问题的相关度得分,如图2所示;具体包括[0014] 步骤S2021)用GloVe为实体类型中的每一个词编码,生成实体类型的词向量:[0015] ti=ENC(w1,w2,...)[0016] 其中,wi(i=1,2,3...)是每一个类型中的一个词,ENC是用GloVe为实体类型的每一个词编码;[0017] 步骤S2022)把步骤S2021)中获得的实体类型的词向量通过一个平均池化层,得到最终的类型语义表示:[0018] Rt=avg(t1,t2,...)[0019] 其中,avg是平均池化,ti(i=1,2,3..)是实体类型词的词向量;[0020] 步骤S2023)用GloVe为问题中的每一个词编码,生成问题的词向量qj(j=1,2,3...),用余弦相似度计算类型的语义表示对问题中每个词的注意力权重,加权求和得到问题语义表示Rq:[0021][0022][0023] aj=cos(qj,Rt)[0024] 其中,cos是计算余弦相似度,αj是余弦相似度得分,αj是归一化之后的注意力权重;[0025] 步骤S2024)用余弦相似度计算候选实体的类型信息与问题的相关度得分St:[0026] St=cos(Rq,Rt)[0027] 步骤S203)计算出候选实体的字形与问题的相似度得分Sl,再计算候选实体与问题的相关度的最终得分表示为:[0028] Ss=αSl+(1‑αSt)[0029] 其中,α为字形与问题相似度得分度权重;[0030] 步骤S204)根据得分,对候选实体进行排序,选择前N个实体作为候选实体集。[0031] (3)候选事实生成:根据步骤(2)中获得的候选实体,以候选实体为头实体从知识库中召回事实三元组作为候选事实集;[0032] (4)事实选取:利用一个事实匹配与域匹配相结合的事实选择模型从候选事实集和中挑选出与问题最匹配的事实作为问题的答案。图3为事实选取模型图,包括以下步骤:[0033] 步骤S401)域匹配,使用孪生网络进行匹配,用余弦相似度衡量匹配度,具体包括如下步骤:[0034] 步骤S4011)将整个问题作为输入提取问题域的特征,用卷积神经网络作为特征提取器,最大池化之后得到问题域的语义表示:[0035] ei=ENC(wi)[0036] rj=tanh(W·ci+b)[0037] dq=max(r1,r2,...rl)[0038] 其中,wi是问题中的每个词,ci∈Rnd是ei的拼接,W是权重矩阵,b是偏置项,n是卷积核的尺寸,是问题的词长度;同理得到事实的域的语义表示df;[0039] 步骤S4012)计算问题域与事实域的匹配得分为:[0040] Sdom=cos(dq,df)[0041] 步骤S402)计算事实匹配得分,事实匹配由主语匹配Ssub与谓词匹配Spre两部分组成:[0042] Sfac=Ssub+Spre[0043] 步骤S403)结合事实语义匹配和域匹配两部分为候选事实计算一个最终评分:[0044] S=Sdom+Sfac[0045] 可见,由于在实体连接的部分,主语候选集由许多具有相似或相同名字的实体构成,然而之前的方法不能很好地解决当实体具有相同实体名时的矛盾,无法确定哪一个实体才是问题中提及的实体。为了解决上述实体连接中实体名歧义的问题,本发明提出利用实体的类型信息对主语候选集中具有相同实体名的实体进行消歧。在这些具有相同实体名的实体中,如果一个主语实体与问题中提到的实体具有相同的类型,那么这个主语实体更有可能是正确的实体。而且由于实体之间字形的匹配会提供一个更直接的线索,所以本发明利用实体的类型信息和字形信息对主语候选集做一个排序,提高候选实体的召回率。[0046] 由于在事实选取的时候,之前的方法将问题切分成两部分分别提取信息,这样就会导致问题全局信息的丢失,进而导致问题与事实之间域不匹配的问题。为了解决全局信息的丢失导致问题与事实的域不匹配问题,本发明提出了一个事实匹配与域匹配相结合的事实选择模型。该模型通过将mention和pattern放到一起提取问题域的信息,然后检查问题与事实是否属于一个域。本发明不仅利用问题与事实之间的语义相似性,而且利用问题与事实之间域的一致性提高事实选取的准确性。[0047] 通过对这两部分的改进,提高了基于知识库的简单问题问答的准确性。[0048] 与现有技术相比,本发明的有益效果在于:[0049] 1、本发明的方法提出利用实体的类型信息和字形信息对主语候选集做一个排序,提高了主语候选集的召回率,对具有相同名字的主语进行有效的消歧,而且减少了错误的传播。[0050] 2、本发明的方法提出了一个事实匹配与域匹配相结合的事实选择模型,该模型可以解决由于问题和事实的域不一致导致的挑选出错误事实的问题。[0051] 3、本发明的方法提高了基于知识库的单关系问答的准确性。附图说明[0052] 图1为基于知识库的域感知简单问题问答方法流程图。[0053] 图2为候选主语排序的模型图。[0054] 图3为事实选取的模型图。具体实施方式[0055] 以下结合附图和技术方案,进一步说明本发明的具体实施方式。[0056] 为了便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明进行进一步阐释。[0057] 如图1所示,本发明的一种基于域感知的简单问题知识库问答方法,包括以下步骤:[0058] (1)指称识别:采用通用的BiLSTM‑CRF算法识别出问题中提到的实体指称,实体指称识别的输出作为实体链接的输入。[0059] (2)实体链接:给定指称识别的输出结果,基于字典将实体指称映射到知识库中的节点,生成候选主语集。利用候选实体的类型信息和字形信息与问题的相关度为主语候选集排序。具体包括如下步骤:[0060] 步骤S201)将实体指称映射到知识库中的节点,生成候选实体集;[0061] 步骤S202)计算步骤S201)中获得的候选实体的类型信息与问题的相关度得分,如图2所示;具体包括[0062] 步骤S2021)用GloVe为实体类型中的每一个词编码,生成实体类型的词向量:[0063] ti=ENC(w1,w2,...)[0064] 其中,wi(i=1,2,3...)是每一个类型中的一个词,ENC是用GloVe为实体类型的每一个词编码;[0065] 步骤S2022)把步骤S2021)中获得的实体类型的词向量通过一个平均池化层,得到最终的类型语义表示:[0066] Rt=avg(t1,t2,...)[0067] 其中,avg是平均池化,ti(i=1,2,3..)是实体类型词的词向量;[0068] 步骤S2023)用GloVe为问题中的每一个词编码,生成问题的词向量qj(j=1,2,3...),用余弦相似度计算类型的语义表示对问题中每个词的注意力权重,加权求和得到问题语义表示Rq:[0069][0070][0071] aj=cos(qj,Rt)[0072] 其中,cos是计算余弦相似度,aj是余弦相似度得分,αj是归一化之后的注意力权重;[0073] 步骤S2024)用余弦相似度计算候选实体的类型信息与问题的相关度得分St:[0074] St=cos(Rq,Rt)[0075] 步骤S203)用已有的方法(Yin等人(Simplequestionansweringbyattentiveconvolutionalneura1network)公开的方法)计算出候选实体的字形与问题的相似度得分Sl,再计算候选实体与问题的相关度的最终得分表示为:[0076] Ss=αSl+(1‑αSt)[0077] 步骤S204)根据得分,对候选实体进行排序,选择前N个实体作为候选实体集。[0078] (3)候选事实生成:根据步骤2)中获得的候选实体,以候选实体为头实体从知识库中召回事实三元组作为候选事实集;[0079] (4)事实选取:利用一个事实匹配与域匹配相结合的事实选择模型从候选事实集和中挑选出与问题最匹配的事实作为问题的答案。图3为事实选取模型图,包括以下步骤:[0080] 步骤S401)域匹配,使用孪生网络进行匹配,用余弦相似度衡量匹配度,具体包括如下步骤:[0081] 步骤S4011)将整个问题作为输入提取问题域的特征,用卷积神经网络作为特征提取器,最大池化之后得到问题域的语义表示:[0082] ei=ENC(wi)[0083] rj=tanh(W·ci+b)[0084] dq=max(r1,r2,...rl)[0085] 其中,wi是问题中的每个词,ci∈Rnd是ei的拼接,W是权重矩阵,b是偏置项,n是卷积核的尺寸,是问题的词长度;同理得到事实的域的语义表示df;[0086] 步骤S4012)计算问题域与事实域的匹配得分为:[0087] Sdom=cos(dq,df)[0088] 步骤S402)计算事实匹配得分,事实匹配由主语匹配Ssub与谓词匹配Spre两部分组成:[0089] Sfac=Ssub+Spre[0090] 步骤S403)结合事实语义匹配和域匹配两部分为候选事实计算一个最终评分:[0091] S=Sdom+Sfac[0092] (5)训练事实选取模型:根据步骤(4)构造的事实选取模型,使用公开的SimpleQuestions数据集中的训练集进行训练,得到带有参数权重的事实选取模型;[0093] (6)预测问题答案:将SimpleQuestions数据集中测试集的数据依次根据步骤(1)到步骤(3)得到问题的候选事实集,再通过步骤(5)训练好的事实选取模型选出得分最高的一个事实作为问题的答案。[0094] 以上实施例只是在SimpleQuestions数据集上的实施方式,但本发明并不局限于此数据集。[0095] 以上示例性实施方式所呈现的描述仅用以说明本发明的技术方案,并不想要成为毫无遗漏的,也不想要把本发明限制为所描述的精确形式。显然,本领域的普通技术人员根据上述教导做出很多改变和变化都是可能的。选择示例性实施方式并进行描述是为了解释本发明的特定原理及其实际应用,从而使得本领域的其它技术人员便于理解、实现并利用本发明的各种示例性实施方式及其各种选择形式和修改形式。本发明的保护范围意在由所附权利要求书及其等效形式所限定。

专利地区:辽宁

专利申请日期:2021-09-13

专利公开日期:2024-06-18

专利公告号:CN113946666B

电话咨询
读内容
搜本页
回顶部