可左右滑动选省市

一种基于同等注意力图网络的视觉问答方法发明专利

更新时间:2024-10-01
一种基于同等注意力图网络的视觉问答方法发明专利 专利申请类型:发明专利;
地区:江苏-南京;
源自:南京高价值专利检索信息库;

专利名称:一种基于同等注意力图网络的视觉问答方法

专利类型:发明专利

专利申请号:CN202110163405.7

专利申请(专利权)人:南京航空航天大学
权利人地址:江苏省南京市秦淮区御道街29号

专利发明(设计)人:袁家斌,王天星,刘昕

专利摘要:本发明公开了一种基于同等注意力图网络的视觉问答方法,包括以下步骤,首先,提取输入图像的区域目标特征,将图像转换成图表示,并对输入的问题进行编码;然后,建立一个基于图网络的视觉问答模型,将处理过程划分为两个阶段:第一阶段对图表示应用同等注意力机制,得到新的节点特征与关系边特征,第二阶段将第一阶段得到的节点特征与关系边特征融合成图特征,并与问题交互得到新的图特征,最终将得到的图特征与问题共同推断出答案。本发明实施于图像视觉问答,相比于利用整体图像特征的传统方法或是忽略关系重要性的其他图网络视觉问答方法,采用本发明的技术方案将有效提升视觉问答模型的性能。

主权利要求:
1.一种基于同等注意力图网络的视觉问答方法,其特征在于,包括以下步骤:步骤1,对输入的图像I进行预处理,将图像I送入特征提取网络,得到由K个置信度最高的区域的特征组成的区域目标特征;
步骤2,为了得到输入特征表示,利用步骤1得到的区域目标特征将图像I转换成图表示G,G包括目标对象代表的节点和对象间的关系对应的关系边,并对输入的问题文本Q进行词嵌入由预训练的GloVe向量初始化,并使用双向GRU进行编码,得到问题特征q;
所述步骤2包括以下步骤:
将图像I代表的图表示G定义如下:
G=(V,E)
V={vl|l=1,…,N}
E={eij|i,j=1,…,N}
其中:N为节点的数量,V表示图像中所有目标对象代表的节点特征,vl表示节点l的特征;E表示目标对象之间的关系对应的关系边特征,eij表示节点i到节点j对应的关系边特征;为了计算方便,节点特征与关系边特征将映射到同一维度的特征空间;
图表示有两种形式;第一种形式使用数据集可以提供的包含标签的真实场景图的标注信息,即将对象标签的嵌入作为节点特征,关系标签嵌入作为关系边特征;在这样的设定下,对象标签和关系标签所使用的词汇被限定了范围;先收集所有的标签,将其保存为字典形式,再使用一个C×d维的实数嵌入矩阵O将标签映射成d维的向量,C表示的是标签的个数;最后用对应的标签嵌入的拼接来分别表示节点特征和边特征;第二种形式就是以步骤1得到的区域目标特征作为节点特征,节点特征之间的融合作为关系边特征;
除了将图像转换成图表示之外,也要将输入的问题文本处理成模型可以接受的形式;
首先将问题文本Q中所有单词都转换成小写,并且删去如句号、问号不影响问题本意的符号;然后将其进行分词,接着将这些单词进行词嵌入处理;词嵌入是一种将文本中的词转换成实数向量的方法,这样转换成向量的方式方便计算词嵌入处理后的问题嵌入Wq表示为:Wq={wr|r=1,…,t}
其中:t为问题文本Q包含的单词个数,wr即为第r个单词的词嵌入,使用预训练的GloVe向量初始化词嵌入;接着将处理好的问题嵌入Wq送入双向GRU进行编码,过程通过如下等式表示:[h1,…,ht]=BiGRU(Wq)
q=[h1;ht]
其中:h1是第一个隐藏向量,ht是最后一个隐藏向量;q即为问题特征,由第一个隐藏向量与最后一个隐藏向量的拼接产生,将参与到后面的具体计算过程当中;
步骤3,对步骤2得到的图表示G应用同等注意力机制,获得新的节点特征和关系边特征;同等注意力机制是根据输入的问题特征q分别对图中的节点特征及关系边特征计算注意力权重,赋予关系边与目标节点同等的重要性,找到与问题最相关的目标对象与关系信息;
所述步骤3包括以下步骤:
接收了输入的图表示和问题特征之后,在图表示上同等应用注意力机制,分别找出解答问题关键的节点与边;首先将节点注意力权重向量表示为a={al∈[0,1]|l=1,…,N},其中:N为节点的数量,al为节点l的权重,值在0到1之间;计算节点注意力权重的过程表示如下:a=softmax(ReLU(W1V)⊙ReLU(W2q))v′l=alvl
V′={v′l|l=1,…,N}
其中:⊙表示对应元素相乘,W1和W2是权重参数矩阵,得到了节点注意力权重向量a,并接着更新应用了注意力机制之后的节点特征为新节点特征V′,v′l为新的节点l的特征;
边注意力权重矩阵表示为W={Wij∈[0,1]|i,j=1,…,N},其中:N为节点的数量,Wij代表了节点i到节点j对应边的权重,值在0到1之间;为了捕捉节点间的交互关系,找到与问题相关的关系边,计算边注意力权重W的过程表示如下:W=softmax(ReLU(W3E)⊙ReLU(W4q))E′=WE
其中:W3和W4是权重参数矩阵,并更新了新关系边特征E′;
步骤4,将步骤3得到的新节点特征与关系边特征进行融合操作,获得代表整个图的图特征,并再次应用注意力机制,更新图特征为新图特征;新节点特征与关系边特征进行的融合操作通过整合新节点特征与其关联的上下文信息来实现;
所述步骤4包括以下步骤:
首先通过收集整合节点l周边与它关联的上下文信息获得与此节点相关的关系信息:nl=e′l,:⊙V′
其中:e′l,:表示节点l与其他节点间的关系边特征,nl表示得到的节点l的上下文信息,包含了与自身节点有关联的关系边和节点的信息;接着将节点特征与上下文特征融合,整合成完整的图特征:xl=W5[v′l;nl]
其中:W5是权重参数矩阵,[v′l;nl]表示的是特征拼接操作,xl为得到的图特征;之后对融合后的图特征也应用注意力机制,进一步确定与问题最相关的信息:a′l=softmax(ReLU(W6xl)⊙ReLU(W7q))其中:W6和W7是权重参数矩阵,a′l为对应图特征的注意力权重,X′为加权求和之后得到的新图特征,并用于预测最终的答案;
步骤5,将步骤4得到的新图特征与步骤2中得到的问题特征q送入分类器联合推断出答案,其中答案从分类器给出的概率最高的候选答案标签中选出;
所述步骤5包括以下步骤:
先将新图特征X′与问题特征q进行特征融合,操作如下:
2
Z=ReLU(W8X′+W9q)‑(W8X′‑W9q)其中,W8和W9为权重参数矩阵,Z为融合后的最终特征,并将其送入softmax分类器,得到各个候选答案的概率,最后选出概率最大的标签,以此作为最终预测的答案。
2.根据权利要求1所述的一种基于同等注意力图网络的视觉问答方法,其特征在于:所述步骤1中使用的特征提取网络为FasterR‑CNN网络,K的值为36,每个区域目标特征都由一个2048维的向量表示。 说明书 : 一种基于同等注意力图网络的视觉问答方法技术领域[0001] 本发明属于图像视觉问答技术领域,具体涉及一种基于同等注意力图网络的视觉问答方法。背景技术[0002] 视觉问答是根据给定的图像和自由开放式的自然语言问题,输出对应的自然语言答案的任务。作为视觉理解的一个研究方向,视觉问答是计算机视觉和自然语言处理交叉的研究课题,连接着视觉和语言。如今随着计算机视觉与自然语言处理两大研究领域技术的发展,视觉问答已经成为了一个极具吸引力和活力的研究方向。由于视觉问答需要同时处理多模态信息的能力,它被认为是通用人工智能的一项基准测试,对人工智能的发展有着极其重要的意义。此外,它还可以应用到现实生活中,如图像的快速检索、聊天机器人、视障人群的生活助手等等。由于神经网络在当下深度学习领域的广泛应用,当前大部分视觉问答方法利用预训练的卷积神经网络模型提取整体特征表示,进一步加入注意力机制与问题特征结合。尽管这些方法证明了它们的价值,但它们在很大程度上忽略了所给图像的结构,无法有效地锁定场景中的目标,使其在大规模交互的关系推理中面临着问题。发明内容[0003] 为了解决现有技术中的问题,本发明提出一种基于同等注意力图网络的视觉问答方法,赋予图网络中关系边与目标节点同等的重要性,能够有效提升视觉问答模型的性能。[0004] 为实现上述目的,本发明采用的技术方案为:[0005] 一种基于同等注意力图网络的视觉问答方法,包括以下步骤:[0006] 步骤1,对输入的图像I进行预处理,将图像I送入特征提取网络,得到由K个置信度最高的区域的特征组成的区域目标特征;[0007] 步骤2,为了得到输入特征表示,利用步骤1得到的区域目标特征将图像I转换成图表示G,G包括目标对象代表的节点和对象间的关系对应的关系边,并对输入的问题文本Q进行词嵌入处理和编码,得到问题特征q;[0008] 步骤3,对步骤2得到的图表示G应用同等注意力机制,获得新的节点特征和关系边特征;[0009] 步骤4,将步骤3得到的新节点特征与关系边特征进行融合操作,获得代表整个图的图特征,并再次应用注意力机制,更新图特征为新图特征;[0010] 步骤5,将步骤4得到的新图特征与步骤2中得到的问题特征q送入分类器联合推断出答案。[0011] 进一步的,所述步骤1中使用的特征提取网络为FasterR‑CNN网络,K的值为36,每个区域目标特征都由一个2048维的向量表示。[0012] 进一步的,所述步骤2中问题文本Q的词嵌入由预训练的GloVe向量初始化,并使用双向GRU进行编码。[0013] 进一步的,所述步骤3中同等注意力机制是根据输入的问题特征q分别对图中的节点特征及关系边特征计算注意力权重,赋予关系边与目标节点同等的重要性,找到与问题最相关的目标对象与关系信息。[0014] 进一步的,所述步骤4中新节点特征与关系边特征进行的融合操作通过整合新节点特征与其关联的上下文信息来实现。[0015] 进一步的,所述步骤5中答案从分类器给出的概率最高的候选答案标签中选出。[0016] 本发明相比于现有技术,具有以下有益效果:[0017] 本发明是一种基于同等注意力图网络的视觉问答模型,可以解答关于给定图像的自然语言问题。通过本发明建立的视觉问答模型,在图结构之上执行解答过程,有利于视觉内容和文本语言在语义层次的交互,并且能够让回答问题的依据更加充分,改善了模型的性能。附图说明[0018] 图1是基于同等注意力图网络的视觉问答方法的处理过程;[0019] 图2是基于同等注意力图网络的视觉问答模型的结构图。具体实施方式[0020] 下面结合实施例对本发明作更进一步的说明。[0021] 实施例1[0022] 一种基于同等注意力图网络的视觉问答方法,包括以下步骤:[0023] 步骤1,对输入的图像I进行预处理,将图像I送入特征提取网络,得到由K个置信度最高的区域的特征组成的区域目标特征;[0024] 作为一个优选方案,所述步骤1中使用的特征提取网络为FasterR‑CNN网络,K的值为36,每个区域目标特征都由一个2048维的向量表示。[0025] 步骤2,为了得到输入特征表示,利用步骤1得到的区域目标特征将图像I转换成图表示G,G包括目标对象代表的节点和对象间的关系对应的关系边,并对输入的问题文本Q进行词嵌入处理和编码,得到问题特征q;[0026] 作为一个优选方案,所述步骤2中问题文本Q的词嵌入由预训练的GloVe向量初始化,并使用双向GRU进行编码。[0027] 步骤3,对步骤2得到的图表示G应用同等注意力机制,获得新的节点特征和关系边特征;[0028] 作为一个优选方案,所述步骤3中同等注意力机制是根据输入的问题特征q分别对图中的节点特征及关系边特征计算注意力权重,赋予关系边与目标节点同等的重要性,找到与问题最相关的目标对象与关系信息。[0029] 步骤4,将步骤3得到的新节点特征与关系边特征进行融合操作,获得代表整个图的图特征,并再次应用注意力机制,更新图特征为新图特征;[0030] 作为一个优选方案,所述步骤4中新节点特征与关系边特征进行的融合操作通过整合新节点特征与其关联的上下文信息来实现。[0031] 步骤5,将步骤4得到的新图特征与步骤2中得到的问题特征q送入分类器联合推断出答案。[0032] 作为一个优选方案,所述步骤5中答案从分类器给出的概率最高的候选答案标签中选出。[0033] 实施例2[0034] 一种基于同等注意力图网络的视觉问答方法,包括以下步骤:[0035] 步骤1,对输入的图像I进行预处理,将图像I送入特征提取网络,得到由K个置信度最高的区域的特征组成的区域目标特征。这里使用的特征提取网络为FasterR‑CNN网络,K的值为36,每个区域目标特征都由一个2048维的向量表示。[0036] 这里的FasterR‑CNN网络的训练过程具体来说,先是利用在ImageNet数据集上预训练好的ResNet‑101网络来初始化FasterR‑CNN模型,然后再利用VisualGenome数据集的标注信息对模型进行训练。[0037] 步骤2,为了得到输入特征表示,利用步骤1得到的区域目标特征将图像I转换成图表示G,G由目标对象代表的节点和对象间的关系对应的关系边组成,并对输入的问题文本Q进行词嵌入处理和编码,得到问题特征q。问题文本Q的词嵌入由预训练的GloVe向量初始化,并使用双向GRU进行编码。[0038] 1.1图表示[0039] 本发明将图像I代表的图表示G定义如下:[0040] G=(V,E)[0041] V={vl|l=1,…,N}[0042] E={eij|i,j=1,…,N}[0043] 其中:N为节点的数量,V表示图像中所有目标对象代表的节点特征,vl表示节点l的特征;E表示目标对象之间的关系对应的关系边特征,eij表示节点i到节点j对应的关系边特征。为了计算方便,节点特征与关系边特征将映射到同一维度的特征空间。[0044] 与相对成熟的目标检测技术相比,现实世界图像的场景图生成仍然是正在研究的课题,想要获得质量良好的场景图是困难的。所以本发明的图表示有两种形式。第一种形式使用数据集可以提供的包含标签的真实场景图的标注信息。具体来讲,将对象标签的嵌入作为节点特征,关系标签嵌入作为关系边特征。在这样的设定下,对象标签和关系标签所使用的词汇被限定了范围。先收集所有的标签,将其保存为字典形式,再使用一个C×d维的实数嵌入矩阵O将标签映射成d维的向量,C表示的是标签的个数。最后用对应的标签嵌入的拼接来分别表示节点特征和边特征。第二种形式就是以步骤1得到的区域目标特征作为节点特征,节点特征之间的融合作为关系边特征。[0045] 1.2问题表示[0046] 除了将图像转换成图表示之外,也要将输入的问题文本处理成模型可以接受的形式。首先将问题文本Q中所有单词都转换成小写,并且删去如句号、问号等不影响问题本意的符号。然后将其进行分词,接着将这些单词进行词嵌入处理。词嵌入是一种将文本中的词转换成实数向量的方法,这样转换成向量的方式可以方便计算。词嵌入处理后的问题嵌入Wq表示为:[0047] Wq={wr|r=1,…,t}[0048] 其中:t为问题文本Q包含的单词个数,wr即为第r个单词的词嵌入。这里使用了预训练的GloVe向量初始化词嵌入。GloVe能有效利用全局语料库统计数据,使各个词向量之间能够尽可能多地涵盖语境内的语义和语法信息。接着将处理好的问题嵌入Wq送入双向GRU进行编码,过程通过如下等式表示:[0049] [h1,…,ht]=BiGRU(Wq)[0050] q=[h1;ht][0051] 其中:h1是第一个隐藏向量,ht是最后一个隐藏向量。q即为问题特征,由第一个隐藏向量与最后一个隐藏向量的拼接产生,将参与到后面的具体计算过程当中。[0052] 步骤3,对步骤2得到的图表示G应用同等注意力机制,获得新的节点特征和关系边特征。同等注意力机制是根据输入的问题特征q分别对图中的节点特征及关系边特征计算注意力权重,赋予关系边与目标节点同等的重要性,找到与问题最相关的目标对象与关系信息。[0053] 接收了输入的图表示和问题特征之后,由于不是图中所有的元素都与问题有关,为了更准确地锁定目标,需要在图表示上同等应用注意力机制,分别找出解答问题关键的节点与边。首先将节点注意力权重向量表示为a={al∈[0,1]|l=1,…,N},其中:N为节点的数量,al为节点l的权重,值在0到1之间。计算节点注意力权重的过程表示如下:[0054] a=softmax(ReLU(W1V)⊙ReLU(W2q))[0055] v′l=alvl[0056] V′={v′l|l=1,…,N}[0057] 其中:⊙表示对应元素相乘,W1和W2是权重参数矩阵。这样得到了节点注意力权重向量a,并接着更新应用了注意力机制之后的节点特征为新节点特征V′,v′l为新的节点l的特征。除了节点注意力之外,也同样要对关系边施加注意力,因为关系对于问题的解答一样重要。[0058] 边注意力权重矩阵表示为W={Wij∈[0,1]|i,j=1,…,N},其中:N为节点的数量,Wij代表了节点i到节点j对应边的权重,值在0到1之间。为了捕捉节点间的交互关系,找到与问题相关的关系边,计算边注意力权重W的过程表示如下:[0059] W=softmax(ReLU(W3E)⊙ReLU(W4q))[0060] E′=WE[0061] 其中:W3和W4是权重参数矩阵,并更新了新关系边特征E′。[0062] 步骤4,将步骤3得到的新节点特征与关系边特征进行融合操作,获得代表整个图的图特征,并再次应用注意力机制,更新图特征为新图特征。新节点特征与关系边特征进行的融合操作通过整合新节点特征与其关联的上下文信息来实现。[0063] 作为图结构的组成部分,目标对象的节点与对象间的关系边对答案预测同样重要。为了与问题特征q共同推断答案,需要将节点特征与关系边特征进行融合操作。首先通过收集整合节点l周边与它关联的上下文信息获得与此节点相关的关系信息:[0064] nl=e′l,:⊙V′[0065] 其中:e′l,:表示节点l与其他节点间的关系边特征,nl表示得到的节点l的上下文信息,包含了与自身节点有关联的关系边和节点的信息。接着将节点特征与上下文特征融合,整合成完整的图特征:[0066] xl=W5[v′l;nl][0067] 其中:W5是权重参数矩阵,[v′l;nl]表示的是特征拼接操作,xl为得到的图特征。之后对融合后的图特征也应用注意力机制,进一步确定与问题最相关的信息:[0068] a′l=softmax(ReLU(W6xl)⊙ReLU(W7q))[0069][0070] 其中:W6和W7是权重参数矩阵,a′l为对应图特征的注意力权重,X′为加权求和之后得到的新图特征,并用于预测最终的答案。[0071] 步骤5,将步骤4得到的新图特征与步骤2中得到的问题特征q送入分类器联合推断出答案,其中答案从分类器给出的概率最高的候选答案标签中选出。[0072] 具体来说,先将新图特征X′与问题特征q进行特征融合,操作如下:[0073] Z=ReLU(W8X′+W9q)‑(W8X′‑W9q)2[0074] 其中,W8和W9为权重参数矩阵。Z为融合后的最终特征,并将其送入softmax分类器,得到各个候选答案的概率。最后选出概率最大的标签,以此作为最终预测的答案。[0075] 本发明首先提取输入图像的区域目标特征,将图像转换成图表示,并对输入的问题进行编码;然后,建立一个基于图网络的视觉问答模型,将处理过程划分为两个阶段:第一阶段对图表示应用同等注意力机制,得到新的节点特征与关系边特征,第二阶段将第一阶段得到的节点特征与关系边特征融合成图特征,并与问题交互得到新的图特征,最终将得到的图特征与问题共同推断出答案。本发明实施于图像视觉问答,相比于利用整体图像特征的传统方法或是忽略关系重要性的其他图网络视觉问答方法,采用本发明的技术方案将有效提升视觉问答模型的性能。[0076] 以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

专利地区:江苏

专利申请日期:2021-02-05

专利公开日期:2024-07-26

专利公告号:CN112905762B


以上信息来自国家知识产权局,如信息有误请联系我方更正!
电话咨询
读内容
搜本页
回顶部