可左右滑动选省市

一种基于深度学习增强空间变换网络视觉感知方法

更新时间:2025-11-01
一种基于深度学习增强空间变换网络视觉感知方法 专利申请类型:发明专利;
地区:青海-西宁;
源自:西宁高价值专利检索信息库;

专利名称:一种基于深度学习增强空间变换网络视觉感知方法

专利类型:发明专利

专利申请号:CN202410492330.0

专利申请(专利权)人:青海师范大学
权利人地址:青海省西宁市城西区五四西路38号

专利发明(设计)人:谢平,吴妍萍

专利摘要:本发明公开了一种基于深度学习增强空间变换网络视觉感知方法,用于解决图像数据的几何变换不变性和模型的泛化能力等问题。输入数据可能受到平移、旋转、缩放等几何变换的影响,而神经网络对于这些变换可能不具有鲁棒性。数据增强可以通过引入具有不同几何变换的数据样本来增加训练数据的多样性,使得神经网络更好地适应这些变换。在一些场景下,预训练的模型或者特征提取器在解决某些任务时可能具有一定的通用性。引入学习迁移可以借助这些预训练模型或者特征提取器,从而加速模型的训练过程,提高模型的性能。ESTN结合学习迁移可以通过迁移预训练的特征提取器或者局部化网络的参数,来利用已有的知识和特征表示,从而更快地适应具体任务的需求。

主权利要求:
1.一种基于深度学习增强空间变换网络视觉感知方法,其用于图像处理中的视觉感知,其特征在于,包括如下步骤:S1、对数据集中的图像进行预操作处理,预操作处理包括归一化、尺寸调整;
S2、构建增强空间变换器ESTN网络,所述增强空间变换器ESTN网络包括定位网络、网格生成器以及采样器;
S3、基于定位网络优化预测的变换参数;具体包括如下步骤:S31、输入图像U:将预操作处理后的图像U输入定位网络当中,每张图像都具有对应的像素特征信息,该像素特征信息用一个特定大小的矩阵来表示,包含了图像的像素特征信息;
S32、完善特征信息:将图像添加到定位网络当中的卷积神经网络中进行训练来获得图像的完整特征信息,完善特征信息;
S33、图像U传递到定位网络:输入图像U被送入定位网络的神经网络模块中,对输入图像进行特征提取,提取图像的边缘、颜色、纹理、角色以及深度特征;
S34、随机裁剪:在定位网络中加载提取的图像,获取图像的宽度和高度,随机的选择一个裁剪区域的左上角的坐标(x,y)并随机获取裁剪区域的宽度和高度,公式表达如下:Itaitor(x,y)=I[(x‑xleft+i),(y‑yleft+j)]Itailor(x,y)表示为裁剪后的子图像坐标,x和y分别表示为原图像的坐标位置,xleft+i和yleft+j表示为裁剪区域右上角坐标,i表示裁剪时水平移动的步长,j则表示为竖直方向移动的步长;
S35、随机缩放:将提取的图像随机旋转一个角度,从而生成一个新的图像,再将旋转后的图像添加到数据集中,首先获取图像的宽度和高度,随机旋转一个角度,对图像进行旋转操作并保存得到一张新图像,公式表达如下:Irotate(x,y)=I[(xcoxθ‑ysinθ),(xsinθ+ycoxθ)]Irotate(x,y)表示旋转后的图像,I(x,y)为原图像,θ表示旋转的角度;
S36、调整饱和度:调整图像的三原色来变换图像的饱和度,公式表达如下:B=B+(B‑(R+G)/2)*r;
G=G+(G‑(R+B)/2)*r;
R=R+(R‑(B+G)/2)*r;
r表示饱和度的调整比例或者增量,范围为(‑1,5),r大于1表示增加饱和度r小于表示降低饱和度,通过调整r值来改变图片的颜色亮度;
S37、回归转换得到参数V:定位网络经过卷积神经网络处理输入的图像U,经过数据增强技术对输入的图像U进行变换得到图像变换参数V;V包含了裁剪旋转变换的参数,公式表达如下:S4、通过网格生成器强化边缘映射;具体包括如下步骤:
S41、定义网格W:首先为图像变换参数V定义一个网格W,网格的大小取决于特征图的大小,每个网格表示输出特征图像素点的坐标;
S42、参数到网格的转化:对定义的网格W应用一个变换T(v),生成一个变换后的采样网格,通过仿射映射来进行变换;一个输入特征图的采样位置 通过平移b个向量,与旋转放大缩小A的仿射映射,如下公式所示:(Xi,Yi)表示变换后输出的特征图上的目标像素位置, 表示为对应的输入特征图上的采样位置,A表示变换矩阵;
对图像的每一个像素点都进行仿射映射转换,再将转换后的像素值,映射到网格当中;
S43、数据增强技术对像素点进行强化:通过仿射映射计算出来后,往网格上映射之前,对于边缘位置的像素点,通过边缘扩展其周围的像素点来增加图像中边缘的信息,首先对图像边缘进行检测,在图像边缘添加0值进行扩展,提高其在变换网格中的映射效果;
S5、利用采样器对网格进行填充,最后将变换后的图像输出;具体包括如下步骤:S51、引入迁移学习:把在卷积神经网络CNN上预训练好的特征提取器引入ESTN中,将CNN上学习到的知识和特征表达迁移到ESTN中,使得采样器能够更好地理解输入图像和输出图像之间的映射关系;
S52、插值填充:在空间变换计算中,图像坐标可能是小数,因此无法直接对应目标图像的像素位置,需要使用双线性插值来估计这些位置处的像素值,以填充整个变换网格,最后将变换后的图像输出。
2.根据权利要求1所述的基于深度学习增强空间变换网络视觉感知方法,其特征在于:在步骤S1中,具体包括如下步骤:
S11、归一化:输入三原色RGB图像,分别对每个颜色通道进行归一化,RGB图像表示为一个三维矩阵,其中第一个维度表示图像的高度,第二个维度表示图像的宽度,第三个维度表示颜色通道;对于一个RGB图像,其矩阵表示如下:其中,R、B、G分别表示红绿蓝通道上的像素值,对每个颜色通道进行归一化,对矩阵中的每一个元素进行相同的归一化,确保整个图像的像素值在[‑1,1]范围内,计算公式如下所示:normalized_pixel‑value=(pixel_value/127.5)‑1在RGB图像中,通常每个通道的像素值的范围是0到255,因此,将像素值除以127.5,然后减去1,将像素值的范围从[0,255]映射到[‑1,1];
S12、尺寸调整:将图像尺寸大小统一为1280x720大小。
3.根据权利要求1所述的基于深度学习增强空间变换网络视觉感知方法,其特征在于:所述的双线性插值包括如下3个步骤:
a)找到目标位置周围的四个像素点,这四个像素点的坐标为左上角、右上角、左下角和右下角;
b)对于目标位置处的每个通道,分别计算其在四个像素点之间的加权平均值,权重根据目标位置在四个像素点之间的距离来确定,距离越近的像素权重越大;
c)使用计算得到的加权平均值作为目标位置处像素的值。 说明书 : 一种基于深度学习增强空间变换网络视觉感知方法技术领域[0001] 本发明涉及图像处理技术领域,具体涉及一种基于深度学习增强空间变换网络视觉感知方法。背景技术[0002] 随着数据的规模不断增大,传统的图像处理算法在处理大规模数据时可能会遇到效率低下的问题,需要更高效的算法和技术来应对这一挑战。多模态和跨域数据具有不同的特点和分布,如何有效地处理这些数据并提取到有用信息是一个挑战,需要进一步研究跨域和多模态图像处理技术。深度学习模型在处理图像时可能受到噪声、攻击等干扰,如何提高模型的鲁棒性和可解释性是一个亟待解决的问题。以及不同的应用场景对图像处理算法有着不同的需求,如医疗图像处理、智能交通等领域需要特定的定制化算法和解决方案,因此需要针对不同场景进行个性化的研究和开发。因此需要加强对深度学习模型鲁棒性和可解释性的研究,提出有效的对抗攻击方法和模型解释技术,提高模型的稳定性和可理解性。针对特定场景的需求,开发定制化的图像处理技术和解决方案,满足不同行业和领域的个性化需求。[0003] 空间变换网络(STN)作为一种强大的注意力机制,能够对输入数据进行动态的空间变换,提高模型对图像的感知能力。STN的提出对于提升神经网络对几何变换的鲁棒性、增强网络感知范围、提升模型泛化能力、实现空间注意力机制以及实现端到端训练等方面都具有重要意义,为神经网络在图像处理任务中的应用带来了更大的灵活性和效果提升。但是它也具有一定的缺陷,例如STN中的网络生成器需要大量的训练数据来学习准确的变换参数,否则会出现过拟合或者学习不稳定的情况,这对于数据稀缺的场景可能是一个挑战。以及计算复杂度高,因为STN中的网络生成器需要对输入图像进行仿射变换,这可能导致额外的计算复杂度,特别是在处理大尺寸图像或者要求高精度变换时,可能会影响模型的性能和效率。以及可解释性差,难以解释系统内部图像的变换过程和参数含义,会限制模型在一些应用场景中的可解释性和可信度。[0004] 因此,亟需一种能针对上述STN存在的缺陷进行了改善的新的方法,来探索在视觉感知任务中的创新与挑战。发明内容[0005] 为解决现有技术中存在的问题,本发明提供了一种基于深度学习增强空间变换网络(ESTN)视觉感知方法,采用数据增强技术来扩充训练数据,以提高STN的泛化能力,并结合迁移学习方法,利用已有的大规模数据或者预训练的模型参数来初始化或者微调STN的空间变换器,以加速模型的收敛和提高性能,解决了上述背景技术中提到的问题。[0006] 为实现上述目的,本发明提供如下技术方案:一种基于深度学习增强空间变换网络视觉感知方法,包括如下步骤:[0007] S1、对数据集中的图像进行预操作处理,预操作处理包括归一化、尺寸调整;[0008] S2、构建增强空间变换器ESTN网络,所述增强空间变换器ESTN网络包括定位网络、网格生成器以及采样器;[0009] S3、基于定位网络优化预测的变换参数;[0010] S4、通过网络生成器强化边缘映射;[0011] S5、利用采样器对网格进行填充,最后将变换后的图像输出。[0012] 优选的,在步骤S1中,具体包括如下步骤:[0013] S11、归一化:输入三原色RGB图像,分别对每个颜色通道进行归一化,RGB图像表示为一个三维矩阵,其中第一个维度表示图像的高度,第二个维度表示图像的宽度,第三个维度表示颜色通道;对于一个RGB图像,其矩阵表示如下:[0014][0015] 其中,R、B、G分别表示红绿蓝通道上的像素值,对每个颜色通道进行归一化,对矩阵中的每一个元素进行相同的归一化,确保整个图像的像素值在[‑1,1]范围内,计算公式如下所示:[0016] normalized_pixel‑value=(pixel_value/127.5)‑1[0017] 在RGB图像中,通常每个通道的像素值的范围是0到255,因此,将像素值除以127.5,然后减去1,将像素值的范围从[0,255]映射到[‑1,1];[0018] S12、尺寸调整:将图像尺寸大小统一为1280x720大小。[0019] 优选的,在步骤S3中,具体包括如下步骤:[0020] S31、输入图像U:将预操作处理后的图像U输入定位网络当中,每张图像都具有对应的特征信息,该特征用一个特定大小的矩阵来表示,包含了图像的像素特征信息;[0021] S32、完善特征信息:将图像添加到定位网络当中的卷积神经网络中进行训练来获得图像的完整特征信息,完善特征信息;[0022] S33、图像U传递到定位网络:输入图像U被送入定位网络的神经网络模块中,对输入图像进行特征提取,提取图像的边缘、颜色、纹理、角色以及深度特征;[0023] S34、随机裁剪:在定位网络中加载提取的图像,获取图像的宽度和高度,随机的选择一个裁剪区域的左上角的坐标(x,y)并随机获取裁剪区域的宽度和高度,公式表达如下:[0024] Itailor(x,y)=I[(x‑xleft+i),(y‑yleft+j)][0025] Itailor(x,y)表示为裁剪后的子图像坐标,x和y分别表示为原图像的坐标位置,xleft+i和yleft+j表示为裁剪区域右上角坐标,i表示裁剪时水平移动的步长,j则表示为竖直方向移动的步长;[0026] S35、随机缩放:将提取的图像随机旋转一个角度,从而生成一个新的图像,再将旋转后的图像添加到数据集中,首先获取图像的宽度和高度,随机旋转一个角度,对图像进行旋转操作并保存得到一张新图像,公式表达如下:[0027] Irotate(x,y)=I[(xcoxθ‑ysinθ),(xsinθ+ycoxθ)][0028] Irotate(x,y)表示旋转后的图像,I(x,y)为原图像,θ表示旋转的角度;[0029] S36、调整饱和度:调整图像的三原色来变换图像的饱和度,公式表达如下:[0030] B=B+(B‑(R+G)/2)*r;[0031] G=G+(G‑(R+B)/2)*r;[0032] R=R+(R‑(B+G)/2)*r;[0033] r表示饱和度的调整比例或者增量,范围为(‑1,5),r大于1表示增加饱和度r小于表示降低饱和度,通过调整r值来改变图片的颜色亮度;[0034] S37、回归转换得到参数V:定位网络经过卷积神经网络处理输入的图像U,经过数据增强技术对输入的图像U进行变换得到图像变换参数V;V包含了裁剪旋转变换的参数,公式表达如下:[0035][0036] 优选的,在步骤S4中,具体包括如下步骤:[0037] S41、定义网格W:首先为图像变换参数V定义一个网格W,网格的大小取决于特征图的大小,每个网格表示输出特征图像素点的坐标;[0038] S42、参数到网格的转化:对定义的网格W应用一个变换T(v),生成一个变换后的采样网格,通过仿射映射来进行变换;一个输入特征图的采样位置 通过平移b个向量,与旋转放大缩小A的仿射映射,如下公式所示:[0039][0040] (Xi,Yi)表示变换后输出的特征图上的目标像素位置, 表示为对应的输入特征图上的采样位置,A表示变换矩阵;[0041] 对图像的每一个像素点都进行仿射映射转换,再将转换后的像素值,映射到网格当中;[0042] S43、数据增强技术对像素点进行强化:通过仿射映射计算出来后,往网格上映射之前,对于边缘位置的像素点,通过边缘扩展其周围的像素点来增加图像中边缘的信息,首先对图像边缘进行检测,在图像边缘添加0值进行扩展,提高其在变换网格中的映射效果。[0043] 优选的,在步骤S5中,具体包括如下步骤:[0044] S51、引入迁移学习:把在卷积神经网络CNN上预训练好的特征提取器引入ESTN中,将CNN上学习到的知识和特征表达迁移到ESTN中,使得采样器能够更好地理解输入图像和输出图像之间的映射关系;[0045] S52、插值填充:在空间变换计算中,图像坐标可能是小数,因此无法直接对应目标图像的像素位置,需要使用双线性插值来估计这些位置处的像素值,以填充整个变换网格,最后将变换后的图像输出。[0046] 优选的,所述的双线性插值包括如下3个步骤:[0047] a)找到目标位置周围的四个像素点,这四个像素点的坐标为左上角、右上角、左下角和右下角;[0048] b)对于目标位置处的每个通道,分别计算其在四个像素点之间的加权平均值。权重根据目标位置在四个像素点之间的距离来确定,距离越近的像素权重越大;[0049] c)使用计算得到的加权平均值作为目标位置处像素的值。[0050] 本发明的有益效果是:本发明方法用于解决图像数据的几何变换不变性和模型的泛化能力等问题,输入数据可能受到平移、旋转、缩放等几何变换的影响,而神经网络对于这些变换可能不具有鲁棒性。数据增强可以通过引入具有不同几何变换的数据样本来增加训练数据的多样性,使得神经网络更好地适应这些变换。在一些场景下,预训练的模型或者特征提取器在解决某些任务时可能具有一定的通用性。引入学习迁移可以借助这些预训练模型或者特征提取器,从而加速模型的训练过程,提高模型的性能。ESTN结合学习迁移可以通过迁移预训练的特征提取器或者局部化网络的参数,来利用已有的知识和特征表示,从而更快地适应具体任务的需求。附图说明[0051] 图1为本发明基于深度学习增强空间变换网络视觉感知方法框架图;[0052] 图2为本发明基于深度学习增强空间变换网络视觉感知方法流程图。具体实施方式[0053] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0054] 基于深度学习处理图像的方向具有许多优势,尤其在处理大规模数据和复杂场景时。通过深度学习模型准确重建现实世界的三维模型,可以创建更真实、沉浸式的虚拟体验,或者在现实场景中叠加虚拟信息。深度学习模型能够自动学习三维场景的丰富特征表示,而不需要手工设计复杂的特征提取器。这种方法有助于更好的捕获三维图像的局部和全局特征。在文化遗产保护中,通过这种方法可以建立精确的数字模型,帮助保存和恢复古老建筑、雕塑等文化遗产。因此对于石窟寺复杂的场景表示基于深度学习是最优的结果,利用相近的像素之间的相互关联性,从图像数据中学习得到有效的模型。总体而言,基于深度学习的感知方法的发展不仅丰富了我们对于现实世界的认知,同时也为众多行业和领域带来了更多的应用可能性。从数字化的角度更好地理解和模拟三维空间对于未来科技发展和社会进步具有重要的价值。[0055] 本发明实施例针对STN存在的缺陷,提出了一种新的基于深度学习增强空间变换网络的视觉感知方法,请参阅图1和图2,包括如下步骤:[0056] S1、对数据集中的图像进行预操作处理,预操作处理包括归一化、尺寸调整,以便于后续的处理。[0057] 具体包括如下步骤:[0058] S11、归一化:输入三原色RGB图像,分别对每个颜色通道进行归一化,RGB图像表示为一个三维矩阵,其中第一个维度表示图像的高度(行数),第二个维度表示图像的宽度(列数),第三个维度表示颜色通道(红色、绿色和蓝色);对于一个RGB图像,其矩阵表示如下:[0059][0060] 其中,R、B、G分别表示红绿蓝通道上的像素值,每个像素点都是由三个值组成。在这种表示中,矩阵的每个元素都是一个包含三个值的数组,分别对应于RGB通道的像素值。整个矩阵表示了整个图像的像素值。为了对整个RGB图像矩阵进行归一化操作,对每个颜色通道进行归一化,对矩阵中的每一个元素进行相同的归一化,确保整个图像的像素值在[‑1,1]范围内,计算公式如下所示:[0061] normalized_pixel‑value=(pixel_value/127.5)‑1[0062] 在RGB图像中,通常每个通道的像素值的范围是0到255,因此,将像素值除以127.5,然后减去1,将像素值的范围从[0,255]映射到[‑1,1];[0063] S12、尺寸调整:输入的图像有大有小,为了统一的进行学习。将图像尺寸大小统一为1280x720(720p)大小。[0064] S2、构建增强空间变换器ESTN网络,所述增强空间变换器ESTN网络包括定位网络、网格生成器以及采样器。在原有STN空间变换网络中,加入数据增强技术和迁移学习,对图像数据信息进行强化映射与学习。定位网络用于预测空间变换的参数,仿射变换的平移、缩放和旋转参数。网格生成器根据定位网络输出的变换参数生成采样网格,用于对输入图像进行采样。采样器根据采样网格对输入图像进行采样,得到经过空间变换的输出图像。[0065] S3、基于定位网络优化预测的变换参数。引入数据增强技术对图像进行各种变形、旋转、缩放、平移等操作,有效地增强训练样本的多样性,提高模型的性能。[0066] 输入的图像U通过定位网络的神经网络层进行训练,得到图像的特征表示。结合数据增强技术来帮助扩充训练数据集,提高模型的泛化能力。本发明采用随机裁剪、随机缩放、调整饱和度数据增强技术。随机裁剪是将原始图像随机地裁剪成不同尺寸和比例的子图像。可以在图像的任意位置进行裁剪,裁剪后的图像大小可以与原图相同,也可以小于原图。还可以随机水平翻转或垂直翻转进行裁剪,这有助于模型学习到物体的不同位置和尺度下的特征,增加了数据的多样性。随机旋转对图像在不同的角度下进行旋转操作,可以在一定范围内随机选择旋转角度,如0到360度之间的任意角度。注意旋转后的图像可能需要进行填充或裁剪操作,以保持图像大小一致。这有助于模型学习到对于旋转不变性的特征。随机缩放是对图像在不同角度下进行缩放操作,使图像在不同尺度下呈现。这有助于模型学习对于尺度变化的鲁棒性。可以在一定范围内随机选择缩放比例,如0.8到1.2之间的任意比例。缩放后的图像可能需要进行填充或裁剪操作,以保持图像大小一致。随机亮度、对比度、饱和度变换,随机地调整图像的亮度、对比度和饱和度等参数,使图像在不同光照和颜色条件下呈现。也可以在一定范围内随机选择变换的幅度,如在一定范围内加减亮度、乘以不同的对比度系数等。这有助于模型学习到对于光照和颜色变化的鲁棒性。添加噪声向图像中添加随机噪声,如高斯噪声等。可以控制噪声的强度和类型,以满足特定任务的需求。这有助于模型学习到对于噪声的鲁棒性。[0067] 具体包括如下步骤:[0068] S31、输入图像U:将预操作处理后的图像U输入定位网络当中,每张图像都具有对应的特征信息,该特征用一个特定大小的矩阵来表示,包含了图像的像素特征信息;[0069] S32、完善特征信息:预处理操作后得到的图像特征信息不够完善,将图像添加到定位网络当中的卷积神经网络中进行训练来获得图像的完整特征信息,完善特征信息;如果不需要直接将图像进行数据增强。[0070] S33、图像U传递到定位网络:输入图像U被送入定位网络的神经网络模块中,定位网络是一个小型的卷积神经网络CNN,对输入图像进行特征提取,提取图像的边缘、颜色、纹理、角色以及深度特征;为后续的操作提供保障。[0071] S34、随机裁剪:在定位网络中加载提取的图像,获取图像的宽度和高度,随机的选择一个裁剪区域的左上角的坐标(x,y)并随机获取裁剪区域的宽度和高度,公式表达如下:[0072] Itailor(x,y)=I[(x‑xleft+i),(y‑yleft+j)][0073] Itailor(x,y)表示为裁剪后的子图像坐标,x和y分别表示为原图像的坐标位置,xleft+i和yleft+j表示为裁剪区域右上角坐标,i表示裁剪时水平移动的步长,j则表示为竖直方向移动的步长;这样就能得到一个裁剪的子图像,再将子图像传输到后续操作,以此来增加图像的多样性。[0074] S35、随机缩放:将提取的图像随机旋转一个角度,从而生成一个新的图像,再将旋转后的图像添加到数据集中,首先获取图像的宽度和高度,随机旋转一个角度,对图像进行旋转操作并保存得到一张新图像,公式表达如下:[0075] Irotate(x,y)=I[(xcoxθ‑ysinθ),(xSinθ+ycoxθ)][0076] Irotate(x,y)表示旋转后的图像,I(x,y)为原图像,θ表示旋转的角度;[0077] S36、调整饱和度:ESTN增强空间变化网络中使用RGB图像序列,我们需要随机的调整图像的亮度对比度和饱和度,来提高数据集的丰富性。调整图像的三原色来变换图像的饱和度,公式表达如下:[0078] B=B+(B‑(R+G)/2)*r;[0079] G=G+(G‑(R+B)/2)*r;[0080] R=R+(R‑(B+G)/2)*r;[0081] 在调整图像的饱和度时,通常会使用一个参数r,r表示饱和度的调整比例或者增量,范围为(‑1,5),r大于1表示增加饱和度r小于表示降低饱和度,饱和度越高图颜色越鲜艳,饱和度越低颜色越平淡。通过调整r值来改变图片的颜色亮度;数据增强技术对图像U进*行转化得到特征U。[0082] S37、回归转换得到参数V:定位网络经过卷积神经网络处理输入的图像U,经过数据增强技术对输入的图像U进行变换得到图像变换参数V;V包含了裁剪旋转变换的参数,以便后续的空间变换操作使用,公式表达如下:[0083][0084] 通过结合这些数据增强技术,可以生成大量多样性的训练样本,从而提高模型的泛化能力和鲁棒性。在训练过程中,每个样本都会结合上述一系列数据增强操作,使得模型在训练过程中能够接触到更多不同变换下的数据,从而更好地适应不同的测试场景。[0085] S4、通过网络生成器强化边缘映射。网络生成器生成用于对输入图像进行空间变换的变换网格,定义了输入图像中每个像素在变换后的位置。这一步引入数据增强技术,对像素点进行强化,使得边缘位置的像素点在网格中得到更好的映射,从而增加图像模型的性能和鲁棒性。[0086] 根据定位网络学习到的图像变换参数V,网络生成器生成用于对输入图像进行空间变换的变换网格,定义了输入图像中每个像素在变换后的位置。这一步也结合数据增强技术,对像素点进行强化,使得边缘位置的像素点在网格中得到更好的映射,从而增加图像模型的性能和鲁棒性。其中变换网络通常是由一组控制点来组成,这些控制点决定变换后图像的形状和大小。数据增强技术可以通过调整这些控制点的位置来强化像素点的映射关系。例如可以在生成变换网络时随机调整控制点的位置,使得边缘位置的像素点能够得到更好的映射。这样可以增加模型对图像边缘位置的敏感度,提高模型的性能和鲁棒性。[0087] 具体包括如下步骤:[0088] S41、定义网格W:首先为图像变换参数V定义一个网格W,网格的大小取决于特征图的大小,每个网格表示输出特征图像素点的坐标;[0089] S42、参数到网格的转化:对定义的网格W应用一个变换T(v),生成一个变换后的采样网格,这个采样网格指示如何输入图像变换参数V进行采样来输出特征图。该操作主要通过仿射映射来进行变换;一个输入特征图的采样位置 通过平移b个向量,与旋转放大缩小A的仿射映射,如下公式所示:[0090][0091] (Xi,Yi)表示变换后输出的特征图上的目标像素位置, 表示为对应的输入特征图上的采样位置,A表示变换矩阵。[0092] 对图像的每一个像素点都进行仿射映射转换,再将转换后的像素值,映射到网格当中;[0093] S43、数据增强技术对像素点进行强化:通过仿射映射计算出来后,往网格上映射之前,对于边缘位置的像素点,通过边缘扩展其周围的像素点来增加图像中边缘的信息。首先对图像边缘进行检测,对于图像边缘周围添加额外的像素值,在这里我们在图像边缘添加0值进行扩展,以此来提高其在变换网格中的映射效果。[0094] S5、利用采样器对网格进行填充,最后将变换后的图像输出。根据变换网格对输入图像进行填充,引入迁移学习可以借助预训练的模型或者特征提取器,从大规模数据集中学习到通用的几何特征表示。这些预训练的模型可以是在类似的任务或者领域上进行训练得到的,然后迁移到具体的ESTN任务中,加速模型的训练过程并提高性能。[0095] 采样器是一种用于根据变换网格对输入图像进行填充的工具。变换网格定义了输入图像中每个像素在变换后的位置,而采样器则利用这些位置信息,在输出图像上进行相应位置的像素采样,以填充变换后的图像。[0096] 具体包括如下步骤:[0097] S51、引入迁移学习:利用在卷积神经网络CNN上预训练好的特征提取器,来提高ESTN任务中采样器的性能。把在卷积神经网络CNN上预训练好的特征提取器引入ESTN中,从而更好地理解ESTN中的输入图像,有效帮助采样器更准确地填充变换后的图像。因为CNN预训练的特征提取器已经学习到了一种更加有效的特征表示,使得采样器能够更好地理解输入图像和输出图像之间的映射关系,从而提高填充的准确性和性能;[0098] S52、插值填充:在空间变换计算中,图像坐标可能是小数,因此无法直接对应目标图像的像素位置,需要使用双线性插值来估计这些位置处的像素值,以填充整个变换网格,这样可以使得图像具有更好的泛化能力,并适应于不同的变换。[0099] 进一步的,所述的双线性插值包括如下3个步骤:[0100] a)找到目标位置周围的四个像素点,这四个像素点的坐标为左上角、右上角、左下角和右下角;[0101] b)对于目标位置处的每个通道,分别计算其在四个像素点之间的加权平均值。权重根据目标位置在四个像素点之间的距离来确定,距离越近的像素权重越大;[0102] c)使用计算得到的加权平均值作为目标位置处像素的值。[0103] 通过双线性插值,可以更准确地估计出目标位置处的像素值,从而使得图像具有更好的泛化能力,并且能够适应于不同的变换。这在增强空间变换网络(ESTN)中尤为重要,因为ESTN通常需要处理各种不同的变换,而插值方法可以有效地处理这种情况,提高空间变换的精度和稳定性。[0104] 最后将变换后的图像输出。ESTN增强空间变换网络这个系统就完成了。这个优化后的ESTN描述考虑了数据增强技术的应用、迁移学习的利用以及插值填充的必要性,使得ESTN增强空间变换网络能够更好地适应各种变换并提高模型性能。[0105] 通过这些步骤,整个过程形成了一个端到端的学习框架,使得模型能够自动学习输入图像到输出目标之间的映射关系,并在训练过程中不断优化网络参数以适应不同的任务需求。[0106] 增强空间变换网络(ESTN)可以作为单独模块,也可以插入在CNN的任何位置。将ESTN放置在CNN的输入层,可以让网络在学习特征之前对输入进行变换,从而实现对图像的几何变换、缩放、旋转等操作,使得输入数据更加符合模型的训练需求。这种方式下,ESTN的作用主要是对输入进行预处理,从而提高了模型对输入数据的适应能力和鲁棒性。将ESTN放置在CNN的中间层,可以让网络在特征提取的过程中对特征图进行空间变换,从而增强了特征的可区分性和表示能力。ESTN可以通过学习对特征图进行变形,使得网络能够更好地捕捉到图像中的局部特征和结构信息,提高了模型的特征提取能力和分类性能。将ESTN放置在CNN的输出层,可以对网络输出的特征图进行空间变换,从而实现对特征图的调整和优化。这种方式下,ESTN的作用主要是对特征图进行后处理,进一步提升了模型对输入数据的表示和分类能力。我们从石窟寺提取图片信息时,为了让最终展示的模型更贴合形象,我们需要对图片提取过程严格要求。有效解决图像变形、失真等问题,为后续的深度估计提供更加便捷快速的处理方法。因此ESTN的加入能够有效的解决上述存在的问题。它在CNN中也承担着重要的职责,有效解决图像不变性问题、几何形状校正问题、注意力不集中问题。[0107] 本发明有如下效果:具有增强模型的泛化能力:通过增强空间变换网络对训练数据进行几何变换,增加了训练数据的多样性,使得模型能够更好地泛化到不同场景下的深度估计任务中,提高了模型的泛化能力。[0108] 应对数据缺乏和数据不平衡问题:在单目深度估计任务中,往往会面临数据缺乏和数据不平衡的情况。利用增强空间变换网络可以通过扩充训练数据集的方式缓解这些问题,提高模型对不同场景的适应能力。[0109] 改善模型对变形图像的适应能力:单目估计往往需要处理各种不同角度、尺度以及光照条件下的图像。通过空间变换网络引入的几何变换操作,可以使模型更好的适应这些变形的图像,从而提高模型的鲁棒性和稳定性。[0110] 提高深度估计精度:增强的空间变换网络可以帮助模型学习到更多不同场景下的特征,从而提高单目深度估计的精度和准确性,使得估计的深度图更加准确和可靠。[0111] 对于单目深度估计任务的定制化:将增强空间变换网络与CNN进行结合,针对单目深度估计任务的特点进行了定制化设计,使得模型能够更好地适应深度估计任务的需求,具有一定的创新性和针对性。[0112] 尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

专利地区:青海

专利申请日期:2024-04-23

专利公开日期:2024-11-22

专利公告号:CN118537211B


以上信息来自国家知识产权局,如信息有误请联系我方更正!
该专利所有权非本平台所有,我方无法提供专利权所有者联系方式,请勿联系我方。
电话咨询
到底部
搜本页
回顶部