可左右滑动选省市

一种针对水下目标物的自监督三维点云补全方法

更新时间:2024-11-01
一种针对水下目标物的自监督三维点云补全方法 专利申请类型:发明专利;
地区:山东-青岛;
源自:青岛高价值专利检索信息库;

专利名称:一种针对水下目标物的自监督三维点云补全方法

专利类型:发明专利

专利申请号:CN202410917487.3

专利申请(专利权)人:中国海洋大学
权利人地址:山东省青岛市崂山区松岭路238号

专利发明(设计)人:蔡青,孔松琦,李绍铭,胡作启,刘治,董军宇

专利摘要:本发明提出了一种针对水下目标物的自监督三维点云补全方法,属于计算机视觉技术领域。本发明包括:收集水下三维点云数据,并将残缺点云分为训练数据和测试数据;使用最远点采样算法提取点云轮廓集,并通过最近邻采样算法构建点云块集;构建点云特征编码器模块、点云特征解码器模块、形状特征编码器模块、文本特征编码器模块以及形状‑文本特征匹配模块,并引入跨注意力机制以增强特征融合;通过多模态约束构建自监督补全神经网络模型,并利用训练数据进行训练;利用训练好的模型对残缺点云进行补全。本发明结合了多模态信息和自监督学习技术,显著提升了水下目标物三维点云数据的完整性和精度。

主权利要求:
1.一种针对水下目标物的自监督三维点云补全方法,其特征在于,包括如下步骤:S1:收集水下三维点云数据,分离出需要进行补全对象的残缺点云;将残缺点云分为训练数据和测试数据;
S2:对残缺点云使用最远点采样算法提取点云轮廓集,然后以轮廓集中的每个点为中心使用最近邻采样算法构建点云块集;
S3:构建基础模型,该模型包括点云特征编码器模块,点云特征解码器模块,形状特征编码器模块,文本特征编码器模块,形状‑文本特征匹配模块;其中:(1)点云特征编码器模块:
点云特征编码器模块由两个空间卷积操作构成,每个空间卷积操作按照以下规则构建:Fj=Convout(Re(BN(Convin(Fj‑1))));
global
Fi =MaxPooing(Fi);
其中Fj‑1表示上一次的特征,Convin表示一个空间卷积中的输入卷积,Convout表示一个global空间卷积中的输出卷积,Re表示Relu激活函数,BN表示批正则化,Fi 表示第i个空间卷积层的全局特征;
通过两个空间卷积操作,输入点云从特征维度为三的点空间转化到了特征空间;为了保证网络对输入点云数量无关,对提取的点云特征在点数量维度上执行最大化池化操作;
并在这个过程中提取点云的全局特征;
(2)点云特征解码器模块:
点云特征解码器模块由一个多层感知机组成,经过几次线性连接层扩充特征维度,将点云特征恢复到点维度空间,由下式给出:Pc=Linear3(Re(Linear2(Re(Linear1(Re(Linear0(F)))))));
其中Lineari表示线性层,Re表示Relu激活函数,Fj‑1表示特征,Pc表示预测的点云;
(3)形状特征编码器模块:
引入基于PointTransformer的预训练形状编码器包含多个基于向量自注意力点变换器层,其使用减法关系并将位置编码δ添加到注意力向量γ和转换后的特征α中:子集 是xi的局部邻域中的点的集合,在每个数据点周围的局部邻域内局部应用自注意力;yi是输出的特征, 是逐点特征变换,ρ是一个归一化函数,映射函数γ是一个具有两个线性层和一个ReLU非线性的MLP;
位置编码函数δ定义如下:
δ=θ(pi‑pj);
pi和pj是点i和j的3D点坐标,编码函数θ是一个具有两个线性层和一个ReLU非线性的MLP;
(4)形状‑文本特征匹配模块:
对点云和文本使用单独的特征编码器来导出形状特征记为fshape和文本特征,记为ftext;采用批量大小为B的批量优化策略,构建了一个形状为[B,B]的logit潜在矩阵M;形式上:Mst=τsfshape·ftext;
其中τs表示可学习的尺度参数,fshape表示点云形状特征,ftext表示与点云对应的文本提示特征,Mst是logit潜在矩阵;
将其中点云块Gcom输入点云特征编码器模块与点云特征解码器模块,让网络学习补全其完整形状获得预测的点云Pc,如以下公式所示:fp=Encoder(Gcom);
Pc=Decoder(fp);
获得预测的点云Pc后,将Pc输入冻结的形状特征编码器模块提取其形状信息特征fshape,然后将点云对应的文本提示输入冻结的文本特征编码器模块获文本特征ftext,然后将fshape和ftext输入形状‑文本特征匹配模块得到点云形状与文本提示的匹配度;
S4:所述基础模型中引入跨注意力机制,将点云的形状特征编码器模块特征与点云的特征编码器特征进行跨注意力特征融合;形状感知的跨注意力机制通过点云形状特征编码器从点云Pc中提取形状信息;将Pc输入冻结的形状特征编码器模块提取其形状信息特征fshape,将其输入一个多层感知机获得f’shape使得其与fp维度匹配,然后将f’shape作为多头注意力机制中的查询,fp作为多头注意力机制中的键值,经过跨注意力后获得融合特征fmix,将fmix与f’shape逐元素相加获得fmix2,最后将fmix2送入激活函数激活后作为残差再次逐元素相加到fmix2中获得最终输出fatt;应用了一致性损失来惩罚fp和fatt之间的差异:Q K V
Q=fshape·W,K=fp·W,V=fp·W;
fmix=MH‑Attention(Q,K,V);
Q K V
其中W ,W,W分别代表注意力机制中的QKV矩阵,MH‑Attention代表多头注意力机制,Re表示Relu激活函数;
S5:构建所述基础模型中的目标函数,最终得到多模态约束的自监督补全神经网络模型;所述目标函数为:引入目标函数 强迫预测点云与原始输入Grec对齐,同时强迫Pc与Gcom对齐,将Pc再次输入编码器获得特征fc,在特征空间让fp和fc对齐; 表示三个损失函数的和,如下:给定一个点云 其中P表示一个点云,pi表示点云中的第i个点,则以pi为中心的切平面法线方向的总最小二乘估计,通过对其最近邻 的协方差矩阵Cov的特征值分解得到,定义为:
其中Cov为协方差矩阵,qj为pi的第j个最近邻,k表示k个最近邻,j表示第j个最近邻,表示其k个最近邻的平均值;最小特征值对应的特征向量是估计的法线方向vi,vi归一化为|vi|=1;将点pi的正常一致性定义为:其中两个法线方向之间的点积作为相似性度量, 是vi和vj之间的相似性的平均值;nc(·)的值表示正态相似度的方差,估计局部表面曲率,向量一致性约束表述为:引入了CLIP损失 来监督包含B个点云‑文本对的批次:其中, 描述了点云文本对在匹配完整性和文本一致性方面的一致性损失, 和分别表示对应的点云形状表示和文本特征编码;τ表示可学习的尺度参数;B为批次大小,exp表示一组正则化函数,log为对数函数,i和j分别表示第i个批次、第j个批次;
应用形状一致性损失来监督不完整点云的全局特征和形状特征之间的对齐:Eshape,E分别表示形状编码器和编码器;
S6:利用训练数据对所述自监督补全神经网络模型进行训练,再根据已有的残缺点云数据利用训练好的自监督补全神经网络模型补全残缺点云。
2.如权利要求1所述的自监督三维点云补全方法,其特征在于,所述S1中:利用点云分割算法将需要补全的对象从场景级的点云中分离出来,使用Si表示一个场景,使用表示场景中的所有物体, 表示一个物体,使用 表示输入网络的残缺点云。
3.如权利要求1所述的自监督三维点云补全方法,其特征在于,所述S2具体为:(1)构建点云轮廓集:
输入点云 的形状为[N,3],从其中随机选择一个点Pi作为起始点,将其加入采样结果集合P={p1,p2,...,pn}中,并标记为已选择,对于每个已选择的点Pi,计算其与未选择点的距离,选择距离最远的点Pfarest加入采样结果集合,并标记为已选择,重复这个步骤直到点云轮廓集P中包含n个点;
(2)构建点云块集:
选择采样结果P={p1,p2,...,pn}中任一点Pj,计算pj与训练集中所有样本点的距离,然后根据与未知样本的距离选择K个点;将这K个点组成一个点云块Ni;迭代循环点云轮廓集中所有点,获得点云块集 将获得点云块集分为三个部分分别为Grec,Gcom,Glatent。
4.如权利要求1所述的自监督三维点云补全方法,其特征在于,所述S6中,根据最终学习的深度学习网络照以下计算方式来推理补全残缺点云:Ppredict=D(E(Ppartial));
其中,D表示解码器,E表示编码器,Ppredict为预测的点云,Ppartial为输入的点云。 说明书 : 一种针对水下目标物的自监督三维点云补全方法技术领域[0001] 本发明涉及一种针对水下目标物的自监督三维点云补全方法,属于计算机视觉技术领域。背景技术[0002] 点云补全技术对于3D扫描、虚拟现实、增强现实等领域至关重要,能够填补点云数据的缺失,提高完整性和准确性。由于现实世界中的物体往往存在遮挡、破损等情况,特别是水下环境更为复杂,导致点云数据不完整,因此开发点云补全技术是非常必要的。[0003] 点云补全旨在重建从LiDAR等传感器捕获的或者从三维重建算法生成的点云的不完整表面,是三维重建的重要研究内容。点云补全在三维视觉应用中至关重要,如水下建模、水下目标检测、语义分割、智能建筑、自动驾驶等;三维视觉成功应用的关键点在于对三维对象的理解,完整的三维形状能够有效的提高视觉理解的鲁棒性。但是捕获的点云的无序和稀疏性以及不完整的结构信息,阻碍了点云在三维视觉中的应用。[0004] 水下三维重建源于对水下环境精确建模的需求。由于光线衰减、水体浑浊等水下环境的特殊性,传统视觉和光学测量技术受限。因此,水下三维重建技术通过先进手段获取水下目标的三维信息。在此过程中,点云数据是重要数据形式,但常因环境复杂性而存在缺失和噪声。点云补全技术能补充缺失数据,提高数据质量,支持更精确的三维建模和复杂任务。因此,点云补全是水下三维重建的关键环节。[0005] 点云补全技术的难点在于保留点云的全局形状下,恢复原始点云缺失的语义结构信息。但是由于点云固有的无序和非结构化性质,使得完整点云的重建具有挑战性。目前存在的点云补全方法根据是否需要大规模数据训练可以分为两种方法:传统形状补全方法和深度学习的点云补全方法。传统的点云补全方法又可以分类两类:居于几何先验的补全方法以及基于模板匹配的补全方法,然而,这些方法缺乏鲁棒性、泛化和难以应对噪声和新对象。[0006] 随着深度学习在3D视觉领域的应用越来越广泛,基于深度学习的点云补全方法也开始涌现出来,深度学习方法的一个关键问题是选择适当的监督方法来最大化点云完整性。全监督学习方法利用基本事实来指导完成过程,但是创建一个将不完整样本与地面实况相配对的数据集是有难度的,特别是因为不完整的点云通常由LiDAR等设备捕获,并且没有完整的点云自然与其配对。因此在点云补全中通常通过裁剪完整的点云数据集来生成不完整的点云,从而将不完整的样本与其完整的样本配对构成模拟数据集。但是这会导致模拟数据和真实世界数据之间的数据分布不同,从而限制了此类方法的有效性适用于真实世界数据。为了解决难以获取基本事实的问题,许多弱监督和非配对方法被作为替代方案。前者通过从多个角度观察相同的对象来构建监督。然而,从多个角度收集点云是比较困难的,并且多个视点云的同时输入也增加了网络的计算复杂度。后一种方法通过将完整但未配对的点云合并到数据集中来促进网络训练。虽然这种方法避免了对配对数据集的需求,但收集大型完整数据集仍然是困难的。单部分点云补全是一种自监督补全方法,旨在构造仅使用单个残缺点云进行自监督点云补全。它消除了对基本事实点云的需要,仅依赖于每个对象的一个未知的不完整观察,从而显著扩大了训练数据范围,即使在具有单个视角的现实场景中也能获得。虽然单部分点云补全一定程度上解决了数据缺少的问题,但它仅依靠不完整的点云作为指导,缺少充足的监督信号,因此无法很好的恢复缺失的结构信息。发明内容[0007] 为了解决水下对象三维点云数据残余以及单视角自监督点云补全缺少监督信号的问题,本发明提供一种面向水下目标物的自监督三维点云补全方法,以弥补现有技术的不足。[0008] 为实现上述发明目的,本发明采取的具体技术方案如下:[0009] 一种针对水下目标物的自监督三维点云补全方法,包括如下步骤:[0010] S1:收集水下三维点云数据,分离出需要进行补全对象的残缺点云;将残缺点云分为训练数据和测试数据;[0011] S2:对残缺点云使用最远点采样算法提取点云轮廓集,然后以轮廓集中的每个点为中心使用最近邻采样算法构建点云块集;[0012] S3:构建基础模型,该模型包括点云特征编码器模块,点云特征解码器模块,形状特征编码器模块,文本特征编码器模块,形状‑文本特征匹配模块;[0013] S4:所述基础模型中引入跨注意力机制,将点云的形状特征编码器模块的特征与点云的特征编码器特征进行跨注意力特征融合;[0014] S5:构建所述基础模型中的目标函数,最终得到多模态约束的自监督补全神经网络模型;[0015] S6:利用训练数据对所述自监督补全神经网络模型进行训练,再根据已有的残缺点云数据利用训练好的自监督补全神经网络模型补全残缺点云。[0016] 进一步的,所述S1中:利用点云分割算法将需要补全的对象从场景级的点云中分离出来,使用 表示一个场景,使用 表示场景中的所有物体, 表示一个物体,例如贝壳,珊瑚,鱼类等,使用 表示输入网络的残缺点云。[0017] 进一步的,所述S2具体为:[0018] (1)构建点云轮廓集:[0019] 输入点云 的形状为[N,3],从其中随机选择一个点 作为起始点,将其加入采样结果集合 中,并标记为已选择,对于每个已选择的点 ,计算其与未选择点的距离,选择距离最远的点 加入采样结果集合,并标记为已选择,重复这个步骤直到点云轮廓集P中包含n个点;[0020] (2)构建点云块集:[0021] 选择采样结果中任一点 ,计算 与训练集中所有样本点的距离,然后选择距离未知样本最近的K个点;将这K个点组成一个点云块 ;迭代循环点云轮廓集中所有点,获得点云块集 ;将获得点云块集分为三个部分分别为 ,, 。[0022] 进一步的,所述S3中:[0023] 将其中点云块 输入点云特征编码器模块与点云特征解码器模块,让网络学习补全其完整形状获得预测的点云 ,如以下公式所示:[0024] ;[0025] ;[0026] 获得预测的点云后,将点云输入冻结的形状特征编码器模块提取其形状信息特征,然后将点云对应的文本提示输入冻结的文本特征编码器模块获文本特征 ,然后将 和 输入形状‑文本特征匹配模块得到点云形状与文本提示的匹配度。[0027] 进一步的,所述S3中:[0028] (1)点云特征编码器模块:[0029] 为提取输入残缺点云的全局形状特征并保留其空间结构信息,设计了一个点云特征编码器模块,它由两个空间卷积操作构成,每个空间卷积操作按照以下规则构建:[0030] ;[0031] ;[0032] 其中 表示上一次的特征, 表示一个空间卷积中的输入卷积,表示一个空间卷积中的输出卷积,Re表示Relu激活函数,BN表示批正则化,表示第i个空间卷积层的全局特征;[0033] 通过两个空间卷积操作,输入点云从特征维度为三的点空间转化到了特征空间;为了保证网络对输入点云数量无关,对提取的点云特征在点数量维度上执行最大化池化操作;并在这个过程中提取点云的全局特征;[0034] (2)点云特征解码器模块:[0035] 为将点云从特征维度空间转点维度空间,并在此过程中学习到补全的知识,设计了一个点云特征解码器模块,由一个多层感知机组成,经过几次线性连接层扩充特征维度,将点云特征恢复到点维度空间,由下式给出:[0036] ;[0037] 其中 表示线性层,Re表示Relu激活函数, 表示特征, 表示预测的点云。[0038] (3)形状特征编码器模块:[0039] 为了提取预测后的点云的形状特征,引入了基于PointTransformer的预训练形状编码器;其通过在ShapeNet数据集上的预训练,能够较好的提取点云中的特征信息;形状特征编码器包含多个基于向量自注意力点变换器层,其使用减法关系并将位置编码δ添加到注意力向量γ和转换后的特征α中:[0040] ;[0041] 这里的子集 是 的局部邻域中的点的集合,其采用最近的自注意力网络的做法进行图像分析,在每个数据点周围的局部邻域内局部应用自注意力; 是输出的特征, 是逐点特征变换,例如线性投影或MLP。ρ是一个归一化函数,例如softmax,映射函数γ是一个具有两个线性层和一个ReLU非线性的MLP;[0042] 位置编码函数δ定义如下:[0043] ;[0044] 这里 和 是点i和j的3D点坐标,编码函数θ是一个具有两个线性层和一个ReLU非线性的MLP;[0045] (4)形状‑文本特征匹配模块:[0046] 对点云和文本使用单独的特征编码器来导出形状特征记为 和文本特征,记为 ;为了使用文本表示增强形状特征,投影并进入一个公共嵌入空间并计算它们之间的特征相似度,采用批量大小为B的批量优化策略,构建了一个形状为[B,B]的logit潜在矩阵M;形式上:[0047] ;[0048] 其中 表示可学习的尺度参数, 表示点云形状特征, 表示与点云对应的文本提示的特征, 是logit潜在矩阵。[0049] 进一步的,所述S4中:本发明提出了形状感知的跨注意力机制来增强点云编码器的特征提取能力,该机制通过专用的点云形状特征编码器从点云 中提取形状信息,然后丰富点云的形状信息。[0050] 将点云输入冻结的形状特征编码器模块提取其形状信息特征 ,将其输入一个多层感知机获得 使得其与 维度匹配,然后将 作为多头注意力机制中的查询, 作为多头注意力机制中的键值,经过跨注意力后获得融合特征 ,将 与逐元素相加获得 ,最后将 送入激活函数激活后作为残差再次逐元素相加到 中获得最终输出 ;应用了一致性损失来惩罚 和 之间的差异:[0051] ;[0052] ;[0053] ;[0054] 其中 分别代表注意力机制中的QKV矩阵, 代表多头注意力机制,Re表示Relu激活函数。[0055] 进一步的,S5中所述目标函数为:[0056] 为了让补全网络尽可能地保留输入点云全局特征的情况下恢复完整的点云形状,引入目标函数 强迫预测点云 与原始输入 对齐,同时强迫 与对齐,让网络学习没有输入网络的点云块的特征;同时将 再次输入编码器获得特征 ,在特征空间让 和 对齐; 表示三个损失函数的和,形式上如下式:[0057] ;[0058] 为了进一步规范补全,又引入了向量一致性约束来提高表面连续性;具体地说,给定一个点云 ,其中P表示一个点云,Pi表示点云中的第i个点,则以Pi为中心的切平面法线方向的总最小二乘估计,通过对其最近邻 的协方差矩阵的特征值分解得到,定义为:[0059] ;[0060] 其中qj为Pi的第j个最近邻,k表示k个最近邻,j表示第j个最近邻, 表示其k个最近邻的平均值;最小特征值对应的特征向量是估计的法线方向 , 归一化为 ;将点Pi的正常一致性定义为:[0061] ;[0062] 其中两个法线方向之间的点积作为相似性度量, 是 和 之间的相似性的平均值; 的值表示正态相似度的方差,估计局部表面曲率,向量一致性约束被表述为:[0063] ;[0064] 为了最大化点云的完整性和文本描述之间的相似性,从而实现文本和形状感知特征之间的对齐,引入了CLIP损失 ,来监督包含B个点云‑文本对的批次:[0065] ;[0066] 其中, 描述了点云文本对在匹配完整性和文本一致性方面的一致性损失,和 分别表示对应的点云形状表示和文本特征编码; 表示可学习的尺度参数;B为批次大小,exp表示一组正则化函数,log为对数函数,i和j分别表示第i个批次、第j个批次;[0067] 为了更好地增强获取点云形状的能力,采用了几个自监督相关工作的原理,将形状属性和不完整的点云转换为相同的潜在特征空间。通过多头注意力从原始点云信息中丰富形状属性。应用形状一致性损失来监督不完整点云的全局特征和形状特征之间的对齐:[0068] ;[0069] ,E分别表示形状编码器和编码器。[0070] 进一步的,所述S6中,根据最终学习的深度学习网络照以下计算方式来推理补全残缺点云:[0071] ;[0072] 其中,D表示解码器,E表示编码器, 为预测的点云, 为输入的点云。[0073] 与现有技术相比,本发明的有益效果:[0074] 本发明在点云自监督补全过程中引入CLIP的代替人类高级先验知识作为监督指导点云的补全过程;并且引入了形状感知的跨注意力机制,很大程度上提升了补全网络编码器的特征提取能力。本发明解决了水下对象三维点云数据残余以及单视角自监督点云补全缺少监督信号的问题;经过实际验证,相较于现有方法,本发明在水下目标物补全中有更好的补全结果。本发明结合了多模态信息和自监督学习技术,显著提升了水下目标物三维点云数据的完整性和精度。附图说明[0075] 图1是自监督补全方法示意图;其中,(a)是现有自监督方法示意图,(b)是本发明自监督方法示意图。[0076] 图2是本发明的总体框架图。[0077] 图3是可视化logit矩阵的工作原理图。[0078] 图4是形状感知跨注意力机制原理图。[0079] 图5是实施例3的实验结果。具体实施方式[0080] 以下通过具体实施例并结合附图对本发明做进一步说明。[0081] 本发明利用多模态文本信息指导点云自监督补全的过程,方法示意图如图1所示;自监督的点云补全方法通常在输入残缺点云和预测完整点云之间构建监督;然而,仅依靠输入样本作为监督,将导致预测点云的不平衡问题,即稀疏的真实缺失部分与密集的非缺失部分的问题。[0082] 实施例1:[0083] 一种用于水下目标残缺三维点云的自监督修复补全方法,如图2所示,具体步骤如下:[0084] 步骤1,利用点云分割算法将需要补全的对象从场景级的点云中分离出来,使用Si表示一个场景,使用 表示场景中的所有物体,例如贝壳,珊瑚,鱼类等,使用 表示输入网络的残缺点云。[0085] 步骤2,如图2所示首先构建点云轮廓集;输入点云 的形状为[N,3],从其中随机选择一个点 作为起始点,将其加入采样结果集合中,并标记为已选择。对于每个已选择的点 ,计算其与未选择点的距离,选择距离最远的点 加入采样结果集合,并标记为已选择。重复这个步骤直到点云轮廓集P中包含n个点。然后构建点云块集;选择采样结果中任一点 ,计算 与训练集中所有样本点的距离,然后选择距离未知样本最近的K个点。将这K个点组成一个点云块 ;迭代循环点云轮廓集中所有点,获得点云块集;将获得点云块集分为三个部分分别为 , ,。[0086] 步骤3,如图2所示将其中点云块 输入点云特征编码器模块与点云特征解码器模块,让网络学习补全其完整形状获得预测的点云 ,如以下公式所示:[0087] ;[0088] ;[0089] 获得预测的点云 后,将 输入冻结的形状特征编码器模块提取其形状信息特征 ,然后将点云对应的文本提示输入冻结的文本特征编码器模块获文本特征 ,然后将 和 输入形状‑文本特征匹配模块得到点云形状与文本提示的匹配度。[0090] 具体来说,首先构建点云特征编码器模块;为了提取输入残缺点云的全局形状特征并保留其空间结构信息,设计了一个点云特征编码器模块,它由两个空间卷积操作构成,每个空间卷积操作按照以下规则构建:[0091] ;[0092] ;[0093] 其中 表示上一次的特征, 表示一个空间卷积中的输入卷积,表示一个空间卷积中的输出卷积,Re表示Relu激活函数,BN表示批正则化,表示第i个空间卷积层的全局特征。通过两个空间卷积操作,输入点云从特征维度为三的点空间转化到了特征空间;为了保证网络对输入点云数量无关,我们对提取的点云特征在点数量维度上执行最大化池化操作;并在这个过程中提取点云的全局特征。[0094] 然后构建点云特征解码器模块;为了将点云从特征维度空间转点维度空间,并在此过程中学习到补全的知识,设计了一个点云特征解码器模块,由一个多层感知机组成,经过几次线性连接层扩充特征维度,将点云特征恢复到点维度空间,由下式给出:[0095] ;[0096] 然后构建形状特征编码器模块;为了提取预测后的点云的形状特征,引入了基于PointTransformer的预训练形状编码器;其通过在ShapeNet数据集上的预训练,能够较好的提取点云中的特征信息。形状特征编码器包含多个基于向量自注意力点变换器层。其使用减法关系并将位置编码δ添加到注意力向量γ和转换后的特征α中:[0097] ;[0098] 这里的子集 是 的局部邻域中的点的集合,其采用最近的自注意力网络的做法进行图像分析,在每个数据点周围的局部邻域内局部应用自注意力; 是输出的特征, 是逐点特征变换,例如线性投影或MLP。ρ是一个归一化函数,例如softmax,映射函数γ是一个具有两个线性层和一个ReLU非线性的MLP;[0099] 位置编码函数δ定义如下:[0100] ;[0101] 这里 和 是点i和j的3D点坐标。编码函数θ是一个具有两个线性层和一个ReLU非线性的MLP。[0102] 然后构建形状‑文本特征匹配模块;如图3所示,对点云和文本使用单独的特征编码器来导出形状特征记为 和文本特征,记为 。为了使用文本表示增强形状特征,投影并进入一个公共嵌入空间并计算它们之间的特征相似度。采用批量大小为B的批量优化策略,我们构建了一个形状为[B,B]的logit潜在矩阵M。形式上:[0103] ;[0104] 其中 表示可学习的尺度参数。 表示点云形状特征。 表示与点云对应的文本提示的特征。 是logit潜在矩阵。[0105] 步骤4:有监督方法点云补全方法总是强调复杂解码器集的设计。之前的以由粗到细模式设计的有监督方法倾向于设计一个精密的多层解码器;这是因为其能够在保留全局特征信息的情况下尽可能地让点云变得密集。但是自监督点云补全方法的重点在于优化编码器以捕获全局特征,同时从不完整的部分学习。因此我们提出了形状感知的跨注意力机制来增强点云编码器的特征提取能力,如图4所示。[0106] 该机制通过专用的点云形状特征编码器从点云中提取形状信息,然后丰富点云的形状信息。将 输入冻结的形状特征编码器模块提取其形状信息特征 ,将其输入一个多层感知机获得 使得其与 维度匹配,然后将 作为多头注意力机制中的查询, 作为多头注意力机制中的键值,经过跨注意力后获得融合特征 ,将 与逐元素相加获得 ,最后将 送入激活函数激活后作为残差再次逐元素相加到 中获得最终输出 。应用了一致性损失来惩罚 和 之间的差异:[0107] ;[0108] ;[0109] ;[0110] 其中 分别代表注意力机制中的QKV矩阵, 代表多头注意力机制,Re表示Relu激活函数。[0111] 步骤5,为了让补全网络尽可能地保留输入点云全局特征的情况下恢复完整的点云形状,引入目标函数 强迫预测点云 与原始输入 对齐,同时强迫与 对齐,让网络学习没有输入网络的点云块的特征;同时将 再次输入编码器获得特征 ,在特征空间让 和 对齐; 表示三个损失函数的和,形式上:[0112] ;[0113] 为了进一步规范补全,引入了向量一致性约束来提高表面连续性。具体地说,给定一个点云 ,则以Pi为中心的切平面法线方向的总最小二乘估计,可以通过对其最近邻 的协方差矩阵Cov的特征值分解得到,定义为:[0114] ;[0115] 其中Cov最小特征值对应的特征向量是估计的法线方向vi,vi归一化为 。将点Pi的正常一致性定义为:[0116] ;[0117] 其中两个法线方向之间的点积作为相似性度量, 是vi和vj之间的相似性的平均值。 的值表示正态相似度的方差,估计局部表面曲率,向量一致性约束被表述为:[0118] ;[0119] 为了最大化点云的完整性和文本描述之间的相似性,从而实现文本和形状感知特征之间的对齐,引入了CLIP损失 ,来监督包含B个点云‑文本对的批次。形式上:[0120] ;[0121] 其中, 描述了点云文本对在匹配完整性和文本一致性方面的一致性损失。和 分别表示对应的点云形状表示和文本特征编码。 表示可学习的尺度参数。[0122] 为了更好地增强获取点云形状的能力,采用了几个自监督相关工作的原理。将形状属性和不完整的点云转换为相同的潜在特征空间。通过多头注意力从原始点云信息中丰富形状属性。应用形状一致性损失来监督不完整点云的全局特征和形状特征之间的对齐。形式上:[0123] ;[0124] ,E分别表示形状编码器和编码器。[0125] 步骤6,我们根据最终学习的深度学习网络照以下计算方式来推理补全残缺点云:[0126] 。[0127] 实施例2:验证实验:[0128] 基于实施例1提出的方法在水下贝类生物补全的结果。[0129] 本实施例采用水下采集的贝壳数据集;共采集55个样本,编号1‑45号贝壳作为训练集,编号45‑49作为测试集,编号50‑55作为验证集;使用欧氏距离进行评估,如表1所示,本发明在补全水下贝类残缺点云时,获得了较小的欧氏距离度量,具有较好的补全结果。[0130] 表1本发明于水下贝壳残缺点云数据集上的结果:[0131] 。[0132] 实施例3:验证实验:[0133] 基于实施例1提出的方法在非水下数据集“3D‑EPN”中与基线结果的对比实验。[0134] 表2本发明于“3D‑EPN”残缺点云数据集上的结果:[0135] 。[0136] 评测标准为欧氏距离L2范式CD×103,结果如表2和图5所示,说明了本发明不仅在水下贝类生物补全中有较好的补全结果,在其他物体的补全中也有不错的效果。[0137] 在上述实施例的基础上,本发明继续对其中涉及到的技术特征及该技术特征在本发明中所起到的功能、作用进行详细的描述,以帮助本领域的技术人员充分理解本发明的技术方案并且予以重现。[0138] 最后,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

专利地区:山东

专利申请日期:2024-07-10

专利公开日期:2024-09-03

专利公告号:CN118470515B


以上信息来自国家知识产权局,如信息有误请联系我方更正!
电话咨询
读内容
搜本页
回顶部