可左右滑动选省市

图像深度标注方法、装置、设备及存储介质发明专利

更新时间:2024-09-01
图像深度标注方法、装置、设备及存储介质发明专利 专利申请类型:发明专利;
地区:广东-广州;
源自:广州高价值专利检索信息库;

专利名称:图像深度标注方法、装置、设备及存储介质

专利类型:发明专利

专利申请号:CN202210161561.4

专利申请(专利权)人:广州文远知行科技有限公司
权利人地址:广东省广州市中新广州知识城九佛建设路333号自编687室

专利发明(设计)人:韩文韬,鲁赵晗,韩旭

专利摘要:本发明涉及人工智能领域,公开了一种图像深度标注方法、装置、设备及存储介质,该方法包括:对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云;将所有静态点云变换至世界坐标系,并进行处理,得到对应的背景点云;对动态点云进行插值处理,并将插值处理处理后的动态点云与背景点云进行叠加,得到对应帧的稠密点云;将稠密点云投影至对应帧的相机图像的相机平面,得到相机图像对应的深度标注。本发明的技术方案中针对图像深度获取的难点,通过对多帧点云数据进行点云分离和叠加,使得稀疏点云成为稠密点云,进而使得转换的深度图像中的深度数据稠密。

主权利要求:
1.一种图像深度标注方法,其特征在于,所述图像深度标注方法包括:
对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云;
根据所述点云序列对应的激光雷达坐标系与世界坐标系之间的转换关系,确定对应的位姿转换矩阵;根据所述位姿转换矩阵将所有所述静态点云转换至世界坐标系上;
将变换至世界坐标系的所有静态点云进行叠加处理,得到叠加点云;计算所述叠加点云中的各点云在非当前帧的邻域;统计所述邻域中所有点云对应的语义类型,并根据所述邻域中各点云的语义类型确定所述邻域的中心点的语义类型;将所述邻域中与所述中心点的语义类型不同的点云进行滤除,得到对应的背景点云;
构建所述动态点云对应的动态障碍物的三维平面;对所述三维平面进行上采样,得到采样点,并根据所述采样点对所述动态点云进行插值处理;将插值处理后的动态点云与所述背景点云进行叠加,得到对应帧的稠密点云;
将所述稠密点云投影至对应帧的所述相机图像的相机平面;计算所述稠密点云中的动态点云对应的各动态障碍物之间的遮挡关系;根据所述遮挡关系将所述动态点云的深度值赋予投影的相机平面的对应的像素上;根据静态点云的深度值赋予投影的所述相机平面中未赋予深度值的像素上。
2.根据权利要求1所述的图像深度标注方法,其特征在于,所述对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云包括:将所述点云序列输入预设的障碍物检测与分割模型中,通过所述障碍物检测与分割模型检测并分割所述点云序列对应帧中的障碍物轮廓,并对所述障碍物轮廓进行语义标注,得到对应的语义类型,其中,所述语义类型包括动态障碍物;
将所述点云序列中被语义类型为动态障碍物类型的障碍物轮廓包含的点云标记为动态点云;
将所述点云序列中不被语义类型为动态障碍物类型的障碍物轮廓包含的点云标记为静态点云。
3.根据权利要求2所述的图像深度标注方法,其特征在于,所述将所述点云序列输入预设的障碍物检测与分割模型中,通过所述障碍物检测与分割模型检测并分割所述点云序列对应帧中的障碍物轮廓,并对所述障碍物轮廓进行语义标注,得到对应的语义类型包括:将所述点云序列输入预设的障碍物检测与分割模型中,其中,所述障碍物检测与分割模型分为特征提取部分和语义分割部分;
通过所述障碍物检测与分割模型中的特征提取部分获取输入的点云序列中n个点云的d维特征作为局部特征,并对所述局部特征进行分类和学习,经过最大池化处理获得全局特征;
通过所述障碍物检测与分割模型中的语义分割部分对所述局部特征和所述全局特征进行拼接,并通过多层感知机进行降维处理,最终对所述点云序列的各点云的语义类型进行预测。
4.一种图像深度标注装置,其特征在于,所述图像深度标注装置包括:
点云分离模块,用于对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云;
静态处理模块,用于根据所述点云序列对应的激光雷达坐标系与世界坐标系之间的转换关系,确定对应的位姿转换矩阵;根据所述位姿转换矩阵将所有所述静态点云转换至世界坐标系上;将变换至世界坐标系的所有静态点云进行叠加处理,得到叠加点云;计算所述叠加点云中的各点云在非当前帧的邻域;统计所述邻域中所有点云对应的语义类型,并根据所述邻域中各点云的语义类型确定所述邻域的中心点的语义类型;将所述邻域中与所述中心点的语义类型不同的点云进行滤除,得到对应的背景点云;
动态处理模块,用于构建所述动态点云对应的动态障碍物的三维平面;对所述三维平面进行上采样,得到采样点,并根据所述采样点对所述动态点云进行插值处理;将插值处理后的动态点云与所述背景点云进行叠加,得到对应帧的稠密点云;
投影转换模块,用于将所述稠密点云投影至对应帧的所述相机图像的相机平面;计算所述稠密点云中的动态点云对应的各动态障碍物之间的遮挡关系;根据所述遮挡关系将所述动态点云的深度值赋予投影的相机平面的对应的像素上;根据静态点云的深度值赋予投影的所述相机平面中未赋予深度值的像素上。
5.一种图像深度标注设备,其特征在于,所述图像深度标注设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述图像深度标注设备执行如权利要求1‑3中任一项所述的图像深度标注方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1‑3中任一项所述的图像深度标注方法的步骤。 说明书 : 图像深度标注方法、装置、设备及存储介质技术领域[0001] 本发明涉及人工智能领域,尤其涉及一种图像深度标注方法、装置、设备及存储介质。背景技术[0002] 为了在图像上完成障碍检测、分割等视觉任务并转换至世界坐标系,供下游决策模块使用,特别是在没有其他3D测量传感器配置的系统中,通常需要在图像上进行像素粒度的深度估计,现有的深度估计方案主要包括基于深度学习的单目深度估计和基于双目相机系统的深度估计,现有的实现基于深度学习的单目深度估计有多种方式,其中,一种适用于自动驾驶场景的测距方法依靠激光雷达,依据激光雷达与相机之间的标定将3D测量结果转换至图像平面获取深度,但受限于激光雷达的分辨率,通过这种方式获取的深度通常是稀疏的,难以达到深度学习算法预期的质量。发明内容[0003] 本发明的主要目的在于解决现有的进行单目深度估计得到的深度图像中的深度数据过于稀疏的技术问题。[0004] 本发明第一方面提供了一种图像深度标注方法,包括:对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云;将所有所述静态点云变换至世界坐标系,并进行处理,得到对应的背景点云;对所述动态点云进行插值处理,并将插值处理处理后的动态点云与所述背景点云进行叠加,得到对应帧的稠密点云;将所述稠密点云投影至对应帧的所述相机图像的相机平面,得到所述相机图像对应的深度标注。[0005] 在本实施例中,在本发明第一方面的第一种实现方式中,所述对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云包括:将所述点云序列输入预设的障碍物检测与分割模型中,通过所述障碍物检测与分割模型检测并分割所述点云序列对应帧中的障碍物轮廓,并对所述障碍物轮廓进行语义标注,得到对应的语义类型,其中,所述语义类型包括动态障碍物;将所述点云序列中被语义类型为动态障碍物类型的障碍物轮廓包含的点云标记为动态点云;将所述点云序列中不被语义类型为动态障碍物类型的障碍物轮廓包含的点云标记为静态点云。[0006] 在本实施例中,在本发明第一方面的第二种实现方式中,所述将所述点云序列输入预设的障碍物检测与分割模型中,通过所述障碍物检测与分割模型检测并分割所述点云序列对应帧中的障碍物轮廓,并对所述障碍物轮廓进行语义标注,得到对应的语义类型包括:将所述点云序列输入预设的障碍物检测与分割模型中,其中,所述障碍物检测与分割模型分为特征提取部分和语义分割部分;通过所述障碍物检测与分割模型中的特征提取部分获取输入的点云序列中n个点云的d维特征作为局部特征,并对所述局部特征进行分类和学习,经过最大池化处理获得全局特征;通过所述障碍物检测与分割模型中的语义分割部分对所述局部特征和所述全局特征进行拼接,并通过多层的MLP进行降维处理,最终对所述点云序列的各点云的语义类型进行预测。[0007] 在本实施例中,在本发明第一方面的第三种实现方式中,所述将所有所述静态点云变换至世界坐标系,并进行处理,得到对应的背景点云包括:根据所述点云序列对应的激光雷达坐标系与所述世界坐标系之间的转换关系,确定对应的位姿转换矩阵;根据所述位姿转换矩阵将所有所述静态点云转换至世界坐标系上;对变换至世界坐标系的所有静态点云进行处理,得到对应的背景点云。[0008] 在本实施例中,在本发明第一方面的第四种实现方式中,所述对变换至世界坐标系的所有静态点云进行处理,得到对应的背景点云包括:将变换至世界坐标系的所有静态点云进行叠加处理,得到叠加点云;通过kd‑tree最近邻算法计算所述叠加点云中的各点云在非当前帧的邻域;统计所述邻域中所有点云对应的语义类型,并根据所述领域中各点云的语义类型确定所述邻域的中心点的语义类型;将所述邻域中与所述中心点的语义类型不同的点云进行滤除,得到对应的背景点云。[0009] 在本实施例中,在本发明第一方面的第五种实现方式中,所述对所述动态点云进行插值处理,并将插值处理处理后的动态点云与所述背景点云进行叠加,得到对应帧的稠密点云包括:构建所述动态点云对应的动态障碍物的三维平面;对所述三维平面进行上采样,得到采样点,并根据所述采样点对所述动态点云进行插值处理;将插值处理处理后的动态点云与所述背景点云进行叠加,得到对应帧的稠密点云。[0010] 在本实施例中,在本发明第一方面的第六种实现方式中,所述将所述稠密点云投影至对应帧的所述相机图像的相机平面,得到所述相机图像对应的深度标注包括:将所述稠密点云投影至对应帧的所述相机图像的相机平面;计算所述稠密点云中的动态点云对应的各动态障碍物之间的遮挡关系;根据所述遮挡关系将所述动态点云的深度值赋予投影的相机平面的对应的像素上;根据静态点云的深度值赋予投影的所述相机平面中未赋予深度值的像素上。[0011] 本发明第二方面提供了一种图像深度标注装置,包括:点云分离模块,用于对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云;静态处理模块,用于将所有所述静态点云变换至世界坐标系,并进行处理,得到对应的背景点云;动态处理模块,用于对所述动态点云进行插值处理,并将插值处理处理后的动态点云与所述背景点云进行叠加,得到对应帧的稠密点云;投影转换模块,用于将所述稠密点云投影至对应帧的所述相机图像的相机平面,得到所述相机图像对应的深度标注。[0012] 在本实施例中,在本发明第二方面的第一种实现方式中,所述点云分离模块具体包括:语义分割单元,用于将所述点云序列输入预设的障碍物检测与分割模型中,通过所述障碍物检测与分割模型检测并分割所述点云序列对应帧中的障碍物轮廓,并对所述障碍物轮廓进行语义标注,得到对应的语义类型,其中,所述语义类型包括动态障碍物;动态点云标记单元,将所述点云序列中被语义类型为动态障碍物类型的障碍物轮廓包含的点云标记为动态点云;静态点云标记单元,将所述点云序列中不被语义类型为动态障碍物类型的障碍物轮廓包含的点云标记为静态点云。[0013] 在本实施例中,在本发明第二方面的第二种实现方式中,所述语义分割单元具体用于:将所述点云序列输入预设的障碍物检测与分割模型中,其中,所述障碍物检测与分割模型为PointNet网络结构,所述障碍物检测与分割模型分为特征提取部分和语义分割部分;通过所述障碍物检测与分割模型中的特征提取部分获取输入的点云序列中n个点云的d维特征作为局部特征,并对所述局部特征进行分类和学习,经过最大池化处理获得全局特征;通过所述障碍物检测与分割模型中的语义分割部分对所述局部特征和所述全局特征进行拼接,并通过多层的MLP进行降维处理,最终对所述点云序列的各点云的语义类型进行预测。[0014] 在本实施例中,在本发明第二方面的第三种实现方式中,所述静态处理模块具体包括:矩阵确定单元,用于根据所述点云序列对应的激光雷达坐标系与所述世界坐标系之间的转换关系,确定对应的位姿转换矩阵;坐标系转换单元,用于根据所述位姿转换矩阵将所有所述静态点云转换至世界坐标系上;叠加平滑单元,用于对变换至世界坐标系的所有静态点云进行处理,得到对应的背景点云。[0015] 在本实施例中,在本发明第二方面的第四种实现方式中,所述叠加平滑单元具体用于:将变换至世界坐标系的所有静态点云进行叠加处理,得到叠加点云;通过kd‑tree最近邻算法计算所述叠加点云中的各点云在非当前帧的邻域;统计所述邻域中所有点云对应的语义类型,并根据所述领域中各点云的语义类型确定所述邻域的中心点的语义类型;将所述邻域中与所述中心点的语义类型不同的点云进行滤除,得到对应的背景点云。[0016] 在本实施例中,在本发明第二方面的第五种实现方式中,所述动态处理模块具体用于:构建所述动态点云对应的动态障碍物的三维平面;对所述三维平面进行上采样,得到采样点,并根据所述采样点对所述动态点云进行插值处理;将插值处理处理后的动态点云与所述背景点云进行叠加,得到对应帧的稠密点云。[0017] 在本实施例中,在本发明第二方面的第六种实现方式中,所述投影转换模块具体用于:将所述稠密点云投影至对应帧的所述相机图像的相机平面;计算所述稠密点云中的动态点云对应的各动态障碍物之间的遮挡关系;根据所述遮挡关系将所述动态点云的深度值赋予投影的相机平面的对应的像素上;根据静态点云的深度值赋予投影的所述相机平面中未赋予深度值的像素上。[0018] 本发明第三方面提供了一种图像深度标注设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述图像深度标注设备执行上述的图像深度标注方法的步骤。[0019] 本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的图像深度标注方法的步骤。[0020] 本发明的技术方案中,通过对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云;将所有静态点云变换至世界坐标系,并进行处理,得到对应的背景点云;对动态点云进行插值处理,并将插值处理处理后的动态点云与背景点云进行叠加,得到对应帧的稠密点云;将稠密点云投影至对应帧的相机图像的相机平面,得到相机图像对应的深度标注。本发明的技术方案中针对图像深度获取的难点,利用模型自动标注算法和时序融合的方法,极大地提高了图像深度的质量,通过对多帧点云数据进行点云分离和叠加,使得稀疏点云成为稠密点云,进而使得转换的深度图像中的深度数据稠密。附图说明[0021] 图1为本发明实施例中图像深度标注方法的第一个实施例示意图;[0022] 图2为本发明实施例中图像深度标注方法的第二个实施例示意图;[0023] 图3为本发明实施例中图像深度标注方法的第三个实施例示意图;[0024] 图4为本发明实施例中图像深度标注装置的一个实施例示意图;[0025] 图5为本发明实施例中图像深度标注装置的另一个实施例示意图;[0026] 图6为本发明实施例中图像深度标注设备的一个实施例示意图。具体实施方式[0027] 本发明实施例提供了一种图像深度标注方法、装置、设备及存储介质,用于解决现有的进行单目深度估计得到的深度图像中的深度数据过于稀疏的技术问题。[0028] 本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。[0029] 为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中图像深度标注方法的第一个实施例包括:[0030] 101、对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云;[0031] 可以理解的是,本发明的执行主体可以为图像深度标注装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。[0032] 在实际应用中,相机工艺成熟,稳定,造价低廉,信息丰富,使得相机成为无人驾驶感知的重要传感元件,和激光点云相比,相机图像能够提供更为丰富的细节、纹理信息,相机拍摄的对象主要为需要使用点云进行表示区域,例如可以是城市道路环境中包含车辆、行人、交通指示标识或广告牌的任意区域等,在自动驾驶过程中,相机拍摄的区域,为车辆前方的视野区域,相机拍摄的结果为相机图像,同时,由激光雷达设备通过发射与接收激光雷达信号(如激光信号、超声波信号等),并进行一定的信号处理,得到点云,通过在驾驶过程中相机与激光雷达同时生成相机图像和点云,得到多帧相机图像和对应的多帧点云序列。[0033] 在本实施例中,进行点云分离主要是采用预设的基于点云的障碍物检测与分割模型,该障碍物检测与分割模型可以对输入的点云序列进行检测和分割,在本实施例中,通过障碍物检测与分割模型主要是用于分割出点云序列中检测为动态障碍物的点云。在实际应用中,语义分割网络能够对输入的点云序列进行障碍物检测,得到每一帧点云序列对应的障碍物轮廓,并且预测每一帧点云序列中的每个点云进行语义类别,例如给定输入点云序列{P0,P1,…,Pn‑1},模型将预测每一帧中存在的障碍物轮廓{Bi0,Bi1,…Bim‑1}与每个点云的语义分分类(包括路面、人行道、静态障碍物、噪声等类别),根据语义分类得到的各点云的语义类别。[0034] 在本实施例中,根据各点云的语义类别进行点云分离,分别得到对应的动态点云和静态点云,其中,动态点云主要是动态障碍物的点云,例如自动驾驶过程中车辆前方行驶的车辆,静态点云主要是一些不会运动的背景,录入路面,人行道等。在本实施例中,点云分离主要是通过对于被任一动态障碍物轮廓Bij所包含的点,将其标记为动态点,否则标记为静态点,并记录每一帧点云中动、静态点的集合Di与Si,同时保留每个点的分类结果。[0035] 102、将所有静态点云变换至世界坐标系,并进行处理,得到对应的背景点云;[0036] 在本实施例中,不同帧的点云序列的时间顺序不一样,造成对应的参考系可能不一样,例如,在自动驾驶的过程中,相机和激光雷达进行实时的拍摄和点云生成,而自动驾驶的车辆在驾驶的过程中可能出现移动,例如车辆在行驶过程中,也可能参考系相同,例如自动驾驶车辆在等待红灯,此时自动驾驶车辆静止,相机和激光雷达也静止,此时不同帧的点云序列的参考系相同。[0037] 在本实施例中,确定不同帧的点云序列对应的参考系与预设的世界坐标系之间的位姿转换矩阵,通过矩阵变换,将分离出的静态点云经过平移和旋转,可以使得每一帧的静态点云从激光雷达参考系转换到世界坐标系在统一的世界坐标系中。[0038] 在实际应用中,所述处理主要用于将多帧稀疏的静态点云转换成稠密的背景点云,在本实施例中,所述处理主要包括叠加处理和平滑处理,通过把连续N帧静态点云进行叠加,即可得到稠密的静态点云,对进行叠加后的静态点云需要进行平滑处理,因为在每一帧的静态点云中都可能存在噪声,当多帧静态点云进行叠加后,每一帧的噪声都叠加到最后得到的稠密静态点云上,通过平滑处理,对叠加的噪声统一进行滤除,最终得到的点云即为背景点云。[0039] 103、对动态点云进行插值处理,并将插值处理处理后的动态点云与背景点云进行叠加,得到对应帧的稠密点云;[0040] 在本实施例中,对于动态点云,以及障碍物检测与分割模型分割得到的障碍物轮廓,由于其点3D测量来源仅为当前帧点云,因此相比于多帧叠加的静态点云仍存在稀疏的问题。针对这一问题,在本实施例中依据每个障碍物轮廓Bij,在障碍物表面根据轮廓以及该障碍物所包含的点云在三维空间进行插值,以填充障碍物表面稀疏点云间的空隙。所有障碍物表面增稠处理后得到当前帧新的动态点云D’i。[0041] 在本实施例中,上述步骤中的点云处理完毕后,将每一帧的动、静态点D’i与S’i叠加后得到当前帧的完整稠密点云P’i[0042] 104、将稠密点云投影至对应帧的相机图像的相机平面,得到相机图像对应的深度标注。[0043] 在本实施例中,根据障碍物检测与分割模型中检测得到的障碍物轮廓,计算各个障碍物包含的动态点云之间的遮挡关系,同时根据相机与激光雷达之间的静态标定参数K,由远至近首先将动态点云D’i投影至图像平面,以确保所得深度符合当前帧障碍物的遮挡关系;将点云在相机坐标系下的值赋予投影后对应的像素,作为该像素的深度值。而后,仅对于未被动态点云赋予深度的图像区域,将静态点云S’i投影至图像平面,同样地赋予深度值,即可对相机图像进行深度标注,由于最后得到的是稠密点云,将点云转换后得到的相机图像中的深度信息也是稠密的,通过上述深度生成可应用于点云序列中每一帧所对应的多张图像,从而生成一个序列的深度图像。[0044] 在本实施例中,通过对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云;将所有静态点云变换至世界坐标系,并进行处理,得到对应的背景点云;对动态点云进行插值处理,并将插值处理处理后的动态点云与背景点云进行叠加,得到对应帧的稠密点云;将稠密点云投影至对应帧的相机图像的相机平面,得到相机图像对应的深度标注。本发明针对图像深度获取的难点,利用模型自动标注算法和时序融合的方法,极大地提高了图像深度的质量,通过对多帧点云数据进行点云分离和叠加,使得稀疏点云成为稠密点云,进而使得转换的深度图像中的深度数据稠密。[0045] 请参阅图2,本发明实施例中图像深度标注方法的第二个实施例包括:[0046] 201、将点云序列输入预设的障碍物检测与分割模型中,其中,障碍物检测与分割模型分为特征提取部分和语义分割部分;[0047] 在实际应用中,对于障碍物检测与分割模型可以使用PointNet,PointNet++等点处理网络结构,也可以使用FocusNet等卷积网络结构,本发明不做限定,在本实施例中,主要使用PointNet网络结构对点云序列进行语义分割。[0048] 202、通过所述障碍物检测与分割模型中的特征提取部分获取输入的点云序列中n个点云的d维特征作为局部特征,并对局部特征进行分类和学习,经过最大池化处理获得全局特征;[0049] 203、通过所述障碍物检测与分割模型中的语义分割部分对局部特征和全局特征进行拼接,并通过多层的MLP进行降维处理,最终对点云序列的各点云的语义类型进行预测;[0050] 在本实施例中,PointNet网络结构第一T‑Net层、第二T‑Net层、多个感知机(MultilayerPerception,MLP)以及特征融合层,通过第一T‑Net层对待处理数据集中点云进行位置对齐,通过MLP将点云局部特征的维度从3维升到64维,通过第二T‑Net层对点云进行特征对齐,通过MLP将点云局部特征的维度从64维升至128维,再升为1024维,通过最大值对称函数对点云进行池化处理,获得点云全局特征,通过特征融合层将点云全局特征与点云局部特征进行拼接,通过MLP对拼接后的点云特征进行降维处理,实现点云的语义分割,进行语义分割的过程如下:首先,对得到的点云全局特征使用多层感知机MLP进行降维处理;然后,通过softmax函数对点云进行分类,获得每个点在每个类别的概率分数;最后,进行标签分类,实现点云的语义分割处理。[0051] 204、将点云序列中被语义类型为动态障碍物类型的障碍物轮廓包含的点云标记为动态点云;[0052] 205、将点云序列中不被语义类型为动态障碍物类型的障碍物轮廓包含的点云标记为静态点云;[0053] 206、将所有静态点云变换至世界坐标系,并进行处理,得到对应的背景点云;[0054] 207、对动态点云进行插值处理,并将插值处理处理后的动态点云与背景点云进行叠加,得到对应帧的稠密点云;[0055] 208、将稠密点云投影至对应帧的相机图像的相机平面;[0056] 209、计算稠密点云中的动态点云对应的各动态障碍物之间的遮挡关系;[0057] 在本实施例中,根据检测得到的障碍物轮廓,计算各个障碍物包含的动态点云之间的遮挡关系,这是因为动态障碍物之间的位置关系可能存在变化,为了避免动态障碍物在深度标注的过程中产生混乱,需要先确定动态障碍物之间的遮挡关系。[0058] 210、根据遮挡关系将动态点云的深度值赋予投影的相机平面的对应的像素上;[0059] 211、根据静态点云的深度值赋予投影的相机平面中未赋予深度值的像素上。[0060] 在本实施例中,在相机平面的二维图中,像素点的二维坐标为三维点云中对应像素点的二维坐标,例如,三维点云中某个点的三维坐标为(x1,y1,z1),其中z1表示该点相对于相机成像平面的深度值,该点在二维深度图中对应的像素点的二维坐标即为(x1,y1)。[0061] 本实施例在上一实施例的基础上,详细描述了对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云的过程,通过将点云序列输入预设的障碍物检测与分割模型中,通过障碍物检测与分割模型检测并分割点云序列对应帧中的障碍物轮廓,并对障碍物轮廓进行语义标注,得到对应的语义类型,其中,语义类型包括动态障碍物;将点云序列中被语义类型为动态障碍物类型的障碍物轮廓包含的点云标记为动态点云;将点云序列中不被语义类型为动态障碍物类型的障碍物轮廓包含的点云标记为静态点云。本方法通过对障碍物检测与分割模型检测自动进行语义分割得到动态障碍物,基于动态障碍物可对点云序列进行快速的点云分离,实现深度数据的快速标注。[0062] 请参阅图3,本发明实施例中图像深度标注方法的第三个实施例包括:[0063] 301、对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云;[0064] 302、根据点云序列对应的激光雷达坐标系与世界坐标系之间的转换关系,确定对应的位姿转换矩阵;[0065] 303、根据位姿转换矩阵将所有静态点云转换至世界坐标系上;[0066] 304、将变换至世界坐标系的所有静态点云进行叠加处理,得到叠加点云;[0067] 在本实施例中,世界坐标系是在应用环境中选择的用于描述环境中所有物体位置的参考坐标系,在实际应用中,还可以将某一帧点云序列对应的参考系作为其他点云序列转换的参考系,只需要实现将所有静态点云转换到同一参考系即可。[0068] 在本实施例中,在线性代数中,以转换矩阵的形式表示线性变换的映射关系。示例性的,线性变换包括旋转、平移、缩放或反射等。在本实施例中,位姿转换矩阵可用于表示世界坐标系与激光雷达坐标系之间的转换关系。[0069] 305、计算叠加点云中的各点云在非当前帧的邻域;[0070] 306、统计邻域中所有点云对应的语义类型,并根据领域中各点云的语义类型确定邻域的中心点的语义类型;[0071] 307、将邻域中与中心点的语义类型不同的点云进行滤除,得到对应的背景点云;[0072] 在实际应用中,可以通过多种算法对各点云在非当前帧的邻域,本发明不做限定,在本实施例中,通过kd‑tree最近邻算法,计算每个稠密的静态点云在非当前帧的邻域,其中,领域指的是以某个点为中心,在3D空间中的一个一定半径的球形范围,更新该点的标签为邻域中最高频标签,对于一个邻域中的若干点,每个点都有一个来自点云自语义分割模型的类别,统计该邻域中每个类别出现的频率,取频率最高的类别更新中心点的标签,实现类别的平滑,消除语义分割模型结果中存在的噪声。[0073] 在实际应用中,除了使用上述过程消除语义分割模型结果中存在的噪声外,还可以使用其他方式进行替代,例如基于体素滤波(voxelfilter)的方法,在本发明中不作限定。[0074] 308、构建动态点云对应的动态障碍物的三维平面;[0075] 309、对三维平面进行上采样,得到采样点,并根据采样点对动态点云进行插值处理;[0076] 310、将插值处理处理后的动态点云与背景点云进行叠加,得到对应帧的稠密点云;[0077] 在本实施例中,通过以下步骤进行动态点云的插值运算:1、利用已有的动态障碍物点,通过三角化算法重建出障碍物的三维表面,该表面由一系列法向不同的相邻三角形组成;2、在上述重建得到的表面上采样,每个采样点都落在表面上,并可表达为与之最近的3个真实点坐标的线性组合;3、对于点云过于稀疏无法得到三角化结果的障碍物,则直接采用障碍物检测模型预测的三维框(3Dboundingbox)的表面进行采样,作为近似。[0078] 在本实施例中,点云插值增稠方法不唯一,替代方法有如基于平面法向(surfacenormal)估计和3D物体表面三角化(triangulation)的增稠方法等[0079] 311、将稠密点云投影至对应帧的相机图像的相机平面,得到相机图像对应的深度标注。[0080] 本实施例在前实施例的基础上,详细描述了对变换至世界坐标系的所有静态点云进行处理,得到对应的背景点云的过程,通过将变换至世界坐标系的所有静态点云进行叠加处理,得到叠加点云;通过kd‑tree最近邻算法计算所述叠加点云中的各点云在非当前帧的邻域;统计所述邻域中所有点云对应的语义类型,并根据所述领域中各点云的语义类型确定所述邻域的中心点的语义类型;将所述邻域中与所述中心点的语义类型不同的点云进行滤除,得到对应的背景点云。本申请针对图像深度获取的难点,利用模型自动标注算法和时序融合的方法,极大地提高了图像深度的质量,通过对多帧点云数据进行点云分离和叠加,使得稀疏点云成为稠密点云,进而使得转换的深度图像中的深度数据稠密。[0081] 上面对本发明实施例中图像深度标注方法进行了描述,下面对本发明实施例中图像深度标注装置进行描述,请参阅图4,本发明实施例中图像深度标注装置一个实施例包括:[0082] 点云分离模块401,用于对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云;[0083] 静态处理模块402,用于将所有所述静态点云变换至世界坐标系,并进行处理,得到对应的背景点云;[0084] 动态处理模块403,用于对所述动态点云进行插值处理,并将插值处理处理后的动态点云与所述背景点云进行叠加,得到对应帧的稠密点云;[0085] 投影转换模块404,用于将所述稠密点云投影至对应帧的所述相机图像的相机平面,得到所述相机图像对应的深度标注。[0086] 本发明实施例中,所述图像深度标注装置运行上述图像深度标注方法,所述图像深度标注装置通过对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云;将所有静态点云变换至世界坐标系,并进行处理,得到对应的背景点云;对动态点云进行插值处理,并将插值处理处理后的动态点云与背景点云进行叠加,得到对应帧的稠密点云;将稠密点云投影至对应帧的相机图像的相机平面,得到相机图像对应的深度标注。本发明的技术方案中针对图像深度获取的难点,利用模型自动标注算法和时序融合的方法,极大地提高了图像深度的质量,通过对多帧点云数据进行点云分离和叠加,使得稀疏点云成为稠密点云,进而使得转换的深度图像中的深度数据稠密。[0087] 请参阅图5,本发明实施例中图像深度标注装置的第二个实施例包括:[0088] 点云分离模块401,用于对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云;[0089] 静态处理模块402,用于将所有所述静态点云变换至世界坐标系,并进行处理,得到对应的背景点云;[0090] 动态处理模块403,用于对所述动态点云进行插值处理,并将插值处理处理后的动态点云与所述背景点云进行叠加,得到对应帧的稠密点云;[0091] 投影转换模块404,用于将所述稠密点云投影至对应帧的所述相机图像的相机平面,得到所述相机图像对应的深度标注。[0092] 在本实施例中,所述点云分离模块401具体包括:语义分割单元4011,用于将所述点云序列输入预设的障碍物检测与分割模型中,通过所述障碍物检测与分割模型检测并分割所述点云序列对应帧中的障碍物轮廓,并对所述障碍物轮廓进行语义标注,得到对应的语义类型,其中,所述语义类型包括动态障碍物;动态点云标记单元4012,将所述点云序列中被语义类型为动态障碍物类型的障碍物轮廓包含的点云标记为动态点云;静态点云标记单元4013,将所述点云序列中不被语义类型为动态障碍物类型的障碍物轮廓包含的点云标记为静态点云。[0093] 在本实施例中,所述语义分割单元4011具体用于:将所述点云序列输入预设的障碍物检测与分割模型中,其中,所述障碍物检测与分割模型为PointNet网络结构,所述障碍物检测与分割模型分为特征提取部分和语义分割部分;通过所述障碍物检测与分割模型中的特征提取部分获取输入的点云序列中n个点云的d维特征作为局部特征,并对所述局部特征进行分类和学习,经过最大池化处理获得全局特征;通过所述障碍物检测与分割模型中的语义分割部分对所述局部特征和所述全局特征进行拼接,并通过多层的MLP进行降维处理,最终对所述点云序列的各点云的语义类型进行预测。[0094] 在本实施例中,所述静态处理模块402具体包括:矩阵确定单元4021,用于根据所述点云序列对应的激光雷达坐标系与所述世界坐标系之间的转换关系,确定对应的位姿转换矩阵;坐标系转换单元4022,用于根据所述位姿转换矩阵将所有所述静态点云转换至世界坐标系上;叠加平滑单元4023,用于对变换至世界坐标系的所有静态点云进行处理,得到对应的背景点云。[0095] 在本实施例中,所述叠加平滑单元4023具体用于:将变换至世界坐标系的所有静态点云进行叠加处理,得到叠加点云;通过kd‑tree最近邻算法计算所述叠加点云中的各点云在非当前帧的邻域;统计所述邻域中所有点云对应的语义类型,并根据所述领域中各点云的语义类型确定所述邻域的中心点的语义类型;将所述邻域中与所述中心点的语义类型不同的点云进行滤除,得到对应的背景点云。[0096] 在本实施例中,所述动态处理模块403具体用于:构建所述动态点云对应的动态障碍物的三维平面;对所述三维平面进行上采样,得到采样点,并根据所述采样点对所述动态点云进行插值处理;将插值处理处理后的动态点云与所述背景点云进行叠加,得到对应帧的稠密点云。[0097] 在本实施例中,所述投影转换模块404具体用于:将所述稠密点云投影至对应帧的所述相机图像的相机平面;计算所述稠密点云中的动态点云对应的各动态障碍物之间的遮挡关系;根据所述遮挡关系将所述动态点云的深度值赋予投影的相机平面的对应的像素上;根据静态点云的深度值赋予投影的所述相机平面中未赋予深度值的像素上。[0098] 本实施例在上一实施例的基础上,详细描述了各个模块的具体功能以及部分模块的单元构成,通过各个模块和各单元对多帧相机图像对应的点云序列进行点云分离,得到对应的动态点云和静态点云;将所有静态点云变换至世界坐标系,并进行处理,得到对应的背景点云;对动态点云进行插值处理,并将插值处理处理后的动态点云与背景点云进行叠加,得到对应帧的稠密点云;将稠密点云投影至对应帧的相机图像的相机平面,得到相机图像对应的深度标注。本发明的技术方案中针对图像深度获取的难点,利用模型自动标注算法和时序融合的方法,极大地提高了图像深度的质量,通过对多帧点云数据进行点云分离和叠加,使得稀疏点云成为稠密点云,进而使得转换的深度图像中的深度数据稠密。[0099] 上面图4和图5从模块化功能实体的角度对本发明实施例中的中图像深度标注装置进行详细描述,下面从硬件处理的角度对本发明实施例中图像深度标注设备进行详细描述。[0100] 图6是本发明实施例提供的一种图像深度标注设备的结构示意图,该图像深度标注设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对图像深度标注设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在图像深度标注设备600上执行存储介质630中的一系列指令操作,以实现上述图像深度标注方法的步骤。[0101] 图像深度标注设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如WindowsServe,MacOSX,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6示出的图像深度标注设备结构并不构成对本发明提供的图像深度标注设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。[0102] 本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述图像深度标注方法的步骤。[0103] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。[0104] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read‑onlymemory,ROM)、随机存取存储器(randomaccessmemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。[0105] 以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

专利地区:广东

专利申请日期:2022-02-22

专利公开日期:2024-06-18

专利公告号:CN114926485B


以上信息来自国家知识产权局,如信息有误请联系我方更正!
电话咨询
读内容
搜本页
回顶部