专利名称:一种基于AIGC的图像生成方法和装置
专利类型:实用新型专利
专利申请号:CN202410592132.1
专利申请(专利权)人:威海凯思信息科技有限公司
权利人地址:山东省威海市威海经济技术开发区国泰路13-6号楼1088号
专利发明(设计)人:刘慧静,袁宝
专利摘要:本申请公开了一种基于AIGC的图像生成方法和装置,在拍照预览阶段完成对生成对抗网络模型的训练,使得生成对抗网络模型能够在目标摄像头采集得到原始图像中存在缺陷区域时,根据缺陷区域的特征生成对应的修复区域,从而得到修复后的目标图像。从而大幅提升手机抓拍的质量与成功率。本申请为用户提供了更加智能、便捷的拍照体验,确保每一个美好瞬间都能被完美捕捉。
主权利要求:
1.一种基于AIGC的图像生成方法,其特征在于,包括以下步骤:S1,若满足预设条件,则存储目标摄像头的至少N帧连续的当前预览画面至临时图库,N为正整数;
S2,响应于拍摄操作,通过所述目标摄像头采集得到原始图像;
S3,若检测到所述原始图像中存在缺陷区域,则通过经所述临时图库训练得到的生成对抗网络模型,针对所述原始图像中的缺陷区域生成对应的修复区域;
S4,将所述修复区域融入所述原始图像中,得到目标图像;
所述满足预设条件包括:监测到预设时长内目标摄像头相邻两帧的当前预览画面的变化值小于第一阈值;所述变化值包括:所述当前预览画面中的人物区域的位移值;
所述生成对抗网络模型包括特征提取器、生成器和判别器;所述特征提取器用于提取输入图像的图像特征;所述生成器用于根据所述特征提取器所提取的所述图像特征生成区域重构图像;所述判别器用于根据区域图像对所述区域重构图像进行真假判断;
所述缺陷区域包括以下至少一项:
人脸眯眼的缺陷区域;
人物肢体模糊的缺陷区域;
在通过所述临时图库训练所述生成对抗网络模型时,所述生成对抗网络模型的输入图像包括以下至少一项:所述临时图库中存储的预览画面的眼部区域图像;
所述临时图库中存储的预览画面的肢体区域图像;
所述S3包括:若检测到所述原始图像中存在缺陷区域,则通过所述特征提取器提取所述缺陷区域的图像特征,再通过所述生成器根据所述图像特征生成对应的修复区域。
2.根据权利要求1所述的基于AIGC的图像生成方法,其特征在于,还包括以下步骤:S5,若检测到所述原始图像中不存在缺陷区域,则删除所述临时图库中的所有数据。
3.根据权利要求2所述的基于AIGC的图像生成方法,其特征在于,所述S2还包括:响应于拍摄操作,若当前所述临时图库中所存储的画面帧数大于或等于N帧,则通过所述目标摄像头采集得到原始图像。
4.一种基于AIGC的图像生成装置,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1至3任一项所述的方法。 说明书 : 一种基于AIGC的图像生成方法和装置技术领域[0001] 本申请涉及图像处理技术领域,特别涉及一种基于AIGC的图像生成方法和装置。背景技术[0002] 随着智能手机的广泛普及和技术革新,拍照功能已成为手机使用中不可或缺的一部分。手机摄影以其便捷性和即时性受到了广大用户的青睐,无论是记录日常生活、捕捉美好瞬间,还是分享社交网络,手机拍照都扮演着至关重要的角色。现代智能手机不仅配备了高分辨率的摄像头,还集成了多种拍照模式和优化算法,使得拍照变得更加简单且效果出色。然而,在实际拍摄过程中,尤其是进行人物抓拍时,仍然存在一些技术上的挑战。[0003] 尽管手机摄影技术不断进步,但在进行人物抓拍时,由于人物的动态特性和拍摄时机的难以把握,照片质量往往受到影响。特别是在按下快门的瞬间,如果人物闭眼或者肢体移动,拍出的照片很可能出现人物闭眼、肢体模糊等质量问题。这种情况下,即使手机相机的硬件配置再高,也难以避免这类问题的出现。发明内容[0004] 本申请的目的在于提供一种基于AIGC的图像生成方法和装置,其能够改善上述问题。[0005] 第一方面,本申请提供一种基于AIGC的图像生成方法,其包括步骤S1至步骤S4。其中,S1、S2等仅为步骤标识,方法的执行顺序并不一定按照数字由小到大的顺序进行,比如可以是先执行步骤S2再执行步骤S1,本申请不做限制。[0006] S1,若满足预设条件,则存储目标摄像头的至少N帧连续的当前预览画面至临时图库,N为正整数;[0007] S2,响应于拍摄操作,通过所述目标摄像头采集得到原始图像;[0008] S3,若检测到所述原始图像中存在缺陷区域,则通过经所述临时图库训练得到的生成对抗网络模型,针对所述原始图像中的缺陷区域生成对应的修复区域;[0009] S4,将所述修复区域融入所述原始图像中,得到目标图像。[0010] 可以理解,本申请公开了一种基于AIGC的图像生成方法,在拍照预览阶段完成对生成对抗网络模型的训练,使得生成对抗网络模型能够在目标摄像头采集得到原始图像中存在缺陷区域时,根据缺陷区域的特征生成对应的修复区域,从而得到修复后的目标图像。从而大幅提升手机抓拍的质量与成功率。本申请为用户提供了更加智能、便捷的拍照体验,确保每一个美好瞬间都能被完美捕捉。[0011] 在本申请可选的实施例中,所述满足预设条件包括以下至少一项:接收到用户触发的存储指令;监测到预设时长内目标摄像头相邻两帧的当前预览画面的变化值小于第一阈值。[0012] 在本申请可选的实施例中,所述变化值包括:所述当前预览画面中的人物区域的位移值。[0013] 可以理解,本申请主要是通过生成式人工智能(ArtificialIntelligenceGeneratedContent,AIGC)技术根据缺陷区域的特征生成对应的修复区域,从而起到弥补原始图像瑕疵的效果。因此,用作AIGC训练的样本应尽可能是静态的,除了由用户自行判断静态后触发存储指令外,还可以由图像处理方法进行自动监测。上述预设时长和第一阈值可根据本领域技术人员的经验设定,其目的在于识别出目标摄像头所拍摄的物体是否在一定时长内处于静止状态,比如合影、摆拍等场景。[0014] 在本申请可选的实施例中,还包括以下步骤:S5,若检测到所述原始图像中不存在缺陷区域,则删除所述临时图库中的所有数据。[0015] 可以理解,本申请的目的是弥补原始图像的瑕疵,如果目标摄像头所采集的原始图像不存在缺陷区域,则之前存储于临时图库中的预览画面不再能起到训练作用。为了节约内存空间和保持临时图库的内容单纯,可以在检测到原始图像不存在缺陷区域时,立即删除临时图库中的所有数据。[0016] 在本申请可选的实施例中,所述S2还包括:响应于拍摄操作,若当前所述临时图库中所存储的画面帧数大于或等于N帧,则通过所述目标摄像头采集得到原始图像。[0017] 可以理解,由于建立临时图库也需要时间,因此只有在临时图库建立完成的条件下,才能够执行拍摄操作。若当前临时图库中所存储的画面帧数大于或等于N帧,则说明临时图库的基本要求已经满足,临时图库已经建立成功,因此可以响应于用户输入的拍摄操作执行拍摄指令。若当前临时图库中所存储的画面帧数小于N帧,则说明临时图库内的画面帧数还不满足训练后续生成对抗网络模型的要求,临时图库还未建立成功。此时,若接收到用户输入的拍摄操作,可通过显示器、指示灯、扬声器等设备进行相关提示。[0018] 在本申请可选的实施例中,所述生成对抗网络模型包括特征提取器、生成器和判别器;所述特征提取器用于提取输入图像的图像特征;所述生成器用于根据所述特征提取器所提取的所述图像特征生成区域重构图像;所述判别器用于根据所述区域图像对所述区域重构图像进行真假判断。[0019] 可以理解,通过至少N帧当前预览画面对生成对抗网络进行训练,有利于其中生成器不断调整,以生成更加真实的区域重构图像。[0020] 在本申请可选的实施例中,所述缺陷区域包括以下至少一项:人脸眯眼的缺陷区域;人物肢体模糊的缺陷区域。[0021] 可以理解,响应于拍摄操作,通过目标摄像头采集得到原始图像,若原始图像中存在人物肢体模糊、眯眼等情况,则视为用户不愿意得到的拍摄效果,其中眯眼的人脸区域、模糊的肢体区域即为缺陷区域。[0022] 在本申请可选的实施例中,在通过所述临时图库训练所述生成对抗网络模型时,所述生成对抗网络模型的输入图像包括以下至少一项:所述临时图库中存储的预览画面的眼部区域图像;所述临时图库中存储的预览画面的肢体区域图像。[0023] 可以理解,临时图库对生成对抗网络模型的训练可以在识别出原始图像中的缺陷区域之后再执行,因此可以针对性地通过区域图像对生成对抗网络模型进行训练,这样能够大大地减小终端设备的算力要求,提高拍摄效率。[0024] 在本申请可选的实施例中,所述S3包括:若检测到所述原始图像中存在缺陷区域,则通过所述特征提取器提取所述缺陷区域的图像特征,再通过所述生成器根据所述图像特征生成对应的修复区域。[0025] 第二方面,本申请公开了一种基于AIGC的图像生成装置,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面任一项所述的方法。[0026] 第三方面,本申请公开了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如第一方面任一项所述的方法。[0027] 有益效果:本申请公开了一种基于AIGC的图像生成方法和装置,在拍照预览阶段完成对生成对抗网络模型的训练,使得生成对抗网络模型能够在目标摄像头采集得到原始图像中存在缺陷区域时,根据缺陷区域的特征生成对应的修复区域,从而得到修复后的目标图像。从而大幅提升手机抓拍的质量与成功率。本申请为用户提供了更加智能、便捷的拍照体验,确保每一个美好瞬间都能被完美捕捉。[0028] 为使本申请的上述目的、特征和优点能更明显易懂,下文特举可选实施例,并配合所附附图,作详细说明如下。附图说明[0029] 为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。[0030] 图1是本申请提供的一种基于AIGC的图像生成方法的流程示意图;[0031] 图2是本申请提供的生成对抗网络模型的训练原理示意图;[0032] 图3是图2所示的生成对抗网络模型生成修复区域的工作示意图。具体实施方式[0033] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。[0034] 第一方面,如图1所示,本申请提供一种基于AIGC的图像生成方法,其包括步骤S1至步骤S4。其中,S1、S2等仅为步骤标识,方法的执行顺序并不一定按照数字由小到大的顺序进行,比如可以是先执行步骤S2再执行步骤S1,本申请不做限制。[0035] S1,若满足预设条件,则存储目标摄像头的至少N帧连续的当前预览画面至临时图库,N为正整数。[0036] 在本申请可选的实施例中,满足预设条件包括以下至少一项:接收到用户触发的存储指令;监测到预设时长内目标摄像头相邻两帧的当前预览画面的变化值小于第一阈值。其中,变化值包括:当前预览画面中的人物区域的位移值。[0037] 可以理解,本申请主要是通过生成式人工智能(ArtificialIntelligenceGeneratedContent,AIGC)技术根据缺陷区域的特征生成对应的修复区域,从而起到弥补原始图像瑕疵的效果。因此,用作AIGC训练的样本应尽可能是静态的,除了由用户自行判断静态后触发存储指令外,还可以由图像处理方法进行自动监测。上述预设时长和第一阈值可根据本领域技术人员的经验设定,其目的在于识别出目标摄像头所拍摄的物体是否在一定时长内处于静止状态,比如合影、摆拍等场景。[0038] S2,响应于拍摄操作,通过目标摄像头采集得到原始图像。[0039] 在本申请可选的实施例中,S2还包括:响应于拍摄操作,若当前临时图库中所存储的画面帧数大于或等于N帧,则通过目标摄像头采集得到原始图像。[0040] 可以理解,由于建立临时图库也需要时间,因此只有在临时图库建立完成的条件下,才能够执行拍摄操作。若当前临时图库中所存储的画面帧数大于或等于N帧,则说明临时图库的基本要求已经满足,临时图库已经建立成功,因此可以响应于用户输入的拍摄操作执行拍摄指令。若当前临时图库中所存储的画面帧数小于N帧,则说明临时图库内的画面帧数还不满足训练后续生成对抗网络模型的要求,临时图库还未建立成功。此时,若接收到用户输入的拍摄操作,可通过显示器、指示灯、扬声器等设备进行相关提示。[0041] S3,若检测到原始图像中存在缺陷区域,则通过经临时图库训练得到的生成对抗网络模型,针对原始图像中的缺陷区域生成对应的修复区域。[0042] 在本申请可选的实施例中,还包括以下步骤:S5,若检测到原始图像中不存在缺陷区域,则删除临时图库中的所有数据。[0043] 可以理解,本申请的目的是弥补原始图像的瑕疵,如果目标摄像头所采集的原始图像不存在缺陷区域,则之前存储于临时图库中的预览画面不再能起到训练作用。为了节约内存空间和保持临时图库的内容单纯,可以在检测到原始图像不存在缺陷区域时,立即删除临时图库中的所有数据。[0044] S4,将修复区域融入原始图像中,得到目标图像。[0045] 可以理解,本申请公开了一种基于AIGC的图像生成方法,在拍照预览阶段完成对生成对抗网络模型的训练,使得生成对抗网络模型能够在目标摄像头采集得到原始图像中存在缺陷区域时,根据缺陷区域的特征生成对应的修复区域,从而得到修复后的目标图像。从而大幅提升手机抓拍的质量与成功率。本申请为用户提供了更加智能、便捷的拍照体验,确保每一个美好瞬间都能被完美捕捉。[0046] 在本申请可选的实施例中,如图2所示,生成对抗网络模型包括特征提取器101、生成器102和判别器103;特征提取器101用于提取输入图像的图像特征;生成器102用于根据特征提取器所提取的图像特征生成区域重构图像;判别器103用于根据区域图像对区域重构图像进行真假判断。[0047] 可以理解,通过至少N帧当前预览画面对生成对抗网络进行训练,有利于其中生成器不断调整,以生成更加真实的区域重构图像。[0048] 上述生成对抗网络为自映射监督循环生成对抗网络,其总损失为:;[0049] 其中, 为生成器对应的函数, 为判别器对应的函数, 为对抗损失, 为自映射检验损失, 为自映射检验损失的权重。[0050] 自映射监督循环生成对抗网络的对抗损失包括:[0051] ;[0052] 其中, 表示特征提取器提取的输入图像的图像特征, 表示第二提取器提取的输入图像中包含图像特征的区域图像, 表示求期望;[0053] 自映射监督循环生成对抗网络的自映射检验损失满足下式:[0054] 。[0055] 在本申请可选的实施例中,缺陷区域包括以下至少一项:人脸眯眼的缺陷区域;人物肢体模糊的缺陷区域。[0056] 可以理解,响应于拍摄操作,通过目标摄像头采集得到原始图像,若原始图像中存在人物肢体模糊、眯眼等情况,则视为用户不愿意得到的拍摄效果,其中眯眼的人脸区域、模糊的肢体区域即为缺陷区域。[0057] 在本申请可选的实施例中,在通过临时图库训练生成对抗网络模型时,生成对抗网络模型的输入图像包括以下至少一项:临时图库中存储的预览画面的眼部区域图像;临时图库中存储的预览画面的肢体区域图像。[0058] 可以理解,临时图库对生成对抗网络模型的训练可以在识别出原始图像中的缺陷区域之后再执行,因此可以针对性地通过区域图像对生成对抗网络模型进行训练,这样能够大大地减小终端设备的算力要求,提高拍摄效率。[0059] 以识别出原始图像中存在人脸眯眼的缺陷区域的情况为例,如图2所示为一种训练过程,首先提取临时图库中预览画面的眼部区域图像;再通过特征提取器101提取各个眼部区域图像的图像特征,比如,眼角、眼线轮廓、眼尾部等,以便于生成器102根据图像特征生成睁眼状态的眼部区域图像作为区域重构图像;最后通过判别器根据眼部区域图像判断区域重构图像的真假。[0060] 在本申请可选的实施例中,S3包括:若检测到原始图像中存在缺陷区域,则通过特征提取器提取缺陷区域的图像特征,再通过生成器根据图像特征生成对应的修复区域。[0061] 如图3所示,在识别出原始图像中存在缺陷区域后,提取该缺陷区域给特征提取器101以提取图像特征,以便于生成器102根据该图像特征生成对应的修复区域,最后融合修复区域和原始图像,已得到用户期待的目标图像。[0062] 第二方面,本申请提供一种基于AIGC的图像生成装置。基于AIGC的图像生成装置包括一个或多个处理器;一个或多个输入设备,一个或多个输出设备和存储器。上述处理器、输入设备、输出设备和存储器通过总线连接。存储器用于存储计算机程序,该计算机程序包括程序指令,处理器用于执行存储器存储的程序指令。其中,处理器被配置用于调用该程序指令执行第一方面任一方法的操作:[0063] 应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessingUnit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field‑ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。[0064] 输入设备可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备可以包括显示器(LCD等)、扬声器等。[0065] 该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。[0066] 具体实现中,本发明实施例中所描述的处理器、输入设备、输出设备可执行第一方面任一方法所描述的实现方式,也可执行本发明实施例所描述的终端设备的实现方式,在此不再赘述。[0067] 第三方面,本发明供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现第一方面任一方法的步骤。[0068] 上述计算机可读存储介质可以是前述任一实施例的终端设备的内部存储单元,例如终端设备的硬盘或内存。上述计算机可读存储介质也可以是上述终端设备的外部存储设备,例如上述终端设备上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。进一步地,上述计算机可读存储介质还可以既包括上述终端设备的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述终端设备所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。[0069] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。[0070] 在本申请所提供的几个实施例中,应该理解到,所揭露的终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。[0071] 上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。[0072] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。[0073] 上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例中方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。[0074] 以上描述仅为本申请的可选实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。[0075] 以上所述仅为本申请的可选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
专利地区:山东
专利申请日期:2024-05-14
专利公开日期:2024-09-03
专利公告号:CN118175238B