可左右滑动选省市

全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统

更新时间:2024-11-01
全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统 专利申请类型:发明专利;
源自:上海高价值专利检索信息库;

专利名称:全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统

专利类型:发明专利

专利申请号:CN202410788888.3

专利申请(专利权)人:上海岩芯数智人工智能科技有限公司
权利人地址:上海市浦东新区博霞路11号

专利发明(设计)人:李骋远,杨华

专利摘要:本发明提供了全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统,所述训练方法包括:S1、将K种模态数据生成K个N×D的特征向量;S2、将K个N×D的特征向量按照模态分量D拼接为:N×KD的全模态向量Ze;S3、随机初始化一个S×KD的全模态词表#imgabs0#,S4、将N×KD的全模态向量Ze中每个1×KD的第一向量zei,替换为与全模态词表C的S个第二向量中欧式距离最近的第二向量#imgabs1#,得到N×KD的全模态词表向量Zq;S5、构建全模态解编码器,将N×KD的全模态词表向量Zq输入全模态解编码器解码,对全模态解编码器进行训练,输出重构的N×KD的新全模态向量#imgabs2#。本发明能够更好地理解和处理多种复杂模态信息。

主权利要求:
1.一种全模态词表向量及全模态解编码器的训练方法,其特征在于,所述训练方法包括如下方法步骤:S1、获取K种模态数据,将K种模态数据输入到各自的特征编码器中,生成K个N×D的特征向量;
其中,K表示模态的数目;N表示时间维度;D表示模态分量;
S2、将K个N×D的特征向量按照模态分量D拼接为:N×KD的全模态向量Ze;
其中,N×KD的全模态向量Ze包括N个1×KD的第一向量zei;
S3、随机初始化一个S×KD的全模态词表C={c1,c2,...,cs},其中,全模态词表C包括S个第二向量ci,ci~1×KD,ci表示全模态词表C中第i个第二向量;
S4、将N×KD的全模态向量Ze中每个1×KD的第一向量zei,替换为与全模态词表C的S个第二向量中欧式距离最近的第二向量ci,得到N×KD的全模态词表向量Zq;
其中,N×KD的全模态词表向量Zq包括N个1×KD的第三向量zqi;
S5、构建全模态解编码器,其中,全模态解编码器的输入和输出均为N×KD的向量;
将步骤S4得到的N×KD的全模态词表向量Zq输入全模态解编码器解码,输出重构的N×KD的新全模态向量S6、使用均方差损失函数优化重构的N×KD的新全模态向量其中,loss表示均方差损失函数;
|2表示二范数函数;Ze表示N×KD的全模态向量;
表示重构的N×KD的新全模态向量。
2.根据权利要求1所述的训练方法,其特征在于,在步骤S4中,通过如下方法计算得到N×KD的全模态词表向量Zq:其中,Zq表示N×KD的全模态词表向量,
|2表示二范数函数;zei表示N×KD的全模态向量Ze中第i个1×KD的第一向量;C表示全模态词表;ci表示全模态词表C中第i个第二向量;K表示模态的数目;N表示时间维度;D表示模态分量。
3.一种视频生成方法,其特征在于,所述视频生成方法包括如下方法步骤:Step1、采集大量视频数据,获取视频数据中的文本、图像和音频三种模态数据;
Step2、将获取的文本、图像和音频三种模态数据,使用权利要求1至2中任一权利要求所述的训练方法,训练全模态词表向量Zq及全模态解编码器;
其中,训练得到的全模态词表向量Zq包括N个1×3D的第三向量zqi;
Step3、确定需要生成的视频的帧数M;
Step4、在训练得到的全模态词表向量Zq的N个1×3D的第三向量zqi中,随机抽样M个第三向量zqi,将M个第三向量zqi对应的全模态向量Ze中M个1×3D的第一向量zei拼接为长度为M的拼接向量;
Step5、将长度为M的拼接向量输入到训练后的全模态解编码器解码,得到重构的M×3D的全模态生成向量;
Step6、将M×3D的全模态生成向量中的三个模态分量D分别进行后处理,生成完整的视频。
4.根据权利要求3所述的视频生成方法,其特征在于,在步骤Step6中,M×3D的全模态生成向量中的三个模态分量D分别进行后处理至少包括:音轨拼接、添加字幕。
5.一种视频生成系统,其特征在于,所述视频生成系统包括:视频数据采集模块,用于采集大量视频数据,获取视频数据中的文本、图像和音频三种模态数据;
训练模块,用于通过权利要求1至2中任一权利要求所述的训练方法,训练全模态词表向量及全模态解编码器;
视频帧数确定模块,用于确定需要生成的视频的帧数;
拼接向量生成模块,用于在训练得到的全模态词表向量Zq的N个1×3D的第三向量zqi中,随机抽样M个第三向量zqi,将M个第三向量zqi对应的全模态向量Zei中M个1×3D的第一向量zei拼接为长度为M的拼接向量;
解码模块,用于将长度为M的拼接向量输入到训练后的全模态解编码器解码,得到重构的M×3D的全模态生成向量;
视频生成模块,用于将M×3D的全模态生成向量中的三个模态分量D分别进行后处理,生成完整的视频。
6.根据权利要求5所述的视频生成系统,其特征在于,所述视频生成模块,将M×3D的全模态生成向量中的三个模态分量D分别进行后处理至少包括:音轨拼接、添加字幕。 说明书 : 全模态词表向量及全模态解编码器的训练方法、视频生成方
法及系统技术领域[0001] 本发明涉及人工智能技术领域,尤其涉及一种全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统。背景技术[0002] 现有的模态词元化(Tokenization)方案将单种模态(如图像、文本)经过特征编码器得到特征向量后,每一个通道维度的向量通过与离散词表中每个词元(token)对应的向量计算欧式距离来寻找与连续向量最接近的离散单词,并使用离散词元(token)序列作为新的特征向量送入解码器,解码器以重构原始连续特征向量为训练目标,训练时同时优化解码器与词表。最终得到了可用的单模态词表,其中每一个token表示原始连续特征空间中的一个区域或模式。[0003] 现有方单模态词元化(Tokenization)方案将连续的、高维的单模态数据转换成离散的词元(token)表示,从而实现高效的存储和传输。但是现有方法存在如下缺点:在同一时刻可能同时存在多个模态(如,声音、文字、图像...)的情形下,无法处理多模态并行的情况(如,同一时刻有声音、文字、图像...等多个模态输入),不符合现实情况。发明内容[0004] 本发明提供了一种全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统,以解决单模态词元化方案无法处理多模态并行的情况的技术问题。[0005] 本发明的一个方面在于提供一种全模态词表向量及全模态解编码器的训练方法,所述训练方法包括如下方法步骤:[0006] S1、获取K种模态数据,将K种模态数据输入到各自的特征编码器中,生成K个N×D的特征向量;[0007] 其中,K表示模态的数目;N表示时间维度;D表示模态分量;[0008] S2、将K个N×D的特征向量按照模态分量D拼接为:N×KD的全模态向量Ze;[0009] 其中,N×KD的全模态向量Ze包括N个1×KD的第一向量zei;[0010] S3、随机初始化一个S×KD的全模态词表C={c1,c2,...,cs},其中,全模态词表C包括S个第二向量ci,ci~1×KD,ci表示全模态词表C中第i个第二向量;[0011] S4、将N×KD的全模态向量Ze中每个1×KD的第一向量zei,替换为与全模态词表C的S个第二向量中欧式距离最近的第二向量ci,得到N×KD的全模态词表向量Zq;[0012] 其中,N×KD的全模态词表向量Zq包括N个1×KD的第三向量zqi;[0013] S5、构建全模态解编码器,其中,全模态解编码器的输入和输出均为N×KD的向量;[0014] 将步骤S4得到的N×KD的全模态词表向量Zq输入全模态解编码器解码,输出重构的N×KD的新全模态向量[0015] S6、使用均方差损失函数优化重构的N×KD的新全模态向量[0016] 其中,loss表示均方差损失函数;
|2表示二范数函数;Ze表示N×KD的全模态向量; 表示重构的N×KD的新全模态向量。[0017] 在一个优选的实施例中,在步骤S4中,通过如下方法计算得到N×KD的全模态词表向量Zq:[0018][0019] 其中,Zq表示N×KD的全模态词表向量,
|2表示二范数函数;zei表示N×KD的全模态向量Ze中第i个1×KD的第一向量;C表示全模态词表;ci表示全模态词表C中第i个第二向量;K表示模态的数目;N表示时间维度;D表示模态分量。[0020] 本发明的另一个方面在于提供一种视频生成方法,所述视频生成方法包括如下方法步骤:[0021] Step1、采集大量视频数据,获取视频数据中的文本、图像和音频三种模态数据;[0022] Step2、将获取的文本、图像和音频三种模态数据,使用本发明提供的一种全模态词表向量及全模态解编码器的训练方法,训练全模态词表向量Zq及全模态解编码器;[0023] 其中,训练得到的全模态词表向量Zq包括N个1×3D的第三向量zqi;[0024] Step3、确定需要生成的视频的帧数M;[0025] Step4、在训练得到的全模态词表向量Zq的N个1×3D的第三向量zqi中,随机抽样M个第三向量zqi,将M个第三向量zqi对应的全模态向量Ze中M个1×3D的第一向量zei拼接为长度为M的拼接向量;[0026] Step5、将长度为M的拼接向量输入到训练后的全模态解编码器解码,得到重构的M×3D的全模态生成向量;[0027] Step6、将M×3D的全模态生成向量中的三个模态分量D分别进行后处理,生成完整的视频。[0028] 在一个优选的实施例中,在步骤Step6中,M×3D的全模态生成向量中的三个模态分量D分别进行后处理至少包括:音轨拼接、添加字幕。[0029] 本发明的又一个方面在于提供一种视频生成系统,所述视频生成系统包括:视频数据采集模块,用于采集大量视频数据,获取视频数据中的文本、图像和音频三种模态数据;[0030] 训练模块,用于通过本发明提供的一种全模态词表向量及全模态解编码器的训练方法,训练全模态词表向量及全模态解编码器;[0031] 视频帧数确定模块,用于确定需要生成的视频的帧数;[0032] 拼接向量生成模块,用于在训练得到的全模态词表向量Zq的N个1×3D的第三向量zqi中,随机抽样M个第三向量zqi,将M个第三向量zqi对应的全模态向量Ze中M个1×3D的第一向量zei拼接为长度为M的拼接向量;[0033] 解码模块,用于将长度为M的拼接向量输入到训练后的全模态解编码器解码,得到重构的M×3D的全模态生成向量;[0034] 视频生成模块,用于将M×3D的全模态生成向量中的三个模态分量D分别进行后处理,生成完整的视频。[0035] 在一个优选的实施例中,所述视频生成模块,将M×3D的全模态生成向量中的三个模态分量D分别进行后处理至少包括:音轨拼接、添加字幕。[0036] 与现有技术相比,本发明具有以下有益效果:[0037] 本发明提供的一种全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统,将全模态向量通过全模态词表离散化成全模态词表向量,能够更好地理解和处理同时存在的多种复杂模态信息,提升对多模态场景的建模能力。[0038] 本发明提供的一种全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统,随机初始化一个大小为S×KD的全模态词表,对于N×KD的全模态向量,每个1×KD的第一向量都从S×KD的全模态词表中找到欧式距离最近的第二向量,并用第二向量替换N×KD的全模态向量的第一向量,得到N×KD的全模态词表向量,最后用全模态解编码器将N×KD的全模态向量重构回离散化前的新全模态向量,并以最小化重建误差为训练目标,从而训练全模态词表向量及全模态解编码器,实现有效地压缩模态信息,并在同一时刻内进行多个模态的采样与解码,做到实时的视频生成。[0039] 本发明提供的一种全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统,通过将不同模态的向量在时间维度做拼接,解决了现有方案无法处理不同模态信息同时输入的问题。通过将连续的全模态信息压缩为离散的全模态词表向量,节省了信息储存与传输的成本。附图说明[0040] 为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0041] 图1是本发明一种全模态词表向量及全模态解编码器的训练方法的流程图。[0042] 图2是本发明一种视频生成方法的流程图。[0043] 图3是本发明一种视频生成系统的结构框图。具体实施方式[0044] 为了使本发明的上述以及其他特征和优点更加清楚,下面结合附图进一步描述本发明。应当理解,本文给出的具体实施例是出于向本领域技术人员解释的目的,仅是示例性的,而非限制性的。[0045] 在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。[0046] 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。[0047] 结合图1,根据本发明的实施例,提供一种全模态词表向量及全模态解编码器的训练方法,包括如下方法步骤:[0048] 步骤S1、获取K种模态数据,将K种模态数据输入到各自的特征编码器中,生成K个N×D的特征向量。[0049] 其中,K表示模态的数目;N表示时间维度;D表示模态分量(特征维度)。[0050] 如图1所示,本实施例中示例性的以三种模态数据为例,即K=3,三种模态数据分别为文本数据T、图像数据I和音频数据A。[0051] 将文本数据T、图像数据I和音频数据A,输入到各自的特征编码器中,生成3个N×D*的特征向量,即文本数据T输入到文本编码器中,生成文本N×D的特征向量T;图像数据I输*入到图像编码器中,生成图像N×D的特征向量I ;音频数据A输入到音频编码器中,生成音*频N×D的特征向量A。[0052] 计算公式如下:[0053][0054] 其中,ET表示文本编码器;EI表示图像编码器;EA表示音频编码器。[0055] 步骤S2、将K个N×D的特征向量按照模态分量D拼接为:N×KD的全模态向量Ze;其中,N×KD的全模态向量Ze包括N个1×KD的第一向量zei。[0056] 本实施例中,将3个N×D的特征向量按照模态分量D拼接为:N×3D的全模态向量Ze;其中,N×3D的全模态向量Ze包括N个1×3D的第一向量zei。[0057] 本发明步骤S2拼接的N×KD的全模态向量Ze在时间维度N上的每一个时刻均有K个模态分量D。[0058] 本实施例拼接的N×3D的全模态向量Ze在时间维度N上的每一个时刻均有3个模态分量D。[0059] 步骤S3、随机初始化一个S×KD的全模态词表C={c1,c2,...,cs},其中,全模态词表C包括S个第二向量(token、词元、词向量)ci,ci~1×KD,ci表示全模态词表C中第i个第二向量(token、词元、词向量)。[0060] 本实施例中,随机初始化一个S×3D的全模态词表C={c1,c2,...,cs},全模态词表C包括S个第二向量(token、词元、词向量)ci。[0061] 步骤S4、将N×KD的全模态向量Ze中每个1×KD的第一向量zei,替换为与全模态词表C的S个第二向量中欧式距离最近的第二向量ci,得到N×KD的全模态词表向量Zq;其中,N×KD的全模态词表向量Zq包括N个1×KD的第三向量zqi。[0062] 具体地,通过如下方法计算得到N×KD的全模态词表向量Zq:[0063][0064] 其中,Zq表示N×KD的全模态词表向量,
|2表示二范数函数;zei表示N×KD的全模态向量Ze中第i个1×KD的第一向量;C表示全模态词表;ci表示全模态词表C中第i个第二向量;K表示模态的数目;N表示时间维度;D表示模态分量(特征维度)。[0065] 本实施例中,将N×3D的全模态向量Ze中每个1×3D的第一向量zei,替换为与全模态词表C的S个第二向量中欧式距离最近的第二向量ci,得到N×3D的全模态词表向量Zq;其中,N×3D的全模态词表向量Zq包括N个1×3D的第三向量zqi。[0066] 举例来说,N×3D的全模态向量Ze中N个1×3D的第一向量分别为:ze1、ze2、ze3、ze4、ze5、…、zeN,全模态词表C的S个第二向量分别为:c1、c2、c3、c4、c5、…、cs。[0067] 假设ze1与c2的中欧式距离最近,则将ze1与替换为c2;ze2与c1中欧式距离最近,则将ze2与替换为c1;ze3与c1中欧式距离最近,则将ze3与替换为C1;ze4与C3中欧式距离最近,则将ze4与替换为C3;ze5与C4中欧式距离最近,则将ze5与替换为C4;…;zeN与Cs中欧式距离最近,则将zeN与替换为Cs。[0068] 由此,N×3D的全模态向量Ze中每一个1×3D的第一向量zei替换为与全模态词表C的S个第二向量中欧式距离最近的第二向量ci得到的N×3D全模态词表向量Zq的N个1×3D的第三向量分别为:zq1、zq2、zq3、zq4、zq5、…、zqN,zq1=c2、zq2=c1、zq3=C1、zq4=C3、zq5=C4、…、zqN=cs。[0069] 步骤S5、构建全模态解编码器(MLP),其中,全模态解编码器的输入和输出均为N×KD的向量。[0070] 将步骤S4得到的N×KD的全模态词表向量Zq输入全模态解编码器解码,对全模态解编码器进行训练,输出重构的N×KD的新全模态向量[0071] 本实施例中,构建的全模态解编码器的输入和输出均为N×3D的向量,步骤S4得到的N×3D的全模态词表向量Zq输入全模态解编码器解码,输出重构的N×3D的新全模态向量[0072] 本发明训练N×3D的全模态词表向量和全模态解编码器(MLP)的过程中,将N×3D的全模态向量Ze通过S×3D的全模态词表C离散化成N×3D的全模态词表向量,能够更好地理解和处理同时存在的多种复杂模态信息,提升对多模态场景的建模能力,节省了信息储存与传输的成本。[0073] 进一步地,本发明为了训练全模态词表向量和全模态解编码器,以重构的N×3D的新全模态向量 尽可能接近原始N×3D的全模态向量Ze为训练目标,使用均方差损失函数进行优化。[0074] 具体地,训练方法还包括如下方法步骤:[0075] 步骤S6、使用均方差损失函数优化重构的N×KD的新全模态向量[0076] 其中,loss表示均方差损失函数;
|2表示二范数函数;Ze表示N×KD的全模态向量; 表示重构的N×KD的新全模态向量。[0077] 在一些实施例中,步骤S5中的构建全模态解编码器(MLP)可以采用transformer模型作为解码器,以增加解码能力。[0078] 如图2所示,根据本发明的实施例,提供一种视频生成方法,包括如下方法步骤:[0079] 步骤Step1、采集大量视频数据,获取视频数据中的文本、图像和音频三种模态数据。[0080] 步骤Step2、将获取的文本、图像和音频三种模态数据,使用本发明提供的一种全模态词表向量及全模态解编码器的训练方法,训练全模态词表向量Zq及全模态解编码器。[0081] 全模态词表向量Zq及全模态解编码器的训练过程在上文中已经详细阐述,这里不再赘述。[0082] 上文步骤S4中,将N×3D的全模态向量Ze中每个1×3D的第一向量zei,替换为与全模态词表C的S个第二向量中欧式距离最近的第二向量ci,得到N×3D的全模态词表向量Zq。训练得到的N×3D的全模态词表向量Zq包括N个1×3D的第三向量zqi。[0083] 步骤Step3、确定需要生成的视频的帧数M。[0084] 步骤Step4、在训练得到的N×3D全模态词表向量Zq的N个1×3D的第三向量zqi中,随机抽样M个第三向量zqi,将M个第三向量zqi对应的全模态向量Ze中M个1×3D的第一向量zei拼接为长度为M的拼接向量。[0085] 举例来说,N×3D的全模态向量Ze中N个1×3D的第一向量分别为:ze1、ze2、ze3、ze4、ze5、…、zeN,N×3D的全模态向量Ze中每一个1×3D的第一向量zei替换为与全模态词表C的S个第二向量中欧式距离最近的第二向量ci得到的N×3D全模态词表向量Zq的N个1×3D的第三向量分别为:zq1、zq2、zq3、zq4、zq5、…、zqN。[0086] 假设随机抽样M=3个第三向量分别为:zq2、zq3、zq5,M=3个第三向量zq2、zq3、zq5对应的第一向量分别为:ze2、ze3、ze5。将M=3个第一向量ze2、ze3、ze5拼接为长度为M的拼接向量。[0087] 步骤Step5、将长度为M的拼接向量输入到训练后的全模态解编码器解码,得到重构的M×3D的全模态生成向量。[0088] 步骤Step6、将M×3D的全模态生成向量中的三个模态分量D分别进行后处理,生成完整的视频。[0089] 进一步地,M×3D的全模态生成向量中的三个模态分量D分别进行后处理至少包括:音轨拼接、添加字幕。[0090] 如3所示,根据本发明的实施例,提供一种视频生成系统100。视频生成系统100包括:视频数据采集模块101,用于采集大量视频数据,获取视频数据中的文本、图像和音频三种模态数据。[0091] 训练模块102,用于通过本发明提供的一种全模态词表向量及全模态解编码器的训练方法,训练全模态词表向量及全模态解编码器。[0092] 视频帧数确定模块103,用于确定需要生成的视频的帧数M。[0093] 拼接向量生成模块104,用于在训练得到的全模态词表向量Zq的N个1×3D的第三向量zqi中,随机抽样M个第三向量zqi,将M个第三向量zqi对应的全模态向量Ze中M个1×3D的第一向量zei拼接为长度为M的拼接向量。[0094] 解码模块105,用于将长度为M的拼接向量输入到训练后的全模态解编码器解码,得到重构的M×3D的全模态生成向量。[0095] 视频生成模块,用于将M×3D的全模态生成向量中的三个模态分量D分别进行后处理106,生成完整的视频。[0096] 进一步地,视频生成模块106,将M×3D的全模态生成向量中的三个模态分量D分别进行后处理至少包括:音轨拼接、添加字幕。[0097] 尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

专利地区:上海

专利申请日期:2024-06-19

专利公开日期:2024-09-03

专利公告号:CN118364933B


以上信息来自国家知识产权局,如信息有误请联系我方更正!
电话咨询
读内容
搜本页
回顶部