专利名称:一种对声调建模的声音转换方法及系统、计算机设备
专利类型:发明专利
专利申请号:CN202111399455.1
专利申请(专利权)人:北京跳悦智能科技有限公司
权利人地址:北京市朝阳区曙光西里甲5号院18号楼-2至17层101号12层1206号
专利发明(设计)人:包英泽,赵磊,梁光
专利摘要:本发明涉及一种对声调建模的声音转换方法,以AM模型和vocoder模型为基础,结合端到端的联合训练方式,构建并获得声音转换模型,应用声音波形、以及声音波形所对应的频谱能量Energy、基频F0、捕获扬声器id作为输入,通过对声调特征进行建模,获得与之对应的目标声音的转换,保留目标对象情感的同时,增加了变声之后的情感丰富度,有效提高了转换后声音的真实性与音质。
主权利要求:
1.一种对声调建模的声音转换方法,其特征在于,按如下步骤A至步骤D,获得第一目标对象与第二目标对象之间关于声音转换的声音转换模型;并基于声音转换模型,执行步骤i至步骤ii,实现将第一目标对象的声音转换为第二目标对象的声音;
步骤A.基于AM模型结构,构建以声音波形、关于声音波形所对应频谱能量Energy的嵌入特征、关于声音波形所对应基频F0的嵌入特征、关于声音波形所对应捕获扬声器id的嵌入特征为输入,声音波形所对应混合声学特征为输出的声学特征提取模型,然后进入步骤B;
步骤B.基于卷积神经网络,构建以声音波形所对应混合声学特征为输入,该混合声学特征所对应转换后声音波形为输出的语音编码器模型,并以声学特征提取模型输出端对接语音编码器模型输入端的方式,构建声音转换模型,然后进入步骤C;
步骤C.基于预设来自第一目标对象的各个第一声音样本波形、以及来自第二目标对象分别与各第一声音样本波形一一对应的第二声音样本波形,获得各个第一声音样本波形分别所对应的频谱能量Energy、基频F0,然后进入步骤D;
步骤D.基于各个第一声音样本波形、以及分别与各第一声音样本波形一一对应的第二声音样本波形,以第一声音样本波形、第一声音样本波形所对应的频谱能量Energy、基频F0、捕获扬声器id为输入,第一声音样本波形所对应第二声音样本波形为输出,结合第一声音样本波形与所输出第二声音样本波形之间的鉴别损失、频谱损失,针对声音转换模型进行训练,获得训练后的声音转换模型;
步骤i.捕获来自第一目标对象的目标声音波形,并应用步骤C中针对第一声音样本波形的方法,获得目标声音波形所对应的频谱能量Energy、基频F0,然后进入步骤ii;
步骤ii.基于目标声音波形、目标声音波形所对应的频谱能量Energy、基频F0、捕获扬声器id,应用声音转换模型,获得目标声音波形所对应转换后声音波形,即实现将第一目标对象的声音转换为第二目标对象的声音。
2.根据权利要求1所述一种对声调建模的声音转换方法,其特征在于:所述步骤A中,基于AM模型结构,以Wav2Vec声学特征提取模型、链接模块、基于变换器的模型,构建声学特征提取模型;其中,Wav2Vec声学特征提取模型的输入端用于接收声音波形,用于提取所接收声音波形的声学特征;Wav2Vec声学特征提取模型的输出端对接链接模块的输入端,由链接模块接收来自Wav2Vec声学特征提取模型输出的声学特征,同时,链接模块的输入端用于接收关于声音波形所对应频谱能量Energy的嵌入特征、关于声音波形所对应基频F0的嵌入特征,以及关于声音波形所对应捕获扬声器id的嵌入特征,链接模块用于针对所接收各特征进行链接,获得特征链接向量;链接模块的输出端对接基于变换器的模型的输入端,由基于变换器的模型接收来自链接模块输出的特征链接向量,并针对特征链接向量进行处理获得声音波形所对应混合声学特征。
3.根据权利要求2所述一种对声调建模的声音转换方法,其特征在于:所述步骤C中,分别针对各个第一声音样本波形,获得第一声音样本波形所对应的梅尔频谱,进而获得第一声音样本波形所对应的频谱能量Energy,同时应用基频提取模型,提取获得第一声音样本波形所对应的基频F0。
4.根据权利要求3所述一种对声调建模的声音转换方法,其特征在于:所述步骤D中,应用基于卷积神经网络所构建的鉴别器,用于接收第一声音样本波形、以及其对应输出的第二声音样本波形,并获得第一声音样本波形与所输出第二声音样本波形之间的鉴别损失。
5.一种实现权利要求1至4中任意一项所述一种对声调建模的声音转换方法的系统,其特征在于,包括声学特征提取模型构建模块、声音转换模型构建模块、频谱能量与基频提取模块、模型训练模块、声音转换模块;
其中,声学特征提取模型构建模块,基于AM模型结构,构建以声音波形、关于声音波形所对应频谱能量Energy的嵌入特征、关于声音波形所对应基频F0的嵌入特征、关于声音波形所对应捕获扬声器id的嵌入特征为输入,声音波形所对应混合声学特征为输出的声学特征提取模型;
声音转换模型构建模块,基于卷积神经网络,构建以声音波形所对应混合声学特征为输入,该混合声学特征所对应转换后声音波形为输出的语音编码器模型,并以声学特征提取模型输出端对接语音编码器模型输入端的方式,构建声音转换模型;
频谱能量与基频提取模块,用于获得各个第一声音样本波形分别所对应的频谱能量Energy、基频F0,以及用于目标声音波形所对应的频谱能量Energy、基频F0;
模型训练模块,基于各个第一声音样本波形、以及分别与各第一声音样本波形一一对应的第二声音样本波形,以第一声音样本波形、第一声音样本波形所对应的频谱能量Energy、基频F0、捕获扬声器id为输入,第一声音样本波形所对应第二声音样本波形为输出,结合第一声音样本波形与所输出第二声音样本波形之间的鉴别损失、频谱损失,针对声音转换模型进行训练,获得训练后的声音转换模型;
声音转换模块,用于应用声音转换模型,获得目标声音波形所对应转换后声音波形,即实现将第一目标对象的声音转换为第二目标对象的声音。
6.根据权利要求5所述一种实现对声调建模的声音转换方法的系统,其特征在于:所述频谱能量与基频提取模块分别针对各个第一声音样本波形、以及目标声音波形,通过获得波形所对应的梅尔频谱,进而获得波形所对应的频谱能量Energy,同时应用基频提取模型,提取获得波形所对应的基频F0。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述对声调建模的声音转换方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述对声调建模的声音转换方法的步骤。 说明书 : 一种对声调建模的声音转换方法及系统、计算机设备技术领域[0001] 本发明涉及一种对声调建模的声音转换方法及系统、计算机设备,属于音频转换控制技术领域。背景技术[0002] 声音转换voiceconversion(VC)是把一个人(source)的声音转换为另一个人(target)的声音的算法。近些年深度神经网络被应用到VC中,效果比传统的非深度学习方法改进很多。但是现有技术中一般的VC神经网络只能“复刻”一个人声音,不能“复刻”语调。这导致一个问题,即无法用一般的VC达到唱歌的效果,比如source人唱歌,转变为target的声音,但是这个转化后的声音就没有了唱歌的音调。发明内容[0003] 本发明所要解决的技术问题是提供一种对声调建模的声音转换方法,采用全新设计,通过对声调特征进行建模,能够有效提高转换后声音的真实性。[0004] 本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种对声调建模的声音转换方法,按如下步骤A至步骤D,获得第一目标对象与第二目标对象之间关于声音转换的声音转换模型;并基于声音转换模型,执行步骤i至步骤ii,实现将第一目标对象的声音转换为第二目标对象的声音;[0005] 步骤A.基于AM模型结构,构建以声音波形、关于声音波形所对应频谱能量Energy的嵌入特征、关于声音波形所对应基频F0的嵌入特征、关于声音波形所对应捕获扬声器id的嵌入特征为输入,声音波形所对应混合声学特征为输出的声学特征提取模型,然后进入步骤B;[0006] 步骤B.基于卷积神经网络CNN,构建以声音波形所对应混合声学特征为输入,该混合声学特征所对应转换后声音波形为输出的语音编码器模型,并以声学特征提取模型输出端对接语音编码器模型输入端的方式,构建声音转换模型,然后进入步骤C;[0007] 步骤C.基于预设来自第一目标对象的各个第一声音样本波形、以及来自第二目标对象分别与各第一声音样本波形一一对应的第二声音样本波形,获得各个第一声音样本波形分别所对应的频谱能量Energy、基频F0,然后进入步骤D;[0008] 步骤D.基于各个第一声音样本波形、以及分别与各第一声音样本波形一一对应的第二声音样本波形,以第一声音样本波形、第一声音样本波形所对应的频谱能量Energy、基频F0、捕获扬声器id为输入,第一声音样本波形所对应第二声音样本波形为输出,结合第一声音样本波形与所输出第二声音样本波形之间的鉴别损失、频谱损失,针对声音转换模型进行训练,获得训练后的声音转换模型;[0009] 步骤i.捕获来自第一目标对象的目标声音波形,并应用步骤C中针对第一声音样本波形的方法,获得目标声音波形所对应的频谱能量Energy、基频F0,然后进入步骤ii;[0010] 步骤ii.基于目标声音波形、目标声音波形所对应的频谱能量Energy、基频F0、捕获扬声器id,应用声音转换模型,获得目标声音波形所对应转换后声音波形,即实现将第一目标对象的声音转换为第二目标对象的声音。[0011] 作为本发明的一种优选技术方案:所述步骤A中,基于AM模型结构,以Wav2Vec声学特征提取模型、链接模块、基于变换器的模型,构建声学特征提取模型;其中,Wav2Vec声学特征提取模型的输入端用于接收声音波形,用于提取所接收声音波形的声学特征;Wav2Vec声学特征提取模型的输出端对接链接模块的输入端,由链接模块接收来自Wav2Vec声学特征提取模型输出的声学特征,同时,链接模块的输入端用于接收关于声音波形所对应频谱能量Energy的嵌入特征、关于声音波形所对应基频F0的嵌入特征,以及关于声音波形所对应捕获扬声器id的嵌入特征,链接模块用于针对所接收各特征进行链接,获得特征链接向量;链接模块的输出端对接基于变换器的模型的输入端,由基于变换器的模型接收来自链接模块输出的特征链接向量,并针对特征链接向量进行处理获得声音波形所对应混合声学特征。[0012] 作为本发明的一种优选技术方案:所述步骤C中,分别针对各个第一声音样本波形,获得第一声音样本波形所对应的梅尔频谱,进而获得第一声音样本波形所对应的频谱能量Energy,同时应用基频提取模型,提取获得第一声音样本波形所对应的基频F0。[0013] 作为本发明的一种优选技术方案:所述步骤D中,应用基于卷积神经网络所构建的鉴别器,用于接收第一声音样本波形、以及其对应输出的第二声音样本波形,并获得第一声音样本波形与所输出第二声音样本波形之间的鉴别损失。[0014] 与上述相对应,本发明还要解决的技术问题是提供一种对声调建模的声音转换方法的系统,采用全新设计,通过对声调特征进行建模,能够有效提高转换后声音的真实性。[0015] 本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种对声调建模的声音转换方法的系统,包括声学特征提取模型构建模块、声音转换模型构建模块、频谱能量与基频提取模块、模型训练模块、声音转换模块;[0016] 其中,声学特征提取模型构建模块,基于AM模型结构,构建以声音波形、关于声音波形所对应频谱能量Energy的嵌入特征、关于声音波形所对应基频F0的嵌入特征、关于声音波形所对应捕获扬声器id的嵌入特征为输入,声音波形所对应混合声学特征为输出的声学特征提取模型;[0017] 声音转换模型构建模块,基于卷积神经网络,构建以声音波形所对应混合声学特征为输入,该混合声学特征所对应转换后声音波形为输出的语音编码器模型,并以声学特征提取模型输出端对接语音编码器模型输入端的方式,构建声音转换模型;[0018] 频谱能量与基频提取模块,用于获得各个第一声音样本波形分别所对应的频谱能量Energy、基频F0,以及用于目标声音波形所对应的频谱能量Energy、基频F0;[0019] 模型训练模块,基于各个第一声音样本波形、以及分别与各第一声音样本波形一一对应的第二声音样本波形,以第一声音样本波形、第一声音样本波形所对应的频谱能量Energy、基频F0、捕获扬声器id为输入,第一声音样本波形所对应第二声音样本波形为输出,结合第一声音样本波形与所输出第二声音样本波形之间的鉴别损失、频谱损失,针对声音转换模型进行训练,获得训练后的声音转换模型;[0020] 声音转换模块,用于应用声音转换模型,获得目标声音波形所对应转换后声音波形,即实现将第一目标对象的声音转换为第二目标对象的声音。[0021] 作为本发明的一种优选技术方案:所述频谱能量与基频提取模块分别针对各个第一声音样本波形、以及目标声音波形,通过获得波形所对应的梅尔频谱,进而获得波形所对应的频谱能量Energy,同时应用基频提取模型,提取获得波形所对应的基频F0。[0022] 相应本发明设计了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述对声调建模的声音转换方法的步骤。[0023] 并且本发明相应设计了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述对声调建模的声音转换方法的步骤。[0024] 本发明所述一种对声调建模的声音转换方法及系统,采用以上技术方案与现有技术相比,具有以下技术效果:[0025] 本发明所设计一种对声调建模的声音转换方法与系统,以AM模型和vocoder模型为基础,结合端到端的联合训练方式,构建并获得声音转换模型,应用声音波形、以及声音波形所对应的频谱能量Energy、基频F0、捕获扬声器id作为输入,通过对声调特征进行建模,获得与之对应的目标声音的转换,保留目标对象情感的同时,增加了变声之后的情感丰富度,有效提高了转换后声音的真实性与音质。附图说明[0026] 图1是本发明所设计对声调建模的声音转换方法的架构示意图。具体实施方式[0027] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。[0028] 本发明设计了一种对声调建模的声音转换方法,实际应用当中,按图1所示,执行如下步骤A至步骤D,获得第一目标对象与第二目标对象之间关于声音转换的声音转换模型。[0029] 步骤A.基于AM模型结构,构建以声音波形、关于声音波形所对应频谱能量Energy的嵌入特征(Energy Embedding)、关于声音波形所对应基频F0的嵌入特征(F0Embedding)、关于声音波形所对应捕获扬声器id(Speakerid)的嵌入特征(SpeakerEmbedding)为输入,声音波形所对应混合声学特征(MixedAcousticFeatures)为输出的声学特征提取模型,然后进入步骤B。[0030] 对于所构建的声学特征提取模型来说,具体基于AM模型结构,以Wav2Vec声学特征提取模型、链接模块(Concatenation)、基于变换器的模型(Transformerbasedmodel),构建声学特征提取模型;其中,Wav2Vec声学特征提取模型的输入端用于接收声音波形,用于提取所接收声音波形的声学特征(AcousticFeatures);Wav2Vec声学特征提取模型的输出端对接链接模块(Concatenation)的输入端,由链接模块(Concatenation)接收来自Wav2Vec声学特征提取模型输出的声学特征(AcousticFeatures),同时,链接模块(Concatenation)的输入端用于接收关于声音波形所对应频谱能量Energy的嵌入特征(EnergyEmbedding)、关于声音波形所对应基频F0的嵌入特征(F0Embedding),以及关于声音波形所对应捕获扬声器id(Speakerid)的嵌入特征(SpeakerEmbedding),链接模块(Concatenation)用于针对所接收各特征进行链接,获得特征链接向量;链接模块(Concatenation)的输出端对接基于变换器的模型(Transformerbasedmodel)的输入端,由基于变换器的模型(Transformerbasedmodel)接收来自链接模块(Concatenation)输出的特征链接向量,并针对特征链接向量进行处理获得声音波形所对应混合声学特征(MixedAcousticFeatures)。[0031] 步骤B.基于卷积神经网络(CNN),构建以声音波形所对应混合声学特征(MixedAcousticFeatures)为输入,该混合声学特征(MixedAcousticFeatures)所对应转换后声音波形为输出的语音编码器模型(VocoderModel),并以声学特征提取模型输出端对接语音编码器模型(VocoderModel)输入端的方式,构建声音转换模型,然后进入步骤C。[0032] 步骤C.基于预设来自第一目标对象的各个第一声音样本波形、以及来自第二目标对象分别与各第一声音样本波形一一对应的第二声音样本波形,获得各个第一声音样本波形分别所对应的频谱能量Energy、基频F0,然后进入步骤D。[0033] 实际应用当中,上述步骤C中,分别针对各个第一声音样本波形,获得第一声音样本波形所对应的梅尔频谱,进而获得第一声音样本波形所对应的频谱能量Energy,同时应用Crepe基频提取模型,提取获得第一声音样本波形所对应的基频F0。[0034] 步骤D.基于各个第一声音样本波形、以及分别与各第一声音样本波形一一对应的第二声音样本波形,以第一声音样本波形、第一声音样本波形所对应的频谱能量Energy、基频F0、捕获扬声器id(Speakerid)为输入,第一声音样本波形所对应第二声音样本波形为输出,结合第一声音样本波形与所输出第二声音样本波形之间的鉴别损失(DiscriminatorLoss)、频谱损失(SpectralLoss),针对声音转换模型进行训练,获得训练后的声音转换模型。[0035] 实际应用中,关于上述第一声音样本波形与所输出第二声音样本波形之间的鉴别损失(Discriminator Loss),具体应用基于卷积神经网络所构建的鉴别器(discriminator),用于接收第一声音样本波形、以及其对应输出的第二声音样本波形,并获得第一声音样本波形与所输出第二声音样本波形之间的鉴别损失(DiscriminatorLoss)。[0036] 基于声音转换模型的获得,实际应用当中,按图1所示,执行步骤i至步骤ii,实现将第一目标对象的声音转换为第二目标对象的声音。[0037] 步骤i.捕获来自第一目标对象的目标声音波形,并应用步骤C中针对第一声音样本波形的方法,获得目标声音波形所对应的频谱能量Energy、基频F0,然后进入步骤ii。[0038] 步骤ii.基于目标声音波形、目标声音波形所对应的频谱能量Energy、基频F0、捕获扬声器id(Speakerid),应用声音转换模型,获得目标声音波形所对应转换后声音波形,即实现将第一目标对象的声音转换为第二目标对象的声音。[0039] 将上述所设计对声调建模的声音转换方法应用于实际当中,则具体设计了相应的系统,具体包括声学特征提取模型构建模块、声音转换模型构建模块、频谱能量与基频提取模块、模型训练模块、声音转换模块。[0040] 其中,声学特征提取模型构建模块,基于AM模型结构,构建以声音波形、关于声音波形所对应频谱能量Energy的嵌入特征(EnergyEmbedding)、关于声音波形所对应基频F0的嵌入特征(F0Embedding)、关于声音波形所对应捕获扬声器id(Speakerid)的嵌入特征(SpeakerEmbedding)为输入,声音波形所对应混合声学特征(MixedAcousticFeatures)为输出的声学特征提取模型。[0041] 声音转换模型构建模块,基于卷积神经网络,构建以声音波形所对应混合声学特征(MixedAcousticFeatures)为输入,该混合声学特征(MixedAcousticFeatures)所对应转换后声音波形为输出的语音编码器模型(VocoderModel),并以声学特征提取模型输出端对接语音编码器模型(VocoderModel)输入端的方式,构建声音转换模型。[0042] 频谱能量与基频提取模块分别针对各个第一声音样本波形、以及目标声音波形,通过获得波形所对应的梅尔频谱,进而获得波形所对应的频谱能量Energy,同时应用Crepe基频提取模型,提取获得波形所对应的基频F0。[0043] 模型训练模块,基于各个第一声音样本波形、以及分别与各第一声音样本波形一一对应的第二声音样本波形,以第一声音样本波形、第一声音样本波形所对应的频谱能量Energy、基频F0、捕获扬声器id(Speakerid)为输入,第一声音样本波形所对应第二声音样本波形为输出,结合第一声音样本波形与所输出第二声音样本波形之间的鉴别损失(DiscriminatorLoss)、频谱损失(SpectralLoss),针对声音转换模型进行训练,获得训练后的声音转换模型。[0044] 声音转换模块,用于应用声音转换模型,获得目标声音波形所对应转换后声音波形,即实现将第一目标对象的声音转换为第二目标对象的声音。[0045] 在上述方法的实际应用中,相应设计了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述对声调建模的声音转换方法的步骤。[0046] 并且相应设计了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述对声调建模的声音转换方法的步骤。[0047] 上述技术方案所设计一种对声调建模的声音转换方法与系统,以AM模型和vocoder模型为基础,结合端到端的联合训练方式,构建并获得声音转换模型,应用声音波形、以及声音波形所对应的频谱能量Energy、基频F0、捕获扬声器id(Speakerid)作为输入,通过对声调特征进行建模,获得与之对应的目标声音的转换,保留目标对象情感的同时,增加了变声之后的情感丰富度,有效提高了转换后声音的真实性与音质。[0048] 上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。[0049] 对于本领域普通技术人员来说,根据本发明的上述实施方式所作出的任何修改、变动,在不脱离本发明宗旨的情况下,均应包含于本发明的保护范围之内。
专利地区:北京
专利申请日期:2021-11-19
专利公开日期:2024-07-26
专利公告号:CN114093387B