可左右滑动选省市

一种基于迭代知识迁移的机器翻译风格迁移性能提升方法

更新时间:2024-07-01
一种基于迭代知识迁移的机器翻译风格迁移性能提升方法 专利申请类型:发明专利;
源自:北京高价值专利检索信息库;

专利名称:一种基于迭代知识迁移的机器翻译风格迁移性能提升方法

专利类型:发明专利

专利申请号:CN202110753765.2

专利申请(专利权)人:中译语通科技股份有限公司
权利人地址:北京市石景山区石景山路20号中铁建设大厦16层1601

专利发明(设计)人:李欣杰,卢恩全,贝超

专利摘要:本发明属于机器翻译技术领域,公开了一种基于迭代知识迁移的机器翻译风格迁移性能提升方法,基于迭代知识迁移的机器翻译风格迁移性能提升方法包括:通过预训练翻译模型和文本风格迁移模型、文本风格迁移模型指导翻译模型、构造伪平行句对和数据调优、翻译模型指导文本风格迁移模型,迭代提升翻译风格迁移性能。本发明缓解了在机器翻译风格迁移中训练数据较少的问题。本发明的数据调优模型充分利用原始文本和风格迁移后的文本来进行语法校错,使得伪平行数据可以更加流畅,有效地提高伪平行数据的质量。本发明提高了翻译模型和文本风格迁移模型两个模型的性能。

主权利要求:
1.一种基于迭代知识迁移的机器翻译风格迁移性能提升方法,其特征在于,所述基于迭代知识迁移的机器翻译风格迁移性能提升方法包括:通过预训练翻译模型和文本风格迁移模型、文本风格迁移模型指导翻译模型、构造伪平行句对和数据调优、翻译模型指导文本风格迁移模型,迭代提升翻译风格迁移性能;
所述基于迭代知识迁移的机器翻译风格迁移性能提升方法还包括:基于通用翻译数据和文本风格迁移数据预训练机器翻译模型和文本风格迁移模型,用文本风格迁移模型作为教师模型,利用序列级知识蒸馏的方式对翻译数据进行解码得到目标风格句子,构造对应风格的翻译伪平行句对用于翻译模型的训练;再以翻译模型作为教师模型去解码源风格的句子,构造对应风格的文本风格迁移伪平行句对用于风格迁移模型的训练;同时采用数据调优模型修正伪平行数据中的错误,多轮迭代,即可;
所述基于迭代知识迁移的机器翻译风格迁移性能提升方法包括以下步骤:
步骤一,在拥有训练数据的通用机器翻译领域和特定文本风格迁移领域,预训练机器翻译模型和文本风格迁移模型;
步骤二,以文本风格迁移模型作为教师模型对源风格的句子进行解码,生成目标风格的文本;将源语言句子和与解码得到的目标风格句子构造源风格到目标风格的翻译伪平行句对用于进行风格化翻译模型的训练;
步骤三,以翻译风格迁移模型作为教师模型对源语言的句子进行解码,翻译得到目标语言和目标风格的文本;将源风格目标语言句子和翻译得到的目标风格目标语言句子构造源风格到目标风格的文本风格迁移伪平行句对用于进行文本风格迁移模型的训练;
步骤四,利用数据调优模型对每次构造的伪平行句对进行语法校错;重复步骤二至步骤四,直至风格化翻译模型和文本风格迁移模型性能不再提高。
2.如权利要求1所述基于迭代知识迁移的机器翻译风格迁移性能提升方法,其特征在于,步骤一中,所述在拥有训练数据的通用机器翻译领域和特定文本风格迁移领域,预训练机器翻译模型和文本风格迁移模型包括:利用丰富的翻译数据和文本风格迁移数据,基于Transformer结构预训练机器翻译模型和风格迁移模型。
3.如权利要求2所述基于迭代知识迁移的机器翻译风格迁移性能提升方法,其特征在于,所述Transformer模型结构中核心的自注意力计算如下:o
MultiHead(Q,K,V)=Concat(head1,...,headn)WQ K V
其中headi=Attention(QWi,KWi,VWi,)。
4.如权利要求1所述基于迭代知识迁移的机器翻译风格迁移性能提升方法,其特征在于,所述步骤二还包括:以文本风格迁移模型作为教师模型,翻译模型作为学生模型,使用序列级知识蒸馏的方法让学生模型从老师模型中学习风格转换相关的知识。
5.如权利要求1所述基于迭代知识迁移的机器翻译风格迁移性能提升方法,其特征在于,所述步骤三还包括:以翻译模型作为教师模型,文本风格迁移模型作为学生模型,使用序列级知识蒸馏的方法让学生模型从老师模型中学习翻译相关的知识。
6.如权利要求1所述基于迭代知识迁移的机器翻译风格迁移性能提升方法,其特征在于,所述利用数据调优模型对每次构造的伪平行句对进行语法校错包括:数据调优模型利用两个编码端获取更多的文本信息并对句子进行校正;
所述数据调优模型两个编码端之间的交互引入注意力机制,计算公式如下:
其中,Attn表示自注意力计算,AttnE表示基于原始编码端的表示进行自注意力机制计算,AttnB表示基于原始编码端与Bert的编码结果融合后的表示进行自注意力机制计算;HBI I表示BERT编码的输出,HE表示原始编码端第I层的输出;HB表示原始编码端与BERT编码结果融合后第I层的输出;lx表示输入句子x的长度,即该句子包含的单词个数。
7.如权利要求6所述基于迭代知识迁移的机器翻译风格迁移性能提升方法,其特征在于,所述数据调优模型还包括:将BERT作为第二个编码器,将解码后的噪音文本输入BERT,源句子输入transformer编码器,组成多源输入的模型结构。
8.如权利要求1所述基于迭代知识迁移的机器翻译风格迁移性能提升方法,其特征在于,所述重复步骤二至步骤四包括:重复过程中,机器翻译模型和文本风格迁移模型之间进行多轮迭代的知识迁移,两个模型互为教师,相互指导。 说明书 : 一种基于迭代知识迁移的机器翻译风格迁移性能提升方法技术领域[0001] 本发明属于机器翻译技术领域,尤其涉及一种基于迭代知识迁移的机器翻译风格迁移性能提升方法。背景技术[0002] 目前:机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。机器翻译主要可以分为三种方法:基于规则的机器翻译、基于统计的机器翻译和基于神经网络的机器翻译。最初,基于规则的方法是机器翻译研究的主流,这种方法对语法结构规范的句子有较好的翻译效果,但其也有规则编写复杂、难以处理非规范语言现象的缺点。20世纪90年代初,IBM的PeterBrown等人提出基于噪声信道模型的统计机器翻译模型。统计机器翻译系统对机器翻译进行了一个数学建模,可以在大数据的基础上进行训练。统计机器翻译是一种基于语料库的方法,所以如果是在数据量比较少的情况下,就会面临一个数据稀疏的问题。同时,也面临另外一个问题,其翻译模型来自大量翻译数据的自动训练,导致难以加入专家知识,这也是目前机器翻译方法所面临的一个比较大挑战。进入21世纪后,深度学习等机器学习的方法逐渐成熟并开始被应用于自然语言处理领域。随后提出的基于编码器‑解码器的神经机器翻译模型,标志这机器翻译进入深度学习的时代。编码器将源语言文本编码为高维的语义向量,解码器则根据语义向量进行自回归解码,生成最终的翻译结果。[0003] 尽管神经机器翻译已经拥有比统计机器翻译更好的翻译效果,但是其仍然具有巨大的发展潜力。现有技术1在编码器‑解码器的基础上提出了RNN‑search模型,该模型引入了注意力机制使得翻译模型可以更好地处理长距离的依赖干洗,解决了在循环神经网络中信息在长距离传输中容易丢失、遗忘的问题。之后提出的Transformer模型创新性地使用了自注意力机制来对序列进行编码,其编码器和解码器均由自注意力模块和前向神经网络构成,具有高度并行化的模型结果,所以在训练速度和翻译质量上都有了大幅度的提升。[0004] 通用领域的神经机器翻译因为拥有大量的训练数据,取得了较好的结果,但是针对特定风格的神经机器翻译研究取得的成果还比较有限。因为机器翻译风格迁移任务中缺少大量对应风格的平行句对用于模型的训练,以非正式到正式的中英翻译为例,目前比较常用的数据集是MTFC数据集,其中只有非正式的中英翻译数据和非正式到正式的文本风格迁移数据,而非正式到正式的中英翻译数据没有,所以为该任务提出了很大的挑战。因此利用迭代知识迁移的方法构造伪数据使得翻译模型和文本风格迁移模型之间能够相互增强,对于低资源的机器翻译风格迁移来说是一个很有效的方法。[0005] 通过上述分析,现有技术存在的问题及缺陷为:现有机器翻译风格迁移任务的训练数据比较稀缺,传统的深度学习方法在低资源场景下效果不佳。[0006] 效果不佳体现在以下方面:传统的翻译风格迁移方法通常可分为以下两类:一类是利用通用的翻译模型和文本风格迁移模型以流水线的形式进行两步解码得到翻译结果;另一类方法则是利用知识蒸馏、反向翻译等方法构造伪平行数据来扩充数据。这两类方法都可以实现翻译质量的提升,然而第一类方法会因为两步解码而加剧翻译错误在模型间的传递和累积问题,并且会减慢解码速度;第二类数据增强的方法则会因为伪平行数据中的噪音而导致翻译结果风格迁移的准确度降低。这些问题极大的限制了风格化机器翻译的发展。[0007] 解决以上问题及缺陷的难度为:机器翻译的模型训练需要建立在大规模的平行数据上,在语料匮乏的情况下,难以同时学到语言和风格的转换,所以亟需一种方法能够充分利用已有语料的信息并利用数据校错的能力提高语料质量,从而提高风格化机器翻译的效率和准确率。[0008] 解决以上问题及缺陷的意义为:机器翻译风格迁移在机器翻译的实际应用中具有非常重要的意义,利用少量具有对应风格的平行数据和通用的翻译平行数据,以较少的成本提高翻译风格迁移的结果,可以极大地提高翻译效率,减少人工标注和翻译的成本,带来间接经济收益。同时机器翻译风格迁移研究对自然语言处理有标杆性作用,可以带动其他领域发展。发明内容[0009] 针对现有技术存在的问题,本发明提供了一种基于迭代知识迁移的机器翻译风格迁移性能提升方法。[0010] 本发明是这样实现的,一种基于迭代知识迁移的机器翻译风格迁移性能提升方法,所述基于迭代知识迁移的机器翻译风格迁移性能提升方法包括:[0011] 通过预训练翻译模型和文本风格迁移模型、文本风格迁移模型指导翻译模型、构造伪平行句对和数据调优、翻译模型指导文本风格迁移模型,迭代提升翻译风格迁移性能。[0012] 进一步,所述基于迭代知识迁移的机器翻译风格迁移性能提升方法还包括:[0013] 基于通用翻译数据和文本风格迁移数据预训练机器翻译模型和文本风格迁移模型,用文本风格迁移模型作为教师模型,利用序列级知识蒸馏的方式对翻译数据进行解码得到目标风格句子,构造对应风格的翻译伪平行句对用于翻译模型的训练;再以翻译模型作为教师模型去解码源风格的句子,构造对应风格的文本风格迁移伪平行句对用于风格迁移模型的训练;同时采用数据调优模型修正伪平行数据中的错误,多轮迭代,即可。[0014] 进一步,所述基于迭代知识迁移的机器翻译风格迁移性能提升方法包括以下步骤:[0015] 步骤一,在拥有训练数据的通用机器翻译领域和特定文本风格迁移领域,预训练机器翻译模型和文本风格迁移模型;利用预训练的模型可以提供较好的初始化参数,加快梯度下降的收敛速度,从而减少模型的训练至拟合需要的时间。[0016] 步骤二,以文本风格迁移模型作为教师模型对源风格的句子进行解码,生成目标风格的文本;将源语言句子和与解码得到的目标风格句子构造源风格到目标风格的翻译伪平行句对用于进行风格化翻译模型的训练;从而将风格转换的知识迁移到翻译模型,使其能够生成目标风格的翻译结果。[0017] 步骤三,以翻译风格迁移模型作为教师模型对源语言的句子进行解码,翻译得到目标语言和目标风格的文本;将源风格目标语言句子和翻译得到的目标风格目标语言句子构造源风格到目标风格的文本风格迁移伪平行句对用于进行文本风格迁移模型的训练;实现翻译知识向文本风格迁移模型迁移,从而提高文本风格迁移模型的性能。[0018] 步骤四,利用数据调优模型对每次构造的伪平行句对进行语法校错;重复步骤二至步骤四,直至风格化翻译模型和文本风格迁移模型性能不再提高。翻译模型和文本风格迁移模型迭代双向地进行知识迁移,两个模型之间可以充分的进行交互并利用两部分数据内的信息,从而在数据有限的情况下提高两个模型的性能。[0019] 进一步,步骤一中,所述在拥有训练数据的通用机器翻译领域和特定文本风格迁移领域,预训练机器翻译模型和文本风格迁移模型包括:[0020] 利用丰富的翻译数据和文本风格迁移数据,基于Transformer结构预训练机器翻译模型和风格迁移模型。[0021] 进一步,所述Transformer模型结构中核心的自注意力计算如下:[0022] MultiHead(Q,K,V)=Concat(head1,...,headh)[0023] where:headi=Attention(QWiQ,KWiK,VWiV)。[0024] 进一步,所述步骤二还包括:以文本风格迁移模型作为教师模型,翻译模型作为学生模型,使用序列级知识蒸馏的方法让学生模型从老师模型中学习风格转换相关的知识。[0025] 进一步,所述步骤三还包括:以翻译模型作为教师模型,文本风格迁移模型作为学生模型,使用序列级知识蒸馏的方法让学生模型从老师模型中学习翻译相关的知识。[0026] 进一步,所述利用数据调优模型对每次构造的伪平行句对进行语法校错包括:[0027] 数据调优模型利用两个编码端获取更多的文本信息并对句子进行校正;[0028] 所述数据调优模型两个编码端之间的交互引入注意力机制,计算公式如下:[0029][0030][0031][0032] 其中,Attn表示自注意力计算,HB表示BERT编码的输出,HlE表示原始编码端第ll层的输出;HB表示原始编码端与BERT编码结果融合后第l层的输出。[0033] 进一步,所述数据调优模型还包括:将BERT作为第二个编码器,将解码后的噪音文本输入BERT,源句子输入transformer编码器,组成多源输入的模型结构。[0034] 进一步,所述重复步骤二至步骤四包括:重复过程中,机器翻译模型和文本风格迁移模型之间进行多轮迭代的知识迁移,两个模型互为教师,相互指导。[0035] 结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明使用知识迁移的方式为翻译模型和文本风格迁移模型生成伪数据,从而缓解在机器翻译风格迁移中训练数据较少的问题。[0036] 本发明可以在具有少量对应风格翻译语料的情况下,充分利用通用翻译数据和文本风格迁移数据来提高风格化翻译模型的效果,并且该方法也可以拓展到其他风格化翻译任务上,从而极大地提高翻译效率,减少人工标注和翻译的成本,带来间接经济收益。[0037] 本发明提出了数据调优模型来充分利用原始文本和风格迁移后的文本来进行语法校错,使得伪平行数据可以更加流畅,有效地提高伪平行数据的质量。[0038] 本发明通过迭代的方式让翻译模型和文本风格迁移模型可以不断地从对方学习到有用的知识,从而提高翻译模型和文本风格迁移模型两个模型的性能。附图说明[0039] 图1是本发明实施例提供的基于迭代知识迁移的机器翻译风格迁移性能提升方法的实现流程图。[0040] 图2是本发明实施例提供的基于迭代知识迁移的机器翻译风格迁移性能提升方法的流程图。[0041] 图3是本发明实施例提供的基于迭代知识迁移的机器翻译风格迁移性能提升方法的机器翻译模型和文本风格迁移模型之间进行多轮迭代的知识迁移流程图。[0042] 图4是本发明实施例提供的基于迭代知识迁移的机器翻译风格迁移性能提升方法的数据调优模型示意图。具体实施方式[0043] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。[0044] 针对现有技术存在的问题,本发明提供了一种基于迭代知识迁移的机器翻译风格迁移性能提升方法,下面结合附图对本发明作详细的描述。[0045] 如图1所示,本发明实施例提供的基于迭代知识迁移的机器翻译风格迁移性能提升方法包括:[0046] 通过预训练翻译模型和文本风格迁移模型、文本风格迁移模型指导翻译模型、构造伪平行句对和数据调优、翻译模型指导文本风格迁移模型,迭代提升翻译风格迁移性能。[0047] 本发明实施例提供的基于迭代知识迁移的机器翻译风格迁移性能提升方法还包括:[0048] 基于通用翻译数据和文本风格迁移数据预训练机器翻译模型和文本风格迁移模型,用文本风格迁移模型作为教师模型,利用序列级知识蒸馏的方式对翻译数据进行解码得到目标风格句子,构造对应风格的翻译伪平行句对用于翻译模型的训练;再以翻译模型作为教师模型去解码源风格的句子,构造对应风格的文本风格迁移伪平行句对用于风格迁移模型的训练;同时采用数据调优模型修正伪平行数据中的错误,多轮迭代,即可。[0049] 如图2所示,本发明实施例提供的基于迭代知识迁移的机器翻译风格迁移性能提升方法包括以下步骤:[0050] S101,在拥有训练数据的通用机器翻译领域和特定文本风格迁移领域,预训练机器翻译模型和文本风格迁移模型;[0051] S102,以文本风格迁移模型作为教师模型对源风格的句子进行解码,生成目标风格的文本;将源语言句子和与解码得到的目标风格句子构造源风格到目标风格的翻译伪平行句对用于进行风格化翻译模型的训练;[0052] S103,以翻译风格迁移模型作为教师模型对源语言的句子进行解码,翻译得到目标语言和目标风格的文本;将源风格目标语言句子和翻译得到的目标风格目标语言句子构造源风格到目标风格的文本风格迁移伪平行句对用于进行文本风格迁移模型的训练;[0053] S104,利用数据调优模型对每次构造的伪平行句对进行语法校错;重复步骤S102至步骤S104,直至风格化翻译模型和文本风格迁移模型性能不再提高。[0054] 进一步,步骤一中,所述在拥有训练数据的通用机器翻译领域和特定文本风格迁移领域,预训练机器翻译模型和文本风格迁移模型包括:[0055] 利用丰富的翻译数据和文本风格迁移数据,基于Transformer结构预训练机器翻译模型和风格迁移模型。[0056] 进一步,所述Transformer模型结构中核心的自注意力计算如下:[0057] MultiHead(Q,K,V)=Concat(head1,...,headh)[0058] where:headi=Attention(QWiQ,KWiK,VWiV)。[0059] 进一步,所述步骤二还包括:以文本风格迁移模型作为教师模型,翻译模型作为学生模型,使用序列级知识蒸馏的方法让学生模型从老师模型中学习风格转换相关的知识。[0060] 进一步,所述步骤三还包括:以翻译模型作为教师模型,文本风格迁移模型作为学生模型,使用序列级知识蒸馏的方法让学生模型从老师模型中学习翻译相关的知识。[0061] 进一步,所述利用数据调优模型对每次构造的伪平行句对进行语法校错包括:[0062] 数据调优模型利用两个编码端获取更多的文本信息并对句子进行校正;[0063] 所述数据调优模型两个编码端之间的交互引入注意力机制,计算公式如下:[0064][0065][0066][0067] 其中,Attn表示自注意力计算,HB表示BERT编码的输出,HlE表示原始编码端第ll层的输出;HB表示原始编码端与BERT编码结果融合后第l层的输出。[0068] 进一步,所述数据调优模型还包括:将BERT作为第二个编码器,将解码后的噪音文本输入BERT,源句子输入transformer编码器,组成多源输入的模型结构。[0069] 进一步,所述重复步骤二至步骤五包括:重复过程中,机器翻译模型和文本风格迁移模型之间进行多轮迭代的知识迁移,两个模型互为教师,相互指导。[0070] 下面结合具体实施例对本发明的技术方案做进一步说明。[0071] 实施例1:[0072] 一种基于迭代知识迁移的机器翻译风格迁移性能提升方法具体包括以下步骤:[0073] 1)在拥有训练数据的通用机器翻译领域和特定文本风格迁移领域,预训练机器翻译模型和文本风格迁移模型。[0074] 2)以文本风格迁移模型作为教师模型来对源风格的句子进行解码,生成目标风格的文本。[0075] 3)源语言句子和与步骤2)中解码得到的目标风格句子可以构造源风格到目标风格的翻译伪平行句对用于风格化翻译模型的训练[0076] 4)以翻译风格迁移模型作为教师模型来对源语言的句子进行解码,翻译得到目标语言和目标风格的文本。[0077] 5)源风格目标语言句子和4)中翻译得到的目标风格目标语言句子可以构造源风格到目标风格的文本风格迁移伪平行句对用于文本风格迁移模型的训练。[0078] 6)每次构造的伪平行句对都会使用一个数据调优模型来对句子进行语法校错,从而提高伪平行语料的质量。[0079] 7)按照步骤2)到步骤6)进行多轮迭代的知识迁移,直到风格化翻译模型和文本风格迁移模型性能不再提高。[0080] 步骤1)中,利用较为丰富的翻译数据和文本风格迁移数据,基于Transformer结构预训练机器翻译模型和风格迁移模型,使其作为伪数据的生成器并且提供有较好的初始化参数。Transformer模型结构中核心的自注意力计算方式如下:[0081] MultiHead(Q,K,V)=Concat(head1,...,headh)[0082] where:headi=Attention(QWiQ,KWiK,VWiV)[0083] 在该步骤中,翻译和文本风格迁移任务是给定输入文本,自动生成目标文本,目前主流的深度学习方法是采用编码器‑解码器框架,如图1所示,首先使用Transformer的编码端对输入的文本进行编码得到特征向量,之后再送入Transformer的解码端进行解码,生成目标文本,在解码时会进行编码端和解码端的注意力计算,使得在解码时可以关注和待解码词最相关的部分。[0084] 步骤2)和步骤3)中,以文本风格迁移模型作为教师模型,翻译模型作为学生模型,使用序列级知识蒸馏的方法让学生模型从老师模型中学到风格转换相关的知识。其知识迁移的步骤如下:[0085] 先使用较大教师模型随机初始化,然后在训练集上训练直到拟合;[0086] 再使用该教师模型对源端的句子进行解码,得到蒸馏的目标端数据;[0087] 较小的学生模型在第二步蒸馏得到的句对上进行训练就可以学习到教师模型的知识。[0088] 步骤4)和步骤5)中,以翻译模型作为教师模型,文本风格迁移模型作为学生模型,使用序列级知识蒸馏的方法让学生模型从老师模型中学到翻译相关的知识,知识迁移的步骤同上。[0089] 步骤6)中,数据调优模型使用了两个编码端来获取更多的文本信息从而对句子进行校正。将风格迁移后句子输入BERT,源句子输入原始编码端组成多源输入。两个编码端之间的交互引入了注意力的机制,相关的计算公式如下:[0090][0091][0092][0093] 其中Attn表示的是自注意力计算,HB表示的是BERT编码的输出,HlE表示的是原始编码端第l层的输出。HlB表示的是原始编码端与BERT编码结果融合后第l层的输出。[0094] 本步骤的实施方式如下,用训练好的文本风格迁移模型,对源句子进行编码,使用BERT对风格迁移后的句子进行编码,两种特征融合后生成对应的校错后的文本。在编码后会使用上述注意力计算公式来进行特征融合。[0095] 具体的计算过程如图4所示,首先将源风格句子送入预训练文本风格迁移模型的编码器中,得到考虑了上下文信息的特征向量,再将风格迁移后的句子送入BERT当中,得到预训练模型提取到的特征,两者进行注意力融合后作为该层的输出,编码器中每层都会融合预训练模型的特征,最后顶层的输出送入模型的解码其中进行解码得到目标句子。[0096] 如图3所示,机器翻译模型和文本风格迁移模型之间会进行多轮迭代的知识迁移,两个模型互为教师,相互指导,从而提高两个模型的性能。[0097] 实施例2[0098] 本发明第二实施例的机器翻译风格迁移性能提升方法包括以下步骤:[0099] 1)在拥有训练数据的通用机器翻译领域和特定文本风格迁移领域,预训练机器翻译模型和文本风格迁移模型。[0100] 此处翻译模型和文本风格迁移模型可以是基于循环神经网络的序列到序列结构,也可以是基于Transformer的自注意力模型。此过程以半监督的方式进行机器翻译模型的训练,利用互联网大量的单语数据来弥补平行语料缓解翻译平行语料不足的问题。此过程以迁移学习的方式进行文本风格迁移模型的训练,通过在预训练语言模型上使用文本风格迁移数据微调,从而将预训练模型的知识迁移到文本风格迁移模型中,提高文本风格迁移模型的性能。[0101] 2)以文本风格迁移模型作为教师模型来对源风格的句子进行解码,生成目标风格的文本。[0102] 3)源语言句子和与步骤2)中解码得到的目标风格句子可以构造源风格到目标风格的翻译伪平行句对用于风格化翻译模型的训练[0103] 上述利用伪平行句对机器翻译模型训练的过程包括,首先利用句长、源端目标端句长比、语言模型评估、语料词对齐评估这些规则手段对伪平行数据进行初步筛选,之后再使用数据调优模型结合源句信息来生成更好的目标端句子,此过程便于提高伪平行数据质量来增强风格化翻译模型的性能。[0104] 具体地,不同于通用场景的机器翻译模型,风格化机器翻译模型用于生成特定风格的翻译结果,风格化机器翻译模型在针对特定风格的翻译任务时,其翻译效果优于通用的机器翻译模型。[0105] 4)以翻译风格迁移模型作为教师模型来对源语言的句子进行解码,翻译得到目标语言和目标风格的文本。[0106] 5)源风格目标语言句子和4)中翻译得到的目标风格目标语言句子可以构造源风格到目标风格的文本风格迁移伪平行句对用于文本风格迁移模型的训练。[0107] 上述利用伪平行句对文本风格迁移模型训练的过程包括,首先利用句长、源端目标端句长比、语言模型评估、语料词对齐评估等规则手段对伪平行数据进行初步筛选,之后再使用数据调优模型结合源句信息来生成更好的目标端句子,此过程便于提高伪平行数据质量来增强文本风格迁移模型的性能。[0108] 6)每次构造的伪平行句对都会使用一个数据调优模型来对句子进行语法校错,从而提高伪平行语料的质量。[0109] 在使用该数据调优模型过程中,数据调优模型的编码器分别提取源风格文本的文本特征,以及目标风格带噪音文本的文本特征,从而在解码过程中可以参考源风格文本的特征,在过滤噪音文本中噪音的同时提高内容保留程度。[0110] 上述数据调优模型可以是双编码器的结构,也可以将解码后的噪音文本和源文本拼接后输入单个编码器,进而可以融合源文本和噪音文本的信息来过滤噪音并生成质量更高的目标句子。[0111] 7)按照步骤2)到步骤6)进行多轮迭代的知识迁移,直到风格化翻译模型和文本风格迁移模型性能不再提高。[0112] 在风格化翻译模型的性能稳定后,还可以使用人工构造的少量对应风格的翻译平行数据对模型进行微调,利用高质量的平行翻译语料作为监督信号提高风格化翻译模型的性能。[0113] 为了验证本方法的有效性,本发明将基于迭代知识迁移的机器翻译风格迁移性能提升的方法应用于非正式到正式翻译风格迁移任务中的MFTC数据集,首先再GYAFC数据集上训练了一个基于预训练模型BART的文本风格迁移模型,再在MTFC中非正式翻译数据上基于Transformer训练了翻译模型,之后使用文本风格迁移模型对MTFC中的非正式数据进行解码得到非正式到正式的伪平行句对用于翻译风格迁移的训练,同样进行翻译模型到文本风格迁移模型的知识迁移,注意其中的伪平行句对都会使用数据调优模型来进行校错。实验结果表明,本发明提出的方法可以让机器翻译风格迁移性能有较大得到提升,其中BLEU值上取得了5个点的提高,同时风格迁移准确率也取得了目前最好的结果。[0114] 表1不同神经机器翻译风格迁移实验结果对比[0115][0116] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

专利地区:北京

专利申请日期:2021-07-02

专利公开日期:2024-06-18

专利公告号:CN113591460B

电话咨询
读内容
搜本页
回顶部