专利名称:面向数字音频删除和插入篡改操作自动检测方法及系统
专利类型:发明专利
专利申请号:CN202111315681.7
专利申请(专利权)人:湖北工业大学
权利人地址:湖北省武汉市洪山区南李路28号
专利发明(设计)人:曾春艳,孔帅,王志锋,冯世雄,余琰,夏诗言
专利摘要:本发明属于数字音频信号篡改检测技术领域,公开了一种面向数字音频删除和插入篡改操作自动检测方法及系统,利用训练好的电网频率的通用背景模型,提取每个数字音频信号的电网频率频谱特征超矢量;将所提取的电网频率频谱特征超矢量输入由注意力机制和残差网络构成的深度表示学习网络进行浅层特征的学习;将训练好的浅层特征输入到分类网络中,判断是否经过删除或插入的篡改。本发明采用提取电网频率频谱特征超矢量,并建立深度神经网络训练所提取的特征;本发明不仅实现了篡改检测的自动化,还将深度神经网络很好的应用于篡改检测,并且取得很好的效果。本发明具有更高的准确率和较好的鲁棒性。
主权利要求:
1.一种面向数字音频删除和插入篡改操作自动检测方法,其特征在于,所述面向数字音频删除和插入篡改操作自动检测方法包括:利用训练好的电网频率的通用背景模型,提取每个数字音频信号的电网频率频谱特征超矢量;
将所提取的电网频率频谱特征超矢量输入由注意力机制和残差网络构成的深度表示学习网络进行浅层特征的学习;
将训练好的浅层特征输入到分类网络中,判断是否经过删除或插入的篡改;
所述面向数字音频删除和插入篡改操作自动检测方法包括以下步骤:步骤一,利用带通滤波器对原始数字音频信号进行预处理,提取待测信号的电网频率成分;提取相位特征和拟合特征参数,并构建电网频率的通用背景模型;
步骤二,训练数据集数字音频信号对所得到的通用背景模型通过自适应更新电网频率的通用背景模型参数,根据目标数据库构造数字音频信号的电网频率频谱特征超矢量的特征矩阵;
步骤三,将得到的电网频率频谱特征超矢量输入到深度神经网络进行浅层特征的表示学习,得到浅层特征即电网频率频谱特征超矢量;
步骤四,将训练好的浅层特征输入预先构建的篡改检测分类网络,通过sigmod函数区分原始语音和篡改语音,得到篡改检测结果;
步骤一中,所述利用带通滤波器对原始数字音频信号进行预处理,提取待测信号的电网频率成分,提取相位特征和拟合特征参数包括:利用10000阶的线性相位FIR滤波器对原始数字音频信号f[n]进行带通滤波,得到待测信号中的电网频率成分FENFC[n];
0 1
基于DFT 和DFT 变换得到相位波动特征F1和F2,基于Hilbert变换得到瞬时频率特征F3;
使用SumofSines和Gaussian表达式分别进行拟合相位曲线和频率曲线,将相位特征和拟合特征参数进行组合得到特征向量;
所述构建电网频率的通用背景模型包括:
(1)确定高斯混合模型:
其中,f表示一个由相位特征和拟合特征参数组成的N维特征向量f={f1,f2,…,fN};
φj,j=1,…L表示混合权重;σj表示协方差矩阵;μj表示均值向量;
(2)采用EM算法进行混合高斯模型的参数估计:(2.1)确定合适的θ和z极大化对数似然函数:其中,x=(x1,x2,x3,…,xm)表示语音特征向量,m表示相互独立的语音特征向量的数量;
λ表示数字音频信号模型,θ表示已知模型参数,zi,zi∈(z1,z2,z3,…,zi)表示与特征向量xi对应的隐藏变量,令p(xi,zi|θ)最大;
(2.2)计算θ和z的值:基于Q(z)为已知样本和模型参数下的隐变量z的分布,确定在固定参数θ后Qi(zi)的选择问题,建立了L(θ,Z)的下界即 通过调整θ最大化所述下界,对似然函数最大化获得新的模型参数,返回代入(2.1)中,通过不断迭代获得更加准确的GMM参数,得到一个好的电网频率的通用背景模型;
步骤二中,所述训练数据集数字音频信号对所得到的通用背景模型通过自适应更新其均值参数包括:首先,计算第j个特征向量fj属于UBM中第i个联合高斯分量pi(f)的概率:其次,利用计算得到的P(i|fj),分别计算未篡改的目标数字音频信号的GMM模型的均值参数:最后,将由训练数据产生的新的充分统计量更新UBM的第i个混合成员的充分统计量:其中, 表示自适应系数,用于控制新的均值和旧估计量之间的平衡; 表示自适应系数;k表示一个固定参数的因子;
所述根据目标数据库构造数字音频信号的电网频率频谱特征超矢量的特征矩阵包括:将由每条语音导出的每个GMM‑UBM模型的均值矩阵作为电网频率频谱特征超矢量,在每条语音和高维向量之间构建特征关系,对每条语音的均值矩阵进行调整,重构得到电网频率频谱特征超矢量;
步骤三中,所述深度神经网络设置有注意力机制与残差网络;
注意力机制,包括卷积层、池化层、全连接层、点乘模块,用于进行电网频率频谱特征超矢量的特征重构,对电网频率频谱特征超矢量中特征赋予不同的权重;
残差网络,用于对电网频率频谱特征超矢量进行具体特征结构的训练;残差网络输入的特征向量的大小为N*M;其中,N表示所提取的拟合特征31,M表示高斯分量;输入尺寸为
224*224;
所述残差网络卷积层为5*5的卷积层;
残差块如下:
xl+1=h(xl)+F(xl,Wl);
其中,h(xl)=Wl'x;Wl'表示1*1卷积操作;F(xl,Wl)表示残差部分;
所述注意力机制包括:
第一个卷积层K是卷积核大小为n*n的矩阵,激活函数为relu函数;用于进行浅层特征提取,公式如下:其中,Mij表示卷积时输入特征图中与卷积核对应的元素,R表示采用relu函数作为激活函数;
最大池化层,用于对浅层特征进行二次提取,得到池化后的特征图,公式如下:H=E(Yα)+b2;
其中,Yα表示是原特征图,E表示特征图的池化域矩阵;b2表示偏差;
全连接层,用于对池化后的特征图进行整合;
点乘模块,用于将全连接层处理的特征图与原始特征图进行点乘;
所述篡改检测分类网络由卷积层、池化层、全连接层和输出层组成;输出层的激活函数采用的是sigmoid函数;
所述篡改检测分类网络的损失函数为Binarycrossentropy二元交叉熵,表达式为:其中,N表示特征的个数,y对应的是每条语音的标签值,p(y)表示输出属于y标签的概率;
步骤四中,所述将得到的浅层特征输入预先构建的篡改检测分类网络,通过sigmod函数区分原始语音和篡改语音包括:
1)利用篡改检测分类网络的卷积层、池化层和全连接层,通过局部感受野、权重共享和降采样强化浅层特征;
2)利用篡改检测分类网络输出层的Sigmoid函数区分原始语音和篡改语音:H=Sigmoid(P*W+b);
其中,H表示输出,W表示权重;b表示偏差,P表示全连接层的输出。
2.一种实施权利要求1所述面向数字音频删除和插入篡改操作自动检测方法的面向数字音频删除和插入篡改操作自动检测系统。
3.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1所述面向数字音频删除和插入篡改操作自动检测方法。 说明书 : 面向数字音频删除和插入篡改操作自动检测方法及系统技术领域[0001] 本发明属于数字音频信号篡改检测技术领域,尤其涉及一种面向数字音频删除和插入篡改操作自动检测方法及系统。背景技术[0002] 目前,随着互联网信息技术的迅速发展,智能移动设备逐渐普及,数字多媒体数据(如音频、图像、文本等)已成为主要的信息载体。数字音频文件录制和存储的成本也变得越来越低,同时从互联网上获取数字音频文件也越来越便利,人们对于收集和分享数字音频文件的诉求日益高涨。与此同时,各种音频编辑软件也纷纷涌现,使得对音频信号的编辑变得更加容易。因此,对音频记录的有效保护和认证的需求日益增加,特别是在录音可能涉及数字权利管理和执法案件的情况下。可能在互联网上或法庭上产生大量具有真实感的虚假信息,从而影响社会稳定和公共安全。因此,音频取证对于验证音频信息的真实性、可靠性、完整性和来源变得越来越重要。[0003] 利用电网频率用于篡改检测,被法学界大量引用。从法医的角度来看,电网频率信号经常被嵌入窃听设备的音频记录中,与行为良好的特性相关联的高可用性使它成为一个有吸引力的特性。这也是它广泛应用的原因。在较长的一段时间中,一个地区的电网频率波动是稳定且独特的。电网频率中的非周期波动对连接到的所有设备都有相同的影响。电网频率信号通常会出现在由电网供电的设备中,电网信号同样是一种众所周知的标准信号。例如,电网频率的标准值为50Hz或60Hz,取决于所在的地区。欧洲国家、澳大利亚,以及亚洲和非洲的大多数国家使用50Hz。北美和中美洲国家使用60Hz。需要注意的是,在南美洲有些国家使用50Hz,也有些国家使用60Hz。而日本是同时使用50Hz和60Hz作为电网频率的标准值。在理想的条件下,电网信号是在标称频率震荡的正弦信号,但是在现实中由与电网的能源供应与需求的波动,会造成其瞬时频率的变化。随着时间的推移,电网的频率和相位不会突然的发生变化。电网频率信号具有稳定性和唯一性,而对音频文件进行插入或删除音频段可能会造成估计的电网频率信号突变。在音频文件中,通过带通滤波提取出电网频率信号,由于篡改操作导致篡改点电网频率成分瞬时频率和相位的突然变化,来识别出是否发生篡改。[0004] 同时现有技术也提出了一系列的检测音频篡改的方法。基于电网频率在篡改检测技术上的应用可以分为两种,第一是将电网频率信号与大型的电网频率数据库进行对比;第二是提取电网频率信号中的一些特征,进行一致性或者规律性的分析。还有一些研究人员没有使用电网频率进行篡改操作的分析。[0005] 1)基于电网频率数据库对比:Grigoras最早提出基于电网频率的音频篡改检测算法,主要通过待检测音频中电网频率的波动和参考年份的数据比对,从而判断音频是否被篡改过。现有技术1基于对北美电网频率检测网络的分析,使用B样条线基函数及逆行插值得到标准电网频率数据库。使用短时傅里叶变换估计电网频率信号分量的频率,将待测音频的电网频率频率序列与标准数据库进行匹配。为了得到待测信号准确的时间频率对提出振荡器误差迭代式校正算法,解决电网频率序列无法与标准电网频率数据库匹配的为题。现有技术2利用频率解调从音频信号中提取电网频率信号,对提取电网频率信号阶段的工作做了进一步的研究。[0006] 2)提取电网频率特征:现有技术3提出了一种通过揭示局部噪声水平的异常差异来检测剪接的方法,通过比较各音节背景噪声方差之间的相似性,判断音频中是否存在异质拼接篡改操作。现有技术4利用MDCT系数的统计特征以及对MP3文件结构的研究对多重压缩文件进行检测并识别编码器类型,并在大型语音数据库中对算法性能进行验证。现有技术5提出了基音序列作为音频的特征不同音节提取的音高序列通常是完全不同的。通过计算每个音节之间的差异并比较音节与设置的阈值的差异来判断对应音节是否存在复制‑移动伪造。现有技术6提取基音序列和前两个共振峰序列作为每个语音段的特征集。采用动态时间扭曲(DTW)算法计算各特征集的相似度。通过与阈值的相似性比较,检测和定位语音录音中的复制‑移动伪造。[0007] 通过上述分析,现有技术存在的问题及缺陷为:[0008] (1)对于待测信号的质量、录制环境等有一定的条件限制,检测结果没有一致性的评判标准;[0009] (2)提取的电网频率特征不能很好的体现篡改信息,采用的分类器不能更好的利用特征、学习特征的重要信息;[0010] (3)有部分的检测方法需要通过专业知识的经验、设置阈值决策条件模糊,不能很好的实现自动化的检测。[0011] (4)现有的特征对于电网频率中篡改信息挖掘的程度不够深;[0012] (5)传统方法的泛化性较弱,检测音频检测鲁棒性和准确度有待提高的问题;[0013] 解决以上问题及缺陷的难度为:对于数字音频删除和插入篡改操作自动检测,需要提取出更适合在深度网络中进行训练的特征,尚未建立更加适合篡改检测的网络。[0014] 解决以上问题及缺陷的意义为:[0015] 对于现在所使用的方法,基于相位信息和频率信息提取的电网频率频谱特征超矢量更好体现和深度挖掘篡改信息;采用深度神经网络对浅层特征的训练,能够更好的学习特征重要信息;采用分类网络实现对篡改检测的分类,检测结果有具体的评判标准,实现了自动化的检测。所设计的数字音频删除和插入系统对于音频检测鲁棒性和准确都有明显的提高,并在多个数据库中得到验证。发明内容[0016] 针对现有技术存在的问题,本发明提供了一种面向数字音频删除和插入篡改操作自动检测方法及系统。[0017] 本发明是这样实现的,一种面向数字音频删除和插入篡改操作自动检测方法,所述面向数字音频删除和插入篡改操作自动检测方法包括:[0018] 利用训练好的电网频率的通用背景模型,提取每个数字音频信号的电网频率频谱特征超矢量;[0019] 将所提取的电网频率频谱特征超矢量输入由注意力机制和残差网络构成的深度表示学习网络进行浅层特征的学习;[0020] 将训练好的浅层特征输入到分类网络中,判断是否经过删除或插入的篡改。[0021] 进一步,所述面向数字音频删除和插入篡改操作自动检测方法包括以下步骤:[0022] 步骤一,利用带通滤波器对原始数字音频信号进行预处理,提取待测信号的电网频率成分;提取相位特征和拟合特征参数,并构建电网频率的通用背景模型;[0023] 步骤二,训练数据集数字音频信号对所得到的通用背景模型通过自适应更新电网频率的通用背景模型参数,根据目标数据库构造数字音频信号的电网频率频谱特征超矢量的特征矩阵;[0024] 步骤三,将得到的电网频率频谱特征超矢量输入到深度神经网络进行浅层特征的表示学习,得到浅层特征即电网频率频谱特征超矢量;[0025] 步骤四,将得到的浅层特征输入预先构建的篡改检测分类网络,通过sigmod函数区分原始语音和篡改语音,得到篡改检测结果。[0026] 进一步,步骤一中,所述利用带通滤波器对原始数字音频信号进行预处理,提取待测信号的电网频率成分,提取相位特征和拟合特征参数包括:[0027] 利用10000阶的线性相位FIR滤波器对原始数字音频信号f[n]进行带通滤波,得到待测信号中的电网频率成分FENFC[n];[0028] 基于DFT0和DFT1变换得到相位波动特征F1和F2,基于Hilbert变换得到瞬时频率特征F3;[0029] 使用SumofSines和Gaussian表达式分别进行拟合相位曲线和频率曲线,将相位特征和拟合特征参数进行组合得到特征向量。[0030] 进一步,所述构建电网频率的通用背景模型包括:[0031] (1)确定高斯混合模型:[0032][0033] 其中,f表示一个由相位特征和拟合特征参数组成的N维特征向量f={f1,f2,…,fN};φj,j=1,…L表示混合权重;σj表示协方差矩阵;μj表示均值向量;[0034] (2)采用EM算法进行混合高斯模型的参数估计:[0035] (2.1)确定合适的θ和z极大化对数似然函数:[0036][0037] 其中,x=(x1,x2,x3,…,xm)表示语音特征向量,m表示相互独立的语音特征向量的数量;λ表示数字音频信号模型,θ表示已知模型参数,zi,zi∈(z1,z2,z3,…,zi)表示与特征向量xi对应的隐藏变量,令p(xi,zi|θ)最大;[0038] (2.2)计算θ和z的值:基于Q(z)为已知样本和模型参数下的隐变量z的分布,确定在固定参数θ后Qi(zi)的选择问题,建立了L(θ,Z)的下界即 通过调整θ最大化所述下界,对似然函数最大化获得新的模型参数,返回代入(2.1)中,通过不断迭代获得更加准确的GMM参数,得到一个好的电网频率的通用背景模型。[0039] 进一步,步骤二中,所述训练数据集数字音频信号对所得到的通用背景模型通过自适应更新其均值参数包括:[0040] 首先,计算第j个特征向量fj属于UBM中第i个联合高斯分量pi(f)的概率:[0041][0042] 其次,利用计算得到的P(i|fj),分别计算未篡改的目标数字音频信号的GMM模型的均值参数:[0043][0044][0045] 最后,将由训练数据产生的新的充分统计量更新UBM的第i个混合成员的充分统计量:[0046][0047] 其中, 表示自适应系数,用于控制新的均值和旧估计量之间的平衡;表示自适应系数;k表示一个固定参数的因子。[0048] 进一步,所述根据目标数据库构造数字音频信号的电网频率频谱特征超矢量的特征矩阵包括:[0049] 将由每条语音导出的每个GMM‑UBM模型的均值矩阵作为电网频率频谱特征超矢量,在每条语音和高维向量之间构建特征关系,对每条语音的均值矩阵进行调整,重构得到电网频率频谱特征超矢量。[0050] 进一步,步骤三中,所述深度神经网络设置有注意力机制与残差网络;[0051] 注意力机制,包括卷积层、池化层、全连接层、点乘模块,用于进行电网频率频谱特征超矢量的特征重构,对电网频率频谱特征超矢量中特征赋予不同的权重;[0052] 残差网络,用于对电网频率频谱特征超矢量进行具体特征结构的训练;残差网络输入的特征向量的大小为N*M;其中,N表示所提取的拟合特征31,M表示高斯分量;输入尺寸为224*224;[0053] 所述残差网络卷积层为5*5的卷积层;[0054] 残差块如下:[0055] xl+1=h(xl)+F(xl,Wl);[0056] 其中,h(xl)=Wl'x;Wl'表示1*1卷积操作;F(xl,Wl)表示残差部分。[0057] 进一步,所述注意力机制包括:[0058] 第一个卷积层K是卷积核大小为n*n的矩阵,激活函数为relu函数;用于进行浅层特征提取,公式如下:[0059][0060] 其中,Mij表示卷积时输入特征图中与卷积核对应的元素,R表示采用relu函数作为激活函数;[0061] 最大池化层,用于对浅层特征进行二次提取,得到池化后的特征图,公式如下:[0062] H=E(Yα)+b2;[0063] 其中,Yα表示是原特征图,E表示特征图的池化域矩阵;b2表示偏差;[0064] 全连接层,用于对池化后的特征图进行整合;[0065] 点乘模块,用于将全连接层处理的特征图与原始特征图进行点乘。[0066] 进一步,所述篡改检测分类网络由卷积层、池化层、全连接层和输出层组成;输出层的激活函数采用的是sigmoid函数;[0067] 所述篡改检测分类网络的损失函数为Binarycrossentropy二元交叉熵,表达式为:[0068][0069] 其中,N表示特征的个数,y对应的是每条语音的标签值,p(y)表示输出属于y标签的概率。[0070] 进一步,步骤四中,所述将得到的浅层特征输入预先构建的篡改检测分类网络,通过sigmod函数区分原始语音和篡改语音包括:[0071] 1)利用卷积层、池化层和全连接层,通过局部感受野、权重共享和降采样强化浅层特征;[0072] 2)利用输出层的Sigmoid函数区分原始语音和篡改语音:[0073] H=Sigmoid(P*W+b);[0074] 其中,H表示输出,W表示权重;b表示偏差,P表示全连接层的输出。[0075] 本发明的另一目的在于提供一种实施所述面向数字音频删除和插入篡改操作自动检测方法的面向数字音频删除和插入篡改操作自动检测系统。[0076] 本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述面向数字音频删除和插入篡改操作自动检测方法。[0077] 结合上述的所有技术方案,本发明所具备的优点及积极效果为:[0078] 本发明采用提取电网频率频谱特征超矢量,并建立深度神经网络训练所提取的特征;本发明不仅实现了篡改检测的自动化,还将深度网络很好的应用于篡改检测,并且取得很好的效果。本发明通过建立背景模型,经过自适应更新其参数,得到每条语音的电网频率频谱特征超矢量,并且通过深度神经网络进行浅层特征的表示学习,在输入到分类网络中进行分类,其中不存在阈值选择的经验性行为,具有更高的准确率和较好的鲁棒性。[0079] 为了验证本发明具有更好的鲁棒性,在一些公用数据库上都取得了良好的结果。数字音频删除和插入篡改操作自动检测的意义就在于,能够应用于各种数据库和各种场景,为了保障应用,检测方案必须要在各种实际情况下具有鲁棒性。[0080] 本发明基于建立电网频率通用背景模型,通过EM算法更新模型的参数,可以通过少量的数据运用MAP算法自适应,数据库中的每个原始音频可以自适应出一个GMM‑UNM模型;本发明基于电网频率频谱特征超矢量建立了深度网络进行浅层特征的表示学习,浅层特征输入到分类网络中进行篡改检测的二分类。[0081] 本发明在网络中加入注意力机制模块,对特征进行重构,增加了重要特征的权重比,强化了特征图;本发明基于残差网络建立了一个可以用于篡改检测的网络,其内部的残差块使用了跳跃链接,缓解了在深度神经网络中增加深度带来了梯度消失的问题,直接将输入信息绕道传到输出,保护信息的完整性;本发明通过激活函数sigmoid来分类以及损失函数Binarycrossentropy判断模型的好坏,实现篡改检测的自动化。附图说明[0082] 图1是本发明实施例提供的面向数字音频删除和插入篡改操作自动检测方法原理图。[0083] 图2是本发明实施例提供的面向数字音频删除和插入篡改操作自动检测方法流程图。[0084] 图3是本发明实施例提供的深度神经网络结构示意图。具体实施方式[0085] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。[0086] 针对现有技术存在的问题,本发明提供了一种面向数字音频删除和插入篡改操作自动检测方法,下面结合附图对本发明作详细的描述。[0087] 如图1所示,本发明实施例提供的面向数字音频删除和插入篡改操作自动检测方法包括:[0088] 利用训练好的电网频率的通用背景模型,提取每个数字音频信号的电网频率频谱特征超矢量;[0089] 将所提取的电网频率频谱特征超矢量输入由注意力机制和残差网络构成的深度表示学习网络进行浅层特征的学习;[0090] 将训练好的浅层特征输入到分类网络中,判断是否经过删除或插入的篡改。[0091] 如图2所示,本发明实施例提供的面向数字音频删除和插入篡改操作自动检测方法包括以下步骤:[0092] S101,利用带通滤波器对原始数字音频信号进行预处理,提取待测信号的电网频率成分;提取相位特征和拟合特征参数,并构建电网频率的通用背景模型;[0093] S102,训练数据集数字音频信号对所得到的通用背景模型通过自适应更新电网频率的通用背景模型参数,根据目标数据库构造数字音频信号的电网频率频谱特征超矢量的特征矩阵;[0094] S103,将得到的电网频率频谱特征超矢量输入到深度神经网络进行浅层特征的表示学习,得到浅层特征即电网频率频谱特征超矢量;[0095] S104,将得到的浅层特征输入预先构建的篡改检测分类网络,通过sigmod函数区分原始语音和篡改语音,得到篡改检测结果。[0096] 本发明实施例提供的利用带通滤波器对原始数字音频信号进行预处理,提取待测信号的电网频率成分,提取相位特征和拟合特征参数包括:[0097] 利用10000阶的线性相位FIR滤波器对原始数字音频信号f[n]进行带通滤波,得到待测信号中的电网频率成分FENFC[n];[0098] 基于DFT0和DFT1变换得到相位波动特征F1和F2,基于Hilbert变换得到瞬时频率特征F3;[0099] 使用SumofSines和Gaussian表达式分别进行拟合相位曲线和频率曲线,将相位特征和拟合特征参数进行组合得到特征向量。[0100] 本发明实施例提供的构建电网频率的通用背景模型包括:[0101] (1)确定高斯混合模型:[0102][0103] 其中,f表示一个由相位特征和拟合特征参数组成的N维特征向量f={f1,f2,…,fN};φj,j=1,…L表示混合权重;σj表示协方差矩阵;μj表示均值向量;[0104] (2)采用EM算法进行混合高斯模型的参数估计:[0105] (2.1)确定合适的θ和z极大化对数似然函数:[0106][0107] 其中,x=(x1,x2,x3,…,xm)表示语音特征向量,m表示相互独立的语音特征向量的数量;λ表示数字音频信号模型,θ表示已知模型参数,zi,zi∈(z1,z2,z3,…,zi)表示与特征向量xi对应的隐藏变量,令p(xi,zi|θ)最大;[0108] (2.2)计算θ和z的值:基于Q(z)为已知样本和模型参数下的隐变量z的分布,确定在固定参数θ后Qi(zi)的选择问题,建立了L(θ,Z)的下界即 通过调整θ最大化所述下界,对似然函数最大化获得新的模型参数,返回代入(2.1)中,通过不断迭代获得更加准确的GMM参数,得到一个好的电网频率的通用背景模型。[0109] 本发明实施例提供的训练数据集数字音频信号对所得到的通用背景模型通过自适应更新其均值参数包括:[0110] 首先,计算第j个特征向量fj属于UBM中第i个联合高斯分量pi(f)的概率:[0111][0112] 其次,利用计算得到的P(i|fj),分别计算未篡改的目标数字音频信号的GMM模型的均值参数:[0113][0114][0115] 最后,将由训练数据产生的新的充分统计量更新UBM的第i个混合成员的充分统计量:[0116][0117] 其中, 表示自适应系数,用于控制新的均值和旧估计量之间的平衡;表示自适应系数;k表示一个固定参数的因子。[0118] 本发明实施例提供的根据目标数据库构造数字音频信号的电网频率频谱特征超矢量的特征矩阵包括:[0119] 将由每条语音导出的每个GMM‑UBM模型的均值矩阵作为电网频率频谱特征超矢量,在每条语音和高维向量之间构建特征关系,对每条语音的均值矩阵进行调整,重构得到电网频率频谱特征超矢量。[0120] 如图3所示,本发明实施例提供的深度神经网络设置有注意力机制与残差网络;[0121] 注意力机制,包括卷积层、池化层、全连接层、点乘模块,用于进行电网频率频谱特征超矢量的特征重构,对电网频率频谱特征超矢量中特征赋予不同的权重;[0122] 残差网络,用于对电网频率频谱特征超矢量进行具体特征结构的训练;残差网络输入的特征向量的大小为N*M;其中,N表示所提取的拟合特征31,M表示高斯分量;输入尺寸为224*224。[0123] 本发明实施例提供的注意力机制包括:[0124] 第一个卷积层K是卷积核大小为n*n的矩阵,激活函数为relu函数;用于进行浅层特征提取,公式如下:[0125][0126] 其中,Mij表示卷积时输入特征图中与卷积核对应的元素,R表示采用relu函数作为激活函数;[0127] 最大池化层,用于对浅层特征进行二次提取,得到池化后的特征图,公式如下:[0128] H=E(Yα)+b2;[0129] 其中,Yα表示是原特征图,E表示特征图的池化域矩阵;b2表示偏差;[0130] 全连接层,用于对池化后的特征图进行整合;[0131] 点乘模块,用于将全连接层处理的特征图与原始特征图进行点乘。[0132] 本发明实施例提供的残差网络卷积层为5*5的卷积层;[0133] 残差块如下:[0134] xl+1=h(xl)+F(xl,Wl);[0135] 其中,h(xl)=Wl'x;Wl'表示1*1卷积操作;F(xl,Wl)表示残差部分。[0136] 本发明实施例提供的篡改检测分类网络由卷积层、池化层、全连接层和输出层组成;输出层的激活函数采用的是sigmoid函数;[0137] 本发明实施例提供的篡改检测分类网络的损失函数为Binarycrossentropy二元交叉熵,表达式为:[0138][0139] 其中,N表示特征的个数,y对应的是每条语音的标签值,p(y)表示输出属于y标签的概率。[0140] 本发明实施例提供的将训练后的浅层特征输入预先构建的篡改检测分类网络,通过sigmod函数区分原始语音和篡改语音包括:[0141] 1)利用卷积层、池化层和全连接层,通过局部感受野、权重共享和降采样强化浅层特征;[0142] 2)利用输出层的Sigmoid函数区分原始语音和篡改语音:[0143] H=Sigmoid(P*W+b);[0144] 其中,H表示输出,W表示权重;b表示偏差,P表示全连接层的输出。[0145] 下面结合具体实施例对本发明的技术方案做进一步说明。[0146] 实施例1:[0147] 本发明的目的在于面向数字音频删除和插入篡改操作自动检测方法。该方法提取待测信号的电网频率成分,然后相位特征和拟合特征参数,并训练出通用背景模型;训练数据集数字音频信号对所得到的背景模型通过自适应更新其均值参数,每条语音可以导出一个目标GMM‑UBM模型,将每个GMM‑UBM的均值矩阵作为电网频率频谱特征超矢量;将本发明所得到的电网频率频谱特征超矢量输入到深度神经网络进行浅层特征的表示学习。深度神经网络是由注意力机制和残差网络组成,具有良好的特征提取和表示学习的能力,可以进一步训练出浅层特征。通过深度网络的表征学习得到浅层特征,再输入到分类网络中。分类网络由卷积层、池化层、全连接层和输出层组成,而输出层的激活函数采用的是sigmoid函数。先通过卷积、池化和全连接进一步的训练,最后通过sigmod函数区分是否发生篡改,实现篡改检测的自动化。[0148] 请见图1,本发明面向数字音频删除和插入篡改操作自动检测方法包括以下步骤:[0149] 步骤1:步骤一:基于所设计的带通滤波器提取出原始数字音频的电网频率成分,进一步提取相位特征和拟合特征参数,建立电网频率的通用背景模型;[0150] 具体实施包括以下子步骤:[0151] 步骤一):为了对原始数字音频信号f[n]进行带通滤波,得到待测信号中的电网频率成分FENFC[n]。本发明所设计的带通滤波器使用10000阶的线性相位FIR滤波器。使用高阶滤波器是为了得到理想的窄带信号。中心频率在ENF标准频率处,带宽为0.6HZ,通带波纹为0 10.5dB,阻带衰减为100dB。基于DFT和DFT变换得到相位波动特征F1和F2,基于Hilbert变换得到瞬时频率特征F3。使用SumofSines和Gaussian表达式分别进行拟合相位曲线和频率曲线,将相位特征和拟合特征参数进行组合得到特征向量。[0152] 步骤二):建立UBM模型;[0153] 通用背景模型(UBM)是由高斯混合模型(GaussianMixedModel)组成的。高斯混合模型指的是由L个高斯分布函数的线性组合,高斯混合模型公式如下:[0154][0155] 其中f是一个由相位特征和拟合特征参数组成的N维特征向量f={f1,f2,…,fN},φj,j=1,…L,是混合权重,σj是协方差矩阵,μj是均值向量。完整的混合高斯模型由权重参数、均值向量和协方差矩阵组成,表示为:[0156] 然后采用EM算法进行混合高斯模型的参数估计。[0157] EM算法分为两步:第一E步,共有m个相互独立的语音特征向量x=(x1,x2,x3,…,xm),对于数字音频信号模型λ,已知模型参数为θ,每一个特征向量xi都有一个与之对应的隐藏变量zi,zi∈(z1,z2,z3,…,zi),令p(xi,zi|θ)最大。本发明的目标是找到合适的θ和z极大化对数似然函数:[0158][0159] 第二步是M步,如何求取θ和z的值是一个复杂的数学问题,根据对似然函数的分析,构造如下式子:[0160][0161] 设 则 说明上式引入了一个未知的新的分布Qi(zi),且满足: 应用Jensen不等式进行缩放,可以得到:[0162][0163] 带入原式后变为:[0164][0165] 由Jensen不等式可知,随机变量式常数才能令等式成立,即:[0166][0167] 又 可以得到:[0168][0169] 由此可以得到Q(z)是已知样本和模型参数下的隐变量z的分布。至此推导出了在固定参数θ后Qi(zi)的选择问题,从而建立了L(θ ,Z)的下界,也就是通过调整θ来最大化这个下界。[0170] 对似然函数最大化以获得新的模型参数后,又带入到第一步中,通过不断迭代获得更加准确的GMM参数。从而得到一个好的UBM模型。[0171] 步骤2:根据目标数据库构造数字音频信号的电网频率频谱特征超矢量的特征矩阵;[0172] 具体实施包括以下子步骤:[0173] 为了得到GMM‑UBM模型,在包含原始语音和篡改语音的目标数据库中,通过MAP自适应的方法来更新步骤一中的UBM模型参数,每条待测数字音频信号都可以导出一个高斯混合模型。[0174] 1)自适应过程同样是一个参数更新的过程,分为两步:第一步,计算第j个特征向量fj属于UBM中第i个联合高斯分量pi(f)的概率:[0175][0176] 2)第二步利用计算得到的P(i|fj),分别计算未篡改的目标数字音频信号的GMM模型的均值参数:[0177][0178][0179] 3)最后这些由训练数据产生的新的充分统计量用来更新UBM的第i个混合成员的充分统计量:[0180][0181] 其中, 是自适应系数,用来控制新的均值和旧估计量之间的平衡。自适应系数定义为 k是一个固定参数的因子,本发明取经验值16。将每个GMM‑UNM的均值矩阵作为电网频率频谱特征超矢量,在每条语音和高维向量之间构建特征关系,对每条语音的均值矩阵进行调整,重构得到电网频率频谱特征超矢量。[0182] 步骤3:将电网频率频谱特征超矢量输入到所设计的篡改检测深度网络中进行浅层特征的表示学习;[0183] 具体包括:[0184] 将本发明所得到的电网频率频谱特征超矢量输入到深度神经网络进行浅层特征的表示学习。深度神经网络具有良好的特征提取和表示学习的能力,通过对输入信号的表征建模,可以进一步训练浅层特征即电网频率频谱特征超矢量。[0185] 步骤A1:输入到注意力机制[0186] 如图3所示注意力机制网络的示意图,通过卷积、池化和点乘来构造权重以重新调整特征图。对电网频率频谱特征超矢量中特征赋予不同的权重来实现加强重要特征和削弱边缘特征的目的。M表示由电网频率频谱特征超矢量进行变换构成二维的特征图,第一个卷积层K是卷积核大小为n*n的矩阵,并且Y是在卷积核滤波后获得的。卷积计算为:[0187][0188] 其中,Mij表示卷积时输入特征图中与卷积核对应的元素,R是使用relu函数作为激活函数。[0189] 在卷积之后经过一层池化层,池化是对特征的二次提取。本发明所使用的是最大池化,选择池化区域的最大值代表这个区域的特征。池化后得到的高层特征图不但可以降低原特征图的维度和参数量,还可以避免过拟合等问题。池化公式为:[0190] H=E(Yα)+b2[0191] 其中,Yα代表的是原特征图,特征图的池化域为矩阵E,b2为偏差,遍历原特征图的池化域后,就得到池化后的特征图H。原始特征图M经过卷积、池化与全连接处理之后的特征图再与原始特征图点乘,就可以实现原始特征图的重构。[0192] 步骤A2:输入到残差网络[0193] 电网频率频谱特征超矢量经过注意力机制进行特征重构之后,输入到残差模块中对特征进行训练具体的结构。残差模块是在rennet18的基础上,本发明去掉了高位卷积层,不仅减少了计算参数,还节省了计算资源。对于图像相关的任务,所输入到神将网络的是图像像素,但是对于本发明语音的篡改检测任务,本发明需要对原始波形进行一系列的特征提取,然后将所提取的二维特征转换为三维特征输入到神经网络中去。此外本发明输入特征向量的大小是N*M。N是所提取的拟合特征31,M是高斯分量。[0194] 残差块可表示为:[0195] xl+1=h(xl)+F(xl,Wl)[0196] 式中:h(xl)=Wl'x。Wl'为1*1卷积操作;F(xl,Wl)为残差部分。[0197] 另外,本发明相对于传统的resnet18网络中建议输入尺寸224*224,而本发明所输入的特征维数要比图像的输入维数要小的多。卷积核会不断进行降采样,增加通道的数量,减小featuremap的大小。此外本发明所输入的尺寸小于推荐的输入尺寸,将导致生成的特征图太小,导致部分特征的丢失。为了进一步减少参数和计算,本发明使用5*5的卷积层代替了7*7的卷积层,这样可以大大减少参数。[0198] 步骤4:将浅层特征输入到所构造的篡改检测分类网络中,通过sigmod函数进行区分原始语音和篡改语音。[0199] 具体实施包括以下子步骤:[0200] 电网频率频谱特征超矢量通过深度网络的表征学习得到浅层特征,进一步的通过分类网络判断是否经过篡改。篡改检测分类网络如图2所示。[0201] 1)通过卷积层、池化层进一步的学习特征。本发明所获得的浅层特征参数量过大直接用于篡改分类,所取得的效果无法达到最好。在分类网络中进一步采用卷积层、池化层和全连接层,通过局部感受野、权重共享和降采样来强化浅层特征。[0202] 2)输出层的激活函数采用的是Sigmoid函数。Sigmoid的公式为:[0203][0204] 由上述公式可以看出sigmoid函数的输出映射在(0,1)之间,单调连续,输出范围有限,优化稳定。便于用做二分类。同时本发明的sigmoid层表达为:[0205] H=Sigmoid(P*W+b)[0206] 其中H输出,W是权重;b为偏差,P为全连接层的输出。[0207] Binarycrossentropy二元交叉熵是二分类问题中常用的一个Loss损失函数。其表达式为:[0208][0209] N特征的个数,y对应的是每条语音的标签值,p(y)是输出属于y标签的概率。Loss是Binarycrossentropy损失函数的值,用来评判本发明模型的好坏。[0210] 下面结合仿真实验对本发明的技术效果做进一步说明。[0211] 本发明使用的是来自Ahumada‑25数据库中的2397条语音作为原始语音提取信号特征,建立的原始语音的UBM模型。用三个目标数据库Carioca(Carioca1数据库和Carioca2数据库组成),NewSpanish数据库,以及自制的数据库ENF‑HG上进行实验,评估本发明的模型。四个数据库共有3253个样本,每个样本得到的电网频率频谱特征超矢量为31*32维。提取连续超矢量的过程是在MATLAB平台中进行,将提取好的数据保存为csv格式输入到keras中所搭建的网络结构进行训练。高斯数的变化会影响到本发明所提取出波动超矢量的维度,验证不同的高斯数对自己所建立的模型的影响,分别验证了16、32、64、128四种高斯数对模型的影响,如表1所示,分别在三个数据库中的精度最高分别达到了95.0%、94.2%以及93.7%。[0212] 表1:[0213]高斯数 Carioca NewSpanish ENF‑HG 所有的数据16 0.942 0.933 0.932 0.93832 0.950 0.942 0.937 0.95164 0.928 0.914 0.937 0.928128 0.895 0.911 0.923 0.932[0214] 下面结合具体实验数据对本发明积极效果作进一步描述。[0215] 1)不同的网络结构[0216] 为了验证本发明所提取特征的可行性,分别将其输入到传统机器学习分类器和深度网络中进行训练。为了更好体现本发明特征的可行性,在不同的数据集上进行了实验,并将所有的数据并在一起进行了验证。[0217] 传统的机器学习的模型进行了实验,为了比较不同的结果,分别对SVM,随机森林,决策树,逻辑回归以及XGboost上进行了实验对比。如表2所示,结果显示本发明的特征在决策树上的表现比较差。Carioca数据库在SVM上的结果更好,达到了90.6%。NewSpanish数据库在XGboost上效果更好一些达到了92.1%。自制的数据库ENF‑HG同样在XGboost上表现的更好达到了92.3%。[0218] 表2[0219][0220] 对于模型为了比较不同的结果,本发明分别进行了CNN(自己设计的)、resnet50、resnet34、resnet18和篡改检测网络进行了比较。篡改检测网络即为本发明所设计的深度神经网络和分类网络系统。并比较了不同的数据库在神经网络中的影响。由表3中可以看出电网频率频谱特征超矢量在篡改检测网络中效果最好。同时与表2相比较,电网频率频谱特征超矢量在深度网络中具有更好的表现。总体而言本发明所提出的模型在数据集上的性能优于其他模型的结构和特征。[0221] 表3[0222][0223] 2)现有方法比较[0224] 本发明还与其他研究人员在公开的数据库Carioca1、Carioca2和NewSpanish上的实验结果与本发明所提出的最佳方法进行了比较。结果如表4所示。[0225] 表4[0226][0227] 从表4中们可以看出使用单一的相位特征或者频率特征准确率往往没有很高,本发明所使用的电网频率频谱超矢量具有更高的准确性。[0228] 在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。[0229] 应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD‑ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。[0230] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
专利地区:湖北
专利申请日期:2021-11-08
专利公开日期:2024-07-26
专利公告号:CN114048770B