专利名称:一种面向文字识别的图像质量自动评估方法及系统
专利类型:发明专利
专利申请号:CN202410612009.1
专利申请(专利权)人:山东浪潮科学研究院有限公司
权利人地址:山东省济南市高新区浪潮路1036号s02楼
专利发明(设计)人:杨彤,李雪,陈其宾,姜凯,李锐,魏子重
专利摘要:本发明属于图像分析技术领域,具体涉及一种面向文字识别的图像质量自动评估方法及系统,本发明通过对文字区域进行质量预测,并计算出图像的质量预测分数,有助于实现对图像中文字区域的精准质量评估。并且根据将计算出的质量预测分数与预设的质量分数阈值进行比较,并在计算出的质量预测分数小于预设阈值时,阻止对图像的文字进行识别,有助于有效地避免低质量图像对OCR识别准确率的影响,提升整个OCR系统的稳定性和工作效率。
主权利要求:
1.一种面向文字识别的图像质量自动评估方法,其特征在于,包括以下步骤:
步骤一、获取图像;
步骤二、自动定位并提取出图像中的文字区域;
步骤三、提取文字区域的语义特征,根据所提取的语义特征,对文字区域进行质量预测,并计算出图像的质量预测分数;其中,语义特征包括多层次全局语义特征和多尺度局部失真特征;
步骤四、判断质量预测分数是否小于预设质量分数阈值,若是,则对图像中的文字进行识别,若否,则阻止文字识别,并反馈提示信息;
所述提取文字区域的语义特征包括:
提取文字区域的多层次全局语义特征;
对文字区域进行切块处理,提取每个区域的多层次局部失真特征,并对多层次局部失真特征进行聚合,以得到多尺度局部失真特征;
所述提取文字区域的语义特征还包括:
A:采用稠密连接网络作为语义特征提取的骨干网络,其中,所述稠密连接网络包括一个卷积和池化层、三个稠密块层二个过渡层以及一个全局平均池化层,三个稠密块层分别为DenseBlock1、DenseBlock2和DenseBlock3;二个过渡层分别为Transition1和Transition2;稠密连接网络的每一层都能够直接访问和利用早期的所有层次内的特征信息,以在使用时将检测出的图像中的文字区域输入稠密连接网络,即可输出多层次全局语义特征;
B:整合来自稠密连接网络不同层级的语义特征,并将语义特征进行聚合,得到多尺度局部失真特征,其中,DenseBlock1、DenseBlock2、DenseBlock3的输出分别代表不同层次的抽象特征,覆盖从低级边缘、纹理到高级语义特征的语义特征图,具体地包括以下步骤:B1:将每个DenseBlock1、DenseBlock2、DenseBlock3输出的语义特征图划分为不重叠的固定大小的块,这种划分允许模块聚焦于图像的局部区域,独立分析每个区域内的失真特性;
B2:从DenseBlock1、DenseBlock2、DenseBlock3中相应位置提取划分的块并进行拼接,形成一个具有跨尺度信息的特征块,这一步骤利用了跨层特征的互补性,为局部失真分析提供了更全面的信息基础;
B3:在每个特征块上应用通道和空间维度上的可学习权重分配;
其中,通道注意力机制:首先,针对每个特征块,执行全局平均池化与全局最大池化操作,收集所有空间位置上的信息,将两组池化结果合并并输入到一个共享的多层感知机MLP模型中,通过学习过程生成一个加权向量用来映射各个通道的相对重要性;此加权向量再经过如Sigmoid激活函数的处理,被转换成适于使用的通道注意力权重,并将通道注意力权重用于原特征图,通过逐元素相乘的方式,从而有助于实现依据通道重要性调整特征强度,增强模型对局部失真特征的识别能力;
空间维度注意力机制:对每个通道分别应用平均池化和最大池化操作,以获得该通道的全局空间响应;这些响应被送入包含两个连续的3×3的卷积层的卷积网络,以输出与原特征相同尺寸的空间注意力图,然后将空间注意力图与通道注意力权重相结乘,得到每个特征块的每个像素的综合注意力权重,并将综合注意力权重与每个特征块相乘,实现对局部区域中每个像素的精细调校;
C:对于经过局部注意力机制调整的每个特征块,使用具有1x1卷积层的卷积网络来调整通道数,恢复其原始尺寸,并与相邻特征块进行融合,以构建完整的多尺度语义特征图,并提取多尺度语义特征,同时对所有特征块进行全局池化操作,提取整个图像的全局上下文信息,并将全局上下文信息与局部多尺度语义特征进行融合,识别出多尺度局部失真特征。
2.根据权利要求1所述的面向文字识别的图像质量自动评估方法,其特征在于,所述根据所提取的语义特征,对文字区域进行质量预测,并计算出图像的质量预测分数包括:学习从多层次全局语义特征到如何判断图像质量的规则的映射,以生成自适应参数生成网络映射函数,并基于生成的自适应参数生成网络映射函数,计算图像的特定权重;
基于语义特征和特定权重,计算出图像的质量预测分数。
3.根据权利要求2所述的面向文字识别的图像质量自动评估方法,其特征在于,计算图像的特定权重的公式如下:其中, 表示图像; 表示特定权重; 为自适应参数生成网络映射函数,S(x)表示从图像 中提取的文本区域的多层次全局语义特征, 为网络参数;
计算图像的质量预测分数的公式如下:
其中, 表示质量预测网络模型,表示图像, 表示语义特征, 表示图像 的特定权重, 表示图像 的权重动态偏差, 为自适应权重。
4.一种面向文字识别的图像质量自动评估系统,其特征在于,包括:
图像获取模块,用于获取图像;
文字区域检测模块,用于自动定位并提取出图像中的文字区域;
质量预测模块,用于对文字区域进行质量预测,并计算出图像的质量预测分数;
判定反馈模块,用于判断质量预测分数是否小于预设质量分数阈值,若是,则将图像推送至OCR识别模块,进行识别,若否,则阻止推送到OCR识别模块,并反馈提示信息;
OCR识别模块,用于对图像中的文字进行识别;
所述质量预测模块包括:
语义提取网络模型,用于提取文字区域的语义特征,其中,语义特征包括多层次全局语义特征和多尺度局部失真特征;
自适应参数生成网络模型,用于学习从多层次全局语义特征到如何判断图像质量的规则的映射,以生成自适应参数生成网络映射函数,并基于生成的自适应参数生成网络映射函数,计算图像的特定权重;
质量预测网络模型,基于语义特征和特定权重,计算出图像的质量预测分数;
所述语义提取网络模型包括:稠密连接网络和局部失真感知模块;
所述稠密连接网络包括一个卷积和池化层、三个稠密块层二个过渡层以及一个全局平均池化层,三个稠密块层分别为DenseBlock1、DenseBlock2和DenseBlock3;二个过渡层分别为Transition1和Transition2;稠密连接网络的每一层都能够直接访问和利用早期的所有层次内的特征信息,以在使用时将检测出的图像中的文字区域输入稠密连接网络,即可输出多层次全局语义特征;
局部失真感知模块与稠密连接网络连接,用于整合来自稠密连接网络不同层级的语义特征,并将语义特征进行聚合,得到多尺度局部失真特征,其中,DenseBlock1、DenseBlock2、DenseBlock3的输出分别代表不同层次的抽象特征,覆盖从低级边缘、纹理到高级语义特征的语义特征图;
局部失真感知模块包括:特征图分块单元,多尺度特征融合单元、局部注意力机制单元以及特征重构与整合单元;
特征图分块单元,用于将每个DenseBlock1、DenseBlock2、DenseBlock3输出的语义特征图划分为不重叠的固定大小的块,这种划分允许模块聚焦于图像的局部区域,独立分析每个区域内的失真特性;
多尺度特征融合单元:从DenseBlock1、DenseBlock2、DenseBlock3中相应位置提取划分的块并进行拼接,形成一个具有跨尺度信息的特征块;
局部注意力机制单元:在每个特征块上应用通道和空间维度上的可学习权重分配;
其中,通道注意力机制:首先,针对每个特征块,执行全局平均池化与全局最大池化操作,收集所有空间位置上的信息,将两组池化结果合并并输入到一个共享的多层感知机(MLP)模型中,通过学习过程生成一个加权向量用来映射各个通道的相对重要性;此加权向量再经过如Sigmoid激活函数的处理,被转换成适于使用的通道注意力权重,并将通道注意力权重用于原特征图,通过逐元素相乘的方式,从而有助于实现依据通道重要性调整特征强度,增强模型对局部失真特征的识别能力;
空间维度注意力机制:对每个通道分别应用平均池化和最大池化操作,以获得该通道的全局空间响应;这些响应被送入包含两个连续的3×3的卷积层的卷积网络,以输出与原特征相同尺寸的空间注意力图,然后将空间注意力图与通道注意力权重相结乘,得到每个特征块的每个像素的综合注意力权重,并将综合注意力权重与每个特征块相乘,实现对局部区域中每个像素的精细调校;
特征重构与整合单元,用于对于经过局部注意力机制调整的每个特征块,使用具有1x1卷积层的卷积网络来调整通道数,恢复其原始尺寸,并与相邻特征块进行融合,以构建完整的多尺度语义特征图,并提取多尺度语义特征,同时对所有特征块进行全局池化操作,提取整个图像的全局上下文信息,并将全局上下文信息与局部多尺度语义特征进行融合,识别出多尺度局部失真特征。
5.根据权利要求4所述的面向文字识别的图像质量自动评估系统,其特征在于,所述自适应参数生成网络模型包括两个1×1卷积层、多个特定权重分支和多个偏差分支,其中,特定权重分支包括3×3卷积层和全连接层;偏差分支包括平均池化层和全连接层。
6.一种计算机可读存储介质,其特征在于,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行权利要求1至3中任一项所述的面向文字识别的图像质量自动评估方法。 说明书 : 一种面向文字识别的图像质量自动评估方法及系统技术领域[0001] 本发明属于图像分析与处理技术领域,具体涉及一种面向文字识别的图像质量自动评估方法、系统及存储介质。背景技术[0002] 随着人工智能和计算机视觉技术的快速发展,光学字符识别(OCR)技术在诸多领域,如证件信息录入、文档数字化、车牌识别等方面发挥着重要作用。然而,OCR技术的性能往往受到输入图像质量的制约,如清晰度、对比度、噪声、失真和光照等因素。在实际应用中,由于各种因素导致的图像质量问题,严重影响了OCR技术的准确率和效率。[0003] 传统的图像质量自动评估大多依赖于人工审核,这种方式不仅受限于主观判断的不一致性,而且难以适应大数据量和高时效性的应用场景。当低质量的图像未经筛选直接进入OCR流程时,不仅会增加识别错误的风险,还会消耗系统资源,降低整体业务效率。发明内容[0004] 为了解决上述背景技术中存在的技术问题,本发明提供一种面向文字识别的图像质量自动评估方法、系统及存储介质,旨在实现对图像中文字区域的精准质量评估,有助于有效地避免低质量图像对OCR识别准确率的影响,提升整个OCR系统的稳定性和工作效率。本发明的具体步骤如下:一种面向文字识别的图像质量自动评估方法,包括以下步骤:[0005] 步骤一、获取图像;[0006] 步骤二、自动定位并提取出图像中的文字区域;[0007] 步骤三、提取文字区域的语义特征,根据所提取的语义特征,对文字区域进行质量预测,并计算出图像的质量预测分数,其中,语义特征包括多层次全局语义特征和多尺度局部失真特征。[0008] 步骤四、判断质量预测分数是否小于预设质量分数阈值,若是,则对图像中的文字进行识别,若否,则阻止文字识别,并反馈提示信息。[0009] 进一步地,所述提取文字区域的语义特征包括:[0010] 提取文字区域的多层次全局语义特征;[0011] 对文字区域进行切块处理,提取每个区域的多层次局部失真特征,并对多层次局部失真特征进行聚合,以得到多尺度局部失真特征。[0012] 进一步地,所述根据所提取的语义特征,对文字区域进行质量预测,并计算出图像的质量预测分数包括:[0013] 学习从多层次全局语义特征到如何判断图像质量的规则的映射,以生成自适应参数生成网络映射函数,并基于生成的自适应参数生成网络映射函数,计算图像的特定权重;[0014] 基于语义特征和特定权重,计算出图像的质量预测分数。[0015] 进一步地,计算图像的特定权重的公式如下:[0016][0017] 其中,x表示图像; 表示特定权重; 为自适应参数生成网络映射函数,S(x)表示从图像x中提取的文本区域的多层次全局语义特征, 为网络参数,同时计算出图像x的权重动态偏差,并将权重动态偏差补偿到特定权重。[0018] 计算图像的质量预测分数的公式如下:[0019][0020][0021] 其中, 表示质量预测网络模型, 表示图像, 表示语义特征, 表示图像的特定权重, 表示图像 的权重动态偏差, 为自适应权重。[0022] 另一方面,本发明提供了一种面向文字识别的图像质量自动评估系统,包括:[0023] 图像获取模块,用于获取图像;[0024] 文字区域检测模块,用于自动定位并提取出图像中的文字区域;[0025] 质量预测模块,用于对文字区域进行质量预测,并计算出图像的质量预测分数;[0026] 判定反馈模块,用于判断质量预测分数是否小于预设质量分数阈值,若是,则将图像推送至OCR识别模块,进行识别,若否,则阻止推送到OCR识别模块,并反馈提示信息;[0027] OCR识别模块,用于对图像中的文字进行识别;[0028] 所述质量预测模块包括:[0029] 语义提取网络模型,用于提取文字区域的语义特征,其中,语义特征包括多层次全局语义特征和多尺度局部失真特征;[0030] 自适应参数生成网络模型,用于学习从多层次全局语义特征到如何判断图像质量的规则的映射,以生成自适应参数生成网络映射函数,并基于生成的自适应参数生成网络映射函数,计算图像的特定权重;[0031] 质量预测网络模型,基于语义特征和特定权重,计算出图像的质量预测分数。[0032] 进一步地,所述语义提取网络模型包括:稠密连接网络和局部失真感知模块;[0033] 稠密连接网络包括一个卷积和池化层、三个稠密块层、二个过渡层和一个平均池化层;[0034] 过渡层包括神经网络BN层、ReLU函数层、1x1卷积层和2x2平均池化层;[0035] 稠密块层内设置有瓶颈层,其中,瓶颈层采用三层设计。[0036] 进一步地,所述自适应参数生成网络模型包括两个1×1卷积层、多个特定权重分支和多个偏差分支,其中,特定权重分支包括3×3卷积层和全连接层;偏差分支包括平均池化层和全连接层。[0037] 又另一方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行以上所述的面向文字识别的图像质量自动评估方法。[0038] 本发明的有益效果在于:[0039] 本发明通过对文字区域进行质量预测,并计算出图像的质量预测分数,有助于实现对图像中文字区域的精准质量评估。并且根据将计算出的质量预测分数与预设的质量分数阈值进行比较,并在计算出的质量预测分数小于预设阈值时,阻止对图像的文字进行识别,有助于有效地避免低质量图像对OCR识别准确率的影响,提升整个OCR系统的稳定性和工作效率。附图说明[0040] 构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。[0041] 图1为本发明的一种面向文字识别的图像质量自动评估方法的一个实施例的流程图。[0042] 图2为本发明的质量预测模块的原理框图。具体实施方式[0043] 下面结合附图与实施例对本发明作进一步说明。[0044] 应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本实施例使用的每个技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。[0045] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。[0046] 在本发明中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本发明各部件或元件结构关系而确定的关系词,并非特指本发明中任一部件或元件,不能理解为对本发明的限制。[0047] 本发明中,术语如“固接”、“相连”、“连接”等应做广义理解,表示可以是固定连接,也可以是一体地连接或可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员,可以根据具体情况确定上述术语在本发明中的具体含义,不能理解为对本发明的限制。[0048] 实施例1:[0049] 如图1所示,本实施例提供了一种基于智能体的图像分析与处理方法,包括以下步骤:[0050] S1:获取图像。[0051] S2:自动定位并提取出图像中的文字区域。[0052] 具体地,利用预训练模型自动定位并提取出图像中的文字区域,预训练模型可以是例如选用paddleocr模型为基础模型,通过低质量文字图像数据集进行微调获得的预训练模型。[0053] S3:对文字区域进行质量预测,并计算出图像的质量预测分数。[0054] 具体地,对文字区域进行质量预测包括以下三个步骤:语义特征提取、自适应质量指标提取和质量预测。[0055] S31:语义特征提取。一方面,对整个文字区域提取多层次全局语义特征。另一方面,将文字区域进行切块,提取每个区域的多层次局部失真特征,并对多层次局部失真特征进行聚合,以得到多尺度局部失真特征。[0056] 具体地,采用稠密连接网络(DenseNet)作为语义特征提取的骨干网络,该稠密连接网络包括一个卷积和池化层(Conv+Pooling)、三个稠密块层(DenseBlock1、DenseBlock2和DenseBlock3)二个过渡层(Transition1和Transition2)以及一个全局平均池化层(GlobalAveragePooling,GAP),其中,稠密连接网络的每一层都能够直接访问和利用早期的所有层次内的特征信息。在使用时将检测出的图像中的文字区域输入稠密连接网络,即可输出多层次全局语义特征。[0057] 局部失真感知模块(Localdistortionsensingmodule,LDSM)与稠密连接网络连接,用于整合来自稠密连接网络不同层级的语义特征,并将语义特征进行聚合,得到多尺度局部失真特征。具体地,局部失真感知模块的输入为来自DenseBlock1、DenseBlock2、DenseBlock3输出的分别代表不同层次的抽象特征,覆盖从低级边缘、纹理到高级语义特征的语义特征图。[0058] 局部失真感知模块包括:特征图分块单元,多尺度特征融合单元、局部注意力机制单元以及特征重构与整合单元等。[0059] 特征图分块单元,用于将每个DenseBlock1、DenseBlock2、DenseBlock3输出的语义特征图划分为不重叠的固定大小的块。这种划分允许模块聚焦于图像的局部区域,独立分析每个区域内的失真特性。[0060] 多尺度特征融合单元:从DenseBlock1、DenseBlock2、DenseBlock3中相应位置提取划分的块并进行拼接,形成一个具有跨尺度信息的特征块。这一步骤利用了跨层特征的互补性,为局部失真分析提供了更全面的信息基础。[0061] 局部注意力机制单元:在每个特征块上应用通道和空间维度上的可学习权重分配。[0062] 其中,通道注意力机制:首先,针对每个特征块,执行全局平均池化与全局最大池化操作,收集所有空间位置上的信息,将两组池化结果合并并输入到一个共享的多层感知机(MLP)模型中,通过学习过程生成一个加权向量用来映射各个通道的相对重要性。此加权向量再经过如Sigmoid激活函数的处理,被转换成适于使用的通道注意力权重,并将通道注意力权重用于原特征图,通过逐元素相乘的方式,从而有助于实现依据通道重要性调整特征强度,增强模型对局部失真特征的识别能力。[0063] 空间维度注意力机制:对每个通道分别应用平均池化和最大池化操作,以获得该通道的全局空间响应。这些响应被送入包含两个连续的3×3的卷积层的卷积网络,以输出与原特征相同尺寸的空间注意力图,然后将空间注意力图与通道注意力权重相结乘,得到每个特征块的每个像素的综合注意力权重,并将综合注意力权重与每个特征块相乘,实现对局部区域中每个像素的精细调校。[0064] 特征重构与整合单元,用于对于经过局部注意力机制调整的每个特征块,使用具有1x1卷积层的卷积网络来调整通道数,恢复其原始尺寸,并与相邻特征块进行融合,以构建完整的多尺度语义特征图,并提取多尺度语义特征,同时对所有特征块进行全局池化操作,提取整个图像的全局上下文信息,并将全局上下文信息与局部多尺度语义特征进行融合,识别出多尺度局部失真特征。[0065] S32:自适应质量指标提取。[0066] 学习从多层次全局语义特征到如何判断图像质量的规则的映射,以生成自适应参数生成网络映射函数,基于生成的自适应参数生成网络映射函数,计算出针对获取到的图像的特定权重。[0067] 特定权重被视为感知图像质量的规则,以对图像的多项质量指标进行量化计算,以指示预测图像质量,将预测图像质量与期望图像质量之间差异的作为动态偏差的一个度量,并对该度量进行量化以生成权重动态偏差。[0068] 其中,特定权重的计算公式如下:[0069][0070] 其中,x表示图像; 表示特定权重; 为自适应参数生成网络映射函数,S(x)表示从图像x中提取的文本区域的多层次全局语义特征; 为网络参数。[0071] 同时,计算出图像x的权重动态偏差,并将权重动态偏差补偿到特定权重。[0072] 具体地,根据计算出的特定权重对图像x的质量指标进行量化,以指示预测图像质量,将预测图像质量与期望图像质量之间差异的作为动态偏差的一个度量,并对该度量进行量化以生成权重动态偏差。[0073] 需要说明的是,计算出的特定权重不是唯一不变的,特定权重针对每个图像的内容生成,即不同的图像内容,获取不同的特定权重。[0074] S33:质量预测。[0075] 根据获取到的特定权重和权重动态偏差,确定自适应权重,并利用确定的自适应权重对多尺度局部失真特征和多层次全局语义特征进行加权组合,最终得到一个质量预测分数s,计算质量预测分数s,这个分数是一个介于0和1之间的值,值越大表示图像的质量越高,反之值越小表示图像的质量越低,质量预测分数s的计算公式如下:[0076][0077][0078] 其中, 表示质量预测网络模型, 表示图像, 表示语义特征, 表示图像的特定权重, 表示图像 的权重动态偏差, 为自适应权重。[0079] S4:判断质量预测分数是否小于预设质量分数阈值,若是,则对图像中的文字进行识别,若否,则阻止文字识别,并反馈提示信息。[0080] 具体地,可以根据实际场景需要设置一个图像质量分数阈值,若计算得到的图像质量预测分析低于该阈值时,系统将阻止这些未达标的图像继续进入OCR识别模块,避免因图像质量问题导致的识别错误或失败,从而提高整个对图像识别的准确率和运行效率,同时反馈提示信息,该提示信息包括详细的图像质量问题描述,例如包括但不限于“图像模糊”和“噪声过大”等问题描述。[0081] 若计算得到的图像质量预测分析高于该阈值时,则自动将图像推送至OCR识别模块进行文字识别。[0082] 实施例2:[0083] 本实施例提供了一种面向文字识别的图像质量自动评估系统,包括:[0084] (一)图像获取模块,用于获取图像。[0085] (二)文字区域检测模块,用于自动定位并提取出图像中的文字区域。[0086] 文字区域检测模块包括例如选用paddleocr模型为基础模型,通过低质量文字图像数据集进行微调获得的预训练模型。预训练模型自动定位并提取出图像中的文字区域。[0087] (三)质量预测模块,用于对文字区域进行质量预测,并计算出质量预测分数。[0088] 如图2所示,质量预测模块包括语义提取网络模型、自适应参数生成网络模型(Adaptiveparametergenerationnetwork,ApgNet)和质量预测网络模型(Qualitypredictionnetwork,QpNet)。[0089] A)语义提取网络模型,采用DenseNet网络作为语义特征提取的骨干网络,以提取文字区域的多层次全局语义特征,每一层都能够直接访问和利用早期的所有特征层次信息。[0090] 具体地,DenseNet网络包括一个卷积和池化层(Conv+Pooling)、三个稠密块层(DenseBlock)、二个过渡层(Transition)和一个平均池化层(AvgPooling)。[0091] 其中,卷积层通过一组可学习的滤波器对输入图像进行滑动、乘加运算,生成特征映射,从原始图像中获取边缘、纹理、颜色分布等局部低级视觉特征。[0092] 池化层通过子区域平均值(AvgPooling)降低特征图的空间分辨率,既减小计算量、增强平移不变性,又保留局部重要特征并降低对物体位置细节的敏感度,有利于提取对物体整体形状和布局敏感的高级语义特征。[0093] 稠密块通过多层级联的卷积层和跨层连接,逐步构建复杂的、多层次的特征表示,从局部到全局,从低级到高级,有效地捕捉图像的语义信息。[0094] 过渡层位于两个稠密块之间,包括BN(BatchNormalization)层、ReLU函数+1x1卷积层(Conv)和2x2平均池化层(AvgPooling)。[0095] BN层对每批次数据的特征图进行标准化处理(均值接近0,方差接近1),改善神经网络的收敛速度和泛化性能。ReLU作为非线性激活函数,引入非线性以捕获图像的复杂特征并提升计算效率;1x1卷积层执行通道间信息整合与降维,两者结合对前一稠密块输出进行精炼,2x2平均池化层对经过BN、ReLU和1x1卷积处理后的特征图进行下采样,为下一个稠密块提供更低分辨率但更抽象的特征表示[0096] 而且每个DenseBlock内加入瓶颈层(BottleneckLayers),有助于在不牺牲太多特征表达能力的前提下,大幅度减少计算量和参数量。其中,BottleneckLayers第一层:采用1x1卷积核进行通道压缩,有助于降低特征维度;BottleneckLayers第二层:采用3x3卷积层捕获空间特征;BottleneckLayers第三层:再通过1x1卷积层恢复特征维度到适当水平。[0097] 需要说明的是,为了便于理解和描述,将三个稠密块层分别记为第一稠密块层(DenseBlock1)、第二稠密块层(DenseBlock2)和第三稠密块层(DenseBlock3)。将二个过渡层分别记为第一过渡层(Transition1)和第二过渡层(Transition2)。[0098] DenseNet网络对文字区域的语义特征提取的顺序是先通过一个卷积和池化层然后依次通过第一稠密块层、第一过渡层、第二稠密块层、第二过渡层和第三稠密块层,最后由一个平均池化层输出多层次全局语义特征。[0099] 语义提取网络模型还包括局部失真感知模块(Localdistortionsensingmodule,LDSM),局部失真感知模块与第一稠密块层、第二稠密块层和第三稠密块层均连接,以获取每个稠密块层中的语义特征,并将获取到的语义特征进行聚合,得到多尺度局部失真特征。[0100] B)自适应参数生成网络模型[0101] 自适应参数生成网络模型获取语义提取网络模型输出的多层次全局语义特征,并学习从多层次全局语义特征到如何判断图像质量的规则的映射,以生成自适应参数生成网络映射函数,基于生成的自适应参数生成网络映射函数,以计算出获取到的图像的特定权重,从而有助于指导质量预测网络模型自适应提取多层次全局语义特征进行预测。特定权重被视为感知图像质量的规则,以对图像的多项质量指标进行量化计算,以指示预测图像质量,将预测图像质量与期望图像质量之间差异的作为动态偏差的一个度量,并对该度量进行量化以生成权重动态偏差,比如图像x的权重动态偏差可以表示为 。[0102] 其中,特定权重的计算公式如下:[0103][0104] 其中,x表示图像; 表示特定权重; 为自适应参数生成网络映射函数,S(x)表示从图像x中提取的文本区域的多层次全局语义特征, 为网络参数。[0105] 具体地,自适应参数生成网络模型包括两个1×1卷积层、多个特定权重分支(Weight)和多个偏差分支(Bais)。[0106] 其中,1×1卷积层通过对输入数据进行线性变换与跨通道整合,实现特征提取与压缩。[0107] 特定权重分支包括3×3卷积层和全连接层(Fullyconnectedlayer,FC),3×3卷积层对1×1卷积层输出的低维特征进行进一步的空间相关性建模,捕捉局部特征间的相互作用。全连接层则对卷积后的特征进行全局映射,生成与模型中相应层的权重结构相匹配的自适应权重矩阵。此外特定权重分支全连接层的输出通道根据质量预测网络中对应的输入通道的维度来决定的,以便大小匹配。[0108] 偏差分支用于权重动态偏差补偿,具体地,偏差分支基于1×1卷积层输出的低维特征计算出与之对应的权重动态偏差。这些偏差添加到由特定权重计算出的初步结果上,以修正模型对不同输入样本的预测倾向,尤其是在存在数据分布偏移、类别不平衡等问题时,权重动态偏差可以帮助模型更好地适应数据特性。[0109] 其中,偏差分支包括平均池化层和全连接层,其偏差经由平均池化层和全连接层处理后输出。平均池化层对1×1卷积层输出的特征进行全局平均化,提取出表征全局数据分布特性的统计信息。全连接层接收到平均池化后的统计特征,通过非线性变换生成与特定权重分支生成的权重相配套的偏差向量。这些偏差向量与特定权重计算出的初步结果相加,为模型提供额外的适应性调整自适应权重。[0110] 需要说明的是,特定权重依赖于图像本身,而不是对所有输入固定。自适应参数生成网络可以针对不同的多层次全局语义特征提取的质量指标,计算出不同的质量指标的特定权重。[0111] 其中,自适应参数生成网络模型是通过预先训练,能够建立从多层次全局语义特征到图像质量判断规则的映射的模型。同时对该模型进行迭代优化,使得能够学习提炼出针对输入特征的最优参数集。这些参数实质上代表了各级特征在评估图像质量时的加权指标,引导系统理解不同特征层次的重要性。生成这些权重参数的过程嵌入于一个深度学习框架中,其中模型不断微调参数以最大化图像质量自动评估的精确度。简而言之,该框架通过自我优化学会了如何基于全局语义特征,动态生成反映图像质量关键因素的权重,进而实现对图像质量的高效评估。[0112] C)质量预测网络模型,用于根据所提取的语义特征和各项质量指标的特定权重,计算出图像的质量预测分数。[0113] 具体地,质量预测网络模型包括全连接层、特定权重确定层和分数计算层。[0114] 全连接层设置由四个,其中三个用于接收局部失真感知模块输出的多尺度局部失真特征,一个用于接收DenseNet输出的多层次全局语义特征。[0115] 特定权重确定层主要任务是根据特定权重和权重动态偏差补偿来动态地生成自适应权重,以融合上述全连接层输出的多尺度局部失真特征和多层次全局语义特征。[0116][0117] 其中, 表示图像 的权重动态偏差, 为自适应权重。[0118] 需要说明的是,特定权重确定层还用于将生成的自适应权重用于“传播”到后续的特征融合阶段,以指导多尺度局部失真特征和多层次全局语义特征如何结合。这是一个非线性融合操作,确保不同来源和类型的特征根据其相对重要性和对最终质量预测的贡献得到恰当的整合。[0119] 分数计算层用于根据这些自适应权重对多尺度局部失真特征和多层次全局语义特征进行加权组合,最终得到一个质量预测分数s,这个分数是一个介于0和1之间的值,值越大表示图像的质量越高,反之值越小表示图像的质量越低,质量预测分数s的计算公式如下:[0120][0121] 其中, 表示质量预测网络模型, 表示图像, 表示语义特征, 表示图像的特定权重。[0122] (四)判定反馈模块,用于判断质量预测分数是否小于预设质量分数阈值,若是,则对将图像推送至OCR识别模块,若否,则阻止文字识别,并反馈提示信息。[0123] 具体地,可以根据实际场景需要设置图像质量分数阈值,若计算得到的图像质量预测分析低于该阈值时,阻止这些未达标的图像继续进入OCR识别流程,避免因图像质量问题导致的识别错误或失败,从而提高整个对图像识别的准确率和运行效率,同时反馈提示信息,该提示信息包括详细的图像质量问题描述,例如包括但不限于“图像模糊”和“噪声过大”等问题描述。[0124] 若计算得到的图像质量预测分析高于该阈值时,则自动将提取的文字区域推送至OCR识别模块进行文字识别。[0125] (五)OCR识别模块,用于对图像中的文字进行识别,并输出识别结果。[0126] 本实施例在使用时,以智能卡证识别系统为例,用户上传一张身份证,先经过文字区域检测模块,获取图像中的文字区域,然后进行全局、局部语义特征提取,自适应参数生成网络生成此图像特定权重,并将此参数与全局、局部语义特征输入质量预测网络,得到本图像评估分数,超过预设阈值,则进行卡证识别,输出结果;否则,阻止进行卡证识别,反馈图像质量问题。[0127] 实施例3:[0128] 本实施例提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行实施例1所述的一种面向文字识别的图像质量自动评估系统。[0129] 本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。[0130] 在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。[0131] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。[0132] 另外,需要说明的是,附图中的流程图显示了本公开实施例的方法,在附图中的流程图或框图中所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。[0133] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
专利地区:山东
专利申请日期:2024-05-17
专利公开日期:2024-09-03
专利公告号:CN118212637B