网站首页 > 教程文章 正文
论文题目
Spatially-Adaptive Feature Modulation for Efficient Image Super-Resolution
1、简介
尽管基于深度学习的解决方案在图像超分辨率(SR)方面取得了令人印象深刻的重建性能,但这些模型通常都很大,架构复杂,使得它们与具有许多计算和内存限制的低功耗设备不兼容。为了克服这些挑战,提出了一种空间自适应特征调制(SAFM)机制,用于高效的SR设计,SAFM层使用独立的计算来学习多尺度特征表示,并将这些特征聚合在一起进行动态空间调制。由于SAFM优先利用非局部特征依赖,进一步引入卷积通道混频器(CCM)来编码局部上下文信息并同时混合通道。大量的实验结果表明,所提出的方法比最先进的高效SR方法(例如IMDN)小3倍,并且在内存使用更少的情况下产生相当的性能。
单图像超分辨率(SISR)旨在通过恢复丢失的细节,从低分辨率(LR)图像恢复高分辨率(HR)图像。由于流媒体或高清设备的快速发展,这一长期且具有挑战性的任务最近引起了人们的广泛关注。由于这些场景通常是资源有限的,因此需要开发一种高效有效的SR方法来估计HR图像,
为了开发一种轻量级但有效的超分模型,设计了一个简单而有效的模型,通过开发一种空间自适应特征调制,即SAFMN,以实现性能和效率之间的良好权衡,首先利用非局部特征关系,通过实现基于多尺度表示的特征调制机制来动态选择代表性特征(见图2和5)。由于调制机制从非局部角度处理输入特征,因此需要补充局部上下文信息。为此提出了一种基于FMBConv的卷积通道混频器来编码局部特征并混合通道,SAFMN网络能够在SR性能和模型复杂性之间实现更好的权衡,如图1所示。
主要贡献总结如下:
?开发了一种有效的特征调制机制来学习特征依赖,该机制吸收了类似cnn的效率和类似变压器的适应性。
?提出了一个紧凑的卷积通道混频器,同时编码本地上下文信息和执行通道混合。
?在基准数据集上定量和定性地评估了所提出的方法,结果表明SAFMN在准确性和模型复杂性之间实现了良好的权衡。
2、背景
1)基于深度学习的SR方法已经取得了显著的性能改进,因为可以使用大量数据来训练更大或更深的神经网络来进行图像SR。例如,RCAN是一个具有代表性的基于cnn的图像SR网络,参数为15.59M,深度超过400层。这些大型模型最显著的缺点之一是它们需要很高的计算成本,这使得它们具有挑战性的部署,最近的视觉变压器(ViTs)在低级视觉任务中的表现优于卷积神经网络(cnn),其结果表明,探索非局部特征相互作用对于高质量重建至关重要。但是现有的自注意机制在计算上是昂贵的,并且不利于有效的SR设计。因此促使通过整合卷积和自注意原理,为图像超分辨率的实际应用开发一种轻量级但有效的模型。
2)为了减少沉重的计算负担,各种方法,包括高效模块设计,知识蒸馏,神经结构搜索和结构重参数化,都试图提高SR算法的效率。在这些有效的SR模型中,一个方向是降低模型参数或复杂性(FLOPs)。采用了递归方式、参数共享、备用卷积等轻量级策略。虽然这些方法确实减小了模型大小,但它们通常通过增加深度或宽度来补偿共享递归模块或稀疏卷积造成的性能下降,在进行SR重构时,会影响模型的推理效率。
3)另一个方向是加快推理时间。后上采样是预定义输入的重要替代,它显著加快了运行时间。模型量化有效地加速了延迟并降低了能耗,特别是在边缘设备中部署算法时。结构重参数化提高了训练良好的模型在推理阶段的速度。这些方法运行速度快,但重构性能差。因此在模型效率和重建性能之间仍有更好的权衡空间。
3、方法
1)整体架构,SAFMN如图3所示,该网络由以下部分组成:浅卷积、特征混合模块(feature mixing modules, FMM)堆叠和上采样层,首先应用3 × 3卷积层将输入LR图像转换到特征空间,并生成浅特征F0。然后,使用多个堆叠FMM从F0生成更精细的深度特征用于HR图像重建,其中FMM层具有空间自适应特征调制(SAFM)层和卷积通道混频器(CCM)层。为了恢复HR目标图像,引入了一个全局残差连接来学习高频细节,并采用了一个轻量级的上采样层来快速重建,该上采样层只包含一个3×3卷积和一个pixel-shuffle层。
2)空间自适应特征调制(SAFM)层,最近的研究表明,vit在不同任务中的显著表现源于他们实施了关键的多头自注意(MHSA)机制。该机制使模型具有远程特征交互和动态空间加权的能力,这两方面都有助于得出有希望的结果。但是现有的自关注变体在计算上是昂贵的,并且对有效的SR设计不友好。相比之下,标准卷积是一种有效的操作,但其性能受到静态权值和局部性的限制。这一观察启发借鉴MHSA的思想来增强卷积的表示能力。为了将远程交互和动态建模的能力引入卷积,遵循多头范式,使用并行和独立的计算,允许每个头部处理不同尺度的输入信息,然后聚合这些特征以生成一个用于空间自适应特征调制的注意图。
SAFM的详细架构如图4所示,首先将归一化的输入特征分成四组组件,并将它们馈送到多尺度特征生成单元(MFGU)中,其中3 × 3深度卷积处理第一个组件,其余部分通过池化操作单独采样。希望选择判别特征来学习非局部特征交互时,自适应最大池化算子应用于输入特征以收集信息。给定输入特征X,此过程可表示为:
其中Split(·)对应通道分割操作,DW-Conv3×3(·)是一个3×3的深度卷积,↑p(·)表示通过最接近的插值快速实现特定级别的上采样特征到原始分辨率p,↓p 表示将输入特征池化到p 的大小。图5(b)-(e)显示,使用这种设计,可以从不同的表示子空间获得不同的特征。
然后通过将这些提取的短期或长期特征连接在通道维度上并执行1 × 1卷积来聚合这些特征。可表述为:
其中Concat(·)表示连接操作,Conv1×1(·)表示1×1卷积。在获得聚合表示_ X(见图5(f))后,通过GELU非线性对其进行归一化,以估计注意力图,并根据估计的注意力通过元素积自适应调节输入X。这个过程可以写成:
其中φ(·)表示GELU函数,⊙是元素积。
3)卷积通道混频器(CCM)层,SAFM模块优先利用非局部特性交互。为了进一步整合本地上下文信息并同时进行通道混合,引入了基于FMBConv的紧凑型卷积通道混频器(CCM)。CCM包括一个3 × 3卷积和一个1 × 1卷积。其中,第一个3 × 3卷积对空间局部上下文进行编码,并将用于混合通道的输入特征的通道数量加倍;之后的1 × 1卷积将通道减少到原始输入维度。隐层采用GELU函数进行非线性映射。
将提出的SAFM和CCM形成一个统一的特征混合模块(FMM),以选择具有代表性的特征。FMM可以写成:
其中LN(·)为LayerNorm层,X、Y、Z为中间特征。额外的残差学习用于稳定训练过程和学习高频细节,以促进高质量的图像重建。
4、实验
1)高效SR网络在常用基准数据集上的比较
2)Urban100数据集上×3 SR的视觉比较
3)在×4 SR上的内存和运行时间比较
4)在DIV2K-val和Manga109数据集上消融SAFMN
5)FMM数量对性能的影响
- 上一篇: 哪些长相会遗传给孩子
- 下一篇: 什么是游戏交互?和交互设计的区别是什么?
猜你喜欢
- 2025-01-14 SMFANet:高效图像超分辨率特征聚合网络(ECCV2024)
- 2025-01-14 干货丨幼儿园班级环境创设的特点和原则
- 2025-01-14 什么是游戏交互?和交互设计的区别是什么?
- 2025-01-14 哪些长相会遗传给孩子
- 05-11阿里开源MySQL中间件Canal快速入门
- 05-11MyBatis插件开发实战:手写一个分页插件
- 05-11Flask数据库——SQLAlchemy
- 05-11MySQL 到 Hazelcast Cloud 实时数据同步实操分享
- 05-11sqlmap 详解
- 05-11一篇文章让你学会Elasticsearch中的查询
- 05-11Mysql性能优化这5点你知道吗?简单却容易被初学者忽略!
- 05-11Spring Boot 实现 MySQL 读写分离技术
- 最近发表
- 标签列表
-
- location.href (44)
- document.ready (36)
- git checkout -b (34)
- 跃点数 (35)
- 阿里云镜像地址 (33)
- qt qmessagebox (36)
- md5 sha1 (32)
- mybatis plus page (35)
- semaphore 使用详解 (32)
- update from 语句 (32)
- vue @scroll (38)
- 堆栈区别 (33)
- 在线子域名爆破 (32)
- 什么是容器 (33)
- sha1 md5 (33)
- navicat导出数据 (34)
- 阿里云acp考试 (33)
- 阿里云 nacos (34)
- redhat官网下载镜像 (36)
- srs服务器 (33)
- pico开发者 (33)
- https的端口号 (34)
- vscode更改主题 (35)
- 阿里云资源池 (34)
- os.path.join (33)