基于隐式语义先验的轻量化感知图像压缩方法(ICISP)
随着智能手机、平板电脑和物联网设备的普及,图像数据量呈现爆炸式增长,这对设备上的图像压缩和解压缩算法提出了更高要求。西安交通大学的研究团队提出了一种名为ICISP的轻量化感知图像压缩方法,为移动设备的高效图像压缩提供了实用解决方案。
研究背景
传统的JPEG、BPG等图像压缩标准虽然广泛应用,但在低码率下容易产生块效应和模糊等伪影。基于卷积神经网络(CNN)的神经图像压缩方法虽然有所改进,但局部卷积操作难以捕捉长程空间依赖关系。
而基于Transformer的方法虽然能处理长上下文,但其自注意力机制的二次计算复杂度限制了效率,且在低码率下仍会产生模糊结果。
ICISP方法概述
ICISP(Lightweight Model for Perceptual Image Compression via Implicit Priors)针对现有感知图像压缩方法因引入显式语义先验导致模型复杂度高、难以在资源受限设备部署的问题,提出了创新的解决方案。
关键技术方法
1. 增强视觉状态空间块(EVSSB)
用于全面捕捉局部和全局空间依赖关系,能够有效提取图像的局部特征和长距离依赖。
2. 频率分解调制块(FDMB)
自适应选择保留或削减的高低频信息,根据图像内容动态调整压缩策略,在保持关键语义信息的同时去除冗余。
3. 语义感知判别器
基于预训练DINOv2编码器的语义感知判别器提供隐式语义先验指导,将语义信息集成到判别器中,而不是编解码器中,从而保持编解码器的轻量化。
技术架构
变分自编码器框架
ICISP基于变分自编码器(VAE)框架建立标准编解码流程:
- 分析变换:输入图像x通过分析变换ga编码为潜在表示y
- 量化:经量化Q(·)后得到量化表示
- 算术编码:通过算术编码生成比特流
- 合成变换:通过合成变换gs重建图像
超分析变换和超合成变换进一步捕获潜在表示的空间依赖关系。
实验结果
数据集
- 训练集:LSDIR数据集(84,991张高质量图像)
- 测试集:Kodak(24张768×512图像)和CLIC2020(428张最高2000×1000像素图像)
评估指标
- 比特每像素(bpp):衡量码率
- PSNR:峰值信噪比,传统失真指标
- MS-SSIM:多尺度结构相似性
- LPIPS:学习型感知图像块相似性
- FID:弗雷歇 inception 距离
方法优势
- 轻量化:显著降低了参数数量和浮点运算量
- 高性能:在保持编解码器轻量化的同时实现了竞争力的压缩性能
- 感知质量:语义感知判别器的引入进一步提升了低码率下的感知质量
- 语义丰富:在语义丰富的纹理生成方面表现突出
与现有方法的对比
| 方面 | 传统方法(CNN/VAE) | Transformer方法 | ICISP方法 |
|---|---|---|---|
| 局部特征 | ✓ | ✓ | ✓ |
| 全局依赖 | ✗ | ✓ | ✓ |
| 计算效率 | ✓ | ✗ | ✓ |
| 模型轻量 | ✓ | ✗ | ✓ |
应用前景
ICISP方法对于在存储和计算资源有限的便携设备上实现高质量图像压缩具有重要实用价值。这项研究为未来轻量化图像压缩技术的发展指明了新方向。
潜在应用场景:
- 移动设备上的图像存储和传输
- 物联网设备的图像处理
- 实时视频通话和直播
- 卫星和无人机图像传输
- 医疗影像压缩
总结
ICISP方法通过增强视觉状态空间块和频率分解调制块的协同作用,有效实现了紧凑的特征表示。语义感知判别器的引入进一步提升了低码率下的感知质量。该研究获得了国家自然科学基金(NSFC62376208, NSFC62088102)支持。