当前位置 :

理光中国研究院CVPR2025 SyntaGen Workshop论文解读

更新时间:2025-06-16 16:12:00

2025年6月11日至15日,全球计算机视觉领域的顶尖学术盛会 CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)在美国田纳西州纳什维尔举办。我司计算机视觉研究员赵颖博士的论文入选CVPR2025 Workshop- SyntaGen。

本文将精细解读此论文,带您沉浸式了解生成模型与计算机视觉应用交叉领域的突破性进展。

论文链接:
https://openaccess.thecvf.com/content/CVPR2025W/SyntaGen/papers/Zhao_AnomalyHybrid_A_Domain-agnostic_Generative_Framework_for_General_Anomaly_Detection_CVPRW_2025_paper.pdf

SyntaGen Workshop链接:
https://syntagen25.github.io/

关于CVPR2025及SyntaGen Workshop

CVPR2025

CVPR是国际计算机视觉与模式识别领域的顶级会议,由电气电子工程师学会(IEEE)举办。2025的研究主题包括:图像和视频的合成与生成、三维视觉、人体行为与姿态理解、视觉与语言(多模态)、低级视觉处理(如去噪 / 超分辨)、目标检测与分割、自主驾驶与机器人、对抗攻防、安全公平性等方向。初步统计显示,图像与视频生成相关论文数量仍居首位,3D 视觉类紧随其后,人类行为理解以及多模态视觉 - 语言交叉研究也是占比很高的主题。

SyntaGen Workshop

计算机视觉领域正因生成模型的飞速发展而发生深刻变革,特别是在文本到图像生成方面——如Imagen 3、Stable Diffusion 3、Flux和DALLE-3等模型,以及文本到视频生成技术(如Sora、Stable Video Diffusion和Meta MovieGen)。在3D生成领域,Zero-123、Instant 3D和大型重建模型(LRM)等突破性技术不断拓展3D内容创作的边界。

这些创新催生了高度逼真且多样化的合成视觉数据集,这些数据集不仅带有标注信息,还包含丰富的场景变体,为物体检测、图像分割、表征学习和场景理解等算法的训练与评估提供了宝贵资源。第二届SyntaGen研讨会旨在推动该领域的协作与知识共享,汇聚专家与从业者共同推动生成模型与合成视觉数据集的发展迈向新高度。

摘要

图1. AnomalyHybrid 是一个领域无关的生成框架,通过结合参考图像(绿色箭头)与目标图像(黄色箭头)的方式,为各种应用生成逼真的正常及异常样本,从而提升下游任务的性能。

异常生成是缓解异常检测任务数据稀缺的有效方法。现有的大多数研究虽然在工业异常生成方面表现出色,但是依赖于多个专家或大型生成模型,并且鲜有能够推广到其他应用中的异常生成。在本文中,我们提出了AnomalyHybrid,这是一个领域无关的框架,旨在通过简单地结合参考图像和目标图像生成真实且多样的异常。AnomalyHybrid是一个基于生成对抗网络(GAN)的框架,包含深度解码器和边缘解码器,分别将参考图像的外观融入目标图像的深度和边缘结构中。在深度解码器的帮助下,AnomalyHybrid特别能够生成深度值变化的异常,如凸起和凹陷。此外,它放宽了边缘解码器的细粒度结构控制,从而带来了更多的多样性。AnomalyHybrid无需使用人工标注,可以轻松地通过具有不同增强的同一图像的颜色、深度和边缘集合进行训练。在HeliconiusButterfly、MVTecAD和MVTec3D数据集上进行的大量实验表明,AnomalyHybrid在异常生成及其下游的异常分类、检测和分割任务中超越了基于GAN的最新技术。在MVTecAD数据集上,AnomalyHybrid在异常生成方面达到了2.06/0.32的IS/LPIPS,在使用ResNet34进行异常分类时达到了52.6的准确率,在使用简单的UNet进行图像/像素级异常检测时达到了97.3/72.9的AP。

1 核心要点

AnomalyHybrid是一个领域无关的生成框架,通过使用具有两个解码器的生成对抗网络(GAN)架构,在各种应用中生成逼真的正常及异常样本,从而增强异常检测,展示了在多个数据集上优越的性能,而无需依赖于人工标注。

图2. AnomalyHybrid 的生成结果结合了参考图像的外观特征与目标图像的深度及边缘结构特征。

2 论文试图解决什么问题?

本文试图解决以下问题:

  • 任务
    • 本文针对跨多种应用的异常检测任务,提出了一种称为AnomalyHybrid的领域无关生成框架。
  • 数据稀缺
    • 异常检测中的一个重大挑战是真实异常样本的稀缺,这限制了传统异常检测器的性能,尤其是在工业环境中。
  • 泛化能力
    • 现有方法通常需要针对不同类型的异常使用专门的模型,这使得在各种应用中实现泛化变得困难。AnomalyHybrid旨在通过提供一个多功能框架来克服这一限制,该框架能够生成多样且真实的异常,而无需特定的标注。
  • 异常的多样性
    • 传统的异常生成方法通常专注于特定类型的异常,这限制了生成异常的多样性和真实性。AnomalyHybrid通过采用具有两个解码器的GAN架构来解决这一问题,从而创造出更广泛的真实异常。
  • 模态的整合
    • 将参考图像的视觉特征与目标图像的深度和边缘属性整合是一个复杂的挑战。AnomalyHybrid有效地结合了这些模态,以提高生成异常的质量。

3 论文提出的方法是什么?

本文提出了以下方法,AnomalyHybrid,逐步进行:

  • 领域无关框架
    • AnomalyHybrid 旨在适用于各种领域,无需为每个应用程序专门设计模型。
  • 生成对抗网络(GAN)架构
    • 该框架利用 GAN 架构,包括深度解码器和边缘解码器,以生成多样且真实的异常。
  • 多模态条件控制
    • 该框架通过将参考图像的视觉特征与目标图像的深度和边缘属性相结合来生成异常。
  • 无监督训练
    • AnomalyHybrid 可以在不需要注释的情况下进行训练,使其能够从具有不同增强效果的图像集学习。
  • 异常生成
    • 该框架生成多种异常,例如凹陷和凸起等具有深度值变化的异常,增强了生成异常的多样性和真实性。
  • 泛化能力
    • AnomalyHybrid 展示了对其他应用的泛化能力,包括边缘提取、深度估计和分布外检测。
  • 广泛实验
    • 通过在多个数据集(包括 HeliconiusButterfly、MVTecAD 和 MVTec3D)上的实验验证了该框架的性能。
  • 卓越性能
    • 与现有的最先进方法相比,AnomalyHybrid 在异常生成和下游任务(分类、检测、分割)中显示出更好的结果。
  • 多功能性
    • 该框架的设计使其能够有效地用于多个领域的异常检测,而无需定制模型。

4 在哪些数据上进行了实验?

本文对以下数据集进行了实验:

  • MVTecAD
    • 描述:包含来自15个不同类别的工业物体和纹理的3,629张高分辨率彩色图像。测试集包括70种结构异常类型,如破损、裂纹、污染和错位。
    • 实验步骤:
      • 使用ResNet34进行异常分类,准确率达到52.6%。
      • 使用简单的UNet进行异常检测,图像级平均精度(AP)为97.3%,像素级为72.9%。
  • MVTec3D
    • 描述:由工业3D传感器获取的10个类别的4,147张高分辨率扫描图像组成。该数据集包含894个具有各种缺陷的异常样本,这些缺陷在RGB或3D数据中可见。
    • 实验步骤:
      • 使用RGB、深度和组合RGBD数据评估异常定位和检测性能。
      • AnomalyHybrid在像素级AUC上达到了96.9,在图像级AUC上达到了83.7。
  • HeliconiusButterfly
    • 描述:包含非杂交(正常)和杂交(异常)亚种的Heliconius蝴蝶的高分辨率图像。训练集包括2,084张14个非杂交和1个杂交亚种的图像,而测试集包含2,350张16个非杂交和7个杂交亚种的图像。
    • 实验步骤:
      • 计算了不同杂交类别的召回率指标,显示AnomalyHybrid相比基线方法有更好的性能。

使用信号杂交、非信号杂交和拟态杂交的召回率的调和平均数来评估检测效果。

图3. AnomalyHybrid 在(Left)MVTecAD 及(Right)MVTec3D 上的异常生成及检测示例图。

图4. AnomalyHybrid 在HeliconiusButterfly上的异常生成示例图。

目前,我们在异常检测方向已经积累了5篇论文,分别发表于ICME2022、CVPR2023主会及CVPR2024、ECCV2024、CVPR2025 Workshop。此外,我们参与组织的Anomaly Detection with Foundation Models(ADFM)Workshop将在ICCV2025举办。

一直以来,理光坚持积极营造创新氛围,探索前沿技术,持续投入资源,为创新奠定坚实基础。自研究院成立开始,计算机视觉始终是我们深耕的研发方向。未来,理光期望通过不断创新,深入人工智能技术研发,用更前沿的算法、更高效的解决方案,赋能行业变革。

(9983284)

网站内容来自网络,如有侵权请联系我们,立即删除!
Copyright © 扑克文章网 琼ICP备2023010360号-14