AIGC产品如雨后春笋般不断涌现,其中Midjourney、Stable Diffusion等AI图像生成技术,凭借着其惊艳逼真的图像生成效果受到各行各业的青睐。多数媒体从业者及用户不断在互联网平台发布AI生成的图像,大家在赞叹其以假乱真的效果的同时也不禁开始担忧过度泛滥将造成一定的安全隐患。
AI生成的图像容易混淆视听,例如,利用虚假人脸图像生成技术容易发生电信诈骗,虚假社会事件图像更易捏造虚假新闻(见图1)。因此对AI生成图像的监测迫在眉睫。
图1 AI合成的马斯克与扎克伯格
在人眼难以分辨真假的情况下,开普云考虑使用“魔法”来打败“魔法”,利用AI检测技术来检测AI生成的图像,利用大规模AI合成图像数据集来训练AI生成图像检测器。
高质量、多样性的生成数据集能提升AI生成图像检测器的性能,为此开普云收集构建了包含真实图像与AI生成图像的百万级别的数据集,其中虚假的AI图像通过多个生成器来获取,包括但不限于Midjourney, Stable Diffusion, StyleGAN。这些AI合成图像包含了衣食住行等生活场景的各个方面,具有广泛性、多样性(见图2)。
图2 数据集AI生成与真实图像
在选取模型结构方面,开普云对比了基于传统ResNet和基于Transformer的模型结构,在数据集量较小的情况下,基于Transformer的模型结构并没有表现出明显的优势,但是随着AI生成数据集不断增加至百万级别,基于tansformer的模型结构在大规模数据集上的性能往往优于基于传统ResNet结构的模型,因此采用了基于Transformer经典的ViT-Base结构(见图3)。并且先在ImageNet-1k(1,000个类别)数据集上以自监督的方式进行预训练,并在ImageNet-21k(21,841个类别)数据集上进行微调,得到的预训练模型继续在AI生成图像数据集任务上进行训练。
图3 ViT-Base结构
在真实情况下,无法预知待检测图像是否来源于某一个生成器,因此检测器处理不同生成器图片的泛化能力很重要,同时发现局限于某一种生成数据集进行训练,往往在其它生成器测试集上达不到满意的检测效果,因此开普云也采用在不同生成器数据集上训练,不同测试集上测试的方式,实现了检测器的泛化性,基于Staleb Diffusion生成器数据集上训练的模型在Stable Diffusion测试集上达到了98.5%,但在Midjourney测试集上准确率仅有61.6%。
开普云进一步在训练数据集继续加入Midjourney数据集,同时对模型进行微调,虽然在StableDiffusion测试集上下降了约5个百分点,但在Minjourney测试集上准确率提升到了80.2%,平均准确率也达到了81.75%(见表1)。随着AI生成数据集的不断丰富,开普云也将进一步提升AI生成图像检测的性能,进一步验证检测器的通用性。
表1
随着AI生成器的不断更新,对于AI生成图片检测器的需求会越来越高,挑战也越来越大。开普云将不断更新AI生成数据集,丰富来源的广泛性、类别的多样性,不断“磨剑”,持续“打怪升级”,致力于提升AI生成图像的检测能力。
本文由未来科技研究院出品,未来科技研究院是开普云集团旗下的研究机构,致力于推动前沿科技的研发和应用创新,为业务发展和技术与产业融合提供支持,由开普云董事长汪敏担任院长,汇聚了一支由顶尖科学家和工程师组成的团队,具有丰富的科研经验和卓越的学术背景。研究院持续关注国内外先进技术,坚持服务与创新并举,夯实以人工智能和大数据等核心技术组成的公共技术研发底座,为集团各分子公司及业务线提供支持。研究院正在探索推动的技术体系包含两类,一是大数据平台技术,提供数据采集、存储、治理、分析的全生命周期能力;二是人工智能,提供知识图谱、自然语言理解、图像识别、语音识别、视频理解、大规模语言模型、多模态内容生成等算法能力。未来科技研究院将继续以创新为驱动,开拓前沿领域,为未来的科技进步做出贡献。