随着5G商用时代的来临,网络空间中的图像和视频传输越来越便携,内容也受到大众的欢迎。相比于文字等传统媒体形式,图像和视频由于不易更改,能够更加真实地反映人们的日常生活状态,因此受到更多关注。
而随着人工智能技术的发展,以深度学习为代表的一些技术有可能重塑数字内容,相应的,图像和视频等媒体内容也可以进行更改,这种方式极大地冲击了“有图有真相”的观念,即所见到的图像并非真实图像,有可能是被伪造或者修改过的,而这种伪造或者修改人眼又难以觉察。
2019年初,94版《射雕英雄传》里朱茵饰演的黄蓉换上了杨幂的脸,在网上引发了很多热议。同样,B站有人使用AI换脸技术将张国荣“复活”,在长达6分钟视频中演唱了两首歌曲,将张国荣再次带到大家的视野中。前段时间,国内软件“zao”以换脸为特点在朋友圈广泛传播,一度在大陆地区App Store中登上榜首。在这篇文章中,我们简要地介绍一下人脸伪造技术。
图1 人脸伪造示例(图片来自网络)
人脸图像伪造起源较早,2016年在计算机视觉与模式识别会议上提出的face2face是代表性技术之一,face2face可以非常逼真的将一个人的面部表情、肌肉变化等复制到另一个人的面部,这项技术在当时由于门槛比较高,传播范围十分有限。现代深度伪造技术的核心算法对抗生成网络的起源是2014年 Ian Goodfellow 发表在机器学习会议上的文章,对抗生成网络的核心由一个生成器和一个判别器组成,生成器和判别器在不断的对抗过程中相互学习,最终达到平衡状态。
这一概念的提出则是在2017年底,起初是用户在网上发布了一段利用名人面孔合成的视频,引发了各界关注。现在该技术泛指利用以深度学习为代表的人工智能技术伪造或者篡改多媒体内容。目前来说,针对人脸主要包括以下四种形式(假设我们有A和B两个人脸图像):
换脸(Face Swapping),主要是指新生成的图像同时具有A(或者B)的面部身份信息和B(或者A)的脸部属性信息(如发色、表情、姿态等)。
人脸操控(Face Reenactment),主要是指通过归纳总结A(或者B)图像的姿态、表情等属性信息,把上述信息迁移到B(或者A)图像面部。不同于换脸,操控技术不需要更改图像身份信息,只是改变目标域图像的属性信息(如姿态、表情等),从而达到实时操控目标域人脸图像的目的。
人脸属性编辑(Facial Attribute Editing),指通过指定条件,改变人脸一些属性信息,如发色、姿态、表情和年龄等。
人脸合成(Face Synthesis),指通过一些随机生成的噪声生成不同的人脸图像。换脸、操控和属性编辑都可以归为有条件人脸生成,其可控性较好。人脸合成是无条件人脸生成,由于其原始信号是噪声,可控性较差,在实际应用中不如前面三个广泛。
图2 人脸伪造形式示意图
这一技术发展到现在,其趋势是由图像、视频等单一模态伪造合成到图像、视频、音频等多模态统一合成。多维度的内容合成已经是一个趋势,语音识别、人脸识别、唇形搜索等结合起来,进行人脸语音的合成,从而可以让一个人自然流利地说出自己从未说过的话。此外,全身合成、3D合成虚拟人技术也成为当前的应用热点。刚刚过去的两会期间,搜狗联合新华社推出的全球首个3D版AI合成主播,可以由文本实时驱动面部表情和唇形,在肢体动作、超写实细节呈现上面做到比拟真人的动态效果。
同时,此技术的应用也非常丰富。在影视剧制作中,最直接的帮助就是提升音视频制作的效率,拓展创作想象空间;一些特殊情况下,还可以通过合成技术为影视剧的失声演员进行声音合成,为已过世的演员进行“数字复活”;甚至直接创造虚拟数字人来进行影视剧集的制作,电影《速度与激情7》就是通过CG技术“复活”保罗沃克,在电影中完成了角色的谢幕。深度伪造技术也可以升级现有的音视频剪辑技术,根据指定条件自动创作影视中的特效、配音等,以减轻影视制作人员的压力。2020年电影《爱尔兰人》就用到了人脸年龄编辑技术,在屏幕上为大家呈现了年轻版的演员。在娱乐应用体验上面,最基本的脸部特效应用、换脸视频、动图,都已经多次在我们的生活中出现;虚拟偶像、虚拟主播、虚拟客服也随着深度合成技术的成熟而变得越来越逼真和可信。一些短视频软件中也用到了年龄变化滤镜等,输入人脸图片,通过年龄编辑技术把一个人一生的容貌变化呈现出来。
换脸技术的快速发展,引起了包括政府、产业界和学术界等在内的多方关注。美国darpa早在16年就启动了针对换脸技术的检测,并且加入立法,值得一提的是,立法只针对有政治意义选举,并非一刀切。Deepfake也在2019年举行了百万美金deepfake竞赛,总体来说难度稍大,在最终公布的private测试集上结果不是很理想,鉴伪检测也远远未达到一些公司或媒体宣传的准确率。值得一提的是伪造检测和生物特征活体检测还是有很多区别的,伪造检测更多的是针对网络媒体,而生物特征活体检测(例如人脸活体检测)更多的是针对物理空间的真假人脸进行判别。两者都有相当大的难度,但正是因为活体检测针对物理空间,所以现有解决方案大多是软件加硬件方式,而网络媒体显然无法通过增加硬件的方式解决。
随着伪造技术的不断发展,我们是否需要对个人的隐私感到焦虑和担忧呢?总体来说,以现有伪造技术的发展还是很难在任意场景中伪造或操控人脸的,可以在受限场景中对视频图像进行伪造,实际场景中对于声音和视频的结合,远远没有达到令人满意的地步。针对网络媒体内容伪造,我们国家《民典法》即将发布实施,对个人肖像权的规定增加了内容,明确规定了不得用技术手段伪造等侵害他人肖像权。因此,即便用户利用深度伪造技术知识单纯的娱乐,没有营利目的,也有可能被认定是侵犯肖像权。
深度伪造与反伪造技术具有巨大的理论与技术创新空间,也具有广阔的应用前景。伪造和反伪造本身就是一把双刃剑。我们应未雨绸缪,合力共济,确保人工智能的正面效应,确保人工智能造福于人类。
参考文献
1. J. Thies, M. Zollhofer, M. Stamminger, C. Theobalt, and M. Nießner, "Face2face: Real-time face capture and reenactment of rgb videos," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 2387-2395.
2. I. Goodfellow et al., "Generative adversarial nets," in Advances in neural information processing systems, 2014, pp. 2672-2680.
3. R. Tolosana et al., "DeepFakes and beyond: a survey of face manipulation and face detection," in Arxiv, 2020.
4. Q. Deng et al., "Reference Guided Face Component Editing," in International Joint Conference on Artificial Intelligence, 2020.
中科院自动化所官方网站:
http://www.ia.ac.cn
欢迎后台留言、推荐您感兴趣的话题、内容或资讯,小编恭候您的意见和建议!如需转载或投稿,请后台私信。
作者:李琦
编辑:鲁宁、董晓芙
图片来源自网络