分享好友 最新动态首页 最新动态分类 切换频道
AI数字人:语音驱动人脸模型Wav2Lip
2024-12-26 13:19

2020年,来自印度海德拉巴大学和英国巴斯大学的团队,在ACM MM2020发表了的一篇论文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 》,在文章中,他们提出一个叫做Wav2Lip的AI模型,只需要一段人物视频和一段目标语音,就能够让音频和视频合二为一,人物嘴型与音频完全匹配。

AI数字人:语音驱动人脸模型Wav2Lip

对口型的技术,此前其实已经有很多,甚至在基于深度学习的技术出现之前,就有一些技术使角色的嘴唇形状与实际的语音信号相匹配。但这Wav2Lip 在目前的众多方法中,显示出了绝对优势。现有的其它方法,主要是基于静态图像,来输出与目标语音匹配的唇形同步视频,但对于动态的、在讲话的人物,唇形同步往往效果不佳。而 Wav2Lip 则可以直接将动态的视频,进行唇形转换,输出与目标语音相匹配的视频结果。

论文地址

代码地址

Wav2Lip模型是一个两阶段模型。

  • 第一阶段是:训练一个能够判别声音与嘴型是否同步的判别器
  • 第二阶段是:采用编码-解码模型结构(一个生成器 ,两个判别器

也可基于GAN的训练方式,在一定程度上会影响同步性,但整体视觉效果稍好。

在模型训练阶段,作者提出了两个新指标, “Lip-Sync Error-Distance”(越低越好)和 “Lip-Sync Error-Confidence”(越高越好,这两个指标可以测量视频的中的唇语同步精度。结果发现,使用Wav2Lip生成的视频几乎和真实的同步视频一样好。

需要注意的是,这个模型只在LRS2上的训练集上进行了训练,在对其他数据集的训练时需要对代码进行少量修改。

生成效果如下所示

在这项工作中,我们研究了语音驱动任意人脸唇部的运动,使得语音与说话运动同步。当前的工作擅长在训练期间看到的特定人物的静态图像或视频上产生准确的嘴唇运动。然而,它们无法准确地改变动态、不受约束的说话面部视频中任意身份的嘴唇运动,导致视频的重要部分与新音频不同步。我们确定了与此相关的关键原因,并通过向强大的口型同步鉴别器学习来解决这些问题。接下来,我们提出新的、严格的评估基准和指标,以准确测量无约束视频中的唇同步。对我们具有挑战性的基准进行的广泛定量评估表明,我们的 Wav2Lip 模型生成的视频的口型同步精度几乎与真实同步视频一样好。

随着视听内容消费的指数级增长,快速视频内容创作已成为一种基本需求。与此同时,以不同语言翻译这些视频也是一个关键挑战。例如,深度学习系列讲座、一部著名电影或向全国发表的公开演讲,如果翻译成所需的目标语言,就可以供数百万新观众观看。翻译此类会说话的面部视频的一个关键方面是校正唇形以同步匹配所需的目标语音。因此,对人脸视频进行口型同步以匹配给定的输入音频流已经在研究界受到了相当多的关注。在这个领域深度学习的早期工作使用单个说话者的几个小时视频学习了从语音表示到唇部标志的映射。这方面最近的工作能够直接从语音表示生成图像,并在他们经过训练的特定说话人上展示了卓越的生成质量。然而,许多实际应用需要能够轻松用于通用身份和语音输入的模型,这种模型经过数千种身份和声音的训练。它们可以在任何声音中的任何身份的单个静态图像上生成准确的嘴唇运动,包括由文本到语音系统生成的合成语音。然而,要用于翻译讲座/电视剧等应用,对这些模型的要求就不仅仅需要运行在静态图像上。我们的工作建立在后一类通用说话者的工作之上,这些工作希望对任何身份和声音的说话面部视频进行口型同步。我们发现,这些适用于静态图像的模型无法准确地应用在视频内容中的各种嘴唇形状中。我们的主要贡献如下

  • 我们提出了一种新颖的口型同步网络,Wav2Lip,它比以前的作品更加准确,可以在任意语音对任意说话的脸部视频进行口型同步。
  • 我们提出了一个新的评估框架,其中包括新的基准和指标,以实现对不受约束的视频中的口型同步的公平判断。
  • 我们收集并发布了ReSyncED,这是一个真实的口型同步评估数据集,用于在完全未见过的视频上对口型同步模型的性能进行基准测试。
  • Wav2Lip 是第一个通用说话者的模型,可生成与真实同步视频相匹配的口型同步精度的视频。人类评估表明,在超过 90% 的情况下,Wav2Lip 生成的视频优于现有方法。

 

2.1 github项目下载

 

2.2 运行环境构建

conda环境准备详见

 

2.3 预训练模型获取

预训练模型下载

下载完成后解压,并按如下目录方式存放

  • wav2lip.pth存放到checkpoints目录下
  • wav2lip_gan.pth存放到checkpoints目录下
  • lipsync_expert.pth存放到checkpoints目录下
  • visual_quality_disc.pth存放到checkpoints目录下
  • s3fd.pth存放到

2.4 视频合成

  • 通过视频和音频进行合成
 
  • 通过图片和音频进行合成
 

最后,生成的新视频文件保存在 ,生成的中间文件存放在 下

如遇到处理过程报错,显示没有检测到头像,如下所示


最新文章
网站关键词排名顺序能否影响排名?
    在百度站长社区看到了“网站title关键词顺序,是否影响排名?”这样一个疑问。很多SEOer各抒己见,当然无外乎就两个答案“会”OR“不会”。就这个问题,笔者小丹通过日常工作的经验也发表一下自己的意见。 
百度如何开通闪购功能,入驻需要哪些材料今年方法论
近年来,随着电商平台竞争的加剧,越来越多的商家开始关注如何高效地在不同平台上开店并实现盈利。尤其是在抖音与百度等平台上,闪购功能已成为商家吸引流量的重要工具。通过将传统的线上销售与快闪活动结合,闪购不仅能够瞬间提升销量,还
uiix.com的Whois信息
clientLock ······································注册商锁定serverLock ·······························注册局锁定renewPeriod ············注册商
神马电影的魅力所在:为什么这类电影能吸引如此多观众?
在如今的电影市场中,大家对于电影的选择标准越来越多样化。尤其是在各种类型的电影中,神马电影凭借其独特的魅力,吸引了大量的观众。神马电影是指那些既有深度又充满创意的影片,它们在故事情节、角色塑造和情感表达上都有着独特的亮点。
细胞生物学平台Olympus激光共聚焦显微镜FV3000上机培训通知
简介激光扫描共聚焦显微镜是在传统荧光显微镜成像的基础上采用激光作为光源,通过使用激光扫描装置和共轭聚焦装置,利用计算机对所观察的对象进行数字图像处理的现代化光学显微镜。FV3000共聚焦显微镜具有活细胞成像和深层组织观察所需的高
揭秘《歌手2024》首场前三名:香缇莫 凡希亚 那英
原标题:揭秘《歌手2024》首场前三名:香缇·莫专辑单曲销量超500万张,凡希亚选秀节目亚军出道近日,湖南卫视的音乐综艺类节目《歌手2024》爆火,多个话题登上热搜榜。其中5月10日首场竞演结束之后,在直播、全开麦、不修音的背景下,美国
淘宝全类目新老商品可换的白图技术 运用技巧
淘宝全类目新老商品可换的白图技术 运用技巧淘宝各种图片,标题,转链接,客服,综合技术过排除查防排查如有不懂请咨询下面请忽略标题:淘宝全类目新老商品可换的白图技术运用技巧随着淘宝电商平台的日益发展,买家们对商品的质量和外观要
“排名要点”芜湖当地有几家正规的种植牙医院“热点话题”牙齿破损了一半能不能修好
“排名要点”芜湖当地有几家正规的种植牙医院“热点话题”牙齿破损了一半能不能修好,牙齿破损是常见的口腔问题,尤其是当牙齿破损了一半时,许多人会担心是否还能修复。实际上,牙齿破损了一半是可以通过多种方法进行修复的,具体修复方式
荣耀平板V9发布, 首销优惠价1999元起 开启AI无纸化学习新时代
2024年12月16日,荣耀发布全新V系列平板电脑荣耀平板V9。作为AI学习平板的全新标杆,荣耀平板V9首发搭载荣耀MagicOS 9.0系统,通过丰富的AI笔记AI文档能力、10100mAh轻薄长续航、144Hz荣耀柔光绿洲护眼屏以及多项领先的软硬件配置,引领无
网站提交百度收录入口大揭秘,轻松让网站被百度收录
在当今的互联网时代,拥有一个被百度收录的网站对于自媒体作者以及各类网站运营者来说至关重要,百度作为国内(黑帽seo)的搜索引擎,其收录的网站能够获得更多的曝光机会和流量,从而提升网站的知名度和影响力,网站提交百度收录入口到底在
相关文章
推荐文章
发表评论
0评