chatgpt+mj+did生成会说话的头像

   日期:2024-12-27    作者:3irsz 移动:http://oml01z.riyuangf.com/mobile/quote/59445.html

当我们有了 ChatGPT 生成的内容,有了 stable-diffusion、midjourney 或者 dalle2 生成的人像,如果还能让人像动起来,替我们朗诵或者播报一下 ChatGPT 的内容,不就是一个数字人了么

D-ID 公司,就可以帮助人们快速达成这个目的:https://www.d-id.com/creative-reality-studio/。他可以综合利用虚拟图片、剧本文案,生成一段对应的数字人短视频。

快速点击注册后,就可以看到上图这样的 D-ID 的编辑器界面。在底部可以选择一个默认形象,或者自己上传一个形象照片,或者切换到"Generate AI presenter"标签页,输入类似 stable-diffusion prompt 形式的提示词,由 D-ID 生成 AI 形象

D-ID 默认提供了一些 prompt 示例,帮助不太熟悉 AIGC 绘图的用户快速了解用法。比如上图中我们就直接点选了其中一条示例,画一幅迪丽热巴的全身像,不过看起来 D-ID 使用的文生图模型其实并不知道迪丽热巴是谁——换一个角度说,知道了容易侵权。因此,想要生成虚拟数字人,建议大家还是使用更专业的文生图产品,完成恰当的肖像图后,通过自定义上传照片的方式完成形象定义。

在右侧,可以输入需要数字人实际念的剧本文案。可以看到,我们最多被允许输入3875 个字符。应该足够用了。如果你只有一个核心的想法,还没有完整内容,你也可以像使用 ChatGPT 补全文本一样,点击输入框底部第三个魔法棒 icon,让 GPT-3 AI帮你自动生成更多文案。 GPT-3 是 ChatGPT 的上一代产品,因此基于 GPT-3 的补全文本同样需要小心校验,避免错误。比如下图中,GPT-3 补全的介绍是根据"领先"二字生成了"IBM, SAP, Oracle"等公司名称,显然不符合实际。

完成文案输入后,可以调整语音的风格,包括:语种、声音来源、语气风格等等,还可以在文案中特意插入一些停顿时间。完成以后,点击输入框底部第一个喇叭 icon,试听一下生成的语音效果。如果对标准语音方案不满意,我们可以点击"Audio"标签,选择录一段自己的声音,上传到 D-ID 平台。

最后,点击页面右上角"Generate Video"按钮,就可以生成一段视频了。我们可以点击播放,看到 D-ID 自动识别了图片中头部和嘴部区域,按照文本的发音规律,生成了对应的口型,甚至辅助添加了一定的头部摆动效果。完成的数字人短视频,你可以发到短视频平台上,也可以插入到公司官网上,还可以放到产品介绍 PPT 里,都能给人眼前一亮的感觉。

D-ID 公司并不满足于调用 GPT-3 做剧本文案扩写,目前也在探索更多利用 ChatGPT 能力的方式,比如直接进行语音对话:https://chat.d-id.com/

事实上,数字人技术还有更大的发展和探索空间。微软在 2023 年 1 月发表了一篇论文,介绍他们的 Vall-E 系统,在线演示地址见:https://valle-demo.github.io/。Vall-E 系统只需要用户提供 3 秒钟录音,就可以模拟仿真原声的语气语调,来念输入的任意文本。不过因为被滥用的风险太大,微软并没有开源这个系统。


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号