分享好友 最新动态首页 最新动态分类 切换频道
趣丸科技贾朔演讲全文:探索音乐创作的技术平权——AI音乐的创新实践
2024-12-27 18:41

来源:雪球App,作者: 智东西,(https://xueqiu.com/9919963656/316542732)

趣丸科技贾朔演讲全文:探索音乐创作的技术平权——AI音乐的创新实践

12月5日-6日,由智东西与智猩猩联合主办的2024中国生成式AI大会(上海站)在上海圆满举行。在大会首日的主会场上,趣丸科技副总裁贾朔以《探索音乐创作的技术平权——AI音乐的创新实践》为题发表了演讲。

贾朔认为,2024年是AIGC音乐爆发元年,人工智能的创新发展大大降低了音乐创作门槛,音乐创作赛道终于迎来了“创作平权”时刻,普通用户也能用低门槛的方式体验音乐创作的乐趣

音乐生成之所以是被LLM浪潮覆盖的最后一种模态,成为漏网之鱼,源自于

音乐的特殊性——时间序列性、多层次结构、情感一致性、评估主观模糊性

。目前Diffusion in Transformer(DiT)成为大多数闭源的主流选择,而

国产AI音乐的歌声自然度更是突破人耳识别阈值,效果比肩美国头部模型

贾朔分享了人与音乐的AI交互形式的变化,从文生音乐,到三键成曲,再到哼唱成曲。今年7月份,天谱乐全球首发多模态音乐生成模型,支持视频成曲和图片成曲功能,一键根据用户视频或图片生成一首完整的音乐

此外,贾朔在现场首次预告天谱乐的新功能——MidiRender,功能类比于一个精准、可控音乐版的Control Net,专业的创作用户可以输入自己的音乐构想,让天谱乐AI根据这个原创音乐片段填充歌词、完成编曲。

以下为贾朔的演讲实录:

01、2024年是AI音乐爆发元年,迎来“创作平权”时刻

2024年是一个重要的年份,音乐创作赛道终于迎来“创作平权”时刻

文字、图片、视频这些模态的创作平权问题早在时代已经被解决。一个普通人想要创作这些,都可以轻松实现。因为移动互联网时代的一个主线任务,就是不断降低创作门槛,实现全民UGC内容创作。

但是,音乐属于时代的一个漏网之鱼。普通人想要用简单的操作在手机上完成低门槛音乐创作,是比较难的。到了2024年,AIGC到来的时代,这个任务终于要被完成了。

这里整理了各个模态成熟的时间线。可以会看到这一波生成式人工智能的浪潮。有几个标志性的事件,比如说文本生成,代表事件像ChatGPT率先发布3.5版本,把文本生成,特别是基于transformer的交互对话把热度给点燃了。紧随其后是文生图也在2023年前后成熟,普通人输入一段简单的文字咒语,就可以输出非常专业的图片效果,甚至是近似照片的图像。文生视频是在2023年底到2024年年初,Sora的出现让文生视频率先进入AIGC成熟的临界点。反倒是音乐在这几个主流模态里面,它是最后一个成熟的。

02、天然特殊性让音乐生成需要克服四大难题

为什么音乐总是最后一个?它有哪些特殊性?我们天谱乐团队深耕这个行业很长时间,对音乐生成有一些理解,主要反映在四个方面。

首先,它需要很强的“时间序列性”。一首音乐三分钟,它的时间顺序要遵循音乐上的规律跟结构。如果结构错了,人可以很容易识别出来它不自然,它不是人类生成的。

其次,是“多层次结构”

。大家如果平时听音乐比较多的话,会留意到一首音乐的编曲里面,会有非常多的空间编排。比如说人声可能是靠前或靠后,同时你的左侧可能有一个架子鼓,右侧有一个大提琴或小提琴,这些会带来非常多的空间结构信息,在生成领域它同样需要解决和克服。

第三点,情感一致性

。众所周知,音乐是用来统一情绪的一种工具。同时,如果一个音乐作品80%的部分非常符合逻辑,但是唯独有一两个音稍微有点瑕疵,达不到人类对这个音乐的效果预期。人类就会瞬间识别出来。如果同样的事情发生在文生图,一些小瑕疵可能不会产生特别严重的问题。

第四点,评价主观模糊性。大家做大模型、做AIGC生成,经常做一些跑分题库去量化、评价一个模型效果好坏?但是在音乐领域,它的评价非常主观。你问一个人这个音乐好不好,他会回答喜欢或者不喜欢。但是,对一个音乐的喜好评价,并没有太多建设性的反馈价值。同时,这个评价有模糊性、主观性,更多取决于个人的审美偏好,而非音乐质量高低。

03、国产AI音乐歌声自然度比肩美国头部模型

在当下这个时间节点,做一个音乐生成大模型或产品的选择空间并不大。音乐生成不像其它模态有成熟的开源方案。事实上,无论在国内还是国外,基本都是闭源项目主导,要么从预训练环节开始自己训练,要么直接套壳。

我们看到,在技术路线选择上,今年有一个比较明显的趋势,Diffusion in Transformer(DiT)成为大多数闭源的主流选择。包括Suno CEO在一个公开分享中也提到,Transformer更适合处理时序结构上的问题,而Diffusion更适合处理一些高维空间问题

当然,尽管大家的技术路线选择一致,但是具体的架构设计还是存在非常大的差异。例如造车必须有四个轮子,但是轮子应该怎么设计大家各有不同。

今年除了搞技术的对音乐感兴趣,音乐人也很关心。我们跟一些音乐人沟通,现在音乐生成效果这么好,什么问题导致他们无法使用这些AI工具。他们回答两个点,第一点,人声的自然度问题。举个例子,在3D建模有一个很有名的效应,叫做恐怖谷效应。即一个东西已经有九分像,就差10%,但是人类可以很快识别出来,并且对它产生厌恶和反抗情绪。

为了攻克这个问题,天谱乐团队从模型结构上调整了几十版,实验上百次,最后我们认为拿出了一个比较有竞争力的结果。

我们拿天谱乐最新的版本跟音乐人交流,音乐人给了很高的评价。他们说

AI音乐这个赛道仿佛到了围棋遇到AlphaGo的时刻

。同时,我们也找了音乐高校学生,他们具备专业的音乐训练,可以比普通人给出更专业的评价。我们做了一个盲测,用相同的Prompt测试了50条输出音乐,让音乐高校学生盲测给天谱乐和国内外产品打分,最终结果是天

谱乐AI最新2.2版本的中文人声唱词已经达到一个新的天花板水平,歌声自然度更是突破人耳识别阈值,效果比肩美国头部模型

04、首创图频生曲功能革新AI音乐交互形式

文生音乐是最适合的交互方式吗?很多人觉得“摇歌”这个事情就像开盲盒,觉得“音乐效果不错,但是跟我有什么关系呢?

针对这个命题,天谱乐团队做了一系列的探索,我们在2023年推出“三键成曲”模式,用户输入三个音即可扩写形成一首完整歌曲。2024年天谱乐进一步推出“哼唱成曲”,很多人在洗澡的时候会随心哼唱一段,同样可以扩写成歌曲。

当然,这些可能都还不够简单,怎样才能让音乐创作更简单呢?类似时期的手机摄像头就是最平权的输入媒介,人人都能拿起手机拍一拍照。我们在想,如果用户旅游中拍了一张照片、一段视频,天谱乐是否可以帮他生成一个完整的作品?

带着这个想法,天谱乐首发了全球首个多模态音乐生成模型。这个模型可以理解画面的内容、情绪,从而自动匹配最合适的歌曲。

05、AI如何为人类创造更大价值

2024年整个AI音乐赛道的门槛终于被彻底打下来了。图片创作、视频创作、音乐创作确实到了人类历史最简单的一个时代。

前几周我跟一个湖畔大学的老师交流,他提到一个新的问题:天谱乐这个AI音乐工具能帮助人类作曲家作出更好的音乐吗?当时我思考了很久,我们做这个模型目的是什么?只是让更多人可以轻松创作出60分的音乐吗?还是可以创造更大的价值,辅助人类不断突破创意天花板,创作出更好的内容呢?

我们发现市面上普遍的音乐生成大模型,除了人声不好之外,很重要的问题是现在的AI不听话,不按照作曲家、音乐人的意图创作,AI过多地自由发挥。

所以基于这个思考,我们拿出了一个新功能,今天是第一次正式地对外亮相,天谱乐下一个版本会发布的一个叫MidiRender的功能。大概介绍一下这个功能。在文生图领域有一个非常重要的发展节点,就是Control Net的出现,让文生图变得非常可控。AI音乐也需要类似的一个东西。第一步是核心的创意部分,我们还是希望人类作曲家来主导,用乐器、编曲软件都好,先去弹一段基础的动机旋律。第二步,在以前人类作曲家从创作一段动机旋律到完成一首完整的创作,往往要花几周甚至几个月的时间。而现在,天谱乐AI完全有能力来加速完成这个动作。大家听DEMO可以感受到,最终出来的音乐跟最初人类作曲家的动机旋律是完全匹配的。这也是我们认为AI大模型作为工具,可以为艺术家服务的一个事情,而不是去抢夺创作主导权。

翻开人类历史,人类可能真正擅长的有两件事情。第一件事情是犯重复的错误,比如周期性的谜之自信,觉得可以创造出比自己更聪明的东西。第二件事情是人类非常擅长制造工具。人类每一次制造一个新的工具,都在不断拓展自己能力的外延,所以今天人类才彻底成为这个星球的霸主。所以我认为技术最终还是要服务于人,技术的出现不是为了取代人类工作,而是帮助人类创造更美丽的东西。

最新文章
置顶微信小程序开发费用多少钱精选热门
微信小程序依然是目前很火的开发项目,根据新的数据统计,日活超4亿。谁想错过这么大的流量风口?而随着开发小程序的公司越来越多,大家首先关心的,就是费用的多少。根据开发小程序的不同方法,价格也会有所差别。微信为大家提供了一个专
吉林SEO优化攻略,全方位解析,轻松提升网站排名
吉林SEO优化,全方位解析使用方法,助您网站排名快速提升。掌握核心策略,优化网站结构,提升关键词排名,提高网站流量,助力企业在线营销成功!随着互联网的快速发展,网站优化已经成为企业提升品牌知名度、提高市场份额的重要手段,SEO(
济南搜狗SEO优化,助力企业抢占搜索引擎市场制高点
随着互联网的普及,搜索引擎已经成为人们获取信息、了解世界的重要渠道。在众多搜索引擎中,搜狗凭借其强大的搜索技术、精准的搜索结果以及庞大的用户群体,在搜索引擎市场中占据着举足轻重的地位。对于济南的企业来说,如何进行搜狗SEO,
word怎么转ppt?这个在线转换工具轻松搞定!
在日常的学习和工作中,Microsoft Word和PowerPoint是我们最常使用的2款。Word,拥有出色的文字处理功能,让我们能够轻松编辑各种文档,而PowerPoint,可以让我们轻松地进行各种演示文稿的创建和播放。在实际使用过程中,我们往往需要将已
淘宝卖家聊天技巧
淘宝卖家聊天技巧  淘宝网是亚太地区较大的网络零售、商圈,由阿里巴巴集团在2003年5月创立。淘宝网是中国深受欢迎的网购零售平台,拥有近5亿的注册用户数,每天有超过6000万的固定访客,同时每天的在线商品数已经超过了8亿件,平均每分
萍乡谷歌SEO专家助力企业网络营销高地
萍乡谷歌SEO公司专注于为企业提供高效SEO服务,助力企业优化谷歌搜索引擎排名,迅速抢占互联网市场制高点,提升品牌知名度和竞争力。通过专业技术和策略,助力企业实现全球化市场拓展。随着互联网的快速发展,越来越多的企业开始意识到的重
Xiaomi Mi Unlock Tool: Download and How to use it to Unlock Bootloader
Through this post, you can download the latest Xiaomi Mi Unlock Tool, along with all the previous versions. Further, we will also guide you on how to use the Mi Unlock Tool to unlock the bootloader on Xiaomi, Redmi, and Po
营销信息网站排名优化,策略与实践,营销信息网站排名优化方案
营销信息网站排名优化,策略与实践,是提升网站在搜索引擎中排名的关键步骤。通过优化网站内容、关键词、链接等,提高网站质量和用户体验,从而吸引更多潜在客户。需要关注竞争对手的动态,不断调整优化策略,保持网站的竞争优势。实践表明
项目记录:C语言学生成绩排名程序
  一个很简单的小项目,大一的学生作业。我简单介绍一下相关功能和代码之类的吧~  本来题目不强制要求菜单的,我有点强迫症加了菜单。【1】题目:   一个班40名学生,期末有10门课程成绩,要求计算并输出
用AI绘画生成超逼真美女写真,简单易上手的工具评测与教程
5. Runway ML Runway ML是一款提供多种创意工具的AI平台,用户可以利用其强大的功能进行视频编辑、图像生成甚至生成式图像处理。在生成美女写真方面,Runway ML允许用户上传参考图像进行修改,非常适合有一定艺术背景的用户。不过,操作界
相关文章
推荐文章
发表评论
0评