分享好友 最新动态首页 最新动态分类 切换频道
AI 将可快速分离人声、各式乐器等音源,Facebook 开源 Demucs 计划
2024-12-26 20:59

音乐源分离,是利用技术将一首歌曲分解成它的组成成分,如人声、低音和鼓,这和人类大脑的工作很类似,大脑可以将一个单独的对话,从周围的噪音和一屋子的人聊天中分离出来。

如果你拥有原始的录音室多轨录音,这很容易实现,你只需调整混音来分离一个音轨,但是,如果你从一个普通 MP3 档案开始,所有的乐器和声音都被混合到一个立体声录音中,即使是最复杂的软件程式也很难精确地挑出一个部分。

Facebook AI 的研究人员已经开发了一个系统,可以做到这一点──精确度高得惊人。

创建者名叫亚历山大‧笛福兹(Alexandre Defossez),是 人工智慧巴黎实验室的科学家。笛福兹的系统被称为 Demucs,这个名字来源于“音乐资源深度提取器”,其工作原理是检测声波中的复杂模式,对每种乐器或声音的波形模式建立一个高层次的理解,然后利用将它们巧妙地分离。

笛福兹说,像 Demucs 这样的技术,不仅能帮助音乐家学习复杂的吉他即兴重复段落,总有一天,它还能让助理在嘈杂的房间里更容易听到语音指令。笛福兹说,他的目标是让系统擅长辨识音频源的组成部分,就像它们现在可以在一张照片中准确地区分不同的物体一样。“我们在音频方面还没有达到同样的水平。”他说。

声源分离长期以来一直吸引着科学家。1953 年,英国认知科学家科林‧切尔瑞(Colin Cherry)创造了“鸡尾酒会效应”这个词语,用来描述人类在拥挤嘈杂的房间里专注于一次谈话的能力。

工程师们首先试图透过调整立体声录音中的左右声道,或调整均衡器设置来提高或降低某些频率,进而隔离歌曲的人声或吉他声。

基于声谱图的人工智慧系统,在分离出以单一频率响起或共振的乐器的音符方面相对有效,例如钢琴或小提琴旋律。

这些旋律在声谱图上显示为清晰、连续的水平线,但是隔离那些产生残余噪音的撞击声,比如鼓、低音拍击,是一项非常艰钜的任务。鼓点感觉像一个单一的、即时的整体事件,但它实际上包含了不同的部分。对于鼓来说,它包括覆盖较高频率范围的初始撞击,随后是在较低频率范围内的无音高衰减。笛福兹说,一般的小鼓“就频率而言,到处都是”。

声谱图只能将声波表现为时间和频率的组合,无法捕捉到这样的细微差别。因此,他们将鼓点或拍子低音处理成几条不连续的垂直线,而不是一个整齐、无缝的声音。这就是为什么透过声谱图分离出来的鼓和低音轨道,听起来常常是模糊不清的。

基于人工智慧的波形模型避免了这些问题,因为它们不试图将一首歌放到时间和频率的僵化结构中。笛福兹解释,波形模型的工作方式与电脑视觉相似,电脑视觉是人工智慧的研究领域,旨在让电脑学会从数位图像中辨识模式,进而获得对视觉世界的高级理解。

电脑视觉使用神经网络来检测基本模式──类似于在图像中发现角落和边缘──然后推断更高级或更复杂的模式。“波形模型的工作方式非常相似”,笛福兹说。他解释了波形模型如何需要几秒钟来适应歌曲中的突出频率──人声、低音、鼓或吉他──并为每一个元素生成单独的波形。然后,它开始推断更高比例的结构,以增加细微差别,并精细雕刻每个波形。

笛福兹说,他的系统也可以比做探测和记录地震的地震仪。地震时,地动仪的底座会移动,但悬挂在上面的重物不会移动,这使得附着在重物上的笔可以画出记录地面运动的波形。人工智慧模型可以探测到同时发生的几个不同地震,然后推断出每个地震的震级和强度的细节。同样,笛福兹的系统分析并分离出一首歌曲的本来面目,而不是根据预先设定的声谱图结构来分割它。

笛福兹解释,构建这个系统需要克服一系列复杂的技术挑战。他首先使用了 Wave-U-Net的底层架构,这是一个为音乐源分离开发的早期人工智慧波形模型。然后他还有很多工作要做,因为声谱图模型的表现优于 Wave-U-Net。他透过添加线性单元来微调波形网络中分析模式的演算法参数。笛福兹还增加了长短期记忆,这种结构允许网络处理整个数据序列,如一段音乐或一段视频,而不仅是一个数据点,如图像。笛福兹还提高了 Wave-U-Net 的速度和记忆体使用率。

这些修改帮助 Demucs 在一些重要方面胜过 Wave-U-Net,比如它如何处理一种声音压倒另一种声音的问题。“你可以想像一架飞机起飞,引擎噪音会淹没一个人的声音”,笛福兹说。

以前的波形模型,透过简单地移除原始音频源文件的一部分来处理这个问题,但是它们不能重建丢失材料的重要部分。笛福兹增强了 Demucs 解码器的能力,“Demucs 可以重新创建它认为存在但却迷失在混音中的音频​​”,这意味着他的模型可以重新合成可能被响亮的铙钹声影响而遗失的柔和钢琴音符,因为它理解应该呈现什么样的声音。

这种重构和分离的能力使 Demucs 比其他波形模型有优势。笛福兹说,Demucs 已经与最好的波形技术相匹配,并且“远远超出”最先进的声谱技术。

在盲听测试中,38 名参与者从 50 首测试曲目中随机抽取 8 秒钟进行听音,这 50 首曲目由 3 个模型分开:Demucs、领先波形、频谱图技术。听众认为 Demucs 在品质和无伪影(如背景噪音或失真)方面表现最佳。

Demucs 已经引起了人工智慧爱好者的兴趣,精通技术的读者可以从 GitHub 下载 Demucs 的代码,代码用 MusDB 数据集来分离音乐源。

笛福兹解释,随着 Demucs 的发展,它将为人们在家中创作音乐的数位音频工作站带来声音的真实性。这些工作站提供了能够唤起特定时代或风格的合成仪器,通常需要对原始硬件进行大量的数位化改造。

想像一下,如果音乐源分离技术能够完美地捕捉 20 世纪 50 年代摇滚歌曲中用电子管放大器演奏的老式空心电吉他的声音,Demucs 让音乐爱好者和音乐家离这个能力更近了一步。

  • One-track minds: Using for music source separation

(本文由 雷锋网 授权转载;首图来源:Unsplash)

最新文章
母婴网站可以发哪些论坛做外链呢
随着互联网的发展,母婴类网站在为新手父母和准父母提供信息交流平台的也成为了许多企业进行营销推广的重要阵地。在母婴网站中,论坛是一个重要的组成部分,通过合理的外链建设,不仅可以提高论坛的活跃度,还能为网站带来更多的流量和潜在
小米YU7 SUV命名引发热议,雷军回应:直接读Y-U-7
小米汽车官方揭晓了首款SUV车型——小米YU7的外观设计,并宣布新车预计将在2025年六七月上市。随着小米YU7的官宣,其车名YU7的发音成为了网友热议的焦点。许多人对于这款车的命名方式感到困惑,不确定究竟应该读作yū、yú、yǔ还是yù。针
快牙app软件亮点:
快牙app老版本是一款专注于智能设备间文件传输的应用软件。它采用先进的手机直接通讯技术,无需流量、无需WiFi,即可实现设备间的快速连接和数据传输。无论是照片、视频、音乐还是其他任意格式的文件,快牙都能轻松应对,让文件传输变得前
SEO网站优化排名,提升流量与用户体验的终极指南
摘要:SEO网站优化是提高网站排名、流量和用户体验的关键策略。通过优化网站结构、关键词策略、内容质量和外部链接,可以提升网站在搜索引擎中的可见性和排名。关注网站加载速度、易用性和响应式设计,能提升用户体验,从而吸引更多潜在用
竞价排名搜索,如何选择最合适的关键词?
标题:竞价排名搜索:如何选择最合适的关键词?亲爱的读者,竞价排名搜索是许多企业在互联网上寻求增长和影响力的重要工具。在这个体系中,选择最合适的关键词至关重要,它直接关系到你的广告是否能被潜在客户或目标群体看到。以下是一些关
自动化排名(哈尔滨理工大学电气工程及其自动化排名)
自动化排名(哈尔滨理工大学电气工程及其自动化排名): 文章标题:自动化排名(哈尔滨理工大学电气工程及其自动化排名)本文地址:http://ynzslm.com/show-132307.html
项城网站排名优化,策略与实践,项城seo
项城网站排名优化策略与实践,包括关键词研究、内容优化、链接建设、网站结构优化等方面。通过深入了解用户需求,制定针对性的关键词策略,提高网站内容质量和相关性,增加优质外部链接和内部链接,优化网站结构和导航,提高用户体验和搜索
(修复版)生鲜超市 水果商城网站自适应手机端 农产品水果生鲜配送源码
交易流程发货方式1、自动:在上方保障服务中标有自动发货的商品,拍下后,将会自动收到来自卖家的商品获取(下载)链接;2、手动:未标有自动发货的的商品,拍下后,卖家会收到邮件、短信提醒,也可通过QQ或订单中的电话联系对方。交易周期
高德地图如何创建虚拟位置
地图标注是将商家或企业的线下地址信息标注到互联网电子地图、手机电子地图或导航地图(摆渡地图、高德地图、滕迅地图、迪迪打车)中,这样用户在当地的电子地图上就可以看到商家的店铺信息或企业的地址信息,店铺联系信息中也将显示该信息
超值性价比!最便宜的笔记本电脑,高效学习办公新选择
超值性价比!最便宜的笔记本电脑,高效学习办公新选择在探讨用最便宜的笔记本电脑完成长篇文章创作的可能性时,我们首先要认识到,价格并非衡量笔记本电脑创作能力的唯一标准。事实上,即便是一款经济实惠的笔记本电脑,只要能够满足基本的
相关文章
推荐文章
发表评论
0评