分享好友 最新动态首页 最新动态分类 切换频道
端到端、世界模型、车路云……谁将成为2025年“AI+交通”最热词?
2024-12-29 18:28

1942年,科幻小说家艾萨克·阿西莫夫(Isaac Asimov)在他的短篇小说《转圈圈》(Runaround)中第一次明确提出了“机器人三定律”,这一定律也被称为“现代人工智能技术的基石”。

阿西莫夫可能没有完全预见到,八十年后的世界会多么接近他的科幻梦想。

如今,人们生活在一个由人工智能渗透的世界里,这个世界在许多方面已超越阿西莫夫的想象。2024年,我们见证了一系列人工智能技术的创新与涌现。从AI视频生成模型Sora到GPT-4o,一系列生成式人工智能新技术相继问世、更新迭代,让人感觉到似乎“未来已来”。

这一年,大模型、端到端、世界模型、车路云等已成为交通智能化领域最具革命性的技术应用,不仅提升了驾驶体验,还为城市交通的安全性、效率和可持续性带来新的可能。

对照着自动驾驶领域这几年的行业热词按图索骥,可以把握自动驾驶算法模型的发展脉络。在特斯拉的带动下,自2021年至今,自动驾驶行业这几年的动态热词依次为:BEV+Transformer、OCC占用网络、无图NOA、端到端。

BEV(鸟瞰图)网络通过矢量化的鸟瞰视角检测白名单障碍物,OCC通过体素化的占用网络预测3D空间的占位情况,实现对通用障碍物的感知,到无图NOA的阶段,自动驾驶算法可以通过车道网络实时建图,构建道路拓扑。

再到今年大火的端到端,一方面,由于消除了传统分模块方案中各种小模型的冗余,计算资源得以集约化使用,神经网络的参数量或规模得以进一步提升;另一方面,无论是分段式端到端还是一体式端到端,感知到决策之间的传输带宽增加,信息损失减少,进一步增强了系统的感知能力。

对于驾驶而言,感知交通环境信息越全面、越及时,驾驶的安全性也就相对越高。因此,自动驾驶系统对感知能力的需求是没有上限的。

数据正在成为端到端最大瓶颈

相较于分模块的自动驾驶方案,端到端方案主要解决了两个问题。首先,从人工逻辑代码到数据驱动,人工智能真正摆脱了“人工”,从此可以使用海量的数据迭代模型的性能;其次,通过自动抽取信息,减少信息损失,可以充分利用数据中的信息。

端到端最核心的一点在于将自动驾驶算法进行了全面的AI化,转向了完全的数据驱动,但这意味着需要更加海量的数据进行模型的训练。

但对于到底需要多少数据才能训练出一个完美的自动驾驶模型,业界并没有一个统一的标准。之前有报道称,特斯拉2024年初的视频训练片段数量将近3000万个。按照每个视频片段30秒、30FPS的帧率、8个摄像头计算,训练图片数量高达220亿张。

此外,这种规模的训练数据训练出来的自动驾驶系统的等级仍未达到L3,自动驾驶系统能力每提高一个等级,需要的训练数据量至少会提升一个数量级,也就是说,要达到L4,至少需要训练几亿个视频片段。

端到端虽然强化了数据的作用,但大模型的引入却增加了庞大的数据标注需求。在基于语言模型的自动驾驶大模型中,其输入是当前驾驶场景的图片,其输出是各类交通参与者、道路拓扑、交通信号标识的语义信息,这种模型不具备自回归特性,进行有监督学习,其训练需要海量的数据标注工作。

这引发了一个新的问题:如果端到端自动驾驶模型的训练还需要继续打标签,在源源不断产生的海量数据面前,还如何保证高效训练?这也是一直以来影响端到端进一步发展的最大阻碍。

世界模型实现从感知到认知的跃迁

无论是BEV检测的白名单障碍物还是OCC占用网络检测的通用障碍物,从本质上来说,都属于基于判别式AI实现的对分立物体的单独感知。

生成式AI大模型具备的超强理解能力使得视觉语言模型、大语言模型、世界模型可以建立对当下场景的整体认知,实现从感知到认知的阶跃。

举例来说,BEV可以检测到一个行人,大模型可以通过意图理解判断出这是一个要横穿马路的行人。BEV网络可以检测到前方的一个车辆,大模型可以更进一步,通过长时序信息判断出这是一个即将减速的车辆。

也就是说,在基于判别式AI的物体识别之外,生成式AI的意图理解和长时序理解能力使其可以建立对整体驾驶环境的理解,更加贴近人类驾驶的知识逻辑。

自动驾驶真正的挑战并不在于能否检测(感知)出各个独立的物体,而是要准确判断(认知)物体的意图,根据车辆、行人微妙多变的姿态做出准确的博弈和决策,只有建立了这样复杂的语义理解和场景理解能力,才能像老司机那样游刃有余地驾驭各种路况。而从部分到整体,从分立到连续,从感知到认知,正是大模型给传统自动驾驶感知技术栈带来的重大转变。

同时,通过从历史数据中生成预测情景,世界模型不仅规避了数据收集和标注带来的限制,还增强了在模拟环境中训练自主系统的能力,这些环境可以反映甚至超越现实世界条件的复杂性。

这种方法预示着一个新时代的到来,在这个时代,自动驾驶汽车具备反映某种直觉的预测能力,使它们能够以前所未有的复杂程度响应各类交通环境。

世界模型可以通过模拟和预测其他车辆、行人和动态环境变化,从而帮助自主系统做出更安全、更高效的驾驶决策。例如,世界模型可以预测交通流量、路况变化以及潜在的风险因素,使自动驾驶车辆能够提前做出反应,避免事故和优化行驶路径。

尽管世界模型已经表现出巨大的技术潜力,但其发展和应用仍面临挑战。

首先,是数据的多样性和质量。世界模型依赖大量高质量的数据进行训练和测试。然而,获取和处理这些数据往往需要耗费大量时间和资源。如何确保模型从多样化和高质量的数据中学习,是下一阶段世界模型在发展过程中迫切需要解决的问题。

其次,巨量的计算资源需求。训练和运行世界模型需要大量的计算资源,特别是在处理高维数据和复杂场景时。

第三,模型的可解释性。世界模型的复杂性使其决策过程难以解释和理解,这将在医疗诊断、自动驾驶等应用场景中可能带来潜在风险。

车路云,一个正在发生的潮流

如果说以上自动驾驶技术都是“舶来品”,那么车路云一体化则是一个带有鲜明“中国智慧”的技术方案。

2024年,是车路云一体化全面落地的里程碑年份。面对汽车智能化、网联化的大势所趋,中国率先提出车路云一体化与智能网联汽车融合发展的新路径,并发挥中国在统筹规划、基础设施建设、信息通信技术等方面的优势,积极开展试点。

1月,工业和信息化部、公安部、交通运输部等五部门联合印发《关于开展智能网联汽车“车路云一体化”应用试点的通知》,这是“车路云一体化”首次被写入国家政策文件。7月,五部门正式对外公布《关于智能网联汽车“车路云一体化”应用试点城市名单的通知》,共计20个城市进入试点,从南到北、由西至东覆盖全国。

道路上布设的智能路侧设施如AI数字道路基站、V2X通信设备能够实时监测路况,通过多源数据融合技术,将不同类型、不同来源的数据进行有机整合,从而为后续的数据分析提供更丰富的素材。

根据车百智库研究报告显示,一辆L4级别自动驾驶汽车,每日通过车内外传感器采集的行驶数据、环境数据和行为数据等,已达到10TB量级,是传统汽车的5-10倍。其预计,在路上行驶的智能汽车每年上传到云端的数据超过7万PB。

在收集到海量的交通数据之后,云端利用大数据和AI算法,对数据进行分析与挖掘,从中提取有价值的信息。例如,通过对交通流量进行数据分析,交管部门可以根据实时交通流和道路情况智能调整配时方案,提高道路通行效率。同时,车辆也能接收到车路云网络的信息,提前了解道路上的障碍和危险,从而采取相应措施确保行车安全。

最新文章
ai智能搜索生产实现(低门槛实现自然语言搜索)
目录 实现思路 原始数据预处理 自然语言处理 业务处理 总体架构 调优 话术调优 自然语言搜索是一种搜索方式,用户可以以自然语言的形式提问或描述他们正在寻找的信息,而不是使用特定的查询语法或关键字。简单来说,就是
A2110经典版海螺模版V20电影网站源码 影视网站模板源码 苹果CMS影视网站模板源码 广告代码添加与优化
苹果CMS影视模板:海螺模版V20修复版,广告代码添加与优化修复多线路时播放页列表点其他线路还是播放默认线路的问题修复前台黑白切换和字体颜色切换失效修复微信二维码没有对接苹果控制后台问题优化换一换功能的图片加载速度修复PC页面下滑
Coze扣子-初体验,对话机器人的使用场景联想
Hello,大家好啊,这里是百里,一个热衷于技术分享,探索新事物的好奇程序猿。随着AI技术的发展,各家大模型在CHAT-gpt后像雨后春笋一样,蓬勃发展。前有百度文心一言,后有腾讯混元大模型。各家大模型你超我赶。功能也是越来越多。今天分
AIGC+Python——AI赋能网页爬虫
在当今数字化的时代,数据就像一座宝藏,而网页爬虫就是我们从海量数据中发掘宝藏的工具之一。而结合人工智能生成技术(AIGC)和Python语言,可以更快速地实现网页爬虫,让我们一起来探索这个神奇的组
AI研习丨基于结构化视觉语义分析的场景理解研究
文/ 齐梦实摘 要:针对图像和视频中的场景理解问题,以结构化的视觉语义分析为中心展开研究,通过研究场景图像中多语义标签之间的关系,建立场景语义图模型;通过研究通用场景图像理解问题,并将场景图模型在跨模态多媒体检索、视觉数据自
AI大模型应用入门实战与进阶:图像识别与大模型:ViT解析
随着深度学习技术的不断发展,大模型在图像识别领域取得了显著的成功。ViT(Vision Transformer)是Google Brain团队2020年推出的一种新颖的图像识别方法,它将传统的卷积神经网络(CNN)替换为Transformer架构,实现了在图
ai正装照片生成
1. 正装照片生成技术是一种利用人工智能算法通过客户上传的照片,自动为其生成穿着正装的效果图。该技术基于深度学模型,可以精确识别面部特征并按照客户的体型、肤色等信息,生成逼真的正装穿着效果。2. 以下是正装照片生成技术的几个主要
AI文案工具:无需人为操作,帮您快速生成引人注目的文章标题
近年以来,随着人工智能技术飞速发展,广大创作人员纷纷投入到AI文案工具有助于提升工作效率的热潮中。这款前沿工具大力运用大数据分析能力,自主生成引人入胜的标题与内容,毋庸置疑地提升了各个领域创作者的表达
AI解说大师使用评测分享
产品简介:AI解说大师是一款全民可用的影视创作智能工具,免下载、轻量化、支持多平台,依托独家数字技术及AI大模型训练,支持一键生成原创解说视频,含优质解说文案、画面字幕和多元化生动语音。AI解说大师工具,专注于帮助影视创作者提升
AI赋能,龙华体育智慧化探索之旅
  高质量发展是教育的生命线。习近平总书记强调,从教育大国到教育强国是一个系统性跃升和质变,必须以改革创新为动力。建设体育强国,必须实现高水平的体育科技自立自强。  中共中央、国务院《关于深化教育教学改革全面提高义务教育质
相关文章
推荐文章
发表评论
0评