原创 关注大模型的 机器之心
机器之心报道
机器之心编辑部
具身智能,简单来说,就是赋予 AI 一个「身体」,让这颗聪明的大脑在物理世界中行动自如。
把这颗大脑升级成世界模型 —— 它拥有记忆、直觉和常识时,机器人可以不再机械地按训练行事,而是能够灵活变通,具体问题具体分析。
于是,在这两个火热的概念齐头并进之时,这样的展示层出不穷,机器人为你扫地、喂猫、铺床、做饭,以后养老不用愁,放心交给机器人就好了。
但是为什么我们身边还没见到一个这样的机器人呢?
Scaling Law 的成功,机器人也想复刻
参数量越大,模型性能越高,这一原则在大模型领域已经得到了充分验证。如何在机器人领域,活用「Scaling Law」的公式,这是产业面临的共性问题。
作为人工智能的创新引领者,联合产学研协同突破行业痛点,也是智源研究院一直以来的核心愿景。
受此启发,她带领研究团队提出了 RoboMamba、MR-MLLM 等一系列多模态大模型。详情可以参考机器之心的报道:《》。
论文链接:https://arxiv.org/pdf/2410.15461
「具身智能最大的问题就是没有数据」,那么什么样的数据对机器人最有用呢?
爆火全网的 Aloha、特斯拉的 Optimus 系列都在推崇遥感操作收集的真人数据,Depth Anything 这样的单目视觉方法也在业界流行。
至于机器人数据的 next level,王鹤看好的是 4D 数据。
提到 scaling law 在机器人领域的里程碑,绕不开「机器人的 ImageNet 时刻」—— 谷歌 DeepMind 联合其他机构推出了 Open X-Embodiment 数据集,训练出了能力更强的 RT-X 模型。
「有的时候,机器人并不知道自己在做什么。」这可能是这场峰会被反复 cue 到的一句话。
要使机器人在行为层面展现出真正的智能,赵明国认为关键在于根据不同身体部位的功能分工来设计和训练机器人。如果一个机器人能够掌握手部的典型任务,如抓取和放置物体,腿部的踢球,以及需全身协调的骑自行车等任务,逐步攻克,最终将这些能力扩展到实际应用中。
世界模型可以补全机器人感知中缺少的这些细节和背景信息。在等待世界模型的开花结果的过程中,星尘智能把目标设定为 Design for AI,机器人平台将作为中间态,为世界模型提供丰富的数据支持。而当世界模型最终成熟的时候,就要做最好的终端。
无需长期培训,也不会频繁跳槽的人形机器人,可以节省高达 60% 的成本投入。
要让机器人坐在流水线上打螺丝,达到熟练工人的装配水平,触觉感知至关重要。没有触觉感知,机器人很难掌握螺栓应该拧到什么程度。
One more thing
相较于传统 AI 三要素数据、算法、算力,具身智能在硬件这一新要素上了有了更多要求。以上四要素的协同进化,推动了具身智能的新范式变革。
作为即将突破万亿规模的市场,具身智能的年复合增长率已达到 20.7%。在这火热的浪潮中,学术界和工业界,都需要更多像智源峰会这样的交流与讨论,也需要更多冷静的观察与深思。
© THE END
转载请联系本公众号获得授权