11月29日,智谱在Agent开放日活动上,发布了Agent“全家桶”产品:包括升级版Auto GLM、AutoGLM-Web和GLM-PC,分别适用于手机、浏览器和PC。
2024年,AI Agent成为焦点,它可以模拟人的感知、决策、判断过程,自主帮助人类完成工作。成为大模型应用落地,最受关注的应用形式之一。
在发布会的现场,智谱AI CEO张鹏也接受了包括腾讯科技在内的少数媒体采访,他表示,虽然Auto GLM已经能帮你在上跨APP实现50步以上的自主操作,但是,距离贾维斯照进现实,还有很多现实的难题需要跨越。
在PC场景同样如此,“由于 PC 的复杂程度,以及大家在 PC 完成的几乎都是复杂任务,今天大模型的能力距离真正代替大家办公还有一定距离。GLM-PC在当前版本下,用户仍需要输入非常精准的指令。”
但是,从目前的技术路线来看,类似的Agent产品,并不需要依赖调取各种API,而是能够通过图形化界面的识别,模拟人用电脑的过程——用眼看图形及文字,用脑规划,再用手执行单击双击、输入等操作。GLM-PC 用电脑的方式几乎完全和人一样。也正因如此,理论上只要是为人类设计的应用,在GLM-PC学习之后它都能够执行。这也为未来打开想象,是否Agent拥有了系统级、跨平台的能力,未来具备更高的能力上限,甚至成为新的操作系统?
以下为访谈内容(有精编删减):
提问:大模型行业上半年大家其实还在寻找“超级应用”,下半年突然看到了智能体的爆发,行业内公司的战略重心发生了什么改变吗?
张鹏:过去,技术可能被视为单一方向的,例如文本技术的提升就能带来巨大的价值。然而,我们现在认识到,要将技术转变为生产力工具或双向交互的机器人,它不能有明显的短板。因为人类处理问题和任务是多模态的,非常复杂,所以对技术能力的需求是全面的。只有当模型的各项能力都达到一定水平并相互叠加时,它才可能成为一个有效的工具。
提问:发布会上提到的“端云”统一,具体如何解释?
张鹏:我们所说的统一,是指架构和体系的统一,例如我们的GLM模型,有小版本可以在端侧运行,也有云端版本,它们的架构相同,能力倾向相似,上层应用和功能也相对一致,可以进行优化等操作。这样,我们就能更容易地形成一个云、边、端协同的、无缝衔接的技术体系。大家也知道,如果整个模型来自不同的工具厂商,需要适应不同的技术架构和技术特点,那么整合的成本就会更高。所以,我们所说的统一并不是指模型本身的差异。
提问:去年手机、PC厂商都在提端侧AI,今年更多会提及Agent,为什么会有这种变化,端侧AI相较于去年有了哪些进化?
张鹏:模型的能力在达到一定程度后,会转化为实际的生产力。在早期,如果能力尚未成熟,提出Agent概念可能实际效果达不到。为什么大家特别关注端侧?因为端侧的效果更直观,大家都能明显感受到。大多数交互本质上是改善人机交互,所以在端侧更容易找到显著提升用户体验的部分。
Agent同样可以应用于TOB服务端,例如作为教育API等。我们也推出了这样的功能,但这些更多是面向开发者和企业级系统,因此普通用户可能不会有太多直接感受。当然,随着技术的进步和关注度的提高,专业的硬件厂商也开始适配和靠拢这些技术。这两个因素结合起来,使得端侧的应用能力更加明显,用户体验也更加显著。这些因素的综合作用,使得端侧的应用能力得到了显著提升。
提问:Scaling Law是否已经“撞墙”或放缓?
张鹏:Scaling只是一个现象,本质是计算量。你有多少的计算量,你就能获得多少的智能水平。这是我觉得目前比较接近真相的一个可能性,但我不保证它一定对,因为这件事情还在不断探索中,不断更新大家的认知。
我们所谓的“撞墙”,更多是在预训练阶段,所谓的人类语言的高质量数据不够用了。但是,其实还有多模态,还有可能在后训练。不断加大你的计算量,还是能够提升效果,这种曲线看起来其实是和预训练的Scaling Law是差不多的。所以我们不能简单粗暴地下结论说,Scaling law已经撞墙了。
提问:智谱发布了Agent产品之后,如何考虑生态位的问题?APP是存在墙的,底层的权限也不好打通,如何解决应用墙的问题?
张鹏:这其实一半是商业问题,一半是技术问题。
从技术角度来说,我们这次发布会展示的愿景是让“Auto GLM”成为一个帮助用户更好地连接硬件、应用和服务的中枢。它应该是一种工具,能够通过自然语言的方式,让用户更容易地根据自己的意愿组装各种服务。虽然这个目标听起来很美好,但从技术上来说,实现起来还是相当困难的。
原本在自己的应用生态中,你可以获取底层的很多东西,包括完整的设计图纸,这使得设计和开发变得相对容易。但这也意味着你在一个封闭的生态中工作,无法与他人很好地合作,而且你的模型可能不够智能,无法很好地与其他系统连接。
因此,从技术角度来看,让模型更好地连接是一个重要的挑战,也是我们接下来工作的重点之一。此外,要实现高水平的能力,并不是一件简单的事情。作为一家大模型公司,我们对此非常自信。就像OpenAI的o1模型preview版本已经发布一段时间了,但它的完整版本还没有发布,可能完整版本非常强大,达到了一个难以想象的水平。这本质上需要原始创新,需要在算法和模型能力上持续迭代。从我的视角来看,这是我们最重要的任务。
从商业角度来看,我们公司是技术驱动型的,技术特性决定了商业化路径和策略。我们希望定位自己,为这个新生产和新范式中的赋能者。我们希望通过这种赋能方式,帮助解决一些原本条块化或垂直化行业划分后形成的资源壁垒问题,打开新的视角和机会,包括今天在现场看到的许多合作伙伴,他们参与并和我们合作,这表明从商业角度来看,大家采取的是一种互利的态度和方式。
提问:刚才演示的各种连续操作的功能,包括 Auto GLM发红包,涉及到主动输入和生成,能调用各种APP,是否涉及到用户的个人隐私合规问题?
张鹏:首先,关于发红包这类活动,确实涉及到用户隐私和安全问题,因此我们非常谨慎。我们可能会开发一套统一的框架来解决数据隐私和安全问题,例如通过在本地处理一些不涉及敏感信息的任务,而将更复杂的任务交给云端解决。从技术演进的角度来看,我们先识别出可能性,然后逐步解决伴随而来的问题。