分享好友 最新动态首页 最新动态分类 切换频道
谷歌放出最强大模型狙击OpenAI,重心转向AI智能体
2024-12-30 01:25

继发布最强量子芯片之后,谷歌又在AI上作出重要举动。

谷歌放出最强大模型狙击OpenAI,重心转向AI智能体

北京时间12月12日凌晨,谷歌赶在OpenAI宣布ChatGPT正式登陆iPhone之前,发布了全新模型Gemini 2.0。

谷歌CEO桑达尔·皮查伊称,这是谷歌迄今为止最强大的模型。凭借原生图像和原生音频的输出等多模态方面的提升,Gemini 2.0能够构建新的AI智能体,让谷歌离构建通用助手的愿景更进一步。

需要指出的是,Gemini 2.0主要开放给开发者以及受信任的测试人员。目前,Gemini 2.0 Flash体验版模型已经面向所有Gemini用户开放。

Gemini 2.0 Flash是建立在1.5 Flash基础之上的模型,此前1.5 Flash是谷歌最受开发者欢迎的版本。与1.5 Flash相比,Gemini 2.0 Flash在同样快速的响应时间下性能进一步增强。谷歌方面称,2.0 Flash在关键基准测试中甚至超越了1.5 Pro,其速度是1.5 Pro的两倍。

同时2.0 Flash还具有新功能,除了能够支持图片、视频和音频等多模态输入,还可以支持多模态输出,比如可直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用Google Search、代码执行以及第三方用户定义的函数等工具。

全球Gemini用户现在可以在电脑端和移动端体验基于2.0 Flash优化后的聊天对话,并且该版本将很快在Gemini移动应用中推出。基于这个新模型,用户还可以体验到Gemini助手。明年初,谷歌还会将Gemini 2.0扩展到更多产品中。

Gemini 2.0最大的变化在于把重心转向AI智能体,想要做所有AI智能体的基座模型。基于此,Gemini 2.0开发出了一系列原型,这些原型能够帮助用户完成相应的任务。

其中,Project Astra的升级版,用于探索未来通用AI助手能力的研究原型。自从在Google I/O大会上推出Project Astra以来 ,谷歌一直向那些在Android手机上使用它的受信任的测试人员收集反馈。此次推出的升级版可以实现多种语言和混合语言之间的对话,也可使用 Google Search、Google Lens和Google Map等新工具,能够记住长达10分钟的会话内容,并可以近于人类对话的延迟来理解语言。

全新的Project Mariner从浏览器入手探索人与智能体交互的未来发展。Project Mariner 使用了Gemini 2.0构建的早期研究原型,能够理解和推理浏览器页面中的信息,包括像素和文本、代码、图像和表单等网页元素,然后通过实验性的Chrome扩展程序帮助用户完成相应任务。此次升级,Project Mariner改进了原来速度较慢的问题。

简而言之,用户可以用这项功能让浏览器自己去帮你完成特定任务,例如批量查找某些网站上邮箱地址,从而在一定程度上实现浏览器的“自动运行”。

Jules则是面向开发者的编码智能体,它可以直接集成到GitHub工作流程中来协助开发者完成开发任务。

在谷歌的演示视频中,演示人员输入了一长串含有详细编程问题的提示语,之后Jules会对这些要求进行分析,给出一个三步的编程解决方案,待点击同意后,模型就会开启自动编程,生成代码。这无疑有助于开发者进一步提升工作效率。

去年年底,谷歌发布了Gemini 1.0模型,主要能力是整合和理解信息。而Gemini 2.0能让信息变得更加有用。桑达尔·皮查伊表示,Gemini 2.0的进展得益于谷歌长达10年全栈式AI创新研究的投入,基于谷歌定制的硬件第六代TPU Trillium构建而成。

就在谷歌以最强大模型吸睛之时,OpenAI为期12天的产品发布活动仍在进行中。同一天,OpenAI对外展示了ChatGPT与苹果Apple Intelligence的整合,内容略显平淡。谷歌Gemini 2.0的突然发布,显然抢了不少OpenAI的风头。

在Gemini 2.0的加持下,谷歌一口气推出三款智能体产品,也意味着其在和微软绑定OpenAI、亚马逊与Anthropic的竞争中又迈出了重要一步。

智能体已经成为大模型领域竞争的核心方向。所谓智能体,是指能够感知环境、进行决策并采取行动以实现特定目标的系统,被视作大语言模型(LLM)落地应用的关键载体。

近两个月前,微软曾连发10个AI智能体,面向销售、运营等场景,随后又宣布Copilot Studio平台已支持用户构建自主智能体,同时发布5款预构建的智能体。而在刚刚结束的2024 re:Invent上,亚马逊一口气发布了6款大模型,其中Amazon Nova Premier同样是多模态大模型,专为复杂推理任务而生。

最新文章
excel 区域内按行排序_在Excel 2010中对行进行排序
Most of the time when you're sorting in Excel, you sort based on the values in one or more columns. If your workbooks are like mine, it's rare that you sort horizontally, based on the values in a row. But if you ne
c编程向计算机发送数据,一文读懂一台计算机是如何把数据发送给另一台计算机的...
这是之前一篇文章的修订版,感觉是一篇很不错的文章,重新修改排版了下。前言天各一方的两台计算机是如何通信的呢?在成千上万的计算机中,为什么一台计算机能够准确着寻找到另外一台计算机,并且把数据发送
CTF 工具 集合
From:Hello CTF:在学习CTF前希望您具备一些CS领域的基础知识,这里推荐您先阅读 JANlittle师傅写的CS入门资料 ( 点此跳转 ) 大致具备CS领域的基本技能后再开始CTF的学习。 入入入入门(fén)综述࿱
AI小助手使用指南:涵盖TV版操作与百度AI小助手应用教程
在这个科技日新月异的时代人工智能()正在逐步渗透到咱们生活的各个角落从智能手机、智能家居到智能电视等设备。小助手作为人工智能技术的产物它能帮助我们更高效地完成日常任务如播放音乐、查询天气、设置闹钟等,甚至可以成为我们的生活
08山东电视台公共频道节目推介暨广告年会直播
12月2日19:00时现场直播2008山东电视台公共频道节目推介暨广告年会  【大片头】  【新闻女生组推介板块】  1、 开场歌舞:《魅力》2’40  表演:七名新闻女生  伴舞:20男生  【主持人开场】孙亮 郭培鑫  【《新闻女生组》
Android 的开源电话/通讯/IM聊天项目全集
一、Android的XMPP客户端 BeemBeem 是一个运行于 Android 手机平台的 XMPP (jabber) 的客户端软件,兼容标准的 XMPP 服务器和服务,例如 Ejabberd, Openfire, Facebook, 和 Gmail). 支持 SASL, 代理(Socks4, Socks5, HTTP), DNS SRV, and c
ai智能机器人源码定制开发快速搭建送服务器
聊天机器人chatai*近推出了一款新产品——-Lisa,它能帮助人们更好地交流和分享想法。这款软件目前还在测试阶段,已经有很多人使用过了。1:chat在线聊天机器人的开发背景随着移动互联网的发展,智能手机已经成为人们生活中不可或缺的工具
AI智能生成文字Logo:一站式解决个性化标识设计需求
在数字化浪潮的推动下形象已成为企业竞争力的关键组成部分。一个独有、个性化的标识不仅可以吸引消费者的目光还能传递企业的核心价值。传统的标识设计往往需要耗费大量时间和精力且难以满足个性化需求。如今智能生成文字Logo的出现为解决这
BTS WORLD
【基本介绍】『一睁眼竟是2012年,而且我还成了Big Hit的职员?!在BTS还没出现的世界,我成为了BTS的经纪人。现在他们能否出道,全看我了!』难道就是追星的最高境界?我还能回到原来的世界吗?如同梦境一般在眼前展开的的神秘故事,现在
Autodesk Maya 2023 for Mac 正版激活永久使用(支持M1)
兼容M1的Autodesk Maya 2023 终于更新啦!!玛雅是专业的三维动画设计工具,这次的maya2023中文版引入Blue Pencil,它取代了现有的油性铅笔工具,提供更多用于文本和形状的绘图工具,以及用于注释的图层系统,另外还更新了布尔建模、拓扑工
相关文章
推荐文章
发表评论
0评