【产业信息速递】OpenAI官宣全新AI大模型GPT-4o:支持多模态视觉/语音对话

   日期:2024-12-26    作者:shdns 移动:http://oml01z.riyuangf.com/mobile/quote/44001.html

(信息来源:爱集微)

【产业信息速递】OpenAI官宣全新AI大模型GPT-4o:支持多模态视觉/语音对话

 

人工智能(AI)公司OpenAI 5月13日宣布,将推出全新AI大模型GPT-4o,支持文本、图像、语音多模态交互,并有着即时、逼真的语音对话功能。业界解读,此举是OpenAI为保持业界领先地位的最新举动。

 

OpenAI表示,GPT-4o的字母“o”表示“omni”,是迈向更自然的人机交互的一步——即接受文本、音频、图像的任意组合作为输入,并生成文本、音频、图像任意组合输出。它可以在短至232毫秒的时间内响应音频输入,平均响应时间320毫秒,这与人类在对话中的响应时间相似。此外,GPT-4o在英文和代码上的性能与GPT-4 Turbo相匹配,在非英语文本上的性能显著提高,同时API速度更快、成本降低50%。官方表示,与现有AI大模型相比,GPT-4o在视觉和音频理解方面尤其出色。

 

OpenAI在官网发布视频对GPT-4o进行了演示,用户可以与ChatGPT对话,获得无延迟的即时回复,并且支持在ChatGPT说话时将其打断,这一特性此前被认为是高阶人工智能语音助手的标志。

 

OpenAI CEO萨姆·奥尔特曼在博客文章中写道,“这感觉就像电影中的AI一样……与电脑交谈从来没有像这样自然,而现实确实如此。”

 

研究人员在视频中展示了ChatGPT的新语音助手功能,在一次演示中,ChatGPT可利用视觉和语音功能同时与一名研究人员交谈,帮助他解决了纸上的一个数学方程式。

 

在另一个演示中,GPT-4o大模型为ChatGPT赋予戏谑对话的能力,当研究者表示心情很好,夸赞ChatGPT时,ChatGPT使用语音进行风趣回应。

 

OpenAI首席技术官米拉·穆拉提(Mira Murati)在活动上表示,新的AI大模型将免费提供,因为它比公司之前的大模型更具成本效益。她说:“GPT-4o的付费用户将比免费用户拥有更大的容量限制。”该公司表示,GPT-4o将在未来几周内在ChatGPT上推出。



特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号