(信息来源:爱集微)
人工智能(AI)公司OpenAI 5月13日宣布,将推出全新AI大模型GPT-4o,支持文本、图像、语音多模态交互,并有着即时、逼真的语音对话功能。业界解读,此举是OpenAI为保持业界领先地位的最新举动。
OpenAI表示,GPT-4o的字母“o”表示“omni”,是迈向更自然的人机交互的一步——即接受文本、音频、图像的任意组合作为输入,并生成文本、音频、图像任意组合输出。它可以在短至232毫秒的时间内响应音频输入,平均响应时间320毫秒,这与人类在对话中的响应时间相似。此外,GPT-4o在英文和代码上的性能与GPT-4 Turbo相匹配,在非英语文本上的性能显著提高,同时API速度更快、成本降低50%。官方表示,与现有AI大模型相比,GPT-4o在视觉和音频理解方面尤其出色。
OpenAI在官网发布视频对GPT-4o进行了演示,用户可以与ChatGPT对话,获得无延迟的即时回复,并且支持在ChatGPT说话时将其打断,这一特性此前被认为是高阶人工智能语音助手的标志。
OpenAI CEO萨姆·奥尔特曼在博客文章中写道,“这感觉就像电影中的AI一样……与电脑交谈从来没有像这样自然,而现实确实如此。”
研究人员在视频中展示了ChatGPT的新语音助手功能,在一次演示中,ChatGPT可利用视觉和语音功能同时与一名研究人员交谈,帮助他解决了纸上的一个数学方程式。
在另一个演示中,GPT-4o大模型为ChatGPT赋予戏谑对话的能力,当研究者表示心情很好,夸赞ChatGPT时,ChatGPT使用语音进行风趣回应。
OpenAI首席技术官米拉·穆拉提(Mira
Murati)在活动上表示,新的AI大模型将免费提供,因为它比公司之前的大模型更具成本效益。她说:“GPT-4o的付费用户将比免费用户拥有更大的容量限制。”该公司表示,GPT-4o将在未来几周内在ChatGPT上推出。