On the Radar：百度智能云千帆大模型平台加速企业多模态生成式AI应用落地

日期：2024-12-27 作者：chengbo0570 移动：http://oml01z.riyuangf.com/mobile/quote/73660.html

Omdia 观点

生成式AI已在各行各业得到广泛应用。在开源和专有大型语言模型（LLM）的推动下，生成式AI已应用于所有行业的120个应用场景中。虽然基于LLM的应用程序越来越受欢迎，但其本身仍存在固有的局限性。LLM主要针对文本和语音数据的理解、处理和生成进行了优化，无法进行多模态学习，也无法生成除文本和语音之外的其他输出。

为了解决上述问题，越来越多的厂商和开发者开始采用多模态生成式AI技术。该技术能够处理多种输入形式，包括文本、图像和音频，并将这些提示转换为几乎任意类型的输出。这将进一步提升用户体验，因为模型可以实现多模态的理解和生成。

一方面，凭借其理解能力，用户可以通过文本、语音、图像和视频与应用程序自然交互。通过多模态数据理解上下文，多模态生成式AI应用能够以更全面的方式作出响应，帮助企业从其他数据类型中获取情景感知的见解。

另一方面，多模态生成式AI技术的多模态生成能力允许用户生成从文本到语音、图像、视频、音频、音乐、点云数据、遥测数据、3D模型和数字孪生等各种类型的输出。通过充分的预训练和微调，这些模型可以生成高保真且物理准确的输出，非常适合企业应用场景。

希望部署多模态生成式AI应用的企业可以与两类厂商合作。

• 第一类：专注于多模态生成服务的生成式AI基础模型厂商。这类厂商以提供多模态生成服务为主，例如，OpenAI推出了Sora，这是一项文本到视频的生成服务，能够生成超逼真的视频，主要面向消费、媒体和娱乐行业。

• 第二类：提供多模态的生成式AI模型和应用的生成式AI开发平台厂商。这些厂商通常是拥有深厚生成式AI基础设施、工程和服务专业知识的超大规模企业。例如，百度智能云支持文心大模型、多模态模型系列和多模态生成式AI应用，如百度智能云曦灵（数字人），能帮助企业快速构建多模态生成式AI应用。

与这两类厂商合作各有利弊：

第一类厂商提供的模型对于不熟悉该技术的开发者和企业提供了一个甚佳的起点。由于多模态生成能力是通过服务方式提供的，用户可以轻松访问并使用该能力。这种使用便利性也为个人开发者降低开发门槛。然而，这类模型的多模态生成能力主要面向通用的应用场景，缺乏针对特定用例的定制化选项，无法重新训练以满足特定需求，尤其是在高度监管的行业或业务关键的应用场景中。尽管这些模型在用户中很受欢迎，但对于希望构建企业级多模态生成式AI应用的企业来说，这些模型的限制性很高。

相反，企业始终需要寻求基于最适合企业数据和业务目标的模型来开发多模态生成式AI应用。这些模型需要具备高度的定制化能力、准确性、安全性，并符合市场的数据安全法规。由于并非所有开发者和企业都精通多模态生成式AI，因此他们需要一个开发平台，该平台能够提供多样化的多模态生成式AI模型选择，同时易于部署、优化和维护，以及满足高标准的AI治理和安全要求。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行

On the Radar： 百度智能云千帆大模型平台加速企业多模态生成式AI应用落地

On the Radar：百度智能云千帆大模型平台加速企业多模态生成式AI应用落地