Claude升级支持70K+单词输入；HuggingGPT「官替版」API 发布，允许调用10万+HF模型

Claude升级支持70K+单词输入；HuggingGPT「官替版」API 发布，允许调用10万+HF模型

2024-12-26 09:28

看看本周新进展

本周带来的 8 个 SOTA 模型项目分别用于多语言理解、多模态对话、文本到3D生成、跨模态检索等；5个工具项目用于LLM智能代理、LLM模型部署、聊天机器人、GPT本地知识库问答构建等。

Anthropic升级Claude，可处理100K token，约7.5万个单词

近日，Anthropic 宣布，Claude 已经能够支持 100K 的上下文 token 长度，也就是大约 75,000 个单词，而 ChatGPT 只能处理 32k token。Claude 100k 版本拥有“超长记忆力”，可速读公司财报年报、技术开发文档、识别法律文件中的风险、阅读上百页研究论文、乃至于处理整个代码库中的数据。例如，上传 Langchain 的 API 文档，Claude 100k 可基于该文档生成 Langchain 的简单演示代码。当前可在网页端或者 API 体验 Claude 100k 。网页版需要有试用资格，API 使用按官方来收费。

获取资源：

https://sota.jiqizhixin.com/project/claude

HuggingFace推出Transformers Agents，可让大模型挑选合适模型完成指定任务

与 HuggingGPT 理念类似，Hugging Face 团队推出了一个新的 API——HuggingFace Transformers Agents，可让大模型挑选 Hugging Face 合适模型完成指定任务。不仅支持 ChatGPT 等 OpenAI 大模型，还支持 OpenAssistant、StarCoder 等，可实现文字生成图像、网站摘要朗读、PDF 总结等功能。通过 Transformers Agents，用户可以调用 10 万多个 Hugging Face 模型完成各种多模态任务。此外，Transformers Agents 还提供了诸多实用的工具，包括目前 AI 技术应用广泛的文档问答、文本转语音、文本生成图像、网站内容总结、图像分割等一系列工具。

获取资源：

https://sota.jiqizhixin.com/project/transformers-agents

谷歌发布PaLM 2，支持多语言、更强的数学、代码能力

近日，谷歌发布了其新一代基础大模型 PaLM 2，PaLM 2 在具有 100 + 语言的语料库上进行训练的Pathwat架构模型，更擅长多语言任务，能够理解、生成和翻译比以往模型更细致多样化的文本，同时，PaLM 2 改进了对代码编写和调试的支持，在 20 种编程语言上进行了训练，包括 Python 和 JavaScript 等流行语言以及 Prolog、Verilog 和 Fortran 等其他更专业的语言。谷歌将为 PaLM 2 提供四种模型尺寸，从小到大依次为 Gecko、Otter、Bison 和 Unicorn，更易于针对各种用例进行部署。其中轻量级的 Gecko 模型可以在移动设备上运行。

获取资源：

https://sota.jiqizhixin.com/project/palm-2-2

Meta开源ImageBind，可整合6种模态数据，用于构建沉浸式、多感官体验生成式AI系统的探索

ImageBind: One Embedding Space To Bind Them All

Meta 发布开源模型 ImageBind，能够将多种数据流，包括图像、文本、音频、深度、热学和IMU数据整合在一起，可用于构建沉浸式、多感官体验的生成式AI系统的探索。ImageBind 是首个将六种类型的数据整合到一个嵌入空间中的模型，为研究人员打开了尝试开发全新整体性系统的闸门，例如结合 3D 和 IMU 传感器来设计或体验身临其境的虚拟世界。此外它还可以提供一种探索记忆的丰富方式，即组合使用文本、视频和图像来搜索图像、视频、音频文件或文本信息。当前该项目发布 imagebind_huge 的模型权重，提供了项目安装说明以及模型的用法示例。

获取资源：

https://sota.jiqizhixin.com/project/imagebind

OpenAI推出新的文本到3D生成模型Shap-E，能在几秒内生成复杂、多样化3D形状

Shap-E: Generating Conditional 3D Implicit Functions

OpenAI 推出文本到 3D 生成模型 Shap-E，能够在几秒钟内生成复杂和多样化的 3D 形状。与最近 3D 生成模型的不同，Shap-E 直接生成隐式函数的参数，这些参数可以被渲染成纹理网格和神经辐射场。Shap-E 分两个阶段训练，首先训练一个编码器，将 3D assets 映射为隐含函数的参数；其次，在编码器的输出上训练一个条件扩散模型。与点云上的显式生成模型 Point-E 相比，Shap-E 收敛得更快，并达到了相当甚至更好的样本质量。当前 Shap-E 已在 GitHub 开源模型权重、推理代码和样本。

获取资源：

https://sota.jiqizhixin.com/project/shap-e

基于GPT4All-J的私有化部署文档问答平台privateGPT，无需联网，能100%保证用户的隐私不泄露

PrivateGPT 是一个基于 GPT4All-J 的私有化部署文档问答平台，允许用户在本地环境中使用 GPT 交互文档，而不必将它们上传到云端。该应用程序提供了一个私密的环境，可以保护用户的文档免受黑客和其他不良分子的攻击。项目提供丰富的 API，供用户使用自己的文档进行交互式问答和生成文本；支持自定义训练数据和模型参数，以满足个性化需求。

获取资源：

https://sota.jiqizhixin.com/project/privategpt

上海AI Lab等开源视觉语言大模型MultiModal-GPT，基于OpenFlamingo微调得到，可进行多轮对话

MultiModal-GPT: A Vision and Language Model for Dialogue with Humans

MultiModal-GPT 旨在实现视觉语言的多轮对话系统它可以遵循人类的各种指令，如生成详细的说明，计算感兴趣的物体的数量，以及回答用户的一般问题。模型基于开源多模态大模型OpenFlamingo 并使用公开数据集创建和微调了各种视觉指令数据，包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话等。项目提供安装说明、支持在线演示，可在本地部署试用，提供微调数据集准备、训练脚本。

获取资源：

https://sota.jiqizhixin.com/project/multimodal-gpt

香港科技大学等开源多模态基础模型InstructBLIP，能看图进行理解、推理、描述，支持多轮对话

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

为解决视觉-语言指令微调中的挑战，并对模型未见过的数据和任务的改进泛化能力进行系统研究，香港科技大学等开源 InstructBLIP，基于预训练 BLIP-2 模型对视觉语言指令微调得到，能够看图进行理解、推理、描述，还支持多轮对话。为了保证指令微调数据的多样性，该团队收集了涵盖了 11 个任务类别和 28 个数据集，包括图像字幕、带有阅读理解的图像字幕、视觉推理等，InstructBLIP 在其中的 13 个数据集上实现了最先进的零试泛化性能，大大优于 BLIP-2 和 Flamingo。当前 InstructBLIP 支持在本地进行推理试用，项目提供了模型推理使用说明，可实现看图生成描述。

获取资源：

https://sota.jiqizhixin.com/project/instructblip

上海人工智能实验室提出多模态视觉交互对话系统InternGPT，可与GPT进行手动交互来对图像进行操作

InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language

上海人工智能实验室提出多模态视觉交互对话系统 InternGPT（iGPT），该系统将具有规划和推理能力的聊天机器人（如 ChatGPT）与非语言指令（如指向性动作）结合起来，用户可通过点击、拖动和绘制与 ChatGPT 进行互动来直接操纵屏幕上的图像或视频。通过在语言中添加手势，iGPT与聊天机器人的通信更加高效和准确，特别是对于涉及复杂视觉场景的任务，使其成为未来交互系统的有前途的发展，当前该项目提供示例 demo、支持在线试用。

获取资源：

https://sota.jiqizhixin.com/project/interngpt

用Rust在CPU上运行大型语言模型的推理项目，运行高效、相比GPU更加节能

llm 是可在 CPU 上运行大型语言模型的推理项目，其基于ggml 张量库支持的大语言模型 Rust 实现，旨在将 Rust 的稳健性和易用性带入大型语言模型的研究领域，Rust 可以实现快速的运行速度，相比于GPU更加节能。项目目前支持包含 GPT-2, LLaMA GPT4All , StableLM, Dolly v2 在内的多款开源大模型，并正在持续开发和支持更多的语言模型中。项目提供了本地部署指导以及对应的模型权重。

获取资源：

https://sota.jiqizhixin.com/project/llm

首个基于Rasa和Langchain构建的无头LLM聊天机器人平台RasaGPT

RasaGPT 是基于 Rasa 和 Langchain 构建的首个无头 LLM 聊天机器人平台。该平台提供了 Rasa 和 Telegram 的样板代码和参考实现，可利用类似 Langchain 的 LLM 库进行索引、检索和上下文注入。项目集成度高，开箱即用，可使用 FastAPI 创建专有机器人端点、文档上传和训练管道；集成 Langchain/LlamaIndex和Rasa；可处理 LLM 库的库冲突和元数据传递，以及在 MacOS 上使用 Docker 运行 Rasa 等。RasaGPT 为开发人员提供了更灵活的聊天机器人构建方案。

获取资源：

https://sota.jiqizhixin.com/project/rasagpt

将问题拆解并调用外部资源的工具SmartGPT，有效提高GPT复杂任务性能

SmartGPT 旨在为 LLM（特别是 GPT-3.5 和 GPT-4）提供无需用户输入即可完成复杂任务的能力，方法是将复杂任务分解为更小的问题，并使用互联网和其他外部资源收集信息。项目兼顾模块化、灵活性，通过分解任务让 LLM 更轻松地解决用户的任务，同时具备高集成度，非常容易配置在本地。

获取资源：

https://sota.jiqizhixin.com/project/smartgpt

港科大等推出开源模型DetGPT，只需微调三百万参数量，即可实现复杂推理和局部物体定位能力

来自港科大 & 港大的研究人员提出了一个全开源模型 DetGPT ( DetectionGPT，只需微调三百万参数量，让模型轻松拥有了复杂推理和局部物体定位能力，可以泛化到大多数场景。这意味着模型能够通过自身知识的推理来理解人类抽象指令，轻松识别图片中的人类感兴趣的物体。DetGPT 包含对象定位、复杂指令理解，推理定位等多种优势，同时项目支持本地部署，项目内开源了项目源码、模型权重和多个在线 demo。

获取资源：

https://sota.jiqizhixin.com/project/detgpt

网页端访问： 在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ，即可前往「SOTA！模型」平台，查看关注的模型是否有新资源收录。

移动端访问：在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」，关注 SOTA！模型服务号，即可通过服务号底部菜单栏使用平台功能，更有最新AI技术、开发资源及社区动态定期推送。