看看本周新进展
本周带来的 8 个 SOTA 模型项目分别用于多语言理解、多模态对话、文本到3D生成、跨模态检索等;5个工具项目用于LLM智能代理、LLM模型部署、聊天机器人、GPT本地知识库问答构建等。
Anthropic升级Claude,可处理100K token,约7.5万个单词
近日,Anthropic 宣布,Claude 已经能够支持 100K 的上下文 token 长度,也就是大约 75,000 个单词,而 ChatGPT 只能处理 32k token。Claude 100k 版本拥有“超长记忆力”,可速读公司财报年报、技术开发文档、识别法律文件中的风险、阅读上百页研究论文、乃至于处理整个代码库中的数据。例如,上传 Langchain 的 API 文档,Claude 100k 可基于该文档生成 Langchain 的简单演示代码。当前可在网页端或者 API 体验 Claude 100k 。网页版需要有试用资格,API 使用按官方来收费。
获取资源:
https://sota.jiqizhixin.com/project/claude
HuggingFace推出Transformers Agents,可让大模型挑选合适模型完成指定任务
与 HuggingGPT 理念类似,Hugging Face 团队推出了一个新的 API——HuggingFace Transformers Agents,可让大模型挑选 Hugging Face 合适模型完成指定任务。不仅支持 ChatGPT 等 OpenAI 大模型,还支持 OpenAssistant、StarCoder 等,可实现文字生成图像、网站摘要朗读、PDF 总结等功能。通过 Transformers Agents,用户可以调用 10 万多个 Hugging Face 模型完成各种多模态任务。此外,Transformers Agents 还提供了诸多实用的工具,包括目前 AI 技术应用广泛的文档问答、文本转语音、文本生成图像、网站内容总结、图像分割等一系列工具。
获取资源:
https://sota.jiqizhixin.com/project/transformers-agents
谷歌发布PaLM 2,支持多语言、更强的数学、代码能力
近日,谷歌发布了其新一代基础大模型 PaLM 2,PaLM 2 在具有 100 + 语言的语料库上进行训练的Pathwat架构模型,更擅长多语言任务,能够理解、生成和翻译比以往模型更细致多样化的文本,同时,PaLM 2 改进了对代码编写和调试的支持,在 20 种编程语言上进行了训练,包括 Python 和 JavaScript 等流行语言以及 Prolog、Verilog 和 Fortran 等其他更专业的语言。谷歌将为 PaLM 2 提供四种模型尺寸,从小到大依次为 Gecko、Otter、Bison 和 Unicorn,更易于针对各种用例进行部署。其中轻量级的 Gecko 模型可以在移动设备上运行。
获取资源:
https://sota.jiqizhixin.com/project/palm-2-2
Meta开源ImageBind,可整合6种模态数据,用于构建沉浸式、多感官体验生成式AI系统的探索
ImageBind: One Embedding Space To Bind Them All
Meta 发布开源模型 ImageBind,能够将多种数据流,包括图像、文本、音频、深度、热学和IMU数据整合在一起,可用于构建沉浸式、多感官体验的生成式AI系统的探索。ImageBind 是首个将六种类型的数据整合到一个嵌入空间中的模型,为研究人员打开了尝试开发全新整体性系统的闸门,例如结合 3D 和 IMU 传感器来设计或体验身临其境的虚拟世界。此外它还可以提供一种探索记忆的丰富方式,即组合使用文本、视频和图像来搜索图像、视频、音频文件或文本信息。当前该项目发布 imagebind_huge 的模型权重,提供了项目安装说明以及模型的用法示例。
获取资源:
https://sota.jiqizhixin.com/project/imagebind
OpenAI推出新的文本到3D生成模型Shap-E,能在几秒内生成复杂、多样化3D形状
Shap-E: Generating Conditional 3D Implicit Functions
OpenAI 推出文本到 3D 生成模型 Shap-E,能够在几秒钟内生成复杂和多样化的 3D 形状。与最近 3D 生成模型的不同,Shap-E 直接生成隐式函数的参数,这些参数可以被渲染成纹理网格和神经辐射场。Shap-E 分两个阶段训练,首先训练一个编码器,将 3D assets 映射为隐含函数的参数;其次,在编码器的输出上训练一个条件扩散模型。与点云上的显式生成模型 Point-E 相比,Shap-E 收敛得更快,并达到了相当甚至更好的样本质量。当前 Shap-E 已在 GitHub 开源模型权重、推理代码和样本。
获取资源:
https://sota.jiqizhixin.com/project/shap-e
基于GPT4All-J的私有化部署文档问答平台privateGPT,无需联网,能100%保证用户的隐私不泄露
PrivateGPT 是一个基于 GPT4All-J 的私有化部署文档问答平台,允许用户在本地环境中使用 GPT 交互文档,而不必将它们上传到云端。该应用程序提供了一个私密的环境,可以保护用户的文档免受黑客和其他不良分子的攻击。项目提供丰富的 API,供用户使用自己的文档进行交互式问答和生成文本;支持自定义训练数据和模型参数,以满足个性化需求。
获取资源:
https://sota.jiqizhixin.com/project/privategpt
上海AI Lab等开源视觉语言大模型MultiModal-GPT,基于OpenFlamingo微调得到,可进行多轮对话
MultiModal-GPT: A Vision and Language Model for Dialogue with Humans
MultiModal-GPT 旨在实现视觉语言的多轮对话系统它可以遵循人类的各种指令,如生成详细的说明,计算感兴趣的物体的数量,以及回答用户的一般问题。模型基于开源多模态大模型OpenFlamingo 并使用公开数据集创建和微调了各种视觉指令数据,包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话等。项目提供安装说明、支持在线演示,可在本地部署试用,提供微调数据集准备、训练脚本。
获取资源:
https://sota.jiqizhixin.com/project/multimodal-gpt
香港科技大学等开源多模态基础模型InstructBLIP,能看图进行理解、推理、描述,支持多轮对话
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
为解决视觉-语言指令微调中的挑战,并对模型未见过的数据和任务的改进泛化能力进行系统研究,香港科技大学等开源 InstructBLIP,基于预训练 BLIP-2 模型对视觉语言指令微调得到,能够看图进行理解、推理、描述,还支持多轮对话。为了保证指令微调数据的多样性,该团队收集了涵盖了 11 个任务类别和 28 个数据集,包括图像字幕、带有阅读理解的图像字幕、视觉推理等,InstructBLIP 在其中的 13 个数据集上实现了最先进的零试泛化性能,大大优于 BLIP-2 和 Flamingo。当前 InstructBLIP 支持在本地进行推理试用,项目提供了模型推理使用说明,可实现看图生成描述。
获取资源:
https://sota.jiqizhixin.com/project/instructblip
上海人工智能实验室提出多模态视觉交互对话系统InternGPT,可与GPT进行手动交互来对图像进行操作
InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language
上海人工智能实验室提出多模态视觉交互对话系统 InternGPT(iGPT),该系统将具有规划和推理能力的聊天机器人(如 ChatGPT)与非语言指令(如指向性动作)结合起来,用户可通过点击、拖动和绘制与 ChatGPT 进行互动来直接操纵屏幕上的图像或视频。通过在语言中添加手势,iGPT与聊天机器人的通信更加高效和准确,特别是对于涉及复杂视觉场景的任务,使其成为未来交互系统的有前途的发展,当前该项目提供示例 demo、支持在线试用。
获取资源:
https://sota.jiqizhixin.com/project/interngpt
用Rust在CPU上运行大型语言模型的推理项目,运行高效、相比GPU更加节能
llm 是可在 CPU 上运行大型语言模型的推理项目,其基于ggml 张量库支持的大语言模型 Rust 实现,旨在将 Rust 的稳健性和易用性带入大型语言模型的研究领域,Rust 可以实现快速的运行速度,相比于GPU更加节能 。项目目前支持包含 GPT-2, LLaMA GPT4All , StableLM, Dolly v2 在内的多款开源大模型,并正在持续开发和支持更多的语言模型中。项目提供了本地部署指导以及对应的模型权重。
获取资源:
https://sota.jiqizhixin.com/project/llm
首个基于Rasa和Langchain构建的无头LLM聊天机器人平台RasaGPT
RasaGPT 是基于 Rasa 和 Langchain 构建的首个无头 LLM 聊天机器人平台。该平台提供了 Rasa 和 Telegram 的样板代码和参考实现,可利用类似 Langchain 的 LLM 库进行索引、检索和上下文注入。项目集成度高,开箱即用,可使用 FastAPI 创建专有机器人端点、文档上传和训练管道;集成 Langchain/LlamaIndex和Rasa;可处理 LLM 库的库冲突和元数据传递,以及在 MacOS 上使用 Docker 运行 Rasa 等。RasaGPT 为开发人员提供了更灵活的聊天机器人构建方案。
获取资源:
https://sota.jiqizhixin.com/project/rasagpt
将问题拆解并调用外部资源的工具SmartGPT,有效提高GPT复杂任务性能
SmartGPT 旨在为 LLM(特别是 GPT-3.5 和 GPT-4)提供无需用户输入即可完成复杂任务的能力,方法是将复杂任务分解为更小的问题,并使用互联网和其他外部资源收集信息。项目兼顾模块化、灵活性,通过分解任务让 LLM 更轻松地解决用户的任务,同时具备高集成度,非常容易配置在本地。
获取资源:
https://sota.jiqizhixin.com/project/smartgpt
港科大等推出开源模型DetGPT,只需微调三百万参数量,即可实现复杂推理和局部物体定位能力
来自港科大 & 港大的研究人员提出了一个全开源模型 DetGPT ( DetectionGPT,只需微调三百万参数量,让模型轻松拥有了复杂推理和局部物体定位能力,可以泛化到大多数场景。这意味着模型能够通过自身知识的推理来理解人类抽象指令,轻松识别图片中的人类感兴趣的物体。DetGPT 包含对象定位、复杂指令理解,推理定位等多种优势,同时项目支持本地部署,项目内开源了项目源码、模型权重和多个在线 demo。
获取资源:
https://sota.jiqizhixin.com/project/detgpt
网页端访问: 在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。
移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。