大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳,不仅形成深入且独到的理解,而且能够帮助新手快速入门。
本文主要介绍了2024年人工智能数据报告,希望能对学习人工智能的同学们有所帮助。
到 2023 年为止,人工智能在多项任务中的表现已经超过了人类,下图清晰地展示了 AI 系统在九个代表性任务的 AI 基准测试中相对于人类基准的进步(比如,图像分类或基础阅读理解)。AI Index 团队针对每个任务选取了代表性的基准。
如去年的报告所强调的,AI 技术性能的一个新兴主题是在多个基准测试中观察到的性能饱和现象,比如用来评价 AI 模型如 ImageNet 的熟练程度测试。这些测试的结果近几年趋于平稳,这可能意味着 AI 的能力已经达到一个顶峰,或者说明研究者们开始追求更高的复杂挑战。
如上所述,近些年来,大语言模型已在包括 SQuAD(问题解答)和 SuperGLUE(语言理解)在内的传统英文基准测试中超越了人类。这种突飞猛进的发展促使我们需要更全面的评测标准。
HaluEval 是在 2023 年推出的一个新的基准测试,专门用来评估大语言模型中的幻觉问题。它包含了超过 35,000 个样本,这些样本既有幻觉的也有正常的,用来通过大语言模型进行分析和评价。研究显示,ChatGPT 在其回答中大约 19.5% 的内容是捏造的不可验证信息,涉及语言、气候和技术等多个领域。此外,该研究还检验了目前的大语言模型在识别这些幻觉上的能力。下图展示了一些顶尖的大语言模型在不同任务中识别幻觉的能力,包括问答、知识驱动对话和文本总结等。这些发现强调了幻觉是一个严重且持续的问题。
随着 AI 文字转图片系统的快速进步,人们开发了更为复杂的评估方法。2023 年,斯坦福的研究者推出了全方位评估文转图模型 (HEIM) 的基准测试,该测试全面地从 12 个关键维度对图像生成器进行评估,这些维度在实际应用中极为重要,如图像与文本的对齐 (image-text alignment)、图像的质量 (image quality) 和美观度 (aesthetics)。[9] 该模型的评估依赖于人工评价,这一点非常关键,因为很多自动化指标难以精确地评价图像的各个方面。