分享好友 最新动态首页 最新动态分类 切换频道
【NLP】2024年改变人工智能的前六大NLP语言模型
2024-12-26 09:39

【NLP】2024年改变人工智能的前六大NLP语言模型

我们将从2018年的一个开创性的BERT模型开始,并以今年的最新突破结束,如Meta AI的LLaMA和OpenAI的GPT-4。如果您想跳过,以下是我们介绍的语言模型

  1. BERT by Google
  2. GPT-3 by OpenAI
  3. LaMDA by Google
  4. PaLM by Google
  5. LLaMA by Meta AI
  6. GPT-4 by OpenAI

如果这些深入的教育内容对您有用,您可以订阅我们的人工智能研究邮件列表,以便在我们发布新材料时得到提醒

1.谷歌的BERT

摘要

2018年,谷歌人工智能团队推出了一种新的自然语言处理(NLP)尖端模型——BERT,即变形金刚的双向编码器表示。它的设计使模型能够考虑每个单词左右两侧的上下文。虽然概念上很简单,但BERT在11项NLP任务上获得了最先进的结果,包括问答、命名实体识别和其他与一般语言理解有关的任务。该模型标志着NLP的一个新时代,语言模型的预训练成为一种新标准。

目标是什么? 

为了消除早期语言模型的局限性,特别是在预训练的表示是单向的方面,这限制了可用于预训练的架构的选择,并限制了微调方法。

  • 例如,OpenAI的GPT v1使用了从左到右的架构,其中每个令牌只关注Transformer的自关注层中的先前令牌。
  • 这种设置对于句子级任务来说是次优的,对于令牌级任务尤其有害,因为在令牌级任务中,结合双方的上下文很重要。
如何解决这个问题
  • 通过随机屏蔽一定比例的输入令牌来训练深度双向模型,从而避免单词可以间接“看到自己”的循环。
  • 此外,通过构建一个简单的二元分类任务来预测句子B是否紧跟在句子a之后,从而使BERT能够更好地理解句子之间的关系,从而预训练句子关系模型。
  • 用大量数据(33亿个单词语料库)训练一个大模型(24个Transformer块,1024个隐藏,340M个参数)。
结果是什么

推进11项NLP任务的最先进技术,包括

  • GLUE得分为80.4%,比之前的最佳成绩提高了7.6%
  • 在SQuAD 1.1上实现了93.2%的准确率,并比人类性能高出2%。
  • 提出了一个预先训练的模型,该模型不需要任何实质性的架构修改即可应用于特定的NLP任务。
在哪里可以了解更多关于这项研究的信息
  • Research paper: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
  • Blog post: Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing by Google AI
从哪里可以获得实现代码
  • Google Research has released an official Github repository with Tensorflow code and pre-trained models for BERT.
  • PyTorch implementation of BERT is also available on GitHub.

2. GPT-3 by OpenAI

摘要
目标是什么? 
  • 证明仅在可公开访问的数据集上训练性能最佳的模型的可行性,而不依赖于专有或受限的数据源。
  • 为研究社区提供更小、更具性能的模型,从而使那些无法访问大量基础设施的人能够研究大型语言模型。
如何解决这个问题
  • 为了训练LLaMA模型,研究人员只使用了公开的、与开源兼容的数据。
  • 他们还对标准Transformer架构进行了一些改进
    • 采用GPT-3方法,通过对每个变压器子层的输入进行归一化,而不是对输出进行归一化,增强了训练的稳定性。
    • 受PaLM模型的启发,研究人员用SwiGLU激活函数取代了ReLU非线性,以提高性能。
    • 受Su等人(2021)的启发,他们取消了绝对位置嵌入,而是在网络的每一层引入了旋转位置嵌入(RoPE)。
  • 最后,Meta AI团队通过以下方式提高了模型的训练速度
    • 通过不存储注意力权重或计算掩蔽键/查询分数,使用高效的因果多头注意力实现。
    • 使用检查点来最大限度地减少反向过程中重新计算的激活。
    • 重叠激活的计算和GPU之间通过网络的通信(由于所有减少操作)。
结果是什么

尽管LLaMA-13B比GPT-3小了10倍多,但它还是超过了GPT-3,而LLaMA-65B在对抗PaLM-540B时保持了自己的优势。

在哪里可以了解更多关于这项研究的信息
  • Research paper: LLaMA: Open and Efficient Foundation Language Models
  • Blog post: Introducing LLaMA: A foundational, 65-billion-parameter large language model by Meta AI
从哪里可以获得实现代码
  • Meta AI provides access to LLaMA to academic researchers, individuals associated with government, civil society, academic institutions, and global industry research labs on an individual case evaluation basis. To apply, go to the following GitHub repository.

6. GPT-4 by OpenAI

摘要

大型语言模型在现实世界中有许多应用。GPT-4列出了以下内容

  • 聊天机器人和虚拟助理的自然语言理解和生成。
  • 语言之间的机器翻译。
  • 文章、报告或其他文本文档的摘要。
  • 市场研究或社交媒体监控的情绪分析。
  • 用于营销、社交媒体或创意写作的内容生成。
  • 用于客户支持或知识库的问答系统。
  • 垃圾邮件过滤、主题分类或文档组织的文本分类。
  • 个性化的语言学习和辅导工具。
  • 代码生成和软件开发协助。
  • 医疗、法律和技术文件分析和协助。
  • 残疾人无障碍工具,如文本到语音和语音到文本转换。
  • 语音识别和转录服务。

关注最近的人工智能突破并思考它们在现实世界中的潜在应用是非常令人兴奋的。然而,在现实生活中部署这些模型之前,我们需要解决相应的风险和限制,不幸的是,这些风险和限制非常重要。

如果你询问GPT-4的风险和局限性,它可能会为你提供一长串相关问题。在筛选了这个列表并添加了一些额外的注意事项后,我最终发现了现代大型语言模型所具有的以下一组关键风险和限制

  • 偏见和歧视:这些模型从大量的文本数据中学习,这些数据往往包含偏见和歧视性内容。因此,产生的产出可能会无意中使刻板印象、攻击性语言和基于性别、种族或宗教等因素的歧视永久化。
  • 错误信息:大型语言模型可能生成事实上不正确、误导或过时的内容。虽然模型是在各种来源上训练的,但它们可能并不总是提供最准确或最新的信息。这种情况经常发生,因为模型优先生成语法正确或看起来连贯的输出,即使它们具有误导性。
  • 缺乏理解:尽管这些模型似乎能理解人类语言,但它们主要通过识别训练数据中的模式和统计关联来运作。他们对自己生成的内容没有深入的理解,这有时会导致荒谬或无关的输出。
  • 不恰当的内容:语言模型有时会生成冒犯性、有害或不恰当的属性。尽管人们努力将此类内容最小化,但由于训练数据的性质和模型无法辨别上下文或用户意图,这种情况仍有可能发生。

大型语言模型无疑彻底改变了自然语言处理领域,并在提高各种角色和行业的生产力方面显示出巨大的潜力。他们能够生成类似人类的文本,自动化日常任务,并在创造性和分析过程中提供帮助,这使他们在当今快节奏、技术驱动的世界中成为不可或缺的工具。

然而,承认和理解这些强大模型的局限性和风险是至关重要的。偏见、错误信息和恶意使用的可能性等问题不容忽视。随着我们继续将这些人工智能驱动的技术融入我们的日常生活,在利用它们的能力和确保人类监督之间取得平衡至关重要,尤其是在敏感和高风险的情况下。

如果我们成功地负责任地采用生成性人工智能技术,我们将为人工智能和人类专业知识共同推动创新和为所有人创造一个更美好世界的未来铺平道路。

本文:【NLP】2023年改变人工智能的前六大NLP语言模型 | 开发者开聊

  • 做一个简单介绍酒研年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师研究会】和【开发者开聊】,有更多的内容分享,谢谢大家收藏。
  • 企业架构师需要比较广泛的知识面,了解一个企业的整体的业务,应用,技术,数据,治理和合规。之前4年主要负责企业整体的技术规划,标准的建立和项目治理。最近一年主要负责数据,涉及到数据平台,数据战略,数据分析,数据建模,数据治理,还涉及到数据主权,隐私保护和数据经济。 因为需要,比如数据资源入财务报表,另外数据如何估值和货币化需要财务和金融方面的知识,最近在学习财务,金融和法律。打算先备考CPA,然后CFA,如果可能也想学习法律,备战律考。
  • 欢迎爱学习的同学朋友关注,也欢迎大家交流。全网同号【架构师研究会】
最新文章
成品网站1.1.719:一款高效优化的建站工具,满足多种需求
随着互联网技术的不断发展,越来越多的企业和个人都开始选择搭建自己的网站。成品网站作为一种简化建站流程的选择,因其便捷性和高效性而备受青睐。成品网站1.1.719版本作为一款新兴的成品网站模板,在市场上迅速得到了广泛应用。这个版本
百度竞价网站头像怎么收费
  在数字化营销的浪潮中,百度竞价网站作为一种有效的推广方式,吸引了众多企业的关注。其中,网站头像作为展示企业形象的重要元素,其设置与收费问题也备受关注。本文将详细解析百度竞价网站头像的收费标准、计费方式及相关注意事项。百
联想YOGA Air 15 Aura AI评测:酷睿Ultra 200V很惊喜,AI爽翻了
随着酷睿Ultra 200V在德国IFA 2024前夕发布,今年的轻薄型笔记本不约而同发生了质变,更长的续航和更轻薄的机身,成为采用酷睿Ultra 200V轻薄本给人们留下的第一印象。重要的是,Lunar Lake带来的核显iGPU与NPU的全方面升级,给轻薄型AI PC
迈锐宝usb接口旁边的是什么
发电机调节器的作用主要是在发电机转速变化时自动控制发电机电压使其保持恒定。 具体来说它能防止发电机电压过高而烧毁电气设备和电池防止过度充电也能避免电压过低导致用电设备无法正常工作以及电池充电不足。
考研最难的十大专业
在考研的道路上,选择专业是一个重要的决策。对于许多研究生来说,有些专业的难度和挑战性更为突出。以下是一些被认为是考研中较为困难的专业,希望能为大家提供一些参考。1. 医学
想知道淘宝补单这把“神秘钥匙”究竟能打开多少店铺的成功之门?别急,今天我就来为你揭晓,这股电商江湖的新风向!
大连文都全封闭半年集训营校区联系电话方式(大连考研培训机构排名前五的机构)
解答了关于《大连文都全封闭半年集训营校区联系电话方式(大连考研培训机构排名前五机构)》相关内容,同时关于1、大连文都教育地址,2、大连文都教育培训中心,3、大连文都怎么样,4、大连文都考研培训学校怎么样,5、大连文都考研培训学校地
百度蜘蛛池收录:深度评测,蜘蛛池哪个好用一点?全方位解析各大平台优劣
本文对百度蜘蛛池进行了深度评测,对比了各大平台的优劣。从收录速度、收录质量、稳定性等方面分析了各个蜘蛛池的特点,为用户提供参考。结果发现,XX蜘蛛池在收录速度和质量上表现突出,值得推荐。本文目录导读:蜘蛛池概述主流蜘蛛池评测
种草易赚钱难,小红书急了
作者 | 胡描  编辑 | 罗丽娟“小红书成为了普通人的生活搜索入口,日均用户搜索占比60%,日均搜索查询量达到了3亿次。”在小红书will商业大会上,小红书COO叫柯南如此说道。让种草更“科学”,也成为了小红书今年的目标。骨子里,小红书是
掌握百度搜索排名靠前的实用策略
青衣网络-www.ra0.cn:掌握百度搜索排名靠前的实用策略目录:1. 理解百度搜索引擎工作原理2. 关键词研究与优化3. 内容质量的提升4. 网站结构与用户体验5. 外部链接建设与管理6. 移动优先与响应式设计7. 社交媒体的利用8. 持续监测与调整正
相关文章
推荐文章
发表评论
0评