我们将从2018年的一个开创性的BERT模型开始,并以今年的最新突破结束,如Meta AI的LLaMA和OpenAI的GPT-4。如果您想跳过,以下是我们介绍的语言模型:
- BERT by Google
- GPT-3 by OpenAI
- LaMDA by Google
- PaLM by Google
- LLaMA by Meta AI
- GPT-4 by OpenAI
如果这些深入的教育内容对您有用,您可以订阅我们的人工智能研究邮件列表,以便在我们发布新材料时得到提醒
1.谷歌的BERT
摘要
2018年,谷歌人工智能团队推出了一种新的自然语言处理(NLP)尖端模型——BERT,即变形金刚的双向编码器表示。它的设计使模型能够考虑每个单词左右两侧的上下文。虽然概念上很简单,但BERT在11项NLP任务上获得了最先进的结果,包括问答、命名实体识别和其他与一般语言理解有关的任务。该模型标志着NLP的一个新时代,语言模型的预训练成为一种新标准。
目标是什么?
为了消除早期语言模型的局限性,特别是在预训练的表示是单向的方面,这限制了可用于预训练的架构的选择,并限制了微调方法。
- 例如,OpenAI的GPT v1使用了从左到右的架构,其中每个令牌只关注Transformer的自关注层中的先前令牌。
- 这种设置对于句子级任务来说是次优的,对于令牌级任务尤其有害,因为在令牌级任务中,结合双方的上下文很重要。
如何解决这个问题?
- 通过随机屏蔽一定比例的输入令牌来训练深度双向模型,从而避免单词可以间接“看到自己”的循环。
- 此外,通过构建一个简单的二元分类任务来预测句子B是否紧跟在句子a之后,从而使BERT能够更好地理解句子之间的关系,从而预训练句子关系模型。
- 用大量数据(33亿个单词语料库)训练一个大模型(24个Transformer块,1024个隐藏,340M个参数)。
结果是什么?
推进11项NLP任务的最先进技术,包括:
- GLUE得分为80.4%,比之前的最佳成绩提高了7.6%;
- 在SQuAD 1.1上实现了93.2%的准确率,并比人类性能高出2%。
- 提出了一个预先训练的模型,该模型不需要任何实质性的架构修改即可应用于特定的NLP任务。
在哪里可以了解更多关于这项研究的信息?
- Research paper: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- Blog post: Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing by Google AI
从哪里可以获得实现代码?
- Google Research has released an official Github repository with Tensorflow code and pre-trained models for BERT.
- PyTorch implementation of BERT is also available on GitHub.
2. GPT-3 by OpenAI
摘要
目标是什么?
- 证明仅在可公开访问的数据集上训练性能最佳的模型的可行性,而不依赖于专有或受限的数据源。
- 为研究社区提供更小、更具性能的模型,从而使那些无法访问大量基础设施的人能够研究大型语言模型。
如何解决这个问题?
- 为了训练LLaMA模型,研究人员只使用了公开的、与开源兼容的数据。
- 他们还对标准Transformer架构进行了一些改进:
- 采用GPT-3方法,通过对每个变压器子层的输入进行归一化,而不是对输出进行归一化,增强了训练的稳定性。
- 受PaLM模型的启发,研究人员用SwiGLU激活函数取代了ReLU非线性,以提高性能。
- 受Su等人(2021)的启发,他们取消了绝对位置嵌入,而是在网络的每一层引入了旋转位置嵌入(RoPE)。
- 最后,Meta AI团队通过以下方式提高了模型的训练速度:
- 通过不存储注意力权重或计算掩蔽键/查询分数,使用高效的因果多头注意力实现。
- 使用检查点来最大限度地减少反向过程中重新计算的激活。
- 重叠激活的计算和GPU之间通过网络的通信(由于所有减少操作)。
结果是什么?
尽管LLaMA-13B比GPT-3小了10倍多,但它还是超过了GPT-3,而LLaMA-65B在对抗PaLM-540B时保持了自己的优势。
在哪里可以了解更多关于这项研究的信息?
- Research paper: LLaMA: Open and Efficient Foundation Language Models
- Blog post: Introducing LLaMA: A foundational, 65-billion-parameter large language model by Meta AI
从哪里可以获得实现代码?
- Meta AI provides access to LLaMA to academic researchers, individuals associated with government, civil society, academic institutions, and global industry research labs on an individual case evaluation basis. To apply, go to the following GitHub repository.
6. GPT-4 by OpenAI
摘要
大型语言模型在现实世界中有许多应用。GPT-4列出了以下内容:
- 聊天机器人和虚拟助理的自然语言理解和生成。
- 语言之间的机器翻译。
- 文章、报告或其他文本文档的摘要。
- 市场研究或社交媒体监控的情绪分析。
- 用于营销、社交媒体或创意写作的内容生成。
- 用于客户支持或知识库的问答系统。
- 垃圾邮件过滤、主题分类或文档组织的文本分类。
- 个性化的语言学习和辅导工具。
- 代码生成和软件开发协助。
- 医疗、法律和技术文件分析和协助。
- 残疾人无障碍工具,如文本到语音和语音到文本转换。
- 语音识别和转录服务。
关注最近的人工智能突破并思考它们在现实世界中的潜在应用是非常令人兴奋的。然而,在现实生活中部署这些模型之前,我们需要解决相应的风险和限制,不幸的是,这些风险和限制非常重要。
如果你询问GPT-4的风险和局限性,它可能会为你提供一长串相关问题。在筛选了这个列表并添加了一些额外的注意事项后,我最终发现了现代大型语言模型所具有的以下一组关键风险和限制:
- 偏见和歧视:这些模型从大量的文本数据中学习,这些数据往往包含偏见和歧视性内容。因此,产生的产出可能会无意中使刻板印象、攻击性语言和基于性别、种族或宗教等因素的歧视永久化。
- 错误信息:大型语言模型可能生成事实上不正确、误导或过时的内容。虽然模型是在各种来源上训练的,但它们可能并不总是提供最准确或最新的信息。这种情况经常发生,因为模型优先生成语法正确或看起来连贯的输出,即使它们具有误导性。
- 缺乏理解:尽管这些模型似乎能理解人类语言,但它们主要通过识别训练数据中的模式和统计关联来运作。他们对自己生成的内容没有深入的理解,这有时会导致荒谬或无关的输出。
- 不恰当的内容:语言模型有时会生成冒犯性、有害或不恰当的属性。尽管人们努力将此类内容最小化,但由于训练数据的性质和模型无法辨别上下文或用户意图,这种情况仍有可能发生。
大型语言模型无疑彻底改变了自然语言处理领域,并在提高各种角色和行业的生产力方面显示出巨大的潜力。他们能够生成类似人类的文本,自动化日常任务,并在创造性和分析过程中提供帮助,这使他们在当今快节奏、技术驱动的世界中成为不可或缺的工具。
然而,承认和理解这些强大模型的局限性和风险是至关重要的。偏见、错误信息和恶意使用的可能性等问题不容忽视。随着我们继续将这些人工智能驱动的技术融入我们的日常生活,在利用它们的能力和确保人类监督之间取得平衡至关重要,尤其是在敏感和高风险的情况下。
如果我们成功地负责任地采用生成性人工智能技术,我们将为人工智能和人类专业知识共同推动创新和为所有人创造一个更美好世界的未来铺平道路。
本文:【NLP】2023年改变人工智能的前六大NLP语言模型 | 开发者开聊
- 做一个简单介绍,酒研年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师研究会】和【开发者开聊】,有更多的内容分享,谢谢大家收藏。
- 企业架构师需要比较广泛的知识面,了解一个企业的整体的业务,应用,技术,数据,治理和合规。之前4年主要负责企业整体的技术规划,标准的建立和项目治理。最近一年主要负责数据,涉及到数据平台,数据战略,数据分析,数据建模,数据治理,还涉及到数据主权,隐私保护和数据经济。 因为需要,比如数据资源入财务报表,另外数据如何估值和货币化需要财务和金融方面的知识,最近在学习财务,金融和法律。打算先备考CPA,然后CFA,如果可能也想学习法律,备战律考。
- 欢迎爱学习的同学朋友关注,也欢迎大家交流。全网同号【架构师研究会】