想了解更多AIGC的内容,请访问:
51CTO AI.x社区
https://www.51cto.com/aigc/
在当今快节奏的世界里,充斥着太多的信息,并且难以处理。人们越来越习惯于在更短的时间内接收更多的信息,当他们不得不阅读大量的文件或书籍时,可能会感到沮丧。这就该提取摘要发挥重要作用了。为了提取文章的核心内容,这个过程从文章、页面或段落中提取关键句子,为人们提供一些要点的快照。
对于那些无需逐字阅读就能理解大型文档的人来说,提取摘要是游戏规则的改变者。
本文深入探讨了提取摘要的基本原理和应用,并将研究大型语言模型的作用,特别是BERT(来自Transformers的双向编码器表示)以增强该过程。本文还将包括一个使用BERT进行提取摘要的实践教程,展示它在将大量文本精简成信息丰富的摘要方面的实用性。
提取摘要是自然语言处理和文本分析领域的一项重要技术。提取摘要可以从原文中精心挑选出关键的句子或短语,并将其组合起来,形成一个简洁而翔实的摘要。这包括仔细地筛选文本,以确定所选文章中最关键的元素和中心思想或论点。
在抽象摘要涉及生成源材料中通常不存在的全新句子的情况下,提取摘要则坚持原始文本。它不会改变或改写句子,而是准确地提取句子原义,保持原来的措辞和结构。这样,摘要就能与源材料的基调和内容保持一致。在信息的准确性和保留作者的原始意图成为优先事项的情况下,提取摘要技术是非常有益的。
它有很多不同的用途,例如总结新闻文章、学术论文或长篇报告。这个过程有效地传达了原始内容的信息,而不会出现转述时可能出现的潜在偏见或重新解释。
1.文本分析
这个初始步骤包括将文本分解为基本元素,主要是句子和短语。目标是识别基本单元(在这种情况下是句子),算法稍后将评估并包含在摘要中,例如剖析文本以了解其结构和单个组件。
例如,该模型将分析一个包含四句话的段落,将其分解为以下四个句子。
- 建于古埃及的吉萨金字塔巍然屹立了数千年。
- 它们是为法老建造的陵墓。
- 大金字塔是最著名的金字塔。
- 这些金字塔是建筑的智慧象征。
2.特征提取
在这个阶段,算法需要分析每个句子,以识别特性(Characteristics)或特征(Features),这些特性或特征可能表明它们对整个文本的重要性。常见的特征包括关键词与短语的频率和重复使用、句子的长度、它们在文本中的位置及其含义,以及对文本主题中心的特定关键词或短语的存在。
以下是一个大型语言模型(LLM)如何对第一句话进行特征提取的例子:“吉萨金字塔,建于古埃及,巍然屹立了数千年。”
3.对句子进行评分
每个句子都会根据其内容进行评分。这个分数反映了一个句子在整个文本中的重要性。得分更高的句子被认为更有分量或相关性。
简单地说,这个过程对每个句子的潜在意义进行评估,对整个文本进行总结。
4.选择与聚合
最后一个阶段是选择得分最高的句子,并将它们汇编成摘要。如果认真处理,可以确保摘要保持连贯,并能全面代表原文的主要思想和主题。
为了创建有效的摘要,算法必须平衡包括重要句子的需求,这些句子必须简洁,避免冗余,并确保所选句子提供对整个原文的清晰和全面的概述。
建于古埃及的吉萨金字塔巍然屹立了数千年。它们是为法老建造的陵墓。这些金字塔是建筑智慧的象征。
这是一个非常基础的例子,从总共4个句子提取了3个句子,以获得最佳的整体概括。多读一个句子并没有坏处,但如果文本变长了怎么办?例如有三个段落的文本?
步骤1:安装和导入必要的软件包
首先,利用预训练的BERT模型。不要任意使用一个BERT模型;与其相反,将关注BERT提取摘要生成器。这个特殊的模型已经针对提取摘要中的专门任务进行了微调。
步骤2
从Python中的摘要器导入的Summarizer()函数是一个提取文本摘要工具。它使用BERT模型从更大的文本中分析和提取关键句子。该功能的目的是保留最重要的信息,提供原始内容的精简版本。它通常用于高效地总结冗长的文档。
步骤3:导入文本
在这里,将导入想要测试模型的任何文本。为了测试这个提取摘要模型,使用ChatGPT 3.5生成文本,并提示:“提供一个关于GPU历史和当今使用方式的三段摘要。”
以下是代码块中没有包括它的文本:“图形处理单元(GPU)的历史可以追溯到20世纪80年代初,IBM和德州仪器等公司当时开发了专门的图形加速器,用于渲染图像和提高整体图形性能。然而,直到20世纪90年代末和21世纪初GPU才随着3D游戏和多媒体应用的出现而崭露头角。NVIDIA公司的GeForce 256于1999年发布,通常被认为是全球第一款GPU,因为它将2D和3D加速功能都集成在一个芯片上。ATI公司(后来被AMD公司收购)在这一时期的GPU开发中也发挥了重要作用。
GPU的并行架构有数千个核心处理器,使它们能够同时处理多个计算,非常适合需要大规模并行性的任务。如今,GPU已经远远超出了其最初以图形为中心的用途,现在被广泛用于各种领域的并行处理任务,例如科学模拟、人工智能和机器学习。金融、医疗保健和汽车工程等行业利用GPU进行复杂的数据分析、医学成像和自动驾驶汽车开发,展示了其超越传统图形应用程序的多功能性。
随着技术的进步,现代GPU不断突破计算能力的极限,通过并行计算在不同领域实现突破。GPU仍然是游戏行业不可或缺的一部分,为视频游戏提供身临其境和逼真的图形。高性能GPU增强了视觉体验,并支持要求苛刻的游戏图形。随着技术的进步,GPU有望在塑造计算的未来方面发挥更关键的作用。”
步骤4:执行提取摘要
最后,将执行Summary函数。这需要两个输入:需要进行摘要的文本和所需的摘要句子数。经过处理后,它将生成一个提取摘要,然后将显示该摘要。
摘要输出:
图形处理单元(GPU)的历史可以追溯到20世纪80年代早期,IBM和德州仪器等公司当时开发了专门用于渲染图像和提高整体图形性能的图形加速器。NVIDIA公司于1999年发布的GeForce 256通常被认为是第一款GPU,因为它在单个芯片上集成了2D和3D加速功能。如今,GPU已经远远超出了其最初以图形为中心的目的,现在广泛用于各种领域的并行处理任务,例如科学模拟、人工智能和机器学习。随着技术的进步,GPU有望在塑造未来的计算中发挥更加关键的作用。
该模型从庞大的文本语料库中提取了4个最重要的句子来生成这个摘要!
语境理解局限性
虽然大型语言模型(LLM)在处理和生成语言方面很精通,但它们对语境的理解,尤其是对较长的文本的理解是有限的。大型语言模型(LLM)可能会错过细微差别或无法识别文本的关键方面,从而导致摘要不那么准确或相关。语言模型越高级,摘要就越好。
训练数据偏差
大型语言模型(LLM)从包括互联网在内的各种来源汇编的大量数据集中学习。这些数据集可能包含偏差,大型语言模型(LLM)可能会无意中学习并在摘要中复制这些偏差,从而导致扭曲或不公平的表示。
处理专业或技术语言
虽然大型语言模型(LLM)通常接受广泛的一般文本培训,但它们可能无法准确掌握法律、医学或其他高技术领域的专业或技术语言。这可以通过提供更专业和技术的文本来缓解。缺乏专业术语的培训会影响在这些领域使用摘要的质量。
很明显,提取摘要不仅仅是一个方便的工具;在信息饱和的时代,其重要性日益增长。通过利用BERT等技术的力量,可以看到复杂的文本如何被提炼成易于理解的摘要,这节省了人们的时间,并帮助他们进一步理解被总结的文本。
无论是学术研究、商业见解,还是在技术先进的世界里保持信息灵通,提取摘要都是一种实用的方法,可以在信息海洋中导航。随着自然语言处理的不断发展,像提取摘要这样的工具将变得更加重要,帮助人们快速找到并理解在这个分秒必争的世界中最重要的信息。
原文标题:Extractive Summarization With LLM Using BERT,作者:Kevin Vu
链接:https://dzone.com/articles/extractive-summarization-with-llm-using-bert。
想了解更多AIGC的内容,请访问:
51CTO AI.x社区
https://www.51cto.com/aigc/