使用 BERT 的法学硕士的提取摘要 | 上海软件外包公司-知力科技

在当今快节奏的世界中，我们受到的信息轰炸超出了我们的处理能力。我们越来越习惯在更短的时间内接收更多信息，这导致在必须阅读大量文档或书籍时感到沮丧。这就是提取式摘要的用武之地。为了深入文本的核心，该过程从文章、文章或页面中提取关键句子，让我们快速了解其最重要的要点。

对于任何需要理解大型文档而不需要阅读每个单词的人来说，这是一个游戏规则改变者。

在本文中，我们深入研究了提取摘要的基础知识和应用。我们将研究大型语言模型的作用，特别是 BERT （来自 Transformers 的双向编码器表示），增强了这一过程。本文还将包括有关使用 BERT 进行提取摘要的实践教程，展示其将大量文本压缩为内容丰富的摘要的实用性。

了解提取摘要

提取摘要是自然语言处理 (NLP) 和文本分析领域的一项重要技术。通过它，从原文中精心挑选关键句子或短语，并将其组合起来，形成简洁而内容丰富的摘要。这包括仔细筛选文本，以确定所选文章中最关键的元素和中心思想或论点。

抽象摘要涉及生成源材料中通常不存在的全新句子，而提取摘要则坚持原始文本。它不会改变或释义，而是准确地提取句子，保持原来的措辞和结构。这样，摘要就可以忠实于源材料的语气和内容。在优先考虑信息准确性和保留作者原意的情况下，提取摘要技术非常有用。

它有许多不同的用途，例如总结新闻文章、学术论文或冗长的报告。该过程有效地传达了原始内容的信息，而不会出现释义时可能出现的潜在偏见或重新解释。

提取摘要如何使用法学硕士？

1。文本解析

这个初始步骤涉及将文本分解为其基本元素，主要是句子和短语。目标是识别算法稍后将评估的基本单元（在本上下文中为句子），以包含在摘要中，例如剖析文本以了解其结构和各个组成部分。

例如，模型会通过将四句段落分解为以下四句组成部分来分析该段落。

吉萨金字塔建于古埃及，宏伟地矗立了数千年。
它们是为法老建造的坟墓。
大金字塔是最著名的。
这些结构象征着建筑智慧。

2。特征提取

在此阶段，算法会分析每个句子，以识别可能表明它们对整个文本的重要性的特征或“特征”。常见特征包括关键字和短语的频率和重复使用、句子的长度、它们在文本中的位置及其含义，以及作为文本主题核心的特定关键字或短语的存在。

下面是法学硕士如何对第一句话进行特征提取的示例：“吉萨金字塔，建于古埃及，矗立千年。”

3。给句子评分

每个句子都会根据其内容分配一个分数。该分数反映了句子在整个文本上下文中的重要性。得分较高的句子被认为具有更大的分量或相关性。

简单地说，这个过程会评估每个句子对整个文本摘要的潜在重要性。

4。选择和聚合

最后阶段涉及选择得分最高的句子并将其编译成摘要。如果仔细完成，这可以确保摘要保持连贯，并总体代表原文的主要思想和主题。

为了创建有效的摘要，算法必须平衡包含简洁的重要句子、避免冗余的需求，并确保所选句子能够清晰、全面地概述整个原始文本。

吉萨金字塔建于古埃及，雄伟地矗立了数千年。它们是为法老建造的坟墓。这些结构象征着建筑的辉煌。

这个例子非常基础，从总共 4 个句子中提取 3 个来获得最佳的整体总结。多读一个句子并没有什么坏处，但是当文本更长时会发生什么呢？比方说，3 段？

如何使用 BERT LLM 运行提取摘要

第 1 步：安装并导入必要的软件包

我们将利用预训练的 BERT 模型。然而，我们不会只使用任何 BERT 模型；相反，我们将重点关注 BERT Extractive Summarizer。这个特定的模型已经针对提取摘要中的专门任务进行了微调。

!pip install bert-extractive-summarizer
从摘要器导入摘要器

步骤 2

从Python中的summarizer导入的Summarizer()函数是一个提取文本摘要工具。它使用BERT模型从较大的文本中分析和提取关键句子。此功能旨在保留最重要的信息，提供原始内容的浓缩版本。它通常用于有效地总结冗长的文档。

模型 = Summarizer()

第 3 步：导入文本

在这里，我们将导入我们想要测试模型的任何文本。为了测试我们的提取摘要模型，我们使用 ChatGPT 3.5 生成文本，并提示：“提供 GPU 历史及其当今使用方式的 3 段摘要。”

text = “图形处理单元 (GPU) 的历史可以追溯到 20 世纪 80 年代初，当时 IBM 和德州仪器 (Texas Instruments) 等公司开发了专门的图形加速器，用于渲染图像和提高整体图形性能。然而，直到 1990 年代末才出现2000 年代初，随着 3D 游戏和多媒体应用的出现，GPU 得到了重视。1999 年发布的 NVIDIA GeForce 256 通常被认为是第一款 GPU，因为它在单个芯片上集成了 2D 和 3D 加速。ATI（后来被 ATI 收购） AMD）在这一时期的 GPU 发展中也发挥了重要作用。GPU 的并行架构拥有数千个核心，允许它们同时处理多个计算，非常适合需要大规模并行性的任务。今天，GPU已经远远超出了最初以图形为中心的目的，现在广泛用于各个领域的并行处理任务，例如科学模拟、人工智能和机器学习。金融、医疗保健和汽车工程等行业利用 GPU 进行复杂的数据分析、医学成像和自动驾驶汽车开发，展示了其超越传统图形应用程序的多功能性。随着技术的进步，现代 GPU 不断突破计算能力的界限，通过并行计算在各个领域实现突破。 GPU 仍然是游戏行业不可或缺的一部分，为视频游戏提供身临其境且逼真的图形，其中高性能 GPU 增强视觉体验并支持要求苛刻的游戏图形。随着技术的进步，GPU 有望在塑造计算的未来方面发挥更加关键的作用。”

这是代码块内没有它的文本：

“图形处理单元 (GPU) 的历史可以追溯到 20 世纪 80 年代初，当时 IBM 和德州仪器 (Texas Instruments) 等公司开发了专门的图形加速器，用于渲染图像和提高整体图形性能。但是，直到 90 年代末和初2000 年代，随着 3D 游戏和多媒体应用的出现，GPU 得到了重视。1999 年发布的 NVIDIA GeForce 256 通常被认为是第一款 GPU，因为它在单个芯片上集成了 2D 和 3D 加速。ATI（后来被 AMD 收购）在此期间 GPU 的发展也发挥了重要作用。

GPU 的并行架构拥有数千个核心，允许它们同时处理多个计算，从而非常适合需要大规模并行性的任务。如今，GPU 的发展已经远远超出了其最初以图形为中心的用途，现在广泛用于各个领域的并行处理任务，例如科学模拟、人工智能和机器学习。金融、医疗保健和汽车工程等行业利用 GPU 进行复杂的数据分析、医学成像和自动驾驶汽车开发，展示了其超越传统图形应用程序的多功能性。

随着技术的进步，现代 GPU 不断突破计算能力的界限，通过并行计算在各个领域实现突破。 GPU 仍然是游戏行业不可或缺的一部分，为视频游戏提供身临其境且逼真的图形，其中高性能 GPU 增强视觉体验并支持要求苛刻的游戏图形。随着技术的进步，GPU 有望在塑造计算的未来方面发挥更加关键的作用。”

第 4 步：执行提取摘要

最后，我们将执行我们的摘要函数。该函数需要两个输入：要摘要的文本和摘要所需的句子数。处理后，它将生成一个提取摘要，然后我们将显示该摘要。

# 指定摘要中的句子数量
摘要 = 模型（文本，num_sentences=4）
打印（摘要）

提取摘要输出

图形处理单元 (GPU) 的历史可以追溯到 20 世纪 80 年代初，当时 IBM 和 Texas Instruments 等公司开发了专门的图形加速器，用于渲染图像和提高整体图形性能。 NVIDIA 于 1999 年发布的 GeForce 256 通常被认为是第一款 GPU，因为它在单个芯片上集成了 2D 和 3D 加速功能。如今，GPU 的发展已经远远超出了其最初以图形为中心的用途，现在广泛用于各个领域的并行处理任务，例如科学模拟、人工智能和机器学习。随着技术的进步，GPU 有望在塑造计算的未来方面发挥更加关键的作用。

我们的模型从我们的大型文本语料库中提取了 4 个最重要的句子来生成此摘要！

使用法学硕士进行提取总结的挑战

上下文理解限制

虽然法学硕士精通处理和生成语言，但他们对上下文的理解，尤其是较长文本的理解是有限的。法学硕士可能会错过微妙的细微差别或无法识别文本的关键方面，从而导致摘要不太准确或相关。语言模型越高级，总结就越好。

训练数据的偏差

法学硕士可以从各种来源（包括互联网）汇编的大量数据集中学习。这些数据集可能包含偏差，模型可能会无意中学习并在摘要中复制这些偏差，从而导致偏差或不公平的表示。

处理专业或技术语言

虽然法学硕士通常接受过广泛的通用文本培训，但他们可能无法准确捕捉法律、医学或其他高科技领域等领域的专业或技术语言。通过提供更专业和技术性的文本可以缓解这种情况。缺乏专业术语培训可能会影响在这些领域使用摘要的质量。

结论

很明显，提取摘要不仅仅是一个方便的工具；它还是一个工具。在我们这个信息饱和的时代，我们每天都被文字墙淹没，这变得越来越必要。通过利用 BERT 等技术的力量，我们可以看到如何将复杂的文本提炼成易于理解的摘要，从而节省我们的时间并帮助我们进一步理解正在总结的文本。

无论是学术研究、商业洞察，还是只是在技术先进的世界中保持信息灵通，提取式总结都是在我们周围的信息海洋中导航的实用方法。随着自然语言处理的不断发展，提取摘要等工具将变得更加重要，帮助我们快速查找和理解在分秒必争的世界中最重要的信息。