根据自定义数据微调大型语言模型 | 上海软件外包公司-知力科技

大型语言模型 (LLM) 是先进的人工智能系统，旨在理解和生成自然语言文本。他们接受来自互联网的大量文本数据集（包括书籍、网站和文章）的训练，使他们能够学习语言模式、语法和广泛的信息。因此，法学硕士根据他们收到的输入生成连贯且上下文相关的文本。

LLM 不断发展并学习新技巧，突破生成式 AI 的可能性界限 – 强大的 (AI) 能力伴随着巨大的责任； LLM 也是如此。有时，法学硕士会生成非预期、虚假且未正确调整的输出。在本文中，我们将更好地了解如何通过称为微调的方法使法学硕士返回正确的结果。

法学硕士面临的挑战

虽然法学硕士拥有令人印象深刻的通用语言技能，但将其直接应用于特定任务可能会出现问题。他们庞大的训练数据可能缺乏特定领域的专业知识，导致输出不准确或不相关。他们经常难以理解上下文、误解提示或错过重要信息。此外，依赖黑盒算法使得控制输出变得困难——引发了对偏见、错误信息甚至道德影响的担忧。

以下是对每个限制及其如何影响法学硕士有效性的更深入研究：

定制输出：有时应用程序需要特定类型的样式和结构作为输出，但法学硕士可能不会产生所需的定制输出。这就是法学硕士需要适当的调整和培训来理解风格，以便他们能够产生量身定制的输出。
缺少上下文：基础 LLM 模型不会知道其训练中缺少特定领域的详细信息数据。通过从可信来源提供具体细节来培训法学硕士非常重要。
专业词汇：法学硕士通常接受通用数据集的培训，通常无法理解医学、金融或法律等领域的专业词汇。这给准确总结、解释或讨论利基主题带来了挑战，导致通用或不正确的回答，严重阻碍了它们在专业领域的实用性。这就是对法学硕士进行微调变得非常重要的地方。

微调克服了这些限制，通过有针对性的数据和培训让法学硕士专门从事特定任务，最终释放其准确可靠的应用的真正潜力。

什么是微调？

将法学硕士想象为拥有丰富知识但缺乏特定技能的语言专家。微调就像学徒期一样，吸收这些专家并为他们配备专门的任务。通过向他们提供特定于任务的数据并调整他们的内部“知识模式”，我们改进了他们的反应并磨练了他们的能力。因此，经过微调的法学硕士可以成为一名医学信息专家，准备好解决您提出的特定问题或任务，而不是与医学术语作斗争。这就像为精确的工作定制一个强大的工具一样，让法学硕士在现实应用中真正大放异彩。

微调技术

微调 LLM 并不是一个一刀切的过程。不同的技术具有独特的优势并适合特定的场景。让我们探讨四种关键方法：

完整模型微调：此方法将 LLM 视为一张白纸，在目标数据上重新训练其所有层。它对于需要重点转移的任务来说非常强大，但计算成本可能很高，并且容易发生灾难性遗忘（丢失先验知识）。

基于特征的微调：这里，仅对 LLM 的特定层或组件进行重新训练，利用预先训练的知识在适应特定任务的同时理解一般语言。这不仅计算效率高，而且可以最大限度地减少知识损失，非常适合法学硕士一般领域内的任务。

高效参数微调：LoRA（低阶适配器）等技术使用更少的参数进行微调，显着减少计算量资源和培训时间。这对于在资源有限的设备上部署 LLM 或快速试验不同任务尤其有价值。

RLHF 微调：RLHF 不是直接对标记数据进行训练，而是依靠人工反馈来指导 LLM 改进。人类评估模型的输出，对期望的输出提供奖励，对不需要的输出提供惩罚。然后，法学硕士使用此反馈来调整其内部参数，迭代地完善其行为以满足人类期望。这对于标记数据稀缺或主观的任务以及将法学硕士的表现与微妙的人类偏好保持一致特别有帮助。

除此之外，还有许多其他技术，但我们将坚持上面提到的重要技术。选择正确的技术取决于任务复杂性、可用资源和所需的适应水平等因素。

微调教程

我们需要 SingleStore Notebooks 和 Gradient 来根据我们自己的自定义数据对 LLM 进行微调。

激活免费 SingleStore 试用以访问笔记本。

SingleStore Notebooks 是基于 Web 的 Jupyter Notebook，允许开发人员使用 SQL 或 Python 代码创建、探索、可视化数据分析和工作流程并进行协作。

接下来，在 Gradient 上创建一个免费帐户。 Gradient 旨在简化开源法学硕士的微调和推理。

确保安全地复制并保存工作区 ID 和访问令牌。稍后我们的笔记本中将需要它们。

转到您的工作区并点击“微调：”

我们将对此处提到的基础模型“nous-hermes2”进行微调。

现在，返回 SingleStore Notebooks 并创建一个新笔记本 – 您可以将其命名为任何您喜欢的名称。

从安装 Gradient AI 开始。

Python

!pip installgradientai --upgrade

接下来，添加渐变工作区 ID 和访问密钥：

Python

导入操作系统

os.environ['GRADIENT_WORKSPACE_ID']=''

os.environ['GRADIENT_ACCESS_TOKEN']=''

让我们微调基本模型 (nous-hermes2)。

以下脚本演示了根据特定数据微调基本模型“nous-hermes2”以提高其在相关任务或查询上的性能的过程。

从基础模型创建一个名为“Pavanmodel”的新模型适配器。

该脚本定义了一个示例查询，询问“谁是 Pavan Belagatti？”并在进行任何微调之前通过新创建的模型适配器运行此查询。它打印生成的响应，展示模型的性能预调整。

接下来定义训练样本数组。每个样本都包含一个“输入”字段，其中包含有关 Pavan Belagatti 的特定提示和相应的响应。这些示例将用于微调模型，以更好地理解和生成与这些查询相关的信息。

该脚本将微调的纪元数设置为 3。

在训练机器学习或深度学习模型时，纪元是一个术语，用于描述对整个训练数据集的一次完整遍历。

微调后，脚本再次通过模型适配器运行相同的初始示例查询。它打印新生成的响应以演示微调的效果。

微调后生成的输出令人兴奋。当第一次询问时，它返回了一个幻觉的答案：“Pavan Belagatti 是印度职业羽毛球运动员”，但经过我们输入数据的训练和微调后，它给出了正确的响应。

确保在我们开始时创建的 SingleStore Notebook 中运行分步代码。

完整的 Notebook 代码可以在我的 GitHib 中找到存储库。

随着生成式人工智能不断攀登新的高度，法学硕士在技术领域变得越来越关键。在法学硕士能力的推动下，各组织正在对生成式人工智能应用程序进行大量投资，以获得竞争优势并在各个领域进行创新。然而，针对特定数据和需求采用这些复杂的模型提出了相当大的挑战。

正如我们的综合教程中所强调的，微调已成为一项不可或缺的策略，可确保这些模型保持上下文相关性和运营效率。这一过程不仅提高了法学硕士的表现，还对其进行了定制，以更有效地满足不同应用程序的独特要求和目标。随着我们的前进，通过微调对法学硕士进行迭代完善对于释放其全部潜力至关重要，为更加个性化、准确和高效的人工智能解决方案铺平道路。