- 从零构建大模型
- (美)塞巴斯蒂安·拉施卡
- 526字
- 2025-05-07 11:44:03
1.7 构建大语言模型
在本章,我们为理解大语言模型打下了基础。在本书的后续章节里,我们将从零开始,一步步构建自己的模型。我们将以 GPT 的核心原理为指导,按照图 1-9 所示的路线图,分 3 个阶段来逐步实现这一目标。

图 1-9 构建大语言模型的 3 个主要阶段:实现模型架构和准备数据(第一阶段)、预训练大语言模型以获得基础模型(第二阶段),以及微调基础模型以得到个人助手或文本分类器(第三阶段)
在第一阶段,我们将学习数据预处理的基本流程,并着手实现大语言模型的核心组件——注意力机制。
在第二阶段,我们将学习如何编写代码并预训练一个能够生成新文本的类 GPT 大语言模型。同时,我们还将探讨评估大语言模型的基础知识,这对于开发高效的自然语言处理系统至关重要。
需要指出的是,从头开始预训练大语言模型是一项艰巨的任务。训练类 GPT 模型所需的计算成本可能高达数千到数百万美元。鉴于本书的目的是教学,因此我们将使用较小的数据集进行训练。此外,本书也提供了用于展示如何加载那些公开可用的模型参数的示例代码。
最后,在第三阶段,我们将对一个预训练后的大语言模型进行微调,使其能够执行回答查询、文本分类等任务——这是许多真实应用程序和研究中常见的需求。
希望你已经做好准备。快与我们一起踏上这段激动人心的探索之旅吧!