你可以把ChatGPT想象成一个天赋异禀但最初一片空白的“婴儿大脑”。它要变得像现在这样博学健谈,必须经过一个漫长而复杂的“学习”过程,这个过程的核心就是“语料训练”。所谓“语料”,简单说就是用来喂给AI学习的文字材料,包括书籍、网页、新闻、论坛帖子等等,总量可能高达45TB,相当于读了数百万本书。那么,这个学习过程具体分几步呢?大体上,它经历了预训练、监督微调、奖励建模和强化学习优化这几个关键阶段。
这是最基础,也是“食量”最大的一步。工程师们把从互联网上收集来的海量文本(注意,是未经人工标注的原始文本)喂给模型。在这个阶段,模型的任务其实很简单:预测下一个词。比如,给它“今天天气很...”,它要去学习并猜测最可能的下一个词是“好”、“热”还是“冷”。通过在海量数据上反复进行这种预测练习,模型逐渐学会了语言的统计规律、语法结构、常见搭配,甚至一些事实性知识。这就像一个人通过疯狂阅读来积累语感和常识,但还不太清楚如何有目的地回答问题或完成具体任务。这一步主要依靠强大的计算硬件和巨量数据,技术门槛相对明确。
光会“预测下一个词”还不够,这离我们想要的、能理解指令并给出有帮助回答的对话AI还很远。于是,进入了“家教辅导”阶段,也就是监督微调。OpenAI会聘请专业的标注人员,精心编写大量“问题-优质答案”对,比如“如何解释光合作用?”对应一个准确、清晰的科普解释。然后用这些高质量的示范数据对第一步预训练好的模型进行微调。这个阶段的目标是教会模型理解人类的指令(或问题),并按照人类期望的方式和格式进行回应。经过这一步,模型初步具备了“听懂人话”并“像样回答”的能力,这个模型被称为SFT模型。
接下来是个有趣的环节。同样的一个问题,往往可以有多个都正确但质量不一的回答。哪个回答更详细、更有帮助、更无害?这就需要培养模型的“品味”了。具体做法是:让上一步得到的SFT模型对同一个问题生成多个答案,然后由人类标注员对这些答案进行质量排序(比如A比B好,B比C好),而不是直接打分。为什么要排序而不是打分?因为对于“哪个更好”这种主观判断,人类做相对比较(排序)比给出绝对分数更可靠、偏差更小。利用这些排序数据,可以训练出一个奖励模型。这个奖励模型的任务,就是学会像人类一样,去评判一个AI生成的回答的好坏,并给出一个模拟的“分数”。
有了“品味裁判”(奖励模型),就可以让SFT模型去“实战演练”并不断改进了。这个过程使用了强化学习技术,特别是PPO算法。简单理解就是:让SFT模型尝试生成回答,然后由奖励模型给这个回答打分。模型的目标就是调整自己内部的“神经”,使得生成的回答能获得奖励模型给出的更高分数。通过成千上万轮这样的“生成-评分-调整”循环,模型输出的回答就越来越符合人类偏好,变得更优质、更安全、更有用。这是让ChatGPT回答显得“聪明”、“贴心”的关键一步,技术难度和实现成本都比较高。
看到这里,你可能会有几个核心疑问,我们来逐一拆解:
问:训练用的数据都是网上扒的,那AI会不会满口胡言或者有偏见?
答:这正是训练过程中要极力避免和修正的。首先,数据来源会经过一定的清洗和过滤。更重要的是,监督微调和基于人类反馈的强化学习这两个阶段,起到了关键的“纠偏”和“对齐”作用。人类标注员提供的优质答案和偏好排序,就像老师不断纠正学生的错误观点和不良表达习惯,引导模型输出更负责任、更无害的内容。当然,完全杜绝所有偏见非常困难,但这正是当前AI安全研究的重点。
问:为什么有时候ChatGPT的回答看起来很有道理,但深究却发现是错的,或者干脆自己“编造”事实?
答:这种现象被称为“幻觉”。根源在于,语言模型学习的本质是词语之间的关联概率,而不是记忆一个确切的“事实数据库”。它根据所学到的模式“生成”看似合理的文本,但并不真正“理解”其含义,也无法像数据库一样验证事实真伪。特别是对于训练数据中较少出现或2021年之后的时效性信息,它更容易出错或编造。所以,对于关键事实,务必进行核实。
问:对于想入门的新手,理解这个过程有什么用?
答:理解训练过程,能帮你更好地使用它。比如:
*知道它的边界:明白它并非万能知识库,对时效性内容、专业领域深度知识要保持警惕。
*学会有效提问:知道它是通过“预测下一个词”来生成,你提供清晰、具体的上下文,就能极大提升回答质量。问题越模糊,它“猜”的偏差可能越大。
*理解它的“思考”方式:它没有真正的思考,只是在计算概率。那些看似逻辑清晰的推理,其实是它在模仿训练数据中的逻辑表达模式。
好了,我们来快速回顾一下ChatGPT语料训练的“四部曲”:
1.预训练:海量阅读,学会语言基础模式。
2.监督微调:家教辅导,学会听懂指令并回答。
3.奖励建模:培养品味,学会判断回答的好坏。
4.强化学习:实战优化,让回答越来越讨人喜欢。
整个过程,尤其是后三步,被称为“基于人类反馈的强化学习”,是ChatGPT区别于早期简单对话机器人的核心技术所在。
最后,说点个人看法。ChatGPT的语料训练,本质上是一场大规模的人机协作。人类提供数据、设定规则、给出反馈,机器则不知疲倦地寻找模式和优化输出。它展现的能力令人惊叹,但了解其原理后,我们会发现它更像一个基于概率的、极其复杂的“鹦鹉学舌”大师,而非拥有理解力和创造力的智能体。对于新手小白,我的建议是:把它当作一个功能强大的工具,一个有时会出错的超级助理。充分利用它处理语言、激发灵感的优势,但同时始终保持批判性思维,对关键信息进行交叉验证。它的“智慧”来源于我们所有人的数据,而如何更好地使用和引导它,责任也在我们人类自己手中。
