从 GPT-2 到 GPT-5.4 的关键技术演进

GPT-2 到 GPT-5.4，我觉得真正的分水岭被大多数人搞错了

GPT-3.5 才是那个改变一切的版本，不是 GPT-4。

我知道这听起来有点反直觉，毕竟 GPT-4 在各种 benchmark 上的表现才是真正"接近专家"的跃迁。但如果你在意的是"大模型什么时候开始变成一个可以真正用的东西"，答案是 GPT-3.5 + RLHF 那一刻。在那之前，不管模型有多大、生成的文字有多流畅，它本质上是个很难驾驭的随机文本机器。GPT-3 的幻觉严重到我当时用 API 写东西，输出结果根本没法直接信，每次都要人工复查。那种"强但不可靠"的感觉很折磨人。

RLHF 之后，模型开始"听话"了。不是变聪明了，是变得可对话、可控。这个转变比参数从 1.5B 暴涨到 175B 重要得多。

GPT-2 和 GPT-3 那段时间：实验室里的惊叹，工程师桌上的玩具

GPT-2 出来的时候我记得那种震惊——它能写出连贯的长文本，在那个年代真的是挺炸裂的事。但 OpenAI 当时以"太危险"为由限制发布，说实话我觉得更多是一种 PR 操作，技术上也还没到真正能落地的程度。企业端基本没人用，开发者也只是在跑实验、写 demo。

GPT-3 更大了，175B，few-shot 能力确实让人眼前一亮，prompt engineering 这个词就是从那时候开始火起来的。但幻觉问题让它在生产环境里很难搞。你让它做推理，它给你一个看起来很自信的错误答案，还一本正经。那段时间网上有很多"它只是在统计字符""根本不理解语言"的争论，我觉得这些争论本身就说明它当时的状态——好用不稳定，够震撼不够可靠。

ChatGPT 爆了之后，我也开始认真想对齐这件事

GPT-3.5 把 RLHF 推到主流，这是技术范式上第一次真正的转向——从"scaling 出奇迹"转向"alignment 才是核心"。多轮对话稳了，指令理解强了，编程也勉强能用了。ChatGPT 用户增长速度史无前例，这不是偶然的，是因为它第一次让普通人感觉"我能跟它说话"。

那之后我开始重新理解训练目标这件事。预训练把能力压进去，RLHF 把行为校准出来。这两件事不能混为一谈，但很多人在那之前一直在混。

GPT-4 在推理上确实上了一个台阶。法律、考试级别的复杂问题，它能处理得比 3.5 好很多，加上多模态，整个能力边界打开了。Chain-of-Thought、工具调用、函数 calling——这些东西在 GPT-4 系列里逐渐成熟，企业开始认真接入，AI SaaS 创业潮就是从这里起来的。

但用户也开始分化。技术派觉得能力强，产品派觉得慢、贵、不稳定。我自己在用的时候也有明显感受：4o 的速度和 4 Turbo 的稳定性之间一直有微妙的取舍，具体哪个版本适合哪个场景，我花了不少时间踩坑才摸清楚。

GPT-5 之后，我最在意的不是能力，是那个"人味"的问题

GPT-5 系列最大的变化是统一了模型和 o-series 的能力，规划能力、长任务执行、多步工具调用——往"可执行系统"的方向走得很明确。从技术角度看这是正确的路，从"回答问题"到"完成任务"是质的跃迁。

但 GPT-5.3、5.4 之后出现了一个我觉得很有意思的现象：用户在骂它"变冷了""不像人了"，甚至有"cancel GPT"的声浪。

我去找了相关的研究，结论有点意外——empathy 本身其实变化不大，改变的是安全策略变得更激进、介入更早。用户感受到的"冷"，本质上是对齐策略的调整，不是能力下降。但用户感知不到这个区别，他们只知道"以前能跟它聊，现在它老是绕"。

这个矛盾我现在也没完全想清楚。OpenAI 想要更安全、更统一，用户想要更自由、更有个性——这两个方向本身就不一样，不是调一个参数能解决的。怎么做 contextual alignment，根据场景动态调整安全策略，是我觉得接下来最难啃的工程问题之一。

训练范式这条线，比模型代际更值得盯

如果画一条线：预训练 → SFT → RLHF → synthetic data → tool feedback → self-play / multi-agent，这是 GPT 系列背后训练方式的演化。

Trajectory data 是我现在最关注的东西。不是问答对，而是"问题 → 思考 → 调用工具 → 出错 → 修正 → 成功"这条完整轨迹。GPT-5 类模型的核心数据来源就是这种东西。如果你现在做大模型训练，只盯着 pretrain 数据质量是不够的，tool learning pipeline 和 eval 体系同样关键。

CoT 不稳定这个问题我深有体会，长链推理容易崩，可解释性差。Tree-of-Thought、verifier 模型这些方向是在往结构化推理走，我觉得值得跟，但还没到工程上特别成熟的状态。Test-time scaling 用多采样 + rerank 提升推理质量，这个我在实验中用过，效果有，但成本也上去了，不是所有场景都适合。

有一个问题我一直没想明白

Agent 能力最终到底是"训练出来的"还是"系统设计出来的"？

现在 LangChain 那套 prompt 拼接的 agent 用着很脆，稍微复杂一点的任务就容易走偏。如果 native agent 能力是靠 trajectory data 训出来的，那数据闭环怎么做、规模要到多大才够稳，这条路线我还没有特别清晰的判断。

我现在倾向于认为系统设计和模型训练缺一不可，但比例是多少，我说不准。

人工智能 > 大模型技术 > AI产品与生态

#大模型应用 #GPT演进 #RLHF #对齐技术 #训练范式 #Chain-of-Thought #Agent #OpenAI

从 GPT-2 到 GPT-5.4 的关键技术演进

https://linxkon.github.io/gpt-2-gpt-5-4.html

作者

linxkon

发布于

2026年3月22日

许可协议

漫谈太空算力下一篇