从 GPT-2 到 GPT-5.4 的关键技术演进
GPT-2 到 GPT-5.4,我觉得真正的分水岭被大多数人搞错了
GPT-3.5 才是那个改变一切的版本,不是 GPT-4。
我知道这听起来有点反直觉,毕竟 GPT-4 在各种 benchmark 上的表现才是真正"接近专家"的跃迁。但如果你在意的是"大模型什么时候开始变成一个可以真正用的东西",答案是 GPT-3.5 + RLHF 那一刻。在那之前,不管模型有多大、生成的文字有多流畅,它本质上是个很难驾驭的随机文本机器。GPT-3 的幻觉严重到我当时用 API 写东西,输出结果根本没法直接信,每次都要人工复查。那种"强但不可靠"的感觉很折磨人。
RLHF 之后,模型开始"听话"了。不是变聪明了,是变得可对话、可控。这个转变比参数从 1.5B 暴涨到 175B 重要得多。
GPT-2 和 GPT-3 那段时间:实验室里的惊叹,工程师桌上的玩具
GPT-2 出来的时候我记得那种震惊——它能写出连贯的长文本,在那个年代真的是挺炸裂的事。但 OpenAI 当时以"太危险"为由限制发布,说实话我觉得更多是一种 PR 操作,技术上也还没到真正能落地的程度。企业端基本没人用,开发者也只是在跑实验、写 demo。
GPT-3 更大了,175B,few-shot 能力确实让人眼前一亮,prompt engineering 这个词就是从那时候开始火起来的。但幻觉问题让它在生产环境里很难搞。你让它做推理,它给你一个看起来很自信的错误答案,还一本正经。那段时间网上有很多"它只是在统计字符""根本不理解语言"的争论,我觉得这些争论本身就说明它当时的状态——好用不稳定,够震撼不够可靠。
ChatGPT 爆了之后,我也开始认真想对齐这件事
GPT-3.5 把 RLHF 推到主流,这是技术范式上第一次真正的转向——从"scaling 出奇迹"转向"alignment 才是核心"。多轮对话稳了,指令理解强了,编程也勉强能用了。ChatGPT 用户增长速度史无前例,这不是偶然的,是因为它第一次让普通人感觉"我能跟它说话"。
那之后我开始重新理解训练目标这件事。预训练把能力压进去,RLHF 把行为校准出来。这两件事不能混为一谈,但很多人在那之前一直在混。
GPT-4 在推理上确实上了一个台阶。法律、考试级别的复杂问题,它能处理得比 3.5 好很多,加上多模态,整个能力边界打开了。Chain-of-Thought、工具调用、函数 calling——这些东西在 GPT-4 系列里逐渐成熟,企业开始认真接入,AI SaaS 创业潮就是从这里起来的。
但用户也开始分化。技术派觉得能力强,产品派觉得慢、贵、不稳定。我自己在用的时候也有明显感受:4o 的速度和 4 Turbo 的稳定性之间一直有微妙的取舍,具体哪个版本适合哪个场景,我花了不少时间踩坑才摸清楚。
GPT-5 之后,我最在意的不是能力,是那个"人味"的问题
GPT-5 系列最大的变化是统一了模型和 o-series 的能力,规划能力、长任务执行、多步工具调用——往"可执行系统"的方向走得很明确。从技术角度看这是正确的路,从"回答问题"到"完成任务"是质的跃迁。
但 GPT-5.3、5.4 之后出现了一个我觉得很有意思的现象:用户在骂它"变冷了""不像人了",甚至有"cancel GPT"的声浪。
我去找了相关的研究,结论有点意外——empathy 本身其实变化不大,改变的是安全策略变得更激进、介入更早。用户感受到的"冷",本质上是对齐策略的调整,不是能力下降。但用户感知不到这个区别,他们只知道"以前能跟它聊,现在它老是绕"。
这个矛盾我现在也没完全想清楚。OpenAI 想要更安全、更统一,用户想要更自由、更有个性——这两个方向本身就不一样,不是调一个参数能解决的。怎么做 contextual alignment,根据场景动态调整安全策略,是我觉得接下来最难啃的工程问题之一。
训练范式这条线,比模型代际更值得盯
如果画一条线:预训练 → SFT → RLHF → synthetic data → tool feedback → self-play / multi-agent,这是 GPT 系列背后训练方式的演化。
Trajectory data 是我现在最关注的东西。不是问答对,而是"问题 → 思考 → 调用工具 → 出错 → 修正 → 成功"这条完整轨迹。GPT-5 类模型的核心数据来源就是这种东西。如果你现在做大模型训练,只盯着 pretrain 数据质量是不够的,tool learning pipeline 和 eval 体系同样关键。
CoT 不稳定这个问题我深有体会,长链推理容易崩,可解释性差。Tree-of-Thought、verifier 模型这些方向是在往结构化推理走,我觉得值得跟,但还没到工程上特别成熟的状态。Test-time scaling 用多采样 + rerank 提升推理质量,这个我在实验中用过,效果有,但成本也上去了,不是所有场景都适合。
有一个问题我一直没想明白
Agent 能力最终到底是"训练出来的"还是"系统设计出来的"?
现在 LangChain 那套 prompt 拼接的 agent 用着很脆,稍微复杂一点的任务就容易走偏。如果 native agent 能力是靠 trajectory data 训出来的,那数据闭环怎么做、规模要到多大才够稳,这条路线我还没有特别清晰的判断。
我现在倾向于认为系统设计和模型训练缺一不可,但比例是多少,我说不准。