深度学习系列 · 第 03 期 · 2026-05-31

范式转移年
「更强的模型」不再是答案

2026 上半年 AI 前沿的七道认知大餐——竞争的主战场,正在从「造一个更聪明的大脑」转移到「造一套更可靠的系统」。

● 前沿观察 Frontier Watch 认知大餐 / 7 道 数据截至 2026-05-31 FIRE · 前沿 AI 研究与组织赋能
拐点 · 价值迁移 模型能力 · 预训练 scaling(放缓) 系统能力 · agent / harness(上升)
图 0 ── 两条曲线在拐点真正相交:模型曲线见顶趋平,系统曲线接棒上扬。本期讲的就是这个交叉点。

2026 年的上半场,前沿实验室在六周内连发 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro、DeepSeek V4——顶级模型多到选不过来。但真正的拐点不在模型本身:基础模型(foundation model,基座大模型)的能力提升正在放缓,竞争的主战场已经悄悄转移。从「造一个更聪明的大脑」,到「造一套更可靠的系统」——智能体(agent)、承载层(harness,脚手架)、多模型路由(multi-model routing)、自我验证(self-verification)、记忆与世界模型(world model)。这一期,我们摆七道菜,讲清这场静悄悄的范式转移(paradigm shift)。

DISH01

模型的雨季 · 一个月下完一年的雨

The Model Monsoon
现象

2026 年 4 月被称为「史上最密集的模型发布月」:GPT-5.5(4 月 23 日)、DeepSeek V4 Preview(次日,万亿参数开源、跑在华为昇腾芯片上、Flash 版本输入价仅 $0.14 / 百万 tokens)、Claude Opus 4.7(4 月 16 日),以及 Gemini 3.1 Pro、Llama 4、Qwen 3、Gemma 4、GLM-5(745B 的 MoE,混合专家)——全部挤在同一个六周窗口里。

洞察

当顶级模型变成货架商品,护城河就从「拥有它」转移到「比别人更会用它」。稀缺性从不动产,变成了能力税

心智模型

商品化曲线(commoditization)——任何能力一旦被多家供给,定价权就从「拥有它」转向「最会用它」。模型过剩的另一面,是「会用模型的系统」开始变贵。

Opus 4.704-16 GPT-5.504-23 DeepSeek V404-24 · 万亿参数开源 Gemini 3.1 Pro同窗 Llama4 · Qwen3Gemma4 · GLM-5 2026 年 4 月 · 模型发布潮
图 1 ── 六周窗口内的密集发布。横轴为时间;同期还有多款开源模型逼近闭源前沿。
DISH02

收益递减 · 大力不再出奇迹

Diminishing Returns
现象

前沿基准(benchmark,评测基准)正在趋于饱和:Gemini 3.1 Pro 在 GPQA Diamond(博士级科学推理)拿到 94.3%,SWE-bench(真实软件工程)80.6%,ARC-AGI-2 也到 77.1%。分数还在涨,但「再涨一分」越来越难、越来越贵。

洞察

预训练 scaling(规模扩张)的边际收益在下降。这不是某一家的瓶颈,而是「为什么前沿会转移」的根本原因

心智模型

S 曲线(S-curve)——任何一条技术曲线接近顶部时,下一波增长往往不在同一条曲线上,而在别处重新起步。聪明的投入,会在旧曲线见顶前就转场。

能力 / 基准分 投入(算力 · 参数 · 数据)→ 饱和区:再多投入,斜率趋零 陡升区(过去几年)
图 2 ── 基准分对投入的 S 曲线。顶部变平,意味着下一座金矿不在「更大」,而在「别处」。
当所有人都在同一条曲线上冲顶,赢家是那个先跳到下一条曲线的人。
DISH03

智能体的跃迁 · 从玩具到生产力

The Agent Leap
现象

AI 智能体处理真实世界任务(real-world tasks)的成功率,从 2025 年的约 20% 跃升到 2026 年的 77.3%;在网络安全场景,agent 解决问题的比例从 2024 年的 15% 升到 93%。

洞察

agent 跨过了「可用性阈值」——从只能演示的 demo,变成可以托付的生产工具。这不是渐变,是质变。

心智模型

阈值效应(threshold effect)——可靠性一旦跨过某条线,价值会非线性爆发。80% 不是 79% 的小幅改进,而是「能不能真用」的分水岭。

20%
2025 · 真实任务成功率
77.3%
2026 · 同一指标,一年内跃升
15%
2024 · 安全问题解决率
93%
2026 · 同一指标,量级跃迁
20%真实任务 · 2025 77.3%真实任务 · 2026 15%安全问题 · 2024 93%安全问题 · 2026 成功率 · 跨年对比
图 3 ── 两组对比,同一结论:2025→2026 是 agent 从「玩具」到「生产力」的跨越年。口径:真实任务成功率 / 安全问题解决率(见来源 ①②,柱高为示意)。
DISH04

Harness 即操作系统 · 模型之外的「那一层」

The Harness Is the OS
现象

2026 年的关键词是 harness(承载层 / 脚手架):它正在取代「以模型为中心」的思维,被称为 AI 的操作系统。harness 用来侦测 model drift(模型漂移,即模型悄悄不再遵循指令);而好的 harness 必须能让你「随时拆掉昨天写的逻辑」,因为每次新模型发布,架构假设都会变。

洞察

价值正在从「模型权重」迁移到「模型周围的系统工程」。决定产品体验的,越来越不是底层模型,而是那一层承载它的工程。

心智模型

操作系统类比——模型是 CPU,harness 是 OS。换 CPU 很快,但真正决定你怎么用计算机的,是 OS。谁掌握那一层,谁掌握主动权。

用户 / 任务目标 Harness(操作系统层)路由 · 记忆 · 验证 · 工具编排 · 漂移侦测 工具 / Tools 记忆 / Memory 数据 / Data 模型(可热插拔的 CPU)
图 4 ── harness 作为「操作系统层」:模型在底部可热插拔,承载层才是决定体验的地方。
换模型像换 CPU,几分钟的事;但决定你怎么用它的,是那层 harness 操作系统。
DISH05

自我验证 · 让 AI 自己抓自己的错

Self-Verification
现象

扩展 agent 的最大障碍,是多步工作流里的误差累积(错误一步步叠加,越走越偏)。2026 年的解法是 self-verification(自我验证)——给 agent 内置反馈回路,让它自查自纠,从而让复杂的多跳(multi-hop)任务变得既可靠又可扩展。

洞察

可靠性不是来自「单步更准」,而是来自「系统级的纠错回路」。一个会检查自己的笨办法,胜过一个不检查的聪明办法。

心智模型

控制论的负反馈(negative feedback loop)——闭环纠偏,胜过开环精度。恒温器不需要完美预测室温,它只需要不停地测量与修正。

生成 / 执行 自我检查 通过?是 → 下一步 交付 否 → 修正后重做(闭环纠偏)
图 5 ── 内置反馈回路:每一步都自检,错了就回炉。误差不再随步数累积。
DISH06

多模型路由 ·「选定一个模型」的时代结束了

Multi-Model Routing
现象

开发者正从「押注一个模型」转向 multi-model routing(多模型路由):按任务把请求分发给最合适的模型——数据校验、推理、执行、合规各用擅长的专家 agent。「选定一个模型然后从一而终」的时代已经过去。

洞察

没有「最好的模型」,只有「对这个任务最好的模型」。把所有鸡蛋放进一个模型篮子,本身就是一种风险。

心智模型

投资组合(portfolio)——用配置与路由对冲单一模型的弱项。便宜模型干粗活、强模型啃硬骨头、开源模型守隐私,组合的稳健性胜过任何单点最优。

路由器 Router 推理 → 强模型(Opus / Gemini Pro) 执行 → 高性价比模型 合规 → 私有 / 开源模型 校验 → 廉价快速模型 合成结果
图 6 ── 路由器按任务分发到不同模型,四路结果再合成。组合胜过单点。
DISH07

下一座山 · 世界模型、持续学习与可解释性

The Next Mountain
现象

2026 被称为「可靠世界模型 + 持续学习原型」的突破年。研究优先级正在收敛到五个方向:持续学习(continual learning,不遗忘地不断学新东西)、记忆架构(memory architectures)、世界模型(world models,对环境的内在模拟)、推理与规划(reasoning / planning)、可解释性(interpretability)。

洞察

当 scaling 见顶,下一波增益来自「定向的算法突破」,而不是更大的参数。前沿在重新分配注意力——回到那些还没被解决的硬问题。

心智模型

探索 vs 利用(exploration / exploitation)——过去几年是「利用」已知的 scaling 红利;现在天平向「探索」倾斜,去啃记忆、世界模型、可解释性这些更难但更值钱的山头。

下一座山post-scaling 持续学习continual 记忆架构memory 世界模型world model 推理规划reasoning 可解释性interpret.
图 7 ── 后 scaling 时代的五个山头:增益不在「更大」,在「更难」。

2026 教给我们的一课:
不要再问「哪个模型最强」,
要问「我的系统,够不够聪明地用好这些模型」。

模型是兵力,系统是战术与指挥。范式,已经转移。

来源 / Sources · 访问于 2026-05-31

  1. Stanford HAI ── Inside the AI Index: 12 Takeaways from the 2026 Report. hai.stanford.edu
  2. InfoWorld ── 6 AI breakthroughs that will define 2026. infoworld.com
  3. llm-stats ── AI Updates Today (May 2026), Latest AI Model Releases. llm-stats.com/llm-updates
  4. AIThority ── From GPT-5.5 to DeepSeek V4: multi-model routing in 2026. aithority.com
  5. Efficient Coder ── Agent Harness 2026: Why AI's Operating System Replaces Model-Centric Thinking. xugj520.cn
  6. Hugging Face ── AI Trends 2026: Test-Time Reasoning and the Rise of Reflective Agents. huggingface.co
  7. NextBigFuture ── 2026 is Breakthrough Year for Reliable AI World Models and Continual Learning. nextbigfuture.com

注:本期所有数据点均引自上述公开来源(2026-05-31 检索),未做训练数据外推;图表为基于来源数据的示意可视化。