深度学习 · 第03期 · 范式转移年

DISH01

模型的雨季 · 一个月下完一年的雨

The Model Monsoon

现象

2026 年 4 月被称为「史上最密集的模型发布月」：GPT-5.5（4 月 23 日）、DeepSeek V4 Preview（次日，万亿参数开源、跑在华为昇腾芯片上、Flash 版本输入价仅 $0.14 / 百万 tokens）、Claude Opus 4.7（4 月 16 日），以及 Gemini 3.1 Pro、Llama 4、Qwen 3、Gemma 4、GLM-5（745B 的 MoE，混合专家）——全部挤在同一个六周窗口里。

洞察

当顶级模型变成货架商品，护城河就从「拥有它」转移到「比别人更会用它」。稀缺性从不动产，变成了能力税。

心智模型

商品化曲线（commoditization）——任何能力一旦被多家供给，定价权就从「拥有它」转向「最会用它」。模型过剩的另一面，是「会用模型的系统」开始变贵。

图 1 ── 六周窗口内的密集发布。横轴为时间；同期还有多款开源模型逼近闭源前沿。

DISH02

收益递减 · 大力不再出奇迹

Diminishing Returns

现象

前沿基准（benchmark，评测基准）正在趋于饱和：Gemini 3.1 Pro 在 GPQA Diamond（博士级科学推理）拿到 94.3%，SWE-bench（真实软件工程）80.6%，ARC-AGI-2 也到 77.1%。分数还在涨，但「再涨一分」越来越难、越来越贵。

洞察

预训练 scaling（规模扩张）的边际收益在下降。这不是某一家的瓶颈，而是「为什么前沿会转移」的根本原因。

心智模型

S 曲线（S-curve）——任何一条技术曲线接近顶部时，下一波增长往往不在同一条曲线上，而在别处重新起步。聪明的投入，会在旧曲线见顶前就转场。

图 2 ── 基准分对投入的 S 曲线。顶部变平，意味着下一座金矿不在「更大」，而在「别处」。

「当所有人都在同一条曲线上冲顶，赢家是那个先跳到下一条曲线的人。」

DISH03

智能体的跃迁 · 从玩具到生产力

The Agent Leap

现象

AI 智能体处理真实世界任务（real-world tasks）的成功率，从 2025 年的约 20% 跃升到 2026 年的 77.3%；在网络安全场景，agent 解决问题的比例从 2024 年的 15% 升到 93%。

洞察

agent 跨过了「可用性阈值」——从只能演示的 demo，变成可以托付的生产工具。这不是渐变，是质变。

心智模型

阈值效应（threshold effect）——可靠性一旦跨过某条线，价值会非线性爆发。80% 不是 79% 的小幅改进，而是「能不能真用」的分水岭。

20%

2025 · 真实任务成功率

77.3%

2026 · 同一指标，一年内跃升

15%

2024 · 安全问题解决率

93%

2026 · 同一指标，量级跃迁

图 3 ── 两组对比，同一结论：2025→2026 是 agent 从「玩具」到「生产力」的跨越年。口径：真实任务成功率 / 安全问题解决率（见来源 ①②，柱高为示意）。

DISH04

Harness 即操作系统 · 模型之外的「那一层」

The Harness Is the OS

现象

2026 年的关键词是 harness（承载层 / 脚手架）：它正在取代「以模型为中心」的思维，被称为 AI 的操作系统。harness 用来侦测 model drift（模型漂移，即模型悄悄不再遵循指令）；而好的 harness 必须能让你「随时拆掉昨天写的逻辑」，因为每次新模型发布，架构假设都会变。

洞察

价值正在从「模型权重」迁移到「模型周围的系统工程」。决定产品体验的，越来越不是底层模型，而是那一层承载它的工程。

心智模型

操作系统类比——模型是 CPU，harness 是 OS。换 CPU 很快，但真正决定你怎么用计算机的，是 OS。谁掌握那一层，谁掌握主动权。

图 4 ── harness 作为「操作系统层」：模型在底部可热插拔，承载层才是决定体验的地方。

「换模型像换 CPU，几分钟的事；但决定你怎么用它的，是那层 harness 操作系统。」

DISH05

自我验证 · 让 AI 自己抓自己的错

Self-Verification

现象

扩展 agent 的最大障碍，是多步工作流里的误差累积（错误一步步叠加，越走越偏）。2026 年的解法是 self-verification（自我验证）——给 agent 内置反馈回路，让它自查自纠，从而让复杂的多跳（multi-hop）任务变得既可靠又可扩展。

洞察

可靠性不是来自「单步更准」，而是来自「系统级的纠错回路」。一个会检查自己的笨办法，胜过一个不检查的聪明办法。

心智模型

控制论的负反馈（negative feedback loop）——闭环纠偏，胜过开环精度。恒温器不需要完美预测室温，它只需要不停地测量与修正。

图 5 ── 内置反馈回路：每一步都自检，错了就回炉。误差不再随步数累积。

DISH06

多模型路由 ·「选定一个模型」的时代结束了

Multi-Model Routing

现象

开发者正从「押注一个模型」转向 multi-model routing（多模型路由）：按任务把请求分发给最合适的模型——数据校验、推理、执行、合规各用擅长的专家 agent。「选定一个模型然后从一而终」的时代已经过去。

洞察

没有「最好的模型」，只有「对这个任务最好的模型」。把所有鸡蛋放进一个模型篮子，本身就是一种风险。

心智模型

投资组合（portfolio）——用配置与路由对冲单一模型的弱项。便宜模型干粗活、强模型啃硬骨头、开源模型守隐私，组合的稳健性胜过任何单点最优。

图 6 ── 路由器按任务分发到不同模型，四路结果再合成。组合胜过单点。

DISH07

下一座山 · 世界模型、持续学习与可解释性

The Next Mountain

现象

2026 被称为「可靠世界模型 + 持续学习原型」的突破年。研究优先级正在收敛到五个方向：持续学习（continual learning，不遗忘地不断学新东西）、记忆架构（memory architectures）、世界模型（world models，对环境的内在模拟）、推理与规划（reasoning / planning）、可解释性（interpretability）。

洞察

当 scaling 见顶，下一波增益来自「定向的算法突破」，而不是更大的参数。前沿在重新分配注意力——回到那些还没被解决的硬问题。

心智模型

探索 vs 利用（exploration / exploitation）——过去几年是「利用」已知的 scaling 红利；现在天平向「探索」倾斜，去啃记忆、世界模型、可解释性这些更难但更值钱的山头。

图 7 ── 后 scaling 时代的五个山头：增益不在「更大」，在「更难」。

2026 教给我们的一课：
不要再问「哪个模型最强」，
要问「我的系统，够不够聪明地用好这些模型」。

模型是兵力，系统是战术与指挥。范式，已经转移。

来源 / Sources · 访问于 2026-05-31

Stanford HAI ── Inside the AI Index: 12 Takeaways from the 2026 Report. hai.stanford.edu
InfoWorld ── 6 AI breakthroughs that will define 2026. infoworld.com
llm-stats ── AI Updates Today (May 2026), Latest AI Model Releases. llm-stats.com/llm-updates
AIThority ── From GPT-5.5 to DeepSeek V4: multi-model routing in 2026. aithority.com
Efficient Coder ── Agent Harness 2026: Why AI's Operating System Replaces Model-Centric Thinking. xugj520.cn
Hugging Face ── AI Trends 2026: Test-Time Reasoning and the Rise of Reflective Agents. huggingface.co
NextBigFuture ── 2026 is Breakthrough Year for Reliable AI World Models and Continual Learning. nextbigfuture.com

注：本期所有数据点均引自上述公开来源（2026-05-31 检索），未做训练数据外推；图表为基于来源数据的示意可视化。