huangguan体育app ICML 2026|智能体的下半场: 为什么「答对」依然不够了?

发布日期：2026-05-24 21:57 来源：未知作者：admin 浏览次数：

以前两年 Agent 操办更像一场工程竞赛 —— 谁的推理链更长、谁的器用箱更大、谁的 workflow 更复杂。但 Agent 的下半场不再是拼花活，而是把它造成一门科学：不仅问「它 work 不 work？」，更要问「它为什么work」，以及什么时候才应该这样作念？」

这篇著述作家团队想聊聊在 ICML 2026 提倡的Theory of Agent (ToA)—— 以及它如何讲明当下最前沿的长高下文、推理模子、器用使用、自进化智能体背后那根共同的干线。

对于这项就业

Theory of Agent (ToA) 是由爱丁堡大学鸠集普林斯顿大学、UIUC、西北大学、香港华文大学共同提倡的智能体合资表面，已被 ICML 2026 以 Position Paper 的景色经受。

时势地址: https://hrwise-nlp.github.io/assets/websites/theory-of-agent/

作家团队粉饰了刻下 Agent / LLM 操办的多条干线 —— 从 ReAct 式推理与器用使用，到 RL 对都、全国模子、科学发现智能体 —— 这份就业也正是这些干线集聚后的一次尝试：把 Agent 从一套工程手段，造成一门不错被推理、被证伪、被累积的科学。

一个你驯服见过的场景：两份相似满分的试卷

设想吞并套试鬈发到两个学生人里。

同学 A 走的是闭卷覆按模式。整套题他靠我方：回忆学问点、作念推理、验算，必要时在脑子里从头组织一遍 —— 他把覆按当成锤真金不怕火基础和想维的契机；

同学 B 走的是开卷覆按模式。每一谈题他都上网查、问 ChatGPT、翻参考谜底，平直抄过来就交。

两份卷子删改下来，都是 100 分。憨厚如若只看分数，这两个东谈主是一样的。但只须你当过憨厚，或者我方读过书，你就知谈这两个东谈主一学期之后的差距会相配大：

同学 A : 哪怕中间作念错过、绕弯过，每作念一题，他那根叫「解题直观」的东西都在被加粗一次。期末的时候，相似一谈题他能更快、更稳地作念对，何况能举一反三。

同学 B : 他也作念了一学期题，但他脑子里的学问存量莫得任何变化。到了必须闭卷的那一次覆按 —— 或者任何一次莫得 ChatGPT 可用的景色 —— 他会片刻发现我方什么都不会。

两份满分，两条运谈实足相背的成长弧线。

先领会一个常见污蔑: 这个故事里毫不是说「同学 A 不会用搜索引擎」或者「用器用是赖事」。碰巧相背 —— A 也不错、也应该在需要的时候用器用 (覆按是比方，真实全国里的 Agent 虽然会遭遇靠我方不管如何答不出来的题，这时候必须调用外部信息)。

真确的要道是：能靠我方答对的题，就无谓为了省事而默许抄谜底。器用该在「靠我方不够」的时候上场，而不是在「根柢还没试过」的时候就被默许触发。至于「什么叫靠我方不够」「什么叫真确必需」，正是背面要花篇幅讲了了的事 —— 作家会把它精准成一个叫学问规模（knowledge boundary) 的东西。>

换到 Agent 身上，这两类活动实足平行：

图 1. 相似正确的谜底，背后可能是两种截然相背的资源分拨。Agent A 什么都默许靠外部器用，里面推理才略被绕开、无法巩固；Agent B 在里面能处治时就里面处治 —— 但并不摈斥在真确需要时使用器用 —— 推理才略在训诫中被强化。

这不是一个设计问题。这是一个界说问题：什么叫一个「好」Agent? 如若「好」只意味着「答对」，那开卷同学和闭卷同学没区别。但如若「好」还意味着「越作念越智谋」，咱们想要的昭着是后者。而这恰正是当今绝大无数 Agent 教师范式看不见的东西。

当下智能体的四种失败模式，其实是吞并个病

以前两年，Agent 系统暴领会了许多彼此看似无关的问题。有些模子在还没真确意会雇务时就急于活动，抵制切换想路；有些则在浅显问题上堕入冗长推理，以至为「2+3 等于几」生成十几条重迭 reasoning path。另一类问题则发生在与外部全国的交互上：模子要么迟迟不肯调用本该使用的器用，要么把蓝本几步就能完成的操作拆成漫长而重迭的轨迹。

这些现象频频被分别归类为 reasoning、planning 或 tool-use 的问题，因此业界也民风于逐一修补：过度推理就增多长度处分，器用阔绰就敛迹 action budget，活动不及就强化器用调用才略。

但如若把这些现象放在吞并个视角下，会发现它们其实分享着吞并个更底层的结构：Agent 长期在面临一个持续存在的决策 —— 下一步究竟应该连接依赖里面想考，如故转向外部全国获得信息。

不同的失败模式，实质上仅仅这个决策在不同方朝上的失衡。答早了是 underthinking，答晚了是 overthinking，问少了是 underacting，问多了是 overacting。不是四个零丁的问题，而是吞并个病 —— 在不笃定性下的决策错配 —— 以四个所在弘扬出来。

下半场的就业，不是连接打补丁，而是治这个病。

换一个视角：推理和活动，是一体两面

如若顺着这个问题连接往下推，一个更当然的不雅察会出现：所谓「推理」和「活动」，随机是两种实质不同的阶段。对于 Agent 来说，它们更像是在不同位置获得信息的两种形式。链式想考、反想和任务理会，实质上是在从头组织模子依然领有的信息；而搜索、API 调用、代码实践等活动，则是在向外部全国索求模子刻下并不具备的信息。

推理和活动，是两种用来镌汰吞并种不笃定性 (epistemic uncertainty，领会不笃定性) 的器用。它们的判袂只在于信息开头。

里面领会器用 (链式想考、反想、理会)：把 Agent 依然有的信息从头组织一遍；

外部物理器用(搜索、API、UI 操作、实践代码)：注入 Agent 莫得的信息。

两者都在镌汰不笃定性，只不外一个发生在里面，一个发生在外部，这样智能体的活动轨迹就造成了：

图 2. 左：传统 ReAct 把推理和活动混在一都当作念两个阶段。右：ToA 把 Agent 行为一个合资的计谋，它在两类器用里作念采纳 —— 里面领会器用查的是「我方这个全国模子」，外部物理器用查的是「真实全国」。

脚下，哪种器用能最快镌汰我对这个任务的不笃定性？

这亦然为什么长高下文、RAG、器用使用、agentic RL 其实都在指向吞并件事，沿着「里面如故外部」这一根轴的不同分拨。

每个 Agent 都有我方的「会作念题」范围

一朝推理和活动平起平坐，操办的中枢对象就不再是「计谋」，而是：这个 Agent 靠我方能处治的任务，和需要外部匡助才智处治的任务，规模在那里？

ToA 把这件事精准化了:

图 3. 左：一个 Agent 的「学问规模」把它能里面处治的任务和剩下的全国任务离隔。中：多个 Agent 都能里面处治的部分 ——「最小任务集」。右：这群 Agent 中肆意一个能里面处治的并集 ——「最大任务集」。

最中枢的一条：脑力职业的「总量守恒」

而这个总数和计谋无关。咱们不错把坚苦从里面挪到外部，也不错反过来，但总量是定的。访佛于咱们刚开动举的阿谁例子，学生 A 和学生 B 便是在使用不同的分拨计谋去处治吞并套试卷。

从这个角度再看器用使用，会发现一个容易被忽略的事实：外部器用并不会真确抹杀任务自己的信息就业。它们仅仅把蓝本需要由模子里面完成的领会历程，退换到了外部系统上。一个复杂问题之是以变得「容易」，好多时候不是因为问题自己被简化了，而是因为求解历程被从头分拨了。

用生涯比方：你要作念一谈红烧肉。

咱们不错全靠我方的工夫：选肉、焯水、糖色、火候一手拿执。这是里面坚苦拉满。

咱们也不错点一份半制品，回家热一下，或者平直点外卖。这是外部坚苦拉满。

咱们还不错用预制菜 + 我方炖十分钟，均衡一下。

Agent 活动的几何：不同点的含义以及最优活动

既然「领会坚苦」是一个在两个维度间分拨的固定预算，那 Agent 的活动就活在一个二维平面上，如下图所示。

图 4. 横轴是里面推理干预，纵轴是外部活动干预。斜线是最小坚苦前沿 βE_{int}+E_{ext}=E^*。左：任务在里面可解，两种坚苦不错解放互换；右：任务超出里面才略，外部坚苦存在一个不可削减的底线。*

图上标了三个要道点:

点 A 的「全能性」恰正是它的危境。一朝有一个足够颖慧的外部 Agent 可调用，A 不管任务在规模的哪一侧都能走通。这便是为什么只奖励正确性的教师会当然漂移到左上方的 A 点隔壁 —— 它是通往奖励最赋闲、最低风险的旅途。

用实习生的例子类比：小 A 永远都能「对」。雇主只须看谜底，他没错。但一年下来，他莫得学会任何一谈题的内在逻辑 —— 因为他莫得给我方「尝试用大脑」的契机。点 A 便是阿谁「永远搜一下就行」的坑。

等等，那 AC 和 AB 之间呢？

这是一个好意思妙但相配伏击的点。A、B、C 不是仅有的三个「正确谜底」。

那它们之间有什么区别？——区别不是「优不优」，而是「偏好不同」。

对里面可解的任务 (线段AC)，表里坚苦不错解摈弃换:

延迟明锐的部署，也许更偏 A (一次外部调用快、干脆);

安全明锐、或外部调用很贵的部署，更偏 C (不要放纵触发施行全国的动作);

资本中性的部署，选个中间点就好。

对外部必需的任务 (线段AB)，外部坚苦的底线不成砍，皇冠体育(CrownSports)官网但在这条底线之上，相似存在一个偏好谱:

换句话说，前沿是一整条帕累托最优弧线， A、B、C 仅仅三个代表性的端点。不同的业务场景 —— 安全、延迟、资本、合规 —— 沿着这条弧线采纳不同的位置，都是对的。

那条斜线的斜率 β，到底在说什么？

β 的大小决定了那条斜线的倾角，也就决定了「帕累托最优前沿」的景色:

β 很大(想很贵、调低廉)：斜线陡，最优点举座偏向多调外部。直观：既然我这颗大脑腾贵又慢，那能外包就外包。这讲明了为什么「小模子 + 强器用链」往往是感性采纳 —— 对一个 Llama-3-8B，让它我方写一堆 CoT 不如平直 RAG 出来给它看。

β 很小(调很贵、想低廉)：斜线缓，最优点举座偏向多靠里面。直观：每次触碰施行全国都要费钱 / 承担风险，那就能在脑子里处治的就别最先。这讲明了为什么推理模子 (o1/R1 那一代)把赌注押在「里面 scaling」上 —— 在它们的资本结构下，多推几步比调一次器用低廉得多。

这就把 ToA 和资源有限感性(resource-bounded rationality) 接上了：莫得放之四海皆准的「最好 Agent 活动」，唯一「在刻下 β 下最好的活动」。一条产线上的 Agent 换个部署环境， β 变了，最优的分拨计谋就应该随着变。是以 ToA 的「对都」不是「让 Agent 学会一种固定姿势」，而是让 Agent 学会识别 β ，并沿着 β 对应的那条前沿去分拨坚苦。

那 ToA 反对的是什么？是 Agent「稀里模糊地漂到 A」—— 不是因为 β 让 A 是最优解，而是因为只奖励正确性的教师让 A 造成了最省事的惯性采纳。吞并个 A，被 β 论证过的 A 和被惯性带过来的 A ，在几何上无法分辩，但在 Agent 的历久发展上天渊之别。对都意味着成心志地选前沿上的某少量，而不是在教师惯性下默许滑到边缘。

捷径的代价：Agent 也会被「惯坏」

ToA 里有一个命题叫 Prop 3.9: 交付教学的才略停滞—— 翻译成大口语：

如若 Agent 系统性地把本不错里面处治的任务也外包出去，它的里面推理才略不会因为教训积贮而变强，哪怕它在旨趣上本不错变强。

这是 Agent 版的「小 A 问题」：他一直在外部器用辅助下答对，从未给我方「我方想想看」的契机，是以他的里面才略发愤忘食。看起来今天很能打，十年后如故这个水平。

这其实亦然咱们不雅察好多东谈主类实习生、以至学生的规矩 ——有捷径可行运，大脑就不会再去走长路。而大脑从长路走总结的那部分，才是「长身手」的那部分。Agent 的 RL 教师如若只看正确率，就会被这个最可靠的捷径蛊卦以前，实足复制相似的陷坑。

是以近期那些加「器用使用处分」的次第过后看，实质上都在靠近 ToA 说的 effort-consistent alignment：既要答对，也要克制。

下半场的教师：四条路同期走，不可偏废

把上头通盘内容落到教师，疏漏是四条互补的旅途。每一条单独走都不够，它们各自拼凑「只求正确」这个病的一个侧面。

1.Agentic Post-training：Next-Tool Prediction

预教师的 next-token 把静态学问压进了参数，但它从没请示 Agent 如何通过交互去获得新学问。咱们见识把预教师延迟到 next-tool prediction—— 把交互轨迹自己 (API 调用、UI 动作、环境查询) 造成一等建模盘算推算，和文本比肩。学会「在给定高下文下，下一个该用哪个器用」，就不仅仅「会推理」，而是会决定如何镌汰不笃定性。这是一个新的 scaling 维度：不是储存更多学问，而是通过交互获得学问。

B体育官方网站首页入口

2. Agentic SFT：按才略定制的监督

圭臬 SFT 假定「好的器用使用」有合资圭臬，在吞并套示范上喂通盘模子。ToA 说这个假定不建筑：对小模子允洽的器用使用，对大模子可能实足是充足—— 反过来也一样。一刀切的监督会让模子系统性地偏向示范者的里面任务集，而不是它我方的。

两条路：(1) 按才略定制数据集—— 每个模子有我方的 Q_{int}，这个干净但贵；(2)采纳性求援—— 教师 Agent 只在低 solvability 的高下文下主动外求，近似一个保守的才略上包 Q_{max}，更通用但精度协调。

3.Agentic RL：历程，而不仅仅放手

前边说过，只奖励正确性势必漂向点 A—— 因为交付是「最适当得奖」的计谋。有用的 agentic RL 必须奖励「如何答对」，不仅仅「答对」。OTC-PO 是一个具体例子：它明确处分无谓要的器用调用，把「克制」和「正确」同等对待。更广义地，RL 允许 Agent 学历程级偏好—— 什么时候想、什么时候作念、什么时候停 —— 这是只看放手的监督抒发不出来的。

团队还设计一个迭代范式 RL → SFT → RL：RL 在不笃定性下发现对都轨迹；SFT 把它们压缩成稳当的、可泛化的计谋；第二轮 RL 在这个基础上再作念一次元领会校准。预教师阶段带 RL (算力充足时) 是另一个有远景的所在。

4.Agentic Prompting：有用，但不够用

Prompt-based 次第 (ReAct 式脚手架、挂念、workflow 笼统) 不错不动参数就引出复杂器用使用活动，对快速迭代相配有用。但它们欠缺对决策质料的系统性评估—— 过度想考和过度活动不错藏在「放手对」底下，根柢不会被检出。Prompting 是一个很好的「活动探针」，但它不是 SFT 和 RL 在参数层面带来的那种校准的替代品。

一条共同的干线

四条路的共同点是：提高 Agent 不是让它推理更多或器用更少，而是让它能测度我方的里面可解度，并据此分拨坚苦。后教师教「器用词汇表」；SFT 锚定「和我方才略匹配的基线」；RL 校准「历程级偏好」；prompting 把活动暴领会来好会诊。「对都」不是一个固定的盘算推算，而是清雅校准的决策历程的清楚属性。那四种失败模式 (overthinking、overacting、under-delegation、over-delegation)——都是吞并个底层误校准的不同切片。

下半场会吵什么？三个还没处治的问题

改日几年 Agent 操办会围绕底下三个问题反复拉扯 —— 它们都是 ToA 掀开的、但没干系上的:

如何测量 Q_int (m，W)？里面任务集是潜变量，只可测度。self-consistency、draft confidence、hidden-state probe、基于 world-model 的 solvability estimator 都是部分谜底。一个好的里面可解度代理，会坐窝成为 alignment 教师的中枢零件。

如何训出真确尊重「坚死守恒」的计谋？只看放手的 RL 作念不到，因为这个不变量对它不可见。给器用使用加处分是第一步；更实质的决策 —— 成心志地均衡表里轨迹的课程，然后用 RL 保管这个均衡 —— 如故洞开问题。

如何评估 Agent 的「坚苦分拨」，而不是只评估「答对率」? 当下的 benchmark 只说「答对了没」，这刚好错过重心。咱们需要能分辩「靠推理对」和「靠外包对」的 benchmark。莫得这样的评估，就没主见判断一个 Agent 到底「变智谋了」，如故「学会了更老练地外包」。

一些有真谛的商榷

长高下文 vs. RAG，谁更好？

以前一年，前沿实验室在豪恣卷高下文长度 ——Gemini 的百万 token、Claude 的长推理、GPT-4 的器用链。同期 RAG 派补助说「检索才是正谈」。

在 ToA 下，双方其果真作念吞并件事，仅仅形式不同 :

长高下文 = 提前扩展里面 : 先把外部信息一股脑灌进来，再让 Agent 纯里面推理 —— 至极于把任务从 Qext 推回 Qint。

RAG = 按需外求 : 信息留在外面，需要的时候再去取。

论文里的方法性论断是：在正确性换取的前提下，长高下文频频是更好的分拨—— 因为它把 Agent 推向纯里面推理，而纯里面推理正是让才略「千里淀进参数」的阿谁教师信号。是以长高下文不仅仅居品体验，它自己便是才略内化的底座。

虽然 RAG 不会散失。信息及时变化、限制太大、或者超出模子解析才略时，检索便是 epistemically 正派的采纳。要道是，「用哪种」，自己就该是一个基于领会效果的决策，不是缺省。

内化和外化：一根一直在动的规模

这可能是 ToA 最实用的一个词汇孝顺。一个 Agent 不错拆成两部分:

模子 (Model)：提供参数里的学问、里面推理才略 —— 也便是 Qint 的基础。

脚手架 (Harness)：提供器用、挂念、检索、高下文管制、外部契约 —— 也便是通向 Qworld∖Qint 的接口。

这个拆分不是固定的。它在两个相背的历程里被持续重塑:

内化 (Internalization)：把脚手架提供的才略，收受进模子自己。算术、结构化查找、某些景色的检索、代码作风的变换 —— 都是典型的「也曾外部，自后搬到参数里去了」的才略。一朝内化告捷，一度需要外部器用的任务就滑进了 QintQint——学问规模向外推了一格。ToA 对内化告捷给出两个条目：(1) 才略自己要可压缩(有结构，能被参数拿获)；(2) 教师历程必须至少在某些时候奖励「里面处治」—— 不然梯度信号散失，内化永远不会发生。

外化 (Externalization)：反所在。把才略卸给脚手架 —— 有时候很合理 (及时数据、考证器、具身动作)，有时候仅仅为了偷懒。按默许外化的问题恰好便是 Prop 3.9: 不是因为才略实质上在外，而是因为刻下模子在这里作念得不好，于是永远让它作念不好。学问规模被冻结在了早期教师景色。

下半场的中枢设计问题，不是「模子要多大」，也不是「脚手架要多丰富」，而是：怎么让这根规模朝着更高自主性的所在持续出动，同期不被「只求正确」的教师惯性拖且归？

自进化智能体

一个智能体不错被称为「自进化的」，当且仅当它的里面任务集随时候严格推广：

但这个推广「够不够」，取决于它所处的阿谁全国自己是不是也在动。

也便是说 —— 最终，这个全国里一切能被处治的任务，都能由它我方里面处治。

动态全国：这是一个「速度」问题。但真实全国从来不是静态的。W_t 会随着时候抵制冒出新任务 —— 新器用、新接口、新领域、新问题屈指可数。这时候，自进化就不再是「能不成追上」，而是能不成追得够快。它造成了一个严格的速度条目:

断绝：Agent 不是「答对的机器」，是「越用越智谋的东西」

如若把 Agent 行为一种持续在「里面想考」和「外部活动」之间分拨领会资源的系统，那么以前好多看似割裂的问题 —— 从 tool overuse 到 reasoning collapse，从 long-context scaling 到 lifelong learning—— 好像都不错放回吞并条干线上从头意会。

ToA 并不是这条阶梯的至极，更像是一个开动：它尝试把 Agent 从一套抵制堆叠手段的工程系统huangguan体育app，从头造成一个不错被分析、被讲明、也能够被历久积贮的科学对象。

上一篇：上一篇：皇冠体育(CrownSports) 证监会重拳出击, 打击互联网券商罪犯跨境展业, 充公老虎、富途、长桥一起不法所得, 两年之内必须计帐罪犯存量业务, 老虎、富途、长桥回复来了

下一篇：下一篇：皇冠体育(CrownSports) 若纳坦·塔: 斩获双冠的嗅觉很精巧驯顺咱们能得到更多建树

关于皇冠

huangguan体育app ICML 2026|智能体的下半场: 为什么「答对」依然不够了?