EN

关于皇冠

关于皇冠

huangguan体育app ICML 2026|智能体的下半场: 为什么「答对」依然不够了?

发布日期:2026-05-24 21:57 来源:未知 作者:admin 浏览次数:

huangguan体育app ICML 2026|智能体的下半场: 为什么「答对」依然不够了?

以前两年 Agent 操办更像一场工程竞赛 —— 谁的推理链更长、谁的器用箱更大、谁的 workflow 更复杂。但 Agent 的下半场不再是拼花活,而是把它造成一门科学 :不仅问「它 work 不 work?」,更要问「它为什么work」,以及什么时候才应该这样作念?」

这篇著述作家团队想聊聊在 ICML 2026 提倡的Theory of Agent (ToA)—— 以及它如何讲明当下最前沿的长高下文、推理模子、器用使用 、自进化智能体背后那根共同的干线。

对于这项就业

Theory of Agent (ToA) 是由爱丁堡大学鸠集普林斯顿大学、UIUC、西北大学、香港华文大学共同提倡的智能体合资表面,已被 ICML 2026 以 Position Paper 的景色经受。

时势地址: https://hrwise-nlp.github.io/assets/websites/theory-of-agent/

作家团队粉饰了刻下 Agent / LLM 操办的多条干线 —— 从 ReAct 式推理与器用使用,到 RL 对都、全国模子、科学发现智能体 —— 这份就业也正是这些干线集聚后的一次尝试:把 Agent 从一套工程手段,造成一门不错被推理、被证伪、被累积的科学。

一个你驯服见过的场景:两份相似满分的试卷

设想吞并套试鬈发到两个学生人里。

同学 A 走的是闭卷覆按模式。整套题他靠我方:回忆学问点、作念推理、验算,必要时在脑子里从头组织一遍 —— 他把覆按当成锤真金不怕火基础和想维的契机;

同学 B 走的是开卷覆按模式。每一谈题他都上网查、问 ChatGPT、翻参考谜底,平直抄过来就交。

两份卷子删改下来,都是 100 分。憨厚如若只看分数,这两个东谈主是一样的。但只须你当过憨厚,或者我方读过书,你就知谈这两个东谈主一学期之后的差距会相配大:

同学 A : 哪怕中间作念错过、绕弯过,每作念一题,他那根叫「解题直观」的东西都在被加粗一次。期末的时候,相似一谈题他能更快、更稳地作念对,何况能举一反三。

同学 B : 他也作念了一学期题,但他脑子里的学问存量莫得任何变化。到了必须闭卷的那一次覆按 —— 或者任何一次莫得 ChatGPT 可用的景色 —— 他会片刻发现我方什么都不会。

两份满分,两条运谈实足相背的成长弧线。

先领会一个常见污蔑: 这个故事里毫不是说「同学 A 不会用搜索引擎」或者「用器用是赖事」。碰巧相背 —— A 也不错、也应该在需要的时候用器用 (覆按是比方,真实全国里的 Agent 虽然会遭遇靠我方不管如何答不出来的题,这时候必须调用外部信息)。

真确的要道是:能靠我方答对的题,就无谓为了省事而默许抄谜底。器用该在「靠我方不够」的时候上场,而不是在「根柢还没试过」的时候就被默许触发。至于「什么叫靠我方不够」「什么叫真确必需」, 正是背面要花篇幅讲了了的事 —— 作家会把它精准成一个叫学问规模(knowledge boundary) 的东西。>

换到 Agent 身上,这两类活动实足平行:

图 1. 相似正确的谜底,背后可能是两种截然相背的资源分拨。Agent A 什么都默许靠外部器用,里面推理才略被绕开、无法巩固;Agent B 在里面能处治时就里面处治 —— 但并不摈斥在真确需要时使用器用 —— 推理才略在训诫中被强化。

这不是一个设计问题。这是一个界说问题:什么叫一个「好」Agent? 如若「好」只意味着「答对」, 那开卷同学和闭卷同学没区别。但如若「好」还意味着「越作念越智谋」, 咱们想要的昭着是后者。而这恰正是当今绝大无数 Agent 教师范式看不见的东西。

当下智能体的四种失败模式,其实是吞并个病

以前两年,Agent 系统暴领会了许多彼此看似无关的问题。有些模子在还没真确意会雇务时就急于活动,抵制切换想路;有些则在浅显问题上堕入冗长推理,以至为「2+3 等于几」生成十几条重迭 reasoning path。另一类问题则发生在与外部全国的交互上:模子要么迟迟不肯调用本该使用的器用,要么把蓝本几步就能完成的操作拆成漫长而重迭的轨迹。

这些现象频频被分别归类为 reasoning、planning 或 tool-use 的问题,因此业界也民风于逐一修补:过度推理就增多长度处分,器用阔绰就敛迹 action budget,活动不及就强化器用调用才略。

但如若把这些现象放在吞并个视角下,会发现它们其实分享着吞并个更底层的结构:Agent 长期在面临一个持续存在的决策 —— 下一步究竟应该连接依赖里面想考,如故转向外部全国获得信息。

不同的失败模式,实质上仅仅这个决策在不同方朝上的失衡。答早了是 underthinking,答晚了是 overthinking,问少了是 underacting,问多了是 overacting。不是四个零丁的问题,而是吞并个病 —— 在不笃定性下的决策错配 —— 以四个所在弘扬出来。

下半场的就业,不是连接打补丁,而是治这个病。

换一个视角:推理和活动,是一体两面

如若顺着这个问题连接往下推,一个更当然的不雅察会出现:所谓「推理」和「活动」,随机是两种实质不同的阶段。对于 Agent 来说,它们更像是在不同位置获得信息的两种形式。链式想考、反想和任务理会,实质上是在从头组织模子依然领有的信息;而搜索、API 调用、代码实践等活动,则是在向外部全国索求模子刻下并不具备的信息。

推理和活动,是两种用来镌汰吞并种不笃定性 (epistemic uncertainty, 领会不笃定性) 的器用。它们的判袂只在于信息开头。

里面领会器用 (链式想考、反想、理会):把 Agent 依然有的信息从头组织一遍;

外部物理器用(搜索、API、UI 操作、实践代码):注入 Agent 莫得的信息。

两者都在镌汰不笃定性,只不外一个发生在里面,一个发生在外部,这样智能体的活动轨迹就造成了:

图 2. 左:传统 ReAct 把推理和活动混在一都当作念两个阶段。右:ToA 把 Agent 行为一个合资的计谋,它在两类器用里作念采纳 —— 里面领会器用查的是「我方这个全国模子」, 外部物理器用查的是「真实全国」。

脚下,哪种器用能最快镌汰我对这个任务的不笃定性?

这亦然为什么长高下文、RAG、器用使用、agentic RL 其实都在指向吞并件事,沿着「里面如故外部」这一根轴的不同分拨。

每个 Agent 都有我方的「会作念题」范围

一朝推理和活动平起平坐,操办的中枢对象就不再是「计谋」, 而是:这个 Agent 靠我方能处治的任务,和需要外部匡助才智处治的任务,规模在那里?

ToA 把这件事精准化了:

图 3. 左:一个 Agent 的「学问规模」把它能里面处治的任务和剩下的全国任务离隔。中:多个 Agent 都能里面处治的部分 ——「最小任务集」。右:这群 Agent 中肆意一个能里面处治的并集 ——「最大任务集」。

最中枢的一条:脑力职业的「总量守恒」

而这个总数和计谋无关。咱们不错把坚苦从里面挪到外部,也不错反过来,但总量是定的。访佛于咱们刚开动举的阿谁例子,学生 A 和学生 B 便是在使用不同的分拨计谋去处治吞并套试卷。

从这个角度再看器用使用,会发现一个容易被忽略的事实:外部器用并不会真确抹杀任务自己的信息就业。它们仅仅把蓝本需要由模子里面完成的领会历程,退换到了外部系统上。一个复杂问题之是以变得「容易」,好多时候不是因为问题自己被简化了,而是因为求解历程被从头分拨了。

用生涯比方:你要作念一谈红烧肉。

咱们不错全靠我方的工夫:选肉、焯水、糖色、火候一手拿执。这是里面坚苦拉满。

咱们也不错点一份半制品,回家热一下,或者平直点外卖。这是外部坚苦拉满。

咱们还不错用预制菜 + 我方炖十分钟,均衡一下。

Agent 活动的几何:不同点的含义以及最优活动

既然「领会坚苦」是一个在两个维度间分拨的固定预算,那 Agent 的活动就活在一个二维平面上,如下图所示。

图 4. 横轴是里面推理干预,纵轴是外部活动干预。斜线是最小坚苦前沿 βE_{int}+E_{ext}=E^*。左:任务在里面可解,两种坚苦不错解放互换;右:任务超出里面才略,外部坚苦存在一个不可削减的底线。*

图上标了三个要道点:

点 A 的「全能性」恰正是它的危境。一朝有一个足够颖慧的外部 Agent 可调用,A 不管任务在规模的哪一侧都能走通。这便是为什么只奖励正确性的教师会当然漂移到左上方的 A 点隔壁 —— 它是通往奖励最赋闲、最低风险的旅途。

用实习生的例子类比:小 A 永远都能「对」。雇主只须看谜底,他没错。但一年下来,他莫得学会任何一谈题的内在逻辑 —— 因为他莫得给我方「尝试用大脑」的契机。点 A 便是阿谁「永远搜一下就行」的坑。

等等,那 AC 和 AB 之间呢?

这是一个好意思妙但相配伏击的点。A、B、C 不是仅有的三个「正确谜底」。

那它们之间有什么区别?——区别不是「优不优」, 而是「偏好不同」。

对里面可解的任务 (线段AC), 表里坚苦不错解摈弃换:

延迟明锐的部署,也许更偏 A (一次外部调用快、干脆);

安全明锐、或外部调用很贵的部署,更偏 C (不要放纵触发施行全国的动作);

资本中性的部署,选个中间点就好。

对外部必需的任务 (线段AB), 外部坚苦的底线不成砍,皇冠体育(CrownSports)官网但在这条底线之上,相似存在一个偏好谱:

换句话说,前沿是一整条帕累托最优弧线, A、B、C 仅仅三个代表性的端点。不同的业务场景 —— 安全、延迟、资本、合规 —— 沿着这条弧线采纳不同的位置,都是对的。

那条斜线的斜率 β,到底在说什么?

β 的大小决定了那条斜线的倾角, 也就决定了「帕累托最优前沿」的景色:

β 很大(想很贵、调低廉):斜线陡,最优点举座偏向多调外部。直观:既然我这颗大脑腾贵又慢,那能外包就外包。这讲明了为什么「小模子 + 强器用链」往往是感性采纳 —— 对一个 Llama-3-8B, 让它我方写一堆 CoT 不如平直 RAG 出来给它看。

β 很小(调很贵、想低廉):斜线缓,最优点举座偏向多靠里面。直观:每次触碰施行全国都要费钱 / 承担风险,那就能在脑子里处治的就别最先。这讲明了为什么推理模子 (o1/R1 那一代)把赌注押在「里面 scaling」上 —— 在它们的资本结构下,多推几步比调一次器用低廉得多。

这就把 ToA 和资源有限感性(resource-bounded rationality) 接上了:莫得放之四海皆准的「最好 Agent 活动」,唯一「在刻下 β 下最好的活动」。一条产线上的 Agent 换个部署环境, β 变了,最优的分拨计谋就应该随着变。是以 ToA 的「对都」不是「让 Agent 学会一种固定姿势」, 而是让 Agent 学会识别 β , 并沿着 β 对应的那条前沿去分拨坚苦。

那 ToA 反对的是什么?是 Agent「稀里模糊地漂到 A」—— 不是因为 β 让 A 是最优解,而是因为只奖励正确性的教师让 A 造成了最省事的惯性采纳。吞并个 A, 被 β 论证过的 A 和 被惯性带过来的 A , 在几何上无法分辩,但在 Agent 的历久发展上天渊之别。对都意味着成心志地选前沿上的某少量,而不是在教师惯性下默许滑到边缘。

捷径的代价:Agent 也会被「惯坏」

ToA 里有一个命题叫 Prop 3.9: 交付教学的才略停滞—— 翻译成大口语:

如若 Agent 系统性地把本不错里面处治的任务也外包出去,它的里面推理才略不会因为教训积贮而变强,哪怕它在旨趣上本不错变强。

这是 Agent 版的「小 A 问题」:他一直在外部器用辅助下答对,从未给我方「我方想想看」的契机,是以他的里面才略发愤忘食。看起来今天很能打,十年后如故这个水平。

这其实亦然咱们不雅察好多东谈主类实习生、以至学生的规矩 ——有捷径可行运,大脑就不会再去走长路。而大脑从长路走总结的那部分,才是「长身手」的那部分。Agent 的 RL 教师如若只看正确率,就会被这个最可靠的捷径蛊卦以前,实足复制相似的陷坑。

是以近期那些加「器用使用处分」的次第过后看,实质上都在靠近 ToA 说的 effort-consistent alignment:既要答对,也要克制。

下半场的教师:四条路同期走,不可偏废

把上头通盘内容落到教师,疏漏是四条互补的旅途。每一条单独走都不够, 它们各自拼凑「只求正确」这个病的一个侧面。

1.Agentic Post-training:Next-Tool Prediction

预教师的 next-token 把静态学问压进了参数,但它从没请示 Agent 如何通过交互去获得新学问。咱们见识把预教师延迟到 next-tool prediction—— 把交互轨迹自己 (API 调用、UI 动作、环境查询) 造成一等建模盘算推算,和文本比肩。学会「在给定高下文下,下一个该用哪个器用」, 就不仅仅「会推理」, 而是会决定如何镌汰不笃定性。这是一个新的 scaling 维度:不是储存更多学问,而是通过交互获得学问。

B体育官方网站首页入口

2. Agentic SFT:按才略定制的监督

圭臬 SFT 假定「好的器用使用」有合资圭臬,在吞并套示范上喂通盘模子。ToA 说这个假定不建筑:对小模子允洽的器用使用,对大模子可能实足是充足—— 反过来也一样。一刀切的监督会让模子系统性地偏向示范者的里面任务集, 而不是它我方的。

两条路:(1) 按才略定制数据集—— 每个模子有我方的 Q_{int}, 这个干净但贵;(2)采纳性求援—— 教师 Agent 只在低 solvability 的高下文下主动外求,近似一个保守的才略上包 Q_{max}, 更通用但精度协调。

3.Agentic RL:历程,而不仅仅放手

前边说过,只奖励正确性势必漂向点 A—— 因为交付是「最适当得奖」的计谋。有用的 agentic RL 必须奖励「如何答对」,不仅仅「答对」。OTC-PO 是一个具体例子:它明确处分无谓要的器用调用,把「克制」和「正确」同等对待。更广义地,RL 允许 Agent 学历程级偏好—— 什么时候想、什么时候作念、什么时候停 —— 这是只看放手的监督抒发不出来的。

团队还设计一个迭代范式 RL → SFT → RL:RL 在不笃定性下发现对都轨迹;SFT 把它们压缩成稳当的、可泛化的计谋;第二轮 RL 在这个基础上再作念一次元领会校准。预教师阶段带 RL (算力充足时) 是另一个有远景的所在。

4.Agentic Prompting:有用,但不够用

Prompt-based 次第 (ReAct 式脚手架、挂念、workflow 笼统) 不错不动参数就引出复杂器用使用活动,对快速迭代相配有用。但它们欠缺对决策质料的系统性评估—— 过度想考和过度活动不错藏在「放手对」底下,根柢不会被检出。Prompting 是一个很好的「活动探针」, 但它不是 SFT 和 RL 在参数层面带来的那种校准的替代品。

一条共同的干线

四条路的共同点是:提高 Agent 不是让它推理更多或器用更少,而是让它能测度我方的里面可解度,并据此分拨坚苦。后教师教「器用词汇表」;SFT 锚定「和我方才略匹配的基线」;RL 校准「历程级偏好」;prompting 把活动暴领会来好会诊。「对都」不是一个固定的盘算推算,而是清雅校准的决策历程的清楚属性。那四种失败模式 (overthinking、overacting、under-delegation、over-delegation)——都是吞并个底层误校准的不同切片。

下半场会吵什么?三个还没处治的问题

改日几年 Agent 操办会围绕底下三个问题反复拉扯 —— 它们都是 ToA 掀开的、但没干系上的:

如何测量 Q_int (m,W)?里面任务集是潜变量,只可测度。self-consistency、draft confidence、hidden-state probe、基于 world-model 的 solvability estimator 都是部分谜底。一个好的里面可解度代理,会坐窝成为 alignment 教师的中枢零件。

如何训出真确尊重「坚死守恒」的计谋?只看放手的 RL 作念不到,因为这个不变量对它不可见。给器用使用加处分是第一步;更实质的决策 —— 成心志地均衡表里轨迹的课程,然后用 RL 保管这个均衡 —— 如故洞开问题。

如何评估 Agent 的「坚苦分拨」, 而不是只评估「答对率」? 当下的 benchmark 只说「答对了没」, 这刚好错过重心。咱们需要能分辩「靠推理对」和「靠外包对」的 benchmark。莫得这样的评估,就没主见判断一个 Agent 到底「变智谋了」, 如故「学会了更老练地外包」。

一些有真谛的商榷

长高下文 vs. RAG, 谁更好?

以前一年,前沿实验室在豪恣卷高下文长度 ——Gemini 的百万 token、Claude 的长推理、GPT-4 的器用链。同期 RAG 派补助说「检索才是正谈」。

在 ToA 下,双方其果真作念吞并件事,仅仅形式不同 :

长高下文 = 提前扩展里面 : 先把外部信息一股脑灌进来,再让 Agent 纯里面推理 —— 至极于把任务从 Qext 推回 Qint。

RAG = 按需外求 : 信息留在外面,需要的时候再去取。

论文里的方法性论断是:在正确性换取的前提下,长高下文频频是更好的分拨—— 因为它把 Agent 推向纯里面推理,而纯里面推理正是让才略「千里淀进参数」的阿谁教师信号。是以长高下文不仅仅居品体验,它自己便是才略内化的底座。

虽然 RAG 不会散失。信息及时变化、限制太大、或者超出模子解析才略时,检索便是 epistemically 正派的采纳。要道是,「用哪种」, 自己就该是一个基于领会效果的决策, 不是缺省。

内化和外化:一根一直在动的规模

这可能是 ToA 最实用的一个词汇孝顺。一个 Agent 不错拆成两部分:

模子 (Model):提供参数里的学问、里面推理才略 —— 也便是 Qint 的基础。

脚手架 (Harness):提供器用、挂念、检索、高下文管制、外部契约 —— 也便是通向 Qworld∖Qint 的接口。

这个拆分不是固定的。它在两个相背的历程里被持续重塑:

内化 (Internalization):把脚手架提供的才略,收受进模子自己。算术、结构化查找、某些景色的检索、代码作风的变换 —— 都是典型的「也曾外部,自后搬到参数里去了」的才略。一朝内化告捷,一度需要外部器用的任务就滑进了 QintQint——学问规模向外推了一格。ToA 对内化告捷给出两个条目:(1) 才略自己要可压缩(有结构,能被参数拿获);(2) 教师历程必须至少在某些时候奖励「里面处治」—— 不然梯度信号散失,内化永远不会发生。

外化 (Externalization):反所在。把才略卸给脚手架 —— 有时候很合理 (及时数据、考证器、具身动作), 有时候仅仅为了偷懒。按默许外化的问题恰好便是 Prop 3.9: 不是因为才略实质上在外,而是因为刻下模子在这里作念得不好,于是永远让它作念不好。学问规模被冻结在了早期教师景色。

下半场的中枢设计问题,不是「模子要多大」, 也不是「脚手架要多丰富」, 而是:怎么让这根规模朝着更高自主性的所在持续出动,同期不被「只求正确」的教师惯性拖且归?

自进化智能体

一个智能体不错被称为「自进化的」, 当且仅当它的里面任务集随时候严格推广:

但这个推广「够不够」,取决于它所处的阿谁全国自己是不是也在动。

也便是说 —— 最终,这个全国里一切能被处治的任务,都能由它我方里面处治。

动态全国:这是一个「速度」问题。但真实全国从来不是静态的。W_t 会随着时候抵制冒出新任务 —— 新器用、新接口、新领域、新问题屈指可数。这时候,自进化就不再是「能不成追上」, 而是能不成追得够快。它造成了一个严格的速度条目:

断绝:Agent 不是「答对的机器」,是「越用越智谋的东西」

如若把 Agent 行为一种持续在「里面想考」和「外部活动」之间分拨领会资源的系统,那么以前好多看似割裂的问题 —— 从 tool overuse 到 reasoning collapse,从 long-context scaling 到 lifelong learning—— 好像都不错放回吞并条干线上从头意会。

ToA 并不是这条阶梯的至极,更像是一个开动:它尝试把 Agent 从一套抵制堆叠手段的工程系统huangguan体育app,从头造成一个不错被分析、被讲明、也能够被历久积贮的科学对象。