今日候选池94篇硬过滤 LLM 打分后通过评估18篇精选 Top-10另列 8 篇速览。关注方向多 Agent 系统 / LLM 后训练RL/SFT / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易 精选1. FlexDraft: Flexible Speculative Decoding via Attention Tuning and Bonus-Guided Calibration评分8.7·方向cs.CL · Computation and Language ·arxiv2605.20022· PDF 提出 FlexDraft 并用 attention tuning 与 bonus-guided calibration 提升并行 speculative decoding 的接受率和大 batch 吞吐。推理加速speculative decoding并行解码摘要FlexDraft 针对并行 speculative decoding 在大 batch 下接受率下降、bonus token 与接受长度不确定导致吞吐崩塌的问题提出一种无损加速框架。方法包括仅微调末层 attention projector实现高质量 block diffusion drafting用 bonus-guided 校准缓解验证错配并通过可随 batch 自适应的机制稳定吞吐。实验表明FlexDraft 在不同 batch 尺度下都能保持目标分布与生成质量同时显著提升推理吞吐优于现有并行投机解码方法。评分细项rel 9.5 / nov 8.5 / prac 8.5 / author 5.02. PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents评分8.3·方向cs.AI · Artificial Intelligence ·arxiv2605.19932· PDF 提出 PEEK 上下文地图缓存用 Distiller、Cartographer 与优先级 Evictor 压缩长期外部上下文提升长上下文 agent 检索与推理。长上下文Agent缓存推理优化摘要PEEK 面向需反复访问长上下文的 LLM agent主张缓存的不应只是历史轨迹或原始材料而是关于上下文本身的“定位知识”。其核心是一个常量大小的 context map持续记录内容结构、关键实体与有用模式并由 Distiller、Cartographer 和基于优先级的 Evictor 三模块维护。在长上下文推理、信息聚合和 context learning 任务中PEEK 相比强基线提升 6.3%–34.0%迭代次数更少成本也明显低于 ACE且可泛化到不同模型与 agent 架构。评分细项rel 8.8 / nov 7.8 / prac 8.5 / author 7.53. Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR评分8.5·方向cs.AI · Artificial Intelligence ·arxiv2605.20164· PDF 提出 POW3R在 RLVR 中依据 rollout-level contrast 动态重加权 rubric 各准则提升 GRPO 的奖励信息量。LLM后训练RLVRGRPO奖励建模摘要论文指出RLVR 中常见的 rubric reward 若用静态加权聚合会混淆“人类认为重要”和“当前对优化有信号”这两件事有些高权重标准已饱和或暂不可达真正能区分 rollout 的标准反而被低估。为此提出 POW3R在保持原有人类权重与类别平衡作为评测目标不变的前提下训练时根据策略输出间的对比动态调整 criterion 级奖励权重使 GRPO 获得更有信息量的学习信号。跨 3 个基座策略和 2 个数据集POW3R 在大多数指标上优于 vanilla GRPO并以 2.5–4 倍更少步数达到相近平台。评分细项rel 9.2 / nov 8.1 / prac 8.4 / author 5.24. Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents评分7.9·方向cs.CL · Computation and Language ·arxiv2605.20061· PDF 提出 ReBel为长程 RLVR agent 显式建模 belief state并用 belief-consistency supervision 与 belief-aware grouping 做信用分配。RLVR长程Agent信用分配Belief State摘要ReBel 面向部分可观测环境中的长时程 LLM agent认为困难不只在动作选择更在于信念状态会随不完整观测逐步漂移导致延迟奖励下的 credit assignment 更难。该方法显式建模结构化 belief state 来概括交互历史并通过 belief-consistency supervision 将预测信念与后续观测的不一致转为稠密自监督信号无需逐步标注或外部 verifier同时用 belief-aware grouping 在相似信念下比较轨迹降低 advantage 估计方差。在 ALFWorld 和 WebShop 上ReBel 相比 episode-level GRPO 最高提升 20.4 个百分点样本效率提高 2.1 倍。评分细项rel 8.6 / nov 7.8 / prac 7.4 / author 5.55. A Methodology for Selecting and Composing Runtime Architecture Patterns for Production LLM Agents评分7.8·方向cs.AI · Artificial Intelligence ·arxiv2605.20173· PDF 提出 stochastic-deterministic boundary 架构原语并用 proposer/verifier/commit/reject 组合六类生产级 LLM agent 运行时模式。多智能体Agent系统运行时架构工作流摘要本文从生产系统视角讨论 LLM agent 运行时架构提出将随机模型输出与确定性软件系统之间的接口定义为 stochastic-deterministic boundarySDB并将其视为 agent runtime 的核心原语。围绕 SDB作者整理出 Coordination、State、Control 三类设计关注点以及 6 种可组合的运行时模式覆盖对话式、自主式和长时程 agent。论文进一步给出一套 5 步模式选择方法、将线上故障映射到模式弱点的诊断流程并提出 replay divergence 等新失效模式为生产级 LLM agent 的可靠性设计提供系统化框架。评分细项rel 8.4 / nov 6.9 / prac 8.6 / author 5.06. From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models评分7.4·方向cs.CL · Computation and Language ·arxiv2605.20177· PDF 将 VLM 后训练拆成视觉感知、视觉推理、文本推理三阶段并用 RL 强化感知以提升准确率并缩短 CoT。VLM后训练RLSFT多阶段训练摘要这篇论文认为VLM 后训练的瓶颈常不在长链推理而在视觉感知不足。作者将能力拆分为 visual perception、visual reasoning 和 textual reasoning 三阶段使用专门数据进行分阶段训练。结果表明视觉感知需要针对性优化应先巩固再提升视觉推理且用 RL 学感知比基于 caption 的 SFT 更有效。跨多个 VLM分阶段训练优于混合训练最终在推理准确率上提升 1.5%同时推理链缩短 20.8%。结合传统难度课程后还能继续增益并在多个开放权重 VLM 基准上取得领先。评分细项rel 7.8 / nov 7.2 / prac 7.4 / author 6.57. What Really Improves Mathematical Reasoning: Structured Reasoning Signals Beyond Pure Code评分7.2·方向cs.AI · Artificial Intelligence ·arxiv2605.19762· PDF 在10T语料受控预训练中拆分 code、code-text 与 math-text证明结构化推理轨迹而非纯代码提升数学推理。预训练数学推理数据配比摘要作者通过 10T token、细粒度域分离的预训练实验重新检验“code 能提升通用推理”的常见说法。结果发现纯可执行代码主要提升编程能力并不会自然增强一般推理甚至会挤占知识密集任务尤其是不利于复杂数学推理。真正带来推理收益的更像是 code-text、math-text 这类跨域的结构化推理痕迹而非代码本身。进一步地在固定数学预算下提高结构化数学样本密度可显著提升高难数学推理且基本不损害编程能力路由分析也为这种跨域竞争与协同机制提供了证据。评分细项rel 7.5 / nov 7.5 / prac 6.5 / author 6.58. AQuaUI: Visual Token Reduction for GUI Agents with Adaptive Quadtrees评分7.2·方向cs.MA · Multiagent Systems ·arxiv2605.19260· PDF 提出训练时无改动的 AQuaUI自适应四叉树压缩 GUI 截图视觉 token并保持多步交互时序一致性。GUI Agent视觉token压缩推理优化摘要AQuaUI 针对 GUI agent 每步都需处理高分辨率截图、视觉 token 开销高的问题提出一种无需训练的推理期 token 压缩方法。其核心是基于截图信息密度构建自适应 quadtree对低信息区域合并、仅保留叶节点代表 token同时保持空间位置一致避免破坏位置编码。为增强多步交互中的时间一致性作者还设计 conditional quadtree利用前一帧结构帮助当前帧保留关键细粒度区域。该方法可直接接入现有 GUI agent在降低视觉 token 数和推理成本的同时尽量保持任务性能。评分细项rel 7.5 / nov 7.0 / prac 8.0 / author 5.09. CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning评分7.1·方向cs.CL · Computation and Language ·arxiv2605.20075· PDF 提出 CopT先生成 draft answer 再做 on-policy thinking并用连续嵌入对比验证器估计 reverse KL 判断答案可靠性。推理范式Agentic ReasoningCoT对比验证摘要本文提出 CopT一种先答后想的推理框架用于缓解传统 Chain-of-Thought 必须先长推理、再作答带来的时延与 token 开销并减少“表演式推理”。CopT 先生成草稿答案再围绕该答案进行 on-policy thinking 反思与修正同时将连续 embedding 重写为推理时的对比式验证器通过比较离散 token 输入与连续 embedding 输入下模型对同一输出的支持度构造序列级 reverse KL 估计答案可靠性。若置信不足系统再触发进一步思考并用第二个 KL 估计器动态控制草稿可见性。实验表明CopT 在通用推理与 agentic reasoning 中都能以更低成本获得更强或更稳健的表现。评分细项rel 7.4 / nov 8.2 / prac 5.8 / author 5.010. STAR-PólyaMath: Multi-Agent Reasoning under Persistent Meta-Strategic Supervision评分6.9·方向cs.MA · Multiagent Systems ·arxiv2605.19338· PDF 提出 STAR-PólyaMath 多 agent 推理框架用 Meta-Strategist、Reasoner-Verifier 与 challenge-step-replan 状态机做长程数学求解。多智能体数学推理工作流摘要本文提出面向长程数学推理的多智能体框架 STAR-PólyaMath旨在解决现有系统易出现的幻觉累积、记忆碎片化以及推理与工具使用失衡等问题。该方法采用由 Python orchestrator 驱动的状态机将控制与推理解耦通过 challenge-step-replan 循环、回溯与重规划限制错误传播核心创新是持续存在的 Meta-Strategist可跨尝试维护记忆并提供高层策略或强制指令帮助系统跳出低效循环。STAR-PólyaMath 在 8 个顶级竞赛基准上取得 SOTA在 AIME、Putnam 和 HMMT 上满分在 Apex 2025 上以 93.75% 显著超过 GPT-5.5 的 80.21%。评分细项rel 7.0 / nov 7.5 / prac 6.5 / author 6.0 速览 · 其他通过评估的工作8 篇一句话扫读按评分从高到低点击标题跳转 arxiv。cs.CV6.6A Nash Equilibrium Framework For Training-Free Multimodal Step Verification· 把多模态逐步验证建模为多评审者的 Nash equilibrium 博弈用闭式均衡分数做 step verification 与排序。cs.CL7.1Rethinking How to Remember: Beyond Atomic Facts in Lifelong LLM Agent Memory· 提出 TriMem用原始对话片段、原子事实、综合画像三层记忆表示并以 TextGrad 优化抽取与画像提示。cs.CL7.1Are Tools Always Beneficial? Learning to Invoke Tools Adaptively for Dual-Mode Multimodal LLM Reasoning· 提出 AutoTool在强化学习中以双模式推理和 mode-specific reward 学习何时调用工具、何时仅做文本推理。cs.AI6.9Probabilistic Tiny Recursive Model· 提出 PTRM在 Tiny Recursive Model 的深递归步骤注入高斯噪声并用 Q head 选择轨迹以扩展 test-time compute。cs.CL6.1BalanceRAG: Joint Risk Calibration for Cascaded Retrieval-Augmented Generation· 提出 BalanceRAG用 sequential graphical testing 在 LLM-only 与 RAG 级联中联合校准双阈值控制系统级风险与检索开销。cs.CV6.2Probability-Conserving Flow Guidance· 从连续性方程分解 CFG 的散度项与平行分数项提出 Adaptive Manifold Guidance 在零额外开销下稳定 flow guidance。cs.CV6.3TideGS: Scalable Training of Over One Billion 3D Gaussian Splatting Primitives via Out-of-Core Optimization· 提出 TideGS 的 SSD-CPU-GPU 分层 out-of-core 训练用块虚拟化与差分流式传输在 24GB 单卡训练十亿级 3DGS。cs.AI6.0Prior Knowledge or Search? A Study of LLM Agents in Hardware-Aware Code Optimization· 通过 propose-evaluate-revise 实验解剖硬件感知代码优化 agent比较黑盒搜索、零样本 kernel 生成与反馈闭环的行为差异。数据源arxiv.org · 评分与中文摘要由 LLM 自动生成仅供初筛参考