Loading...
现有贝叶斯优化(BO)方法通常通过平衡探索与利用来优化代价高昂的目标函数。然而,这些方法往往存在显著的单步偏差,可能导致收敛到局部最优解,且在复杂或高维任务中性能不佳。近年来,黑盒优化(BBO)已在多个科学与工程领域取得成功,尤其适用于函数评估成本高且梯度不可用的场景。受此启发,我们提出了强化能量模型贝叶斯优化(REBMBO),该框架融合高斯过程(GP)用于局部指导,以及能量模型(EBM)用于捕捉全局结构信息。
2025_NIPS_Exact Expressive Power of Transformers with Padding
该研究聚焦Transformer模型的表达能力扩展,提出通过填充(Padding)和循环(Looping)带多项式填充的固定深度Transformer(AHAT模型),其表达能力恰好等价于FO-一致的TC0TC^0TC0(高度并行化问题类),解决了此前未明确的下界问题。结合多项式填充与OlogdnO(log^dn)Ologdn次循环的Transformer,表达能力等价于FO-一致的TCdTC^dTCd(中度并行化问题类);
2025_NIPS_Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models
现有自动驾驶世界模型在长时生成和复杂场景泛化方面面临挑战。本文通过简洁的设计选择,在不依赖额外监督或传感器(如地图、深度信息、多摄像头)的情况下开发了一种模型。研究表明,尽管该模型仅含4.69亿参数且基于280小时视频数据训练,仍实现了当前最优性能,尤其在转弯机动和城市交通等复杂场景中表现突出。我们测试了离散令牌模型相较于基于流匹配的连续模型是否具备优势,为此构建了一种混合令牌器,该令牌器与两种方法均兼容,支持直接对比。
2025_NIPS_On Evaluating LLM Alignment by Evaluating LLMs as Judges
研究背景:LLM对齐评估需衡量模型是否有用、诚实、安全且遵循人类指令,传统方法依赖人类标注或LLM作为评判者,但存在成本高、耗时久等问题。同时,LLM的生成能力(生成符合人类偏好的响应)与评估能力(判断响应是否符合人类偏好)的关联尚未被全面探究。核心概念定义:提出“生成-评估一致性(GE-consistency)”,即通过偏好预言机(如强LLM)评估多个LLM的生成能力排名与评估能力排名之间的相关性(采用斯皮尔曼相关系数衡量)。实验验证。
OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data
深度搜索能力已成为前沿大语言模型智能体的核心能力,但高性能搜索智能体的研发仍被工业巨头主导,根源在于缺乏透明、高质量的训练数据。这种数据匮乏严重阻碍了开源社区的创新。基于事实的可扩展可控问答合成:通过网页图拓扑扩展与实体混淆,反向生成可控覆盖度与复杂度的复杂多跳推理任务;去噪轨迹合成:采用回溯摘要机制降噪轨迹,提升教师模型生成高质量动作的能力。
LLM Weekly(2026.3.9-2026.3.15)
NVIDIA发布Nemotron3Super大模型,这是一款参数量达1200亿的混合Mamba-Transformer混合专家模型,仅激活120亿参数,支持100万token上下文窗口,专为智能体推理工作流量身打造。该模型的吞吐量较上一代NemotronSuper提升最高5倍,准确率提升2倍,在开源权重模型中效率排名登顶,同时为NVIDIA的AI-Q研究智能体提供算力支持,该智能体在DeepResearchBench榜单中位列第一。
Memento-Skills: Let Agents Design Agents
我们提出Memento‑Skills,一种通用、可持续学习的大语言模型智能体系统,它扮演设计智能体的智能体:通过经验自主构建、适配并改进专用任务智能体。该系统基于带状态提示的记忆式强化学习框架构建,可复用技能(以结构化Markdown文件存储)作为持久、可进化的记忆。这些技能编码行为与上下文,使智能体能够在交互间传递知识。系统从简单基础技能(如网页搜索、终端操作)出发,通过Memento2提出的读写反射学习机制持续进化。读取阶段,可训练的技能路由依据当前状态提示选择最相关技能;
LLM Weekly(2026.3.16-2026.3.22)
据Anthropic报告,开发者约60%的工作会使用AI辅助,但能完全交由AI代劳的任务仅占0%–20%。来自乐天、加拿大电信运营商TELUS及Zapier的案例显示,ClaudeCode可自主完成复杂开发工作,工程交付速度提升30%,企业整体AI采用率达89%,标志着开发模式从手写代码转向智能体编排。
2025_NIPS_StarTrail: Concentric Ring Sequence Parallelism for Efficient Near-Infinite-Context Trans
在分布式环境下训练长序列Transformer模型面临着效率和可扩展性方面的重大挑战。现有方法要么受限于注意力头数量,要么存在过高的通信开销。为解决这一问题,我们提出了StarTrail——一种用于长序列的多维同心分布式训练系统,该系统构建了高效的通信范式,并为通信配置提供了额外的调优灵活性。具体而言,StarTrail引入了一个额外的并行维度,将点对点通信划分为子环通信,从而大幅降低通信量并避免带宽瓶颈。
2025_NIPS_MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hier
大语言模型(LLMs)在自动化科学假设生成方面已展现出潜力,但现有方法主要生成粗粒度假设,缺乏关键的方法学和实验细节。本文引入并正式定义了细粒度科学假设发现这一新任务,即从粗略的初始研究方向生成详细、可通过实验验证的假设。我们将该任务构建为组合优化问题,并探究当LLMs被最大化利用时,其解决该问题的能力上限。具体而言,我们围绕四个核心问题展开研究:(1)如何充分利用LLM的内部启发式,制定出该模型自身判定为所有可能生成假设中最具潜力的细粒度假设——即基于其内部评分在假设空间上定义一个潜在奖励景观;
2025_NIPS_Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference
大语言模型(LLMs)现已融入各类领域并展现出令人印象深刻的性能。然而,相关研究进展的前提是基准测试分数既准确又可复现。本文研究表明,LLM性能的可复现性十分脆弱:改变评估批次大小、GPU数量和GPU型号等系统配置,会导致生成结果出现显著差异。该问题在推理类模型中尤为突出——早期token的微小舍入误差可能会引发连锁反应,导致推理链分歧,最终影响准确率。
2025_NIPS_Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Model
该研究聚焦于大语言模型(LLMs)在稀疏环境反馈下的时序信用分配与在线强化学习问题,核心是解决LLM智能体自进化训练中样本效率低、泛化能力有限的痛点。核心挑战:在多轮序列决策任务中,环境反馈通常稀疏(仅在任务完成时获得奖励),传统时序信用分配方法依赖任务特定价值函数,存在样本效率低、泛化性差的问题。核心方法提出回顾性上下文学习(RICL):利用LLM的预训练知识,通过回顾轨迹反馈生成细粒度指导,将稀疏奖励转化为稠密的优势函数(训练信号),实现高效时序信用分配。提出在线学习框架RICOL。
2025_NIPS_Deep RL Needs Deep Behavior Analysis: Exploring Implicit Planning by Model-Free Agents in
随着任务复杂度和智能体sophistication的提升,理解深度强化学习(DRL)智能体的行为已不仅限于奖励曲线的简单对比,但DRL领域的标准行为分析方法仍显滞后。本研究将神经科学和行为学工具应用于新型复杂部分可观测环境ForageWorld中的DRL智能体研究,该环境模拟了真实世界动物觅食的核心特征——包括稀疏且消耗性的资源斑块、捕食者威胁和空间扩展型活动区域。我们以该环境为平台,对智能体进行行为与神经联合分析,揭示了关于智能体策略、记忆和规划的详细量化洞见。
2025_NIPS_Reasoning Planning for Language Models
为给定查询选择合适的推理方法仍是语言模型生成中的核心挑战。现有方法通常生成多个候选答案,并采用聚合策略筛选输出结果,且往往假设候选答案数量越多,准确率越高。本文通过严格的理论分析重新审视这一假设,在固定生成分布和候选规模下,推导了标准聚合方法的准确率边界。基于这些见解,我们提出了EPIC(EnsemblePlannIngwithContrastivelearning)框架——一种结合对比学习的集成规划方法,用于学习一个共享表征空间,该空间同时捕捉模型推理能力与查询-方法适配性。
2025_NIPS_Alleviating Hallucinations in Large Language Models through Multi-Model Contrastive Decodi
尽管大型语言模型(LLMs)在众多应用中表现出色,但它们仍然容易产生幻觉,生成与预训练语料不一致的内容。目前,几乎所有对比解码方法都是通过引入一个易产生幻觉的模型,并适当扩大幻觉token与目标token之间的对比对数概率差距来缓解幻觉问题。然而,现有对比解码方法虽能减轻幻觉,却对生成内容的事实准确性缺乏足够的置信度。在本研究中,我们提出了多模型对比解码(MCD),该方法将预训练语言模型与邪恶模型(易幻觉模型)和真实模型(高事实性模型)相结合进行对比解码。
2025_NIPS_Memory Injection Attacks on LLM Agents via Query-Only Interaction
该研究提出一种名为MINJA的新型记忆注入攻击,针对大型语言模型(LLM)智能体,仅通过查询交互即可向智能体的长期记忆库注入恶意记录。攻击核心是设计包含“桥接步骤”的恶意记录,将良性查询与恶意推理逻辑关联,再通过“指示提示词”诱导智能体自主生成相关推理,并采用“渐进缩短策略”逐步移除提示词痕迹,使恶意记录能被后续受害者查询高效检索。
2025_NIPS_Generating Computational Cognitive Models using Large Language Models
该研究提出pipeline,利用大型语言模型(LLMs)生成计算认知模型,在决策、学习、规划、记忆四大认知领域,其生成模型的预测性能均达到或超越文献中最优的领域特定模型,且具有可解释性强、效率高的特点。计算认知模型将认知理论形式化,使研究者能够量化认知过程,并通过将模型拟合到行为数据中来仲裁竞争理论。传统上,这些模型是手工设计的,需要深厚的领域知识、编程技能和大量时间投入。然而,机器学习的最新进展为这些挑战提供了解决方案。
2025_NIPS_SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks
对大型语言模型(LLM)智能体进行严格的安全导向评估,对于确保其在软件开发生命周期中安全部署至关重要。然而,现有基准测试大多依赖合成挑战或简化的漏洞数据集,无法捕捉安全工程师在实际工作中遇到的复杂性和模糊性。本文提出SEC-bench,首个用于评估LLM智能体在真实安全工程任务中表现的全自动基准测试框架。SEC-bench采用创新的多智能体架构,自动构建带有测试工具的代码仓库、在隔离环境中复现漏洞,并生成可靠评估所需的标准补丁。
2025_NIPS_STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Au
本文针对自动驾驶领域多模态大语言模型(VLMs)的时空推理能力评估缺口,提出了STSBench——一个基于场景的基准测试框架,并在nuScenes数据集上实例化得到STSnu基准。我们提出STSBench,一个基于场景的基准测试框架,用于评估自动驾驶领域视觉语言模型(VLMs)的整体理解能力。该框架利用真值标注从任意数据集自动挖掘预设交通场景,提供直观的用户界面以实现高效人工验证,并生成选择题用于模型评估。
2025_NIPS_Continual Knowledge Adaptation for Reinforcement Learning
强化学习使智能体能够通过与环境的交互学习最优行为。然而,现实世界环境通常具有非平稳性,要求智能体持续适配新任务和变化的条件。尽管持续强化学习(CRL)支持跨多个任务的学习,但现有方法往往面临灾难性遗忘和知识利用低效的问题。为解决这些挑战,我们提出了持续知识自适应强化学习(CKA-RL),该方法能够积累并有效利用历史知识。具体而言,我们引入了持续知识自适应策略,包括维护任务专属知识向量池,并动态利用历史知识使智能体适配新任务。该过程通过保留和适配关键模型参数,减轻了灾难性遗忘并实现了跨任务的高效知识迁移。
