Loading...
协调动态环境中的多个具身智能体仍是人工智能领域的核心挑战,这需要感知驱动的推理能力与可扩展的协作策略。尽管近年来已有研究利用大型语言模型(LLMs)实现多智能体规划,但仅有少数工作探索了视觉-语言模型(VLMs)在视觉推理中的应用。然而,这些基于VLM的方法在支持多样化智能体形态方面仍存在局限。本文中,我们提出VIKI-Bench——首个专为具身多智能体协作设计的分层基准测试集,包含三个结构化层级:智能体激活、任务规划和轨迹感知。
2025_NIPS_HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization
Transformer已成为众多机器学习任务(尤其是大型语言模型LLMs)的主流架构。尽管性能卓越,但深度Transformer网络的训练仍面临诸多挑战,尤其是层归一化的位置选择问题。Pre-Norm结构凭借更强的恒等路径实现了更稳定的训练,但其性能往往不及Post-Norm。本文提出HybridNorm,一种简单有效的混合归一化策略,融合了Pre-Norm和Post-Norm的优势。
2025_NIPS_ModuLM: Enabling Modular and Multimodal Molecular Relational Learning with Large Language
本文针对分子关系学习(MRL)中现有大语言模型(LLM)框架缺乏多模态输入支持和灵活架构的问题,提出模块化框架ModuLM。该框架支持1D、2D、3D分子输入格式,整合多种编码器、交互层和LLM骨干网络,可动态构建超50,000种模型配置,适用于药物-药物相互作用(DDI)、溶质-溶剂相互作用(SSI)等任务,通过增量预训练、模态对齐和灵活微调提升模型性能。分子关系学习(MRL)旨在理解分子对之间的相互作用,在推动生化研究方面发挥着关键作用。
2025_NIPS_DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking i
检索增强生成(RAG)系统将大型语言模型(LLM)与外部知识检索相结合,在知识密集型任务中表现出极高的有效性。这些系统中一个关键但常被忽视的组件是重排器。由于RAG系统中的无关文档可能会误导生成器,重排器在优化检索文档以提升生成质量和可解释性方面发挥着至关重要的作用。然而,确定重排器应选择的合适文档数量(k)具有挑战性:过少可能导致遗漏关键信息,过多则会引入噪声并降低效率。
Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
本文提出神经灌木丛(NeuralThickets)大规模预训练模型的权重邻域内,密集分布着大量多样化的任务专家解,无需梯度优化,仅通过随机扰动+筛选集成即可获得媲美PPO、GRPO等强化学习后训练方法的性能。核心发现:小模型优质解稀疏,大模型随规模提升呈现“灌木丛”特性,任务专家解密度与多样性遵循缩放律。RandOpt——随机采样N个参数扰动,选Top-K做多数投票集成,无反向传播、全并行、时间复杂度O(1)。核心结论:预训练让下游适配变“易”,后训练更像搜索而非优化。
MetaClaw: Just Talk – An Agent That Meta-Learns and Evolves in the Wild
大语言模型(LLM)智能体已迅速成为复杂多步任务的强大助手,但实际部署中的智能体大多保持静态——一次训练后便不再改变,无视用户需求的持续演化。这带来一个核心矛盾:智能体必须不间断持续服务用户,却会因真实使用中任务分布漂移而能力过时。在OpenClaw等平台上,单个智能体接入20+消息渠道并处理多样、动态变化的任务负载,现有方案要么仅存储原始轨迹而不提炼可迁移行为知识,要么维护与权重优化脱节的静态技能库,要么在重训练时导致服务停机。
ATTENTION RESIDUALS
带PreNorm的残差连接是现代大语言模型的标准组件,但它们以固定单位权重累加所有层输出。这种均匀聚合会导致隐藏态随深度无控增长,逐步稀释每层的贡献。我们提出注意力残差(AttnRes),用对前层输出的softmax注意力替代这种固定累加,让每层能以可学习、输入相关的权重选择性聚合早期表示。为解决大规模模型训练中对所有前层输出做注意力带来的内存与通信开销,我们提出块注意力残差(BlockAttnRes):将层划分为块,仅对块级表示做注意力,在保留FullAttnRes大部分收益的同时降低内存占用。
FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System
本文提出FireRedASR2S,一款达到当前最优水平的工业级一体化自动语音识别(ASR)系统。它将四个模块集成在统一流水线中:ASR、语音活动检测(VAD)、口语语种识别(LID)以及标点预测(Punc)。所有模块在评测基准上均达到SOTA性能:FireRedASR2:ASR模块包含两个变体,FireRedASR2‑LLM(8B+参数)与FireRedASR2‑AED(1B+参数),支持普通话、中国方言与口音、英语以及语码混合的语音与歌声转录。
2025_NIPS_Optimizing the Unknown: Black Box Bayesian Optimization with Energy-Based Model and Reinfo
现有贝叶斯优化(BO)方法通常通过平衡探索与利用来优化代价高昂的目标函数。然而,这些方法往往存在显著的单步偏差,可能导致收敛到局部最优解,且在复杂或高维任务中性能不佳。近年来,黑盒优化(BBO)已在多个科学与工程领域取得成功,尤其适用于函数评估成本高且梯度不可用的场景。受此启发,我们提出了强化能量模型贝叶斯优化(REBMBO),该框架融合高斯过程(GP)用于局部指导,以及能量模型(EBM)用于捕捉全局结构信息。
2025_NIPS_Exact Expressive Power of Transformers with Padding
该研究聚焦Transformer模型的表达能力扩展,提出通过填充(Padding)和循环(Looping)带多项式填充的固定深度Transformer(AHAT模型),其表达能力恰好等价于FO-一致的TC0TC^0TC0(高度并行化问题类),解决了此前未明确的下界问题。结合多项式填充与OlogdnO(log^dn)Ologdn次循环的Transformer,表达能力等价于FO-一致的TCdTC^dTCd(中度并行化问题类);
2025_NIPS_Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models
现有自动驾驶世界模型在长时生成和复杂场景泛化方面面临挑战。本文通过简洁的设计选择,在不依赖额外监督或传感器(如地图、深度信息、多摄像头)的情况下开发了一种模型。研究表明,尽管该模型仅含4.69亿参数且基于280小时视频数据训练,仍实现了当前最优性能,尤其在转弯机动和城市交通等复杂场景中表现突出。我们测试了离散令牌模型相较于基于流匹配的连续模型是否具备优势,为此构建了一种混合令牌器,该令牌器与两种方法均兼容,支持直接对比。
2025_NIPS_On Evaluating LLM Alignment by Evaluating LLMs as Judges
研究背景:LLM对齐评估需衡量模型是否有用、诚实、安全且遵循人类指令,传统方法依赖人类标注或LLM作为评判者,但存在成本高、耗时久等问题。同时,LLM的生成能力(生成符合人类偏好的响应)与评估能力(判断响应是否符合人类偏好)的关联尚未被全面探究。核心概念定义:提出“生成-评估一致性(GE-consistency)”,即通过偏好预言机(如强LLM)评估多个LLM的生成能力排名与评估能力排名之间的相关性(采用斯皮尔曼相关系数衡量)。实验验证。
OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data
深度搜索能力已成为前沿大语言模型智能体的核心能力,但高性能搜索智能体的研发仍被工业巨头主导,根源在于缺乏透明、高质量的训练数据。这种数据匮乏严重阻碍了开源社区的创新。基于事实的可扩展可控问答合成:通过网页图拓扑扩展与实体混淆,反向生成可控覆盖度与复杂度的复杂多跳推理任务;去噪轨迹合成:采用回溯摘要机制降噪轨迹,提升教师模型生成高质量动作的能力。
LLM Weekly(2026.3.9-2026.3.15)
NVIDIA发布Nemotron3Super大模型,这是一款参数量达1200亿的混合Mamba-Transformer混合专家模型,仅激活120亿参数,支持100万token上下文窗口,专为智能体推理工作流量身打造。该模型的吞吐量较上一代NemotronSuper提升最高5倍,准确率提升2倍,在开源权重模型中效率排名登顶,同时为NVIDIA的AI-Q研究智能体提供算力支持,该智能体在DeepResearchBench榜单中位列第一。
Memento-Skills: Let Agents Design Agents
我们提出Memento‑Skills,一种通用、可持续学习的大语言模型智能体系统,它扮演设计智能体的智能体:通过经验自主构建、适配并改进专用任务智能体。该系统基于带状态提示的记忆式强化学习框架构建,可复用技能(以结构化Markdown文件存储)作为持久、可进化的记忆。这些技能编码行为与上下文,使智能体能够在交互间传递知识。系统从简单基础技能(如网页搜索、终端操作)出发,通过Memento2提出的读写反射学习机制持续进化。读取阶段,可训练的技能路由依据当前状态提示选择最相关技能;
LLM Weekly(2026.3.16-2026.3.22)
据Anthropic报告,开发者约60%的工作会使用AI辅助,但能完全交由AI代劳的任务仅占0%–20%。来自乐天、加拿大电信运营商TELUS及Zapier的案例显示,ClaudeCode可自主完成复杂开发工作,工程交付速度提升30%,企业整体AI采用率达89%,标志着开发模式从手写代码转向智能体编排。
2025_NIPS_StarTrail: Concentric Ring Sequence Parallelism for Efficient Near-Infinite-Context Trans
在分布式环境下训练长序列Transformer模型面临着效率和可扩展性方面的重大挑战。现有方法要么受限于注意力头数量,要么存在过高的通信开销。为解决这一问题,我们提出了StarTrail——一种用于长序列的多维同心分布式训练系统,该系统构建了高效的通信范式,并为通信配置提供了额外的调优灵活性。具体而言,StarTrail引入了一个额外的并行维度,将点对点通信划分为子环通信,从而大幅降低通信量并避免带宽瓶颈。
2025_NIPS_MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hier
大语言模型(LLMs)在自动化科学假设生成方面已展现出潜力,但现有方法主要生成粗粒度假设,缺乏关键的方法学和实验细节。本文引入并正式定义了细粒度科学假设发现这一新任务,即从粗略的初始研究方向生成详细、可通过实验验证的假设。我们将该任务构建为组合优化问题,并探究当LLMs被最大化利用时,其解决该问题的能力上限。具体而言,我们围绕四个核心问题展开研究:(1)如何充分利用LLM的内部启发式,制定出该模型自身判定为所有可能生成假设中最具潜力的细粒度假设——即基于其内部评分在假设空间上定义一个潜在奖励景观;
2025_NIPS_Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference
大语言模型(LLMs)现已融入各类领域并展现出令人印象深刻的性能。然而,相关研究进展的前提是基准测试分数既准确又可复现。本文研究表明,LLM性能的可复现性十分脆弱:改变评估批次大小、GPU数量和GPU型号等系统配置,会导致生成结果出现显著差异。该问题在推理类模型中尤为突出——早期token的微小舍入误差可能会引发连锁反应,导致推理链分歧,最终影响准确率。
2025_NIPS_Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Model
该研究聚焦于大语言模型(LLMs)在稀疏环境反馈下的时序信用分配与在线强化学习问题,核心是解决LLM智能体自进化训练中样本效率低、泛化能力有限的痛点。核心挑战:在多轮序列决策任务中,环境反馈通常稀疏(仅在任务完成时获得奖励),传统时序信用分配方法依赖任务特定价值函数,存在样本效率低、泛化性差的问题。核心方法提出回顾性上下文学习(RICL):利用LLM的预训练知识,通过回顾轨迹反馈生成细粒度指导,将稀疏奖励转化为稠密的优势函数(训练信号),实现高效时序信用分配。提出在线学习框架RICOL。
