Loading...
模型编辑为高效、精准地更新预训练Transformer中的知识提供了一种极具前景的范式,无需进行昂贵的重训练。尽管该技术在语言模型(LMs)中已得到广泛研究,但视觉Transformer(ViTs)的模型编辑仍未得到充分探索。现有方法通常通过修改多层感知机(MLP)模块来适配基于LM的技术,却忽视了ViTs的独特特性。在本研究中,我们发现ViT的预测结果受多头自注意力(MSA)模块的影响远大于MLP模块。基于这一观察,我们提出了一种用于编辑ViTs的两阶段框架。首先,识别对错误预测负主要责任的注意力头;
2025_NIPS_BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning
小型语言模型(SLM)难以学习复杂的推理行为,尤其是在高质量轨迹稀缺或难以借鉴的场景下。标准训练方法通常结合监督微调(SFT)阶段(用于蒸馏大型模型的能力)和强化学习(RL)阶段(如组相对策略优化GRPO)。本文研究了这种SFT+RL范式的根本性局限,并提出了相应的解决方法。在合适的理论模型下,我们证明当(1)专家轨迹过于复杂导致小型模型无法表达,或(2)小型模型初始化成功的概率呈指数级低时,SFT+RL策略会完全失效。
2025_NIPS_URLs Help, Topics Guide: Understanding Metadata Utility in LLM Training
大语言模型(LLMs)通常在海量文本语料上进行预训练,却未利用来源、质量或主题等上下文元数据,形成了无上下文的学习范式。尽管近期研究表明,将URL等元数据作为上下文(即不参与损失计算的辅助输入)可提升训练效率和下游任务性能,但对于哪些类型的元数据真正有效以及在何种条件下有效,相关理解仍较为有限。本研究通过系统性评估发现,并非所有元数据类型的贡献都是均等的:仅URL上下文能加速训练,而质量分数和主题/格式领域信息未带来明显收益。
2025_NIPS_Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models
视觉推理能力在理解复杂多模态数据、推动特定领域应用和人工通用智能(AGI)发展中起着至关重要的作用。现有方法通过思维链(CoT)有监督微调提升视觉语言模型(VLMs)的推理能力,利用精心标注的训练数据增强视觉推理性能。然而,这种训练范式可能导致过拟合和认知僵化,限制模型在领域迁移场景下的泛化能力,降低其实际应用价值。为解决这些局限,我们提出Reason-RFT——首个用于视觉推理的两阶段强化微调框架:(1)利用精选CoT数据进行有监督微调(SFT),激活VLMs的推理潜力;
OpenClaw-RL: Train Any Agent Simply by Talking
每个已部署的AI智能体都在收集用于自我改进的数据却又将其丢弃。每次动作ata_tat后,智能体都会收到下一状态信号st1s_{t+1}st1:用户回复、工具执行结果、GUI状态转换或测试判定。现有系统仅将其当作下一步动作的上下文。本文提出OpenClaw‑RL,一个基于简单观察构建的框架:下一状态信号具有普遍性,策略可同时从所有信号中学习。个人对话、终端执行、GUI交互、SWE任务与工具调用轨迹并非独立训练问题,它们都是可在同一循环中训练同一策略的交互。
HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided
大模型正从离线预测器转向需长期运行的部署系统。实际部署中目标并非固定:领域漂移、用户偏好变化、新任务持续出现,这让持续学习与即时个性化从可选功能升级为核心架构需求。但主流适配流程仍遵循静态权重范式:训练或适配后,推理仅执行单一参数向量,无视用户意图、领域与实例约束,将模型视为参数空间中的单点。在异构、持续演化场景中,不同目标会形成分离的可行参数区域,迫使单一共享更新陷入折中、干扰或过拟合。因此持续学习与个性化常表现为重复覆写共享权重,易导致已学能力退化。本文提出。
2025_NIPS_VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning
协调动态环境中的多个具身智能体仍是人工智能领域的核心挑战,这需要感知驱动的推理能力与可扩展的协作策略。尽管近年来已有研究利用大型语言模型(LLMs)实现多智能体规划,但仅有少数工作探索了视觉-语言模型(VLMs)在视觉推理中的应用。然而,这些基于VLM的方法在支持多样化智能体形态方面仍存在局限。本文中,我们提出VIKI-Bench——首个专为具身多智能体协作设计的分层基准测试集,包含三个结构化层级:智能体激活、任务规划和轨迹感知。
2025_NIPS_HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization
Transformer已成为众多机器学习任务(尤其是大型语言模型LLMs)的主流架构。尽管性能卓越,但深度Transformer网络的训练仍面临诸多挑战,尤其是层归一化的位置选择问题。Pre-Norm结构凭借更强的恒等路径实现了更稳定的训练,但其性能往往不及Post-Norm。本文提出HybridNorm,一种简单有效的混合归一化策略,融合了Pre-Norm和Post-Norm的优势。
2025_NIPS_ModuLM: Enabling Modular and Multimodal Molecular Relational Learning with Large Language
本文针对分子关系学习(MRL)中现有大语言模型(LLM)框架缺乏多模态输入支持和灵活架构的问题,提出模块化框架ModuLM。该框架支持1D、2D、3D分子输入格式,整合多种编码器、交互层和LLM骨干网络,可动态构建超50,000种模型配置,适用于药物-药物相互作用(DDI)、溶质-溶剂相互作用(SSI)等任务,通过增量预训练、模态对齐和灵活微调提升模型性能。分子关系学习(MRL)旨在理解分子对之间的相互作用,在推动生化研究方面发挥着关键作用。
2025_NIPS_DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking i
检索增强生成(RAG)系统将大型语言模型(LLM)与外部知识检索相结合,在知识密集型任务中表现出极高的有效性。这些系统中一个关键但常被忽视的组件是重排器。由于RAG系统中的无关文档可能会误导生成器,重排器在优化检索文档以提升生成质量和可解释性方面发挥着至关重要的作用。然而,确定重排器应选择的合适文档数量(k)具有挑战性:过少可能导致遗漏关键信息,过多则会引入噪声并降低效率。
Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
本文提出神经灌木丛(NeuralThickets)大规模预训练模型的权重邻域内,密集分布着大量多样化的任务专家解,无需梯度优化,仅通过随机扰动+筛选集成即可获得媲美PPO、GRPO等强化学习后训练方法的性能。核心发现:小模型优质解稀疏,大模型随规模提升呈现“灌木丛”特性,任务专家解密度与多样性遵循缩放律。RandOpt——随机采样N个参数扰动,选Top-K做多数投票集成,无反向传播、全并行、时间复杂度O(1)。核心结论:预训练让下游适配变“易”,后训练更像搜索而非优化。
MetaClaw: Just Talk – An Agent That Meta-Learns and Evolves in the Wild
大语言模型(LLM)智能体已迅速成为复杂多步任务的强大助手,但实际部署中的智能体大多保持静态——一次训练后便不再改变,无视用户需求的持续演化。这带来一个核心矛盾:智能体必须不间断持续服务用户,却会因真实使用中任务分布漂移而能力过时。在OpenClaw等平台上,单个智能体接入20+消息渠道并处理多样、动态变化的任务负载,现有方案要么仅存储原始轨迹而不提炼可迁移行为知识,要么维护与权重优化脱节的静态技能库,要么在重训练时导致服务停机。
ATTENTION RESIDUALS
带PreNorm的残差连接是现代大语言模型的标准组件,但它们以固定单位权重累加所有层输出。这种均匀聚合会导致隐藏态随深度无控增长,逐步稀释每层的贡献。我们提出注意力残差(AttnRes),用对前层输出的softmax注意力替代这种固定累加,让每层能以可学习、输入相关的权重选择性聚合早期表示。为解决大规模模型训练中对所有前层输出做注意力带来的内存与通信开销,我们提出块注意力残差(BlockAttnRes):将层划分为块,仅对块级表示做注意力,在保留FullAttnRes大部分收益的同时降低内存占用。
FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System
本文提出FireRedASR2S,一款达到当前最优水平的工业级一体化自动语音识别(ASR)系统。它将四个模块集成在统一流水线中:ASR、语音活动检测(VAD)、口语语种识别(LID)以及标点预测(Punc)。所有模块在评测基准上均达到SOTA性能:FireRedASR2:ASR模块包含两个变体,FireRedASR2‑LLM(8B+参数)与FireRedASR2‑AED(1B+参数),支持普通话、中国方言与口音、英语以及语码混合的语音与歌声转录。
2025_NIPS_Optimizing the Unknown: Black Box Bayesian Optimization with Energy-Based Model and Reinfo
现有贝叶斯优化(BO)方法通常通过平衡探索与利用来优化代价高昂的目标函数。然而,这些方法往往存在显著的单步偏差,可能导致收敛到局部最优解,且在复杂或高维任务中性能不佳。近年来,黑盒优化(BBO)已在多个科学与工程领域取得成功,尤其适用于函数评估成本高且梯度不可用的场景。受此启发,我们提出了强化能量模型贝叶斯优化(REBMBO),该框架融合高斯过程(GP)用于局部指导,以及能量模型(EBM)用于捕捉全局结构信息。
2025_NIPS_Exact Expressive Power of Transformers with Padding
该研究聚焦Transformer模型的表达能力扩展,提出通过填充(Padding)和循环(Looping)带多项式填充的固定深度Transformer(AHAT模型),其表达能力恰好等价于FO-一致的TC0TC^0TC0(高度并行化问题类),解决了此前未明确的下界问题。结合多项式填充与OlogdnO(log^dn)Ologdn次循环的Transformer,表达能力等价于FO-一致的TCdTC^dTCd(中度并行化问题类);
2025_NIPS_Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models
现有自动驾驶世界模型在长时生成和复杂场景泛化方面面临挑战。本文通过简洁的设计选择,在不依赖额外监督或传感器(如地图、深度信息、多摄像头)的情况下开发了一种模型。研究表明,尽管该模型仅含4.69亿参数且基于280小时视频数据训练,仍实现了当前最优性能,尤其在转弯机动和城市交通等复杂场景中表现突出。我们测试了离散令牌模型相较于基于流匹配的连续模型是否具备优势,为此构建了一种混合令牌器,该令牌器与两种方法均兼容,支持直接对比。
2025_NIPS_On Evaluating LLM Alignment by Evaluating LLMs as Judges
研究背景:LLM对齐评估需衡量模型是否有用、诚实、安全且遵循人类指令,传统方法依赖人类标注或LLM作为评判者,但存在成本高、耗时久等问题。同时,LLM的生成能力(生成符合人类偏好的响应)与评估能力(判断响应是否符合人类偏好)的关联尚未被全面探究。核心概念定义:提出“生成-评估一致性(GE-consistency)”,即通过偏好预言机(如强LLM)评估多个LLM的生成能力排名与评估能力排名之间的相关性(采用斯皮尔曼相关系数衡量)。实验验证。
OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data
深度搜索能力已成为前沿大语言模型智能体的核心能力,但高性能搜索智能体的研发仍被工业巨头主导,根源在于缺乏透明、高质量的训练数据。这种数据匮乏严重阻碍了开源社区的创新。基于事实的可扩展可控问答合成:通过网页图拓扑扩展与实体混淆,反向生成可控覆盖度与复杂度的复杂多跳推理任务;去噪轨迹合成:采用回溯摘要机制降噪轨迹,提升教师模型生成高质量动作的能力。
LLM Weekly(2026.3.9-2026.3.15)
NVIDIA发布Nemotron3Super大模型,这是一款参数量达1200亿的混合Mamba-Transformer混合专家模型,仅激活120亿参数,支持100万token上下文窗口,专为智能体推理工作流量身打造。该模型的吞吐量较上一代NemotronSuper提升最高5倍,准确率提升2倍,在开源权重模型中效率排名登顶,同时为NVIDIA的AI-Q研究智能体提供算力支持,该智能体在DeepResearchBench榜单中位列第一。
