Loading...

2025_NIPS_Mixture-of-Experts Meets In-Context Reinforcement Learning
该研究针对上下文强化学习(ICRL)面临的状态-动作-奖励数据多模态性和任务多样性/异质性两大核心挑战,提出了融合混合专家(MoE)架构的创新框架T2MIR(Token-andTask-wiseMoEforIn-contextRL)。T2MIR通过替换Transformer的前馈层为两个并行MoE层(令牌级MoE和任务级MoE),分别处理多模态语义差异和任务梯度冲突,并结合对比学习增强任务路由精度。

2025_NIPS_Unlabeled Data Improves Fine-Grained Image Zero-shot Classification with Multimodal LLMs
尽管多模态大型语言模型(MLLMs)在通用零样本图像分类任务中展现出良好效果,但细粒度图像分类仍然具有挑战性。该任务要求精准关注细微的视觉细节以区分视觉相似的子类——而如果没有明确引导,MLLMs很容易忽略这些细节。为解决这一问题,我们提出了AutoSEP,这是一种迭代式自监督提示学习框架,旨在以完全无监督的方式增强MLLMs的细粒度分类能力。我们的核心思想是利用无标签数据学习描述提示词,引导MLLMs识别图像中关键的判别特征,从而提升分类准确率。

2025_NIPS_ConfTuner: Training Large Language Models to Express Their Confidence Verbally
大语言模型(LLMs)正日益部署于科学、法律和医疗等高风险领域,在这些领域中,准确表达不确定性对于可靠性和可信度至关重要。然而,现有LLMs常被观察到会以高置信度生成错误答案——这一现象被称为“过度自信”。近期研究致力于校准LLMs的语言化置信度:即模型以文本形式表达的置信度(如“我有80%的把握认为……”)。现有方法要么依赖提示工程,要么使用启发式生成的不确定性估计进行微调,两者的有效性和泛化性均有限。

2025_NIPS_Alignment of Large Language Models with Constrained Learning
我们研究了约束对齐问题中最优大语言模型(LLM)策略的求解,目标是在满足次要效用约束的同时最大化主奖励目标。尽管基于拉格朗日的LLM策略搜索在约束对齐中被广泛应用,但迭代原始-对偶方法往往难以收敛,而非迭代对偶方法在LLM参数空间中无法达到最优。为解决这些挑战,我们利用拉格朗日对偶性开发了一种迭代对偶基对齐方法,通过交替进行拉格朗日最大化(更新LLM策略)和对偶下降(更新对偶变量)实现优化。

2025_NIPS_ChemOrch: Empowering LLMs with Chemical Intelligence via Synthetic Instructions
本文提出ChemOrch框架,通过“任务控制的指令生成”和“工具感知的响应构建”两阶段流程,解决LLM在化学领域面临的高质量数据稀缺、通用合成框架与化学领域需求不匹配等问题,生成多样化、难度可控且化学有效的指令-响应对,可用于评估LLM化学弱点和提升其化学推理、工具使用能力。赋能大型语言模型(LLMs)具备化学智能仍是一项挑战,这主要源于高质量、领域特定的指令-响应数据集稀缺,且现有合成数据生成流水线与化学信息固有的层级化、规则约束结构不匹配。

2025_NIPS_Distilling LLM Prior to Flow Model for Generalizable Agent’s Imagination in Object Goal Na
目标物体导航(ObjectNav)任务要求智能体在未知环境中通过想象场景的未观测区域来定位指定物体。现有方法依赖确定性和判别式模型完成语义地图补全,忽略了室内布局固有的不确定性,限制了其对未知环境的泛化能力。本文提出GOAL,一种基于生成式流模型的框架,通过将观测区域与LLM增强的全场景语义地图关联,建模室内环境的语义分布。训练过程中,从大型语言模型(LLMs)中推断出的空间先验被编码为二维高斯场并注入目标地图,将丰富的上下文知识蒸馏到流模型中,实现更具泛化性的补全效果。

2025_NIPS_Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Le
思维链推理已显著提升了大型语言模型(LLMs)在多个领域的性能。然而,这一推理过程仅局限于文本空间,限制了其在视觉密集型任务中的有效性。为解决这一局限,我们提出了像素空间推理(pixel-spacereasoning)的概念。在这一新型框架中,视觉语言模型(VLMs)配备了一套视觉推理操作,例如缩放(zoom-in)和帧选择(select-frame)。这些操作使VLMs能够直接检查、探究和从视觉证据中推理,从而提升视觉任务的推理准确性。

2025_NIPS_A Principle of Targeted Intervention for Multi-Agent Reinforcement Learning
引导协作式多智能体强化学习(MARL)朝向期望结果发展具有挑战性,尤其是在大规模MARL中对整个多智能体系统进行人工全局引导不切实际的场景下。另一方面,设计外部机制(如内在奖励和人类反馈)来协调智能体大多依赖实证研究,缺乏易用的研究工具。在本研究中,我们采用多智能体影响图(MAIDs)作为图形化框架来解决上述问题。首先,我们引入MARL交互范式的概念(与MARL学习范式正交),利用MAIDs分析并可视化MARL中的无引导自组织和全局引导机制。

2025_NIPS_Scaling Diffusion Transformers Efficiently via µP
扩散Transformer已成为视觉生成模型的基础,但在大规模场景下,其缩放能力受限于超参数(HP)调优的高昂成本。近期,最大更新参数化(μP)被提出用于标准Transformer,它能实现超参数从小型语言模型到大型语言模型的稳定迁移,并显著降低调优成本。然而,标准Transformer的μP是否适用于在架构和目标上均存在差异的扩散Transformer,目前仍不明确。本文将标准μP推广至扩散Transformer,并通过大规模实验验证其有效性。

2025_NIPS_TTRL: Test-Time Reinforcement Learning
本文研究了大型语言模型(LLMs)在推理任务中对无显式标签数据的强化学习(RL)方法。该问题的核心挑战是在推理阶段无法获取真实标签时进行奖励估计。尽管这种场景看似难以实现,但我们发现测试时缩放(TTS)中的常见做法(如多数投票)能产生出人意料的有效奖励,足以驱动RL训练。本文提出测试时强化学习(TTRL),一种利用无标记数据通过RL训练LLMs的新方法。TTRL借助预训练模型中的先验知识,实现LLMs的自进化。

2025_NIPS_Learning 3D Persistent Embodied World Models
智能体模拟未来动作对世界影响的能力是嵌入式智能的核心,这一能力使智能体能够预判动作效果并制定相应计划。尽管已有大量研究利用视频模型构建此类世界模型,但这些模型通常具有短视性——无法记忆当前观测图像未捕获的场景部分,导致其在多区域部分观测的复杂环境中难以制定一致的长时程规划。本文提出一种新型持久化嵌入式世界模型,通过显式记忆先前生成的内容,实现更一致的长时程仿真。在生成阶段,我们的视频扩散模型预测智能体未来观测的RGB-D视频,随后将生成结果聚合为环境的持久化3D地图。

2025_NIPS_Critical Batch Size Revisited: A Simple Empirical Approach to Large-Batch Language Model T
本文围绕大型语言模型(LLM)训练中的关键批次大小(CriticalBatchSize,CBS)背景与问题:大批次训练能提升LLM训练吞吐量,但超CBS会导致损失恶化;传统基于梯度噪声规模(gradientnoisescale)的CBS估计方法依赖强假设(如SGD优化器、梯度良好条件),在实际LLM训练(常用Adam优化器)中可靠性不足。核心研究目标提出无需强假设的CBS直接测量方法;探究训练过程中CBS的演化规律及模型规模对其的影响;基于CBS特性设计高效的大批次训练策略。

2025_NIPS_Language Models can Self-Improve at State-Value Estimation for Better Search
该研究提出,一种无奖励、无人类演示的自监督框架,通过显式推理状态转移来优化语言模型(LLM)的状态值估计,进而提升多步推理任务的搜索效率。STL无需标注数据,仅利用环境状态转移动态生成训练数据,使中小型开源LLM在网页代理、多跳问答、数学谜题等任务中达到专有模型性能,同时降低计算成本和环境消耗。收集多步推理任务的真实奖励或人类演示通常成本极高,尤其是在网页任务等交互式领域。本文提出Self-TaughtLookahead(STL),一种无奖励框架,通过显式推理状态转移来改进基于语言模型的价值函数。

2025_NIPS_Multi-agent KTO: Enhancing Strategic Interactions of Large Language Model in Language Game
本文受维特根斯坦语言游戏理论启发,提出多智能体卡尼曼-特沃斯基优化(MaKTO)方法,旨在提升大型语言模型(LLMs)在社交推理游戏(以狼人杀为例)中的战略互动能力。通过专家数据收集、行为克隆预训练和多智能体交互优化,MaKTO在9人狼人杀游戏中实现61%的平均胜率,优于GPT-4o(相对提升23.0%)和两阶段强化学习智能体(相对提升10.9%),与人类专家玩家对战胜率达60%,图灵测试中被识别率仅48.9%。实现通用人工智能(AGI)需要AI智能体不仅能做出战略决策,还能进行灵活且有意义的沟通。

2025_NIPS_Head Pursuit: Probing Attention Specialization in Multimodal Transformers
语言模型和视觉-语言模型已在各类任务中展现出令人印象深刻的性能,但其内部机制仍仅被部分理解。本文旨在研究文本生成模型中的单个注意力头如何专注于特定的语义或视觉属性。基于已有的可解释性方法,我们从信号处理的视角重新诠释了利用最终解码层探测中间激活状态的实践。这使我们能够以系统化的方式分析多个样本,并根据注意力头与目标概念的相关性对其进行排序。研究结果表明,在单模态和多模态Transformer中,注意力头层面存在一致的专业化模式。

2025_NIPS_TimeXL: Explainable Multi-modal Time Series Prediction with LLM-in-the-Loop
时间序列分析为现实世界的系统动态提供关键洞察,并为下游决策提供支持,但大多数现有方法往往忽视了辅助模态中蕴含的丰富上下文信号。为填补这一空白,我们提出TimeXL,这是一种多模态预测框架,它将基于原型的时间序列编码器与三个协作的大型语言模型(LLM)相结合,以提供更准确的预测和可解释的解释。首先,基于多模态原型的编码器处理时间序列和文本输入,生成初步预测及案例式推理依据。这些输出随后输入到预测LLM中,该模型通过对编码器的预测和解释进行推理来优化预测结果。

2025_NIPS_Reinforcement Learning with Action Chunking
我们提出Q-chunking,一种简单却有效的方案,用于改进长horizon、稀疏奖励任务的强化学习(RL)算法。该方案针对离线到在线强化学习场景设计,目标是利用离线先验数据集最大化在线学习的样本效率。在该场景中,有效探索和样本高效学习仍是核心挑战——如何利用离线数据获取优质探索策略尚不明确。我们的核心洞见是:动作分块(一种在模仿学习中广泛应用的技术,通过预测未来动作序列而非单步动作)可应用于基于时序差分(TD)的强化学习方法,以缓解探索难题。

2025_NIPS_FFN Fusion: Rethinking Sequential Computation in Large Language Models
本文提出FFN融合(FFNFusion)——一种架构优化技术,通过识别并利用天然的并行化机会,减少大型语言模型中的串行计算。核心洞见是:前馈网络(FFN)层序列(尤其是移除特定注意力层后剩余的序列)通常可在极小精度损失下实现并行化。我们设计了一套系统化方法用于识别和融合此类序列,将其转化为并行操作,在保持模型性能的同时显著降低推理延迟。

2025_NIPS_Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search
本文提出混合架构语言模型家族Jet-Nemotron,通过创新的PostNAS架构搜索流程和JetBlock线性注意力块,在匹配主流全注意力模型精度的同时,实现了显著的效率提升(最高53.6×生成吞吐量),解决了传统模型在长上下文任务中计算复杂度高、KV缓存占用大的问题。我们提出Jet-Nemotron,一个新型混合架构语言模型家族,其精度达到或超越主流全注意力模型,同时显著提升生成吞吐量。

2025_NIPS_TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs
摘要:新兴的推理型大语言模型(如OpenAI-o1和DeepSeek-R1)通过生成冗长的思维链(CoT)轨迹,在复杂推理任务上取得了优异性能。然而,这些冗长的思维链导致token使用量增加,进而提升了推理延迟和内存消耗。因此,在实际应用中部署推理型大语言模型时,平衡准确性与推理效率至关重要。现有长文本转短文本(Long2Short)方法旨在缩短推理长度,但往往以牺牲准确性为代价,这表明需要一种在降低token成本的同时保持性能的方法。

欢迎留下您的脚印