Loading...

2025_NIPS_Follow-the-Perturbed-Leader Nearly Achieves Best-of-Both-Worlds for the m-Set Semi-Bandit
我们研究组合半臂赌博机问题的一个常见场景——m-集半臂赌博机,即学习者从d个臂中精确选择m个臂进行决策。在对抗性环境下,已知最优遗憾界为OnmdOnmd​(n为时间步长),该界可通过经典的Follow-the-Regularized-Leader(FTRL)策略实现。但FTRL需要在每个时间步通过优化问题显式计算臂选择概率,并根据该概率进行采样。

2025_NIPS_C-LoRA: Contextual Low-Rank Adaptation for Uncertainty Estimation in Large Language Models
低秩适配(LoRA)为大语言模型(LLM)微调提供了经济高效的解决方案,但在数据稀缺的少样本场景下,它往往会产生过度自信的预测。为解决这一问题,多项经典统计学习方法已被重新用于可扩展的不确定性感知LoRA微调。然而,这些方法忽略了输入特性对预测不确定性估计的影响。为弥补这一局限,我们提出上下文低秩适配(C-LoRA),一种新颖的不确定性感知且参数高效的微调方法。该方法通过开发新的轻量级LoRA模块,将其与每个输入数据样本进行上下文关联,以动态调整不确定性估计。

2025_NIPS_Boundary to region supervision for offline safe reinforcement learning
离线安全强化学习旨在从静态数据集学习满足预定义安全约束的策略。现有基于序列模型的方法将“未来回报(RTG)”和“未来成本(CTG)”作为对称输入token来生成动作,却忽略了二者的内在不对称性:RTG是灵活的性能目标,而CTG应作为刚性的安全边界。这种对称处理导致约束满足的可靠性不足,尤其在遇到分布外成本轨迹时问题更为突出。为解决这一问题,我们提出边界到区域(Boundary-to-Region,B2R)框架,通过成本信号重对齐实现非对称条件建模。

2025_NIPS_SAFEPATH: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment
大型推理模型(LRMs)已成为复杂问题求解的强大工具,但当其暴露于有害提示时,其结构化推理路径可能导致不安全输出。现有安全对齐方法虽能减少有害输出,但会降低推理深度,在复杂多步任务中造成显著权衡,且仍易受精密的越狱攻击。为解决这一问题,我们提出SAFEPATH——一种轻量级对齐方法,通过微调LRMs,使其在响应有害提示时,在推理开头生成一个简短的8-token安全前缀(SafetyPrimer),而不对推理过程的其余部分进行监督。

2025_NIPS_Zero-shot World Models via Search in Memory
世界模型已广泛渗透到强化学习领域。其对环境过渡动力学的建模能力极大提升了在线强化学习的样本效率。其中,最具代表性的是Dreamer模型,它能在多种基于图像的环境中学习动作策略。本文利用相似性搜索和随机表征,提出一种无需训练流程即可近似世界模型的方法,并与Dreamer家族中成熟的世界模型PlaNet进行对比。我们从潜态重建质量、重建图像的感知相似度两个维度,分别在单步和长horizon动力学预测任务中对模型进行评估。研究结果表明,基于搜索的世界模型在这两类任务中均能与基于训练的世界模型相媲美。

2025_NIPS_How Does Sequence Modeling Architecture Influence Base Capabilities of Pre-trained
以Transformer为代表的预训练语言模型已被证实具备强大的基础能力,其标志性的自注意力机制已成为序列建模架构的经典之作。与现有旨在提升注意力机制效率的序列建模架构研究不同,本文聚焦于序列建模架构对基础能力的影响。具体而言,我们关注的核心问题是:序列建模架构究竟如何影响预训练语言模型的基础能力?本文首先指出,现有架构设计研究中普遍采用的混合域预训练设置,无法充分揭示不同架构间的基础能力差异。为解决这一问题,我们提出一种包含分布外测试的有限域预训练设置,成功在预训练早期阶段揭示了架构间显著的基础能力差异。

2025_NIPS_MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning
本文针对多模态大语言模型(MLLMs)在视觉数学推理中存在的视觉信息利用不足问题,提出了MINT-CoT方法。该方法通过引入“InterleaveToken”(交织令牌),在思维链(CoT)推理步骤中自适应插入细粒度视觉令牌,突破传统边界框式视觉区域选择的局限。为支撑模型训练,作者构建了含54K样本的MINT-CoT数据集,实现推理步骤与视觉令牌的精准对齐,并设计了“文本-onlyCoT微调→交织CoT微调→交织CoT强化学习”的三阶段训练策略。

2025_NIPS_Decompile-Bench: Million-Scale Binary-Source Function Pairs for Real-World Binary Decompil
该文章聚焦于开放域对话生成中的“事实一致性”问题(即模型生成内容与真实世界知识不符、存在虚构信息的问题),提出了一种名为FaithDial的解决方案。文章首先分析了现有开放域对话模型在事实准确性上的缺陷,随后构建了包含事实核查信号的对话数据集,并设计了融合事实约束的训练框架,最终通过实验验证了该方法在提升对话事实一致性、同时保持对话流畅度和相关性方面的有效性。开放域对话系统旨在生成自然、相关且符合事实的回应,但现有模型常产生与真实世界知识冲突的“幻觉”内容,这严重影响了系统的可靠性。

2025_NIPS_Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models
现有大型语言模型(LLMs)在遵循复杂指令时面临挑战,尤其是当存在多个约束且以并列、链式和分支结构组织时。一种直观的解决方案即思维链(CoT),本应普遍提升LLMs的能力。然而,我们发现原始CoT由于其仅复述指令的表层推理模式,会对性能产生负面影响。它未能拆解约束构成,以识别跨类型和维度层级的约束关系。为此,我们提出RAIF,一种通过激励推理实现测试时计算扩展,从而提升LLMs处理复杂指令能力的系统性方法。首先,我们基于现有分类法分解复杂指令,提出可复现的数据获取方法。

2025_NIPS_OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis
导航、操作和视觉模型的快速发展已使移动操作机器人能够胜任众多专门任务。然而,开放世界移动操作(OWMM)任务仍面临严峻挑战:一方面需要适应开放式指令和未知环境,另一方面需基于全局场景理解和机器人当前状态,系统性地融合高层决策与低层控制。为应对这一复杂性,我们提出一种新型多模态智能体架构,该架构维护多视角场景帧和智能体状态以支持决策,并通过函数调用控制机器人。第二个核心挑战是领域迁移引发的幻觉问题。为提升智能体性能,我们进一步引入面向OWMM任务的智能体数据合成管道,通过指令微调使VLM模型适应任务领域。

2025_NIPS_Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning
本文聚焦强化学习(RL)对大语言模型(LLM)数学推理能力的影响,核心是解决“RL如何提升推理性能”的机制性问题。通过构建SPARKLE细粒度分析框架,从计划遵循与执行、知识整合、子问题分解三个维度展开研究,同时提出SparkleRL-PSS多阶段RL训练pipeline。研究发现:RL能增强模型计划遵循的灵活性和知识整合能力,但强制遵循人类设计的具体计划会降低性能;硬问题经部分步骤支架增强后可有效用于训练;知识整合对高难度问题的增益随难度提升而扩大,而子问题分解仍是模型的薄弱环节。

2025_NIPS_Towards Robust Zero-Shot Reinforcement Learning
近年来,零样本强化学习(RL)的发展为学习预训练通用政策开辟了新途径,这类政策能够以零样本方式适应任意新任务。尽管流行的Forward-Backward(FB)表示及相关方法在零样本RL中展现出潜力,但我们通过实证发现,它们的建模缺乏足够的表达能力,且离线学习期间由分布外(OOD)动作导致的外推误差有时会产生有偏表示,最终导致次优性能。为解决这些问题,我们提出了行为正则化增强表达能力的零样本RL框架(BREEZE)——一种基于FB的升级框架,可同时提升学习稳定性、政策提取能力和表示学习质量。

2025_NIPS_Pinpointing Attention-Causal Communication in Language Models
注意力机制在基于Transformer的模型计算中起着核心作用,理解注意力头关注特定token的原因有助于语言模型的可解释性研究。尽管已有大量研究表明模型会构建低维特征表示,但鲜有工作将低维特征与注意力机制本身明确关联。本文旨在填补这一空白,提出识别注意力因果通信的方法——即那些写入和读出token、且与注意力模式存在可证明因果关系的低维特征。我们方法的出发点是先前的研究成果[1-3]:模型组件会利用低维通信通道,这些通道可通过QK矩阵的奇异向量暴露。

2025_NIPS_Bohdi: Heterogeneous LLM Fusion with Automatic Data Exploration
异构大语言模型(LLM)融合旨在以低计算开销,将多个不同架构的源LLM的优势整合到目标LLM中。尽管前景广阔,现有方法仍存在两大局限:1)依赖有限领域的真实数据进行知识融合,导致目标LLM无法充分获取多领域知识;2)跨领域数据分配比例固定,无法根据目标LLM在不同领域的能力差异动态调整,进而造成能力失衡。为克服这些局限,我们提出Bohdi,一种仅使用合成数据的异构LLM融合框架。通过将知识领域组织为层级树结构,Bohdi借助多模型协作实现自动领域探索与多领域数据生成,从而全面提取源LLM的知识。

2025_NIPS_Globally Optimal Policy Gradient Algorithms for Reinforcement Learning with PID Control Po
我们提出了具有全局最优性和收敛保证的策略梯度算法,用于基于比例-积分-微分(PID)参数化控制策略的强化学习(RL)。强化学习能够通过与系统的直接交互学习控制策略,无需经典控制中通常假设的显式模型知识。PID策略架构具有内置的结构性优势,例如卓越的跟踪性能、消除稳态误差以及对模型误差的鲁棒性,这些优势使其成为实践中广泛采用的范式。尽管具备这些优点,PID参数化在强化学习文献中受到的关注有限,且PID控制设计仍依赖于启发式调参规则,缺乏理论保障。

2025_NIPS_Computational Hardness of Reinforcement Learning with Partial q π -Realizability
该研究提出了一种新的强化学习线性函数近似框架——部分qπq^{\pi}qπ可实现性(partialqπq^{\pi}qπ,填补了现有q∗q^*q∗-可实现性(仅最优价值函数线性可近似)和qπq^{\pi}qπ-可实现性(所有策略价值函数线性可近似)之间的假设鸿沟。核心结论是:在贪婪策略集(argmax)和softmax策略集下,该框架中学习ϵ\epsilonϵ。

2025_NIPS_RoboScape: Physics-informed Embodied World Model
世界模型已成为具身智能不可或缺的工具,作为强大的模拟器,它能够生成逼真的机器人视频,同时解决关键的数据稀缺问题。然而,当前的具身世界模型物理感知能力有限,尤其是在建模3D几何结构和运动动力学方面,导致在接触密集型机器人场景中生成的视频不真实。本文提出RoboScape,一种统一的物理感知世界模型,在集成框架中联合学习RGB视频生成和物理知识。

2025_NIPS_MMaDA: Multimodal Large Diffusion Language Models
我们提出MMaDA,一类新型多模态扩散基础模型,旨在在文本推理、多模态理解和文本到图像生成等多样化领域实现卓越性能。该方法具有三大核心创新:(i)MMaDA采用统一扩散架构,具备共享概率公式和模态无关设计,无需模态专用组件,确保不同数据类型的无缝集成与处理;(ii)我们实现混合长链思维(CoT)微调策略,构建跨模态统一CoT格式,通过对齐文本与视觉领域的推理过程,为最终强化学习(RL)阶段提供冷启动训练,从一开始就增强模型处理复杂任务的能力;

2025_NIPS_Who Speaks for the Trigger? Dynamic Expert Routing in Backdoored Mixture-of-Experts Transf
该研究聚焦混合专家(MoE)架构大语言模型的安全漏洞,提出首个针对MoE动态专家路由机制的后门攻击框架BadSwitch。通过结合任务耦合的触发词优化与敏感度引导的Top-S专家追踪,BadSwitch在预训练阶段识别对后门触发敏感的专家集群,在微调阶段将触发词嵌入目标专家路由路径,实现精准且隐蔽的模型操控。

2025_NIPS_LayerNavigator: Finding Promising Intervention Layers for Efficient Activation Steering in
该研究聚焦大语言模型(LLMs)激活导向(ActivationSteering)技术中的核心挑战——干预层选择,提出了高效、可扩展的层选择方法LayerNavigator。激活导向是一种高效的大语言模型(LLMs)行为对齐技术,通过在推理过程中直接向模型残差流注入导向向量实现目标行为引导。该方法的核心挑战在于选择合适的干预层:选择不当不仅会削弱行为对齐效果,还可能损害模型的语言流畅性等核心能力。单层导向虽可通过验证集数据直接评估以筛选“最优”层,但对齐提升效果有限;

欢迎留下您的脚印