Loading...

2025_NIPS_Survival Instinct in Offline Reinforcement Learning
我们提出一个关于离线强化学习(RL)算法行为的新发现:在许多基准数据集上,即便使用“错误”的奖励标签(如全零奖励或真实奖励的相反数),离线RL仍能生成性能优异且安全的策略。这一现象难以通过离线RL的回报最大化目标轻易解释,且赋予了离线RL一种其在线对应算法不具备的稳健性——在线RL已知对奖励设计高度敏感。我们证明,这种令人意外的稳健性源于离线RL算法中的悲观主义概念与常见数据收集实践中的特定隐含偏差的相互作用。

2025_NIPS_Focused Transformer: Contrastive Training for Context Scaling
大型语言模型具备以上下文方式整合新信息的卓越能力。然而,这种方法的全部潜力往往因有效上下文长度的限制而难以充分发挥。解决该问题的一种方案是让注意力层能够访问由(键,值)对构成的额外上下文。但随着文档数量的增加,相关键与无关键的比例会下降,导致模型更关注无关键。我们发现了一个显著的挑战——称为干扰问题(distractionissue):与不同语义值相关联的键可能会重叠,使其难以区分。

2025_NIPS_Revisiting the Minimalist Approach to Offline Reinforcement Learning
本文聚焦离线强化学习(offlineRL),针对现有算法复杂且设计选择影响未被充分研究的问题,以极简基线算法TD3+BC为基础,整合近年研究中的关键设计元素,提出了轻量化算法ReBRAC。通过在D4RL、V-D4RL基准的51个数据集(含本体感受和视觉状态空间)上的实验,ReBRAC在无集成方法中实现了最先进性能,且在离线到在线场景中表现优异。同时,作者通过大规模消融实验和超参数敏感性分析,验证了所整合设计选择的有效性。近年来,离线强化学习(RL)取得了显著进展,催生了众多复杂程度各异的算法。

2025_NIPS_Transformer as a hippocampal memory consolidation model based on NMDAR-inspired nonline...
海马体在学习、记忆和空间表征中发挥关键作用,这些过程依赖于NMDA受体(N-甲基-D-天冬氨酸受体)。受近期将深度学习模型与海马体进行对比的研究启发,我们提出一种新的非线性激活函数,其模拟了NMDA受体的动力学特性。类NMDA受体非线性将Transformer中的短期工作记忆转化为长期参考记忆,从而增强了与哺乳动物大脑记忆巩固相似的过程。我们设计了一项评估这两种记忆功能的导航任务,并表明调控该激活函数(即模拟NMDA受体的镁离子门控机制)会破坏长期记忆过程。

2025_NIPS_An Exploration-by-Optimization Approach to Best of Both Worlds in Linear Bandits
本文探讨了如何构造线性老虎机的“双优”算法,使其在随机环境和对抗性环境中均能实现近最优性能。为此,我们证明了一种被称为“优化探索法”(LattimoreandSzepesvári,2020b)的自然方法具有良好效果。具体而言,基于该方法构建的算法在对抗性环境中实现了OdTlog⁡TOdTlogT​的遗憾界,在随机环境中实现了Od2log⁡TΔminOΔmin​d2logT​的遗憾界。其中,符号dddTTT和ΔminΔmin。

2025_NIPS_Near-Optimal Distributionally Robust Reinforcement Learning with General $L_p$ Norms
该研究聚焦分布鲁棒强化学习(DRRL)中的样本复杂度问题,针对标准强化学习(RL)存在的仿真到现实鸿沟、对环境扰动敏感等问题,基于鲁棒马尔可夫决策过程(RMDPs)框架,采用广义(L_{p})范数定义不确定性集,在sa-矩形和s-矩形两种假设下,系统分析了RMDPs的样本复杂度。研究通过推导对偶优化形式、提出浓度引理等技术手段,给出了近最优的样本复杂度上界和匹配的极小极大下界,验证了鲁棒RL在特定场景下比标准RL样本效率更高,且s-矩形RMDPs的样本复杂度不高于sa-矩形RMDPs。

2025_NIPS_T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Gen...
尽管近年来的文本到图像模型具备令人惊叹的高质量图像生成能力,但现有方法往往难以将具有不同属性和关系的物体有效组合成复杂且连贯的场景。本文提出T2I-CompBench,一个面向开放世界组合式文本到图像生成的综合基准,包含来自3大类(属性绑定、物体关系、复杂组合)和6个子类(颜色绑定、形状绑定、纹理绑定、空间关系、非空间关系、复杂组合)的6000个组合式文本提示。我们进一步提出了多个专门用于评估组合式文本到图像生成的指标,并探索了多模态大型语言模型(multimodalLLMs)在评估中的潜力与局限性。

2025_NIPS_Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models
该研究针对零样本视觉关系检测(Zero-shotVisualRelationDetection,VRD)的核心挑战,提出了一种名为RECODE的新方法。VRD任务需识别图像中目标对之间的关系类型(如“持有”“携带”),而传统基于CLIP等视觉-语言模型的方法依赖类级提示(class-basedprompts),存在难以区分细粒度相似关系、忽略空间信息、计算效率低等问题。

2025_NIPS_On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Pe...
权重衰减是一种简单而强大的正则化技术,已被广泛应用于深度神经网络(DNN)的训练中。尽管权重衰减受到了大量关注,但现有研究未能发现其在梯度范数方面存在的一些被忽视的缺陷。本文发现,权重衰减不幸会导致训练末期(或终止解处)出现大梯度范数,这通常意味着收敛性差且泛化性能不佳。为缓解这类基于梯度范数的缺陷,我们提出首个实用的权重衰减调度器,称为调度权重衰减(SWD)方法,该方法能根据梯度范数动态调整权重衰减强度,并在训练过程中显著惩罚大梯度范数。

2025_NIPS_Decision Stacks: Flexible Reinforcement Learning via Modular Generative Models
强化学习为序列决策的多个不同方面提供了极具吸引力的推理范式,例如指定复杂目标、规划未来观测与动作,以及评估它们的效用。然而,这些能力的综合集成带来了相互冲突的算法挑战:既要保持最大的表达能力,又要在建模选择上具备灵活性,以实现高效的学习和推理。本文提出了DecisionStacks,这是一种生成式框架,将目标条件策略智能体分解为三个生成模块。这些模块通过独立的生成模型模拟观测、奖励和动作的时间演化,可通过教师强制进行并行训练。

2025_NIPS_Sample-Efficient Constrained Reinforcement Learning with General Parameterization
本文聚焦带通用参数化的约束马尔可夫决策过程(CMDP),提出原始-对偶加速自然策略梯度(PD-ANPG)算法,在保证ϵ全局最优间隙和ϵ约束违反的前提下,将样本复杂度提升至O1−γ−7ϵ−2O((1−γ−7ϵ−2,突破了现有Oϵ−4Oϵ−4的最优水平,且在ϵ−1ϵ−1维度上达到理论下界。算法核心通过内循环加速随机梯度下降(ASGD)和全局-局部收敛引理,解决了大状态空间CMDP中通用参数化的样本效率难题。

2025_NIPS_Is RLHF More Difficult than Standard RL? A Theoretical Perspective
基于人类反馈的强化学习(RLHF)从偏好信号中学习,而标准强化学习(RL)直接从奖励信号中学习。偏好所含信息通常少于奖励,这使得基于偏好的强化学习看似更具挑战性。本文从理论上证明,在广泛的偏好模型下,我们可利用现有的基于奖励的强化学习算法和技术直接解决基于偏好的强化学习问题,且仅需少量额外成本或无需额外成本。具体而言:(1)对于源于奖励概率模型的偏好,我们将该问题归约为能容忍微小奖励误差的鲁棒性基于奖励的强化学习;

2025_NIPS_Tracr: Compiled Transformers as a Laboratory for Interpretability
我们展示了如何将人类可读的程序“编译”为标准的仅解码器Transformer模型。我们的编译器Tracr生成具有已知结构的模型,该结构可用于设计实验——例如,我们用它来研究执行多步算法的Transformer中的“叠加态”(superposition)。此外,Tracr编译模型的已知结构可作为评估可解释性方法的真值依据。通常情况下,由于Transformer所学的“程序”未知,我们无法判断一项解释是否成功。我们通过实现和分析多个程序(包括计算令牌频率、排序和括号检查)展示了该方法的有效性。

2025_NIPS_Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and Efficient Pre-LN Transformers
该研究聚焦Transformer中的归一化技术(LayerNorm与RMSNorm)差异,旨在统一主流Pre-LNTransformer架构并提升效率。背景与问题:LayerNorm(平移+缩放)和RMSNorm(仅缩放)是Transformer中两种关键归一化技术,前者在经典模型(如GPT、ViT)中广泛应用,后者因计算高效在近年大模型(如LLaMA、Chinchilla)中流行,但二者难以直接转换,且RMSNorm的表征能力存疑,学界尚未形成统一偏好。核心发现。

2025_NIPS_Object-Centric Learning for Real-World Videos by Predicting Temporal Feature Similarities
无监督基于视频的目标中心学习是从大规模无标签视频集合中学习结构化表示的重要方向,但现有方法仅能在受限领域的真实世界数据集上实现扩展。近期研究表明,重建预训练的自监督特征可在无约束真实世界图像数据集上获得目标中心表示。基于这一思路,本文提出一种新的方式,以时序特征相似性损失的形式利用此类预训练特征。该损失编码了图像补丁之间的语义和时序相关性,是引入运动偏置以实现目标发现的自然方式。我们证明,该损失在具有挑战性的合成MOVi数据集上实现了当前最优性能。

2025_NIPS_Thrust: Adaptively Propels Large Language Models with External Knowledge
尽管大规模预训练语言模型(PTLMs)被证明在其模型参数中编码了丰富的知识,但PTLMs中的固有知识可能存在晦涩或静态的问题,因此外部知识是必要的。然而,现有的信息检索技术可能成本高昂,甚至可能引入噪声性、有时具有误导性的知识。为解决这些挑战,我们提出了实例级自适应外部知识推进方法(IAPEK),仅在必要时进行检索。为实现这一目标,我们提出了一种新颖的度量指标Thrust,用于衡量PTLM是否具备解决某个实例的足够知识,该指标利用少量已见实例的表征分布。

2025_NIPS_AdaPlanner: Adaptive Planning from Feedback with Language Models
大型语言模型(LLMs)近年来已展现出作为自主智能体执行序贯决策任务的潜力。然而,大多数现有方法要么贪心执行动作而不进行规划,要么依赖无法适应环境反馈的静态计划。因此,随着问题复杂度和计划时间跨度的增加,LLM智能体的序贯决策性能会下降。本文提出一种闭环方法AdaPlanner,允许LLM智能体根据环境反馈自适应优化其生成的计划。在AdaPlanner中,LLM智能体通过计划内和计划外两种优化策略,基于反馈对计划进行自适应调整。

2025_NIPS_QuIP: 2-Bit Quantization of Large Language Models With Guarantees
本文研究大型语言模型(LLMs)的训练后参数量化。我们提出量化相干处理(QuIP),这是一种基于以下洞察的新方法:量化效果得益于非相干的权重矩阵和海森矩阵,即权重幅度均匀,且需要精确舍入的方向与坐标轴不对齐。QuIP包含两个步骤:(1)最小化二次代理目标的自适应舍入过程;(2)通过随机正交矩阵乘积确保权重和海森矩阵非相干的高效预处理与后处理。我们为QuIP补充了首个针对LLM规模量化算法的理论分析,并证明该理论同样适用于现有方法OPTQ。

2025_NIPS_Operation-Level Early Stopping for Robustifying Differentiable NAS
可微分神经架构搜索(DARTS)是一种简单高效的神经架构搜索方法,已被广泛应用于各类机器学习任务。然而,DARTS仍面临若干鲁棒性问题,其中最主要的是跳接连接的主导现象。由此产生的架构充斥着无参数操作,最终导致性能崩溃。现有研究认为,与其他参数化操作相比,跳接连接在优化过程中具有额外优势,并提出通过消除这些额外优势来缓解其主导地位。本文从一个简单直接的视角分析该问题,提出跳接连接的主导源于:参数化操作过度拟合训练数据,而架构参数却在验证数据上训练,这一矛盾导致了不良结果。

2025_NIPS_Quasi-Monte Carlo Graph Random Features
我们提出一种新机制,用于提升近期提出的图随机特征(GRFs)类方法的精度[Choromanski,2023]。该方法通过对偶终止(antithetictermination)诱导算法中随机游走长度间的负相关性——这是一种可采样更多样化随机游走的流程,其本身可能具有独立研究价值。该机制实现简单,可直接嵌入现有框架。我们为这类准蒙特卡洛图随机特征(q-GRFs)的性质提供了强有力的理论保证,证明在温和条件下,它们能给出方差更低的2-正则拉普拉斯核估计量。值得注意的是,我们的结果适用于任意图拓扑结构。

欢迎留下您的脚印