Loading...
一种解读基于Transformer的语言模型推理能力的方式,是描述它们能在输入文本上解析的逻辑规则类型。近期,Chiang等人(2023)表明,有限精度Transformer分类器可等价地表示为一阶逻辑的一种推广形式。然而,有限精度Transformer是一种能力较弱的Transformer变体——正如我们所证明的,单个注意力头仅能关注恒定数量的token,尤其无法表示均匀注意力。由于广泛关注是Transformer的核心能力,我们提出疑问:一种最小化增强、能够实现全局关注的模型,是否也能通过逻辑进行刻画。
DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data
基于小语言模型的边缘级深度研究智能体因成本、延迟与隐私优势,在实际部署中极具吸引力。本文研究如何在有限开源数据下,通过提升数据质量与数据利用率,训练高性能小型深度研究智能体。我们提出DR‑Venus,一款完全基于开源数据构建、面向边缘部署的前沿4B深度研究智能体。训练方案分为两阶段:第一阶段采用智能体有监督微调(SFT),结合严格数据清洗与长程轨迹重采样,建立基础智能体能力并提升数据质量与利用率;第二阶段应用智能体强化学习(RL),进一步提升长程深度研究任务的执行可靠性。
2025_NIPS_SustainGym: Reinforcement Learning Environments for Sustainable Energy Systems
可持续能源应用中强化学习(RL)缺乏标准化基准,这既难以追踪特定领域的进展,也无法让研究人员明确需重点攻克的瓶颈。本文提出SustainGym,一个包含5个环境的套件,旨在测试RL算法在真实可持续能源系统任务中的性能——涵盖电动汽车充电、碳感知数据中心任务调度等场景。该套件支持在真实分布偏移及多智能体设定下测试RL算法。实验表明,现成的标准RL算法仍有显著的性能提升空间,同时本文也强调了将RL应用于实际可持续性任务所面临的挑战。
ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
GUI智能体通过视觉界面而非编程API驱动应用,以点击、滑动、按键与任意软件交互,覆盖基于CLI的智能体无法触及的长尾应用。该领域进展的瓶颈并非建模能力,而是缺乏连贯的全栈基础设施:在线强化学习训练受环境不稳定与封闭流程制约,不同研究的评估协议存在隐性偏差,训练好的智能体难以落地到真实设备的真实用户场景。本文提出ClawGUI,一个在单一框架内解决上述三大缺口的开源方案。
2025_NIPS_MemoryFormer : Minimize Transformer Computation by Removing Fully-Connected Layers
为降低大型语言模型的计算复杂度,研究界已做出大量努力以提升Transformer模型的效率(如线性注意力和FlashAttention)。然而,为追求更高性能,模型规模及相应的计算复杂度仍在持续增长。本文提出一种新型Transformer架构MemoryFormer,从全新视角显著降低计算复杂度(FLOPs)。该架构剔除了Transformer模型中几乎所有非必要计算,仅保留多头注意力操作所需的核心计算量。
2025_NIPS_A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks
近年来,视觉语言模型(VLMs)的进步通过同时处理文本和图像数据,实现了复杂的多模态任务,显著推动了人工智能领域的发展。然而,这些模型往往存在偏见,可能使输出向社会刻板印象倾斜,因此亟需去偏策略。现有去偏方法仅局限于特定模态或任务,且需要大量重新训练。为解决这些局限性,本文提出了选择性特征填充去偏(SFID)——一种融合特征剪枝和低置信度填充(LCI)的新型方法,可有效降低VLMs中的偏见。SFID具有通用性,能保留输出的语义完整性,且无需重新训练,成本高效。
2025_NIPS_Survival Instinct in Offline Reinforcement Learning
我们提出一个关于离线强化学习(RL)算法行为的新发现:在许多基准数据集上,即便使用“错误”的奖励标签(如全零奖励或真实奖励的相反数),离线RL仍能生成性能优异且安全的策略。这一现象难以通过离线RL的回报最大化目标轻易解释,且赋予了离线RL一种其在线对应算法不具备的稳健性——在线RL已知对奖励设计高度敏感。我们证明,这种令人意外的稳健性源于离线RL算法中的悲观主义概念与常见数据收集实践中的特定隐含偏差的相互作用。
2025_NIPS_Focused Transformer: Contrastive Training for Context Scaling
大型语言模型具备以上下文方式整合新信息的卓越能力。然而,这种方法的全部潜力往往因有效上下文长度的限制而难以充分发挥。解决该问题的一种方案是让注意力层能够访问由(键,值)对构成的额外上下文。但随着文档数量的增加,相关键与无关键的比例会下降,导致模型更关注无关键。我们发现了一个显著的挑战——称为干扰问题(distractionissue):与不同语义值相关联的键可能会重叠,使其难以区分。
2025_NIPS_Revisiting the Minimalist Approach to Offline Reinforcement Learning
本文聚焦离线强化学习(offlineRL),针对现有算法复杂且设计选择影响未被充分研究的问题,以极简基线算法TD3+BC为基础,整合近年研究中的关键设计元素,提出了轻量化算法ReBRAC。通过在D4RL、V-D4RL基准的51个数据集(含本体感受和视觉状态空间)上的实验,ReBRAC在无集成方法中实现了最先进性能,且在离线到在线场景中表现优异。同时,作者通过大规模消融实验和超参数敏感性分析,验证了所整合设计选择的有效性。近年来,离线强化学习(RL)取得了显著进展,催生了众多复杂程度各异的算法。
2025_NIPS_Transformer as a hippocampal memory consolidation model based on NMDAR-inspired nonline...
海马体在学习、记忆和空间表征中发挥关键作用,这些过程依赖于NMDA受体(N-甲基-D-天冬氨酸受体)。受近期将深度学习模型与海马体进行对比的研究启发,我们提出一种新的非线性激活函数,其模拟了NMDA受体的动力学特性。类NMDA受体非线性将Transformer中的短期工作记忆转化为长期参考记忆,从而增强了与哺乳动物大脑记忆巩固相似的过程。我们设计了一项评估这两种记忆功能的导航任务,并表明调控该激活函数(即模拟NMDA受体的镁离子门控机制)会破坏长期记忆过程。
2025_NIPS_An Exploration-by-Optimization Approach to Best of Both Worlds in Linear Bandits
本文探讨了如何构造线性老虎机的“双优”算法,使其在随机环境和对抗性环境中均能实现近最优性能。为此,我们证明了一种被称为“优化探索法”(LattimoreandSzepesvári,2020b)的自然方法具有良好效果。具体而言,基于该方法构建的算法在对抗性环境中实现了OdTlogTOdTlogT的遗憾界,在随机环境中实现了Od2logTΔminOΔmind2logT的遗憾界。其中,符号dddTTT和ΔminΔmin。
2025_NIPS_Near-Optimal Distributionally Robust Reinforcement Learning with General $L_p$ Norms
该研究聚焦分布鲁棒强化学习(DRRL)中的样本复杂度问题,针对标准强化学习(RL)存在的仿真到现实鸿沟、对环境扰动敏感等问题,基于鲁棒马尔可夫决策过程(RMDPs)框架,采用广义(L_{p})范数定义不确定性集,在sa-矩形和s-矩形两种假设下,系统分析了RMDPs的样本复杂度。研究通过推导对偶优化形式、提出浓度引理等技术手段,给出了近最优的样本复杂度上界和匹配的极小极大下界,验证了鲁棒RL在特定场景下比标准RL样本效率更高,且s-矩形RMDPs的样本复杂度不高于sa-矩形RMDPs。
2025_NIPS_T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Gen...
尽管近年来的文本到图像模型具备令人惊叹的高质量图像生成能力,但现有方法往往难以将具有不同属性和关系的物体有效组合成复杂且连贯的场景。本文提出T2I-CompBench,一个面向开放世界组合式文本到图像生成的综合基准,包含来自3大类(属性绑定、物体关系、复杂组合)和6个子类(颜色绑定、形状绑定、纹理绑定、空间关系、非空间关系、复杂组合)的6000个组合式文本提示。我们进一步提出了多个专门用于评估组合式文本到图像生成的指标,并探索了多模态大型语言模型(multimodalLLMs)在评估中的潜力与局限性。
2025_NIPS_Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models
该研究针对零样本视觉关系检测(Zero-shotVisualRelationDetection,VRD)的核心挑战,提出了一种名为RECODE的新方法。VRD任务需识别图像中目标对之间的关系类型(如“持有”“携带”),而传统基于CLIP等视觉-语言模型的方法依赖类级提示(class-basedprompts),存在难以区分细粒度相似关系、忽略空间信息、计算效率低等问题。
2025_NIPS_On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Pe...
权重衰减是一种简单而强大的正则化技术,已被广泛应用于深度神经网络(DNN)的训练中。尽管权重衰减受到了大量关注,但现有研究未能发现其在梯度范数方面存在的一些被忽视的缺陷。本文发现,权重衰减不幸会导致训练末期(或终止解处)出现大梯度范数,这通常意味着收敛性差且泛化性能不佳。为缓解这类基于梯度范数的缺陷,我们提出首个实用的权重衰减调度器,称为调度权重衰减(SWD)方法,该方法能根据梯度范数动态调整权重衰减强度,并在训练过程中显著惩罚大梯度范数。
2025_NIPS_Decision Stacks: Flexible Reinforcement Learning via Modular Generative Models
强化学习为序列决策的多个不同方面提供了极具吸引力的推理范式,例如指定复杂目标、规划未来观测与动作,以及评估它们的效用。然而,这些能力的综合集成带来了相互冲突的算法挑战:既要保持最大的表达能力,又要在建模选择上具备灵活性,以实现高效的学习和推理。本文提出了DecisionStacks,这是一种生成式框架,将目标条件策略智能体分解为三个生成模块。这些模块通过独立的生成模型模拟观测、奖励和动作的时间演化,可通过教师强制进行并行训练。
2025_NIPS_Sample-Efficient Constrained Reinforcement Learning with General Parameterization
本文聚焦带通用参数化的约束马尔可夫决策过程(CMDP),提出原始-对偶加速自然策略梯度(PD-ANPG)算法,在保证ϵ全局最优间隙和ϵ约束违反的前提下,将样本复杂度提升至O1−γ−7ϵ−2O((1−γ−7ϵ−2,突破了现有Oϵ−4Oϵ−4的最优水平,且在ϵ−1ϵ−1维度上达到理论下界。算法核心通过内循环加速随机梯度下降(ASGD)和全局-局部收敛引理,解决了大状态空间CMDP中通用参数化的样本效率难题。
2025_NIPS_Is RLHF More Difficult than Standard RL? A Theoretical Perspective
基于人类反馈的强化学习(RLHF)从偏好信号中学习,而标准强化学习(RL)直接从奖励信号中学习。偏好所含信息通常少于奖励,这使得基于偏好的强化学习看似更具挑战性。本文从理论上证明,在广泛的偏好模型下,我们可利用现有的基于奖励的强化学习算法和技术直接解决基于偏好的强化学习问题,且仅需少量额外成本或无需额外成本。具体而言:(1)对于源于奖励概率模型的偏好,我们将该问题归约为能容忍微小奖励误差的鲁棒性基于奖励的强化学习;
2025_NIPS_Tracr: Compiled Transformers as a Laboratory for Interpretability
我们展示了如何将人类可读的程序“编译”为标准的仅解码器Transformer模型。我们的编译器Tracr生成具有已知结构的模型,该结构可用于设计实验——例如,我们用它来研究执行多步算法的Transformer中的“叠加态”(superposition)。此外,Tracr编译模型的已知结构可作为评估可解释性方法的真值依据。通常情况下,由于Transformer所学的“程序”未知,我们无法判断一项解释是否成功。我们通过实现和分析多个程序(包括计算令牌频率、排序和括号检查)展示了该方法的有效性。
2025_NIPS_Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and Efficient Pre-LN Transformers
该研究聚焦Transformer中的归一化技术(LayerNorm与RMSNorm)差异,旨在统一主流Pre-LNTransformer架构并提升效率。背景与问题:LayerNorm(平移+缩放)和RMSNorm(仅缩放)是Transformer中两种关键归一化技术,前者在经典模型(如GPT、ViT)中广泛应用,后者因计算高效在近年大模型(如LLaMA、Chinchilla)中流行,但二者难以直接转换,且RMSNorm的表征能力存疑,学界尚未形成统一偏好。核心发现。
