Loading...
尽管近年来的文本到图像模型具备令人惊叹的高质量图像生成能力,但现有方法往往难以将具有不同属性和关系的物体有效组合成复杂且连贯的场景。本文提出T2I-CompBench,一个面向开放世界组合式文本到图像生成的综合基准,包含来自3大类(属性绑定、物体关系、复杂组合)和6个子类(颜色绑定、形状绑定、纹理绑定、空间关系、非空间关系、复杂组合)的6000个组合式文本提示。我们进一步提出了多个专门用于评估组合式文本到图像生成的指标,并探索了多模态大型语言模型(multimodalLLMs)在评估中的潜力与局限性。
2025_NIPS_Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models
该研究针对零样本视觉关系检测(Zero-shotVisualRelationDetection,VRD)的核心挑战,提出了一种名为RECODE的新方法。VRD任务需识别图像中目标对之间的关系类型(如“持有”“携带”),而传统基于CLIP等视觉-语言模型的方法依赖类级提示(class-basedprompts),存在难以区分细粒度相似关系、忽略空间信息、计算效率低等问题。
2025_NIPS_On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Pe...
权重衰减是一种简单而强大的正则化技术,已被广泛应用于深度神经网络(DNN)的训练中。尽管权重衰减受到了大量关注,但现有研究未能发现其在梯度范数方面存在的一些被忽视的缺陷。本文发现,权重衰减不幸会导致训练末期(或终止解处)出现大梯度范数,这通常意味着收敛性差且泛化性能不佳。为缓解这类基于梯度范数的缺陷,我们提出首个实用的权重衰减调度器,称为调度权重衰减(SWD)方法,该方法能根据梯度范数动态调整权重衰减强度,并在训练过程中显著惩罚大梯度范数。
2025_NIPS_Decision Stacks: Flexible Reinforcement Learning via Modular Generative Models
强化学习为序列决策的多个不同方面提供了极具吸引力的推理范式,例如指定复杂目标、规划未来观测与动作,以及评估它们的效用。然而,这些能力的综合集成带来了相互冲突的算法挑战:既要保持最大的表达能力,又要在建模选择上具备灵活性,以实现高效的学习和推理。本文提出了DecisionStacks,这是一种生成式框架,将目标条件策略智能体分解为三个生成模块。这些模块通过独立的生成模型模拟观测、奖励和动作的时间演化,可通过教师强制进行并行训练。
2025_NIPS_Sample-Efficient Constrained Reinforcement Learning with General Parameterization
本文聚焦带通用参数化的约束马尔可夫决策过程(CMDP),提出原始-对偶加速自然策略梯度(PD-ANPG)算法,在保证ϵ全局最优间隙和ϵ约束违反的前提下,将样本复杂度提升至O1−γ−7ϵ−2O((1−γ−7ϵ−2,突破了现有Oϵ−4Oϵ−4的最优水平,且在ϵ−1ϵ−1维度上达到理论下界。算法核心通过内循环加速随机梯度下降(ASGD)和全局-局部收敛引理,解决了大状态空间CMDP中通用参数化的样本效率难题。
2025_NIPS_Is RLHF More Difficult than Standard RL? A Theoretical Perspective
基于人类反馈的强化学习(RLHF)从偏好信号中学习,而标准强化学习(RL)直接从奖励信号中学习。偏好所含信息通常少于奖励,这使得基于偏好的强化学习看似更具挑战性。本文从理论上证明,在广泛的偏好模型下,我们可利用现有的基于奖励的强化学习算法和技术直接解决基于偏好的强化学习问题,且仅需少量额外成本或无需额外成本。具体而言:(1)对于源于奖励概率模型的偏好,我们将该问题归约为能容忍微小奖励误差的鲁棒性基于奖励的强化学习;
2025_NIPS_Tracr: Compiled Transformers as a Laboratory for Interpretability
我们展示了如何将人类可读的程序“编译”为标准的仅解码器Transformer模型。我们的编译器Tracr生成具有已知结构的模型,该结构可用于设计实验——例如,我们用它来研究执行多步算法的Transformer中的“叠加态”(superposition)。此外,Tracr编译模型的已知结构可作为评估可解释性方法的真值依据。通常情况下,由于Transformer所学的“程序”未知,我们无法判断一项解释是否成功。我们通过实现和分析多个程序(包括计算令牌频率、排序和括号检查)展示了该方法的有效性。
2025_NIPS_Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and Efficient Pre-LN Transformers
该研究聚焦Transformer中的归一化技术(LayerNorm与RMSNorm)差异,旨在统一主流Pre-LNTransformer架构并提升效率。背景与问题:LayerNorm(平移+缩放)和RMSNorm(仅缩放)是Transformer中两种关键归一化技术,前者在经典模型(如GPT、ViT)中广泛应用,后者因计算高效在近年大模型(如LLaMA、Chinchilla)中流行,但二者难以直接转换,且RMSNorm的表征能力存疑,学界尚未形成统一偏好。核心发现。
2025_NIPS_Object-Centric Learning for Real-World Videos by Predicting Temporal Feature Similarities
无监督基于视频的目标中心学习是从大规模无标签视频集合中学习结构化表示的重要方向,但现有方法仅能在受限领域的真实世界数据集上实现扩展。近期研究表明,重建预训练的自监督特征可在无约束真实世界图像数据集上获得目标中心表示。基于这一思路,本文提出一种新的方式,以时序特征相似性损失的形式利用此类预训练特征。该损失编码了图像补丁之间的语义和时序相关性,是引入运动偏置以实现目标发现的自然方式。我们证明,该损失在具有挑战性的合成MOVi数据集上实现了当前最优性能。
2025_NIPS_Thrust: Adaptively Propels Large Language Models with External Knowledge
尽管大规模预训练语言模型(PTLMs)被证明在其模型参数中编码了丰富的知识,但PTLMs中的固有知识可能存在晦涩或静态的问题,因此外部知识是必要的。然而,现有的信息检索技术可能成本高昂,甚至可能引入噪声性、有时具有误导性的知识。为解决这些挑战,我们提出了实例级自适应外部知识推进方法(IAPEK),仅在必要时进行检索。为实现这一目标,我们提出了一种新颖的度量指标Thrust,用于衡量PTLM是否具备解决某个实例的足够知识,该指标利用少量已见实例的表征分布。
2025_NIPS_AdaPlanner: Adaptive Planning from Feedback with Language Models
大型语言模型(LLMs)近年来已展现出作为自主智能体执行序贯决策任务的潜力。然而,大多数现有方法要么贪心执行动作而不进行规划,要么依赖无法适应环境反馈的静态计划。因此,随着问题复杂度和计划时间跨度的增加,LLM智能体的序贯决策性能会下降。本文提出一种闭环方法AdaPlanner,允许LLM智能体根据环境反馈自适应优化其生成的计划。在AdaPlanner中,LLM智能体通过计划内和计划外两种优化策略,基于反馈对计划进行自适应调整。
2025_NIPS_QuIP: 2-Bit Quantization of Large Language Models With Guarantees
本文研究大型语言模型(LLMs)的训练后参数量化。我们提出量化相干处理(QuIP),这是一种基于以下洞察的新方法:量化效果得益于非相干的权重矩阵和海森矩阵,即权重幅度均匀,且需要精确舍入的方向与坐标轴不对齐。QuIP包含两个步骤:(1)最小化二次代理目标的自适应舍入过程;(2)通过随机正交矩阵乘积确保权重和海森矩阵非相干的高效预处理与后处理。我们为QuIP补充了首个针对LLM规模量化算法的理论分析,并证明该理论同样适用于现有方法OPTQ。
2025_NIPS_Operation-Level Early Stopping for Robustifying Differentiable NAS
可微分神经架构搜索(DARTS)是一种简单高效的神经架构搜索方法,已被广泛应用于各类机器学习任务。然而,DARTS仍面临若干鲁棒性问题,其中最主要的是跳接连接的主导现象。由此产生的架构充斥着无参数操作,最终导致性能崩溃。现有研究认为,与其他参数化操作相比,跳接连接在优化过程中具有额外优势,并提出通过消除这些额外优势来缓解其主导地位。本文从一个简单直接的视角分析该问题,提出跳接连接的主导源于:参数化操作过度拟合训练数据,而架构参数却在验证数据上训练,这一矛盾导致了不良结果。
2025_NIPS_Quasi-Monte Carlo Graph Random Features
我们提出一种新机制,用于提升近期提出的图随机特征(GRFs)类方法的精度[Choromanski,2023]。该方法通过对偶终止(antithetictermination)诱导算法中随机游走长度间的负相关性——这是一种可采样更多样化随机游走的流程,其本身可能具有独立研究价值。该机制实现简单,可直接嵌入现有框架。我们为这类准蒙特卡洛图随机特征(q-GRFs)的性质提供了强有力的理论保证,证明在温和条件下,它们能给出方差更低的2-正则拉普拉斯核估计量。值得注意的是,我们的结果适用于任意图拓扑结构。
2025_NIPS_Replicable Reinforcement Learning
可复现性定义:参考Impagliazzo等人的框架,若算法在相同分布的不同样本上运行,以高概率输出相同结果,则称其为ρ-可复现(ρ为可复现性参数)。强化学习设定:基于折扣马尔可夫决策过程(MDP),假设状态空间S和动作空间A有限,奖励函数确定且已知,目标是找到最大化累积折扣奖励的策略。研究场景:涵盖两种核心场景——并行采样场景(无需考虑探索挑战,通过生成模型获取样本)和episodic探索场景(需智能体主动探索环境以获取最优策略)。
OpenWorldLib: A Unified Codebase and Definition of Advanced World Models
论文给出世界模型标准化定义:以感知为核心,具备交互、长时记忆能力,用于理解与预测复杂世界的模型/框架,强调感知-交互-记忆-预测闭环,而非单纯生成任务。世界模型作为人工智能领域极具前景的研究方向已受到广泛关注,但目前仍缺乏清晰、统一的定义。本文提出——一套面向高级世界模型的全面、标准化推理框架。结合世界模型的发展历程,我们给出明确界定:世界模型是以感知为核心、具备交互与长时记忆能力、用于理解和预测复杂世界的模型或框架。我们进一步系统梳理世界模型的核心能力范畴。
2025_NIPS_Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for ...
该研究针对大型语言模型(LLMs)直接用于规划任务时存在的正确性不足、依赖在线反馈、人力成本高等问题,提出了一种基于模型的新范式:利用LLMs构建规划领域定义语言(PDDL)格式的显式世界模型,再结合独立于领域的可靠规划器完成任务规划。PDDL模型构建:通过提示工程(含任务说明、示例、领域上下文、动作描述及动态更新的谓词列表),引导LLMs(重点验证GPT-4)生成包含动作参数、前置条件、效果及谓词定义的PDDL模型,支持对少约束或特定领域动作的建模;模型纠错。
2025_NIPS_Revisiting Out-of-distribution Robustness in NLP: Benchmarks, Analysis, and LLMs Evalua...
本文重新审视NLP领域的分布外(OOD)鲁棒性研究,指出传统基准存在分布偏移挑战不足、数据集相似度高等问题。为此提出标准化基准构建协议,打造涵盖5类任务(情感分析、毒性检测、自然语言推理、命名实体识别、抽取式问答)、20个数据集的BOSS基准套件。通过实验分析了ID(分布内)与OOD性能的三类关联模式,评估了5种鲁棒性增强方法和5种大语言模型(LLMs),发现vanilla微调仍是强基线,LLMs的上下文学习在OOD场景更具优势,而领域特定模型微调在ID数据充足时表现更优。
2025_NIPS_For SALE: State-Action Representation Learning for Deep Reinforcement Learning
在强化学习(RL)领域,表征学习已被证实是处理复杂基于图像任务的有效工具,但在物理控制等低维状态环境中却常被忽视。本文提出SALE(State-ActionRepresentationLearning),这是一种新颖的嵌入学习方法,能够建模状态与动作之间的细微交互,从而实现从低维状态中高效学习表征。我们深入研究了这些嵌入的设计空间,并强调了重要的设计考量。将SALE与强化学习中的检查点适配技术整合到TD3中,形成了TD7算法,该算法显著优于现有的连续控制算法。
2025_NIPS_Natural Actor-Critic for Robust Reinforcement Learning with Function Approximation
我们研究鲁棒强化学习(RL),目标是确定一种性能优良的策略,该策略能够抵御训练模拟器与测试环境之间的模型失配。以往基于策略的鲁棒RL算法主要关注在便于鲁棒策略评估的不确定性集合下的表格型设置,但当状态数量增加时,这些算法便不再易于处理。为此,我们提出两种新型不确定性集合表述,一种基于双采样,另一种基于积分概率度量。两种表述均能使大规模鲁棒RL变得易于处理,即便仅能访问模拟器。我们提出一种鲁棒自然演员-评论员(RNAC)方法,该方法融合了新的不确定性集合并采用函数逼近。
