Loading...

2025_NIPS_Block-State Transformers
状态空间模型(SSMs)在需要建模长程依赖的任务中展现出了令人印象深刻的结果,并且凭借其子二次时间复杂度,能够高效地扩展到长序列。SSM最初是为连续信号设计的,已在视觉和音频等众多任务中表现出卓越性能;然而,在语言建模任务中,SSM的性能仍落后于Transformer。在本文中,我们提出了一种名为Block-StateTransformer(BST)的混合层,其在内部融合了用于长程上下文建模的SSM子层和用于序列短期表示的BlockTransformer子层。

2025_NIPS_LayoutGPT: Compositional Visual Planning and Generation with Large Language Models
摘要:在视觉生成中实现高度的用户可控性,通常需要布局等复杂、细粒度的输入。然而,与简单的文本输入相比,此类输入给用户带来了沉重负担。为解决这一问题,我们研究了大型语言模型(LLMs)如何通过从文本条件生成布局来充当视觉规划器,进而与视觉生成模型协作。我们提出LayoutGPT方法,该方法通过样式表语言构建上下文视觉演示示例,以增强LLMs的视觉规划能力。LayoutGPT能够在多个领域生成合理的布局,涵盖从2D图像到3D室内场景。

2025_NIPS_PLASTIC: Improving Input and Label Plasticity for Sample Efficient Reinforcement Learning
在强化学习(RL)中,提升样本效率至关重要,尤其是在数据获取成本高且存在风险的场景下。理论上,离线策略RL算法可通过对每次环境交互进行多次更新来提高样本效率。然而,这些多次更新往往导致模型过拟合早期交互数据,这种现象被称为可塑性丧失。本研究通过将可塑性分为两个方面来探究该现象的根本原因:输入可塑性(模型对输入数据变化的适应性)和标签可塑性(模型对输入-输出关系演变的适应性)。在CIFAR-10数据集上的合成实验表明,寻找损失曲面的更平滑极小值能提升输入可塑性,而优化梯度传播则可改善标签可塑性。

2025_NIPS_GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph
适配器风格的高效迁移学习(ETL)在低数据场景下的视觉语言模型(VLMs)调优中表现出优异性能——该方法仅引入少量额外参数,就能基于VLMs强大的通用表征挖掘任务特定知识。然而,大多数适配器风格的研究存在两个局限:(1)仅通过单模态建模任务特定知识;(2)忽视了下游任务中类别间关系的挖掘,导致模型性能欠佳。为缓解这些问题,我们提出一种高效的适配器风格调优策略GraphAdapter,其通过双知识图谱显式建模双模态结构知识(即文本和视觉模态中不同语义/类别的关联关系),实现文本适配器的优化。

2025_NIPS_Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement Learning
我们研究具有低秩结构的强化学习(RL)中出现的矩阵估计问题。在低秩老虎机中,待恢复矩阵指定了期望臂奖励;而在低秩马尔可夫决策过程(MDP)中,该矩阵可表征MDP的转移核等关键信息。在这两种情况下,矩阵的每个元素都承载着重要信息,因此我们寻求具有低逐元素误差的估计方法。重要的是,这些方法还需适应可用数据中固有的相关性(例如,在MDP中,数据由系统轨迹组成)。我们研究了基于简单谱方法的矩阵估计方案:结果表明,这些方法能高效恢复矩阵的奇异子空间,并实现近极小的逐元素误差。

2025_NIPS_TrojLLM: A Black-box Trojan Prompt Attack on Large Language Models
大型语言模型(LLMs)正逐渐被用作各类应用的机器学习服务和接口工具。然而,LLMs的安全隐患(尤其是对抗性攻击和特洛伊木马攻击相关隐患)尚未得到充分研究。本文提出TrojLLM,这是一个自动化的黑盒框架,能够有效生成通用且隐蔽的触发器。当这些触发器嵌入输入数据时,可对LLMs的输出进行恶意操控。此外,该框架还支持在离散提示词中植入特洛伊木马,提升触发器攻击的整体有效性和精准度。具体而言,我们提出一种触发器发现算法,通过使用少量样本查询目标LLMAPI,为多种输入生成通用触发器。

2025_NIPS_A Graph-Theoretic Framework for Understanding Open-World Semi-Supervised Learning
开放世界半监督学习旨在利用来自已知类别的有标签数据集的先验知识,推断无标签数据中的已知类和新类。尽管该问题具有重要意义,但目前缺乏相应的理论基础。本文通过构建一个专为开放世界场景设计的图论框架填补了这一空白,在该框架中,聚类可通过图因子分解进行理论刻画。我们的图论框架为实际算法提供了启发并给出了性能保证。具体而言,基于我们的图结构表述,我们应用了一种名为谱开放世界表示学习(SORL)的算法,并证明了最小化该损失函数等价于对图进行谱分解。

2025_NIPS_Text Promptable Surgical Instrument Segmentation with Vision-Language Models
本文提出了一种新颖的文本可提示手术器械分割方法,以克服微创手术中手术器械多样性和区分性带来的挑战。我们将该任务重新定义为文本可提示形式,从而实现对手术器械更细致的理解,并增强对新型器械的适应性。受视觉语言模型最新进展的启发,我们采用预训练的图像和文本编码器作为模型骨干,并设计了一个包含基于注意力和卷积提示方案的文本可提示掩码解码器,用于手术器械分割预测。我们的模型通过一种新的提示混合机制,为每种手术器械引入多个文本提示,从而提升分割性能。此外,我们还引入了硬器械区域强化模块,以改善图像特征理解和分割精度。

2025_NIPS_A Definition of Continual Reinforcement Learning
在强化学习问题的标准视角中,智能体的目标是高效找到最大化长期奖励的策略。然而,这一视角基于“学习即寻找解决方案”的局限认知,而非将学习视为持续适应的过程。相比之下,持续强化学习(CRL)指的是最优智能体永不停止学习的场景。尽管CRL具有重要意义,领域内仍缺乏一个能凸显其核心承诺、明确关键概念的简洁定义。为此,本文致力于严谨定义持续强化学习问题。我们通过一套用于分析和归类智能体的新数学语言,形式化了“永不停止学习的智能体”这一概念。

2025_NIPS_The geometry of hidden representations of large transformer models
表示演化的阶段性特征:Transformer的隐藏表示演化呈现明确phases,且跨任务(蛋白质、图像)存在共性:第一阶段(早期层):数据流形扩张,ID快速上升至峰值,邻域结构频繁重组;第二阶段(中间层):ID显著收缩,形成平台期(蛋白质模型)或局部最小值(图像模型),此阶段语义信息(蛋白质远程同源性、图像类别标签)最丰富;第三阶段(末期层):ID趋于稳定或形成第二个浅峰(图像模型),邻域结构再次重组,语义信息有所下降(因模型专注于输入重建任务)。关键发现。

2025_NIPS_The Curious Price of Distributional Robustness in Reinforcement Learning with a Generat...
本文通过分布鲁棒马尔可夫决策过程(RMDPs)框架研究强化学习(RL)中的模型鲁棒性。尽管近年来相关研究不断推进,但无论采用何种不确定性集合,RMDPs的样本复杂度仍未被充分理解;具体而言,现有上下界之间存在巨大差距,且与标准RL相比,分布鲁棒性是否具有统计意义尚不明确。本文假设可获取生成模型,针对全范围不确定性水平,分别基于总变差(TV)距离和χ²散度定义不确定性集合,通过一种名为分布鲁棒值迭代的模型基算法,推导了RMDPs的样本复杂度,并建立极小极大下界以验证其紧确性。

2025_NIPS_Model-Free Active Exploration in Reinforcement Learning
我们研究强化学习中的探索问题,并提出一种新颖的模型无关解决方案。我们采用信息论视角,从识别近优策略所需收集的样本数量的实例特定下界出发。推导该下界及最优探索策略需要解决一个复杂的优化问题,且依赖于系统模型。相应地,大多数现有样本最优探索算法均依赖于模型估计。我们推导了该实例特定下界的近似表达式,其仅涉及可通过模型无关方法推断的量。利用该近似表达式,我们设计了一种基于集成的模型无关探索策略,适用于表格型和连续型马尔可夫决策过程(MDPs)。数值结果表明,我们的策略能够比当前最先进的探索方法更快地识别高效策略。

2025_NIPS_Explore to Generalize in Zero-Shot RL
我们研究强化学习中的零样本泛化问题——在一组训练任务上优化策略,使其在相似但未见过的测试任务中表现良好。为缓解过拟合,现有研究探索了不同的任务不变性概念。然而,在ProcGen迷宫(Maze)等问题中,不存在足够的任务可视化不变性解决方案,因此基于不变性的方法会失效。我们的核心洞察是:学习一种能有效探索领域的策略,比学习针对特定任务最大化奖励的策略更难被记忆,因此我们预期这种习得的行为具有良好的泛化能力;我们在多个对基于不变性方法具有挑战性的领域中,通过实证验证了这一观点。

2025_NIPS_VisIT-Bench: A Dynamic Benchmark for Evaluating Instruction-Following Vision-and-Langua...
我们提出VisIT-Bench(VisualInsTructionBenchmark),一个面向真实场景应用的视觉-语言指令跟随模型评估基准。我们的核心起点是筛选出70个“指令家族”,这些家族代表了经指令微调的视觉-语言模型应具备的核心能力。与VQAv2和COCO等传统评估基准不同,该基准的任务范围从基础识别延伸至游戏博弈和创意生成。经过筛选与构建,我们的数据集包含592个测试查询,每个查询均配有人工撰写的“指令条件描述”。

2025_NIPS_On Separate Normalization in Self-supervised Transformers
自监督Transformer训练方法已在多个领域展现出卓越性能。此前基于Transformer的模型(如掩码自编码器MAE)通常为[CLS]令牌和普通令牌采用单一归一化层。本文提出一种全新且简洁的归一化方法,对普通令牌和[CLS]令牌对应的嵌入向量分别进行归一化,以更好地捕捉它们的独特特性并提升下游任务性能。实证研究表明,通过我们的分离归一化层学习到的[CLS]嵌入能更有效地编码全局上下文信息,且在各向异性空间中分布更均匀。

2025_NIPS_Safe Exploration in Reinforcement Learning: A Generalized Formulation and Algorithms
安全探索对于强化学习(RL)在众多现实场景中的实际应用至关重要。本文提出广义安全探索(GSE)问题,将常见的安全探索问题统一为一个通用框架。随后,我们以安全探索元算法MASE的形式给出GSE问题的解决方案——该算法结合无约束RL算法与不确定性量化器,在保证当前episode安全性的同时,通过在实际安全违规前对不安全探索进行适当惩罚,以抑制未来episode中的此类行为。MASE的优势在于,在合理假设下,能够在高概率保证不违反任何安全约束的前提下优化策略。

2025_NIPS_Supervised Pretraining Can Learn In-Context Reinforcement Learning
本文提出决策预训练Transformer(DPT),通过监督预训练让Transformer基于上下文交互数据集预测最优动作,实现上下文强化学习(RL)能力。DPT无需参数更新即可在新任务中完成在线探索与离线保守决策,理论上等价于贝叶斯后验采样,且能泛化到新任务、利用潜在结构超越预训练数据性能。大型Transformer模型在多样化数据集上训练后,展现出卓越的上下文学习能力,即便未针对特定任务显式训练,也能实现优异的少样本性能。

2025_NIPS_GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction
该研究聚焦于让开源大型语言模型(LLMs)高效具备多模态工具使用能力,核心提出了GPT4Tools研究背景:现有先进专有LLMs(如GPT-3.5、GPT-4)虽能通过提示工程使用工具,但存在计算成本高、依赖私有数据的问题;而开源LLMs缺乏工具使用能力,现有相关方法或依赖专有模型、或数据多样性不足。核心方案。

2025_NIPS_Likelihood-Based Diffusion Language Models
尽管人们对基于扩散的语言模型的兴趣日益浓厚,但现有研究尚未表明这些模型能在标准语言建模基准上获得非平凡的似然值。在本文中,我们迈出了缩小自回归语言模型与基于扩散的语言模型之间似然差距的第一步,目标是构建并发布一个性能优于小型但广为人知的自回归模型的扩散模型。我们通过算法改进、缩放定律研究和算力提升来实现这一目标。在算法层面,我们为扩散语言模型的最大似然训练引入了多项方法学改进。随后,我们研究了扩散模型的缩放定律,发现其算力最优训练方案与自回归模型存在显著差异。

2025_NIPS_Efficient RL with Impaired Observability: Learning to Act with Delayed and Missing Stat...
在现实世界的强化学习(RL)系统中,各种形式的观测受损会使问题变得复杂。当智能体由于延迟或有损信道无法观测到系统的最新状态,但仍必须做出实时决策时,就会出现这些情况。本文对智能体必须在延迟和缺失状态观测下行动的控制系统中的高效强化学习进行了理论研究。我们为延迟和缺失观测场景下的强化学习建立了近优遗憾界,形式为OpolyHSAKOpolyHSAK​。尽管观测受损给策略类和规划带来了重大挑战,但我们的结果表明,学习仍然是高效的,其遗憾界与原始系统的状态-动作空间大小呈最优依赖关系。

欢迎留下您的脚印