Loading...

2025_NIPS_Birth of a Transformer: A Memory Viewpoint
文章从记忆视角研究Transformer的内部机制,核心聚焦Transformer如何平衡全局知识(如语法规则)与上下文特定知识(如语境中的新词关联)的学习。通过构建包含全局二元组和上下文特定二元组的合成数据集,作者对简化的两层Transformer进行实证分析与理论推导,发现模型先快速学习全局二元组,再通过“归纳头”机制缓慢掌握上下文二元组预测能力。

2025_NIPS_Effectively Learning Initiation Sets in Hierarchical Reinforcement Learning
该研究聚焦于分层强化学习(HRL)中启动集(InitiationSets)的有效学习问题。启动集是指选项(Option)可执行的状态集合,其学习质量直接影响HRL智能体的任务性能,但传统方法因存在数据非平稳性、时间信用分配困难和悲观偏差三大核心问题,导致启动集学习不准确、规模萎缩,进而制约下游任务表现。启动价值函数(IVF):基于通用价值函数(GVF),预测从某状态执行选项成功的概率,通过时序差分(TD)方法学习,可适应政策(Policy)变化,解决数据非平稳性和时间结构利用不足的问题;

2025_NIPS_CAMEL: Communicative Agents for “Mind“ Exploration of Large Language Model Society
聊天式语言模型的快速发展在复杂任务解决方面取得了显著进展。然而,它们的成功严重依赖人类输入来引导对话,这一过程既具挑战性又耗时。本文探索了构建可扩展技术以促进通信智能体间自主协作的潜力,并深入剖析其“认知”过程。为解决自主协作面临的难题,我们提出了一种名为角色扮演的新型通信智能体框架。该方法通过植入式提示(inceptionprompting)引导聊天智能体完成任务,同时确保与人类意图保持一致。我们展示了角色扮演如何用于生成对话数据,以研究智能体群体的行为与能力,为探索对话式语言模型提供了宝贵资源。

2025_NIPS_Cal-DETR: Calibrated Detection Transformer
该研究聚焦于基于Transformer的目标检测器(如Deformable-DETR、UP-DETR、DINO)的校准问题,核心解决深度神经网络(DNNs)在安全关键场景中常见的“过度自信预测”缺陷——即模型预测置信度与实际正确性不匹配的问题。现有校准方法多针对分类任务,且大多仅优化域内(in-domain)预测校准,对目标检测任务及域偏移(out-domain)场景的关注不足。为此,研究提出了Cal-DETR。

2025_NIPS_Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning
我们提出了A-Crab(基于平均贝尔曼误差正则化的演员-评论家算法),这是一种适用于数据覆盖不足的复杂环境下的新型实用离线强化学习(RL)算法。该算法将边际化重要性采样框架与演员-评论家范式相结合,其中评论家返回的演员(策略)评估相对于离线数据呈悲观态度,且具有较小的平均(重要性加权)贝尔曼误差。与现有方法相比,我们的算法同时具备多项优势:(1)即使结合一般函数逼近器,也能达到1N1/\sqrt{N}1/N​的最优统计速率(N为离线数据集大小),收敛到离线数据中覆盖的最优策略;

2025_NIPS_The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature...
尽管大型语言模型(LLMs)已被广泛用作对话代理,但性能评估尚未涵盖沟通的关键环节:结合语用学在语境中解读语言。人类会利用对世界的信念和先验知识理解语言,例如,我们能直观地将“你留下指纹了吗?”这一问题的回应“我戴了手套”理解为“没有”。为探究LLMs是否具备这种隐含含义推理能力,我们设计了一项简单任务,并评估了四类广泛使用的最先进模型。研究发现,尽管仅评估需要二元推理(是/否)的表述,其中三类模型的表现仍接近随机水平。然而,经过示例级指令微调的LLMs表现显著更优。

Lookahead Routing for Large Language Models
大语言模型(LLM)路由器通过将每个查询导向最合适的模型,同时利用异构LLM的多样化优势,提高了多模型系统的效率。大多数现有方法仅基于输入查询将路由建模为分类问题。虽然这种方式通过避免所有模型的推理来降低开销,但忽略了可从潜在输出中获取的宝贵信息,且无法捕捉往往仅在响应生成过程中才显现的隐含意图或上下文细微差别。这些局限性可能导致次优的路由决策,尤其对于需要深度语义理解的复杂或模糊查询。

2025_NIPS_Mitigating Over-smoothing in Transformers via Regularized Nonlocal Functionals
该研究聚焦于Transformer模型中的过平滑(Over-smoothing)问题——即随着模型层数加深,token表示逐渐趋于一致,导致模型表征能力下降。文章通过建立非局部变分去噪框架,从理论上解释了过平滑的根源,并提出了一种新型Transformer模型NeuTRENO,有效缓解了这一问题。Transformer在自然语言处理和计算机视觉等广泛应用中取得了显著成功。然而,深层Transformer模型的表征能力会因过平滑问题而下降——当模型层数增加时,token表示会变得完全一致。

2025_NIPS_Fast Bellman Updates for Wasserstein Distributionally Robust MDPs
文章聚焦Wasserstein模糊集下的分布鲁棒马尔可夫决策过程(DRMDPs),针对传统解法计算复杂度高、难以适配大规模问题的痛点,提出了高效的Bellman更新求解框架。通过拆解分布鲁棒Bellman更新的优化问题,将其转化为可快速求解的子问题,最终在L1L_1L1​L2L_2L2​L∞L_\inftyL∞​范数设定下,实现了准线性时间复杂度的求解,数值实验验证该方法优于现有主流算法。马尔可夫决策过程(MDPs)在模型模糊性下常面临敏感性问题。

2025_NIPS_Pairwise Causality Guided Transformers for Event Sequences
尽管成对因果关系在众多学科的观察性纵向分析中已得到广泛研究,但将因果对知识融入时间序列事件的深度学习模型仍处于探索阶段。本文提出一种新方法,通过注入成对定性因果知识(如“事件Z会增强未来事件Y的发生概率”),提升基于Transformer的多变量事件序列模型性能。我们建立了一套基于Transformer架构的时间序列事件因果推断新框架,为所提方法提供理论支撑,并证明了该方法能获得无偏估计。实验结果表明,通过有效利用因果对知识,该方法在预测准确率上优于多个最先进模型。

2025_NIPS_SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement Learning
该文指出经典协作式多智能体强化学习(MARL)基准测试SMAC存在随机性不足、部分可观测性无实际意义的缺陷,导致开环策略(仅依赖时间步)即可在多数场景中取得较好性能,无法有效评估复杂闭环策略。为此,作者提出改进基准SMACv2,通过程序化生成场景(随机团队构成、随机起始位置)提升随机性,引入扩展部分可观测性挑战(EPO)增强观测约束,并调整单位视野和攻击范围。实验表明,SMACv2能有效规避SMAC的缺陷,现有顶尖MARL算法在其上表现受限,可更好地推动下一代MARL方法的研发。

2025_NIPS_Budgeting Counterfactual for Offline RL
离线强化学习的核心挑战源于数据有限情况下,潜在动作领域内的一系列反事实推理困境:倘若我们选择了不同的行动方案会怎样?这些情况常常导致外推误差,而此类误差会随着问题时域的延长呈指数级累积。因此,至关重要的是要认识到,并非所有决策步骤对最终结果的重要性都相同,我们需要对策略所做出的反事实决策数量进行“预算管控”,以控制外推误差。与现有对策略或价值函数施加正则化的方法不同,我们提出了一种在训练过程中显式约束分布外动作数量的方法。

2025_NIPS_Learning World Models with Identifiable Factorization
在高维、嘈杂且非平稳的环境中,提取稳定且紧凑的环境表征对于高效强化学习至关重要。此类环境中存在不同类别的信息——如何有效提取和分离这些信息仍是一个具有挑战性的问题。本文提出IFactor,这是一个通用框架,用于建模四类不同的潜在状态变量,这些变量基于其与动作和奖励的交互关系,捕捉强化学习系统中的各类信息。我们的分析确立了这些潜在变量的块可识别性,这不仅提供了稳定且紧凑的表征,还揭示了所有与奖励相关的因素对策略学习都具有重要意义。

2025_NIPS_Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer ...
大型语言模型(LLMs)由于其高内存需求和计算成本,在微调和部署方面面临挑战。尽管参数高效微调(PEFT)方法旨在降低微调过程中优化器状态的内存占用,但预训练LLM权重的固有规模仍是一个迫切需要解决的问题。虽然量化技术被广泛提出以缓解内存需求并加速LLM推理,但这些技术大多面向部署阶段。为填补这一空白,本文提出了参数高效且量化感知适配(PEQA)——一种简单而有效的方法,它结合了PEFT与量化LLM的优势。通过仅更新量化尺度,PEQA可直接应用于量化LLM,确保无缝的任务切换。

2025_NIPS_Structured State Space Models for In-Context Reinforcement Learning
结构化状态空间序列(S4)模型近年来在长程序列建模任务上取得了最先进的性能。这些模型还具有快速推理速度和可并行训练的特点,使其在许多强化学习场景中具有潜在的实用性。我们对S4的一个变体(S5)进行了修改,使其能够并行初始化和重置隐藏状态,从而能够处理强化学习任务。我们表明,我们的改进架构在序列长度方面的渐近运行速度快于Transformer,并且在简单的基于记忆的任务上表现优于RNN。我们在一组部分可观测环境上评估了改进后的架构,发现在实际应用中,我们的模型不仅性能优于RNN,运行速度还快了五倍以上。

2025_NIPS_Uni3DETR: Unified 3D Detection Transformer
本文针对现有基于点云的3D目标检测模型多为室内或室外场景专用、缺乏统一架构的问题,提出了Uni3DETR——一种能同时适配室内和室外3D检测任务的统一Transformer架构。现有基于点云的3D检测模型均为特定场景(室内或室外)设计。由于不同环境下点云的目标分布和点密度存在显著差异,且3D评价指标复杂,目前仍缺乏能适配多样化场景的统一网络架构。本文提出Uni3DETR,一种在同一框架内同时处理室内和室外3D检测的统一模型。

2025_NIPS_ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation
联合语音-语言训练极具挑战性,这不仅是因为其对训练数据和GPU资源的需求量巨大,还源于语音与语言之间存在的模态差异。本文提出了ComSL,这是一种基于现有预训练纯语音模型和纯语言模型构建的复合架构语音-语言模型,能够以数据高效的方式针对口语任务进行优化。具体而言,我们提出将跨模态学习融入迁移学习,并以多任务学习的形式在下游任务中同时进行这两项学习。

2025_NIPS_Counterfactual Memorization in Neural Language Models
广泛应用于各类自然语言处理任务的现代神经语言模型,存在记忆训练数据中敏感信息的风险。理解这种记忆现象,无论在实际应用中还是学习理论视角下都至关重要。此前语言模型记忆研究中一个悬而未决的问题是,如何过滤掉“常见”的记忆内容。事实上,大多数记忆判定标准都与训练集中的出现频次高度相关,捕捉到的往往是常见短语、公共知识、模板化文本或其他重复数据。本文提出了反事实记忆的概念,用于描述若训练过程中遗漏某一特定文档,模型预测结果会发生怎样的变化。

2025_NIPS_When is Agnostic Reinforcement Learning Statistically Tractable?
我们研究agnosticPAC强化学习(RL)问题:给定策略类Π,需要与未知马尔可夫决策过程(MDP,其状态和动作空间可能很大)进行多少轮交互,才能学到相对于Π的ε-次优策略?为此,我们引入一种新的复杂度度量,称为跨度容量(spanningcapacity),它仅依赖于策略集Π,与MDP动态无关。在生成模型下,我们证明对于任意策略类Π,有界跨度容量是PAC可学习性的特征。然而,在在线RL场景中,情况更为复杂。我们证明存在一个具有有界跨度容量的策略类Π,其学习需要超多项式数量的样本。

2025_NIPS_Brain encoding models based on multimodal transformers can transfer across language and...
研究背景:传统大脑编码模型多单独针对语言或视觉单模态训练和测试,而人类大脑具备强大的跨模态信息整合能力,多模态预训练Transformer已能提取语言与视觉的对齐概念表征,为跨模态编码模型提供了可能。研究方法采用BridgeTower多模态Transformer,从故事(语言刺激)和电影(视觉刺激)中提取潜在表征作为特征;基于功能磁共振成像(fMRI)数据,分别训练语言编码模型(故事特征+故事fMRI响应)和视觉编码模型(电影特征+电影fMRI响应);

欢迎留下您的脚印