Loading...

Lookahead Routing for Large Language Models
大语言模型(LLM)路由器通过将每个查询导向最合适的模型,同时利用异构LLM的多样化优势,提高了多模型系统的效率。大多数现有方法仅基于输入查询将路由建模为分类问题。虽然这种方式通过避免所有模型的推理来降低开销,但忽略了可从潜在输出中获取的宝贵信息,且无法捕捉往往仅在响应生成过程中才显现的隐含意图或上下文细微差别。这些局限性可能导致次优的路由决策,尤其对于需要深度语义理解的复杂或模糊查询。

2025_NIPS_Mitigating Over-smoothing in Transformers via Regularized Nonlocal Functionals
该研究聚焦于Transformer模型中的过平滑(Over-smoothing)问题——即随着模型层数加深,token表示逐渐趋于一致,导致模型表征能力下降。文章通过建立非局部变分去噪框架,从理论上解释了过平滑的根源,并提出了一种新型Transformer模型NeuTRENO,有效缓解了这一问题。Transformer在自然语言处理和计算机视觉等广泛应用中取得了显著成功。然而,深层Transformer模型的表征能力会因过平滑问题而下降——当模型层数增加时,token表示会变得完全一致。

2025_NIPS_Fast Bellman Updates for Wasserstein Distributionally Robust MDPs
文章聚焦Wasserstein模糊集下的分布鲁棒马尔可夫决策过程(DRMDPs),针对传统解法计算复杂度高、难以适配大规模问题的痛点,提出了高效的Bellman更新求解框架。通过拆解分布鲁棒Bellman更新的优化问题,将其转化为可快速求解的子问题,最终在L1L_1L1​L2L_2L2​L∞L_\inftyL∞​范数设定下,实现了准线性时间复杂度的求解,数值实验验证该方法优于现有主流算法。马尔可夫决策过程(MDPs)在模型模糊性下常面临敏感性问题。

2025_NIPS_Pairwise Causality Guided Transformers for Event Sequences
尽管成对因果关系在众多学科的观察性纵向分析中已得到广泛研究,但将因果对知识融入时间序列事件的深度学习模型仍处于探索阶段。本文提出一种新方法,通过注入成对定性因果知识(如“事件Z会增强未来事件Y的发生概率”),提升基于Transformer的多变量事件序列模型性能。我们建立了一套基于Transformer架构的时间序列事件因果推断新框架,为所提方法提供理论支撑,并证明了该方法能获得无偏估计。实验结果表明,通过有效利用因果对知识,该方法在预测准确率上优于多个最先进模型。

2025_NIPS_SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement Learning
该文指出经典协作式多智能体强化学习(MARL)基准测试SMAC存在随机性不足、部分可观测性无实际意义的缺陷,导致开环策略(仅依赖时间步)即可在多数场景中取得较好性能,无法有效评估复杂闭环策略。为此,作者提出改进基准SMACv2,通过程序化生成场景(随机团队构成、随机起始位置)提升随机性,引入扩展部分可观测性挑战(EPO)增强观测约束,并调整单位视野和攻击范围。实验表明,SMACv2能有效规避SMAC的缺陷,现有顶尖MARL算法在其上表现受限,可更好地推动下一代MARL方法的研发。

2025_NIPS_Budgeting Counterfactual for Offline RL
离线强化学习的核心挑战源于数据有限情况下,潜在动作领域内的一系列反事实推理困境:倘若我们选择了不同的行动方案会怎样?这些情况常常导致外推误差,而此类误差会随着问题时域的延长呈指数级累积。因此,至关重要的是要认识到,并非所有决策步骤对最终结果的重要性都相同,我们需要对策略所做出的反事实决策数量进行“预算管控”,以控制外推误差。与现有对策略或价值函数施加正则化的方法不同,我们提出了一种在训练过程中显式约束分布外动作数量的方法。

2025_NIPS_Learning World Models with Identifiable Factorization
在高维、嘈杂且非平稳的环境中,提取稳定且紧凑的环境表征对于高效强化学习至关重要。此类环境中存在不同类别的信息——如何有效提取和分离这些信息仍是一个具有挑战性的问题。本文提出IFactor,这是一个通用框架,用于建模四类不同的潜在状态变量,这些变量基于其与动作和奖励的交互关系,捕捉强化学习系统中的各类信息。我们的分析确立了这些潜在变量的块可识别性,这不仅提供了稳定且紧凑的表征,还揭示了所有与奖励相关的因素对策略学习都具有重要意义。

2025_NIPS_Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer ...
大型语言模型(LLMs)由于其高内存需求和计算成本,在微调和部署方面面临挑战。尽管参数高效微调(PEFT)方法旨在降低微调过程中优化器状态的内存占用,但预训练LLM权重的固有规模仍是一个迫切需要解决的问题。虽然量化技术被广泛提出以缓解内存需求并加速LLM推理,但这些技术大多面向部署阶段。为填补这一空白,本文提出了参数高效且量化感知适配(PEQA)——一种简单而有效的方法,它结合了PEFT与量化LLM的优势。通过仅更新量化尺度,PEQA可直接应用于量化LLM,确保无缝的任务切换。

2025_NIPS_Structured State Space Models for In-Context Reinforcement Learning
结构化状态空间序列(S4)模型近年来在长程序列建模任务上取得了最先进的性能。这些模型还具有快速推理速度和可并行训练的特点,使其在许多强化学习场景中具有潜在的实用性。我们对S4的一个变体(S5)进行了修改,使其能够并行初始化和重置隐藏状态,从而能够处理强化学习任务。我们表明,我们的改进架构在序列长度方面的渐近运行速度快于Transformer,并且在简单的基于记忆的任务上表现优于RNN。我们在一组部分可观测环境上评估了改进后的架构,发现在实际应用中,我们的模型不仅性能优于RNN,运行速度还快了五倍以上。

2025_NIPS_Uni3DETR: Unified 3D Detection Transformer
本文针对现有基于点云的3D目标检测模型多为室内或室外场景专用、缺乏统一架构的问题,提出了Uni3DETR——一种能同时适配室内和室外3D检测任务的统一Transformer架构。现有基于点云的3D检测模型均为特定场景(室内或室外)设计。由于不同环境下点云的目标分布和点密度存在显著差异,且3D评价指标复杂,目前仍缺乏能适配多样化场景的统一网络架构。本文提出Uni3DETR,一种在同一框架内同时处理室内和室外3D检测的统一模型。

2025_NIPS_ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation
联合语音-语言训练极具挑战性,这不仅是因为其对训练数据和GPU资源的需求量巨大,还源于语音与语言之间存在的模态差异。本文提出了ComSL,这是一种基于现有预训练纯语音模型和纯语言模型构建的复合架构语音-语言模型,能够以数据高效的方式针对口语任务进行优化。具体而言,我们提出将跨模态学习融入迁移学习,并以多任务学习的形式在下游任务中同时进行这两项学习。

2025_NIPS_Counterfactual Memorization in Neural Language Models
广泛应用于各类自然语言处理任务的现代神经语言模型,存在记忆训练数据中敏感信息的风险。理解这种记忆现象,无论在实际应用中还是学习理论视角下都至关重要。此前语言模型记忆研究中一个悬而未决的问题是,如何过滤掉“常见”的记忆内容。事实上,大多数记忆判定标准都与训练集中的出现频次高度相关,捕捉到的往往是常见短语、公共知识、模板化文本或其他重复数据。本文提出了反事实记忆的概念,用于描述若训练过程中遗漏某一特定文档,模型预测结果会发生怎样的变化。

2025_NIPS_When is Agnostic Reinforcement Learning Statistically Tractable?
我们研究agnosticPAC强化学习(RL)问题:给定策略类Π,需要与未知马尔可夫决策过程(MDP,其状态和动作空间可能很大)进行多少轮交互,才能学到相对于Π的ε-次优策略?为此,我们引入一种新的复杂度度量,称为跨度容量(spanningcapacity),它仅依赖于策略集Π,与MDP动态无关。在生成模型下,我们证明对于任意策略类Π,有界跨度容量是PAC可学习性的特征。然而,在在线RL场景中,情况更为复杂。我们证明存在一个具有有界跨度容量的策略类Π,其学习需要超多项式数量的样本。

2025_NIPS_Brain encoding models based on multimodal transformers can transfer across language and...
研究背景:传统大脑编码模型多单独针对语言或视觉单模态训练和测试,而人类大脑具备强大的跨模态信息整合能力,多模态预训练Transformer已能提取语言与视觉的对齐概念表征,为跨模态编码模型提供了可能。研究方法采用BridgeTower多模态Transformer,从故事(语言刺激)和电影(视觉刺激)中提取潜在表征作为特征;基于功能磁共振成像(fMRI)数据,分别训练语言编码模型(故事特征+故事fMRI响应)和视觉编码模型(电影特征+电影fMRI响应);

2025_NIPS_ReTR: Modeling Rendering Via Transformer for Generalizable Neural Surface Reconstruction
可泛化神经表面重建技术近年来受到了广泛关注。然而,由于所采用的体渲染过程过于简化,这些方法面临着深度分布置信度低和表面推理不准确的局限性。在本文中,我们提出了ReconstructionTransformer(ReTR),这是一种新颖的框架,它利用Transformer架构重新设计渲染过程,实现复杂的渲染交互建模。该框架引入了可学习的元射线令牌(meta-raytoken),并利用交叉注意力机制模拟渲染过程与采样点的交互,从而渲染出观测颜色。

2025_NIPS_Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias
本文聚焦大语言模型(LLMs)作为训练数据生成器的应用,指出传统简单类别条件提示词(SimPrompt)存在数据多样性不足、继承模型固有偏见等问题。提出AttrPrompt(带多样属性的提示词)方法,通过指定长度、风格、场景等属性维度构建提示词,生成兼具多样性和属性特征的训练数据。在4个高基数、多领域文本分类数据集(NYT、Amazon等)及多标签分类任务中验证,AttrPrompt在模型性能、数据多样性、成本效率上均优于SimPrompt,仅需5%的查询成本即可达到同等效果,且能缓解区域偏见等问题。

2025_NIPS_DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions
该研究针对视觉Transformer(ViTs)对输入token顺序不敏感、位置感知能力不足的问题,提出了一种新型自监督预训练任务DropPos,核心是通过重建被丢弃的位置嵌入来增强ViTs的空间推理能力。核心背景:现有自监督学习方法(对比学习CL、掩码图像建模MIM)未充分解决ViTs的位置感知缺陷,ViTs在缺乏位置嵌入时仍能完成部分任务,说明其未充分利用空间信息,需设计专门强化位置意识的预训练任务。方法设计先对输入图像块进行随机掩码,再丢弃可见图像块的大部分位置嵌入(保留少量锚点块的位置嵌入);

2025_NIPS_Are Vision Transformers More Data Hungry Than Newborn Visual Systems?
研究背景:ViT在计算机视觉任务中表现优异且与生物大脑存在计算相似性,但普遍认为其训练需海量数据,而新生动物(如雏鸡)在贫瘠视觉环境中仅通过少量经验即可掌握目标识别能力,因此ViT能否作为生物视觉学习的模型存在争议。实验设计首先,在严格控制的环境中饲养新生雏鸡,仅提供单一物体的视觉经验,测试其视角不变性目标识别能力;其次,利用Unity3D引擎构建虚拟饲养舱(数字孪生环境),模拟雏鸡的第一视角视觉流,生成训练数据;

2025_NIPS_Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning
该文章针对现实世界中不确定环境下的安全决策问题,提出了一种基于风险规避模型不确定性的分布式鲁棒安全强化学习(RL)框架。核心思路是通过相干扭曲风险测度(coherentdistortionriskmeasures)将风险规避视角融入模型不确定性建模,既解决了现有鲁棒RL方法依赖复杂极小极大优化、多训练环境或对抗性干预的缺陷,又能提供严格的鲁棒性保证。

2025_NIPS_Lightweight Vision Transformer with Bidirectional Interaction
近年来,视觉骨干网络的研究进展通过同时建模图像的局部和全局上下文显著提升了性能。然而,这两种上下文之间的双向交互尚未得到充分探索和利用,而这种交互在人类视觉系统中具有重要意义。本文提出一种全自适应自注意力(FASA)机制,用于视觉Transformer以上下文感知的方式建模局部和全局信息及其双向交互。具体而言,FASA采用自调制卷积自适应提取局部特征,同时利用下采样空间中的自注意力提取全局特征。随后,通过局部与全局特征间的双向适配过程建模两者的交互。

欢迎留下您的脚印