Loading...
大型语言模型(LLMs)由于其高内存需求和计算成本,在微调和部署方面面临挑战。尽管参数高效微调(PEFT)方法旨在降低微调过程中优化器状态的内存占用,但预训练LLM权重的固有规模仍是一个迫切需要解决的问题。虽然量化技术被广泛提出以缓解内存需求并加速LLM推理,但这些技术大多面向部署阶段。为填补这一空白,本文提出了参数高效且量化感知适配(PEQA)——一种简单而有效的方法,它结合了PEFT与量化LLM的优势。通过仅更新量化尺度,PEQA可直接应用于量化LLM,确保无缝的任务切换。
2025_NIPS_Structured State Space Models for In-Context Reinforcement Learning
结构化状态空间序列(S4)模型近年来在长程序列建模任务上取得了最先进的性能。这些模型还具有快速推理速度和可并行训练的特点,使其在许多强化学习场景中具有潜在的实用性。我们对S4的一个变体(S5)进行了修改,使其能够并行初始化和重置隐藏状态,从而能够处理强化学习任务。我们表明,我们的改进架构在序列长度方面的渐近运行速度快于Transformer,并且在简单的基于记忆的任务上表现优于RNN。我们在一组部分可观测环境上评估了改进后的架构,发现在实际应用中,我们的模型不仅性能优于RNN,运行速度还快了五倍以上。
2025_NIPS_Uni3DETR: Unified 3D Detection Transformer
本文针对现有基于点云的3D目标检测模型多为室内或室外场景专用、缺乏统一架构的问题,提出了Uni3DETR——一种能同时适配室内和室外3D检测任务的统一Transformer架构。现有基于点云的3D检测模型均为特定场景(室内或室外)设计。由于不同环境下点云的目标分布和点密度存在显著差异,且3D评价指标复杂,目前仍缺乏能适配多样化场景的统一网络架构。本文提出Uni3DETR,一种在同一框架内同时处理室内和室外3D检测的统一模型。
2025_NIPS_ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation
联合语音-语言训练极具挑战性,这不仅是因为其对训练数据和GPU资源的需求量巨大,还源于语音与语言之间存在的模态差异。本文提出了ComSL,这是一种基于现有预训练纯语音模型和纯语言模型构建的复合架构语音-语言模型,能够以数据高效的方式针对口语任务进行优化。具体而言,我们提出将跨模态学习融入迁移学习,并以多任务学习的形式在下游任务中同时进行这两项学习。
2025_NIPS_Counterfactual Memorization in Neural Language Models
广泛应用于各类自然语言处理任务的现代神经语言模型,存在记忆训练数据中敏感信息的风险。理解这种记忆现象,无论在实际应用中还是学习理论视角下都至关重要。此前语言模型记忆研究中一个悬而未决的问题是,如何过滤掉“常见”的记忆内容。事实上,大多数记忆判定标准都与训练集中的出现频次高度相关,捕捉到的往往是常见短语、公共知识、模板化文本或其他重复数据。本文提出了反事实记忆的概念,用于描述若训练过程中遗漏某一特定文档,模型预测结果会发生怎样的变化。
2025_NIPS_When is Agnostic Reinforcement Learning Statistically Tractable?
我们研究agnosticPAC强化学习(RL)问题:给定策略类Π,需要与未知马尔可夫决策过程(MDP,其状态和动作空间可能很大)进行多少轮交互,才能学到相对于Π的ε-次优策略?为此,我们引入一种新的复杂度度量,称为跨度容量(spanningcapacity),它仅依赖于策略集Π,与MDP动态无关。在生成模型下,我们证明对于任意策略类Π,有界跨度容量是PAC可学习性的特征。然而,在在线RL场景中,情况更为复杂。我们证明存在一个具有有界跨度容量的策略类Π,其学习需要超多项式数量的样本。
2025_NIPS_Brain encoding models based on multimodal transformers can transfer across language and...
研究背景:传统大脑编码模型多单独针对语言或视觉单模态训练和测试,而人类大脑具备强大的跨模态信息整合能力,多模态预训练Transformer已能提取语言与视觉的对齐概念表征,为跨模态编码模型提供了可能。研究方法采用BridgeTower多模态Transformer,从故事(语言刺激)和电影(视觉刺激)中提取潜在表征作为特征;基于功能磁共振成像(fMRI)数据,分别训练语言编码模型(故事特征+故事fMRI响应)和视觉编码模型(电影特征+电影fMRI响应);
2025_NIPS_ReTR: Modeling Rendering Via Transformer for Generalizable Neural Surface Reconstruction
可泛化神经表面重建技术近年来受到了广泛关注。然而,由于所采用的体渲染过程过于简化,这些方法面临着深度分布置信度低和表面推理不准确的局限性。在本文中,我们提出了ReconstructionTransformer(ReTR),这是一种新颖的框架,它利用Transformer架构重新设计渲染过程,实现复杂的渲染交互建模。该框架引入了可学习的元射线令牌(meta-raytoken),并利用交叉注意力机制模拟渲染过程与采样点的交互,从而渲染出观测颜色。
2025_NIPS_Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias
本文聚焦大语言模型(LLMs)作为训练数据生成器的应用,指出传统简单类别条件提示词(SimPrompt)存在数据多样性不足、继承模型固有偏见等问题。提出AttrPrompt(带多样属性的提示词)方法,通过指定长度、风格、场景等属性维度构建提示词,生成兼具多样性和属性特征的训练数据。在4个高基数、多领域文本分类数据集(NYT、Amazon等)及多标签分类任务中验证,AttrPrompt在模型性能、数据多样性、成本效率上均优于SimPrompt,仅需5%的查询成本即可达到同等效果,且能缓解区域偏见等问题。
2025_NIPS_DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions
该研究针对视觉Transformer(ViTs)对输入token顺序不敏感、位置感知能力不足的问题,提出了一种新型自监督预训练任务DropPos,核心是通过重建被丢弃的位置嵌入来增强ViTs的空间推理能力。核心背景:现有自监督学习方法(对比学习CL、掩码图像建模MIM)未充分解决ViTs的位置感知缺陷,ViTs在缺乏位置嵌入时仍能完成部分任务,说明其未充分利用空间信息,需设计专门强化位置意识的预训练任务。方法设计先对输入图像块进行随机掩码,再丢弃可见图像块的大部分位置嵌入(保留少量锚点块的位置嵌入);
2025_NIPS_Are Vision Transformers More Data Hungry Than Newborn Visual Systems?
研究背景:ViT在计算机视觉任务中表现优异且与生物大脑存在计算相似性,但普遍认为其训练需海量数据,而新生动物(如雏鸡)在贫瘠视觉环境中仅通过少量经验即可掌握目标识别能力,因此ViT能否作为生物视觉学习的模型存在争议。实验设计首先,在严格控制的环境中饲养新生雏鸡,仅提供单一物体的视觉经验,测试其视角不变性目标识别能力;其次,利用Unity3D引擎构建虚拟饲养舱(数字孪生环境),模拟雏鸡的第一视角视觉流,生成训练数据;
2025_NIPS_Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning
该文章针对现实世界中不确定环境下的安全决策问题,提出了一种基于风险规避模型不确定性的分布式鲁棒安全强化学习(RL)框架。核心思路是通过相干扭曲风险测度(coherentdistortionriskmeasures)将风险规避视角融入模型不确定性建模,既解决了现有鲁棒RL方法依赖复杂极小极大优化、多训练环境或对抗性干预的缺陷,又能提供严格的鲁棒性保证。
2025_NIPS_Lightweight Vision Transformer with Bidirectional Interaction
近年来,视觉骨干网络的研究进展通过同时建模图像的局部和全局上下文显著提升了性能。然而,这两种上下文之间的双向交互尚未得到充分探索和利用,而这种交互在人类视觉系统中具有重要意义。本文提出一种全自适应自注意力(FASA)机制,用于视觉Transformer以上下文感知的方式建模局部和全局信息及其双向交互。具体而言,FASA采用自调制卷积自适应提取局部特征,同时利用下采样空间中的自注意力提取全局特征。随后,通过局部与全局特征间的双向适配过程建模两者的交互。
2025_NIPS_Multi-Modal Inverse Constrained Reinforcement Learning from a Mixture of Demonstrations
该研究聚焦于逆约束强化学习(ICRL)的核心挑战——现有算法假设演示数据来自单一类型专家,难以处理多专家、多约束的混合演示场景,提出了多模态逆约束强化学习(MMICRL)算法,核心目标是从混合专家演示中同时估计不同专家对应的专属约束,并学习符合这些约束的模仿策略。逆约束强化学习(ICRL)旨在通过数据驱动的方式恢复专家智能体所遵循的潜在约束。现有ICRL算法通常假设演示数据来自单一类型的专家。
2025_NIPS_Language Models are Weak Learners
机器学习理论与实践中的一个核心概念是弱学习器——即在任意给定数据分布上,性能略优于随机猜测(即使差距微小)的分类器。此类弱学习器是提升算法等经典机器学习方法的实践基础。本文提出,基于提示的大型语言模型(LLM)可有效充当上述弱学习器。具体而言,我们将LLM作为弱学习器应用于表格数据的提升算法中:通过提供(根据目标分布适当采样的)表格数据样本的文本描述,LLM能够生成样本总结,该总结可作为分类模板,实现弱学习器的核心目标。
LLM Weekly(2026.6.1-2026.6.7)
工程师每日交付的代码量是2024年的8倍。Opus4.8在ARC-AGI-3上取得最高分(是GPT-5.5的三倍),漏掉代码缺陷的概率降低了4倍,并且快速模式的成本比之前模型低3倍。通过课程训练优先强化并行组件,Domino在Qwen3模型上实现了高达5.49倍的端到端加速,在SGLang服务下实现了5.8倍的吞吐量提升。在MLE-Bench上,它在12小时预算(为标准一半)下取得了更优的奖牌率,并在数学优化任务上超越了AlphaEvolve。
2025_NIPS_Replicability in Reinforcement Learning
本文首次从数学角度系统研究强化学习(RL)中的可复现性问题,聚焦带生成模型的折扣表格型马尔可夫决策过程(MDP),定义了三类可复现性概念并设计对应高效算法,同时给出样本复杂度和时间复杂度的上下界。核心围绕“确保RL算法在相同环境下两次执行输出一致或近似一致”展开,通过对可复现性的不同松弛,实现复杂度的逐步优化,为解决机器学习领域的“可复现性危机”提供理论支撑。我们首次在强化学习(RL)背景下,将可复现性作为一种算法属性开展数学研究。研究聚焦带生成模型的折扣表格型马尔可夫决策过程(MDP)这一基础场景。
2025_NIPS_Adversarial Model for Offline Reinforcement Learning
我们提出一种新颖的基于模型的离线强化学习(RL)框架,名为对抗性离线强化学习模型(ARMOR)。该框架能够稳健地学习策略,以改进任意参考策略,且不受数据覆盖范围的限制。ARMOR的设计目标是通过对抗训练马尔可夫决策过程模型,优化策略在参考策略相对性能下的最坏情况表现。理论上,我们证明:当参考策略被数据覆盖时,若超参数调优得当,ARMOR能够与数据覆盖范围内的最优策略竞争;
2023_NIPS_On the Convergence of Encoder-only Shallow Transformers
该研究聚焦有限宽度下仅编码器的浅层Transformer全局收敛理论,核心解决自注意力机制中softmax的分析难题,明确了缩放方案、初始化方式和过参数化程度对收敛的影响。本文旨在从架构、初始化和有限宽度机制下的缩放视角,在真实场景中建立仅编码器的浅层Transformer全局收敛理论。其难点在于如何处理Transformer核心组件——自注意力机制中的softmax函数。
2025_NIPS_Gigastep - One Billion Steps per Second Multi-agent Reinforcement Learning
该文章针对多智能体强化学习(MARL)研究中“复杂环境计算成本高、简单环境缺乏现实迁移性”的核心矛盾,提出了一款名为Gigastep的MARL基准环境。环境设计核心:基于JAX框架实现完全向量化,支持在消费级硬件上达到每秒10亿步的运行速度,大幅降低MARL研究的硬件门槛;环境关键特性:涵盖3D动力学、随机性、部分可观测性等Dec-POMDP(去中心化部分可观测马尔可夫决策过程)核心要素,支持协作/对抗任务、连续/离散动作空间,提供特征向量和RGB图像两种观测形式;场景与定制化。
