Loading...

2025_NIPS_DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions
该研究针对视觉Transformer(ViTs)对输入token顺序不敏感、位置感知能力不足的问题,提出了一种新型自监督预训练任务DropPos,核心是通过重建被丢弃的位置嵌入来增强ViTs的空间推理能力。核心背景:现有自监督学习方法(对比学习CL、掩码图像建模MIM)未充分解决ViTs的位置感知缺陷,ViTs在缺乏位置嵌入时仍能完成部分任务,说明其未充分利用空间信息,需设计专门强化位置意识的预训练任务。方法设计先对输入图像块进行随机掩码,再丢弃可见图像块的大部分位置嵌入(保留少量锚点块的位置嵌入);

2025_NIPS_Are Vision Transformers More Data Hungry Than Newborn Visual Systems?
研究背景:ViT在计算机视觉任务中表现优异且与生物大脑存在计算相似性,但普遍认为其训练需海量数据,而新生动物(如雏鸡)在贫瘠视觉环境中仅通过少量经验即可掌握目标识别能力,因此ViT能否作为生物视觉学习的模型存在争议。实验设计首先,在严格控制的环境中饲养新生雏鸡,仅提供单一物体的视觉经验,测试其视角不变性目标识别能力;其次,利用Unity3D引擎构建虚拟饲养舱(数字孪生环境),模拟雏鸡的第一视角视觉流,生成训练数据;

2025_NIPS_Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning
该文章针对现实世界中不确定环境下的安全决策问题,提出了一种基于风险规避模型不确定性的分布式鲁棒安全强化学习(RL)框架。核心思路是通过相干扭曲风险测度(coherentdistortionriskmeasures)将风险规避视角融入模型不确定性建模,既解决了现有鲁棒RL方法依赖复杂极小极大优化、多训练环境或对抗性干预的缺陷,又能提供严格的鲁棒性保证。

2025_NIPS_Lightweight Vision Transformer with Bidirectional Interaction
近年来,视觉骨干网络的研究进展通过同时建模图像的局部和全局上下文显著提升了性能。然而,这两种上下文之间的双向交互尚未得到充分探索和利用,而这种交互在人类视觉系统中具有重要意义。本文提出一种全自适应自注意力(FASA)机制,用于视觉Transformer以上下文感知的方式建模局部和全局信息及其双向交互。具体而言,FASA采用自调制卷积自适应提取局部特征,同时利用下采样空间中的自注意力提取全局特征。随后,通过局部与全局特征间的双向适配过程建模两者的交互。

2025_NIPS_Multi-Modal Inverse Constrained Reinforcement Learning from a Mixture of Demonstrations
该研究聚焦于逆约束强化学习(ICRL)的核心挑战——现有算法假设演示数据来自单一类型专家,难以处理多专家、多约束的混合演示场景,提出了多模态逆约束强化学习(MMICRL)算法,核心目标是从混合专家演示中同时估计不同专家对应的专属约束,并学习符合这些约束的模仿策略。逆约束强化学习(ICRL)旨在通过数据驱动的方式恢复专家智能体所遵循的潜在约束。现有ICRL算法通常假设演示数据来自单一类型的专家。

2025_NIPS_Language Models are Weak Learners
机器学习理论与实践中的一个核心概念是弱学习器——即在任意给定数据分布上,性能略优于随机猜测(即使差距微小)的分类器。此类弱学习器是提升算法等经典机器学习方法的实践基础。本文提出,基于提示的大型语言模型(LLM)可有效充当上述弱学习器。具体而言,我们将LLM作为弱学习器应用于表格数据的提升算法中:通过提供(根据目标分布适当采样的)表格数据样本的文本描述,LLM能够生成样本总结,该总结可作为分类模板,实现弱学习器的核心目标。

LLM Weekly(2026.6.1-2026.6.7)
工程师每日交付的代码量是2024年的8倍。Opus4.8在ARC-AGI-3上取得最高分(是GPT-5.5的三倍),漏掉代码缺陷的概率降低了4倍,并且快速模式的成本比之前模型低3倍。通过课程训练优先强化并行组件,Domino在Qwen3模型上实现了高达5.49倍的端到端加速,在SGLang服务下实现了5.8倍的吞吐量提升。在MLE-Bench上,它在12小时预算(为标准一半)下取得了更优的奖牌率,并在数学优化任务上超越了AlphaEvolve。

2025_NIPS_Replicability in Reinforcement Learning
本文首次从数学角度系统研究强化学习(RL)中的可复现性问题,聚焦带生成模型的折扣表格型马尔可夫决策过程(MDP),定义了三类可复现性概念并设计对应高效算法,同时给出样本复杂度和时间复杂度的上下界。核心围绕“确保RL算法在相同环境下两次执行输出一致或近似一致”展开,通过对可复现性的不同松弛,实现复杂度的逐步优化,为解决机器学习领域的“可复现性危机”提供理论支撑。我们首次在强化学习(RL)背景下,将可复现性作为一种算法属性开展数学研究。研究聚焦带生成模型的折扣表格型马尔可夫决策过程(MDP)这一基础场景。

2025_NIPS_Adversarial Model for Offline Reinforcement Learning
我们提出一种新颖的基于模型的离线强化学习(RL)框架,名为对抗性离线强化学习模型(ARMOR)。该框架能够稳健地学习策略,以改进任意参考策略,且不受数据覆盖范围的限制。ARMOR的设计目标是通过对抗训练马尔可夫决策过程模型,优化策略在参考策略相对性能下的最坏情况表现。理论上,我们证明:当参考策略被数据覆盖时,若超参数调优得当,ARMOR能够与数据覆盖范围内的最优策略竞争;

2023_NIPS_On the Convergence of Encoder-only Shallow Transformers
该研究聚焦有限宽度下仅编码器的浅层Transformer全局收敛理论,核心解决自注意力机制中softmax的分析难题,明确了缩放方案、初始化方式和过参数化程度对收敛的影响。本文旨在从架构、初始化和有限宽度机制下的缩放视角,在真实场景中建立仅编码器的浅层Transformer全局收敛理论。其难点在于如何处理Transformer核心组件——自注意力机制中的softmax函数。

2025_NIPS_Gigastep - One Billion Steps per Second Multi-agent Reinforcement Learning
该文章针对多智能体强化学习(MARL)研究中“复杂环境计算成本高、简单环境缺乏现实迁移性”的核心矛盾,提出了一款名为Gigastep的MARL基准环境。环境设计核心:基于JAX框架实现完全向量化,支持在消费级硬件上达到每秒10亿步的运行速度,大幅降低MARL研究的硬件门槛;环境关键特性:涵盖3D动力学、随机性、部分可观测性等Dec-POMDP(去中心化部分可观测马尔可夫决策过程)核心要素,支持协作/对抗任务、连续/离散动作空间,提供特征向量和RGB图像两种观测形式;场景与定制化。

2025_NIPS_Pgx: Hardware-Accelerated Parallel Game Simulators for Reinforcement Learning
我们提出了Pgx,一套基于JAX编写、针对GPU/TPU加速器优化的棋盘游戏强化学习(RL)环境套件。借助JAX的自动向量化和加速器并行化能力,Pgx能够高效扩展至数千个同时进行的模拟任务。在NVIDIADGX-A100工作站上的实验表明,Pgx对RL环境的模拟速度比现有Python实现快10-100倍。Pgx包含了RL研究中常用的基准测试游戏环境,如双陆棋、国际象棋、将棋和围棋。此外,Pgx还提供迷你游戏集合和基线模型,以支持快速的研究周期。

2025_NIPS_Interactive Multi-fidelity Learning for Cost-effective Adaptation of Language Model wit...
大语言模型(LLMs)在各类任务中展现出卓越能力,但由于其部署时的庞大规模、易受错误信息影响的特性,更重要的是高昂的数据标注成本,它们在领域特定任务中的适用性受到限制。本文提出一种新颖的交互式多保真度学习(IMFL)框架,用于在有限标注预算下实现低成本的领域特定小模型开发。我们的方法将领域特定微调过程构建为多保真度学习问题,核心在于找到最优的样本获取策略——平衡低保真度的LLM自动标注与高保真度的人工标注,以最大化模型性能。

2025_NIPS_Tree of Thoughts: Deliberate Problem Solving with Large Language Models
语言模型正越来越多地被用于各类任务的通用问题解决,但在推理过程中仍受限于逐token、左到右的决策机制。这意味着它们在需要探索、策略性前瞻或初始决策起关键作用的任务中可能表现不佳。为克服这些挑战,我们提出了一种新的语言模型推理框架——“思维树”(TreeofThoughts,ToT),该框架对流行的“思维链”(ChainofThought)提示方法进行了泛化,允许在作为问题解决中间步骤的连贯文本单元(“思维”)上进行探索。

2025_NIPS_Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
计算机视觉模型在处理图像前将其调整为固定分辨率的普遍做法已被证明是次优的,但这一现状尚未被成功打破。然而,视觉Transformer(ViT)等模型提供了基于序列的灵活建模能力,因此支持可变的输入序列长度。我们利用这一特性提出了NaViT(原生分辨率ViT),它在训练过程中采用序列打包(Patchn’Pack)技术,能够处理任意分辨率和宽高比的输入。除了模型使用的灵活性外,我们还证明了NaViT在大规模监督预训练和对比性图像-文本预训练中具有更高的训练效率。

2025_NIPS_Safety Gymnasium: A Unified Safe Reinforcement Learning Benchmark
人工智能(AI)系统具有推动社会进步的巨大潜力。然而,由于存在重大安全隐患,其部署往往面临阻碍。安全强化学习(SafeRL)作为一种解决方案,能够在优化策略的同时遵守多项约束,从而解决了在安全关键场景中集成强化学习的难题。本文提出了一个名为Safety-Gymnasium的环境套件,该套件涵盖单智能体和多智能体场景下的安全关键任务,支持向量输入和纯视觉输入。此外,我们还提供了一个名为安全策略优化(SafePO)的算法库,包含16种最先进的SafeRL算法。这个全面的库可以作为研究社区的验证工具。

Assessing Coherency and Consistency of Code Execution Reasoning by Large Language Models
本文提出了CES任务,用于评估大型语言模型(LLMs)在模拟程序执行及将该推理应用于编程任务中的能力。除了测量执行模拟过程中变量预测的正确性外,CES还引入了“连贯性”概念,以判断模拟是否符合常识性执行逻辑——即便模拟过程中的预测值不正确。这一设计使CES能够排除因推理捷径、幻觉或潜在数据泄露导致的“可疑正确”输出预测。此外,CES还提出了一种新颖的度量标准,用于评估模型在具有相同或不同基本路径覆盖的测试用例间的推理一致性,并将其划分为强、弱、随机三个等级。

Benchmarking Multimodal Large Language Models for Face Recognition
多模态大型语言模型(MLLMs)在各类视觉-语言任务中取得了显著性能。然而,它们在人脸识别领域的潜力尚未得到充分探索。特别是开源MLLMs的性能,需要在采用相似协议的标准基准上与现有人脸识别模型进行评估和对比。本文在多个人脸识别数据集(包括LFW、CALFW、CPLFW、CFP、AgeDB和RFW)上,对最先进的MLLMs进行了系统的人脸识别基准测试。实验结果表明,尽管MLLMs能捕捉对人脸相关任务有用的丰富语义线索,但在零样本应用的高精度识别场景中,它们仍落后于专用模型。

Code-driven Number Sequence Calculation: Enhancing the inductive Reasoning Abilities of Large Lan...
大语言模型(LLMs)在推理任务中取得了显著进展。在不同的推理模式中,归纳推理因其更贴合人类学习方式而受到越来越多的关注。然而,归纳推理相关研究面临着若干挑战:首先,现有归纳数据多聚焦于表面规律,缺乏更复杂的内在模式;其次,当前研究仅通过提示LLMs或在简单的提示-响应对上进行微调,并未提供精准的思维过程,也未实现难度控制。与以往研究不同,本文通过引入CodeSeq(一个基于数字序列构建的合成后训练数据集)来应对这些挑战。我们将数字序列包装为算法问题以挖掘其通用项,并相应定义了通用项生成(GTG)任务。

Large Scale Retrieval for the LinkedIn Feed using Causal Language Models
在LinkedInFeed等大规模推荐系统中,检索阶段对于将数亿潜在候选内容筛选为可管理的排序子集至关重要。LinkedInFeed会基于成员的主题兴趣,推送其社交网络之外的推荐内容——需在数毫秒延迟预算和每秒数千查询量(QPS)的约束下,从数亿候选内容中检索出2000个候选。本文提出一种新型检索方法:将大型因果语言模型(Meta的LLaMA3)微调为双编码器,仅通过文本输入为用户(成员)和内容(物品)生成高质量嵌入向量。

欢迎留下您的脚印