Loading...

2025_NIPS_OpenWorldSAM: Extending SAM2 for Universal Image Segmentation with Language Prompts
基于开放式语言提示进行物体分割仍是一项关键挑战,这要求模型将文本语义映射到精确的空间掩码,同时处理多样且未见过的类别。本文提出OpenWorldSAM,这一框架通过整合从轻量级视觉语言模型(VLM)中提取的多模态嵌入,将基于提示的分割模型SAM2(SegmentAnythingModelv2)扩展到开放词汇场景。我们的方法遵循四项关键原则:1)统一提示:支持类别级和句子级语言描述等多种提示类型,为各类分割任务提供灵活接口;

2025_NIPS_Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights
现代参数高效微调(PEFT)方法(如低秩适配LoRA)降低了大语言模型(LLMs)的定制成本,但仍需为每个下游数据集单独执行优化过程。本文提出Drag-and-DropLLMs(DnD)——一种基于提示条件的参数生成器,通过将少量无标签任务提示直接映射为LoRA权重更新,消除了逐任务训练的需求。轻量级文本编码器将每个提示批次提炼为条件嵌入,随后通过级联超卷积解码器转化为完整的LoRA矩阵集合。

2025_NIPS_Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learn
受现实场景中数据收集和策略部署(无论是单智能体还是多智能体协作场景)成本高昂的启发,我们研究了在线单智能体强化学习(RL)和联邦强化学习(FRL)问题,重点关注最小化预热成本(达到近最优遗憾所需的样本量)以及策略切换或通信成本。在具有S个状态和A个动作的并行有限horizonepisodic马尔可夫决策过程(MDP)中,现有方法要么需要与S和A呈超线性关系的预热成本,要么无法实现对数级的策略切换或通信成本。

2025_NIPS_HMARL-CBF – Hierarchical Multi-Agent Reinforcement Learning with Control Barrier Functions
我们解决了多智能体安全关键型自主系统中的安全策略学习问题。在此类系统中,每个智能体必须始终满足安全要求,同时与其他智能体协作完成任务。为此,我们提出一种基于控制障碍函数(CBFs)的安全分层多智能体强化学习(HMARL)方法。我们提出的分层方法将整体强化学习问题分解为两个层级——在高层学习联合协作行为,在低层(智能体级)基于高层策略学习安全的个体行为。具体而言,我们设计了一种基于技能的HMARL-CBF算法:高层问题涉及为所有智能体学习技能上的联合策略,低层问题涉及通过CBFs学习安全执行技能的策略。

2025_NIPS_Edit Less, Achieve More: Dynamic Sparse Neuron Masking for Lifelong Knowledge Editing in L
终身知识编辑能够在无需计算成本高昂的全量重训练的情况下,对大语言模型(LLMs)中的过时知识进行持续、精准的更新。然而,现有方法在编辑过程中往往会累积误差,导致编辑准确性和泛化能力逐渐下降。为解决这一问题,我们提出了神经元特异性掩码知识编辑(NMKE)——一种结合神经元级归因与动态稀疏掩码的新型细粒度编辑框架。借助神经元功能归因,我们识别出两类关键的知识神经元:知识通用神经元(在不同提示下持续激活)和知识特定神经元(对特定提示激活)。NMKE进一步引入熵引导的动态稀疏掩码,定位与目标知识相关的神经元。

2025_NIPS_DrVD-Bench: Do Vision-Language Models Reason Like Human Doctors in Medical Image Diagnosis
视觉-语言模型(VLMs)在自然图像上展现出强大的零样本泛化能力,且在可解释性医学图像分析中已显现初步潜力。然而,现有基准未能系统评估这些模型是否真正像临床医生一样推理,还是仅模仿表面模式。为填补这一空白,我们提出DrVD-Bench——首个用于临床视觉推理的多模态基准。该基准包含三个模块:视觉证据理解、推理轨迹评估和报告生成评估,共涵盖7789个图像-问题对。

2025_NIPS_The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning
机制分解:首次将RLVR目标拆解为PSR和NSR两个独立组件,系统揭示了二者在模型推理能力与输出多样性上的对立影响。发现NSR的核心价值:证实仅通过惩罚错误样本,就能在不损失多样性的前提下提升模型推理性能,挑战了“需强化正确样本才能提升准确性”的传统认知。梯度层面解析:通过token级梯度分析,阐明NSR“抑制错误+先验引导概率重分配”的独特机制,区别于熵正则化、非似然训练等现有方法。

2025_NIPS_APOLLO: Automated LLM and Lean Collaboration for Advanced Formal Reasoning
形式推理与自动定理证明是机器学习中极具挑战性的子领域,其任务是让机器使用Lean等形式化语言证明数学定理。形式验证系统可近乎实时地检查形式化证明的正确性,但利用大语言模型(LLMs)生成完全正确的形式化证明仍是一项艰巨任务。文献中常见的方法是多次(最多数千次)提示LLM,直到生成的证明之一通过验证系统。

2025_NIPS_Learning and Planning Multi-Agent Tasks via an MoE-based World Model
本文针对多任务多智能体强化学习(MT-MARL)中不同任务最优策略差异大、模型泛化难的问题,提出了基于混合专家(MoE)架构的世界模型方法M3W。核心发现是多任务动力学存在“有界相似性”——同类任务(如开门/关门)动力学高度相似,异类任务(如开门/接球)差异显著。M3W将模块化设计应用于世界模型而非策略网络,通过SoftMoE动力学模型和SparseMoE奖励预测器,实现相似任务知识复用与异类任务梯度冲突隔离,再结合模型预测路径积分(MPPI)规划器直接基于预测轨迹优化动作,无需依赖显式策略。

2025_NIPS_World-aware Planning Narratives Enhance Large Vision-Language Model Planner
大型视觉语言模型(LVLMs)在具身规划任务中展现出潜力,但在涉及陌生环境和多步目标的复杂场景中仍面临挑战。现有方法依赖与环境无关的模仿学习,将指令与环境上下文割裂,导致模型难以处理上下文敏感指令,且在长时交互中依赖辅助线索而非视觉推理。本文提出世界感知规划叙事增强(WAP)框架,通过四大认知能力(视觉外观建模、空间关系推理、功能抽象学习、句法接地)为LVLMs注入全面的环境理解,同时仅通过课程学习基于原始视觉观测开发和评估模型。

2025_NIPS_When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multiling
多语言推理仍是大语言模型(LLMs)面临的重大挑战,其性能在高资源语言上呈现显著优势。受认知神经科学的启发——人类推理功能在很大程度上独立于语言处理——我们推测,LLMs同样将推理和语言编码为可分离的组件,通过解耦这些组件可提升多语言推理能力。为验证这一假设,我们在推理阶段对语言特定表征进行消融,实施因果干预。对涵盖11种类型多样语言的10个开源LLM的实验表明,这种语言特定成分消融方法持续提升多语言推理性能。

2026_ICLR_GPTAILOR: LARGE LANGUAGE MODEL PRUNING THROUGH LAYER CUTTING AND STITCHING
少样本学习(FSL)旨在训练仅需少量标注样本就能泛化到新类别的模型,这对于解决数据收集成本高或不切实际的现实场景至关重要。然而,现有方法往往存在特征区分性不足或对新任务适配性欠佳的问题,导致性能不理想。本文提出一种动态自适应特征校准(DAFC)框架以应对这些挑战。具体而言,我们首先引入任务感知特征校准模块,基于支持集的统计分布调整特征表示,增强类别间的区分能力;随后设计双阶段元训练策略:第一阶段聚焦于跨多样任务学习可泛化的特征先验,第二阶段优化任务特定适配以提升模型拟合新类别的能力。

2025_NIPS_Structured Initialization for Vision Transformers
卷积神经网络(CNNs)本质上编码了强大的归纳偏置,使其能在小规模数据集上实现有效的泛化。本文提出将这种归纳偏置融入视觉Transformer(ViT),但并非通过架构修改,而是仅借助初始化过程。其核心动机是打造这样一种ViT:当数据资源有限时,能具备类CNN的优异性能;而当数据规模扩大时,又能保持ViT的缩放能力。我们的方法源于一项实证发现:在CNN中,随机脉冲滤波器能够达到与训练习得滤波器相当的性能。

2025_NIPS_ENIGMATA: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puz
本文提出ENIGMATA套件,旨在通过合成可验证谜题提升大语言模型(LLMs)的逻辑推理能力。该套件包含36个谜题任务(涵盖7大类别)、ENIGMATA-Eval基准测试集和ENIGMATA-Model训练方案,基于可验证奖励强化学习(RLVR)范式,实现谜题的规模化生成、难度可控和自动验证。实验表明,基于Qwen2.5-32B训练的模型在谜题推理基准(如ENIGMATA-Eval、ARC-AGI)上超越o1、o3-mini-high等模型,且在数学和STEM任务中展现出良好的泛化能力。

2025_NIPS_Glance2Gaze: Efficient Vision-Language Models from Glance Fusion to Gaze Compression
视觉语言模型严重依赖视觉表征,但其效率保障仍是一项关键挑战。现有大多数方法要么在视觉编码器阶段,要么在大型语言模型(LLM)解码器阶段减少视觉令牌。受人类视觉认知机制的启发——人类首先进行全局扫视,随后将注意力集中在语义显著区域——我们提出了Glance2Gaze,这是一种模拟人类两阶段注意力过程的认知启发式框架。该框架包含两个核心组件:扫视融合(GlanceFusion)模块,通过文本感知注意力整合多层视觉Transformer特征,生成语义丰富的全局表征;

2025_NIPS_The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense
攻击易发性:VLLMs易遭越狱攻击的根源是视觉输入的引入,而非灾难性遗忘或微调问题,视觉输入会破坏基础LLM的安全护栏。防御伪高效:现有防御机制(如安全监督微调、系统提示保护)的高性能源于“过度谨慎”,会对良性输入无差别拒绝,损害模型实用性;且规则型与模型型两种评估方法一致性极低,导致防御效果误判。解决方案:提出“LLM-Pipeline”方法,复用先进LLM的安全护栏作为无视觉检测器,先判断文本查询(含可选图像描述)的危害性,再由VLLM生成响应,在安全性与实用性间实现平衡。

2025_NIPS_QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks?
大型语言模型(LLMs)在数学和逻辑等推理基准测试中已展现出令人印象深刻的性能。尽管许多研究工作大多假设任务定义明确,但现实世界中的查询往往信息不足,仅能通过获取缺失信息来求解。我们将这一信息收集问题形式化为带有缺失变量赋值的约束满足问题(CSP)。针对仅缺失一个必要变量赋值的特殊情况,我们可评估LLM识别最小必要提问的能力。本文提出QUESTBENCH基准集,包含一系列信息不足但最多通过一个问题即可求解的推理任务,具体包括:(1)Logic-Q:缺失一个命题的逻辑推理任务;

2025_NIPS_DAIL: Beyond Task Ambiguity for Language-Conditioned Reinforcement Learning
理解自然语言并遵循人类指令是智能体的关键能力。然而,语言指令的灵活性会导致语言条件任务中出现显著的模糊性,严重降低算法性能。为解决这一局限,我们提出一种名为DAIL(分布对齐学习)的新方法,其核心包含两大组件:分布策略和语义对齐。具体而言,我们通过理论推导证明,价值分布估计机制能够增强任务区分度;同时,语义对齐模块可捕捉轨迹与语言指令之间的对应关系。在结构化和视觉观察基准测试上的大量实验结果表明,DAIL能有效解决指令模糊性问题,性能优于现有基准方法。。

2025_NIPS_DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning
稀疏奖励强化学习(RL)能够建模广泛的高度复杂任务。解决稀疏奖励任务是RL的核心前提——需要高效探索与长视野信用分配相结合——而克服这些挑战是构建具有超人能力的自改进智能体的关键。现有研究通常以解决多个稀疏奖励任务为目标进行探索,导致对单个高维、长视野任务的探索变得难以处理。我们认为,解决此类具有挑战性的任务需要先解决与目标任务相关的简单任务,即那些完成后能教会智能体解决目标任务所需技能的任务。我们证明,这种有效探索所需的方向性可以从现有RL算法中提取,无需利用任何先验信息。

2025_NIPS_Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning
检索增强生成(RAG)通过整合外部知识和最新信息,增强了大型语言模型(LLMs)的文本生成能力。然而,传统RAG系统受限于静态工作流,缺乏多步推理和复杂任务管理所需的适应性。为解决这些局限性,研究者提出了智能体驱动的RAG系统(如DeepResearch),该系统支持动态检索策略、迭代式上下文优化以及自适应工作流,能够处理传统RAG难以应对的复杂搜索查询。近期研究(如Search-R1)采用基于结果的强化学习取得了良好进展,将最终答案的正确性作为奖励信号。

欢迎留下您的脚印