Loading...
无监督图像异常检测(UAD)旨在学习正常样本的鲁棒且具有判别力的表示。尽管为每个类别单独设计解决方案会带来高昂的计算成本且泛化能力有限,但本文仍聚焦于构建适用于多类别的统一框架。在这一具有挑战性的场景下,主流的基于重建且假设潜表示为连续的网络往往会遭遇“相同捷径”问题——正常样本和异常样本均能被良好重建,导致难以区分。为解决这一核心问题,我们在概率框架下提出一种分层向量量化的原型导向Transformer。
2025_NIPS_ReDS: Offline RL With Heteroskedastic Datasets via Support Constraints
离线强化学习(RL)完全从静态数据集学习策略。离线强化学习的实际应用不可避免地需要从这样的数据集学习:在状态空间中,所展示行为的变异性呈现非均匀变化。例如,在红灯时,几乎所有人类驾驶员都会采取类似的停车行为;但在高速并线时,部分驾驶员会快速、高效且安全地并线,而许多驾驶员则会犹豫或危险地并线。我们通过理论和实证研究均表明,典型的离线强化学习方法基于分布约束,由于要求在整个状态空间中以相同程度贴近行为策略,因此无法从具有这种非均匀变异性的数据中有效学习。
2025_NIPS_Belief Projection-Based Reinforcement Learning for Environments with Delayed Feedback
我们提出一种适用于延迟反馈环境的新型演员-评论员算法,旨在解决传统方法面临的状态空间爆炸问题。传统方法通过构建“最后观测状态+自上次观测以来执行的动作”组成的增广状态,可在延迟环境中构建正确的马尔可夫决策过程(MDP);然而,随着延迟时间步的增加,增广状态空间会急剧膨胀,导致收敛缓慢。我们提出的信念投影Q学习(BPQL)算法,通过评估输入规模与原始状态空间一致(而非增广状态空间)的评论员价值函数,有效解决了状态空间爆炸问题。
2025_NIPS_AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis
记录视听场景的机器能否在新的位置和视角方向上生成逼真且匹配的视听体验?我们通过研究一项新任务——真实世界视听场景合成——以及首个基于NeRF的多模态学习方法来回答这一问题。具体而言,给定一个视听场景的视频记录,该任务旨在沿该场景中任意新的相机轨迹合成带有空间音频的新视频。我们提出一种声学感知音频生成模块,将音频传播的先验知识融入NeRF中,在该模块中,我们将音频生成与视觉环境的3D几何和材质属性进行隐式关联。
2025_NIPS_Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models
近年来,扩展大型语言模型(LLMs)的多模态能力(例如视觉-语言(VL)学习)引发了广泛关注,这被视为通用人工智能的下一个里程碑。然而,现有解决方案成本极高,不仅需要优化海量参数,还需在视觉-语言指令微调前进行另一轮大规模预训练。本文提出了一种新颖且经济高效的LLMs视觉-语言适配方案,称为混合模态适配(MMA)。与使用大型神经网络连接图像编码器和LLM不同,MMA采用轻量级模块(即适配器)来弥合LLMs与视觉-语言任务之间的鸿沟,同时支持图像模型与语言模型的联合优化。
2025_NIPS_COOM: A Game Benchmark for Continual Reinforcement Learning
文章针对持续强化学习(CRL)缺乏标准化基准、计算成本高、视觉类3D环境稀缺等问题,提出了基于ViZDoom引擎的CRL基准COOM(ContinualDOOM)。该基准包含8个视觉和目标各异的3D场景,构建了6类不同长度和模态的任务序列(跨域CD系列、跨目标CO系列、挑战型COC系列),以评估智能体的灾难性遗忘、知识迁移和样本高效学习能力。
2025_NIPS_Inference-Time Intervention: Eliciting Truthful Answers from a Language Model
我们提出推理时干预(ITI)技术,旨在提升大型语言模型(LLMs)的“真实性”。该技术通过在推理过程中调整模型激活值,沿有限注意力头的特定方向进行偏移。这种干预显著提升了LLaMA模型在TruthfulQA基准测试中的表现。在经过指令微调的LLaMA模型(名为Alpaca)上,ITI将其真实性从32.5%提升至65.1%。我们发现真实性与帮助性之间存在权衡,并展示了如何通过调整干预强度实现二者平衡。ITI具有侵入性小、计算成本低的特点。
2025_NIPS_Language Models Don‘t Always Say What They Think: Unfaithful Explanations in Chain-of-T...
大语言模型(LLMs)通过在给出最终输出前生成分步推理(通常称为思维链推理,CoT),能够在许多任务上实现优异性能。人们倾向于将这些CoT解释视为模型解决任务的过程——这种对LLMs预测的透明度提升将带来显著的安全收益。然而,我们发现CoT解释可能会系统性地歪曲模型预测的真实原因。研究表明,CoT解释会受到输入中偏差特征的严重影响(例如,通过重新排序少量样本提示中的多项选择题选项,使答案始终为“(A)”),但模型在解释中却完全不会提及这些偏差因素。
2025_NIPS_Offline Reinforcement Learning with Differential Privacy
离线强化学习(RL)问题的提出,往往是为了在金融、法律和医疗等应用场景中学习数据驱动的决策策略。然而,所学策略可能会保留训练数据中个体的敏感信息(例如患者的治疗方案和治疗结果),因此容易面临各类隐私风险。本文设计了具有差分隐私保障的离线强化学习算法,能够有效防范此类风险。这些算法在表格型和线性马尔可夫决策过程(MDP)设置下,均具有较强的实例相关学习界。我们的理论分析和仿真结果表明,对于中等规模的数据集,与非隐私算法相比,隐私保障几乎不会导致效用下降。
2025_NIPS_Seeing is not Believing: Robust Reinforcement Learning against Spurious Correlation
本文聚焦强化学习(RL)中针对虚假相关性的鲁棒性问题,提出了鲁棒状态混淆马尔可夫决策过程(RSC-MDPs)框架,通过因果视角建模未观测混杂因素的影响,同时设计了实证算法RSC-SAC。该方法在自动驾驶和机器人操作等8个真实任务中,显著优于传统鲁棒RL基线,既避免了虚假相关性导致的灾难性失败,又在原始环境中保持了良好性能。鲁棒性在强化学习(RL)中已被广泛研究,用于处理随机扰动、罕见事件和恶意攻击等多种形式的不确定性。
2025_NIPS_Private Everlasting Prediction
私有学习器在带标签样本集上训练后生成假设,该假设可用于预测新采样点的标签,同时保护训练集的隐私[Kasiviswannathan等人,FOCS2008]。以往研究发现,私有学习器的样本复杂度可能显著高于非私有学习器,例如一维阈值函数的学习[Bun等人,FOCS2015;Alon等人,STOC2019]。本文探索了将预测作为学习的替代方案:预测器响应分类查询流,而非输出单一假设。早期工作已考虑支持单分类查询的私有预测模型[Dwork和Feldman,COLT2018]。
GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning
竞技编程仍是AI在代码领域对抗人类的最后几个堡垒之一。迄今为止最优的AI系统在竞技编程中仍弱于人类顶尖选手:近期最佳成果来自谷歌Gemini3DeepThink,即便非实时评测也仅获第8名。本文提出GrandCode,一款面向竞技编程的多智能体强化学习系统。其能力源于两大核心:(1)协同假设提出、求解器、测试生成、摘要等智能体模块,通过后训练与在线测试时RL联合优化;(2)提出,专为多阶段智能体Rollout设计,解决延迟奖励与普遍存在的严重离策略漂移问题。
2025_NIPS_Decompose a Task into Generalizable Subtasks in Multi-Agent Reinforcement Learning
该研究聚焦多智能体强化学习(MARL)中的跨任务泛化问题,核心目标是解决现有MARL模型多针对单一任务优化、跨任务迁移能力弱、重新训练成本高的痛点。近年来,多智能体强化学习(MARL)技术在单一任务中取得了显著的渐近性能提升。然而,关于模型的跨任务迁移能力的探索仍较为有限。为每个任务从头训练模型可能耗时且成本高昂,尤其是在大规模多智能体系统中。因此,开发模型的跨任务泛化方法至关重要。考虑到多智能体强化学习任务中存在任务无关的子任务,能够从源任务中分解此类子任务的模型有望泛化到目标任务。
2025_NIPS_CELLE-2: Translating Proteins to Pictures and Back with a Bidirectional Text-to-Image T...
我们提出CELL-E2,这是一款新型双向Transformer模型,能够从氨基酸序列生成描述蛋白质亚细胞定位的图像(反之亦然)。蛋白质定位是一项具有挑战性的任务,需要整合序列和图像信息,而现有大多数方法均忽略了这一点。CELL-E2是对CELL-E工作的扩展,不仅能捕捉蛋白质定位的空间复杂性,在细胞核图像上生成定位概率估计,还能从图像反向生成序列,为从头蛋白质设计提供可能。
2025_NIPS_Real-World Image Variation by Aligning Diffusion Inversion Chain
该研究针对现有扩散模型在生成真实世界图像变体时存在的领域差距问题,提出了一种无需训练(training-free)的推理管道,核心目标是基于单张真实世界图像样本,生成语义一致、视觉质量高的多样化图像变体。核心问题:现有文本驱动扩散模型(如StableDiffusion)生成的图像与真实世界图像存在领域差距,根源是扩散过程中潜在变量的分布不匹配;传统方法要么需要额外训练/调优,要么无法同时保留真实图像的语义内容与低层级特征(如纹理、色调)。技术框架。
2025_NIPS_Reflexion: language agents with verbal reinforcement learning
大型语言模型(LLMs)已越来越多地被用作目标驱动的智能体,与外部环境(如游戏、编译器、API)进行交互。然而,这些语言智能体难以通过试错快速高效地学习——传统强化学习方法需要大量训练样本和昂贵的模型微调。本文提出Reflexion,一种新型框架,其并非通过更新权重,而是通过语言反馈来强化语言智能体。具体而言,Reflexion智能体对任务反馈信号进行语言反思,然后将自身的反思文本存储在情景记忆缓冲区中,以在后续尝试中引导更优的决策。
2025_NIPS_PIXIU: A Comprehensive Benchmark, Instruction Dataset and Large Language Model for Finance
尽管大型语言模型(LLMs)在金融领域的自然语言处理(NLP)任务中已展现出优异性能,但目前尚无公开可用的金融定制化LLM、指令微调数据集及评估基准,而这些对于推动金融人工智能(AI)的开源发展至关重要。本文提出PIXIU框架,该框架包含:基于LLaMA进行指令微调得到的首个金融领域LLM(FinMA)、支持微调的首个含128K数据样本的指令数据集,以及涵盖8类任务、15个数据集的评估基准。首先,我们构建了涵盖多种金融任务、金融文档类型及金融数据模态的大规模多任务指令数据集;
2025_NIPS_Leveraging Early-Stage Robustness in Diffusion Models for Efficient and High-Quality Im...
该研究聚焦扩散模型图像生成中“迭代去噪过程计算密集、采样速度慢”的核心痛点,通过分析反向扩散过程的阶段特性,提出了一种基于“早期鲁棒性”的量化策略(Robustness-AwareQuantization,RAQ),以在不损失图像质量的前提下提升计算效率。核心发现:反向扩散过程的不同阶段对计算精度需求存在显著差异早期阶段(接近1.0T):主要勾勒图像轮廓,对计算误差(如噪声、量化误差)容忍度高(鲁棒性强),即使采用低精度计算,也不会显著影响最终生成质量;
2025_NIPS_Winner Takes It All: Training Performant RL Populations for Combinatorial Optimization
将强化学习(RL)应用于组合优化问题具有很强的吸引力,因为它无需专家知识或预求解实例。然而,由于这些(通常是NP难)问题的内在复杂性,期望智能体在推理时一次性求解这些问题是不现实的。因此,主流方法通常会采用额外的搜索策略,从随机采样、束搜索到显式微调等。在本文中,我们主张学习一组互补策略的优势——这些策略可在推理时同时部署。为此,我们提出了Poppy,一种简单的种群训练流程。Poppy不依赖预定义或手工设计的多样性指标,而是通过无监督特化,仅以最大化种群性能为目标。
2025_NIPS_No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Langua...
近年来,训练基于Transformer的语言模型所需的计算量急剧增加。这一趋势推动了高效训练算法的研究,这类算法旨在比标准训练更快地提升训练、验证和下游任务性能。本文重新审视了三类此类算法:动态架构(层堆叠、层丢弃)、批量选择(选择性反向传播、RHO损失)和高效优化器(Lion、Sophia)。在使用这些方法对BERT和T5进行固定计算预算的预训练时,我们发现与采用全衰减学习率的基线模型相比,它们在训练、验证和下游任务上的增益均消失了。
