Loading...
该研究提出了一种基于扩散Transformer的病理图像虚拟染色框架D-VST,用于解决跨染料虚拟染色中的病理准确性和色调可控性问题。核心目标是实现无“病理泄漏”(避免非病理区域被误染或反之)、支持灵活色调调节的超高分辨率全切片图像(WSI)虚拟染色,同时兼顾效率与质量。
2025_NIPS_RLVR-World: Training World Models with Reinforcement Learning
世界模型可预测动作对应的状态转换,且正跨越多模态快速发展。然而,最大似然估计(MLE)等标准训练目标往往与世界模型的任务特定目标(即准确率、感知质量等状态转换预测指标)不一致。本文提出RLVR-World,这是一个统一框架,利用带可验证奖励的强化学习(RLVR)直接针对这些指标优化世界模型。尽管将世界建模表述为token化序列的自回归预测任务,RLVR-World仍将解码后预测结果的指标评估作为可验证奖励。我们在语言和视频两类世界模型的多个领域(包括文本游戏、网页导航和机器人操作)中均实现了显著的性能提升。
2025_NIPS_DisMo: Disentangled Motion Representations for Open-World Motion Transfer
近年来,文本到视频(T2V)和图像到视频(I2V)模型的进步,使得从简单文本描述或初始帧生成视觉逼真、动态的视频成为可能。然而,这些模型通常无法提供与内容分离的显式运动表征,限制了其在内容创作中的适用性。为解决这一缺口,我们提出DisMo——一种通过图像空间重建目标,直接从原始视频数据中学习抽象运动表征的新型范式。我们的表征具有通用性,且独立于外观、物体身份或姿态等静态信息。这使得开放世界运动迁移成为可能:无需物体对应关系,即使在差异极大的类别之间,也能将运动迁移到语义无关的实体上。
2025_NIPS_STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models
大型语言模型(LLMs)越来越多地被要求做出经济理性决策,并且已经应用于股票挑选、财务分析等经济任务中。现有LLM基准测试往往聚焦于特定应用场景,不足以更广泛地刻画经济推理能力。在之前的研究中,我们提出了一个全面评估策略性决策的蓝图(Raman等人,2024)。然而,该研究并未涉及更庞大的非策略性场景微观经济文献。本文旨在填补这一空白,将微观经济推理划分为58个不同元素,每个元素基于多达10个不同领域、5种视角和3种类型构建。
2025_NIPS_Reverse-Annealed Sequential Monte Carlo for Efficient Bayesian Optimal Experiment Design
期望信息增益(EIG)是贝叶斯最优实验设计(BOED)中的关键指标,它通过量化后验分布与先验分布的预期差异,衡量实验的效用。然而,由于EIG评估通常需要估计后验归一化常数,其计算成本极高。本文利用BOED的两个独特特性,改进了基于序列蒙特卡洛(SMC)的EIG估计效率。首先,在BOED中我们会模拟数据,因此能够获取真实的潜在参数;其次,我们最终关注的是EIG而非单个归一化常数。
2025_NIPS_Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier
REPA及其变体通过融合预训练模型的外部视觉表征(将去噪网络的带噪隐藏投影与基础干净图像表征对齐),有效缓解了扩散模型的训练挑战。然而,我们认为REPA的外部对齐机制在整个去噪推理过程中并不存在,无法充分发挥判别性表征的潜力。本文提出一种简洁的方法——生成式表征纠缠(REG),通过将低层图像潜变量与预训练基础模型的单个高层类别令牌进行纠缠以实现去噪。REG能够直接从纯噪声中生成连贯的图像-类别对,显著提升生成质量和训练效率,且仅需新增一个令牌,推理开销可忽略不计(FLOPs和延迟增加不足0.5%)。
2025_NIPS_Prior-Guided Diffusion Planning for Offline Reinforcement Learning
扩散模型近年来在离线强化学习中备受关注,因其能够从静态数据集中有效学习高性能、可泛化的策略。基于扩散的规划器通过迭代去噪生成高质量轨迹,并以最大化回报为目标进行引导,从而促进长horizon决策制定。然而,现有的引导采样策略(如分类器引导、无分类器引导和蒙特卡洛采样选择)要么会产生次优的多模态动作,要么难以应对分布偏移,要么会带来高昂的推理时间成本。
2025_NIPS_On Inductive Biases That Enable Generalization of Diffusion Transformers
研究背景:扩散模型(尤其是DiT)在训练数据有限时仍能实现高质量生成,但其泛化能力的底层机制尚不明确。此前针对UNet的研究通过雅可比矩阵特征分解发现几何自适应谐波基是关键归纳偏置,但该方法因DiT含非线性操作而失效。核心发现:DiT的泛化能力与注意力图的局部性紧密相关——训练数据充足时,DiT早期层的注意力图呈现稀疏对角模式,输出token主要受相邻输入token影响;而训练数据不足时,注意力图呈位置不变模式,泛化能力较弱。验证与优化。
2025_NIPS_HYPRL: Reinforcement Learning of Control Policies for Hyperproperties
多智能体强化学习(MARL)中,针对复杂任务的奖励塑造仍是一项重大挑战。现有方法往往难以找到最优解,或无法高效处理此类任务。本文提出HYPRL,这是一种基于规范引导的强化学习框架,能够学习满足HyperLTL表达超属性的控制策略。超属性是一种强大的形式化方法,可用于指定跨智能体执行轨迹集合的目标与约束。为了学习最大化HyperLTL公式φ满足概率的策略,我们采用斯柯林化处理量词交替,并定义定量鲁棒性函数,为未知转移概率的马尔可夫决策过程的执行轨迹塑造奖励。
2025_NIPS_Approximating Shapley Explanations in Reinforcement Learning
强化学习在复杂决策环境中取得了显著成功,但其缺乏透明度的特点限制了其实际部署,尤其是在安全关键场景中。合作博弈论中的Shapley值为解释强化学习提供了一个原则性框架;然而,Shapley解释的计算成本是其应用的障碍。本文提出FastSVERL,一种通过近似Shapley值来解释强化学习的可扩展方法。FastSVERL专为应对强化学习的独特挑战而设计,包括多步轨迹中的时序依赖、基于离线数据的学习以及实时适配智能体的动态行为。FastSVERL为强化学习中原则性、严谨的可解释性提供了一种实用且可扩展的方案。
2025_NIPS_Don’t be lazy: CompleteP enables compute-efficient deep transformers
我们研究了不同参数化方案下大型语言模型(LLM)训练的计算效率,参数化即模型规模变化时调整模型和优化器超参数(HP)的规则。部分参数化方案无法在模型深度变化时迁移最优基础超参数(如学习率),导致研究者要么在模型扩展时重新调优(成本高昂),要么在无法重新调优时接受次优训练。即便部分方案实现了超参数迁移,我们通过理论证明,它们仍可能陷入惰性学习状态——层仅学习接近其线性化的特征,无法有效利用深度和非线性能力。
2025_NIPS_SmartCache: Context-aware Semantic Cache for Efficient Multi-turn LLM Inference
大型语言模型(LLMs)在多轮对话中存在效率问题:不同用户会话中语义相似的查询会触发冗余计算,并产生重复的内存密集型键值(KV)缓存。现有优化方案(如前缀缓存)忽略了语义相似性,而典型的语义缓存要么无视对话上下文,要么未与底层KV缓存管理相结合。本文提出SmartCache,这是一种系统-算法协同设计框架,通过挖掘跨会话的语义查询相似性来解决该效率问题。SmartCache利用语义森林(SemanticForest)结构对对话轮次进行分层索引,仅在语义查询和对话上下文均匹配时,实现高效的响应检索与复用。
2025_NIPS_Vinci: Deep Thinking in Text-to-Image Generation using Unified Model with Reinforcement Le
随着大型语言模型和推理链技术的持续发展,基于强化学习的深度推理在多任务场景中展现出显著潜力。然而,现有统一模型尚未在图像生成与理解任务中实现端到端融合,限制了模型的自我反思能力和跨模态推理链的构建。为解决这一问题,我们提出Vinci——一种新型框架,旨在通过深度推理能力实现交错式图像生成与理解。我们利用少量多模态思维链(MCoT)数据进行冷启动,并采用强化学习引导图像生成与理解任务的融合。此外,我们引入基于动量的奖励函数,通过考虑历史改进动态调整奖励分布,确保模型在多轮生成中的稳定性。
2025_NIPS_Leader360V: A Large-scale, Real-world 360 Video Dataset for Multi-task Learning in Diverse
360度视频凭借360×180的超大视场角捕捉完整的周围场景,这使得分割、跟踪等360度场景理解任务对自动驾驶、机器人等应用至关重要。然而,随着基础模型的近期兴起,学术界受限于缺乏大规模、带标注的真实世界数据集——这一问题源于360度视频固有的球面特性(如极地区域的严重失真)和内容不连续性,导致标注成本高昂且过程复杂。本文提出Leader360V,首个大规模(10K+视频)、带标注的真实世界360度视频数据集,专门用于实例分割与跟踪任务。
2025_NIPS_From Human Attention to Diagnosis: Semantic Patch-Level Integration of Vision-Language Mod
本文针对医学影像中目标导向的凝视预测问题,提出了一种多模态Transformer框架LogitGaze-Med,旨在通过模拟放射科医生解读胸部X光片时的眼球运动(扫描路径),辅助诊断决策与AI系统优化。
2025_NIPS_Preference-based Reinforcement Learning beyond Pairwise Comparisons: Benefits of Multiple
我们研究了基于在线偏好的强化学习(PbRL),重点关注动作子集的排序反馈,并提出了M-AUPO算法,其目标是通过选择动作子集来提高样本效率。尽管已有越来越多的理论研究(尤其是在大型语言模型(LLMs)对齐领域),但大多数现有研究仅局限于pairwise比较。近期有少数研究探索了多选项比较和排序反馈,但尽管这类反馈包含更丰富的信息,其性能保证却会随着反馈长度的增加而下降,甚至恶化。
ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development
全生命周期基准测试:首次提出覆盖后端开发完整链路的基准测试,包含仓库探索、环境配置、部署和端到端测试等环节,填补了现有基准测试的场景空白。自动化任务构建流程:设计自动化工具链,大幅降低人工干预成本,能够从开源仓库中高效生成高保真的真实开发任务。精准瓶颈分析:通过拆解任务流程,明确指出环境配置是当前大模型智能体的主要短板,同时揭示了交互深度与任务成功率的强相关性,为后续模型优化提供了明确方向。
Agentic Reasoning for Large Language Models
推理是推理、问题解决和决策制定的基础认知过程。虽然大型语言模型(LLMs)在封闭世界场景中展现出强大的推理能力(例如数学和代码领域的标准基准测试),但它们在开放式动态环境中仍面临挑战。智能体推理(AgenticReasoning)的出现标志着一种范式转变,通过将LLMs重构为能够通过持续交互进行规划、行动和学习的自主智能体,架起了思维与行动之间的桥梁。在本综述中,我们通过三个互补维度组织智能体推理,提供了一个系统的研究路线图。
LongCat-Flash-Thinking-2601 Technical Report
我们提出LongCat-Flash-Thinking-2601,这是一款具备卓越智能体推理能力的5600亿参数开源混合专家(MoE)推理模型。该模型在智能体搜索、智能体工具使用、工具集成推理等多类智能体基准测试中,均取得开源模型的顶尖性能。除基准测试表现外,该模型在复杂工具交互场景中展现出强大的泛化能力,且在真实世界含噪环境下表现出稳健的行为特性。
LLM-in-Sandbox Elicits General Agentic Intelligence
我们提出了框架,使大语言模型能够在代码沙箱(即虚拟计算机)内探索,以此激发模型在非代码领域的通用智能。首先,我们证明了性能强大的大语言模型无需额外训练,就具备利用代码沙箱完成非代码任务的泛化能力。例如,大语言模型可自主访问外部资源获取新知识、利用文件系统处理超长上下文、执行脚本满足格式要求。进一步,我们提出LLM-in-Sandbox强化学习(LLM-in-Sandbox-RL),该方法仅使用非智能体数据训练模型的沙箱探索能力。
