Loading...
本文提出动态属性分解强化学习(DAFT-RL)框架,聚焦多目标强化学习中的组合泛化问题——即agent需与不同类型物体交互,并泛化到未见过的物体组合、数量及任务组合。框架通过物体中心表示学习提取视觉输入中的物体,结合三类图结构(类模板图、交互模式图、动态交互图),在属性层面精细分解物体的动力学和奖励函数,最终实现无需额外策略学习即可适配新环境。在许多强化学习任务中,智能体必须学会与多种不同类型的物体交互,并泛化到未见过的物体组合及数量。
2025_NIPS_MarioGPT: Open-Ended Text2Level Generation through Large Language Models
该研究提出了MarioGPT——一款基于微调后的GPT-2(DistilGPT2)模型,专门用于生成《超级马里奥兄弟》风格的瓦片式游戏关卡,核心解决程序性内容生成(PCG)中“可控性”与“开放性”不足的问题。核心目标:突破传统PCG方法难以通过自然语言控制生成结果、开放性不足的局限,实现“文本提示驱动的可控关卡生成”,同时保证关卡的可玩性、多样性和开放性。技术方案模型基础:基于DistilGPT2微调,结合冻结的BART模型编码文本提示,通过交叉注意力机制将提示信息融入关卡生成过程。
2025_NIPS_Language Models Can Improve Event Prediction by Few-Shot Abductive Reasoning
大型语言模型在各类推理任务中展现出惊人的性能。本文探讨了这些模型是否能够对现实世界事件进行推理,并助力提升事件序列模型的预测性能。我们设计了LAMP框架,将大型语言模型整合到事件预测中。具体而言,语言模型通过溯因推理为事件序列模型提供辅助:事件模型基于历史信息提出对未来事件的预测;在少量专家标注示例的指导下,语言模型学习为每个预测提议生成可能的原因;搜索模块找出与这些原因匹配的历史事件;评分函数则评估检索到的事件是否确实能引发该预测事件。
2025_NIPS_Learning to Modulate pre-trained Models in RL
强化学习(RL)已在机器人技术、游戏和仿真等多个领域取得成功。尽管RL智能体在特定任务中展现出令人印象深刻的能力,但它们对新任务的适应性不足。在监督学习中,这一适应问题通过大规模预训练后微调下游新任务来解决。近年来,多任务预训练在RL领域逐渐受到关注。然而,微调预训练模型通常会遭遇灾难性遗忘——即在新任务上微调时,预训练任务的性能会下降。
2025_NIPS_Scalable Transformer for PDE Surrogate Modeling
本文聚焦偏微分方程(PDE)代理建模,提出一种名为FactorizedTransformer(FactFormer)的高效Transformer模型。针对传统Transformer在高分辨率网格PDE建模中存在的数值不稳定和计算成本高的问题,FactFormer基于轴向分解核积分,通过可学习投影算子将高维输入函数分解为一维子函数,再利用轴向分解方案计算实例化核,实现了高效稳定的多维度PDE模拟。
Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation
本文提出,一款面向视觉理解、文生图与指令引导图像编辑的统一多模态基础模型。JoyAI-Image将空间增强的多模态大语言模型(MLLM)与多模态扩散Transformer(MMDiT)相结合,使感知与生成通过共享多模态接口实现交互。围绕该架构,我们构建了可扩展的训练方案,融合统一指令微调、长文本渲染监督、空间对齐数据,以及通用与空间编辑信号。该设计赋予模型广泛的多模态能力,同时强化几何感知推理与可控视觉合成。
2025_NIPS_Multi Time Scale World Models
智能体利用内部世界模型进行推理,并在多个尺度上预测其不同行动方案的结果[21]。设计能够让机器学习在多个时间抽象层级上运行的世界模型,同时处理复杂不确定性预测的学习范式和架构,是一项重大技术挑战[17]。在本研究中,我们提出了一种概率形式化方法来学习多时间尺度世界模型,称为多时间尺度状态空间(MTS3)模型。该模型在多个时间尺度上采用计算高效的推理方案,能够对未来数秒内的情况进行高精度长期预测和不确定性估计。
2025_NIPS_CLadder: Assessing Causal Reasoning in Language Models
本文聚焦大型语言模型(LLMs)的形式化因果推理能力评估,核心解决现有研究多关注常识性因果知识、缺乏对形式化因果推理规则遵循的问题。作者提出新NLP任务(自然语言中的因果推理)、构建CLADDER数据集(10K样本,覆盖因果阶梯三层任务),并设计CAUSALCOT提示策略。实验显示,CLADDER对LLMs极具挑战性,CAUSALCOT能将GPT-4准确率提升8.37个百分点至70.40%,且模型性能随因果阶梯层级升高而递减,揭示了LLMs在高阶因果推理中的局限性。因果推理能力被广泛认为是智能的核心特征。
2025_NIPS_Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforceme...
扩散模型在视觉和自然语言处理领域已展现出极强的生成能力。近期强化学习(RL)相关研究表明,扩散模型在建模离线数据集中的复杂策略或轨迹方面同样表现出色。然而,这些研究均局限于单任务场景,缺乏能够应对多任务问题的通用智能体。本文旨在探究单一扩散模型对大规模多任务离线数据的建模效果——此类数据因存在多样化、多模态的分布特性,建模难度较大。具体而言,我们提出了多任务扩散模型(MTDIFF),这是一种基于扩散模型的方法,融合Transformer骨干网络与提示学习,适用于多任务离线场景下的生成式规划与数据合成。
Continuous Latent Diffusion Language Model
大语言模型在自回归范式下取得显著成功,但高质量文本生成不必绑定固定的从左到右顺序。现有方法难以同时兼顾生成效率、可扩展表征学习与有效全局语义建模。本文提出ColaDLM,一种基于分层信息分解的分层隐扩散语言模型。ColaDLM先通过文本变分自编码器学习稳定的文本到隐变量映射,再用块因果DiT在连续隐空间建模全局语义先验,最后经条件解码生成文本。从统一马尔可夫路径视角,其扩散过程执行隐先验迁移而非token级观测恢复,从而将全局语义组织与局部文本实现解耦。
2025_NIPS_Towards Evaluating Transfer-based Attacks Systematically, Practically, and Fairly
该研究针对迁移性对抗攻击缺乏标准化评估基准的问题,构建了TA-Bench基准平台,实现了30余种主流迁移性对抗攻击方法,并在25个热门替代/目标模型(含CNN、视觉Transformer、MLP)上进行了系统、公平的评估。
2025_NIPS_$\texttt{TACO}$: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcemen...
尽管基于原始像素数据的强化学习(RL)近年来取得了一定进展,但样本效率低仍是一个重大障碍。以往的研究尝试通过设计自监督辅助任务来解决这一挑战,旨在为智能体的学习表征注入与控制相关的信息,以支持未来状态预测。然而,这些目标往往不足以学习到能够表征最优策略或价值函数的表征,且它们通常针对具有小型、抽象离散动作空间的任务,因此忽视了连续控制中动作表征学习的重要性。
2025_NIPS_Iterative Reachability Estimation for Safe Reinforcement Learning
确保安全性对于强化学习(RL)的实际部署至关重要。必须解决各类挑战,例如处理环境中的随机性、提供持续状态级安全满足的严格保障,以及避免牺牲性能的过度保守行为。我们提出一种新框架——安全策略优化可达性估计(RESPO),适用于一般随机场景下的安全约束强化学习。在存在无违规策略的可行集中,我们在维持持续安全的同时优化奖励;在可行集之外,我们的优化通过保证在可能情况下以最小累积折扣违规成本进入可行集,从而产生最安全的行为。
2025_NIPS_AVeriTeC: A Dataset for Real-world Claim Verification with Evidence from the Web
现有自动事实核查数据集存在诸多显著局限,例如依赖人工构造的声明、缺乏证据与中间推理过程的标注,或包含声明发布后才出现的证据。本文提出AVERITEC,一个包含4568条真实世界声明的新数据集,这些声明覆盖了50个不同机构的事实核查结果。每条声明均标注了由网络可用证据支持的问答对,以及解释证据如何组合形成结论的文本理由。通过多轮标注流程,我们避免了上下文依赖、证据不足和时间泄露等常见问题,并在结论标注上达成了显著的标注者间一致性(κ=0.619)。
2025_NIPS_Semantic HELM: A Human-Readable Memory for Reinforcement Learning
强化学习智能体在现实世界中部署时,往往需要应对部分可观测的环境。因此,大多数智能体都会采用记忆机制来逼近环境状态。近年来,在掌握部分可观测环境方面出现了令人瞩目的成功案例,主要集中在《Dota2》《星际争霸2》或《我的世界》等电脑游戏领域。然而,现有方法缺乏可解释性——人类无法理解智能体在其记忆中存储了什么信息。对此,我们提出了一种新颖的记忆机制,该机制以人类语言表示过去的事件。
OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
深度搜索能力已成为前沿大语言模型智能体不可或缺的核心能力,但其研发长期被工业巨头主导。工业界主流方案依赖高资源消耗的全流程:预训练、持续预训练(CPT)、监督微调(SFT)与强化学习(RL)。本文表明,在信息丰富、高难度的轨迹数据驱动下,简单的SFT方法即可训练出极具竞争力的前沿搜索智能体。我们通过三项简单的数据合成改进:扩大知识图谱规模以提升探索丰富度、扩充工具集以覆盖更广泛功能、严格低步数过滤,构建更强基线。
ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
本文介绍了Aris(基于对抗式多智能体协作的自主研究系统),一款面向机器学习自主研究的开源科研调度框架,涵盖其架构设计、保障机制与早期部署实践。基于大语言模型的智能体系统性能不仅取决于模型权重,更依赖其外围调度框架——即负责信息存储、检索与呈现的系统逻辑。在长周期科研流程中,核心失效模式并非显性崩溃,而是看似合理却无充分证据支撑的伪成功:长期运行的智能体可能生成证据不完整、报告失真或隐含执行端预设偏差的结论。为此,本文提出Aris框架,以跨模型对抗协作。
2025_NIPS_What Drives Paper Acceptance? A Process-Centric Analysis of Modern Peer Review
同行评审是评估学术贡献的核心机制,但以往研究大多孤立考察论文特征或外部元数据。OpenReview等开放平台的出现将同行评审转变为透明化、交互式流程,不仅记录分数与评语,还留存反驳意见、作者-评审互动、评审分歧及领域主席仲裁结果,为理解现代同行评审运行机制提供了前所未有的全过程数据。
2025_NIPS_Generating Images with Multimodal Language Models
我们提出了一种将冻结的纯文本大型语言模型(LLM)与预训练图像编码器和解码器模型融合的方法,通过在它们的嵌入空间之间建立映射实现这一目标。该模型展现出广泛的多模态能力:图像检索、新图像生成和多模态对话。我们的方法是首个能够基于任意交错的图像和文本输入,生成连贯图像(和文本)输出的方案。为了在图像生成任务上实现优异性能,我们设计了一个高效的映射网络,将LLM与现成的文本到图像生成模型关联起来。该映射网络将文本的隐藏表示转换为视觉模型的嵌入空间,使我们能够利用LLM强大的文本表示能力实现视觉输出。
2025_NIPS_Meta-Adapter: An Online Few-shot Learner for Vision-Language Model
对比视觉-语言预训练模型(即CLIP)在感知开放世界视觉概念方面展现出显著潜力,能够实现高效的零样本图像识别。然而,基于CLIP的少样本学习方法通常需要在少样本样本上对参数进行离线微调,导致推理时间延长,且在特定领域存在过拟合风险。为解决这些挑战,我们提出了Meta-Adapter——一种轻量级残差风格适配器,能够在在线模式下利用少样本样本引导CLIP特征的精炼。通过少量训练样本,我们的方法可赋予模型有效的少样本学习能力,且无需额外微调即可泛化到未见过的数据或任务,实现了具有竞争力的性能和高效率。
