Loading...

2025_NIPS_On Separate Normalization in Self-supervised Transformers
自监督Transformer训练方法已在多个领域展现出卓越性能。此前基于Transformer的模型(如掩码自编码器MAE)通常为[CLS]令牌和普通令牌采用单一归一化层。本文提出一种全新且简洁的归一化方法,对普通令牌和[CLS]令牌对应的嵌入向量分别进行归一化,以更好地捕捉它们的独特特性并提升下游任务性能。实证研究表明,通过我们的分离归一化层学习到的[CLS]嵌入能更有效地编码全局上下文信息,且在各向异性空间中分布更均匀。

2025_NIPS_Safe Exploration in Reinforcement Learning: A Generalized Formulation and Algorithms
安全探索对于强化学习(RL)在众多现实场景中的实际应用至关重要。本文提出广义安全探索(GSE)问题,将常见的安全探索问题统一为一个通用框架。随后,我们以安全探索元算法MASE的形式给出GSE问题的解决方案——该算法结合无约束RL算法与不确定性量化器,在保证当前episode安全性的同时,通过在实际安全违规前对不安全探索进行适当惩罚,以抑制未来episode中的此类行为。MASE的优势在于,在合理假设下,能够在高概率保证不违反任何安全约束的前提下优化策略。

2025_NIPS_Supervised Pretraining Can Learn In-Context Reinforcement Learning
本文提出决策预训练Transformer(DPT),通过监督预训练让Transformer基于上下文交互数据集预测最优动作,实现上下文强化学习(RL)能力。DPT无需参数更新即可在新任务中完成在线探索与离线保守决策,理论上等价于贝叶斯后验采样,且能泛化到新任务、利用潜在结构超越预训练数据性能。大型Transformer模型在多样化数据集上训练后,展现出卓越的上下文学习能力,即便未针对特定任务显式训练,也能实现优异的少样本性能。

2025_NIPS_GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction
该研究聚焦于让开源大型语言模型(LLMs)高效具备多模态工具使用能力,核心提出了GPT4Tools研究背景:现有先进专有LLMs(如GPT-3.5、GPT-4)虽能通过提示工程使用工具,但存在计算成本高、依赖私有数据的问题;而开源LLMs缺乏工具使用能力,现有相关方法或依赖专有模型、或数据多样性不足。核心方案。

2025_NIPS_Likelihood-Based Diffusion Language Models
尽管人们对基于扩散的语言模型的兴趣日益浓厚,但现有研究尚未表明这些模型能在标准语言建模基准上获得非平凡的似然值。在本文中,我们迈出了缩小自回归语言模型与基于扩散的语言模型之间似然差距的第一步,目标是构建并发布一个性能优于小型但广为人知的自回归模型的扩散模型。我们通过算法改进、缩放定律研究和算力提升来实现这一目标。在算法层面,我们为扩散语言模型的最大似然训练引入了多项方法学改进。随后,我们研究了扩散模型的缩放定律,发现其算力最优训练方案与自回归模型存在显著差异。

2025_NIPS_Efficient RL with Impaired Observability: Learning to Act with Delayed and Missing Stat...
在现实世界的强化学习(RL)系统中,各种形式的观测受损会使问题变得复杂。当智能体由于延迟或有损信道无法观测到系统的最新状态,但仍必须做出实时决策时,就会出现这些情况。本文对智能体必须在延迟和缺失状态观测下行动的控制系统中的高效强化学习进行了理论研究。我们为延迟和缺失观测场景下的强化学习建立了近优遗憾界,形式为OpolyHSAKOpolyHSAK​。尽管观测受损给策略类和规划带来了重大挑战,但我们的结果表明,学习仍然是高效的,其遗憾界与原始系统的状态-动作空间大小呈最优依赖关系。

2025_NIPS_Learning Dynamic Attribute-factored World Models for Efficient Multi-object Reinforceme...
本文提出动态属性分解强化学习(DAFT-RL)框架,聚焦多目标强化学习中的组合泛化问题——即agent需与不同类型物体交互,并泛化到未见过的物体组合、数量及任务组合。框架通过物体中心表示学习提取视觉输入中的物体,结合三类图结构(类模板图、交互模式图、动态交互图),在属性层面精细分解物体的动力学和奖励函数,最终实现无需额外策略学习即可适配新环境。在许多强化学习任务中,智能体必须学会与多种不同类型的物体交互,并泛化到未见过的物体组合及数量。

2025_NIPS_MarioGPT: Open-Ended Text2Level Generation through Large Language Models
该研究提出了MarioGPT——一款基于微调后的GPT-2(DistilGPT2)模型,专门用于生成《超级马里奥兄弟》风格的瓦片式游戏关卡,核心解决程序性内容生成(PCG)中“可控性”与“开放性”不足的问题。核心目标:突破传统PCG方法难以通过自然语言控制生成结果、开放性不足的局限,实现“文本提示驱动的可控关卡生成”,同时保证关卡的可玩性、多样性和开放性。技术方案模型基础:基于DistilGPT2微调,结合冻结的BART模型编码文本提示,通过交叉注意力机制将提示信息融入关卡生成过程。

2025_NIPS_Language Models Can Improve Event Prediction by Few-Shot Abductive Reasoning
大型语言模型在各类推理任务中展现出惊人的性能。本文探讨了这些模型是否能够对现实世界事件进行推理,并助力提升事件序列模型的预测性能。我们设计了LAMP框架,将大型语言模型整合到事件预测中。具体而言,语言模型通过溯因推理为事件序列模型提供辅助:事件模型基于历史信息提出对未来事件的预测;在少量专家标注示例的指导下,语言模型学习为每个预测提议生成可能的原因;搜索模块找出与这些原因匹配的历史事件;评分函数则评估检索到的事件是否确实能引发该预测事件。

2025_NIPS_Learning to Modulate pre-trained Models in RL
强化学习(RL)已在机器人技术、游戏和仿真等多个领域取得成功。尽管RL智能体在特定任务中展现出令人印象深刻的能力,但它们对新任务的适应性不足。在监督学习中,这一适应问题通过大规模预训练后微调下游新任务来解决。近年来,多任务预训练在RL领域逐渐受到关注。然而,微调预训练模型通常会遭遇灾难性遗忘——即在新任务上微调时,预训练任务的性能会下降。

2025_NIPS_Scalable Transformer for PDE Surrogate Modeling
本文聚焦偏微分方程(PDE)代理建模,提出一种名为FactorizedTransformer(FactFormer)的高效Transformer模型。针对传统Transformer在高分辨率网格PDE建模中存在的数值不稳定和计算成本高的问题,FactFormer基于轴向分解核积分,通过可学习投影算子将高维输入函数分解为一维子函数,再利用轴向分解方案计算实例化核,实现了高效稳定的多维度PDE模拟。

Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation
本文提出,一款面向视觉理解、文生图与指令引导图像编辑的统一多模态基础模型。JoyAI-Image将空间增强的多模态大语言模型(MLLM)与多模态扩散Transformer(MMDiT)相结合,使感知与生成通过共享多模态接口实现交互。围绕该架构,我们构建了可扩展的训练方案,融合统一指令微调、长文本渲染监督、空间对齐数据,以及通用与空间编辑信号。该设计赋予模型广泛的多模态能力,同时强化几何感知推理与可控视觉合成。

2025_NIPS_Multi Time Scale World Models
智能体利用内部世界模型进行推理,并在多个尺度上预测其不同行动方案的结果[21]。设计能够让机器学习在多个时间抽象层级上运行的世界模型,同时处理复杂不确定性预测的学习范式和架构,是一项重大技术挑战[17]。在本研究中,我们提出了一种概率形式化方法来学习多时间尺度世界模型,称为多时间尺度状态空间(MTS3)模型。该模型在多个时间尺度上采用计算高效的推理方案,能够对未来数秒内的情况进行高精度长期预测和不确定性估计。

2025_NIPS_CLadder: Assessing Causal Reasoning in Language Models
本文聚焦大型语言模型(LLMs)的形式化因果推理能力评估,核心解决现有研究多关注常识性因果知识、缺乏对形式化因果推理规则遵循的问题。作者提出新NLP任务(自然语言中的因果推理)、构建CLADDER数据集(10K样本,覆盖因果阶梯三层任务),并设计CAUSALCOT提示策略。实验显示,CLADDER对LLMs极具挑战性,CAUSALCOT能将GPT-4准确率提升8.37个百分点至70.40%,且模型性能随因果阶梯层级升高而递减,揭示了LLMs在高阶因果推理中的局限性。因果推理能力被广泛认为是智能的核心特征。

2025_NIPS_Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforceme...
扩散模型在视觉和自然语言处理领域已展现出极强的生成能力。近期强化学习(RL)相关研究表明,扩散模型在建模离线数据集中的复杂策略或轨迹方面同样表现出色。然而,这些研究均局限于单任务场景,缺乏能够应对多任务问题的通用智能体。本文旨在探究单一扩散模型对大规模多任务离线数据的建模效果——此类数据因存在多样化、多模态的分布特性,建模难度较大。具体而言,我们提出了多任务扩散模型(MTDIFF),这是一种基于扩散模型的方法,融合Transformer骨干网络与提示学习,适用于多任务离线场景下的生成式规划与数据合成。

Continuous Latent Diffusion Language Model
大语言模型在自回归范式下取得显著成功,但高质量文本生成不必绑定固定的从左到右顺序。现有方法难以同时兼顾生成效率、可扩展表征学习与有效全局语义建模。本文提出ColaDLM,一种基于分层信息分解的分层隐扩散语言模型。ColaDLM先通过文本变分自编码器学习稳定的文本到隐变量映射,再用块因果DiT在连续隐空间建模全局语义先验,最后经条件解码生成文本。从统一马尔可夫路径视角,其扩散过程执行隐先验迁移而非token级观测恢复,从而将全局语义组织与局部文本实现解耦。

2025_NIPS_Towards Evaluating Transfer-based Attacks Systematically, Practically, and Fairly
该研究针对迁移性对抗攻击缺乏标准化评估基准的问题,构建了TA-Bench基准平台,实现了30余种主流迁移性对抗攻击方法,并在25个热门替代/目标模型(含CNN、视觉Transformer、MLP)上进行了系统、公平的评估。

2025_NIPS_$\texttt{TACO}$: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcemen...
尽管基于原始像素数据的强化学习(RL)近年来取得了一定进展,但样本效率低仍是一个重大障碍。以往的研究尝试通过设计自监督辅助任务来解决这一挑战,旨在为智能体的学习表征注入与控制相关的信息,以支持未来状态预测。然而,这些目标往往不足以学习到能够表征最优策略或价值函数的表征,且它们通常针对具有小型、抽象离散动作空间的任务,因此忽视了连续控制中动作表征学习的重要性。

2025_NIPS_Iterative Reachability Estimation for Safe Reinforcement Learning
确保安全性对于强化学习(RL)的实际部署至关重要。必须解决各类挑战,例如处理环境中的随机性、提供持续状态级安全满足的严格保障,以及避免牺牲性能的过度保守行为。我们提出一种新框架——安全策略优化可达性估计(RESPO),适用于一般随机场景下的安全约束强化学习。在存在无违规策略的可行集中,我们在维持持续安全的同时优化奖励;在可行集之外,我们的优化通过保证在可能情况下以最小累积折扣违规成本进入可行集,从而产生最安全的行为。

2025_NIPS_AVeriTeC: A Dataset for Real-world Claim Verification with Evidence from the Web
现有自动事实核查数据集存在诸多显著局限,例如依赖人工构造的声明、缺乏证据与中间推理过程的标注,或包含声明发布后才出现的证据。本文提出AVERITEC,一个包含4568条真实世界声明的新数据集,这些声明覆盖了50个不同机构的事实核查结果。每条声明均标注了由网络可用证据支持的问答对,以及解释证据如何组合形成结论的文本理由。通过多轮标注流程,我们避免了上下文依赖、证据不足和时间泄露等常见问题,并在结论标注上达成了显著的标注者间一致性(κ=0.619)。

欢迎留下您的脚印