Loading...

2025_NIPS_Multi Time Scale World Models
智能体利用内部世界模型进行推理,并在多个尺度上预测其不同行动方案的结果[21]。设计能够让机器学习在多个时间抽象层级上运行的世界模型,同时处理复杂不确定性预测的学习范式和架构,是一项重大技术挑战[17]。在本研究中,我们提出了一种概率形式化方法来学习多时间尺度世界模型,称为多时间尺度状态空间(MTS3)模型。该模型在多个时间尺度上采用计算高效的推理方案,能够对未来数秒内的情况进行高精度长期预测和不确定性估计。

2025_NIPS_CLadder: Assessing Causal Reasoning in Language Models
本文聚焦大型语言模型(LLMs)的形式化因果推理能力评估,核心解决现有研究多关注常识性因果知识、缺乏对形式化因果推理规则遵循的问题。作者提出新NLP任务(自然语言中的因果推理)、构建CLADDER数据集(10K样本,覆盖因果阶梯三层任务),并设计CAUSALCOT提示策略。实验显示,CLADDER对LLMs极具挑战性,CAUSALCOT能将GPT-4准确率提升8.37个百分点至70.40%,且模型性能随因果阶梯层级升高而递减,揭示了LLMs在高阶因果推理中的局限性。因果推理能力被广泛认为是智能的核心特征。

2025_NIPS_Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforceme...
扩散模型在视觉和自然语言处理领域已展现出极强的生成能力。近期强化学习(RL)相关研究表明,扩散模型在建模离线数据集中的复杂策略或轨迹方面同样表现出色。然而,这些研究均局限于单任务场景,缺乏能够应对多任务问题的通用智能体。本文旨在探究单一扩散模型对大规模多任务离线数据的建模效果——此类数据因存在多样化、多模态的分布特性,建模难度较大。具体而言,我们提出了多任务扩散模型(MTDIFF),这是一种基于扩散模型的方法,融合Transformer骨干网络与提示学习,适用于多任务离线场景下的生成式规划与数据合成。

Continuous Latent Diffusion Language Model
大语言模型在自回归范式下取得显著成功,但高质量文本生成不必绑定固定的从左到右顺序。现有方法难以同时兼顾生成效率、可扩展表征学习与有效全局语义建模。本文提出ColaDLM,一种基于分层信息分解的分层隐扩散语言模型。ColaDLM先通过文本变分自编码器学习稳定的文本到隐变量映射,再用块因果DiT在连续隐空间建模全局语义先验,最后经条件解码生成文本。从统一马尔可夫路径视角,其扩散过程执行隐先验迁移而非token级观测恢复,从而将全局语义组织与局部文本实现解耦。

2025_NIPS_Towards Evaluating Transfer-based Attacks Systematically, Practically, and Fairly
该研究针对迁移性对抗攻击缺乏标准化评估基准的问题,构建了TA-Bench基准平台,实现了30余种主流迁移性对抗攻击方法,并在25个热门替代/目标模型(含CNN、视觉Transformer、MLP)上进行了系统、公平的评估。

2025_NIPS_$\texttt{TACO}$: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcemen...
尽管基于原始像素数据的强化学习(RL)近年来取得了一定进展,但样本效率低仍是一个重大障碍。以往的研究尝试通过设计自监督辅助任务来解决这一挑战,旨在为智能体的学习表征注入与控制相关的信息,以支持未来状态预测。然而,这些目标往往不足以学习到能够表征最优策略或价值函数的表征,且它们通常针对具有小型、抽象离散动作空间的任务,因此忽视了连续控制中动作表征学习的重要性。

2025_NIPS_Iterative Reachability Estimation for Safe Reinforcement Learning
确保安全性对于强化学习(RL)的实际部署至关重要。必须解决各类挑战,例如处理环境中的随机性、提供持续状态级安全满足的严格保障,以及避免牺牲性能的过度保守行为。我们提出一种新框架——安全策略优化可达性估计(RESPO),适用于一般随机场景下的安全约束强化学习。在存在无违规策略的可行集中,我们在维持持续安全的同时优化奖励;在可行集之外,我们的优化通过保证在可能情况下以最小累积折扣违规成本进入可行集,从而产生最安全的行为。

2025_NIPS_AVeriTeC: A Dataset for Real-world Claim Verification with Evidence from the Web
现有自动事实核查数据集存在诸多显著局限,例如依赖人工构造的声明、缺乏证据与中间推理过程的标注,或包含声明发布后才出现的证据。本文提出AVERITEC,一个包含4568条真实世界声明的新数据集,这些声明覆盖了50个不同机构的事实核查结果。每条声明均标注了由网络可用证据支持的问答对,以及解释证据如何组合形成结论的文本理由。通过多轮标注流程,我们避免了上下文依赖、证据不足和时间泄露等常见问题,并在结论标注上达成了显著的标注者间一致性(κ=0.619)。

2025_NIPS_Semantic HELM: A Human-Readable Memory for Reinforcement Learning
强化学习智能体在现实世界中部署时,往往需要应对部分可观测的环境。因此,大多数智能体都会采用记忆机制来逼近环境状态。近年来,在掌握部分可观测环境方面出现了令人瞩目的成功案例,主要集中在《Dota2》《星际争霸2》或《我的世界》等电脑游戏领域。然而,现有方法缺乏可解释性——人类无法理解智能体在其记忆中存储了什么信息。对此,我们提出了一种新颖的记忆机制,该机制以人类语言表示过去的事件。

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
深度搜索能力已成为前沿大语言模型智能体不可或缺的核心能力,但其研发长期被工业巨头主导。工业界主流方案依赖高资源消耗的全流程:预训练、持续预训练(CPT)、监督微调(SFT)与强化学习(RL)。本文表明,在信息丰富、高难度的轨迹数据驱动下,简单的SFT方法即可训练出极具竞争力的前沿搜索智能体。我们通过三项简单的数据合成改进:扩大知识图谱规模以提升探索丰富度、扩充工具集以覆盖更广泛功能、严格低步数过滤,构建更强基线。

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
本文介绍了Aris(基于对抗式多智能体协作的自主研究系统),一款面向机器学习自主研究的开源科研调度框架,涵盖其架构设计、保障机制与早期部署实践。基于大语言模型的智能体系统性能不仅取决于模型权重,更依赖其外围调度框架——即负责信息存储、检索与呈现的系统逻辑。在长周期科研流程中,核心失效模式并非显性崩溃,而是看似合理却无充分证据支撑的伪成功:长期运行的智能体可能生成证据不完整、报告失真或隐含执行端预设偏差的结论。为此,本文提出Aris框架,以跨模型对抗协作。

2025_NIPS_What Drives Paper Acceptance? A Process-Centric Analysis of Modern Peer Review
同行评审是评估学术贡献的核心机制,但以往研究大多孤立考察论文特征或外部元数据。OpenReview等开放平台的出现将同行评审转变为透明化、交互式流程,不仅记录分数与评语,还留存反驳意见、作者-评审互动、评审分歧及领域主席仲裁结果,为理解现代同行评审运行机制提供了前所未有的全过程数据。

2025_NIPS_Generating Images with Multimodal Language Models
我们提出了一种将冻结的纯文本大型语言模型(LLM)与预训练图像编码器和解码器模型融合的方法,通过在它们的嵌入空间之间建立映射实现这一目标。该模型展现出广泛的多模态能力:图像检索、新图像生成和多模态对话。我们的方法是首个能够基于任意交错的图像和文本输入,生成连贯图像(和文本)输出的方案。为了在图像生成任务上实现优异性能,我们设计了一个高效的映射网络,将LLM与现成的文本到图像生成模型关联起来。该映射网络将文本的隐藏表示转换为视觉模型的嵌入空间,使我们能够利用LLM强大的文本表示能力实现视觉输出。

2025_NIPS_Meta-Adapter: An Online Few-shot Learner for Vision-Language Model
对比视觉-语言预训练模型(即CLIP)在感知开放世界视觉概念方面展现出显著潜力,能够实现高效的零样本图像识别。然而,基于CLIP的少样本学习方法通常需要在少样本样本上对参数进行离线微调,导致推理时间延长,且在特定领域存在过拟合风险。为解决这些挑战,我们提出了Meta-Adapter——一种轻量级残差风格适配器,能够在在线模式下利用少样本样本引导CLIP特征的精炼。通过少量训练样本,我们的方法可赋予模型有效的少样本学习能力,且无需额外微调即可泛化到未见过的数据或任务,实现了具有竞争力的性能和高效率。

2025_NIPS_A Hierarchical Spatial Transformer for Massive Point Samples in Continuous Space
Transformer是应用广泛的深度学习架构。现有Transformer主要设计用于序列(文本或时间序列)、图像或视频以及图数据。本文提出一种新颖的Transformer模型,适用于连续空间中大规模(多达一百万)点样本。此类数据在环境科学(如传感器观测)、数值模拟(如含颗粒流、天体物理学)和基于位置的服务(如兴趣点和轨迹)中普遍存在。

2025_NIPS_MEMTO: Memory-guided Transformer for Multivariate Time Series Anomaly Detection
在现实世界的多元时间序列数据中检测异常具有挑战性,这源于复杂的时间依赖关系和变量间相关性。近年来,基于重建的深度模型已被广泛用于解决该问题,但这些方法仍存在过泛化问题,无法持续交付高性能。为解决这一问题,我们提出了MEMTO——一种基于重建方法的记忆引导Transformer。该模型引入了一种新颖的记忆模块,能够学习每个记忆项应如何根据输入数据调整更新程度。为稳定训练过程,我们采用两阶段训练范式,通过K-means聚类初始化记忆项。

2025_NIPS_Discovering Hierarchical Achievements in Reinforcement Learning via Contrastive Learning
在程序性生成环境中发现具有分层结构的成就是一项重大挑战。这要求智能体具备多种能力,包括泛化能力和长期推理能力。许多现有方法基于模型或分层架构构建,认为用于长期规划的显式模块有利于学习分层依赖关系。然而,这些方法需要过多的环境交互次数或庞大的模型规模,限制了其实际应用价值。在本研究中,我们证明了近端策略优化(PPO)——一种简单但通用的模型无关算法——在采用最新实现方案进行优化后,性能优于以往方法。此外,我们发现PPO智能体能够在一定程度上预测下一个待解锁的成就,尽管置信度有限。

2025_NIPS_TART: A plug-and-play Transformer module for task-agnostic reasoning
大语言模型(LLMs)具备上下文学习能力,无需任何任务特定训练即可完成多种任务。相比之下,微调等传统适配方法需为每个特定任务修改底层模型。然而,即便提供相同示例,上下文学习的性能也始终落后于任务特定微调方法。尽管大多数现有方法(如提示工程)专注于通过LLM的习得表征来缩小这一性能差距,但我们的实验表明,LLM的表征已包含足够做出良好预测的信息。因此,我们将重点放在LLM的推理能力上,并证明这种性能差距源于其无法完成简单的概率推理任务。这引发了一个有趣的问题:LLMs是否真的能够以任务无关的方式学习推理?

2025_NIPS_Textually Pretrained Speech Language Models
语音语言模型(SpeechLMs)仅处理和生成声学数据,无需文本监督。在本文中,我们提出TWIST方法,该方法利用预训练文本语言模型的热启动来训练SpeechLMs。通过自动评估和人类评估,我们证明TWIST在各方面均优于冷启动的SpeechLMs。我们实证分析了不同模型设计选择(如语音分词器、预训练文本模型和数据集规模)的影响,发现模型规模和数据集规模在构建性能更优的SpeechLMs中均发挥着重要作用。基于我们的观察,我们提出了(据我们所知)在参数数量和训练数据方面均最大的SpeechLM。

2025_NIPS_SatLM: Satisfiability-Aided Language Models Using Declarative Prompting
本文提出可满足性辅助语言模型(SATLM),通过声明式提示将自然语言推理问题转化为逻辑公式形式的可满足性(SAT)问题,再借助自动化定理证明器(如Z3SMT求解器)推导答案。该方法拆分推理任务为“解析-规划-执行”三步,仅让大语言模型(LLM)负责解析自然语言到声明式规范,将规划和执行交给SAT求解器,解决了传统链式思维(CoT)和程序辅助语言模型(PROGLM)在复杂约束推理中存在的规划错误和执行错误问题。

欢迎留下您的脚印