Loading...

2025_NIPS_Retro-R1: LLM-based Agentic Retrosynthesis
逆合成规划是化学发现中的一项基础任务。由于存在庞大的组合搜索空间,即使对专业化学家而言,识别可行的合成路径仍是一项重大挑战。近年来,大型语言模型(LLM)的进展——尤其是结合强化学习的模型——已展现出强大的类人推理和规划能力,在数学和代码问题求解中表现突出。这引出一个自然的问题:能否利用LLM的推理能力开发出一种AI化学家,使其能够学习多步逆合成的有效策略?在本研究中,我们提出RETRO-R1,这是一种基于LLM的新型逆合成智能体,通过强化学习训练以设计分子合成路径。

2025_NIPS_Adaptive Context Length Optimization with Low-Frequency Truncation for Multi-Agent Rein...
近年来,深度多智能体强化学习(MARL)在解决长期依赖和非马尔可夫环境等挑战性任务中展现出良好性能。其成功部分归功于将策略与固定的长上下文长度相结合。然而,这种固定的长上下文长度可能导致探索效率受限和信息冗余。本文提出一种新颖的MARL框架,用于获取自适应且有效的上下文信息。具体而言,我们设计了一个中央智能体,通过时间梯度分析动态优化上下文长度,增强探索能力以促进MARL收敛到全局最优解。此外,为提升上下文长度的自适应优化能力,我们为中央智能体设计了一种高效的输入表示,可有效过滤冗余信息。

2025_NIPS_Meta-World+: An Improved, Standardized, RL Benchmark
Meta-World被广泛用于评估多任务和元强化学习智能体,这些智能体需要同时掌握多种不同技能。然而,自其推出以来,出现了许多未记录在案的变更,这阻碍了算法之间的公平比较。本研究致力于厘清文献中的这些结果差异,同时利用Meta-World的过往版本,为多任务和元强化学习基准测试设计提供见解。通过这一过程,我们发布了Meta-World的全新开源版本,该版本能够完全复现过往的结果,技术上更易使用,并且让用户能够更好地控制任务集中包含的任务。

2025_NIPS_Attention! Your Vision Language Model Could Be Maliciously Manipulated
视觉语言模型(VLMs)在理解复杂现实场景和支持数据驱动决策过程中取得了显著成功。然而,VLMs对文本或图像形式的对抗性样本表现出显著的脆弱性,可能导致多种对抗性结果,例如越狱、劫持和幻觉等。在本研究中,我们通过实证和理论证明,VLMs对基于图像的对抗性样本尤为敏感——不可感知的扰动能够精准操控每个输出token。为此,我们提出一种名为视觉语言模型操控攻击(VMA)的新型攻击方法,该方法融合一阶和二阶动量优化技术与可微变换机制,以有效优化对抗性扰动。

2025_NIPS_GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhance...
该研究针对全球图像地理定位任务的挑战,提出了GeoReasonEnhancement(GRE)框架,从数据集、模型训练、评估基准三个维度系统解决现有方法推理能力弱、可解释性差、依赖候选数据库等问题。构建GRE30K数据集,含20K高质量思维链(CoT)样本(GRE30K-CoT)和10K推理判断样本(GRE30K-Judge),为模型提供冷启动和强化学习训练数据;设计三阶段训练策略。

2025_NIPS_d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
近年来,大型语言模型(LLMs)已展现出强大的推理能力,这得益于在线强化学习(RL)。这些能力主要在左到右的自回归(AR)生成范式中得到验证。相比之下,基于扩散的非自回归范式以粗到细的方式生成文本。尽管近期的扩散型大型语言模型(dLLMs)已取得与自回归模型相当的语言建模性能,但dLLMs能否利用LLM推理领域的最新进展仍不明确。为此,我们提出d1框架,通过监督微调(SFT)与强化学习的结合,将预训练的掩码dLLMs适配为推理模型。

2025_NIPS_Curly Flow Matching for Learning Non-gradient Field Dynamics
自然科学中,从群体层面观测数据建模自然过程的传输动力学是一个普遍问题。此类模型依赖于对潜在过程的关键假设,以实现对模拟实际系统行为的主导动力学的可靠学习。当前方法中的默认假设基于最小作用量原理,该原理会产生梯度场动力学,并导致轨迹最小化两个概率测度之间的能量泛函。然而,许多现实世界系统(如单细胞RNA中的细胞周期)已知会表现出非梯度的周期性行为,这是当前最先进的方法(如流匹配和桥匹配)根本无法捕捉的。

2025_NIPS_A Provable Approach for End-to-End Safe Reinforcement Learning
安全强化学习(RL)的一个长期目标是开发一种方法,确保策略在从学习到运行的整个过程中的安全性。然而,现有安全RL范式本质上难以实现这一目标。本文提出一种名为可证明终身安全RL(PLS)的方法,通过整合离线安全RL与安全策略部署来应对这一挑战。该方法利用回报条件监督学习离线训练策略,随后在部署时通过高斯过程(GPs)谨慎优化一组名为目标回报的有限参数。理论上,我们通过分析目标回报与实际回报的数学关系,证明了高斯过程使用的合理性,并进一步证明PLS能在高概率保证安全的同时,找到近最优目标回报。

2025_NIPS_Yggdrasil: Bridging Dynamic Speculation and Static Runtime for Latency-Optimal Tree-Ba...
投机解码通过并行生成和验证多个令牌来提升大语言模型(LLM)推理性能,但现有系统由于动态推测与静态运行时假设不匹配,导致性能未能达到最优。本文提出Yggdrasil,这是一种协同设计的系统,通过上下文感知的树状草稿生成和编译器友好的执行,实现了延迟最优的投机解码。Yggdrasil引入了用于静态图兼容的等增长树结构、用于草稿选择的延迟感知优化目标,以及用于降低开销的基于阶段的调度机制。该系统支持未修改的大语言模型,并在多种硬件配置下,相较于当前最优基线实现了高达3.98倍的加速比。

2025_NIPS_Compress Large Language Models via Collaboration Between Learning and Matrix Approxima...
稀疏和低秩矩阵复合近似已成为大型语言模型(LLMs)压缩的一种极具潜力的范式,相比仅基于稀疏矩阵的传统方法,它提供了更灵活的剪枝结构。不同层间权重冗余的显著差异,以及权重矩阵各自不同的秩和稀疏结构,使得确定全局最优剪枝结构极具挑战性。现有方法通常依赖均匀或手动设计的启发式规则在各层间分配权重稀疏度,随后通过矩阵近似技术压缩每个矩阵。鉴于LLM全局压缩面临的上述理论难题,以及与训练阶段相比有限的计算和数据资源,本文认为学习与矩阵近似的协同是实现有效压缩的关键。

2025_NIPS_Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Ba...
带可验证奖励的强化学习(RLVR)近年来在提升大语言模型(LLMs)的推理性能方面取得了显著成功,尤其在数学和编程任务中表现突出。人们普遍认为,与传统强化学习帮助智能体探索和学习新策略类似,RLVR能让大语言模型持续自我提升,从而获得超越对应基础模型能力的全新推理能力。在本研究中,我们通过pass@k指标(采用大k值),系统探究了经RLVR训练的大语言模型在不同模型家族、RL算法以及数学/编程/视觉推理基准测试中的推理能力边界,对RLVR的现状进行了批判性审视。

2025_NIPS_Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospecti...
视觉语言模型(VLMs)在视觉理解任务中表现出色,但经常受到视觉幻觉的困扰——它们会生成不存在的物体、动作或概念的描述,这在安全关键型应用中构成了重大风险。现有幻觉缓解方法通常遵循两种范式之一:生成调整(修改解码行为以对齐文本与视觉输入)和事后验证(利用外部模型评估并修正输出)。尽管这些方法有效,但生成调整方法往往依赖启发式规则且缺乏修正机制,而事后验证则较为复杂,通常需要多个模型且倾向于拒绝输出而非优化输出。在本研究中,我们提出REVERSE框架,该框架将幻觉感知训练与实时自我验证相结合。

2025_NIPS_Composite Flow Matching for Reinforcement Learning with Shifted-Dynamics Data
该研究针对离线数据与在线环境存在动力学偏移(shifteddynamics)的强化学习问题,提出了COMPFLOW方法。核心是通过复合流匹配(CompositeFlowMatching)结合最优传输理论,解决传统方法依赖KL散度或互信息导致的定义模糊问题,同时引入高动力学间隙区域主动探索策略,最终在多个基准任务和野生动物保护场景中实现优于现有基线的性能。结合预收集的离线数据可显著提升强化学习(RL)的样本效率,但这种优势常因离线数据与在线环境的转换动力学差异而受限。

2025_NIPS_Positional Fragility in LLMs: How Offset Effects Reshape Our Understanding of Memorizat...
大型语言模型已知会记忆训练数据的部分内容,存在侵犯版权的风险。为系统评估这一风险,我们从零开始预训练了参数规模为10亿/30亿/80亿的语言模型,训练语料包含830亿token,融合了网络级数据与公共领域书籍,以可控频率模拟受版权保护的内容,且文本长度至少是以往研究的十倍。由此,我们发现了“偏移效应”这一现象,其核心结论包括:(1)逐字记忆最易被上下文窗口起始处的短前缀触发,且随着前缀长度增加,记忆效果反而违背直觉地下降;(2)当前缀从上下文窗口的初始token开始偏移时,逐字记忆会急剧衰退。

2025_NIPS_UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
本文提出了UI-Genie,一种自改进框架,用于解决GUI智能体中的两大核心挑战:轨迹结果验证困难和高质量训练数据难以规模化生成。这两大挑战分别通过奖励模型和自改进流水线得以解决。奖励模型UI-Genie-RM采用图文交错架构,能高效处理历史上下文并统一动作级和任务级奖励。为支持UI-Genie-RM的训练,我们设计了针对性的数据生成策略,包括基于规则的验证、受控轨迹损坏和难负样本挖掘。

2025_NIPS_Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model
在多模态大语言模型(MLLMs)领域,视觉-语言连接器扮演着至关重要的角色,负责衔接预训练视觉编码器与大语言模型(LLMs)。尽管其意义重大,但相关研究仍相对匮乏。本研究旨在提出一种高性能的视觉-语言连接器,使MLLMs在保持低计算成本的同时实现高准确率。我们首先揭示了视觉Transformer中视觉锚点的存在,并提出一种成本效益高的搜索算法来提取这些锚点。

2025_NIPS_Self-Verifying Reflection Helps Transformers with CoT Reasoning
先进的大型语言模型(LLMs)在思维链(CoT)推理中常进行反思,自我验证当前解决方案的正确性并探索替代方案。然而,近期研究发现LLMs在CoT中检测错误的能力有限,反思为何能带来实证性能提升仍不明确。为解决这一问题,本文提出极简推理框架,支持小型Transformer在无自然语言的情况下实现基础自验证反思,确保分析清晰度并降低大规模实验成本。理论上,我们证明:若验证误差得到适当约束,自验证反思能保证推理性能提升。

2025_NIPS_Beyond Components: Singular Vector-Based Interpretability of Transformer Circuits
该研究突破传统Transformer可解释性方法将注意力头和MLP层视为不可分割单元的局限,提出基于奇异向量的细粒度解释视角。通过对Transformer组件(注意力机制的QK交互、OV投影及MLP层)构建增强矩阵并进行奇异值分解(SVD),将组件拆解为正交的奇异方向,揭示单个组件内共存的独立子功能。

2025_NIPS_The Rise of Parameter Specialization for Knowledge Storage in Large Language Models
随着时间的推移,各类系列的大型语言模型层出不穷。研究人员致力于在参数规模受限的情况下最大化语言模型的性能。然而,从微观角度来看,关于如何在模型参数(尤其是多层感知器(MLPs))中更好地存储知识,以让模型更有效地利用这些知识的研究尚显不足。本文分析了20个公开可用的开源大型语言模型,探究其优异性能与MLP参数中知识存储方式之间的关系。研究发现,随着语言模型的不断发展和知识能力的增强,其参数表现出更高的特化程度。具体而言,MLP中的参数更倾向于集中编码相似类型的知识。

2025_NIPS_VLM in a flash: I/O-Efficient Sparsification of Vision-Language Model via Neuron Chunking
视觉语言模型(VLM)在边缘设备的部署日益依赖基于闪存的权重卸载技术,而激活稀疏化常被用于降低I/O开销。然而,传统稀疏化方法仍以模型为中心,仅根据激活幅度选择神经元,忽视了访问模式对闪存性能的影响。本文提出(神经元分块)——一种I/O高效的稀疏化策略,其核心是对内存中连续的神经元组(块)进行操作,并将神经元重要性与存储访问成本相结合。该方法通过轻量化的访问连续性抽象建模I/O延迟,选择“效用”(神经元重要性除以估算延迟)较高的块。

欢迎留下您的脚印