Loading...
安全强化学习(RL)的一个长期目标是开发一种方法,确保策略在从学习到运行的整个过程中的安全性。然而,现有安全RL范式本质上难以实现这一目标。本文提出一种名为可证明终身安全RL(PLS)的方法,通过整合离线安全RL与安全策略部署来应对这一挑战。该方法利用回报条件监督学习离线训练策略,随后在部署时通过高斯过程(GPs)谨慎优化一组名为目标回报的有限参数。理论上,我们通过分析目标回报与实际回报的数学关系,证明了高斯过程使用的合理性,并进一步证明PLS能在高概率保证安全的同时,找到近最优目标回报。
2025_NIPS_Yggdrasil: Bridging Dynamic Speculation and Static Runtime for Latency-Optimal Tree-Ba...
投机解码通过并行生成和验证多个令牌来提升大语言模型(LLM)推理性能,但现有系统由于动态推测与静态运行时假设不匹配,导致性能未能达到最优。本文提出Yggdrasil,这是一种协同设计的系统,通过上下文感知的树状草稿生成和编译器友好的执行,实现了延迟最优的投机解码。Yggdrasil引入了用于静态图兼容的等增长树结构、用于草稿选择的延迟感知优化目标,以及用于降低开销的基于阶段的调度机制。该系统支持未修改的大语言模型,并在多种硬件配置下,相较于当前最优基线实现了高达3.98倍的加速比。
2025_NIPS_Compress Large Language Models via Collaboration Between Learning and Matrix Approxima...
稀疏和低秩矩阵复合近似已成为大型语言模型(LLMs)压缩的一种极具潜力的范式,相比仅基于稀疏矩阵的传统方法,它提供了更灵活的剪枝结构。不同层间权重冗余的显著差异,以及权重矩阵各自不同的秩和稀疏结构,使得确定全局最优剪枝结构极具挑战性。现有方法通常依赖均匀或手动设计的启发式规则在各层间分配权重稀疏度,随后通过矩阵近似技术压缩每个矩阵。鉴于LLM全局压缩面临的上述理论难题,以及与训练阶段相比有限的计算和数据资源,本文认为学习与矩阵近似的协同是实现有效压缩的关键。
2025_NIPS_Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Ba...
带可验证奖励的强化学习(RLVR)近年来在提升大语言模型(LLMs)的推理性能方面取得了显著成功,尤其在数学和编程任务中表现突出。人们普遍认为,与传统强化学习帮助智能体探索和学习新策略类似,RLVR能让大语言模型持续自我提升,从而获得超越对应基础模型能力的全新推理能力。在本研究中,我们通过pass@k指标(采用大k值),系统探究了经RLVR训练的大语言模型在不同模型家族、RL算法以及数学/编程/视觉推理基准测试中的推理能力边界,对RLVR的现状进行了批判性审视。
2025_NIPS_Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospecti...
视觉语言模型(VLMs)在视觉理解任务中表现出色,但经常受到视觉幻觉的困扰——它们会生成不存在的物体、动作或概念的描述,这在安全关键型应用中构成了重大风险。现有幻觉缓解方法通常遵循两种范式之一:生成调整(修改解码行为以对齐文本与视觉输入)和事后验证(利用外部模型评估并修正输出)。尽管这些方法有效,但生成调整方法往往依赖启发式规则且缺乏修正机制,而事后验证则较为复杂,通常需要多个模型且倾向于拒绝输出而非优化输出。在本研究中,我们提出REVERSE框架,该框架将幻觉感知训练与实时自我验证相结合。
2025_NIPS_Composite Flow Matching for Reinforcement Learning with Shifted-Dynamics Data
该研究针对离线数据与在线环境存在动力学偏移(shifteddynamics)的强化学习问题,提出了COMPFLOW方法。核心是通过复合流匹配(CompositeFlowMatching)结合最优传输理论,解决传统方法依赖KL散度或互信息导致的定义模糊问题,同时引入高动力学间隙区域主动探索策略,最终在多个基准任务和野生动物保护场景中实现优于现有基线的性能。结合预收集的离线数据可显著提升强化学习(RL)的样本效率,但这种优势常因离线数据与在线环境的转换动力学差异而受限。
2025_NIPS_Positional Fragility in LLMs: How Offset Effects Reshape Our Understanding of Memorizat...
大型语言模型已知会记忆训练数据的部分内容,存在侵犯版权的风险。为系统评估这一风险,我们从零开始预训练了参数规模为10亿/30亿/80亿的语言模型,训练语料包含830亿token,融合了网络级数据与公共领域书籍,以可控频率模拟受版权保护的内容,且文本长度至少是以往研究的十倍。由此,我们发现了“偏移效应”这一现象,其核心结论包括:(1)逐字记忆最易被上下文窗口起始处的短前缀触发,且随着前缀长度增加,记忆效果反而违背直觉地下降;(2)当前缀从上下文窗口的初始token开始偏移时,逐字记忆会急剧衰退。
2025_NIPS_UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
本文提出了UI-Genie,一种自改进框架,用于解决GUI智能体中的两大核心挑战:轨迹结果验证困难和高质量训练数据难以规模化生成。这两大挑战分别通过奖励模型和自改进流水线得以解决。奖励模型UI-Genie-RM采用图文交错架构,能高效处理历史上下文并统一动作级和任务级奖励。为支持UI-Genie-RM的训练,我们设计了针对性的数据生成策略,包括基于规则的验证、受控轨迹损坏和难负样本挖掘。
2025_NIPS_Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model
在多模态大语言模型(MLLMs)领域,视觉-语言连接器扮演着至关重要的角色,负责衔接预训练视觉编码器与大语言模型(LLMs)。尽管其意义重大,但相关研究仍相对匮乏。本研究旨在提出一种高性能的视觉-语言连接器,使MLLMs在保持低计算成本的同时实现高准确率。我们首先揭示了视觉Transformer中视觉锚点的存在,并提出一种成本效益高的搜索算法来提取这些锚点。
2025_NIPS_Self-Verifying Reflection Helps Transformers with CoT Reasoning
先进的大型语言模型(LLMs)在思维链(CoT)推理中常进行反思,自我验证当前解决方案的正确性并探索替代方案。然而,近期研究发现LLMs在CoT中检测错误的能力有限,反思为何能带来实证性能提升仍不明确。为解决这一问题,本文提出极简推理框架,支持小型Transformer在无自然语言的情况下实现基础自验证反思,确保分析清晰度并降低大规模实验成本。理论上,我们证明:若验证误差得到适当约束,自验证反思能保证推理性能提升。
2025_NIPS_Beyond Components: Singular Vector-Based Interpretability of Transformer Circuits
该研究突破传统Transformer可解释性方法将注意力头和MLP层视为不可分割单元的局限,提出基于奇异向量的细粒度解释视角。通过对Transformer组件(注意力机制的QK交互、OV投影及MLP层)构建增强矩阵并进行奇异值分解(SVD),将组件拆解为正交的奇异方向,揭示单个组件内共存的独立子功能。
2025_NIPS_The Rise of Parameter Specialization for Knowledge Storage in Large Language Models
随着时间的推移,各类系列的大型语言模型层出不穷。研究人员致力于在参数规模受限的情况下最大化语言模型的性能。然而,从微观角度来看,关于如何在模型参数(尤其是多层感知器(MLPs))中更好地存储知识,以让模型更有效地利用这些知识的研究尚显不足。本文分析了20个公开可用的开源大型语言模型,探究其优异性能与MLP参数中知识存储方式之间的关系。研究发现,随着语言模型的不断发展和知识能力的增强,其参数表现出更高的特化程度。具体而言,MLP中的参数更倾向于集中编码相似类型的知识。
2025_NIPS_VLM in a flash: I/O-Efficient Sparsification of Vision-Language Model via Neuron Chunking
视觉语言模型(VLM)在边缘设备的部署日益依赖基于闪存的权重卸载技术,而激活稀疏化常被用于降低I/O开销。然而,传统稀疏化方法仍以模型为中心,仅根据激活幅度选择神经元,忽视了访问模式对闪存性能的影响。本文提出(神经元分块)——一种I/O高效的稀疏化策略,其核心是对内存中连续的神经元组(块)进行操作,并将神经元重要性与存储访问成本相结合。该方法通过轻量化的访问连续性抽象建模I/O延迟,选择“效用”(神经元重要性除以估算延迟)较高的块。
2025_NIPS_EA3D: Online Open-World 3D Object Extraction from Streaming Videos
当前的3D场景理解方法受限于离线收集的多视角数据或预先构建的3D几何结构。本文提出了ExtractAnything3D(EA3D),这是一种用于开放世界3D物体提取的统一在线框架,能够同时进行几何重建和整体场景理解。给定流式视频,EA3D利用视觉语言和2D视觉基础编码器动态解析每帧图像,提取物体级知识。这些知识通过前馈在线更新策略整合并嵌入高斯特征图中。随后,我们从历史帧中迭代估计视觉里程计,并利用新的观测结果增量式更新在线高斯特征。
2025_NIPS_Dynamics-Aligned Latent Imagination in Contextual World Models for Zero-Shot Generaliza...
现实世界中的强化学习要求智能体在无需昂贵重新训练的情况下适应未知环境条件。上下文马尔可夫决策过程(cMDP)为这一挑战提供了建模框架,但现有方法通常需要显式的上下文变量(如摩擦力、重力),这限制了其在上下文隐藏或难以测量场景中的应用。本文提出动态对齐潜在想象(DALI)框架,该框架集成于Dreamer架构,能够从智能体与环境的交互中推断潜在上下文表示。通过训练自监督编码器预测前向动力学,DALI生成可指导决策的表示,为世界模型和策略提供条件,搭建起感知与控制之间的桥梁。
2025_NIPS_CIDD: Collaborative Intelligence for Structure-Based Drug Design Empowered by LLMs
基于结构的分子生成是早期药物发现的关键环节,能够设计出针对特定蛋白质靶点的化合物。然而,尽管3D生成模型近年来取得了进展(尤其是在提升对接分数方面),这些方法往往会产生不常见且本质上不合理的分子结构,偏离类药物化学空间。为量化这一问题,我们提出了一种新的指标——分子合理性比率(MRR),用于衡量结构合理性,并揭示了现有模型与真实世界获批药物之间的关键差距。
2025_NIPS_CALM: Culturally Self-Aware Language Models
文化意识是语言模型理解并适应多元文化语境的核心能力。然而,现有多数方法将文化视为静态背景知识,忽视其动态演化特性,导致在需要真正文化敏感性的下游任务中可靠性不足。本文提出CALM框架,旨在为语言模型赋予文化自我意识。CALM将任务语义与显式文化概念、隐式文化信号分离,通过对比学习将其构建为结构化文化聚类;随后借助跨注意力机制实现聚类间的细粒度交互对齐,并通过混合专家(MoE)机制沿特定文化维度进行自适应整合。
2025_NIPS_Data Efficient Adaptation in Large Language Models via Continuous Low-Rank Fine-Tuning
大型语言模型(LLMs)的最新进展凸显了微调(FT)技术在使模型适配特定任务中的关键作用,尤其是在从头重新训练计算成本过高的场景下。微调允许LLMs利用任务或领域特定数据,生成更能满足目标应用需求的模型。然而,传统微调方法常面临灾难性遗忘和数据效率低下的问题,限制了其实际应用价值。为解决这些挑战,本文提出DEAL框架——一种将低秩适配(LoRA)与持续微调策略相结合的新型方案。该框架通过整合知识保留模块和自适应参数更新模块,在保持效率的同时克服了现有微调方法的局限性。
2025_NIPS_Convergence Theorems for Entropy-Regularized and Distributional Reinforcement Learning
在寻求最优策略的过程中,强化学习(RL)方法通常只关注策略的期望回报,而忽略其其他特性。因此,即使方法取得成功,也难以描述所学到的策略具体是什么以及会产生何种行为。本文提出了一个策略优化的理论框架,通过趋近于零的熵正则化和温度解耦策略,保证收敛到特定的最优策略。随着正则化温度趋近于零,我们的方法能实现可解释、保多样性的最优策略,并确保策略衍生对象(价值函数和回报分布)的收敛性。例如,在我们方法的一个具体实例中,最终得到的策略会均匀采样所有最优动作。
2025_NIPS_AgentAuditor: Human-level Safety and Security Evaluation for LLM Agents
尽管基于大语言模型(LLM)的智能体发展迅速,但对其安全性和安保能力的可靠评估仍是一项重大挑战。现有基于规则或LLM的评估器往往会遗漏智能体逐步行动中的风险、忽视微妙含义、无法识别小问题的累积效应,并且会被模糊的安全或安保规则所混淆。为克服这一评估困境,我们提出AgentAuditor——一个通用、无需训练、记忆增强的推理框架,能够让LLM评估器模拟人类专家评估者的能力。AgentAuditor通过让LLM自适应提取结构化语义特征(如场景、风险、行为)并生成相关的思维链推理轨迹,为过往交互构建经验记忆。
