Loading...

2025_NIPS_General-Reasoner: Advancing LLM Reasoning Across All Domains
强化学习(RL)近年来在提升大语言模型(LLM)推理能力方面展现出巨大潜力。特别是Deepseek-R1-Zero提出的“Zero”强化学习,无需中间监督微调阶段即可直接对基础LLM进行RL训练。尽管取得了这些进展,当前LLM推理相关研究仍主要集中于数学和编码领域,这在很大程度上归因于数据的丰富性和答案验证的便捷性。这一局限导致此类模型的适用性和泛化能力难以扩展到更广泛的领域——这些领域的问题往往具有多样化的答案表示形式,且数据更为稀缺。

2025_NIPS_ALMGuard: Safety Shortcuts and Where to Find Them as Guardrails for Audio–Language Models
该研究针对音频语言模型(ALMs)面临的特定越狱攻击问题,提出了首个专门适配ALMs的防御框架ALMGuard。核心思路是利用ALMs中天然存在的“安全捷径”(SafetyShortcuts),通过精心设计的扰动激活这些捷径,在不显著影响模型良性任务性能的前提下抵御越狱攻击。背景与问题:ALMs融合语音理解与生成能力,广泛应用于关键系统,但音频模态的引入带来了独特安全漏洞。现有从传统音频对抗防御或文本大模型越狱防御迁移的方法,因未考虑ALMs的行为多样性和音频模态特性,难以有效应对ALM专属越狱攻击。

2025_NIPS_Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space
我们提出了SLED,一种新的语音语言建模方法:将语音波形编码为连续潜变量表示序列,并利用能量距离目标对其进行自回归建模。能量距离通过对比模拟样本与目标样本,提供了分布差距的解析度量,使得模型能够高效训练以捕捉潜在的连续自回归分布。SLED无需依赖残差向量量化,因此避免了离散化误差,同时省去了现有语音语言模型中常见的复杂层级架构。该方法在简化整体建模流程的同时,保留了语音信息的丰富性并维持了推理效率。

ELFUZZ: Efficient Input Generation via LLM-driven Synthesis Over Fuzzer Space
一、主要内容研究背景与问题基于生成的模糊测试(generation-basedfuzzing)需手动构建输入语法和语义约束规范,耗时费力,且现有自动合成方法存在可扩展性(scalability)和效率问题。例如,传统方法依赖复杂程序分析,难以适配大规模真实系统(如超百万行代码的软件),且语法规则实例化过程开销大。核心方法:ELFUZZLLM驱动的进化循环:从简单的随机种子模糊器出发,利用LLM(如CodeLlama)进行代码变异(如拼接、补全、填充),逐步优化模糊器。

2025_NIPS_ReDit: Reward Dithering for Improved LLM Policy Optimization
DeepSeek-R1通过基于规则的奖励系统成功增强了大型语言模型(LLMs)的推理能力。尽管这是一个能有效缓解奖励欺骗的“完美”奖励系统,但此类奖励函数通常是离散的。我们的实验观察表明,离散奖励会导致梯度异常、优化不稳定和收敛缓慢。为解决这一问题,我们提出ReDit(RewardDithering)方法,通过添加简单随机噪声来扰动离散奖励信号。借助这种受扰奖励,学习过程中能持续获得探索性梯度,实现更平滑的梯度更新并加速收敛。注入的噪声还能在平坦奖励区域引入随机性,鼓励模型探索新策略并跳出局部最优。

2025_NIPS_Martian World Model: Controllable Video Synthesis with Physically Accurate 3D Reconstructi
合成逼真的火星地形视频对于任务演练和机器人仿真至关重要。然而,由于高质量火星数据稀缺,且火星与地球影像之间存在显著的领域差异,该任务面临独特挑战。为解决这些问题,我们提出了一套整体解决方案,包含两个核心组件:1)多模态火星合成(M3arsSynth)数据整理流水线,该流水线从NASA行星数据系统(PDS)的真实立体导航影像中重建3D火星环境,并渲染高保真多视角3D视频序列;2)火星地形视频生成器MarsGen,其合成的新视频在视觉上逼真且几何结构与数据中编码的3D结构保持一致。

2025_NIPS_A Unifying View of Linear Function Approximation in Off-Policy Reinforcement Learning thro
在强化学习的离线策略评估(OPE)任务中,时序差分学习(TD)和拟合Q迭代(FQI)传统上被认为在朝向目标值函数的更新次数上存在差异:TD仅进行一次更新,FQI进行无限次更新,而部分拟合Q迭代(PFQI)则进行有限次更新。我们证明这一观点并不准确,并在线性值函数近似下提供了一种新的数学视角——将这些算法统一为求解同一线性系统的单一迭代方法,区别仅在于采用不同的矩阵分裂方案和预条件子。我们发现,在同一目标值函数下增加更新次数(即目标网络技术),本质是从使用常数预条件子过渡到使用数据特征自适应预条件子。

2025_NIPS_BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity
AI代理有望显著改变网络安全格局。本文提出首个框架,用于捕捉不断演进的真实世界系统中的攻防网络能力。我们通过BountyBench实例化该框架,搭建了25个具有复杂真实代码库的系统。为覆盖漏洞生命周期,定义了三类任务:检测(发现新漏洞)、利用(利用特定漏洞)和修补(修补特定漏洞)。针对检测任务,我们构建了新的成功指标,该指标适用于各类漏洞类型并支持本地化评估。我们为每个系统手动搭建环境,包括安装依赖包、配置服务器和填充数据库。

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
随着语言模型的能力日益增强,用户期望它们不仅能提供准确的响应,还能在各种场景下展现出与多样化人类偏好对齐的行为。为实现这一目标,强化学习(RL)流程已开始整合多个奖励信号,每个奖励对应一种特定偏好,以引导模型朝向这些期望行为优化。然而,近期研究在多奖励场景下默认采用组相对策略优化(GRPO),却未验证其适用性。本文表明,直接应用GRPO对不同的滚动条奖励组合进行归一化,会导致这些组合坍缩为相同的优势值,降低训练信号的分辨率,进而造成次优收敛,部分情况下还会引发早期训练失败。

2025_NIPS_KGGen: Extracting Knowledge Graphs from Plain Text with Language Models
近年来,构建知识图谱基础模型的相关研究引发了广泛关注,同时也凸显了一个核心挑战:知识图谱数据稀缺。目前主流的知识图谱主要通过人工标注、模式匹配或早期自然语言处理技术提取构建。然而,人工生成的知识图谱数量有限,自动提取的图谱质量却难以保证。本文提出一种新型文本到知识图谱生成工具KGGen,该工具利用语言模型从纯文本中提取高质量图谱,并采用创新的实体消歧方法对相关实体进行聚类,显著缓解了现有提取工具普遍面临的稀疏性问题。与其他知识图谱生成工具不同,KGGen通过对相关实体进行聚类和去重,降低了提取图谱的稀疏度。

2025_NIPS_Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting
该研究聚焦于大型语言模型(LLMs)监督微调(SFT)中普遍存在的“灾难性遗忘”问题——即模型在适配特定领域任务时,会显著退化已有的通用能力。通过对比SFT与在线强化学习(on-policyRL)的学习机制,研究发现两者存在核心的数据分布差异:RL的训练数据源于模型自身生成,与模型内部信念一致,仅包含高概率置信区或高熵探索区的token;

2025_NIPS_Evolving Programmatic Skill Networks
我们研究开放式具身环境中的持续技能获取问题,在此环境中,智能体必须构建、完善和复用一个不断扩展的可执行技能库。我们提出了程序化技能网络(PSN),这是一个框架,其中技能是可执行的符号程序,形成通过经验演化的组合网络。PSN定义了三种通过大型语言模型实例化的核心机制:(1)REFLECT——用于技能组合的结构化故障定位;(2)带成熟度感知更新门控的渐进式优化——在稳定可靠技能的同时,为不确定技能保留可塑性;(3)回滚验证下的规范化结构重构——维持网络紧凑性。

2025_NIPS_Gymnasium: A Standardized Interface for Reinforcement Learning Environments
功能型环境API(FuncEnv)基于部分可观测马尔可夫决策过程(POMDP)理论形式化设计,直接暴露环境状态转换、观测映射等核心函数,更贴合理论研究需求;支持JAX等库的硬件加速,可高效实现无状态函数的并行计算,提升大规模训练效率。明确区分终止(Termination)与截断(Truncation)修正OpenAIGym中二者混淆的问题,通过step方法返回两个独立布尔值,分别表示“任务成功/失败导致的episode结束”和“步数限制/超时等外部因素导致的episode结束”;

2025_nips_Rollout Roulette: A Probabilistic Inference Approach to Inference-Time Scaling of LLMs usi
大语言模型(LLMs)通过扩大模型规模和/或数据规模取得了显著的性能提升。然而,近期证据表明此类方法的收益逐渐递减,这促使研究方向转向推理时计算资源的扩展。现有基于奖励模型的确定性推理时扩展方法通常将任务转化为搜索问题,但存在一个关键局限:早期剪枝。由于奖励模型本身的不完善性,有潜力的轨迹可能被过早丢弃,导致性能次优。本文提出一种新颖的推理时扩展方法,通过适配基于粒子的蒙特卡洛技术实现。该方法维持多样化的候选轨迹集合,并稳健地平衡探索与利用过程。

2025_NIPS_Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Acti
大型语言模型(LLMs)有时能报告其解决任务时实际使用的策略,但在其他情况下似乎无法识别那些主导其行为的策略。这表明它们具备一定程度的元认知能力——即监测自身认知过程以用于后续报告和自我控制的能力。元认知虽能增强LLMs解决复杂任务的能力,但也引发了安全担忧:模型可能会模糊其内部过程,以规避基于神经激活的监测(例如安全检测器)。鉴于社会对这些模型的依赖日益加深,理解它们的元认知能力至关重要。

2025_NIPS_Atom of Thoughts for Markov LLM Test-Time Scaling
大语言模型(LLMs)通过测试时扩展方法已实现显著的性能提升。然而,现有方法在推理过程中由于累积历史依赖信息,往往会产生冗余计算。为解决这一挑战,我们利用马尔可夫过程的无记忆性,最大限度地减少对历史上下文的依赖,并提出一种马尔可夫推理过程。这种基础的马尔可夫链结构能够与各类测试时扩展方法无缝集成,从而提升其扩展效率。通过整合树搜索和反射精炼等技术进一步扩展马尔可夫推理链,我们发现了一种涌现的原子推理结构——推理轨迹被分解为一系列独立、低复杂度的原子单元。

2025_NIPS_Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors
先前的研究通过将3D场景解读为视频,探索了多模态大语言模型(MLLMs)在3D场景理解中的应用。这些方法通常依赖全面的3D数据输入(如点云或重建的鸟瞰图(BEV))。在本研究中,我们通过增强MLLMs直接从视频数据中理解和推理3D空间的能力(无需额外3D输入),推动了该领域的发展。我们提出了一种新颖高效的方法,名为视频-3D几何大语言模型(VGLLM)。该方法利用3D视觉几何编码器从视频序列中提取3D先验信息,随后将这些信息与视觉令牌融合并输入MLLM。

2025_NIPS_Gradient Multi-Normalization for Efficient LLM Training
该研究针对大型语言模型(LLM)训练中“自适应优化器(如Adam)内存开销大、简单一阶方法(如SGD)性能不足”的矛盾,提出了梯度多归一化(gradientmulti-normalization)框架,据此设计了轻量级无状态优化器SinkGD。SinkGD通过交替进行行和列的欧几里得归一化,在保持SGD级内存占用的同时,降低了计算复杂度(仅需O(nm)操作),在LLaMA模型预训练中实现了比Adam更快的收敛(最高3倍有效吞吐量)和更优的困惑度,且内存需求仅为Adam的40%左右。

2025_NIPS_PoE-World: Compositional World Modeling with Products of Programmatic Experts
学习世界的运行机制是构建能够适应复杂环境的人工智能智能体的核心。基于深度学习的传统世界模型需要海量训练数据,且无法从稀疏观测中灵活更新知识。近年来,利用大型语言模型(LLMs)进行程序合成的研究取得了新进展,提供了一种替代方法——将世界模型表示为源代码,支持从少量数据中实现强泛化。迄今为止,程序化结构的世界模型的应用仍局限于自然语言和网格世界领域。本文提出了一种新型程序合成方法,通过将世界模型表示为LLMs合成的程序化专家的指数加权乘积(PoE-World),有效建模复杂的非网格世界领域。

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
高效latent推理框架:首次将文本思维链压缩为紧凑的、可verbalize的连续latent表示,在不损失推理能力的前提下解决延迟问题;偏好引导蒸馏机制:结合强化学习奖励信号,引导学生模型学习高质量推理模式,同时通过verbalizerLLM确保latent表示的可解释性;动作对齐的视觉规划蒸馏:通过轨迹级表示对齐,将教师模型的空间推理能力迁移到学生模型,解决纯文本蒸馏缺乏视觉-动作衔接的问题;推理-动作衔接设计。

欢迎留下您的脚印