Loading...

2025_NIPS_Creativity or Brute Force? Using Brainteasers as a Window into the Problem-Solving Abil...
准确率仍是评估人工智能系统的标准指标,但它对模型如何得出解决方案的洞察力有限。在本研究中,我们引入了一个基于长篇叙事形式脑筋急转弯的基准,以更深入地探究模型所采用的推理策略类型。脑筋急转弯非常适合这一目标,因为它们可通过多种方法求解,例如利用创造性洞察的简短步骤解法,或采用更多暴力枚举的冗长解法。我们从多个推理层面研究大型语言模型(LLMs),不仅关注答案的正确性,还重视解决方案的质量与创造性。我们探究了推理过程的多个方面:(1)将脑筋急转弯语义解析为精确的数学竞赛式格式;

2025_NIPS_Loquetier: A Virtualized Multi-LoRA Framework for Unified LLM Fine-tuning and Serving
低秩适配(LoRA)已成为广泛采用的参数高效微调(PEFT)技术,用于将大语言模型(LLMs)适配到下游任务。尽管已有研究探索了LLM训练与服务的融合策略,但在统一基于LoRA模型的微调与推理方面仍存在缺口。本文提出Loquetier,一款虚拟化多LoRA框架,在单一运行时中无缝集成LoRA微调与服务。Loquetier包含两大核心组件:(1)虚拟化模块,隔离PEFT相关修改并支持在共享基础模型上部署多个适配器;(2)优化计算流与内核设计,在向前传播中融合微调与推理路径,实现高效批处理并最小化内核调用开销。

2025_NIPS_Steering Information Utility in Key-Value Memory for Language Model Post-Training
语言模型(LM)的最新进展标志着后训练的重要性日益凸显。然而,监督微调(SFT)等后训练方法无法保证模型有效利用预训练阶段习得的知识。为此,我们提出一种轻量级方法InfoSteer,旨在后训练阶段促进语言模型对参数化信息的利用。具体而言,InfoSteer将前馈网络(FFN)层视为关联键值记忆系统,并通过前向传播干预或反向传播过程中的正则化,推动模型调用存储的记忆向量。

2025_NIPS_DP²O-SR: Direct Perceptual Preference Optimization for Real-World Image Super-Resolution
得益于预训练的文本到图像(T2I)扩散模型,真实世界图像超分辨率(Real-ISR)方法能够合成丰富且逼真的细节。然而,由于T2I模型固有的随机性,不同的噪声输入往往会导致输出的感知质量存在差异。尽管这种随机性有时被视为一种局限,但它也带来了更广泛的感知质量范围,这一特性可被利用来提升Real-ISR的性能。为此,我们提出了适用于Real-ISR的直接感知偏好优化框架(DP²O-SR),该框架无需昂贵的人工标注即可使生成模型与感知偏好对齐。

2025_NIPS_Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection
随着ChatGPT、DeepSeek和Claude等大型语言模型(LLMs)的快速发展,AI生成文本在数字通信中的占比显著提升。这一趋势凸显了对可靠检测方法的迫切需求,以区分人类撰写与机器生成的内容。现有方法(包括零样本方法和有监督分类器)大多将该任务概念化为二进制分类问题,导致在跨领域和跨模型场景下泛化能力不佳。本文认为,这种二进制表述本质上误解了检测任务的核心——它假设人类文本存在统一的分布,而实际上人类文本并不构成单一分布,其多样性无法通过有限采样有效捕捉。

2025_NIPS_PANGEA: Projection-Based Augmentation with Non-Relevant General Data for Enhanced Domai...
现代大型语言模型(LLMs)通过零样本或少样本提示在各类自然语言处理任务中取得了具有竞争力的性能。然而,特定领域任务通常仍需要微调,而这一过程常受数据稀缺的阻碍——即收集足够的领域特定数据仍是一项实际挑战。一种被广泛采用的解决方案是利用LLMs,通过扩充少量可用的领域特定示例来生成合成数据。在本研究中,我们首先指出此类方法在数据多样性和质量方面的根本性局限,尤其是在仅依赖少量领域特定示例的情况下。

2025_NIPS_ChatVLA-2: Vision-Language-Action Model with Open-World Reasoning
本文聚焦机器人领域的视觉-语言-动作(VLA)模型,针对现有VLA系统在微调过程中易丢失预训练视觉-语言模型(VLM)核心能力(如开放世界推理、数学推理、空间推理等)的问题,提出了ChatVLA-2模型。该模型通过动态混合专家(DynamicMoE)架构和两阶段训练策略,在保留VLM预训练知识的同时,实现了推理与机器人动作的有效对齐。数学匹配游戏:机器人识别白板上的数学方程,从候选卡片中选择正确答案并放置,评估模型的OCR、数学推理和操作能力;玩具放置任务。

2025_NIPS_Retro-R1: LLM-based Agentic Retrosynthesis
逆合成规划是化学发现中的一项基础任务。由于存在庞大的组合搜索空间,即使对专业化学家而言,识别可行的合成路径仍是一项重大挑战。近年来,大型语言模型(LLM)的进展——尤其是结合强化学习的模型——已展现出强大的类人推理和规划能力,在数学和代码问题求解中表现突出。这引出一个自然的问题:能否利用LLM的推理能力开发出一种AI化学家,使其能够学习多步逆合成的有效策略?在本研究中,我们提出RETRO-R1,这是一种基于LLM的新型逆合成智能体,通过强化学习训练以设计分子合成路径。

2025_NIPS_Adaptive Context Length Optimization with Low-Frequency Truncation for Multi-Agent Rein...
近年来,深度多智能体强化学习(MARL)在解决长期依赖和非马尔可夫环境等挑战性任务中展现出良好性能。其成功部分归功于将策略与固定的长上下文长度相结合。然而,这种固定的长上下文长度可能导致探索效率受限和信息冗余。本文提出一种新颖的MARL框架,用于获取自适应且有效的上下文信息。具体而言,我们设计了一个中央智能体,通过时间梯度分析动态优化上下文长度,增强探索能力以促进MARL收敛到全局最优解。此外,为提升上下文长度的自适应优化能力,我们为中央智能体设计了一种高效的输入表示,可有效过滤冗余信息。

2025_NIPS_Meta-World+: An Improved, Standardized, RL Benchmark
Meta-World被广泛用于评估多任务和元强化学习智能体,这些智能体需要同时掌握多种不同技能。然而,自其推出以来,出现了许多未记录在案的变更,这阻碍了算法之间的公平比较。本研究致力于厘清文献中的这些结果差异,同时利用Meta-World的过往版本,为多任务和元强化学习基准测试设计提供见解。通过这一过程,我们发布了Meta-World的全新开源版本,该版本能够完全复现过往的结果,技术上更易使用,并且让用户能够更好地控制任务集中包含的任务。

2025_NIPS_Attention! Your Vision Language Model Could Be Maliciously Manipulated
视觉语言模型(VLMs)在理解复杂现实场景和支持数据驱动决策过程中取得了显著成功。然而,VLMs对文本或图像形式的对抗性样本表现出显著的脆弱性,可能导致多种对抗性结果,例如越狱、劫持和幻觉等。在本研究中,我们通过实证和理论证明,VLMs对基于图像的对抗性样本尤为敏感——不可感知的扰动能够精准操控每个输出token。为此,我们提出一种名为视觉语言模型操控攻击(VMA)的新型攻击方法,该方法融合一阶和二阶动量优化技术与可微变换机制,以有效优化对抗性扰动。

2025_NIPS_GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhance...
该研究针对全球图像地理定位任务的挑战,提出了GeoReasonEnhancement(GRE)框架,从数据集、模型训练、评估基准三个维度系统解决现有方法推理能力弱、可解释性差、依赖候选数据库等问题。构建GRE30K数据集,含20K高质量思维链(CoT)样本(GRE30K-CoT)和10K推理判断样本(GRE30K-Judge),为模型提供冷启动和强化学习训练数据;设计三阶段训练策略。

2025_NIPS_d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
近年来,大型语言模型(LLMs)已展现出强大的推理能力,这得益于在线强化学习(RL)。这些能力主要在左到右的自回归(AR)生成范式中得到验证。相比之下,基于扩散的非自回归范式以粗到细的方式生成文本。尽管近期的扩散型大型语言模型(dLLMs)已取得与自回归模型相当的语言建模性能,但dLLMs能否利用LLM推理领域的最新进展仍不明确。为此,我们提出d1框架,通过监督微调(SFT)与强化学习的结合,将预训练的掩码dLLMs适配为推理模型。

2025_NIPS_Curly Flow Matching for Learning Non-gradient Field Dynamics
自然科学中,从群体层面观测数据建模自然过程的传输动力学是一个普遍问题。此类模型依赖于对潜在过程的关键假设,以实现对模拟实际系统行为的主导动力学的可靠学习。当前方法中的默认假设基于最小作用量原理,该原理会产生梯度场动力学,并导致轨迹最小化两个概率测度之间的能量泛函。然而,许多现实世界系统(如单细胞RNA中的细胞周期)已知会表现出非梯度的周期性行为,这是当前最先进的方法(如流匹配和桥匹配)根本无法捕捉的。

2025_NIPS_A Provable Approach for End-to-End Safe Reinforcement Learning
安全强化学习(RL)的一个长期目标是开发一种方法,确保策略在从学习到运行的整个过程中的安全性。然而,现有安全RL范式本质上难以实现这一目标。本文提出一种名为可证明终身安全RL(PLS)的方法,通过整合离线安全RL与安全策略部署来应对这一挑战。该方法利用回报条件监督学习离线训练策略,随后在部署时通过高斯过程(GPs)谨慎优化一组名为目标回报的有限参数。理论上,我们通过分析目标回报与实际回报的数学关系,证明了高斯过程使用的合理性,并进一步证明PLS能在高概率保证安全的同时,找到近最优目标回报。

2025_NIPS_Yggdrasil: Bridging Dynamic Speculation and Static Runtime for Latency-Optimal Tree-Ba...
投机解码通过并行生成和验证多个令牌来提升大语言模型(LLM)推理性能,但现有系统由于动态推测与静态运行时假设不匹配,导致性能未能达到最优。本文提出Yggdrasil,这是一种协同设计的系统,通过上下文感知的树状草稿生成和编译器友好的执行,实现了延迟最优的投机解码。Yggdrasil引入了用于静态图兼容的等增长树结构、用于草稿选择的延迟感知优化目标,以及用于降低开销的基于阶段的调度机制。该系统支持未修改的大语言模型,并在多种硬件配置下,相较于当前最优基线实现了高达3.98倍的加速比。

2025_NIPS_Compress Large Language Models via Collaboration Between Learning and Matrix Approxima...
稀疏和低秩矩阵复合近似已成为大型语言模型(LLMs)压缩的一种极具潜力的范式,相比仅基于稀疏矩阵的传统方法,它提供了更灵活的剪枝结构。不同层间权重冗余的显著差异,以及权重矩阵各自不同的秩和稀疏结构,使得确定全局最优剪枝结构极具挑战性。现有方法通常依赖均匀或手动设计的启发式规则在各层间分配权重稀疏度,随后通过矩阵近似技术压缩每个矩阵。鉴于LLM全局压缩面临的上述理论难题,以及与训练阶段相比有限的计算和数据资源,本文认为学习与矩阵近似的协同是实现有效压缩的关键。

2025_NIPS_Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Ba...
带可验证奖励的强化学习(RLVR)近年来在提升大语言模型(LLMs)的推理性能方面取得了显著成功,尤其在数学和编程任务中表现突出。人们普遍认为,与传统强化学习帮助智能体探索和学习新策略类似,RLVR能让大语言模型持续自我提升,从而获得超越对应基础模型能力的全新推理能力。在本研究中,我们通过pass@k指标(采用大k值),系统探究了经RLVR训练的大语言模型在不同模型家族、RL算法以及数学/编程/视觉推理基准测试中的推理能力边界,对RLVR的现状进行了批判性审视。

2025_NIPS_Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospecti...
视觉语言模型(VLMs)在视觉理解任务中表现出色,但经常受到视觉幻觉的困扰——它们会生成不存在的物体、动作或概念的描述,这在安全关键型应用中构成了重大风险。现有幻觉缓解方法通常遵循两种范式之一:生成调整(修改解码行为以对齐文本与视觉输入)和事后验证(利用外部模型评估并修正输出)。尽管这些方法有效,但生成调整方法往往依赖启发式规则且缺乏修正机制,而事后验证则较为复杂,通常需要多个模型且倾向于拒绝输出而非优化输出。在本研究中,我们提出REVERSE框架,该框架将幻觉感知训练与实时自我验证相结合。

2025_NIPS_Composite Flow Matching for Reinforcement Learning with Shifted-Dynamics Data
该研究针对离线数据与在线环境存在动力学偏移(shifteddynamics)的强化学习问题,提出了COMPFLOW方法。核心是通过复合流匹配(CompositeFlowMatching)结合最优传输理论,解决传统方法依赖KL散度或互信息导致的定义模糊问题,同时引入高动力学间隙区域主动探索策略,最终在多个基准任务和野生动物保护场景中实现优于现有基线的性能。结合预收集的离线数据可显著提升强化学习(RL)的样本效率,但这种优势常因离线数据与在线环境的转换动力学差异而受限。

欢迎留下您的脚印