Loading...

2025_NIPS_ThinkBench: Dynamic Out-of-Distribution Evaluation for Robust LLM Reasoning
ThinkBench是一款针对大型语言模型(LLMs)推理能力的动态分布外(OOD)评估框架,核心解决数据污染和答案泄露导致的评估失真问题。框架通过场景级和攻击级半事实数据生成方法,构建了含2912个样本的OOD数据集(源自AIME数学题和GPQA科学题),统一支持推理型与非推理型模型评估。实验对16个LLMs和4个PRMs验证发现:多数模型推理鲁棒性不足,存在明显数据泄露(如AIME-500的OOD性能平均下降24.9%);推理型模型(如o1、o3、Deepseek-R1)表现更优,但仍需优化;

2025_NIPS_MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization
该研究聚焦扩散语言模型(DLMs)推理性能不足的问题,核心原因是去噪步骤中掩码token独立生成,未能捕捉token间相关性(序列内相关性和序列间相关性)。为此提出多奖励优化(MRO)方法,通过设计针对性奖励函数、结合测试时缩放、拒绝采样和强化学习优化token相关性,并引入分步组奖励优化(SGRO)降低奖励方差。实验表明,MRO在数学、科学、逻辑三类推理任务中显著提升性能,同时减少去噪步骤、加快解码速度,缩小了与自回归大语言模型(LLMs)的推理性能差距。

2025_NIPS_Towards Understanding Transformers in Learning Random Walks
Transformer在各类应用中已被证明极为有效,尤其在处理自然语言、时间序列等序列数据时表现突出。然而,Transformer模型通常缺乏清晰的可解释性,其成功的理论基础尚未得到充分理解。本文研究了Transformer在学习一类经典统计模型(即圆形随机游走)时的能力与可解释性。我们通过理论证明,经梯度下降训练后,单层Transformer模型能够实现随机游走预测的最优精度。重要的是,我们的分析揭示了训练后模型的可解释性:训练后的softmax注意力机制充当token选择器,聚焦于直接父状态;

2025_NIPS_ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism
多模态大语言模型(MLLMs)通过整合特征提取器和投影模块,将大语言模型(LLMs)扩展至处理图像、视频和音频等多模态输入。然而,这些额外组件叠加复杂的推理流程和异构工作负载,导致推理开销显著增加。因此,高效部署MLLMs仍是一项重大挑战。现有紧密耦合的服务架构难以区分混合请求类型,也无法针对不同推理阶段调整并行策略,进而导致首token响应时间(TTFT)延长和资源利用率低下。

2025_NIPS_Make Information Diffusion Explainable: LLM-based Causal Framework for Diffusion Predictio
信息扩散预测旨在预测社交平台上信息传播过程中未来的受影响用户,是舆情分析中一项具有挑战性的关键任务。随着社交平台的发展,大众传播日益广泛。然而,大多数基于图神经网络(GNN)和序列模型的现有方法主要关注社交网络中的结构和时间模式,存在虚假扩散连接和扩散分析信息不足的问题。我们利用大语言模型强大的推理能力,开发了一个基于LLM的扩散影响推导因果框架MILD。通过综合整合社交扩散的四个关键因素(即连接关系、活跃时间线、用户画像和评论),MILD通过因果推理得出真实的扩散连接,构建扩散影响图(G_{I})。

2025_NIPS_Breaking the Frozen Subspace: Importance Sampling for Low-Rank Optimization in LLM Pretrai
低秩优化已成为实现大语言模型(LLM)内存高效训练的一种极具前景的方法。现有低秩优化方法通常将梯度投影到低秩子空间,以降低存储优化器状态的内存成本。这些方法的核心挑战在于选择合适的子空间,以确保有效的优化轨迹。大多数现有方法选择主导子空间来保留梯度信息,因为这在直觉上能提供最佳近似。然而,我们发现,在实际预训练过程中,主导子空间会停止变化,从而将权重更新限制在相似的子空间内。本文提出了一种用于LLM预训练低秩优化的重要性采样方法(SARA),该方法具有可证明的收敛保证,而主导子空间方法不具备这一特性。

2025_NIPS_Gate to the Vessel: Residual Experts Restore What SAM Overlooks
基础分割模型(如SegmentAnything,SAM)在自然图像上表现出强大的泛化能力,但在医学影像中存在局部分割失效问题,尤其对于血管这类形态复杂、边界模糊的细粒度结构。为解决这一问题,本文提出FineSAM++——一种结构感知的稀疏专家框架,通过引入置信度驱动的软路由模块(RoutingModule)来优化SAM的输出结果。该模块动态识别结构不确定区域,并仅在这些区域激活轻量化残差专家(ResidualExpert),对残余结构误差进行建模和校正,从而实现高效的“细化而非重训”。

2025_NIPS_Sequential Monte Carlo for Policy Optimization in Continuous POMDPs
部分可观察环境下的最优决策要求智能体在减少不确定性(探索)和追求即时目标(利用)之间取得平衡。本文提出一种适用于连续部分可观察马尔可夫决策过程(POMDPs)的新型策略优化框架,明确解决这一核心挑战。我们的方法将策略学习转化为非马尔可夫费曼-卡茨模型中的概率推理问题,该模型通过预测未来观测天然捕捉信息收集的价值,无需依赖次优近似或手工设计的启发式规则。为在该模型下优化策略,我们开发嵌套序贯蒙特卡洛(SMC)算法,基于POMDP诱导的最优轨迹分布样本,高效估计依赖历史的策略梯度。

2025_NIPS_Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers
大型语言模型(LLMs)可通过微调获取新知识,但这一过程呈现出一种令人困惑的双重特性:模型既能从新事实中显著泛化,又容易产生不正确信息的幻觉。然而,这一现象的原因仍未被充分理解。在本研究中,我们认为这两种行为均源于一种名为上下文外推理(OCR)的单一机制——即即使概念间无因果关联,模型仍能通过关联概念推导隐含结论的能力。我们在五个主流LLM上开展的实验证实,OCR确实会同时驱动泛化与幻觉,具体结果取决于关联的概念是否存在因果关系。为建立对这一现象的严谨理论理解,我们将OCR形式化为一项符号事实回忆任务。

2025_NIPS_OptiScene: LLM-driven Indoor Scene Layout Generation via Scaled Human-aligned Data Synthes
自动室内场景布局生成因其在室内设计、虚拟环境构建和具身智能体领域的应用潜力,已受到越来越多的关注。现有方法主要分为两类:一类是利用专有大语言模型(LLM)服务(如GPTAPI)的提示驱动型方法,另一类是基于扩散模型在布局数据上训练的学习型方法。提示驱动型方法常存在空间不一致和计算成本高的问题,而学习型方法则通常受限于粗粒度关系图和有限的数据集,导致其难以泛化到多样化的房间类型。

2025_NIPS_Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models
大型语言模型(LLMs)在实际应用中越来越需要遗忘敏感、过时或专有信息。现有遗忘方法通常将遗忘和保留目标表述为带正则化的权衡问题,将两个目标整合为单一标量损失。这往往导致优化不稳定,且在激进遗忘场景下会损害保留数据的性能。本文提出一种新的LLM遗忘公式,将其视为带约束的优化问题:通过新颖的对数边际平坦损失明确推动遗忘集上的输出分布趋于均匀,同时通过对保留集施加硬约束来维持模型效用。与基于熵的目标函数相比,该损失无需softmax操作、数值稳定且梯度不消失,能够实现更高效稳健的优化。

2025_NIPS_Efficient Safe Meta-Reinforcement Learning: Provable Near-Optimality and Anytime Safety
本文研究安全元强化学习(safemetaRL)问题,旨在让智能体高效适配未知任务,同时在适配过程的所有时刻满足安全约束。我们提出一个包含两个互补模块的框架:安全策略适配与安全元策略训练。第一个模块引入一种新颖的单步安全策略适配方法,该方法具有闭合解,可保证单调性提升、每一步约束满足以及高计算效率。第二个模块设计了无海森矩阵(Hessian-free)元训练算法,其将安全约束融入元策略,并利用适配策略的解析形式实现可扩展优化。

2025_NIPS_Extrapolation by Association: Length Generalization Transfer in Transformers
该研究聚焦Transformer模型的长度泛化能力(即从短输入向长输入外推的能力),核心探究“通过关联外推(ExtrapolationbyAssociation)”机制——即相关任务间的长度泛化能力可迁移。研究背景:Transformer模型在自然语言领域表现出强大泛化能力,但对其长度泛化的内在机制缺乏细粒度理解,现有研究多依赖架构修改或位置编码优化,未充分关注任务关联的作用。核心实验设计。

2025_NIPS_Sherlock: Self-Correcting Reasoning in Vision-Language Models
推理型视觉语言模型(VLMs)在复杂多模态任务中展现出良好性能,但仍面临重大挑战:它们对推理错误高度敏感,需要大量标注数据或精准验证器,且难以泛化到特定领域之外。为解决这些局限,我们探索将自校正作为增强推理型VLMs的策略。首先,我们深入分析了推理型VLMs的自校正能力并识别关键不足。基于研究发现,我们提出Sherlock——一种自校正与自改进训练框架。Sherlock引入轨迹级自校正目标、基于视觉扰动的偏好数据构建方法,以及用于偏好调优的动态β参数。

2025_NIPS_Multi-Objective One-Shot Pruning for Large Language Models
大型语言模型(LLMs)在各类任务中展现出卓越性能,但需大量计算资源,限制了其在资源受限环境中的部署。尽管一次性剪枝方法无需昂贵的再训练即可减小模型规模,却通常仅优化单一目标,忽略了LLMs的多场景应用需求。本文提出多目标一次性剪枝(MOSP)框架,将LLM剪枝构建为多目标优化问题。MOSP高效生成帕累托最优剪枝模型集合,每个模型代表不同能力权衡,允许用户选择契合自身偏好的方案。该方法能识别跨任务共享的核心权重支持,同时支持任务特定权重优化。

2025_NIPS_ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs
过程奖励模型(PRM)近年来已成为监督大语言模型(LLM)中间推理步骤的强大框架。以往的PRM主要基于模型的最终输出响应进行训练,难以稳健地评估中间推理轨迹,尤其是在Deepseek-R1等前沿推理模型生成的“轨迹-响应”输出这一新兴场景中。本文提出了一种新型轨迹感知PRM——ReasonFlux-PRM,其专门设计用于评估“轨迹-响应”类型的推理轨迹。该模型融合了步级和轨迹级双重监督,能够针对结构化的思维链数据分配细粒度奖励。

2025_NIPS_Conformal Arbitrage: Risk-Controlled Balancing of Competing Objectives in Language Models
现代语言模型部署往往需要平衡相互冲突的目标——例如,实用性与无害性、成本与准确性、奖励与安全性。我们提出保形套利(ConformalArbitrage),这是一种事后框架,通过学习数据驱动的阈值,在针对主目标优化的Primary模型与更保守的Guardian模型(可为另一模型或人类领域专家,与约束目标对齐)之间进行协调。该阈值通过保形风险控制校准,提供有限样本、无分布依赖的保证,确保不良事件(如事实错误或安全违规)的长期发生率不超过用户设定的阈值。

2025_NIPS_From Condensation to Rank Collapse: A Two-Stage Analysis of Transformer Training Dynamics
尽管基于Transformer的模型已展现出卓越的实证性能,但除特定配置研究外,支配其训练动态的基本原理尚未得到充分表征。受语言模型中小初始化规模下推理能力提升的实证证据启发,我们采用Zhou等人[2022]建立的梯度流分析框架,系统研究线性化Transformer的训练动态。我们的理论分析将注意力模块的动态分解为两个不同阶段:第一阶段,随机初始化产生的非对称权重扰动使参数矩阵维持非退化梯度动态,助力模型系统性逃离小初始化区域,随后这些矩阵发生凝聚,逐步向目标方向对齐;

2025_NIPS_MMCSBench: A Fine-Grained Benchmark for Large Vision-Language Models in Camouflage Scenes
利用多模态大模型进行图像分割已成为一个重要的研究方向。然而,现有方法通常严重依赖人工标注数据集,这些数据集包含显式的推理过程,生成成本高且耗时。近期研究表明,强化学习(RL)无需此类推理标注数据即可赋予大模型推理能力。本文提出SAM-R1,一种新颖的框架,使多模态大模型能够在图像理解任务中执行细粒度推理。我们的方法首次在多模态推理模型的训练过程中融入细粒度分割设置。通过将任务特定的细粒度奖励与定制化的优化目标相结合,我们进一步增强了模型的推理与分割对齐能力。

2025_NIPS_Learning in Compact Spaces with Approximately Normalized Transformer
深度神经网络的成功训练需要解决过拟合、导致发散的数值不稳定性以及残差流中方差增大等挑战。一种常见解决方案是应用正则化和归一化技术,但这些方法通常需要调优额外的超参数。另一种方案是强制所有参数和表示位于超球面上,这无需正则化并能提高收敛速度,但会带来额外成本。本文中,我们受高维随机向量范数的强集中性启发,通过简单标量乘法提出了一种更全面的近似归一化方法。此外,我们不对参数进行严格归一化,而是约束其范数。这些修改同样消除了权重衰减和学习率预热的需求,且不增加归一化层的总数。

欢迎留下您的脚印