Loading...
该研究针对非标准化离散分布采样的核心难题,提出离散神经流采样器(DNFS)框架。其核心是学习连续时间马尔可夫链(CTMC)的速率矩阵,使动力学满足柯尔莫哥洛夫前向方程,从而实现高效采样。DNFS无需训练数据,通过控制变量法降低蒙特卡洛估计方差,结合局部等变Transformer(leTF)优化速率矩阵参数化,在非标准化分布采样、离散能量基模型(EBM)训练、组合优化问题求解三大场景中验证了有效性。非标准化离散分布的采样是多个领域的基础性问题。
2025_NIPS_FORLA: Federated Object-Centric Representation Learning with Slot Attention
在联邦学习中,跨异质无标签数据集学习高效的视觉表征仍是一项核心挑战。有效的联邦表征需要具备跨客户端联合信息性的特征,同时在无监督条件下解纠缠客户端特定因素。因此,我们提出FORLA,一种基于无监督槽注意力的联邦目标中心表征学习与特征适配新框架。该方法的核心是一个跨客户端协同训练的共享特征适配器(用于适配基础模型的特征),以及一个用于重构适配特征的共享槽注意力模块。为优化该适配器,我们设计了双分支师生架构:在每个客户端中,学生解码器学习重构基础模型的完整特征,而教师解码器重构其适配后的低维特征。
2025_NIPS_Toward Engineering AGI: Benchmarking the Engineering Design Capabilities of LLMs
现代工程涵盖电气、机械、航空航天、土木和计算机等多个学科,是人类文明的基石和社会的基础。然而,与传统教科书式问题解决或事实问答相比,工程设计对大型语言模型(LLMs)提出了本质上不同的挑战。尽管现有基准已推动语言理解、代码合成和科学问题解决等领域的进步,但现实世界的工程设计需要综合领域知识、权衡复杂利弊,并处理耗费工程师大量时间的繁琐流程。尽管各工程学科面临这些共同挑战,目前尚无基准能够捕捉工程设计工作的独特需求。
2025_NIPS_Towards Principled Unsupervised Multi-Agent Reinforcement Learning
在强化学习中,无监督预训练指的是在无法预先获取任务描述(即奖励)的情况下预训练策略,以便后续高效学习下游任务。在单智能体场景中,该问题已得到广泛研究且基本明确。一种流行的方法是将无监督目标转化为最大化智能体策略诱导的状态分布熵,由此衍生出相关原理和方法。相比之下,多智能体场景下的状态熵最大化研究尚属空白,而这类场景在现实世界中普遍存在。该场景下不同问题形式化的优缺点是什么?理论上该问题的难度如何,实践中又该如何求解?
2025_NIPS_egoEMOTION: Egocentric Vision and Physiological Signals for Emotion and Personality Recogn
egoEMOTION是首个结合第一视角视觉信号与生理信号的数据集,用于真实场景下的情绪和人格识别。数据集包含43名参与者、超50小时同步记录,涵盖诱导式视频观看和自然日常活动两类场景,通过多种传感器采集数据并结合自我报告标注,同时定义了连续情绪回归、离散情绪分类、人格推断三大基准任务,验证了第一视角信号(尤其是眼动和头部运动)在情绪与人格识别中的表现优于传统生理传感器。理解情感是预测人类行为的核心,但当前第一视角视觉基准大多忽视了塑造人类决策与行动的情绪状态。
2025_NIPS_VL-SAM-V2: Open-World Object Detection with General and Specific Query Fusion
当前的感知模型通过利用大规模标注数据集取得了显著成功,但在存在新物体的开放世界环境中仍面临挑战。为解决这一局限,研究人员提出了开放集感知模型,以检测或分割推理时用户输入的任意类别物体。然而,开放集模型依赖人类干预,在推理阶段提供预定义的物体类别作为输入。近年来,研究人员提出了更具现实意义和挑战性的开放端感知任务,旨在无需人类提供任何类别级输入的情况下发现未见过的物体。尽管如此,与开放集模型相比,开放端模型的性能较低。
2025_NIPS_Quartet: Native FP4 Training Can Be Optimal for Large Language Models
直接采用低精度训练大型语言模型(LLMs)是一种通过提升吞吐量和能效来降低计算成本的有效途径。为此,NVIDIA最新的Blackwell架构借助FP4变体格式支持极低精度运算。然而,当前FP4精度下的LLM训练算法存在显著的精度下降问题,且往往依赖混合精度回退策略。本文研究硬件支持的FP4训练,提出一种高精度的端到端FP4训练方法,使所有核心计算(即线性层)均在低精度下完成。通过在Llama系列模型上的大量评估,我们揭示了一种新的低精度缩放定律,可量化不同位宽与训练设置下的性能权衡。
2025_NIPS_Activation Control for Efficiently Eliciting Long Chain-of-thought Ability of Language Mod
尽管大型语言模型(LLMs)具备出色的推理性能,但激发其长链思维(longCoT)能力通常需要昂贵的强化学习,或在高质量蒸馏数据上进行有监督微调。本文研究了这一能力背后的内在机制,发现最后几层中少量高影响力的激活极大地主导了长形式推理属性(如输出长度和自我反思)。通过简单放大这些激活并添加“wait”token,无需训练即可调用长链思维能力,显著提高自我反思率和准确率。此外,我们还发现激活变化遵循可预测的轨迹——在特殊token后急剧上升,随后呈指数衰减。
2025_NIPS_Who Reasons in the Large Language Models?
该研究聚焦大型语言模型(LLMs)推理能力的来源这一核心问题,通过提出一套名为“网络听诊器(StethoscopeforNetworks,SfN)”的诊断工具集,探究模型内部模块的功能分工。核心假设是:训练良好的LLMs中,推理能力主要由Transformer多头自注意力(MHSA)模块中的输出投影层(o_proj)主导,而其他模块更侧重支撑流畅对话。Delta听诊器。
2025_NIPS_LLM Strategic Reasoning: Agentic Study through Behavioral Game Theory
本文聚焦大语言模型(LLMs)的战略推理能力,指出传统基于纳什均衡(NE)的评估存在局限,提出基于行为博弈论的TruncatedQuantalResponseEquilibrium(TQRE)评估框架。通过13类真实世界抽象游戏,对22个主流LLM进行测试,发现GPT-o1、GPT-o3-mini、DeepSeek-R1等模型推理深度领先;模型推理风格(如极大极小、基于信念)显著影响不同场景表现;人口统计学角色嵌入会引发推理偏差;思维链(CoT)提示对战略推理的提升效果并不一致。
2025_NIPS_Rainbow Delay Compensation: A Multi-Agent Reinforcement Learning Framework for Mitigating
在现实世界的多智能体系统(MASs)中,观测延迟普遍存在,导致智能体无法基于环境的真实状态做出决策。单个智能体的局部观测通常包含来自其他智能体或环境中动态实体的多个组件。这些具有不同延迟特性的离散观测组件,给多智能体强化学习(MARL)带来了重大挑战。本文首先通过扩展标准Dec-POMDP,形式化定义了去中心化随机个体延迟部分可观测马尔可夫决策过程(DSID-POMDP)。随后,我们提出了彩虹延迟补偿(RDC)——一个用于解决随机个体延迟的MARL训练框架,并为其组成模块提供了推荐实现方案。
2025_NIPS_Generalized Linear Mode Connectivity for Transformers
理解神经网络损失景观的几何结构是深度学习领域的核心问题,其结论对模型泛化能力和优化过程具有重要意义。一个显著现象是线性模式连接性(LMC):尽管独立训练的模型看似处于不同的损失盆地中,但它们仍可通过低障碍或零障碍路径连接。然而,参数空间中的对称性(如神经元排列)往往会掩盖这一现象,使功能等价的模型呈现出表面上的差异性。以往研究主要聚焦于通过排列进行神经元重排序,但这类方法适用范围有限,无法捕捉Transformer等现代架构所展现的更丰富对称性。
2025_NIPS_Do Language Models Use Their Depth Efficiently?
现代大语言模型(LLMs)的深度不断增加,且深度与性能呈正相关,但收益逐渐递减。然而,这些模型是否高效利用了其深度?它们是通过组合更多特征来实现浅层模型无法完成的高阶计算,还是仅将同类计算分散到更多层中?为解答这些问题,我们分析了Llama3.1、Qwen3和OLMo2系列模型的残差流。研究发现:首先,对比子层输出与残差流可知,模型后半部分的层贡献远低于前半部分,两者之间存在明显的相位转换;其次,跳过后半部分的层对后续计算和输出预测的影响小得多;
2025_NIPS_Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning
本文聚焦大语言模型(LLM)遗忘技术,旨在移除模型中不需要的数据影响(如版权内容、有害信息)同时保留模型效用。现有主流方法NPO(NegativePreferenceOptimization)存在参考模型偏差问题,导致优化资源分配不均、早期梯度权重平滑无效等缺陷。为此,作者提出SimNPO框架,借鉴无参考的简单偏好优化(SimPO),通过长度归一化的奖励机制消除参考模型依赖,在TOFU、MUSE、WMDP等基准测试中,SimNPO在遗忘效果、模型效用及抗重学习攻击鲁棒性上均优于NPO等基线方法。
2025_NIPS_SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning
评估大型语言模型(LLM)推理(如链式思维)的逐步可靠性仍然具有挑战性,这是因为获取高质量的步骤级监督数据既困难又耗时。本文提出了一种名为自博弈评论器(Self-PlayCritic,SPC)的新型方法:评论模型通过对抗性自博弈游戏进化其评估推理步骤的能力,无需人工步骤级标注。SPC通过微调基础模型的两个副本,使其分别扮演两个角色——“狡猾生成器”(刻意生成难以检测的错误步骤)和"评论器"(分析推理步骤的正确性)。这两个模型进行对抗性博弈:生成器旨在欺骗评论器,而评论器则致力于识别生成器的错误。
2025_NIPS_Ctrl-DNA: Controllable Cell-Type-Specific Regulatory DNA Design via Constrained RL
该研究提出Ctrl-DNA,一种基于约束强化学习(RL)的框架,用于设计具有可控细胞类型特异性的调控DNA序列(顺式调控元件CRE,如启动子和增强子)。其核心是将调控序列设计转化为生物启发的约束优化问题,通过强化学习微调预训练基因组语言模型,在最大化目标细胞类型调控活性的同时,抑制脱靶细胞的活性。研究在人类启动子和增强子数据集(覆盖6种细胞类型)上验证,Ctrl-DNA在目标细胞活性、脱靶约束满足度、生物合理性(转录因子结合位点TFBS匹配)和序列多样性上均优于现有生成模型、进化算法和RL方法。
2025_NIPS_LAYERIF: Estimating Layer Quality for Large Language Models using Influence Functions
本文针对大型语言模型(LLMs)各层训练质量存在显著差异、现有评估方法多依赖模型中心启发式(忽略数据影响)的问题,提出了LAYERIF框架——一种基于影响函数(InfluenceFunctions,IFs)的数据流驱动方法,用于量化LLM各层(Transformer块)的训练质量和任务相关性重要性。预训练大型语言模型(LLMs)在各类任务中表现出色,但不同层的训练质量针对特定下游应用存在显著差异,限制了其下游性能。因此,亟需一种同时考虑模型架构和训练数据的层级训练质量评估方法。
2025_NIPS_Flexible Realignment of Language Models
当语言模型(LM)无法达到预期性能时,重对齐(Realignment)变得十分必要。本文提出一种灵活的重对齐框架,支持在训练和推理阶段对对齐程度进行定量控制。该框架包含训练时重对齐(TrRa),通过可控融合参考模型与已对齐模型的logits,高效实现参考模型的重对齐。例如,TrRa在DeepSeek-R1-Distill-Qwen-1.5B模型上减少了54.63%的Token使用量,且无任何性能损失,优于DeepScaleR-1.5B的33.86%。
2025_NIPS_Nearly-Linear Time Private Hypothesis Selection with the Optimal Approximation Factor
从样本中估计分布的密度是统计学中的一个基本问题。假设选择处理的场景是,除样本集外,我们还给定n个候选分布(称为假设),目标是确定哪个假设最能描述潜在的数据分布。该问题已知可高效求解,大约需要OlognO(logn)Ologn个样本,运行时间为OnOn。输出质量通过与未知分布的总变差距离衡量,算法的近似因子决定了该距离与最优候选假设所达到的最小距离的比值。已知α=3是该问题的最优近似因子。
2025_NIPS_DINGO: Constrained Inference for Diffusion LLMs
该研究针对扩散语言模型(DiffusionLLMs)并行生成令牌的特性,提出了首个支持正则表达式约束的解码算法DINGO。扩散LLMs虽比自回归模型效率更高,但现有约束解码方法无法适配其并行生成逻辑,且易扭曲输出分布。DINGO通过动态规划技术,在严格遵守用户指定正则约束的同时,保证生成结果是模型预测分布下概率最高的有效输出,解决了结构有效性与分布保真性的双重问题。在符号数学推理(GSM-Symbolic)和JSON生成任务中,DINGO相比无约束推理最高提升68%性能,且实现100%语法正确性。
