Loading...
在分布式环境下训练长序列Transformer模型面临着效率和可扩展性方面的重大挑战。现有方法要么受限于注意力头数量,要么存在过高的通信开销。为解决这一问题,我们提出了StarTrail——一种用于长序列的多维同心分布式训练系统,该系统构建了高效的通信范式,并为通信配置提供了额外的调优灵活性。具体而言,StarTrail引入了一个额外的并行维度,将点对点通信划分为子环通信,从而大幅降低通信量并避免带宽瓶颈。
2025_NIPS_MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hier
大语言模型(LLMs)在自动化科学假设生成方面已展现出潜力,但现有方法主要生成粗粒度假设,缺乏关键的方法学和实验细节。本文引入并正式定义了细粒度科学假设发现这一新任务,即从粗略的初始研究方向生成详细、可通过实验验证的假设。我们将该任务构建为组合优化问题,并探究当LLMs被最大化利用时,其解决该问题的能力上限。具体而言,我们围绕四个核心问题展开研究:(1)如何充分利用LLM的内部启发式,制定出该模型自身判定为所有可能生成假设中最具潜力的细粒度假设——即基于其内部评分在假设空间上定义一个潜在奖励景观;
2025_NIPS_Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference
大语言模型(LLMs)现已融入各类领域并展现出令人印象深刻的性能。然而,相关研究进展的前提是基准测试分数既准确又可复现。本文研究表明,LLM性能的可复现性十分脆弱:改变评估批次大小、GPU数量和GPU型号等系统配置,会导致生成结果出现显著差异。该问题在推理类模型中尤为突出——早期token的微小舍入误差可能会引发连锁反应,导致推理链分歧,最终影响准确率。
2025_NIPS_Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Model
该研究聚焦于大语言模型(LLMs)在稀疏环境反馈下的时序信用分配与在线强化学习问题,核心是解决LLM智能体自进化训练中样本效率低、泛化能力有限的痛点。核心挑战:在多轮序列决策任务中,环境反馈通常稀疏(仅在任务完成时获得奖励),传统时序信用分配方法依赖任务特定价值函数,存在样本效率低、泛化性差的问题。核心方法提出回顾性上下文学习(RICL):利用LLM的预训练知识,通过回顾轨迹反馈生成细粒度指导,将稀疏奖励转化为稠密的优势函数(训练信号),实现高效时序信用分配。提出在线学习框架RICOL。
2025_NIPS_Deep RL Needs Deep Behavior Analysis: Exploring Implicit Planning by Model-Free Agents in
随着任务复杂度和智能体sophistication的提升,理解深度强化学习(DRL)智能体的行为已不仅限于奖励曲线的简单对比,但DRL领域的标准行为分析方法仍显滞后。本研究将神经科学和行为学工具应用于新型复杂部分可观测环境ForageWorld中的DRL智能体研究,该环境模拟了真实世界动物觅食的核心特征——包括稀疏且消耗性的资源斑块、捕食者威胁和空间扩展型活动区域。我们以该环境为平台,对智能体进行行为与神经联合分析,揭示了关于智能体策略、记忆和规划的详细量化洞见。
2025_NIPS_Reasoning Planning for Language Models
为给定查询选择合适的推理方法仍是语言模型生成中的核心挑战。现有方法通常生成多个候选答案,并采用聚合策略筛选输出结果,且往往假设候选答案数量越多,准确率越高。本文通过严格的理论分析重新审视这一假设,在固定生成分布和候选规模下,推导了标准聚合方法的准确率边界。基于这些见解,我们提出了EPIC(EnsemblePlannIngwithContrastivelearning)框架——一种结合对比学习的集成规划方法,用于学习一个共享表征空间,该空间同时捕捉模型推理能力与查询-方法适配性。
2025_NIPS_Alleviating Hallucinations in Large Language Models through Multi-Model Contrastive Decodi
尽管大型语言模型(LLMs)在众多应用中表现出色,但它们仍然容易产生幻觉,生成与预训练语料不一致的内容。目前,几乎所有对比解码方法都是通过引入一个易产生幻觉的模型,并适当扩大幻觉token与目标token之间的对比对数概率差距来缓解幻觉问题。然而,现有对比解码方法虽能减轻幻觉,却对生成内容的事实准确性缺乏足够的置信度。在本研究中,我们提出了多模型对比解码(MCD),该方法将预训练语言模型与邪恶模型(易幻觉模型)和真实模型(高事实性模型)相结合进行对比解码。
2025_NIPS_Memory Injection Attacks on LLM Agents via Query-Only Interaction
该研究提出一种名为MINJA的新型记忆注入攻击,针对大型语言模型(LLM)智能体,仅通过查询交互即可向智能体的长期记忆库注入恶意记录。攻击核心是设计包含“桥接步骤”的恶意记录,将良性查询与恶意推理逻辑关联,再通过“指示提示词”诱导智能体自主生成相关推理,并采用“渐进缩短策略”逐步移除提示词痕迹,使恶意记录能被后续受害者查询高效检索。
2025_NIPS_Generating Computational Cognitive Models using Large Language Models
该研究提出pipeline,利用大型语言模型(LLMs)生成计算认知模型,在决策、学习、规划、记忆四大认知领域,其生成模型的预测性能均达到或超越文献中最优的领域特定模型,且具有可解释性强、效率高的特点。计算认知模型将认知理论形式化,使研究者能够量化认知过程,并通过将模型拟合到行为数据中来仲裁竞争理论。传统上,这些模型是手工设计的,需要深厚的领域知识、编程技能和大量时间投入。然而,机器学习的最新进展为这些挑战提供了解决方案。
2025_NIPS_SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks
对大型语言模型(LLM)智能体进行严格的安全导向评估,对于确保其在软件开发生命周期中安全部署至关重要。然而,现有基准测试大多依赖合成挑战或简化的漏洞数据集,无法捕捉安全工程师在实际工作中遇到的复杂性和模糊性。本文提出SEC-bench,首个用于评估LLM智能体在真实安全工程任务中表现的全自动基准测试框架。SEC-bench采用创新的多智能体架构,自动构建带有测试工具的代码仓库、在隔离环境中复现漏洞,并生成可靠评估所需的标准补丁。
2025_NIPS_STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Au
本文针对自动驾驶领域多模态大语言模型(VLMs)的时空推理能力评估缺口,提出了STSBench——一个基于场景的基准测试框架,并在nuScenes数据集上实例化得到STSnu基准。我们提出STSBench,一个基于场景的基准测试框架,用于评估自动驾驶领域视觉语言模型(VLMs)的整体理解能力。该框架利用真值标注从任意数据集自动挖掘预设交通场景,提供直观的用户界面以实现高效人工验证,并生成选择题用于模型评估。
2025_NIPS_Continual Knowledge Adaptation for Reinforcement Learning
强化学习使智能体能够通过与环境的交互学习最优行为。然而,现实世界环境通常具有非平稳性,要求智能体持续适配新任务和变化的条件。尽管持续强化学习(CRL)支持跨多个任务的学习,但现有方法往往面临灾难性遗忘和知识利用低效的问题。为解决这些挑战,我们提出了持续知识自适应强化学习(CKA-RL),该方法能够积累并有效利用历史知识。具体而言,我们引入了持续知识自适应策略,包括维护任务专属知识向量池,并动态利用历史知识使智能体适配新任务。该过程通过保留和适配关键模型参数,减轻了灾难性遗忘并实现了跨任务的高效知识迁移。
2025_NIPS_Learning to Steer: Input-dependent Steering for Multimodal LLMs
该研究聚焦多模态大语言模型(MLLMs)的后验引导问题,针对现有静态引导方法(如均值引导)仅使用单一固定引导向量、无法适配输入依赖型目标行为的局限,提出了输入依赖型引导方案。提出Prompt-to-Steer(P2S)方法,通过输入特异性对比提示生成专属引导向量,但该方法因测试时需已知对比提示而难以落地;设计Learn-to-Steer(L2S)框架,利用轻量辅助网络学习从输入潜在表示映射到P2S引导向量,实现低计算开销的输入依赖型引导;
2025_NIPS_Group-in-Group Policy Optimization for LLM Agent Training
基于分组的强化学习(RL)最新进展推动了前沿大型语言模型(LLMs)在数学推理等单轮任务中的性能提升,但它们在多轮LLM智能体训练中的扩展性仍受到限制。与静态任务不同,智能体与环境的交互需经历多个步骤,且奖励往往稀疏或延迟,导致个体步骤的信用分配极具挑战性。本文提出一种新型RL算法——Group-in-GroupPolicyOptimization(GiGPO),该算法在为LLM智能体实现细粒度信用分配的同时,保留了分组RL的核心优势:无评论家(critic-free)、低内存占用和稳定收敛。
2025_NIPS_Virus Infection Attack on LLMs: Your Poisoning Can Spread “VIA” Synthetic Data
聚焦合成数据在大语言模型(LLM)训练中的安全风险,发现现有数据投毒和后门攻击难以通过合成数据传播,核心原因是投毒内容的查询分布占比极低(仅0.00%-0.24%)。提出通用攻击框架,模拟计算机病毒传播机制,通过“劫持点搜索”和“外壳构建”将投毒载荷嵌入良性样本,实现投毒内容在纯净查询下的跨模型传播。多场景实验验证(情感操控、知识注入、偏见推荐等)显示,VIA可将合成数据中的投毒感染率(IR)从不足1%提升至70%以上,下游模型攻击成功率(ASR)接近上游投毒模型水平。
2025_NIPS_Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment
人类反馈在使大型语言模型(LLMs)与人类偏好对齐方面发挥着关键作用。然而,此类反馈往往存在噪声或不一致性,这会降低奖励模型的质量并阻碍对齐过程。尽管已有多种自动化数据清洗方法被提出以缓解这一问题,但对其有效性和泛化性的系统性评估仍较为缺乏。为填补这一空白,我们首次引入了一个全面的基准测试PrefCleanBench,用于评估LLM对齐场景下的13种偏好数据清洗方法。该基准提供了标准化协议,从对齐性能以及在不同数据集、模型架构和优化算法上的泛化性等方面评估清洗策略。
2025_NIPS_Regression-adjusted Monte Carlo Estimators for Shapley Values and Probabilistic Values
源于博弈论的Shapley值、Banzhaf值和半值等概率值,已成为可解释人工智能(XAI)的核心工具,广泛应用于特征归因、数据归因、数据估值等场景。由于这些值的精确计算均需指数级时间,相关研究主要集中在两种高效近似方法:蒙特卡洛采样和线性回归建模。本文提出一种融合这两种技术的新方法,该方法比现有算法更灵活,允许将线性回归替换为任何可高效计算概率值的函数族。这使得我们能够利用XGBoost等树基模型的准确性,同时仍能生成无偏估计。通过在8个数据集上的实验验证,我们的方法在概率值估算任务中达到了最先进的性能。
2025_NIPS_Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and Empirical
本文聚焦多模态大语言模型(MLLMs)的视觉冗余问题,通过分析注意力行为发现其推理过程存在三个核心阶段:早期融合、模态内建模、多模态推理。研究揭示,视觉tokens在文本tokens获取足够视觉信息后便不再对推理有实质贡献。基于此,提出动态视觉token退出方法(DyVTE),通过轻量级超网络感知文本token状态,自动决策视觉tokens的退出时机,在不损失性能的前提下降低计算开销。
2025_NIPS_Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
大型语言模型(LLMs)在通过生成形式化规范普及自动推理方面展现出巨大潜力。然而,存在一个根本性矛盾:LLMs是概率性的,而形式化验证需要确定性保证。本文通过全面研究LLM生成的形式化产物中的失效模式和不确定性量化(UQ),解决了这一认识论鸿沟。我们对五个前沿LLM的系统评估表明,基于可满足性模理论(SMT)的自动形式化对准确率具有领域特异性影响(逻辑类任务提升34.8%,事实类任务下降44.5%),而令牌概率熵等现有UQ技术无法识别这些错误。
20205_NIPS_Chain of Execution Supervision Promotes General Reasoning in Large Language Models
构建稳健且通用的推理能力是大型语言模型(LLMs)发展的核心目标。近年来,越来越多的研究将代码作为丰富的训练资源,因其固有的逻辑结构和多样化的推理范式(如分治、拓扑排序和枚举)。然而,代码中的推理逻辑通常是隐含的,且与语法细节或实现噪声相互交织,直接使用原始代码进行训练并非最优选择。为解决这一问题,我们提出TracePile——一个包含260万个样本的大规模数据集,它将代码执行过程转化为显式、逐步的思维链风格推理过程,我们称之为“执行链(ChainofExecution,CoE)”。
