Loading...

2025_NIPS_STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Au
本文针对自动驾驶领域多模态大语言模型(VLMs)的时空推理能力评估缺口,提出了STSBench——一个基于场景的基准测试框架,并在nuScenes数据集上实例化得到STSnu基准。我们提出STSBench,一个基于场景的基准测试框架,用于评估自动驾驶领域视觉语言模型(VLMs)的整体理解能力。该框架利用真值标注从任意数据集自动挖掘预设交通场景,提供直观的用户界面以实现高效人工验证,并生成选择题用于模型评估。

2025_NIPS_Continual Knowledge Adaptation for Reinforcement Learning
强化学习使智能体能够通过与环境的交互学习最优行为。然而,现实世界环境通常具有非平稳性,要求智能体持续适配新任务和变化的条件。尽管持续强化学习(CRL)支持跨多个任务的学习,但现有方法往往面临灾难性遗忘和知识利用低效的问题。为解决这些挑战,我们提出了持续知识自适应强化学习(CKA-RL),该方法能够积累并有效利用历史知识。具体而言,我们引入了持续知识自适应策略,包括维护任务专属知识向量池,并动态利用历史知识使智能体适配新任务。该过程通过保留和适配关键模型参数,减轻了灾难性遗忘并实现了跨任务的高效知识迁移。

2025_NIPS_Learning to Steer: Input-dependent Steering for Multimodal LLMs
该研究聚焦多模态大语言模型(MLLMs)的后验引导问题,针对现有静态引导方法(如均值引导)仅使用单一固定引导向量、无法适配输入依赖型目标行为的局限,提出了输入依赖型引导方案。提出Prompt-to-Steer(P2S)方法,通过输入特异性对比提示生成专属引导向量,但该方法因测试时需已知对比提示而难以落地;设计Learn-to-Steer(L2S)框架,利用轻量辅助网络学习从输入潜在表示映射到P2S引导向量,实现低计算开销的输入依赖型引导;

2025_NIPS_Group-in-Group Policy Optimization for LLM Agent Training
基于分组的强化学习(RL)最新进展推动了前沿大型语言模型(LLMs)在数学推理等单轮任务中的性能提升,但它们在多轮LLM智能体训练中的扩展性仍受到限制。与静态任务不同,智能体与环境的交互需经历多个步骤,且奖励往往稀疏或延迟,导致个体步骤的信用分配极具挑战性。本文提出一种新型RL算法——Group-in-GroupPolicyOptimization(GiGPO),该算法在为LLM智能体实现细粒度信用分配的同时,保留了分组RL的核心优势:无评论家(critic-free)、低内存占用和稳定收敛。

2025_NIPS_Virus Infection Attack on LLMs: Your Poisoning Can Spread “VIA” Synthetic Data
聚焦合成数据在大语言模型(LLM)训练中的安全风险,发现现有数据投毒和后门攻击难以通过合成数据传播,核心原因是投毒内容的查询分布占比极低(仅0.00%-0.24%)。提出通用攻击框架,模拟计算机病毒传播机制,通过“劫持点搜索”和“外壳构建”将投毒载荷嵌入良性样本,实现投毒内容在纯净查询下的跨模型传播。多场景实验验证(情感操控、知识注入、偏见推荐等)显示,VIA可将合成数据中的投毒感染率(IR)从不足1%提升至70%以上,下游模型攻击成功率(ASR)接近上游投毒模型水平。

2025_NIPS_Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment
人类反馈在使大型语言模型(LLMs)与人类偏好对齐方面发挥着关键作用。然而,此类反馈往往存在噪声或不一致性,这会降低奖励模型的质量并阻碍对齐过程。尽管已有多种自动化数据清洗方法被提出以缓解这一问题,但对其有效性和泛化性的系统性评估仍较为缺乏。为填补这一空白,我们首次引入了一个全面的基准测试PrefCleanBench,用于评估LLM对齐场景下的13种偏好数据清洗方法。该基准提供了标准化协议,从对齐性能以及在不同数据集、模型架构和优化算法上的泛化性等方面评估清洗策略。

2025_NIPS_Regression-adjusted Monte Carlo Estimators for Shapley Values and Probabilistic Values
源于博弈论的Shapley值、Banzhaf值和半值等概率值,已成为可解释人工智能(XAI)的核心工具,广泛应用于特征归因、数据归因、数据估值等场景。由于这些值的精确计算均需指数级时间,相关研究主要集中在两种高效近似方法:蒙特卡洛采样和线性回归建模。本文提出一种融合这两种技术的新方法,该方法比现有算法更灵活,允许将线性回归替换为任何可高效计算概率值的函数族。这使得我们能够利用XGBoost等树基模型的准确性,同时仍能生成无偏估计。通过在8个数据集上的实验验证,我们的方法在概率值估算任务中达到了最先进的性能。

2025_NIPS_Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and Empirical
本文聚焦多模态大语言模型(MLLMs)的视觉冗余问题,通过分析注意力行为发现其推理过程存在三个核心阶段:早期融合、模态内建模、多模态推理。研究揭示,视觉tokens在文本tokens获取足够视觉信息后便不再对推理有实质贡献。基于此,提出动态视觉token退出方法(DyVTE),通过轻量级超网络感知文本token状态,自动决策视觉tokens的退出时机,在不损失性能的前提下降低计算开销。

2025_NIPS_Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
大型语言模型(LLMs)在通过生成形式化规范普及自动推理方面展现出巨大潜力。然而,存在一个根本性矛盾:LLMs是概率性的,而形式化验证需要确定性保证。本文通过全面研究LLM生成的形式化产物中的失效模式和不确定性量化(UQ),解决了这一认识论鸿沟。我们对五个前沿LLM的系统评估表明,基于可满足性模理论(SMT)的自动形式化对准确率具有领域特异性影响(逻辑类任务提升34.8%,事实类任务下降44.5%),而令牌概率熵等现有UQ技术无法识别这些错误。

20205_NIPS_Chain of Execution Supervision Promotes General Reasoning in Large Language Models
构建稳健且通用的推理能力是大型语言模型(LLMs)发展的核心目标。近年来,越来越多的研究将代码作为丰富的训练资源,因其固有的逻辑结构和多样化的推理范式(如分治、拓扑排序和枚举)。然而,代码中的推理逻辑通常是隐含的,且与语法细节或实现噪声相互交织,直接使用原始代码进行训练并非最优选择。为解决这一问题,我们提出TracePile——一个包含260万个样本的大规模数据集,它将代码执行过程转化为显式、逐步的思维链风格推理过程,我们称之为“执行链(ChainofExecution,CoE)”。

2025_NIPS_Enhancing LLM Watermark Resilience Against Both Scrubbing and Spoofing Attacks
该研究聚焦大语言模型(LLM)水印技术面临的擦除攻击(scrubbing)和伪造攻击(spoofing)困境,提出了基于“等效纹理密钥”(equivalenttexturekeys)的水印方案SEEK(Sub-vocabularydecomposedEquivalenttExtureKey)。核心突破是打破了传统水印中“窗口大小”与两种攻击抗性的固有权衡,通过子词汇表分解机制,在不降低文本质量的前提下,实现了帕累托最优的攻击防御效果。

2025_NIPS_FlexAC : Towards Flexible Control of Associative Reasoning in Multimodal Large Language Mo
本文聚焦多模态大型语言模型(MLLMs)在忠实性与创造性之间的固有权衡问题——不同任务对关联推理强度的需求各异,但现有方法缺乏灵活调节该强度的机制,限制了模型在事实类和创意类场景中的适应性。研究首先通过层分析和干预实验,揭示了MLLMs关联行为的核心机制:1)中间层是塑造模型关联倾向的关键;2)修改中间层表示可有效调节关联推理强度;3)幻觉输出可用于推导引导关联调节的导向向量。基于这些发现,作者提出。

2025_NIPS_GraphChain: Large Language Models for Large-scale Graph Analysis via Tool Chaining
大型语言模型(LLMs)在应用于大规模图数据时面临显著限制,难以应对上下文约束和僵化推理问题。本文提出GraphChain框架,通过动态的专业化工具序列赋能LLMs分析复杂图数据,模拟人类探索式智能。该方法包含两项关键创新:(1)渐进式图蒸馏——一种强化学习机制,用于生成平衡任务相关性与信息压缩的优化工具序列;(2)结构感知测试时适配——利用谱特性和轻量级适配器,高效调整工具选择策略以适配多样化图拓扑结构,无需进行昂贵的重训练。

2025_NIPS_Interpreting vision transformers via residual replacement model
视觉Transformer(ViT)如何表示和处理世界?本文通过对稀疏自编码器提取的所有层中的6.6K个特征进行首次系统性分析,并引入残差替换模型(该模型用残差流中的可解释特征替代ViT计算),解决了这一长期存在的问题。我们的分析不仅揭示了特征从低层模式到高层语义的演化过程,还阐明了ViT如何通过专用特征类型编码曲线和空间位置。残差替换模型通过显著简化原始计算,可扩展地生成用于人类尺度可解释性的忠实且简洁的电路。最终,该框架使ViT机制的直观理解成为可能。

2025_NIPS_Real-World Reinforcement Learning of Active Perception Behaviors
机器人的瞬时感官观测并不总能揭示与任务相关的状态信息。在这种部分可观测场景下,最优行为通常需要明确采取行动以获取缺失信息。如今的标准机器人学习技术难以生成此类主动感知行为。本文提出一种简单的真实世界机器人学习方案,用于高效训练主动感知策略。我们的方法——非对称优势加权回归(AAWR)——在训练时利用“特权”额外传感器。这些特权传感器能够训练出高质量的特权价值函数,帮助估计目标策略的优势值。基于少量可能非最优的演示数据和易于获取的粗略策略初始化,AAWR能快速习得主动感知行为并提升任务性能。

2025_NIPS_MoBA: Mixture of Block Attention for Long-Context LLMs
缩放有效上下文长度对于推动大型语言模型(LLMs)向人工通用智能(AGI)发展至关重要。然而,传统注意力机制固有的二次计算复杂度增长带来了难以承受的开销。现有方法要么施加强偏差结构(如适用于特定任务的sink注意力或窗口注意力),要么将注意力机制彻底修改为线性近似,但这些方法在复杂推理任务中的性能尚未得到充分探索。本文提出一种遵循“少结构”原则的解决方案,让模型自主决定关注对象,而非引入预定义偏差。我们引入混合块注意力(MoBA),这是一种将混合专家(MoE)原理应用于注意力机制的创新方法。

2025_NIPS_Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
本文提出,一种仅基于2D视频输入就能增强多模态大语言模型(MLLMs)视觉空间智能的框架。现有MLLMs在2D任务上表现出色,但3D空间推理能力有限,且多数3DMLLMs依赖额外3D/2.5D数据(如点云、深度图),限制了实际应用场景。Spatial-MLLM通过双编码器架构、空间感知帧采样策略和专属训练流程,在纯2D输入下实现了先进的空间理解与推理性能,在VSI-Bench、ScanQA等多个基准测试中表现突出。

2025_NIPS_ELM: Hyperbolic Large Language Models via Mixture-of-Curvature Experts
前沿大语言模型(LLMs)在跨领域文本建模和生成任务中取得了显著成功。然而,自然语言具有内在的语义层级和精细的几何结构,当前LLMs由于依赖点积和范数等欧氏运算,无法完全捕捉这些特征。此外,近期研究表明,不尊重令牌嵌入的底层几何结构会导致训练不稳定性和生成能力下降。这些发现表明,转向非欧几何可以使语言模型更好地与文本的底层几何结构对齐。因此,我们提出完全在双曲空间中运行模型——双曲空间以其扩张性、无标度和低失真特性而闻名。

2025_NIPS_Practical and Effective Code Watermarking for Large Language Models
大语言模型(LLMs)在代码生成领域的快速发展引发了严重的归属权认证与知识产权问题。代码水印为该问题提供了潜在解决方案,但受限于编程语言严格的语法约束和语义要求,面临独特挑战。为应对这些挑战,我们提出ACW(AST引导的代码水印)——一种新颖的自适应框架,其在训练过程中利用抽象语法树(AST)分析学习水印嵌入策略。该框架能够识别可替换的代码组件,并通过策略性地偏向token选择来嵌入水印。我们还提出了一种新的采样方案,该方案根据语义上下文将token分配到红绿列表中,在保证统计区分度的同时保留代码功能。

2025_NIPS_Analogy-based Multi-Turn Jailbreak against Large Language Models
大型语言模型(LLMs)本质上支持多轮交互,这为越狱攻击开辟了新可能——此类攻击可逐步展开,相比单轮攻击更有可能有效绕过安全机制。然而,当前多轮越狱方法仍处于初级阶段,存在两大关键局限:其一,这些方法均需在上下文中插入敏感短语,导致对话显得可疑,增加被拒绝的概率,从而削弱攻击效果;其二,即使生成了有害内容,由于语义漂移(对话逐渐偏离预期目标),响应往往无法与恶意提示对齐。为解决这些挑战,我们提出一种基于类比的黑盒多轮越狱框架,通过构建完全良性的上下文来提高攻击成功率,同时确保与恶意意图的语义对齐。

欢迎留下您的脚印