Loading...

2025_NIPS_Alleviating Hallucinations in Large Language Models through Multi-Model Contrastive Decodi
尽管大型语言模型(LLMs)在众多应用中表现出色,但它们仍然容易产生幻觉,生成与预训练语料不一致的内容。目前,几乎所有对比解码方法都是通过引入一个易产生幻觉的模型,并适当扩大幻觉token与目标token之间的对比对数概率差距来缓解幻觉问题。然而,现有对比解码方法虽能减轻幻觉,却对生成内容的事实准确性缺乏足够的置信度。在本研究中,我们提出了多模型对比解码(MCD),该方法将预训练语言模型与邪恶模型(易幻觉模型)和真实模型(高事实性模型)相结合进行对比解码。

2025_NIPS_Memory Injection Attacks on LLM Agents via Query-Only Interaction
该研究提出一种名为MINJA的新型记忆注入攻击,针对大型语言模型(LLM)智能体,仅通过查询交互即可向智能体的长期记忆库注入恶意记录。攻击核心是设计包含“桥接步骤”的恶意记录,将良性查询与恶意推理逻辑关联,再通过“指示提示词”诱导智能体自主生成相关推理,并采用“渐进缩短策略”逐步移除提示词痕迹,使恶意记录能被后续受害者查询高效检索。

2025_NIPS_Generating Computational Cognitive Models using Large Language Models
该研究提出pipeline,利用大型语言模型(LLMs)生成计算认知模型,在决策、学习、规划、记忆四大认知领域,其生成模型的预测性能均达到或超越文献中最优的领域特定模型,且具有可解释性强、效率高的特点。计算认知模型将认知理论形式化,使研究者能够量化认知过程,并通过将模型拟合到行为数据中来仲裁竞争理论。传统上,这些模型是手工设计的,需要深厚的领域知识、编程技能和大量时间投入。然而,机器学习的最新进展为这些挑战提供了解决方案。

2025_NIPS_SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks
对大型语言模型(LLM)智能体进行严格的安全导向评估,对于确保其在软件开发生命周期中安全部署至关重要。然而,现有基准测试大多依赖合成挑战或简化的漏洞数据集,无法捕捉安全工程师在实际工作中遇到的复杂性和模糊性。本文提出SEC-bench,首个用于评估LLM智能体在真实安全工程任务中表现的全自动基准测试框架。SEC-bench采用创新的多智能体架构,自动构建带有测试工具的代码仓库、在隔离环境中复现漏洞,并生成可靠评估所需的标准补丁。

2025_NIPS_STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Au
本文针对自动驾驶领域多模态大语言模型(VLMs)的时空推理能力评估缺口,提出了STSBench——一个基于场景的基准测试框架,并在nuScenes数据集上实例化得到STSnu基准。我们提出STSBench,一个基于场景的基准测试框架,用于评估自动驾驶领域视觉语言模型(VLMs)的整体理解能力。该框架利用真值标注从任意数据集自动挖掘预设交通场景,提供直观的用户界面以实现高效人工验证,并生成选择题用于模型评估。

2025_NIPS_Continual Knowledge Adaptation for Reinforcement Learning
强化学习使智能体能够通过与环境的交互学习最优行为。然而,现实世界环境通常具有非平稳性,要求智能体持续适配新任务和变化的条件。尽管持续强化学习(CRL)支持跨多个任务的学习,但现有方法往往面临灾难性遗忘和知识利用低效的问题。为解决这些挑战,我们提出了持续知识自适应强化学习(CKA-RL),该方法能够积累并有效利用历史知识。具体而言,我们引入了持续知识自适应策略,包括维护任务专属知识向量池,并动态利用历史知识使智能体适配新任务。该过程通过保留和适配关键模型参数,减轻了灾难性遗忘并实现了跨任务的高效知识迁移。

2025_NIPS_Learning to Steer: Input-dependent Steering for Multimodal LLMs
该研究聚焦多模态大语言模型(MLLMs)的后验引导问题,针对现有静态引导方法(如均值引导)仅使用单一固定引导向量、无法适配输入依赖型目标行为的局限,提出了输入依赖型引导方案。提出Prompt-to-Steer(P2S)方法,通过输入特异性对比提示生成专属引导向量,但该方法因测试时需已知对比提示而难以落地;设计Learn-to-Steer(L2S)框架,利用轻量辅助网络学习从输入潜在表示映射到P2S引导向量,实现低计算开销的输入依赖型引导;

2025_NIPS_Group-in-Group Policy Optimization for LLM Agent Training
基于分组的强化学习(RL)最新进展推动了前沿大型语言模型(LLMs)在数学推理等单轮任务中的性能提升,但它们在多轮LLM智能体训练中的扩展性仍受到限制。与静态任务不同,智能体与环境的交互需经历多个步骤,且奖励往往稀疏或延迟,导致个体步骤的信用分配极具挑战性。本文提出一种新型RL算法——Group-in-GroupPolicyOptimization(GiGPO),该算法在为LLM智能体实现细粒度信用分配的同时,保留了分组RL的核心优势:无评论家(critic-free)、低内存占用和稳定收敛。

2025_NIPS_Virus Infection Attack on LLMs: Your Poisoning Can Spread “VIA” Synthetic Data
聚焦合成数据在大语言模型(LLM)训练中的安全风险,发现现有数据投毒和后门攻击难以通过合成数据传播,核心原因是投毒内容的查询分布占比极低(仅0.00%-0.24%)。提出通用攻击框架,模拟计算机病毒传播机制,通过“劫持点搜索”和“外壳构建”将投毒载荷嵌入良性样本,实现投毒内容在纯净查询下的跨模型传播。多场景实验验证(情感操控、知识注入、偏见推荐等)显示,VIA可将合成数据中的投毒感染率(IR)从不足1%提升至70%以上,下游模型攻击成功率(ASR)接近上游投毒模型水平。

2025_NIPS_Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment
人类反馈在使大型语言模型(LLMs)与人类偏好对齐方面发挥着关键作用。然而,此类反馈往往存在噪声或不一致性,这会降低奖励模型的质量并阻碍对齐过程。尽管已有多种自动化数据清洗方法被提出以缓解这一问题,但对其有效性和泛化性的系统性评估仍较为缺乏。为填补这一空白,我们首次引入了一个全面的基准测试PrefCleanBench,用于评估LLM对齐场景下的13种偏好数据清洗方法。该基准提供了标准化协议,从对齐性能以及在不同数据集、模型架构和优化算法上的泛化性等方面评估清洗策略。

2025_NIPS_Regression-adjusted Monte Carlo Estimators for Shapley Values and Probabilistic Values
源于博弈论的Shapley值、Banzhaf值和半值等概率值,已成为可解释人工智能(XAI)的核心工具,广泛应用于特征归因、数据归因、数据估值等场景。由于这些值的精确计算均需指数级时间,相关研究主要集中在两种高效近似方法:蒙特卡洛采样和线性回归建模。本文提出一种融合这两种技术的新方法,该方法比现有算法更灵活,允许将线性回归替换为任何可高效计算概率值的函数族。这使得我们能够利用XGBoost等树基模型的准确性,同时仍能生成无偏估计。通过在8个数据集上的实验验证,我们的方法在概率值估算任务中达到了最先进的性能。

2025_NIPS_Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and Empirical
本文聚焦多模态大语言模型(MLLMs)的视觉冗余问题,通过分析注意力行为发现其推理过程存在三个核心阶段:早期融合、模态内建模、多模态推理。研究揭示,视觉tokens在文本tokens获取足够视觉信息后便不再对推理有实质贡献。基于此,提出动态视觉token退出方法(DyVTE),通过轻量级超网络感知文本token状态,自动决策视觉tokens的退出时机,在不损失性能的前提下降低计算开销。

2025_NIPS_Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
大型语言模型(LLMs)在通过生成形式化规范普及自动推理方面展现出巨大潜力。然而,存在一个根本性矛盾:LLMs是概率性的,而形式化验证需要确定性保证。本文通过全面研究LLM生成的形式化产物中的失效模式和不确定性量化(UQ),解决了这一认识论鸿沟。我们对五个前沿LLM的系统评估表明,基于可满足性模理论(SMT)的自动形式化对准确率具有领域特异性影响(逻辑类任务提升34.8%,事实类任务下降44.5%),而令牌概率熵等现有UQ技术无法识别这些错误。

20205_NIPS_Chain of Execution Supervision Promotes General Reasoning in Large Language Models
构建稳健且通用的推理能力是大型语言模型(LLMs)发展的核心目标。近年来,越来越多的研究将代码作为丰富的训练资源,因其固有的逻辑结构和多样化的推理范式(如分治、拓扑排序和枚举)。然而,代码中的推理逻辑通常是隐含的,且与语法细节或实现噪声相互交织,直接使用原始代码进行训练并非最优选择。为解决这一问题,我们提出TracePile——一个包含260万个样本的大规模数据集,它将代码执行过程转化为显式、逐步的思维链风格推理过程,我们称之为“执行链(ChainofExecution,CoE)”。

2025_NIPS_Enhancing LLM Watermark Resilience Against Both Scrubbing and Spoofing Attacks
该研究聚焦大语言模型(LLM)水印技术面临的擦除攻击(scrubbing)和伪造攻击(spoofing)困境,提出了基于“等效纹理密钥”(equivalenttexturekeys)的水印方案SEEK(Sub-vocabularydecomposedEquivalenttExtureKey)。核心突破是打破了传统水印中“窗口大小”与两种攻击抗性的固有权衡,通过子词汇表分解机制,在不降低文本质量的前提下,实现了帕累托最优的攻击防御效果。

2025_NIPS_FlexAC : Towards Flexible Control of Associative Reasoning in Multimodal Large Language Mo
本文聚焦多模态大型语言模型(MLLMs)在忠实性与创造性之间的固有权衡问题——不同任务对关联推理强度的需求各异,但现有方法缺乏灵活调节该强度的机制,限制了模型在事实类和创意类场景中的适应性。研究首先通过层分析和干预实验,揭示了MLLMs关联行为的核心机制:1)中间层是塑造模型关联倾向的关键;2)修改中间层表示可有效调节关联推理强度;3)幻觉输出可用于推导引导关联调节的导向向量。基于这些发现,作者提出。

2025_NIPS_GraphChain: Large Language Models for Large-scale Graph Analysis via Tool Chaining
大型语言模型(LLMs)在应用于大规模图数据时面临显著限制,难以应对上下文约束和僵化推理问题。本文提出GraphChain框架,通过动态的专业化工具序列赋能LLMs分析复杂图数据,模拟人类探索式智能。该方法包含两项关键创新:(1)渐进式图蒸馏——一种强化学习机制,用于生成平衡任务相关性与信息压缩的优化工具序列;(2)结构感知测试时适配——利用谱特性和轻量级适配器,高效调整工具选择策略以适配多样化图拓扑结构,无需进行昂贵的重训练。

2025_NIPS_Interpreting vision transformers via residual replacement model
视觉Transformer(ViT)如何表示和处理世界?本文通过对稀疏自编码器提取的所有层中的6.6K个特征进行首次系统性分析,并引入残差替换模型(该模型用残差流中的可解释特征替代ViT计算),解决了这一长期存在的问题。我们的分析不仅揭示了特征从低层模式到高层语义的演化过程,还阐明了ViT如何通过专用特征类型编码曲线和空间位置。残差替换模型通过显著简化原始计算,可扩展地生成用于人类尺度可解释性的忠实且简洁的电路。最终,该框架使ViT机制的直观理解成为可能。

2025_NIPS_Real-World Reinforcement Learning of Active Perception Behaviors
机器人的瞬时感官观测并不总能揭示与任务相关的状态信息。在这种部分可观测场景下,最优行为通常需要明确采取行动以获取缺失信息。如今的标准机器人学习技术难以生成此类主动感知行为。本文提出一种简单的真实世界机器人学习方案,用于高效训练主动感知策略。我们的方法——非对称优势加权回归(AAWR)——在训练时利用“特权”额外传感器。这些特权传感器能够训练出高质量的特权价值函数,帮助估计目标策略的优势值。基于少量可能非最优的演示数据和易于获取的粗略策略初始化,AAWR能快速习得主动感知行为并提升任务性能。

2025_NIPS_MoBA: Mixture of Block Attention for Long-Context LLMs
缩放有效上下文长度对于推动大型语言模型(LLMs)向人工通用智能(AGI)发展至关重要。然而,传统注意力机制固有的二次计算复杂度增长带来了难以承受的开销。现有方法要么施加强偏差结构(如适用于特定任务的sink注意力或窗口注意力),要么将注意力机制彻底修改为线性近似,但这些方法在复杂推理任务中的性能尚未得到充分探索。本文提出一种遵循“少结构”原则的解决方案,让模型自主决定关注对象,而非引入预定义偏差。我们引入混合块注意力(MoBA),这是一种将混合专家(MoE)原理应用于注意力机制的创新方法。

欢迎留下您的脚印