Loading...
聚焦合成数据在大语言模型(LLM)训练中的安全风险,发现现有数据投毒和后门攻击难以通过合成数据传播,核心原因是投毒内容的查询分布占比极低(仅0.00%-0.24%)。提出通用攻击框架,模拟计算机病毒传播机制,通过“劫持点搜索”和“外壳构建”将投毒载荷嵌入良性样本,实现投毒内容在纯净查询下的跨模型传播。多场景实验验证(情感操控、知识注入、偏见推荐等)显示,VIA可将合成数据中的投毒感染率(IR)从不足1%提升至70%以上,下游模型攻击成功率(ASR)接近上游投毒模型水平。
2025_NIPS_Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment
人类反馈在使大型语言模型(LLMs)与人类偏好对齐方面发挥着关键作用。然而,此类反馈往往存在噪声或不一致性,这会降低奖励模型的质量并阻碍对齐过程。尽管已有多种自动化数据清洗方法被提出以缓解这一问题,但对其有效性和泛化性的系统性评估仍较为缺乏。为填补这一空白,我们首次引入了一个全面的基准测试PrefCleanBench,用于评估LLM对齐场景下的13种偏好数据清洗方法。该基准提供了标准化协议,从对齐性能以及在不同数据集、模型架构和优化算法上的泛化性等方面评估清洗策略。
2025_NIPS_Regression-adjusted Monte Carlo Estimators for Shapley Values and Probabilistic Values
源于博弈论的Shapley值、Banzhaf值和半值等概率值,已成为可解释人工智能(XAI)的核心工具,广泛应用于特征归因、数据归因、数据估值等场景。由于这些值的精确计算均需指数级时间,相关研究主要集中在两种高效近似方法:蒙特卡洛采样和线性回归建模。本文提出一种融合这两种技术的新方法,该方法比现有算法更灵活,允许将线性回归替换为任何可高效计算概率值的函数族。这使得我们能够利用XGBoost等树基模型的准确性,同时仍能生成无偏估计。通过在8个数据集上的实验验证,我们的方法在概率值估算任务中达到了最先进的性能。
2025_NIPS_Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and Empirical
本文聚焦多模态大语言模型(MLLMs)的视觉冗余问题,通过分析注意力行为发现其推理过程存在三个核心阶段:早期融合、模态内建模、多模态推理。研究揭示,视觉tokens在文本tokens获取足够视觉信息后便不再对推理有实质贡献。基于此,提出动态视觉token退出方法(DyVTE),通过轻量级超网络感知文本token状态,自动决策视觉tokens的退出时机,在不损失性能的前提下降低计算开销。
2025_NIPS_Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
大型语言模型(LLMs)在通过生成形式化规范普及自动推理方面展现出巨大潜力。然而,存在一个根本性矛盾:LLMs是概率性的,而形式化验证需要确定性保证。本文通过全面研究LLM生成的形式化产物中的失效模式和不确定性量化(UQ),解决了这一认识论鸿沟。我们对五个前沿LLM的系统评估表明,基于可满足性模理论(SMT)的自动形式化对准确率具有领域特异性影响(逻辑类任务提升34.8%,事实类任务下降44.5%),而令牌概率熵等现有UQ技术无法识别这些错误。
20205_NIPS_Chain of Execution Supervision Promotes General Reasoning in Large Language Models
构建稳健且通用的推理能力是大型语言模型(LLMs)发展的核心目标。近年来,越来越多的研究将代码作为丰富的训练资源,因其固有的逻辑结构和多样化的推理范式(如分治、拓扑排序和枚举)。然而,代码中的推理逻辑通常是隐含的,且与语法细节或实现噪声相互交织,直接使用原始代码进行训练并非最优选择。为解决这一问题,我们提出TracePile——一个包含260万个样本的大规模数据集,它将代码执行过程转化为显式、逐步的思维链风格推理过程,我们称之为“执行链(ChainofExecution,CoE)”。
2025_NIPS_Enhancing LLM Watermark Resilience Against Both Scrubbing and Spoofing Attacks
该研究聚焦大语言模型(LLM)水印技术面临的擦除攻击(scrubbing)和伪造攻击(spoofing)困境,提出了基于“等效纹理密钥”(equivalenttexturekeys)的水印方案SEEK(Sub-vocabularydecomposedEquivalenttExtureKey)。核心突破是打破了传统水印中“窗口大小”与两种攻击抗性的固有权衡,通过子词汇表分解机制,在不降低文本质量的前提下,实现了帕累托最优的攻击防御效果。
2025_NIPS_FlexAC : Towards Flexible Control of Associative Reasoning in Multimodal Large Language Mo
本文聚焦多模态大型语言模型(MLLMs)在忠实性与创造性之间的固有权衡问题——不同任务对关联推理强度的需求各异,但现有方法缺乏灵活调节该强度的机制,限制了模型在事实类和创意类场景中的适应性。研究首先通过层分析和干预实验,揭示了MLLMs关联行为的核心机制:1)中间层是塑造模型关联倾向的关键;2)修改中间层表示可有效调节关联推理强度;3)幻觉输出可用于推导引导关联调节的导向向量。基于这些发现,作者提出。
2025_NIPS_GraphChain: Large Language Models for Large-scale Graph Analysis via Tool Chaining
大型语言模型(LLMs)在应用于大规模图数据时面临显著限制,难以应对上下文约束和僵化推理问题。本文提出GraphChain框架,通过动态的专业化工具序列赋能LLMs分析复杂图数据,模拟人类探索式智能。该方法包含两项关键创新:(1)渐进式图蒸馏——一种强化学习机制,用于生成平衡任务相关性与信息压缩的优化工具序列;(2)结构感知测试时适配——利用谱特性和轻量级适配器,高效调整工具选择策略以适配多样化图拓扑结构,无需进行昂贵的重训练。
2025_NIPS_Interpreting vision transformers via residual replacement model
视觉Transformer(ViT)如何表示和处理世界?本文通过对稀疏自编码器提取的所有层中的6.6K个特征进行首次系统性分析,并引入残差替换模型(该模型用残差流中的可解释特征替代ViT计算),解决了这一长期存在的问题。我们的分析不仅揭示了特征从低层模式到高层语义的演化过程,还阐明了ViT如何通过专用特征类型编码曲线和空间位置。残差替换模型通过显著简化原始计算,可扩展地生成用于人类尺度可解释性的忠实且简洁的电路。最终,该框架使ViT机制的直观理解成为可能。
2025_NIPS_Real-World Reinforcement Learning of Active Perception Behaviors
机器人的瞬时感官观测并不总能揭示与任务相关的状态信息。在这种部分可观测场景下,最优行为通常需要明确采取行动以获取缺失信息。如今的标准机器人学习技术难以生成此类主动感知行为。本文提出一种简单的真实世界机器人学习方案,用于高效训练主动感知策略。我们的方法——非对称优势加权回归(AAWR)——在训练时利用“特权”额外传感器。这些特权传感器能够训练出高质量的特权价值函数,帮助估计目标策略的优势值。基于少量可能非最优的演示数据和易于获取的粗略策略初始化,AAWR能快速习得主动感知行为并提升任务性能。
2025_NIPS_MoBA: Mixture of Block Attention for Long-Context LLMs
缩放有效上下文长度对于推动大型语言模型(LLMs)向人工通用智能(AGI)发展至关重要。然而,传统注意力机制固有的二次计算复杂度增长带来了难以承受的开销。现有方法要么施加强偏差结构(如适用于特定任务的sink注意力或窗口注意力),要么将注意力机制彻底修改为线性近似,但这些方法在复杂推理任务中的性能尚未得到充分探索。本文提出一种遵循“少结构”原则的解决方案,让模型自主决定关注对象,而非引入预定义偏差。我们引入混合块注意力(MoBA),这是一种将混合专家(MoE)原理应用于注意力机制的创新方法。
2025_NIPS_Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
本文提出,一种仅基于2D视频输入就能增强多模态大语言模型(MLLMs)视觉空间智能的框架。现有MLLMs在2D任务上表现出色,但3D空间推理能力有限,且多数3DMLLMs依赖额外3D/2.5D数据(如点云、深度图),限制了实际应用场景。Spatial-MLLM通过双编码器架构、空间感知帧采样策略和专属训练流程,在纯2D输入下实现了先进的空间理解与推理性能,在VSI-Bench、ScanQA等多个基准测试中表现突出。
2025_NIPS_ELM: Hyperbolic Large Language Models via Mixture-of-Curvature Experts
前沿大语言模型(LLMs)在跨领域文本建模和生成任务中取得了显著成功。然而,自然语言具有内在的语义层级和精细的几何结构,当前LLMs由于依赖点积和范数等欧氏运算,无法完全捕捉这些特征。此外,近期研究表明,不尊重令牌嵌入的底层几何结构会导致训练不稳定性和生成能力下降。这些发现表明,转向非欧几何可以使语言模型更好地与文本的底层几何结构对齐。因此,我们提出完全在双曲空间中运行模型——双曲空间以其扩张性、无标度和低失真特性而闻名。
2025_NIPS_Practical and Effective Code Watermarking for Large Language Models
大语言模型(LLMs)在代码生成领域的快速发展引发了严重的归属权认证与知识产权问题。代码水印为该问题提供了潜在解决方案,但受限于编程语言严格的语法约束和语义要求,面临独特挑战。为应对这些挑战,我们提出ACW(AST引导的代码水印)——一种新颖的自适应框架,其在训练过程中利用抽象语法树(AST)分析学习水印嵌入策略。该框架能够识别可替换的代码组件,并通过策略性地偏向token选择来嵌入水印。我们还提出了一种新的采样方案,该方案根据语义上下文将token分配到红绿列表中,在保证统计区分度的同时保留代码功能。
2025_NIPS_Analogy-based Multi-Turn Jailbreak against Large Language Models
大型语言模型(LLMs)本质上支持多轮交互,这为越狱攻击开辟了新可能——此类攻击可逐步展开,相比单轮攻击更有可能有效绕过安全机制。然而,当前多轮越狱方法仍处于初级阶段,存在两大关键局限:其一,这些方法均需在上下文中插入敏感短语,导致对话显得可疑,增加被拒绝的概率,从而削弱攻击效果;其二,即使生成了有害内容,由于语义漂移(对话逐渐偏离预期目标),响应往往无法与恶意提示对齐。为解决这些挑战,我们提出一种基于类比的黑盒多轮越狱框架,通过构建完全良性的上下文来提高攻击成功率,同时确保与恶意意图的语义对齐。
2025_NIPS_Harmony in Divergence: Towards Fast, Accurate, and Memory-efficient Zeroth-order LLM Fine-
大语言模型(LLMs)在各类任务中表现出色,但标准的一阶(FO)微调需要大量内存,严重限制了实际部署。近年来,零阶(ZO)优化作为一种极具潜力的内存高效训练范式脱颖而出,它无需反向传播,仅依靠正向传播进行梯度估计,在资源受限场景中极具吸引力。然而,ZO方法在收敛速度和精度上均远落后于FO方法。为填补这一差距,我们提出了一种新颖的层间分歧分析方法,揭示了FO和ZO优化的独特更新模式。基于分析结果,我们旨在逼近FO方法的学习能力,提出了分歧驱动零阶优化(DiZO)。
2025_NIPS-Breaking the Performance Ceiling in Reinforcement Learning requires Inference Strategies
该研究聚焦强化学习(RL)在复杂多智能体任务中的性能瓶颈,提出通过推理阶段策略突破零样本(zero-shot)性能上限。研究在17个复杂RL任务(涵盖星际争霸、仓库调度、电路板布线等)中验证,仅增加数秒推理时间,就能使性能平均提升45%,最高达126%。核心是将推理阶段从“单一零样本输出”扩展为“基于时间/算力预算的多轮搜索与适配”,并系统对比了随机采样、树搜索、在线微调、COMPASS(潜空间多样性搜索)四种策略,最终证实SABLE(最优基础模型)+COMPASS组合效果最佳且扩展性最强。
2025_NIPS_Activated LoRA: Fine-tuned LLMs for Intrinsics
低秩适配(LoRA)已成为微调大型基础模型权重的高效框架,并已成为基于数据定制大语言模型(LLMs)的首选方法。尽管LoRA有望实现高度定制化的行为和能力,但在多轮对话场景中切换相关LoRA时效率低下——因为在生成开始前,必须使用LoRA权重重新计算整个对话历史的键值(KV)缓存。为解决这一问题,我们提出了激活式LoRA(aLoRA),这是一种适配器架构,对LoRA框架进行修改,仅对aLoRA激活后的序列中的令牌适配权重。
2025_NIPS_Self-Refining Language Model Anonymizers via Adversarial Distillation
大型语言模型(LLMs)在敏感领域的应用日益广泛,其从看似无害的文本中推断个人数据的能力引发了新的隐私风险。尽管近期基于LLM的匿名化方法有助于缓解此类风险,但这些方法往往依赖专有模型(如GPT-4),引发了关于成本以及敏感数据向不可信外部系统暴露的担忧。为解决这一问题,我们提出了语言模型自优化匿名化框架(SEAL),这是一种新颖的蒸馏框架,用于训练小型语言模型(SLMs),使其在推理阶段无需依赖外部模型即可实现高效匿名化。
