Loading...
先进的大型语言模型(LLMs)在思维链(CoT)推理中常进行反思,自我验证当前解决方案的正确性并探索替代方案。然而,近期研究发现LLMs在CoT中检测错误的能力有限,反思为何能带来实证性能提升仍不明确。为解决这一问题,本文提出极简推理框架,支持小型Transformer在无自然语言的情况下实现基础自验证反思,确保分析清晰度并降低大规模实验成本。理论上,我们证明:若验证误差得到适当约束,自验证反思能保证推理性能提升。
2025_NIPS_Beyond Components: Singular Vector-Based Interpretability of Transformer Circuits
该研究突破传统Transformer可解释性方法将注意力头和MLP层视为不可分割单元的局限,提出基于奇异向量的细粒度解释视角。通过对Transformer组件(注意力机制的QK交互、OV投影及MLP层)构建增强矩阵并进行奇异值分解(SVD),将组件拆解为正交的奇异方向,揭示单个组件内共存的独立子功能。
2025_NIPS_The Rise of Parameter Specialization for Knowledge Storage in Large Language Models
随着时间的推移,各类系列的大型语言模型层出不穷。研究人员致力于在参数规模受限的情况下最大化语言模型的性能。然而,从微观角度来看,关于如何在模型参数(尤其是多层感知器(MLPs))中更好地存储知识,以让模型更有效地利用这些知识的研究尚显不足。本文分析了20个公开可用的开源大型语言模型,探究其优异性能与MLP参数中知识存储方式之间的关系。研究发现,随着语言模型的不断发展和知识能力的增强,其参数表现出更高的特化程度。具体而言,MLP中的参数更倾向于集中编码相似类型的知识。
2025_NIPS_VLM in a flash: I/O-Efficient Sparsification of Vision-Language Model via Neuron Chunking
视觉语言模型(VLM)在边缘设备的部署日益依赖基于闪存的权重卸载技术,而激活稀疏化常被用于降低I/O开销。然而,传统稀疏化方法仍以模型为中心,仅根据激活幅度选择神经元,忽视了访问模式对闪存性能的影响。本文提出(神经元分块)——一种I/O高效的稀疏化策略,其核心是对内存中连续的神经元组(块)进行操作,并将神经元重要性与存储访问成本相结合。该方法通过轻量化的访问连续性抽象建模I/O延迟,选择“效用”(神经元重要性除以估算延迟)较高的块。
2025_NIPS_EA3D: Online Open-World 3D Object Extraction from Streaming Videos
当前的3D场景理解方法受限于离线收集的多视角数据或预先构建的3D几何结构。本文提出了ExtractAnything3D(EA3D),这是一种用于开放世界3D物体提取的统一在线框架,能够同时进行几何重建和整体场景理解。给定流式视频,EA3D利用视觉语言和2D视觉基础编码器动态解析每帧图像,提取物体级知识。这些知识通过前馈在线更新策略整合并嵌入高斯特征图中。随后,我们从历史帧中迭代估计视觉里程计,并利用新的观测结果增量式更新在线高斯特征。
2025_NIPS_Dynamics-Aligned Latent Imagination in Contextual World Models for Zero-Shot Generaliza...
现实世界中的强化学习要求智能体在无需昂贵重新训练的情况下适应未知环境条件。上下文马尔可夫决策过程(cMDP)为这一挑战提供了建模框架,但现有方法通常需要显式的上下文变量(如摩擦力、重力),这限制了其在上下文隐藏或难以测量场景中的应用。本文提出动态对齐潜在想象(DALI)框架,该框架集成于Dreamer架构,能够从智能体与环境的交互中推断潜在上下文表示。通过训练自监督编码器预测前向动力学,DALI生成可指导决策的表示,为世界模型和策略提供条件,搭建起感知与控制之间的桥梁。
2025_NIPS_CIDD: Collaborative Intelligence for Structure-Based Drug Design Empowered by LLMs
基于结构的分子生成是早期药物发现的关键环节,能够设计出针对特定蛋白质靶点的化合物。然而,尽管3D生成模型近年来取得了进展(尤其是在提升对接分数方面),这些方法往往会产生不常见且本质上不合理的分子结构,偏离类药物化学空间。为量化这一问题,我们提出了一种新的指标——分子合理性比率(MRR),用于衡量结构合理性,并揭示了现有模型与真实世界获批药物之间的关键差距。
2025_NIPS_CALM: Culturally Self-Aware Language Models
文化意识是语言模型理解并适应多元文化语境的核心能力。然而,现有多数方法将文化视为静态背景知识,忽视其动态演化特性,导致在需要真正文化敏感性的下游任务中可靠性不足。本文提出CALM框架,旨在为语言模型赋予文化自我意识。CALM将任务语义与显式文化概念、隐式文化信号分离,通过对比学习将其构建为结构化文化聚类;随后借助跨注意力机制实现聚类间的细粒度交互对齐,并通过混合专家(MoE)机制沿特定文化维度进行自适应整合。
2025_NIPS_Data Efficient Adaptation in Large Language Models via Continuous Low-Rank Fine-Tuning
大型语言模型(LLMs)的最新进展凸显了微调(FT)技术在使模型适配特定任务中的关键作用,尤其是在从头重新训练计算成本过高的场景下。微调允许LLMs利用任务或领域特定数据,生成更能满足目标应用需求的模型。然而,传统微调方法常面临灾难性遗忘和数据效率低下的问题,限制了其实际应用价值。为解决这些挑战,本文提出DEAL框架——一种将低秩适配(LoRA)与持续微调策略相结合的新型方案。该框架通过整合知识保留模块和自适应参数更新模块,在保持效率的同时克服了现有微调方法的局限性。
2025_NIPS_Convergence Theorems for Entropy-Regularized and Distributional Reinforcement Learning
在寻求最优策略的过程中,强化学习(RL)方法通常只关注策略的期望回报,而忽略其其他特性。因此,即使方法取得成功,也难以描述所学到的策略具体是什么以及会产生何种行为。本文提出了一个策略优化的理论框架,通过趋近于零的熵正则化和温度解耦策略,保证收敛到特定的最优策略。随着正则化温度趋近于零,我们的方法能实现可解释、保多样性的最优策略,并确保策略衍生对象(价值函数和回报分布)的收敛性。例如,在我们方法的一个具体实例中,最终得到的策略会均匀采样所有最优动作。
2025_NIPS_AgentAuditor: Human-level Safety and Security Evaluation for LLM Agents
尽管基于大语言模型(LLM)的智能体发展迅速,但对其安全性和安保能力的可靠评估仍是一项重大挑战。现有基于规则或LLM的评估器往往会遗漏智能体逐步行动中的风险、忽视微妙含义、无法识别小问题的累积效应,并且会被模糊的安全或安保规则所混淆。为克服这一评估困境,我们提出AgentAuditor——一个通用、无需训练、记忆增强的推理框架,能够让LLM评估器模拟人类专家评估者的能力。AgentAuditor通过让LLM自适应提取结构化语义特征(如场景、风险、行为)并生成相关的思维链推理轨迹,为过往交互构建经验记忆。
2025_NIPS_metaTextGrad: Automatically optimizing language model optimizers
提出元优化概念:首次明确现有LLM优化器需通过元优化实现任务对齐与有效组合,突破人工设计优化器的局限性。双组件协同优化:创新性地将提示词优化与结构优化结合,既解决单个优化器的任务适配问题,又发挥多优化器的协同优势。理论支撑:通过定理证明(基于Hoeffding不等式),验证了元优化后优化器在测试集上的性能逼近最优值,为框架提供理论依据。实用性与扩展性:支持黑盒LLM调用(无需访问模型内部状态和梯度),仅需少量训练数据和评估指标即可适配新任务;跨模型/跨数据集迁移能力强,且成本可控。摘要。
2025_NIPS_How do Transformers Learn Implicit Reasoning?
近期研究表明,大型语言模型(LLMs)能够进行隐式多跳推理——无需显式表述中间步骤即可生成正确答案,但这一能力背后的机制仍未被充分理解。本文通过在受控符号环境中从零训练Transformer模型,探究此类隐式推理能力的形成过程。分析结果揭示了一个三阶段发展轨迹:初始阶段为记忆阶段,随后是分布内泛化阶段,最终达到跨分布泛化阶段。研究发现,原子三元组的训练并非必需,但能加速学习进程;而第二跳泛化能力的形成依赖于训练中对特定组合结构的查询级暴露。
2025_NIPS_Stackelberg Self-Annotation: A Robust Approach to Data-Efficient LLM Alignment
该研究针对大语言模型(LLM)对齐中依赖海量人工标注数据、易受标注噪声影响的问题,提出了Stackelberg博弈偏好优化(SGPO)框架及其实例化算法SSAPO。核心是将对齐建模为政策(领导者)与最坏情况偏好分布(追随者)的双人Stackelberg博弈,在ϵ-Wasserstein球内保证O(ϵ)有界遗憾,实现对标注噪声的鲁棒性。
2025_NIPS_Failure by Interference: Language Models Make Balanced Parentheses Errors When Faulty ...
尽管语言模型(LMs)在代码生成能力上取得了显著进步,但它们在生成平衡括号等简单句法任务中仍存在困难。本研究调查了不同规模(124M-7B参数)语言模型中这些错误持续存在的潜在机制,旨在理解并缓解此类错误。研究发现,语言模型依赖多个组件(注意力头和前馈神经网络神经元)独立进行预测:部分组件能在广泛的输入范围内可靠地预测正确结果(即实现“合理机制”),而其他组件可靠性较低,会通过推广错误标记引入噪声(即实现“缺陷机制”)。当缺陷机制盖过合理机制并主导预测时,错误就会发生。
2025_NIPS_PARALLELPROMPT: Extracting Parallelism from Large Language Model Queries
大语言模型(LLM)服务系统通常将用户提示视为整体输入,通过解码优化或查询间批处理来提升推理效率。然而,许多真实场景的提示包含潜在语义并行性——即可分解结构,其中子任务可独立执行以降低延迟,同时保留原始语义。本文提出PARALLELPROMPT,这是首个用于衡量自然用户提示中查询内并行性的基准测试集。该数据集包含3.7万+来自公开LLM聊天日志的真实提示,每个提示均标注结构化schema,涵盖任务模板、共享上下文和迭代输入。这些schema通过LLM辅助提示结合规则化多语言验证提取。
2025_NIPS_ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detectio
多模态大语言模型为各类多模态任务开辟了新可能,但它们在图像篡改检测中的潜力尚未得到挖掘。当直接应用于图像篡改检测(IMD)任务时,多模态大语言模型生成的推理文本常存在幻觉现象和过度思考问题。为解决这一问题,我们提出ForgerySleuth框架,利用多模态大语言模型进行全面的线索融合,并生成指示具体篡改区域的分割结果。此外,我们通过Chain-of-Clues提示词构建了ForgeryAnalysis数据集,该数据集包含分析与推理文本,实现了图像篡改检测任务的升级。
2025_NIPS_Learning Human-Like RL Agents through Trajectory Optimization with Action Quantization
该研究聚焦深度强化学习(DRL)中智能体行为非自然化的问题,提出将“类人化”转化为轨迹优化问题,通过宏动作量化(MAQ)框架,从人类演示数据中提取类人宏动作,约束智能体在类人行为空间内决策。实验基于D4RLAdroit基准任务(开门、锤钉子等),将MAQ与IQL、SAC、RLPD等主流RL算法结合,通过轨迹相似度metrics(DTW、Wasserstein距离)和类图灵测试的人类评估,验证了MAQ在不显著牺牲任务成功率的前提下,大幅提升智能体行为类人度。
2025_NIPS_Diffusion Transformers for Imputation: Statistical Efficiency and Uncertainty Quantific...
该研究聚焦时间序列数据缺失值插补问题,针对扩散模型在插补任务中缺乏理论支撑、性能受缺失模式影响等痛点,以扩散Transformer(DiT)为核心展开研究。通过高斯过程数据建模,推导了DiT学习缺失值条件分布的样本复杂度边界,提出基于算法展开的分数函数近似理论,构建了可靠的缺失值置信区间,并设计混合掩码训练策略提升模型对不同缺失模式的适应性。实验在高斯过程、潜在高斯过程及真实数据集上验证了理论的有效性,DiT在插补精度和不确定性量化上均优于CSDI、GP-VAE等基准模型。
2025_NIPS_Reinforcement Learning for Out-of-Distribution Reasoning in LLMs: An Empirical Study on...
研究背景:DRG编码是医院报销和运营的关键,但人工分配耗时耗力;LLMs因预训练语料缺乏私密临床/计费数据,在该OOD任务中表现不佳,且现有方法可解释性不足。模型构建:基于Qwen2.5-7B模型,采用组相对策略优化(GRPO)强化学习框架,结合规则化奖励函数,设计了动态重采样、认知行为干预、KL散度衰减等一系列算法增强策略。核心发现DRG-SAPPHIRE在MIMIC-IV基准数据集上实现54.8%的准确率,超越DRG-LLaMA等现有模型,且能生成经医生验证的编码推理过程,提升可解释性;
