Loading...
大语言模型(LLMs)处理长文本时需要大量GPU内存,其中键值(KV)缓存在推理过程中占用的内存高达总内存的70%。尽管现有压缩方法通过评估单个令牌的重要性来减少内存占用,但它们忽略了令牌之间关键的语义关系,导致上下文碎片化和性能下降。我们提出了ChunkKV,它从根本上重新构想了KV缓存压缩方式——将语义块而非孤立令牌作为基本压缩单位。这种方法保留了完整的语言结构和上下文完整性,即使在高压缩比下也能确保核心语义不丢失。
2025_NIPS_Dynamic Bundling with Large Language Models for Zero-Shot Inference on Text-Attributed ...
本文针对文本属性图(TAGs)零样本推理中LLM面临的图结构信息有限、响应不可靠两大问题,提出动态文本捆绑监督方法(DENSE)。通过将拓扑或语义相近的节点文本组成捆绑包查询LLM获取包标签,用熵基和排序基损失监督图神经网络(GNN)训练,并动态精炼捆绑包剔除噪声节点,最终在10个跨领域数据集上验证了方法的有效性。大型语言模型(LLMs)凭借强大的泛化能力,已被应用于诸多零样本学习任务。近年来,将LLMs应用于文本属性图(TAGs)的研究受到越来越多关注。
2025_NIPS_Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-...
该研究聚焦大型语言模型(LLM)中的门控机制,系统探究了门控增强型softmax注意力变体的效果。通过在15B混合专家(MoE)模型和1.7B稠密模型上(基于3.5万亿token数据集训练)开展30余种变体对比实验,核心发现:在缩放点积注意力(SDPA)后应用特定于注意力头的sigmoid门控(G₁位置),能持续提升模型性能、增强训练稳定性、容忍更大学习率并优化缩放特性。研究揭示门控机制有效的两大关键因素:一是在softmax注意力的低秩映射中引入非线性,二是通过查询依赖的稀疏门控分数调节SDPA输出。
2025_NIPS_Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning
该研究聚焦大语言模型(LLM)微调中的“灾难性遗忘”问题,即微调特定任务后非目标任务性能下降。通过系统分析发现,使用LLM生成数据(而非真实标注数据)微调,能同时提升目标任务性能并减少非目标任务退化,核心原因是生成数据的低困惑度(尤其是高困惑度token占比更低)。基于此,提出选择性token掩码(STM)策略:用预训练模型计算token困惑度,屏蔽超过阈值(如2.5)的高困惑度token,无需生成数据即可实现与LLM生成数据相当的效果。
2025_NIPS_Grounded Reinforcement Learning for Visual Reasoning
尽管基于思维链的强化学习已在数学、编程等任务中显著提升语言模型性能,但视觉推理面临额外复杂性——需模型引导视觉注意力、解读感知输入,并将抽象推理锚定到空间证据上。本文提出ViGoRL(视觉接地强化学习),这是一种通过强化学习训练的视觉语言模型,能将每个推理步骤明确锚定到特定视觉坐标。受人类视觉决策启发,ViGoRL学会生成空间接地的推理轨迹,在每个步骤引导视觉注意力聚焦任务相关区域。当需要细粒度探索时,我们提出的多轮强化学习框架允许模型随着推理展开动态缩放至预测坐标。
2025_NIPS_FairDICE: Fairness-Driven Offline Multi-Objective Reinforcement Learning
多目标强化学习(MORL)旨在优化存在冲突目标场景下的策略,其中线性标量化是将向量值回报转化为标量信号的常用方法。尽管该方法对特定偏好有效,但无法捕捉纳什社会福利或极大极小公平性等面向公平的目标——这类目标需要非线性、非可加性的权衡。尽管已有部分在线算法针对特定公平目标被提出,但在离线场景(学习必须基于固定数据集)中优化非线性福利准则的统一方法仍未得到探索。本文提出FairDICE,这是首个直接优化非线性福利目标的离线MORL框架。
2025_NIPS_Large language models can learn and generalize steganographic chain-of-thought under pr...
思维链(CoT)推理不仅能提升大型语言模型的性能,还能为决策过程提供关键洞察,是监控模型意图和规划的有用工具。然而,近期研究表明,禁止提及奖励黑客攻击的特定案例会导致不良推理轨迹的模糊化,但不良行为依然存在,这威胁到思维链监控的可靠性。本文就模型学习特定类型模糊推理(隐写术)的能力对这些结果进行了扩展。首先,我们发现,在承载性推理轨迹中惩罚特定字符串的使用会导致模型替换为其他字符串。关键的是,这并不会改变模型执行任务的底层方法,表明模型能够学习对其推理进行隐写编码。
2025_NIPS_The Dormant Neuron Phenomenon in Multi-Agent Reinforcement Learning Value Factorization
在本研究中,我们探讨了多智能体强化学习价值分解中的休眠神经元现象——混合网络因非活跃神经元数量增加而导致表达能力下降。我们在多个环境和算法中验证了该现象的存在,并证明其会对学习过程产生负面影响。研究发现,休眠神经元与过度活跃神经元(具有高激活分数的神经元)的存在相关。为解决休眠神经元问题,我们提出了一种简单有效的方法ReBorn,该方法将过度活跃神经元的权重转移到休眠神经元中。我们从理论上证明,该方法能确保权重转移后不会遗忘已学习的动作偏好,从而提升学习效果。
2025_NIPS_Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalize...
本文聚焦大语言模型(LLMs)的个性化对齐问题,提出强化学习个性化对齐(RLPA)框架,通过多轮对话动态推断和优化用户画像,解决现有方法在冷启动场景和长期个性化中的不足。以Qwen-2.5-3B-Instruct为基础模型微调得到Qwen-RLPA,通过双级奖励机制(画像奖励+回应奖励)引导模型学习,在个性化对话任务中表现超越传统提示词方法、离线优化方法(如SFT、DPO),甚至优于Claude-3.5、GPT-4o等商业模型,具备偏好冲突调和、长期一致性维持和高效推理的优势。
2025_NIPS_Scalable Best-of-N Selection for Large Language Models via Self-Certainty
提出自确定性(self-certainty)指标:基于KL散度量化LLM输出分布与均匀分布的差异,分布越集中(偏离均匀分布越远)则自确定性越高,无需额外训练或外部模型,几乎无计算开销。解决开放式任务适配问题:突破自一致性仅适用于“结果可直接匹配”任务的限制,成功应用于代码生成等开放式场景,且性能随样本量N增长持续提升。融合波达投票的加权选择策略:将自确定性的排序信息与投票机制结合,解决单一自确定性或自一致性的局限性,在封闭性推理任务中性能超越传统方法。鲁棒性优化。
2025_NIPS_From Sequence to Structure: Uncovering Substructure Reasoning in Transformers
近期研究表明,大型语言模型(LLMs)具备解决图推理任务的能力。值得注意的是,即便图结构嵌入在文本描述中,LLMs仍能有效回答相关问题。这引发了一个核心疑问:纯解码器Transformer架构如何理解底层图结构?为解答该问题,我们从子结构提取任务切入,解析Transformer的内部机制并分析输入查询的影响。具体而言,通过实证结果与理论分析,我们提出诱导子结构过滤(ISF)视角,用于刻画多层Transformer中的子结构识别过程。
2025_NIPS_Improve Temporal Reasoning in Multimodal Large Language Models via Video Contrastive De...
视频理解与图像理解的核心区别在于前者需要对时间维度进行推理。现有视频大型语言模型(VideoLLMs)在通用视频理解任务(如简短字幕生成或单帧目标识别)中表现出良好性能,但在时间推理任务(如理解连续动作或追踪物体随时间的状态变化)中往往力不从心——这类任务通常要求以时序连贯的方式整合多帧信息。本文首先从语言先验和“图像”先验的角度探索并解释了VideoLLMs的此类失效问题。尽管已有研究尝试通过多种训练策略增强VideoLLMs的时间理解能力,但高昂的计算资源和训练数据需求往往构成重大障碍。
2025_NIPS_Token-Level Self-Play with Importance-Aware Guidance for Large Language Models
利用偏好优化发挥大型语言模型(LLMs)的能力,对于使模型输出与人类价值观对齐至关重要。直接偏好优化(DPO)是一种简单有效的方法,它直接对偏好数据进行优化,无需显式奖励模型。然而,DPO通常依赖人工标注的偏好数据,这会限制其扩展性。自玩微调(SPIN)通过让模型生成自身的被拒绝样本解决了这一问题,减少了对人工标注的依赖。尽管如此,SPIN对所有令牌统一施加学习信号,忽略了响应内部细粒度的质量差异。随着模型性能提升,被拒绝样本中会包含越来越多高质量令牌,使得对令牌的统一处理不再是最优选择。
2025_NIPS_Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning
基于策略的方法目前在大语言模型(LLM)推理的强化学习(RL)流程中占据主导地位,而基于价值的方法尚未得到充分探索。本文重新审视了经典的贝尔曼残差最小化范式,提出轨迹贝尔曼残差最小化(TBRM)算法——该算法自然地将这一思想适配到LLM中,形成一种简单有效的离线策略算法。TBRM利用模型自身的对数几率(logits)作为Q值,优化单一的轨迹级贝尔曼目标函数,无需评论家模型、重要性采样比率或裁剪机制,且每个提示仅需一次轨迹采样即可运行。
2025_NIPS_Reinforcement Learning with Backtracking Feedback
针对大型语言模型(LLMs)亟需强大安全性的关键需求——尤其是抵御对抗性攻击和分布内错误的能力,我们提出了带回溯反馈的强化学习(RLBF)框架。该框架在BSAFE等现有方法的基础上进行改进,核心在于引入强化学习(RL)阶段,使模型学会动态纠正自身的生成错误。通过对模型实时输出提供评论者反馈的强化学习,LLMs被训练为能够识别并从实际出现的安全违规中恢复:模型会发出高效的“回溯X个token”信号,随后自回归继续生成。
2025_NIPS_CURV: Coherent Uncertainty-Aware Reasoning in Vision-Language Models for X-Ray Report G...
视觉语言模型已被用于放射学报告生成并取得了良好效果。然而,研究结果中阐述的不确定性以及得出临床印象的推理过程很少被明确建模,这降低了生成报告的临床准确性和可信度。本文提出CURV,这是一种新颖的框架,通过整合不确定性感知和明确的推理能力来缓解这些局限性。我们的方法包括三个关键组件:(1)一种不确定性建模机制,用于教会模型识别并表达适当水平的诊断置信度;(2)一种结构化推理框架,用于生成连接视觉发现与临床印象的中间解释步骤;(3)一种推理连贯性奖励,用于确保发现、推理和印象之间的逻辑一致性。
2025_NIPS_Time-Masked Transformers with Lightweight Test-Time Adaptation for Neural Speech Decoding
该研究聚焦于神经语音解码的语音神经假体技术,旨在解决现有算法在实时性、计算效率、跨时间鲁棒性等方面的不足,使其更贴合临床实际应用。核心目标是从瘫痪患者的神经活动中直接解码语音,帮助肌萎缩侧索硬化症(ALS)等严重瘫痪患者恢复交流能力。
2025_NIPS_OPHR: Mastering Volatility Trading with Multi-Agent Deep Reinforcement Learning
期权市场是金融生态系统中最复杂的领域之一,其价格直接反映市场不确定性。本文提出首个专门为期权波动率交易设计的强化学习(RL)框架,核心目标是利用隐含波动率与实际波动率的差异获利。该多智能体架构包含:期权仓位智能体(OP-Agent),通过控制波动率多头/空头仓位实现波动率时机判断;对冲路由智能体(HR-Agent),通过选择具有不同风险偏好的最优对冲策略,管理风险并最大化路径依赖收益。
2025_NIPS_Synergy over Discrepancy: A Partition-Based Approach to Multi-Domain LLM Fine-Tuning
大型语言模型(LLMs)展现出令人印象深刻的泛化能力,但由于域间干扰,使其在多个异质领域间有效自适应仍然具有挑战性。为克服这一难题,我们提出了一种基于分区的多阶段微调框架,旨在利用域间协同效应的同时最小化负迁移。我们的方法通过平衡域差异、协同性和模型容量约束,将领域策略性地划分为子集(阶段)。我们对所提出的框架进行了理论分析,并推导出新的泛化界,为我们的分区策略提供了理论依据。在各类语言理解任务上的大量实证评估表明,我们的方法持续优于最先进的基线方法。
2025_NIPS_Understanding Parametric and Contextual Knowledge Reconciliation within Large Language ...
本文聚焦大型语言模型(LLMs)在检索增强生成(RAG)框架中,如何协调内部参数化知识(预训练过程中编码于模型参数的知识)与外部上下文知识(检索到的实时外部信息)的核心问题,尤其关注两者存在冲突时的内部机制。研究背景:LLMs的参数化知识存在覆盖范围有限(难以涵盖领域私有知识)和时效性不足(无法适应现实世界变化)的缺陷,RAG技术虽能提供上下文知识补充,但LLMs整合两类知识的内部机制尚不明确,且面对知识冲突时往往倾向于固守原有参数化知识。核心方法:提出。
