Loading...
我们研究了现代霍普菲尔德模型及核化霍普菲尔德模型(KHMs)的最优记忆容量,这类模型是与Transformer兼容的稠密联想记忆模型。通过建立KHMs的记忆配置与信息论中球面码的关联,我们进行了严格分析。具体而言,我们将存储的记忆集视为一种特殊的球面码,这使得KHMs的记忆问题可转化为超球面上的点排列问题。我们发现,当特征空间允许记忆形成最优球面码时,KHMs达到最优容量。
2025_NIPS_FlexOLMo: Open Language Models for Flexible Data Use
我们提出FLEXOLMO,一类新型语言模型(LM),其支持:(1)无需数据共享的分布式训练——不同模型参数独立训练于封闭数据集;(2)数据灵活推理——这些参数及其关联数据可在推理时灵活包含或排除,无需额外训练。FLEXOLMO采用混合专家(MoE)架构,每个专家独立训练于封闭数据集,之后通过一种新的领域感知路由整合,无需任何联合训练。FLEXOLMO在FLEXMIX语料库上训练,该语料库由我们构建,包含公开可用数据集与7个领域专属数据集,模拟真实封闭数据集场景。
2025_NIPS_TensorRL-QAS: Reinforcement learning with tensor networks for improved quantum architec...
该文提出TensorRL-QAS框架,将张量网络(TN)与强化学习(RL)结合用于量子架构搜索(QAS),解决传统RL-basedQAS的可扩展性问题。核心流程为:用DMRG获取目标基态的矩阵乘积态(MPS)近似、通过黎曼优化将MPS映射为量子电路、基于RL-QAS进一步优化电路。
2025_NIPS_DiffuserLite: Towards Real-time Diffusion Planning
该研究针对现有扩散规划(DiffusionPlanning)方法决策频率低、难以满足实时应用需求的问题,提出了轻量级框架。核心思路是通过规划细化过程(PRP)实现“粗到细”的轨迹生成,减少冗余信息建模,在保证性能的同时大幅提升决策速度。扩散规划已被公认为多个领域中有效的决策范式。其生成高质量长时域轨迹的能力使其成为极具前景的研究方向。然而,现有扩散规划方法因高昂的迭代采样成本,存在决策频率低的问题。为缓解这一现状,我们提出DiffuserLite——一种超快速、轻量级的扩散规划框架。
2025_NIPS_Matching Markets Meet LLMs: Algorithmic Reasoning with Ranked Preferences
大型语言模型(LLMs)的兴起推动了推理任务的进步,从程序合成到科学假设生成均有涉猎,但它们在组合领域处理排序偏好和结构化算法的能力仍未得到充分探索。本文研究匹配市场这一核心框架——其广泛应用于资源分配、拼车等场景,需要协调个体排序偏好以确保稳定结果。我们在一系列基于偏好的推理任务(从稳定匹配生成、不稳定性检测、不稳定性解决到细粒度偏好查询)上评估了7个最先进的模型,系统揭示它们在处理排序输入时的逻辑和算法局限。
2025_NIPS_Rethinking Circuit Completeness in Language Models: AND, OR, and ADDER Gates
该研究聚焦语言模型机制可解释性中的电路发现问题,核心围绕电路完整性展开——现有电路发现方法因难以捕捉OR门结构,导致电路存在非传递性、抢占性等缺陷,且结果缺乏一致性。电路逻辑门定义AND门:需所有输入节点激活才能发挥作用,缺失任一输入则失效;OR门:至少一个输入节点激活即可发挥作用,仅全部缺失时失效;ADDER门:输入节点贡献具有累加性,缺失输入会削弱作用,全部缺失则失效。干预策略分析Ns能完整恢复AND和ADDER门,但无法完整捕捉OR门;
2025_NIPS_PaceLLM: Brain-Inspired Large Language Models for Long-Context Understanding
机制创新:首次将大脑工作记忆的持续神经活动和皮层模块化两大神经生物学原理结合,针对性解决长文本理解的信息衰减和语义碎片化核心问题。结构创新激活记忆库(AMB):在激活层面实现细粒度记忆存储与重用,比token级存储更精准,支持动态更新与噪声调控。皮层专家聚类:通过约束KMeans实现FFN权重的语义结构化重组,无需重新训练即可提升跨token语义连贯性。应用创新。
2025_NIPS_ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference
大语言模型(LLMs)处理长文本时需要大量GPU内存,其中键值(KV)缓存在推理过程中占用的内存高达总内存的70%。尽管现有压缩方法通过评估单个令牌的重要性来减少内存占用,但它们忽略了令牌之间关键的语义关系,导致上下文碎片化和性能下降。我们提出了ChunkKV,它从根本上重新构想了KV缓存压缩方式——将语义块而非孤立令牌作为基本压缩单位。这种方法保留了完整的语言结构和上下文完整性,即使在高压缩比下也能确保核心语义不丢失。
2025_NIPS_Dynamic Bundling with Large Language Models for Zero-Shot Inference on Text-Attributed ...
本文针对文本属性图(TAGs)零样本推理中LLM面临的图结构信息有限、响应不可靠两大问题,提出动态文本捆绑监督方法(DENSE)。通过将拓扑或语义相近的节点文本组成捆绑包查询LLM获取包标签,用熵基和排序基损失监督图神经网络(GNN)训练,并动态精炼捆绑包剔除噪声节点,最终在10个跨领域数据集上验证了方法的有效性。大型语言模型(LLMs)凭借强大的泛化能力,已被应用于诸多零样本学习任务。近年来,将LLMs应用于文本属性图(TAGs)的研究受到越来越多关注。
2025_NIPS_Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-...
该研究聚焦大型语言模型(LLM)中的门控机制,系统探究了门控增强型softmax注意力变体的效果。通过在15B混合专家(MoE)模型和1.7B稠密模型上(基于3.5万亿token数据集训练)开展30余种变体对比实验,核心发现:在缩放点积注意力(SDPA)后应用特定于注意力头的sigmoid门控(G₁位置),能持续提升模型性能、增强训练稳定性、容忍更大学习率并优化缩放特性。研究揭示门控机制有效的两大关键因素:一是在softmax注意力的低秩映射中引入非线性,二是通过查询依赖的稀疏门控分数调节SDPA输出。
2025_NIPS_Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning
该研究聚焦大语言模型(LLM)微调中的“灾难性遗忘”问题,即微调特定任务后非目标任务性能下降。通过系统分析发现,使用LLM生成数据(而非真实标注数据)微调,能同时提升目标任务性能并减少非目标任务退化,核心原因是生成数据的低困惑度(尤其是高困惑度token占比更低)。基于此,提出选择性token掩码(STM)策略:用预训练模型计算token困惑度,屏蔽超过阈值(如2.5)的高困惑度token,无需生成数据即可实现与LLM生成数据相当的效果。
2025_NIPS_Grounded Reinforcement Learning for Visual Reasoning
尽管基于思维链的强化学习已在数学、编程等任务中显著提升语言模型性能,但视觉推理面临额外复杂性——需模型引导视觉注意力、解读感知输入,并将抽象推理锚定到空间证据上。本文提出ViGoRL(视觉接地强化学习),这是一种通过强化学习训练的视觉语言模型,能将每个推理步骤明确锚定到特定视觉坐标。受人类视觉决策启发,ViGoRL学会生成空间接地的推理轨迹,在每个步骤引导视觉注意力聚焦任务相关区域。当需要细粒度探索时,我们提出的多轮强化学习框架允许模型随着推理展开动态缩放至预测坐标。
2025_NIPS_FairDICE: Fairness-Driven Offline Multi-Objective Reinforcement Learning
多目标强化学习(MORL)旨在优化存在冲突目标场景下的策略,其中线性标量化是将向量值回报转化为标量信号的常用方法。尽管该方法对特定偏好有效,但无法捕捉纳什社会福利或极大极小公平性等面向公平的目标——这类目标需要非线性、非可加性的权衡。尽管已有部分在线算法针对特定公平目标被提出,但在离线场景(学习必须基于固定数据集)中优化非线性福利准则的统一方法仍未得到探索。本文提出FairDICE,这是首个直接优化非线性福利目标的离线MORL框架。
2025_NIPS_Large language models can learn and generalize steganographic chain-of-thought under pr...
思维链(CoT)推理不仅能提升大型语言模型的性能,还能为决策过程提供关键洞察,是监控模型意图和规划的有用工具。然而,近期研究表明,禁止提及奖励黑客攻击的特定案例会导致不良推理轨迹的模糊化,但不良行为依然存在,这威胁到思维链监控的可靠性。本文就模型学习特定类型模糊推理(隐写术)的能力对这些结果进行了扩展。首先,我们发现,在承载性推理轨迹中惩罚特定字符串的使用会导致模型替换为其他字符串。关键的是,这并不会改变模型执行任务的底层方法,表明模型能够学习对其推理进行隐写编码。
2025_NIPS_The Dormant Neuron Phenomenon in Multi-Agent Reinforcement Learning Value Factorization
在本研究中,我们探讨了多智能体强化学习价值分解中的休眠神经元现象——混合网络因非活跃神经元数量增加而导致表达能力下降。我们在多个环境和算法中验证了该现象的存在,并证明其会对学习过程产生负面影响。研究发现,休眠神经元与过度活跃神经元(具有高激活分数的神经元)的存在相关。为解决休眠神经元问题,我们提出了一种简单有效的方法ReBorn,该方法将过度活跃神经元的权重转移到休眠神经元中。我们从理论上证明,该方法能确保权重转移后不会遗忘已学习的动作偏好,从而提升学习效果。
2025_NIPS_Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalize...
本文聚焦大语言模型(LLMs)的个性化对齐问题,提出强化学习个性化对齐(RLPA)框架,通过多轮对话动态推断和优化用户画像,解决现有方法在冷启动场景和长期个性化中的不足。以Qwen-2.5-3B-Instruct为基础模型微调得到Qwen-RLPA,通过双级奖励机制(画像奖励+回应奖励)引导模型学习,在个性化对话任务中表现超越传统提示词方法、离线优化方法(如SFT、DPO),甚至优于Claude-3.5、GPT-4o等商业模型,具备偏好冲突调和、长期一致性维持和高效推理的优势。
2025_NIPS_Scalable Best-of-N Selection for Large Language Models via Self-Certainty
提出自确定性(self-certainty)指标:基于KL散度量化LLM输出分布与均匀分布的差异,分布越集中(偏离均匀分布越远)则自确定性越高,无需额外训练或外部模型,几乎无计算开销。解决开放式任务适配问题:突破自一致性仅适用于“结果可直接匹配”任务的限制,成功应用于代码生成等开放式场景,且性能随样本量N增长持续提升。融合波达投票的加权选择策略:将自确定性的排序信息与投票机制结合,解决单一自确定性或自一致性的局限性,在封闭性推理任务中性能超越传统方法。鲁棒性优化。
2025_NIPS_From Sequence to Structure: Uncovering Substructure Reasoning in Transformers
近期研究表明,大型语言模型(LLMs)具备解决图推理任务的能力。值得注意的是,即便图结构嵌入在文本描述中,LLMs仍能有效回答相关问题。这引发了一个核心疑问:纯解码器Transformer架构如何理解底层图结构?为解答该问题,我们从子结构提取任务切入,解析Transformer的内部机制并分析输入查询的影响。具体而言,通过实证结果与理论分析,我们提出诱导子结构过滤(ISF)视角,用于刻画多层Transformer中的子结构识别过程。
2025_NIPS_Improve Temporal Reasoning in Multimodal Large Language Models via Video Contrastive De...
视频理解与图像理解的核心区别在于前者需要对时间维度进行推理。现有视频大型语言模型(VideoLLMs)在通用视频理解任务(如简短字幕生成或单帧目标识别)中表现出良好性能,但在时间推理任务(如理解连续动作或追踪物体随时间的状态变化)中往往力不从心——这类任务通常要求以时序连贯的方式整合多帧信息。本文首先从语言先验和“图像”先验的角度探索并解释了VideoLLMs的此类失效问题。尽管已有研究尝试通过多种训练策略增强VideoLLMs的时间理解能力,但高昂的计算资源和训练数据需求往往构成重大障碍。
2025_NIPS_Token-Level Self-Play with Importance-Aware Guidance for Large Language Models
利用偏好优化发挥大型语言模型(LLMs)的能力,对于使模型输出与人类价值观对齐至关重要。直接偏好优化(DPO)是一种简单有效的方法,它直接对偏好数据进行优化,无需显式奖励模型。然而,DPO通常依赖人工标注的偏好数据,这会限制其扩展性。自玩微调(SPIN)通过让模型生成自身的被拒绝样本解决了这一问题,减少了对人工标注的依赖。尽管如此,SPIN对所有令牌统一施加学习信号,忽略了响应内部细粒度的质量差异。随着模型性能提升,被拒绝样本中会包含越来越多高质量令牌,使得对令牌的统一处理不再是最优选择。
