Loading...

2025_NIPS_Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers
自回归Transformer被应用于大型语言模型(LLMs)中,但难以扩展到长序列。尽管已有多项研究试图降低其计算成本,大多数LLM仍采用序列中所有令牌对之间的注意力层,因此产生二次复杂度。本研究提出一种新颖方法,在保留模型表达能力的同时动态剪枝上下文信息,从而降低推理阶段的内存和计算需求。该方法采用可学习机制,确定在生成过程的任意时刻可从上下文中丢弃哪些无信息令牌。通过这种方式,我们的方法不仅解决了性能问题,还增强了可解释性,为理解模型的决策过程提供了有价值的视角。

2025_NIPS_Beyond Single-Task: Robust Multi-Task Length Generalization for LLMs
长度泛化——即解决超出训练阶段所见长度的问题的能力——仍是大语言模型(LLMs)面临的关键挑战。以往研究通过修改位置编码(PEs)和数据格式,来提升特定符号任务(如加法和排序)的长度泛化能力。然而,这些方法本质上局限于特殊任务,往往会降低通用语言性能。此外,它们通常在从零训练的小型Transformer上进行评估,应用于具有通用能力的实际LLMs的后训练阶段时,可能导致性能下降。Hu等人[19]提出了规则遵循微调(RFFT),以提升LLMs后训练阶段的长度泛化能力。

2025_NIPS_Creativity or Brute Force? Using Brainteasers as a Window into the Problem-Solving Abil...
准确率仍是评估人工智能系统的标准指标,但它对模型如何得出解决方案的洞察力有限。在本研究中,我们引入了一个基于长篇叙事形式脑筋急转弯的基准,以更深入地探究模型所采用的推理策略类型。脑筋急转弯非常适合这一目标,因为它们可通过多种方法求解,例如利用创造性洞察的简短步骤解法,或采用更多暴力枚举的冗长解法。我们从多个推理层面研究大型语言模型(LLMs),不仅关注答案的正确性,还重视解决方案的质量与创造性。我们探究了推理过程的多个方面:(1)将脑筋急转弯语义解析为精确的数学竞赛式格式;

2025_NIPS_Rendering-Aware Reinforcement Learning for Vector Graphics Generation
该研究针对自回归视觉语言模型(VLM)生成SVG时缺乏渲染反馈、导致视觉保真度低、代码效率差的问题,提出了RLRF(ReinforcementLearningfromRenderingFeedback)方法。通过两阶段训练(先SVG监督微调,再基于渲染反馈的强化学习),结合图像重建、语义相似性和代码效率的复合奖励函数,让模型从自身生成SVG的渲染结果中学习,显著提升了SVG生成的准确性、泛化能力和代码紧凑性,在Im2SVG和Text2SVG任务中均超越监督微调及现有主流模型。

2025_NIPS_Self-Verifying Reflection Helps Transformers with CoT Reasoning
先进的大型语言模型(LLMs)在思维链(CoT)推理中常进行反思,自我验证当前解决方案的正确性并探索替代方案。然而,近期研究发现LLMs在CoT中检测错误的能力有限,反思为何能带来实证性能提升仍不明确。为解决这一问题,本文提出极简推理框架,支持小型Transformer在无自然语言的情况下实现基础自验证反思,确保分析清晰度并降低大规模实验成本。理论上,我们证明:若验证误差得到适当约束,自验证反思能保证推理性能提升。

LLM Weekly(2026.4.6-2026.4.12)
首个世界模型通用开源框架,明确定义以感知为核心、具备环境交互+长期记忆能力的世界模型统一标准。整合多任务通用推理代码,实现跨模型代码复用与协同推理,为全球世界模型研究搭建统一底层基座。

2025_NIPS_Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents
随着人工智能系统渗透到人类生活的方方面面,确保大型语言模型(LLMs)做出安全决策仍是一项重大挑战。本文提出了公共资源治理模拟平台(GOVernanceoftheCommonsSIMulation,GOVSIM),这是一个生成式模拟平台,旨在研究大型语言模型中的策略互动与合作决策。在GOVSIM中,一个由人工智能智能体组成的“社会”必须共同平衡对公共资源的利用与为未来使用而维持资源的可持续性。该环境能够研究伦理考量、战略规划和谈判技能如何影响合作结果。

2025_NIPS_ScaleKD: Strong Vision Transformers Could Be Excellent Teachers
在采用主流大规模视觉识别数据集进行评估的背景下,本文探讨了性能优异的预训练视觉Transformer(ViT)模型是否可作为具备可扩展特性的教师模型,推动跨架构知识蒸馏研究的发展。为实现这一目标,我们的分析强调了需寻求有效策略以对齐以下三方面差异的重要性:(1)特征计算范式差异;(2)模型规模差异;(3)知识密度差异。通过结合三个紧密耦合的组件——交叉注意力投影器、双视图特征模仿和教师参数感知(分别针对上述对齐问题设计),我们提出了一种简单有效的知识蒸馏方法ScaleKD。

2025_NIPS_REASONING COMPILER: LLM-Guided Optimizations for Efficient Model Serving
尽管模型部署已释放出前所未有的能力,但大规模模型部署的高昂成本仍是其广泛普及和快速创新的重大障碍。编译器优化长期以来推动了显著的性能提升,但现有编译器在处理神经网络工作负载时面临困境——有效程序变换的空间呈指数级增长且高度相互依赖。尽管现有随机搜索技术具有一定效果,但它们通常样本效率低下,且未能充分利用编译决策背后的结构化上下文信息。本研究旨在探讨核心问题:在不进行任何再训练的情况下,利用大型语言模型(LLM)进行推理,是否能借助编译器优化的上下文感知决策空间,显著提升样本效率?

2025_NIPS_Recursive Transformer: Boosting Reasoning Ability with State Stack
Transformer架构已成为人工智能领域的里程碑式进展,有效推动了大型语言模型(LLMs)的诞生。然而,尽管其具备卓越能力并促成了显著进步,Transformer架构仍存在一些局限性。其中一个内在缺陷是无法有效识别正则表达式或确定性上下文无关文法。受下推自动机的启发——这类自动机利用栈高效求解确定性上下文无关文法,我们为Transformer层配备了可微分栈,并提出STACKTRANS以解决LLMs中的上述问题。

LLM Weekly(2026.4.13-2026.4.19)
结构化命令行(标准化输入输出)、可版本化复用AI技能库、行业垂类微调模型(法律判例、医疗病历、金融财报等),并以主流SaaS产品作为落地实例。一句话提示词即可生成精美产品原型、演示幻灯片、营销视觉物料,支持内嵌批注、自定义调节控件,可一键导出至Canva。合作企业:美国银行、Cloudflare、猎鹰安全、摩根大通、英伟达、甲骨文、帕洛阿尔托网络、Zscaler等。官方建议:多数业务优先选用「调度者+子智能体」模式;集成目标管理、多智能体协作、第三方应用互联、文件管理、人工审核强制开关,

2025_NIPS_On the Importance of Exploration for Generalization in Reinforcement Learning
现有深度强化学习(RL)中提升泛化能力的方法大多聚焦于表征学习,却忽视了探索等强化学习特有的方面。我们假设智能体的探索策略对其泛化到新环境的能力起着关键作用。通过在表格型上下文马尔可夫决策过程(CMDP)中的一系列实验,我们发现探索不仅有助于高效找到训练环境的最优策略,还能获取有助于在未知环境中决策的知识。基于这些观察,我们提出了EDE(通过分布集成进行探索)方法:该方法通过Q值分布集成,鼓励智能体探索认知不确定性高的状态。所提出的算法是首个在Procgen和Crafter这两个高维观测强化学习泛化基准上均

2025_NIPS_Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regu...
我们研究设计自适应多臂老虎机算法的问题,该算法需同时在随机环境和对抗环境下表现最优(通常称为“双优保障”)。近期一系列研究表明,若配置和分析得当,原本为对抗环境设计的FTRL(Follow-the-Regularized-Leader)算法,实际上也能自适应地在随机环境下达到最优。然而,这类结果严重依赖一个假设:存在唯一的最优臂。最近,Ito[2021]迈出了第一步,针对采用1/2-Tsallis熵正则化器的特定FTRL算法,移除了这一不理想的唯一性假设。

2025_NIPS_Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vi...
该研究聚焦于视频-大型语言模型(Video-LLMs)在时间动态理解上的核心缺陷,提出了名为STAVEQ2的新型架构,核心是在视觉编码器中嵌入堆叠时间注意力(StackedTemporalAttention,STA)模块,以增强模型对视频帧间动作序列和时间演进关系的捕捉能力。尽管多模态大型语言模型(MLLMs)取得了显著进展,但理解视频中的复杂时间动态仍是一项重大挑战。

2025_NIPS_Self-Verifying Reflection Helps Transformers with CoT Reasoning
先进的大型语言模型(LLMs)在思维链(CoT)推理中常进行反思,自我验证当前解决方案的正确性并探索替代方案。然而,近期研究发现LLMs在CoT中检测错误的能力有限,反思为何能带来实证性能提升仍不明确。为解决这一问题,本文提出极简推理框架,支持小型Transformer在无自然语言的情况下实现基础自验证反思,确保分析清晰度并降低大规模实验成本。理论上,我们证明:若验证误差得到适当约束,自验证反思能保证推理性能提升。

LLM Weekly(2026.4.20.23-2026.4.26)
专为智能体工作流设计的标准化语言,支持分支、循环、并行执行、状态管理、模块化开发;配套可视化编辑器,流程图与工作流实时同步。实测可读性、可维护性全面优于现有智能体开发框架。

2025_NIPS_Self-Supervised Reinforcement Learning that Transfers using Random Features
无模型强化学习算法在解决具有高维观测和长时域的单任务序列决策问题方面展现出巨大潜力,但已知其难以在不同任务间泛化。另一方面,模型基强化学习能够学习与任务无关的世界模型,自然支持跨不同奖励函数的迁移,但由于累积误差,难以扩展到复杂环境。为了兼顾两者的优势,我们提出一种自监督强化学习方法,该方法能够实现跨不同奖励函数任务的行为迁移,同时规避模型基强化学习的挑战。具体而言,我们发现:通过大量随机特征作为奖励,对无模型强化学习进行自监督预训练,能够隐式建模长时域环境动力学。

2025_NIPS_Data Selection for Language Models via Importance Resampling
选择合适的预训练数据集对于通用领域(如GPT-3)和领域特定(如Codex)语言模型(LM)都至关重要。本文将该问题形式化为:给定无标签目标样本,从大规模原始无标签数据中筛选子集以匹配期望的目标分布。由于原始文本数据的规模和维度,现有方法多采用简单启发式或依赖人工专家手动筛选数据。对此,我们扩展了经典的低维重要性重采样方法,用于语言模型的数据选择。

2025_NIPS_Transformer Key-Value Memories Are Nearly as Interpretable as Sparse Autoencoders
近年来,大型语言模型(LLMs)的可解释性研究越来越多地依赖代理模块进行特征发现,例如通过稀疏自编码器(SAEs)学习特征并评估其质量。这一范式自然引出一个关键问题:此类学习到的特征是否比原始模型参数中已有的特征更具优势?遗憾的是,迄今为止仅有少数研究对此进行了系统性对比。本文从“前馈层(FF)可视为键值记忆”的视角出发,借助现代可解释性基准,重新审视FF层中存储的特征向量的可解释性。大量评估结果表明,SAEs与FF层的可解释性处于相近范围,尽管SAEs在部分方面表现出可观测但微小的提升。

2025_NIPS_Dynamics-Aligned Latent Imagination in Contextual World Models for Zero-Shot Generaliza...
现实世界中的强化学习要求智能体在无需昂贵重新训练的情况下适应未知环境条件。上下文马尔可夫决策过程(cMDP)为这一挑战提供了建模框架,但现有方法通常需要显式的上下文变量(如摩擦力、重力),这限制了其在上下文隐藏或难以测量场景中的应用。本文提出动态对齐潜在想象(DALI)框架,该框架集成于Dreamer架构,能够从智能体与环境的交互中推断潜在上下文表示。通过训练自监督编码器预测前向动力学,DALI生成可指导决策的表示,为世界模型和策略提供条件,搭建起感知与控制之间的桥梁。

欢迎留下您的脚印