Loading...
首个世界模型通用开源框架,明确定义以感知为核心、具备环境交互+长期记忆能力的世界模型统一标准。整合多任务通用推理代码,实现跨模型代码复用与协同推理,为全球世界模型研究搭建统一底层基座。
2025_NIPS_Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents
随着人工智能系统渗透到人类生活的方方面面,确保大型语言模型(LLMs)做出安全决策仍是一项重大挑战。本文提出了公共资源治理模拟平台(GOVernanceoftheCommonsSIMulation,GOVSIM),这是一个生成式模拟平台,旨在研究大型语言模型中的策略互动与合作决策。在GOVSIM中,一个由人工智能智能体组成的“社会”必须共同平衡对公共资源的利用与为未来使用而维持资源的可持续性。该环境能够研究伦理考量、战略规划和谈判技能如何影响合作结果。
2025_NIPS_ScaleKD: Strong Vision Transformers Could Be Excellent Teachers
在采用主流大规模视觉识别数据集进行评估的背景下,本文探讨了性能优异的预训练视觉Transformer(ViT)模型是否可作为具备可扩展特性的教师模型,推动跨架构知识蒸馏研究的发展。为实现这一目标,我们的分析强调了需寻求有效策略以对齐以下三方面差异的重要性:(1)特征计算范式差异;(2)模型规模差异;(3)知识密度差异。通过结合三个紧密耦合的组件——交叉注意力投影器、双视图特征模仿和教师参数感知(分别针对上述对齐问题设计),我们提出了一种简单有效的知识蒸馏方法ScaleKD。
2025_NIPS_REASONING COMPILER: LLM-Guided Optimizations for Efficient Model Serving
尽管模型部署已释放出前所未有的能力,但大规模模型部署的高昂成本仍是其广泛普及和快速创新的重大障碍。编译器优化长期以来推动了显著的性能提升,但现有编译器在处理神经网络工作负载时面临困境——有效程序变换的空间呈指数级增长且高度相互依赖。尽管现有随机搜索技术具有一定效果,但它们通常样本效率低下,且未能充分利用编译决策背后的结构化上下文信息。本研究旨在探讨核心问题:在不进行任何再训练的情况下,利用大型语言模型(LLM)进行推理,是否能借助编译器优化的上下文感知决策空间,显著提升样本效率?
2025_NIPS_Recursive Transformer: Boosting Reasoning Ability with State Stack
Transformer架构已成为人工智能领域的里程碑式进展,有效推动了大型语言模型(LLMs)的诞生。然而,尽管其具备卓越能力并促成了显著进步,Transformer架构仍存在一些局限性。其中一个内在缺陷是无法有效识别正则表达式或确定性上下文无关文法。受下推自动机的启发——这类自动机利用栈高效求解确定性上下文无关文法,我们为Transformer层配备了可微分栈,并提出STACKTRANS以解决LLMs中的上述问题。
LLM Weekly(2026.4.13-2026.4.19)
结构化命令行(标准化输入输出)、可版本化复用AI技能库、行业垂类微调模型(法律判例、医疗病历、金融财报等),并以主流SaaS产品作为落地实例。一句话提示词即可生成精美产品原型、演示幻灯片、营销视觉物料,支持内嵌批注、自定义调节控件,可一键导出至Canva。合作企业:美国银行、Cloudflare、猎鹰安全、摩根大通、英伟达、甲骨文、帕洛阿尔托网络、Zscaler等。官方建议:多数业务优先选用「调度者+子智能体」模式;集成目标管理、多智能体协作、第三方应用互联、文件管理、人工审核强制开关,
2025_NIPS_On the Importance of Exploration for Generalization in Reinforcement Learning
现有深度强化学习(RL)中提升泛化能力的方法大多聚焦于表征学习,却忽视了探索等强化学习特有的方面。我们假设智能体的探索策略对其泛化到新环境的能力起着关键作用。通过在表格型上下文马尔可夫决策过程(CMDP)中的一系列实验,我们发现探索不仅有助于高效找到训练环境的最优策略,还能获取有助于在未知环境中决策的知识。基于这些观察,我们提出了EDE(通过分布集成进行探索)方法:该方法通过Q值分布集成,鼓励智能体探索认知不确定性高的状态。所提出的算法是首个在Procgen和Crafter这两个高维观测强化学习泛化基准上均
2025_NIPS_Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regu...
我们研究设计自适应多臂老虎机算法的问题,该算法需同时在随机环境和对抗环境下表现最优(通常称为“双优保障”)。近期一系列研究表明,若配置和分析得当,原本为对抗环境设计的FTRL(Follow-the-Regularized-Leader)算法,实际上也能自适应地在随机环境下达到最优。然而,这类结果严重依赖一个假设:存在唯一的最优臂。最近,Ito[2021]迈出了第一步,针对采用1/2-Tsallis熵正则化器的特定FTRL算法,移除了这一不理想的唯一性假设。
2025_NIPS_Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vi...
该研究聚焦于视频-大型语言模型(Video-LLMs)在时间动态理解上的核心缺陷,提出了名为STAVEQ2的新型架构,核心是在视觉编码器中嵌入堆叠时间注意力(StackedTemporalAttention,STA)模块,以增强模型对视频帧间动作序列和时间演进关系的捕捉能力。尽管多模态大型语言模型(MLLMs)取得了显著进展,但理解视频中的复杂时间动态仍是一项重大挑战。
2025_NIPS_Self-Verifying Reflection Helps Transformers with CoT Reasoning
先进的大型语言模型(LLMs)在思维链(CoT)推理中常进行反思,自我验证当前解决方案的正确性并探索替代方案。然而,近期研究发现LLMs在CoT中检测错误的能力有限,反思为何能带来实证性能提升仍不明确。为解决这一问题,本文提出极简推理框架,支持小型Transformer在无自然语言的情况下实现基础自验证反思,确保分析清晰度并降低大规模实验成本。理论上,我们证明:若验证误差得到适当约束,自验证反思能保证推理性能提升。
LLM Weekly(2026.4.20.23-2026.4.26)
专为智能体工作流设计的标准化语言,支持分支、循环、并行执行、状态管理、模块化开发;配套可视化编辑器,流程图与工作流实时同步。实测可读性、可维护性全面优于现有智能体开发框架。
2025_NIPS_Self-Supervised Reinforcement Learning that Transfers using Random Features
无模型强化学习算法在解决具有高维观测和长时域的单任务序列决策问题方面展现出巨大潜力,但已知其难以在不同任务间泛化。另一方面,模型基强化学习能够学习与任务无关的世界模型,自然支持跨不同奖励函数的迁移,但由于累积误差,难以扩展到复杂环境。为了兼顾两者的优势,我们提出一种自监督强化学习方法,该方法能够实现跨不同奖励函数任务的行为迁移,同时规避模型基强化学习的挑战。具体而言,我们发现:通过大量随机特征作为奖励,对无模型强化学习进行自监督预训练,能够隐式建模长时域环境动力学。
2025_NIPS_Data Selection for Language Models via Importance Resampling
选择合适的预训练数据集对于通用领域(如GPT-3)和领域特定(如Codex)语言模型(LM)都至关重要。本文将该问题形式化为:给定无标签目标样本,从大规模原始无标签数据中筛选子集以匹配期望的目标分布。由于原始文本数据的规模和维度,现有方法多采用简单启发式或依赖人工专家手动筛选数据。对此,我们扩展了经典的低维重要性重采样方法,用于语言模型的数据选择。
2025_NIPS_Transformer Key-Value Memories Are Nearly as Interpretable as Sparse Autoencoders
近年来,大型语言模型(LLMs)的可解释性研究越来越多地依赖代理模块进行特征发现,例如通过稀疏自编码器(SAEs)学习特征并评估其质量。这一范式自然引出一个关键问题:此类学习到的特征是否比原始模型参数中已有的特征更具优势?遗憾的是,迄今为止仅有少数研究对此进行了系统性对比。本文从“前馈层(FF)可视为键值记忆”的视角出发,借助现代可解释性基准,重新审视FF层中存储的特征向量的可解释性。大量评估结果表明,SAEs与FF层的可解释性处于相近范围,尽管SAEs在部分方面表现出可观测但微小的提升。
2025_NIPS_Dynamics-Aligned Latent Imagination in Contextual World Models for Zero-Shot Generaliza...
现实世界中的强化学习要求智能体在无需昂贵重新训练的情况下适应未知环境条件。上下文马尔可夫决策过程(cMDP)为这一挑战提供了建模框架,但现有方法通常需要显式的上下文变量(如摩擦力、重力),这限制了其在上下文隐藏或难以测量场景中的应用。本文提出动态对齐潜在想象(DALI)框架,该框架集成于Dreamer架构,能够从智能体与环境的交互中推断潜在上下文表示。通过训练自监督编码器预测前向动力学,DALI生成可指导决策的表示,为世界模型和策略提供条件,搭建起感知与控制之间的桥梁。
2025_NIPS_L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models
大语言模型(LLMs)已取得显著进展。尽管成果斐然,但作为LLM训练和推理的主流方法,下一个token预测(NTP)由于其固有的序列性流程,在上下文覆盖范围和推理效率方面均受到限制。为克服这些挑战,我们提出跳跃式多token预测(L-MTP)——一种创新性的token预测方法,通过引入跳跃机制扩展了多token预测(MTP)的能力。与传统MTP生成相邻位置的多个token不同,L-MTP策略性地跳过中间token,在单次前向传播中预测非连续token。
2025_NIPS_Meta-in-context learning in large language models
该研究提出“元上下文学习(meta-in-contextlearning)”这一概念,核心是验证大型语言模型(LLMs)的上下文学习能力可通过上下文学习本身递归提升,无需参数微调。研究背景:上下文学习(少样本提示)是LLMs核心优势之一,使其无需任务特定微调就能通过少量演示提升任务表现,但此前未探索该能力能否进一步自我优化。实验设计模型:主要采用GPT-3(TEXT-DAVINCI-002),额外测试了多个开源模型(如Falcon-40b、Llama-2、mpt-30b等)。
2025_NIPS_Cognitive Predictive Processing: A Human-inspired Framework for Adaptive Exploration in...
开放世界强化学习要求智能体在广阔的探索空间中发展智能行为。近期如LS-Imagine等方法通过跳跃式状态转换扩展了想象视野,推动了该领域的发展,但仍受限于固定探索机制和静态跳跃阈值——这些机制无法在变化的任务阶段中自适应调整,导致探索效率低下且完成率较低。人类通过任务分解、选择性记忆利用和自适应不确定性调节的链式过程,在开放世界决策中展现出卓越能力。相位自适应认知控制器:将任务动态分解为探索、接近和完成阶段,并配备自适应参数;双记忆整合系统:实现双模态记忆,平衡即时上下文与选择性长期存储;
2025_NIPS_Restricted Global-Aware Graph Filters Bridging GNNs and Transformer for Node Classifica...
Transformer一直被视为突破图神经网络(GNN)性能瓶颈的潜在方向,这主要得益于其全局感受野。然而,近期一项实证研究表明,经过调优的经典GNN在标准节点分类基准测试中,性能可与甚至超越最先进的图Transformer(GT)。受此启发,我们解构了多个代表性GT模型,以探究全局注意力组件对节点表示的影响。研究发现,全局注意力模块并未带来显著的性能提升,甚至可能加剧测试误差震荡。因此,我们认为Transformer难以学习到能有效补充原始图拓扑结构的连接模式。
2025_NIPS_Confidence Regulation Neurons in Language Models
尽管大型语言模型(LLMs)应用广泛,但它们表征和调节下一个令牌预测不确定性的机制仍未被充分探索。本研究调查了两个被认为会影响这种不确定性的关键组件:最近发现的熵神经元和一组我们称之为令牌频率神经元的新组件。熵神经元的特征是异常高的权重范数,并影响最终层归一化(LayerNorm)的缩放比例,从而有效降低logit值。我们的研究表明,熵神经元通过写入非嵌入零空间发挥作用,使其能够在对logit本身产生最小直接影响的情况下,影响残差流范数。我们在一系列模型中观察到熵神经元的存在,参数规模最高达70亿。
