Loading...
我们引入IMP-MARL,这是一个用于大规模基础设施管理规划(IMP)的开源多智能体强化学习(MARL)环境套件,为基准测试协作式MARL方法在实际工程应用中的可扩展性提供平台。在IMP中,多组件工程系统会因组件损伤状态而面临故障风险。具体而言,每个智能体负责特定系统组件的检测与维修规划,目标是在最小化维护成本的同时,通过协作降低系统故障风险。IMP-MARL包含多个环境(含海上风电结构系统相关环境),旨在满足当前改善管理策略、支持可持续且可靠能源系统的需求。
2025_NIPS_Doubly Robust Augmented Transfer for Meta-Reinforcement Learning
元强化学习(Meta-RL)通过利用不同任务间共享的潜在公共结构,能够快速适应新任务并学习新技能,但在稀疏奖励场景下会面临性能退化问题。现有基于事后经验的样本迁移方法,通过将其他任务中重新标记的轨迹迁移到新任务,可为目标奖励函数提供含有效信息的经验,从而缓解这一问题,但这些方法均依赖一个不切实际的假设——任务间仅奖励函数存在差异。本文提出一种双重鲁棒增强迁移(DRaT)方法,旨在解决更通用的稀疏奖励元强化学习场景,该场景中任务间同时存在动力学不匹配和奖励函数变化的情况。
2025_NIPS_On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling ...
我们旨在探究序列决策中从历史数据集实现样本高效学习的关键因素——这一问题通常被称为离线强化学习(RL)。此外,我们还关注那些在利用(价值)函数近似的同时,仍能保持样本高效性的算法。本文通过以下两方面解决这些核心问题:(i)提出一种数据多样性概念,该概念涵盖了离线RL中以往的覆盖度量;(ii)利用这一概念,将基于版本空间(VS)、正则化优化(RO)和后验采样(PS)的三类不同离线RL算法进行统一。
2023_NIPS_Does progress on ImageNet transfer to real-world datasets?
ImageNet上的进展能否迁移到真实世界数据集?我们通过在6个实际图像分类数据集上评估不同精度(57%-83%)的ImageNet预训练模型,对这一问题展开研究。具体而言,我们关注那些为解决真实世界任务而收集的数据集(例如,对相机陷阱或卫星拍摄的图像进行分类),而非为比较模型而收集的网络爬取基准数据集。在多个数据集上,ImageNet精度更高的模型并未持续带来性能提升。对于某些任务,即便不改变架构,数据增强等干预措施也能改善性能。
2025_NIPS_CQM: Curriculum Reinforcement Learning with a Quantized World Model
近年来,课程强化学习(RL)通过提出一系列替代任务,在解决复杂任务方面取得了显著进展。然而,先前的方法在高维空间中生成课程目标时往往面临挑战,因此它们通常依赖于人工指定的目标空间。为缓解这一限制并提高课程的可扩展性,我们提出了一种新颖的课程学习方法,该方法能自动定义包含课程过程关键信息的语义目标空间,并在该空间上生成课程目标。为定义语义目标空间,我们的方法通过向量量化变分自编码器(VQ-VAE)对连续观测进行离散化处理,并通过图结构恢复离散观测之间的时间关系。
2025_NIPS_Offline RL with Discrete Proxy Representations for Generalizability in POMDPs
该研究聚焦于离线强化学习(OfflineRL)在部分可观测马尔可夫决策过程(POMDPs)中的泛化性问题。现实场景中,离线RL模型通常基于完全可观测数据训练,但部署时会面临观测被遮挡、干扰等部分可观测情况,且训练阶段无法预知观测缺失的具体形式,导致模型性能大幅下降。为解决这一挑战,作者提出了ORDER(OfflineRLwithDiscrEtepRoxyrepresentations)框架离散状态表征学习。
2025_NIPS_Stable and low-precision training for large-scale vision-language models
我们提出了两种新方法,分别用于:1)加速大规模视觉语言模型的训练;2)稳定其训练过程。1)在加速方面,我们引入SwitchBack——一种适用于int8量化训练的线性层。该层在10亿参数的CLIPViT-Huge模型上(迄今为止规模最大的int8训练),实现了13%-25%的训练加速,同时精度与bfloat16训练相差不超过0.1个百分点。我们的核心关注点是int8,因为目前支持fp8的GPU硬件较为稀缺,但我们也通过模拟分析了fp8训练。SwitchBack。
2025_NIPS_Regret-Optimal Model-Free Reinforcement Learning for Discounted MDPs with Short Burn-In...
强化学习中的一个关键问题是学习最优策略。本文研究在线设置下的表格型无限时域折扣马尔可夫决策过程(MDP)。现有算法要么无法实现遗憾最优,要么需承担高昂的内存与计算成本。此外,所有现有最优算法都需要较长的预热时间才能达到最优样本效率,即除非样本量超过极高阈值,否则无法保证其最优性。本文通过提出一种融合方差缩减技术和新颖的“缓慢自适应切换”执行策略的模型无关算法,解决了这两个开放性问题。这是首个在折扣设置下实现遗憾最优的模型无关算法,同时具备短预热时间的优势。
LLM Weekly(2026.5.4-2026.5.10)
与竞争对手的独立生成器不同,Omni原生理解声音与视觉之间的关系。GoogleDeepMind的Gemini驱动编码代理在数据中心调度中回收了全球0.7%的算力,将Gemini训练内核加速23%,FlashAttention加速32.5%,并找到了56年来Strassen矩阵乘法算法的首次改进。在视觉-语言方面接近Gemini2.5Flash,在全模态理解上超越Qwen3-Omni-30B,并可在低于12GBRAM的边缘设备上实时全双工交互。
LLM Weekly(2026.5.11-2026.5.17)
MinT可在共享万亿参数基础模型上管理百万规模的LoRA适配器目录,支持扩展到超1T参数的MoE架构,也支持适配器占比不到基础模型1%的场景,实现18.3倍数据移动减少,并支持数千并发活跃适配器,效率提升8.5–8.7倍。发布8B和30BMoE版本,采用NEO-unify架构,在文本理解、视觉推理、图像合成和信息图生成等方面表现具有竞争力,在视觉-语言-动作和世界建模上也展现潜力。此次重组旨在减少冗余,通过垂直整合加速发展,包括计划中的太空数据中心和半导体制造。
2025_NIPS_Toolformer: Language Models Can Teach Themselves to Use Tools
本文提出了Toolformer,一种能通过自监督学习自主使用外部工具的语言模型(LM),旨在解决大语言模型在事实查询、算术计算、多语言翻译、时间感知等基础功能上的固有缺陷,同时保留其核心语言建模能力。核心问题:大语言模型(如GPT-J、GPT-3)虽在少样本/零样本任务中表现出色,但存在无法获取实时信息、易虚构事实、数学能力薄弱、低资源语言支持不足、缺乏时间感知等局限;现有工具使用方法依赖大量人工标注或局限于特定任务,通用性差。技术方案。
2025_NIPS_PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and...
该研究聚焦大型语言模型(LLMs)的规划与行动变更推理能力评估,核心贡献是提出了PlanBench——一个可扩展的基准测试套件。背景与动机:现有LLM规划能力评估多依赖常识任务,难以区分模型是真正规划还是调用训练数据中的知识;而自动化规划领域(如国际规划竞赛IPC)有成熟的领域和任务,可弥补这一缺陷,因此需构建系统化、可扩展的规划基准。PlanBench核心设计基础架构:包含领域无关组件(规划器、计划验证器、测试用例生成与验证工具)和领域相关组件(领域模型、问题生成器、符号-自然语言翻译器)。
2025_NIPS_Exposing Attention Glitches with Flip-Flop Language Modeling
问题聚焦:大型语言模型(LLMs)在长链推理中存在事实不准确(闭环幻觉),核心原因之一是Transformer架构的「注意力故障」(attentionglitches)——自注意力机制的归纳偏置无法稳定捕捉长程依赖推理。核心方法:提出「触发器语言建模(FFLM)」,这是一个极简的合成基准,要求模型在长序列中忽略中间tokens,复制二进制符号(模拟单比特内存的读写忽略操作),专门用于探测模型的外推推理能力。
2025_NIPS_Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcemen...
我们研究分布鲁棒离线强化学习(RL),其目标是纯从离线数据集出发找到最优鲁棒策略,该策略能在受扰动的环境中表现良好。我们提出了一个通用算法框架——双重悲观模型基策略优化(P²MPO),用于鲁棒离线RL,其核心特点是将灵活的模型估计子程序与双重悲观策略优化步骤相结合。此处的双重悲观原理对于克服两类分布偏移至关重要:一是行为策略与目标策略族的不匹配;二是名义模型的扰动。
2025_NIPS_VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks
本文提出了一种基于大型语言模型(LLM)的视觉中心任务框架VisionLLM,核心目标是打破传统视觉基础模型(VFM)受预定义任务格式限制的瓶颈,实现视觉与语言任务的统一建模,支持开放式、可定制化的视觉相关任务处理。首次实现LLM驱动的开放式视觉任务框架:将视觉中心任务定义与LLM方法论对齐,首次通过语言指令实现视觉任务的开放式、可定制化处理,打破预定义任务限制;统一语言指令设计:针对视觉仅任务(如分割、姿态估计)和视觉-语言任务设计一致的语言指令格式,解决模态差异导致的任务描述不兼容问题;
2025_NIPS_Multiplication-Free Transformer Training via Piecewise Affine Operations
该研究聚焦于神经网络训练中计算成本占比极高的乘法运算,提出通过分段仿射(PiecewiseAffine)操作替代乘法,实现无乘法的Transformer训练。核心动机:乘法运算(尤其是浮点数乘法)是神经网络训练(如Transformer架构)计算成本和能耗的主要来源,其硬件实现复杂度远高于加法,需更多逻辑门和能量。核心方法。
2025_NIPS_Cross-Episodic Curriculum for Transformer Agents
我们提出一种新算法——跨回合课程(Cross-EpisodicCurriculum,CEC),用于提升Transformer智能体的学习效率与泛化能力。CEC的核心是将跨回合经验融入Transformer的上下文,以此构建课程基础。通过对在线学习回合和混合质量演示数据进行序列结构化,CEC构建的课程能够涵盖跨回合的学习进程与熟练度提升。这种协同作用与Transformer模型强大的模式识别能力相结合,形成了高效的跨回合注意力机制。
2025_NIPS_Kiki or Bouba? Sound Symbolism in Vision-and-Language Models
尽管人类语言中语音与意义的映射被认为在很大程度上是任意的,但认知科学研究表明,不同语言和人群中特定语音与意义之间存在非平凡的相关性,这一现象被称为声音象征。在众多意义维度中,声音象征在语言与视觉领域的跨模态关联方面尤为显著且得到充分证实。本研究旨在探讨声音象征是否体现在CLIP和StableDiffusion等视觉-语言模型中。通过零样本知识探测来研究这些模型的内在知识,我们发现强有力的证据表明它们确实存在这种模式,与心理语言学中著名的kiki-bouba效应相似。
2025_NIPS_Textually Pretrained Speech Language Models
语音语言模型(SpeechLMs)仅处理和生成声学数据,无需文本监督。在本文中,我们提出TWIST方法,该方法利用预训练文本语言模型的热启动来训练SpeechLMs。通过自动评估和人类评估,我们证明TWIST在各方面均优于冷启动的SpeechLMs。我们实证分析了不同模型设计选择(如语音分词器、预训练文本模型和数据集规模)的影响,发现模型规模和数据集规模在构建性能更优的SpeechLMs中均发挥着重要作用。基于我们的观察,我们提出了(据我们所知)在参数数量和训练数据方面均最大的SpeechLM。
2025_NIPS_Transformers learn through gradual rank increase
我们发现了Transformer中的增量学习动态:训练权重与初始权重的差值秩会逐步提升。在对角权重矩阵和小初始化的简化假设下,我们对此进行了严格证明。实验结果支持该理论,且表明即便不满足这些简化假设,该现象在实际场景中依然存在。
