Loading...

OpenWorldLib: A Unified Codebase and Definition of Advanced World Models
论文给出世界模型标准化定义:以感知为核心,具备交互、长时记忆能力,用于理解与预测复杂世界的模型/框架,强调感知-交互-记忆-预测闭环,而非单纯生成任务。世界模型作为人工智能领域极具前景的研究方向已受到广泛关注,但目前仍缺乏清晰、统一的定义。本文提出——一套面向高级世界模型的全面、标准化推理框架。结合世界模型的发展历程,我们给出明确界定:世界模型是以感知为核心、具备交互与长时记忆能力、用于理解和预测复杂世界的模型或框架。我们进一步系统梳理世界模型的核心能力范畴。

2025_NIPS_Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for ...
该研究针对大型语言模型(LLMs)直接用于规划任务时存在的正确性不足、依赖在线反馈、人力成本高等问题,提出了一种基于模型的新范式:利用LLMs构建规划领域定义语言(PDDL)格式的显式世界模型,再结合独立于领域的可靠规划器完成任务规划。PDDL模型构建:通过提示工程(含任务说明、示例、领域上下文、动作描述及动态更新的谓词列表),引导LLMs(重点验证GPT-4)生成包含动作参数、前置条件、效果及谓词定义的PDDL模型,支持对少约束或特定领域动作的建模;模型纠错。

2025_NIPS_Revisiting Out-of-distribution Robustness in NLP: Benchmarks, Analysis, and LLMs Evalua...
本文重新审视NLP领域的分布外(OOD)鲁棒性研究,指出传统基准存在分布偏移挑战不足、数据集相似度高等问题。为此提出标准化基准构建协议,打造涵盖5类任务(情感分析、毒性检测、自然语言推理、命名实体识别、抽取式问答)、20个数据集的BOSS基准套件。通过实验分析了ID(分布内)与OOD性能的三类关联模式,评估了5种鲁棒性增强方法和5种大语言模型(LLMs),发现vanilla微调仍是强基线,LLMs的上下文学习在OOD场景更具优势,而领域特定模型微调在ID数据充足时表现更优。

2025_NIPS_For SALE: State-Action Representation Learning for Deep Reinforcement Learning
在强化学习(RL)领域,表征学习已被证实是处理复杂基于图像任务的有效工具,但在物理控制等低维状态环境中却常被忽视。本文提出SALE(State-ActionRepresentationLearning),这是一种新颖的嵌入学习方法,能够建模状态与动作之间的细微交互,从而实现从低维状态中高效学习表征。我们深入研究了这些嵌入的设计空间,并强调了重要的设计考量。将SALE与强化学习中的检查点适配技术整合到TD3中,形成了TD7算法,该算法显著优于现有的连续控制算法。

2025_NIPS_Natural Actor-Critic for Robust Reinforcement Learning with Function Approximation
我们研究鲁棒强化学习(RL),目标是确定一种性能优良的策略,该策略能够抵御训练模拟器与测试环境之间的模型失配。以往基于策略的鲁棒RL算法主要关注在便于鲁棒策略评估的不确定性集合下的表格型设置,但当状态数量增加时,这些算法便不再易于处理。为此,我们提出两种新型不确定性集合表述,一种基于双采样,另一种基于积分概率度量。两种表述均能使大规模鲁棒RL变得易于处理,即便仅能访问模拟器。我们提出一种鲁棒自然演员-评论员(RNAC)方法,该方法融合了新的不确定性集合并采用函数逼近。

2025_NIPS_Understanding and Addressing the Pitfalls of Bisimulation-based Representations in Offl...
该研究聚焦双模拟(bisimulation)方法在离线强化学习(OfflineRL)中的性能瓶颈,通过理论分析和实验验证,揭示了双模拟方法在离线场景下表现不佳的核心原因,并提出针对性改进方案。离线数据集的缺失转移会破坏双模拟原理,导致估计失效;奖励缩放对双模拟测量范围和价值误差有关键影响,处理不当会引发表征崩溃;基于期望分位数算子(expectileoperator)和定制化奖励缩放策略,对现有双模拟算法(MICo、SimSR)进行改进;

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression
大语言模型的长文本推理会产生严重的KV缓存显存瓶颈。主流KV缓存压缩方法利用近期RoPE后查询的注意力分数评估KV重要性,但查询在RoPE中会随位置旋转,导致有效代表性查询极少,进而造成关键Token筛选不佳、推理不稳定。为解决该问题,我们转向RoPE前向量空间,发现Q与K向量在绝大多数注意力头中高度聚集在固定非零中心,且跨位置保持稳定——即Q/K聚集性。我们证明,这种聚集性会使查询优先关注特定相对距离的Key,中心通过三角级数决定偏好的距离区间。

Dive into Claude Code: The Design Space of Today‘s and Future AI Agent Systems
ClaudeCode是一款具备智能体能力的编程工具,可代表用户执行shell命令、编辑文件并调用外部服务。本研究通过分析其公开的TypeScript源码,完整阐述了系统架构,并与独立开源AI智能体系统OpenClaw展开对比——二者面向相同设计问题,却因部署场景不同给出迥异方案。分析提炼出驱动架构的5项人类价值理念,经由13项设计原则落地为具体实现。系统核心是调用模型、运行工具并循环迭代的简单while循环;

RAGEN-2: Reasoning Collapse in Agentic RL
我们发现大语言模型智能体强化学习中存在模板崩塌这一普遍失效模式:智能体生成表面多样、格式规范且奖励稳定的输出,却不依赖输入,转而依赖与任务无关的万能模板。传统监控指标(边际熵、奖励、格式有效性)仅衡量输入内差异,不衡量输入–输出相关性,无法检测该崩塌。我们将根源追溯至策略梯度中的信噪比失衡:任务相关信号与来自KL散度和熵正则化的噪声竞争,低信噪比样本主导参数更新,驱使智能体趋向与输入无关的固定模板。为诊断崩塌,我们引入输入–输出互信息。

AgentSPEX: An Agent SPecification and EXecution Language
基于大语言模型的智能体系统通常采用反应式提示机制,即单一指令引导模型完成开放式推理与工具调用步骤,这使得控制流与中间状态处于隐式状态,智能体行为难以控制。LangGraph、DSPy、CrewAI等编排框架通过显式工作流定义引入更强的结构化约束,但将工作流逻辑与Python深度耦合,导致智能体难以维护与修改。本文提出AgentSPEX——一种面向LLM智能体工作流的智能体规范与执行语言,支持显式控制流与模块化结构,并配套可定制的智能体执行框架。

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts
混合专家模型(MoE)已成为大语言模型扩展的主流架构:前沿模型通过稀疏专家路由,将总参数与单Token计算解耦。扩展定律表明,在固定激活计算量下,模型质量随总参数可预测提升,MoE通过增加专家数实现这一点。但训练大规模MoE成本高昂,内存需求与设备间通信均随总参数增长。本文提出专家升级(ExpertUpcycling):在持续预训练(CPT)中通过增加专家数渐进扩展MoE容量。给定训练好的E专家模型,升级算子通过专家复制+路由扩展构建mE专家模型,全程固定Top‑K路由,保持单Token推理成本不变。

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver
像OpenClaw这样的大语言模型(LLM)智能体依赖可复用技能完成复杂任务,但这些技能在部署后基本保持静态。因此,相似的工作流、工具使用模式与失败模式在不同用户间被反复重新发现,阻碍系统随经验持续改进。尽管不同用户的交互能为技能的有效/失效场景提供互补信号,但现有系统缺乏将这类异构经验转化为可靠技能更新的机制。为解决这些问题,本文提出SkillClaw——一个用于多用户智能体生态中技能集体进化的框架,它将跨用户、跨时间的交互作为改进技能的核心信号。

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
本文提出LLaDA2.0-Uni,一种统一离散扩散大语言模型(dLLM),在原生一体化框架中同时支持多模态理解与生成任务。模型架构融合全语义离散分词器、基于混合专家(MoE)的dLLM主干与扩散解码器。通过SigLIP‑VQ将连续视觉输入离散化,主干对文本与视觉输入统一执行块级掩码扩散建模,解码器将视觉token重建为高保真图像。除并行解码外,模型通过主干前缀感知优化与解码器少步蒸馏进一步提升推理效率。

2025_NIPS_BAdam: A Memory Efficient Full Parameter Optimization Method for Large Language Models
本文提出BAdam优化方法,基于块坐标下降(BCD)框架结合Adam更新规则,实现大语言模型(LLMs)的内存高效全参数微调。通过将模型参数划分为多个块,每次仅更新一个块并清理优化器状态,BAdam大幅降低内存消耗,同时在确定性场景下证明了收敛性。实验中,单RTX3090-24GBGPU可微调Llama3-8B,4×A100-80GB可微调Llama3-70B,其内存占用、运行速度优于LoRA等基线方法,在MT-bench和数学基准测试中性能持平甚至超越Adam。

2025_NIPS_Unleashing Region Understanding in Intermediate Layers for MLLM-based Referring Express...
基于多模态大型语言模型(MLLM)的指代表达生成(REG)任务日益受到关注,该任务旨在利用基础模型生成明确的文本描述,且该描述需恰好适用于图像中的单个对象或区域。我们通过实证发现,目标对象描述的细节丰富度与准确性之间存在潜在权衡:一方面,为提供更精准的对象描述,通常需要生成包含更多细节的句子;另一方面,复杂句子容易增加幻觉产生的概率。

2025_NIPS_Delving into the Reversal Curse: How Far Can Large Language Models Generalize?
虽然大型语言模型(LLMs)展现出前所未有的能力,但在面对看似简单的任务时,它们也存在某些固有局限性。一个典型例子是近期引发争议的“反转诅咒”——当模型接受了“A是B”的事实训练后,难以将该知识泛化以推断出“B是A”。本文探究了反转诅咒在不同任务中的表现,深入分析了LLMs的泛化能力与问题解决机制,得出一系列重要洞见:(1)当多项选择题等语境中同时出现A和B时,LLMs能够泛化得出“B是A”;

LLM Weekly(2026.4.27-2026.5.3)
NVIDIA发布Nemotron3NanoOmni,这是一款混合Mamba-Transformer模型,配备专用的视觉和音频编码器,用于文档分析、ASR和视频理解。该模型将图像、视频、网页和文档的理解直接集成到Agent工作流中,提升多模态编码和视觉工具使用能力,同时通过分层优化保持了有竞争力的纯文本性能。Tuna-2用简单patch嵌入替代模块化的预训练视觉编码器,在图像生成和感知基准上达到SOTA,同时降低架构复杂度,并在大规模下展现更强的细粒度视觉感知能力。

2025_NIPS_TabMT: Generating tabular data with masked transformers
本文提出了一种名为TabMT的新型掩码Transformer模型,专门用于生成合成表格数据。表格数据广泛应用于医疗、金融等领域,具有异构数据类型、分布多样及易缺失等特点,现有生成模型(如GANs、VAEs、扩散模型等)在鲁棒性、可扩展性、隐私保护及缺失数据处理方面存在不足。核心设计:采用双向掩码学习,支持任意顺序的字段生成,原生处理缺失数据(将缺失值掩码概率设为1);针对分类字段使用标准嵌入,连续字段通过量化与有序嵌入结合的方式建模。性能验证。

GenericAgent: A Token-Efficient Self-Evolving LLM Agent via Contextual Information Density Maximi...
长时序大语言模型(LLM)智能体从根本上受限于上下文。随着交互时长增加,工具描述、检索到的记忆与原始环境反馈不断累积,挤占决策所需信息。同时,任务中获得的有效经验常跨轮次丢失。本文提出,长时序性能并非由上下文长度决定,而是由有限上下文预算内决策相关信息的留存程度决定。我们提出GenericAgent(GA),一款以上下文信息密度最大化为核心原则的通用自进化LLM智能体系统。

2025_NIPS_Can LLMs Learn by Teaching for Better Reasoning? A Preliminary Study
教学以提升学生模型(例如知识蒸馏)是大语言模型(LLMs)领域中一项被广泛研究的方法。然而在人类教育中,教学不仅能让学生受益,还能通过培养更严谨清晰的推理能力和更深入的知识构建,使教师自身也得到提升。我们提出疑问:LLMs是否也能通过教学学习(LbT)来提升推理能力?若答案是肯定的,我们或许能解锁一种无需完全依赖人类生成数据或更强模型,即可持续推进模型进化的可能性。本文对这一问题进行了初步探索,结果表明LbT思想可融入现有LLM训练/提示流程并带来性能提升。

欢迎留下您的脚印