Loading...
近期的文本到图像系统在处理多模态输入和复杂推理任务时面临局限。本文提出统一多模态大语言模型MindOmni,通过强化学习融入推理生成能力以应对这些挑战。MindOmni采用三阶段训练策略:1)设计含解码器式扩散模块的统一视觉语言模型;2)使用思维链(CoT)指令数据进行有监督微调;3)提出推理生成策略优化(RGPO)算法,利用多模态反馈有效引导策略更新。实验结果表明,MindOmni在理解和生成基准测试中均优于现有模型,展现出先进的细粒度推理生成能力,尤其在数学推理指令任务中表现突出。所有代码将开源于。
2025_NIPS_HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models
该研究针对多模态大型语言模型(MLLMs)训练中存在的计算资源消耗巨大、视觉与文本模态多粒度对齐不足的问题,提出了一种基于双曲空间的高效训练范式HyperET。核心背景是现有MLLMs依赖CLIP、SAM等视觉编码器,这些编码器仅能在单一粒度(如像素级或对象级)与语言对齐,导致跨模态对齐效率低下,需海量GPU资源支撑训练。而双曲空间天然具备层级建模能力,可通过双曲半径量化粒度(原点附近为低粒度视觉特征,边界附近为高粒度语义特征),为解决粒度不匹配问题提供了理论基础。
2025_NIPS_ROVER: Recursive Reasoning Over Videos with Vision-Language Models for Embodied Tasks
视觉语言模型(VLMs)在各类图像理解任务中展现出令人印象深刻的能力,但在需要对视频中的长序列相机帧进行推理的场景中仍存在不足。这限制了它们在具身场景中的实用性——此类场景要求在任务执行的每个时刻,都能基于连续的视觉输入流对长帧序列进行推理。为解决这一局限,我们提出ROVER(递归视频推理框架,ReasoningOverVidEoRecursively),该框架能使模型将长时程视频轨迹递归分解为对应轨迹内较短子任务的片段。
2025_NIPS_Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model
理解分子是理解生物体和推动药物发现进展的关键,需要化学和生物学领域的跨学科知识。尽管大型分子语言模型在任务迁移方面取得了显著成功,但由于知识储备和推理能力有限,它们往往难以准确分析分子特征。为解决这一问题,我们提出Mol-LLaMA——一款大型分子语言模型,其核心是掌握以分子为中心的通用知识,并具备可解释性和推理能力。为此,我们设计了涵盖分子基本特征的关键数据类型,同时兼顾分子推理所需的核心能力。此外,为提升分子理解效果,我们提出一种融合模块,利用分子表征的独特优势,整合来自不同分子编码器的互补信息。
2025_NIPS_RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
空间指代是实体机器人与3D物理世界交互的核心能力。然而,即便借助强大的预训练视觉语言模型(VLM),现有方法仍无法精准理解复杂3D场景,也难以对指令指示的交互位置进行动态推理。为此,我们提出RoboRefer——一种3D感知VLM,其首先通过监督微调(SFT)整合分离式专用深度编码器,实现精准空间理解;进一步通过强化微调(RFT),结合为空间指代任务定制的度量敏感过程奖励函数,提升广义多步空间推理能力。
2025_NIPS_CodeGEMM: A Codebook-Centric Approach to Efficient GEMM in Quantized LLMs
仅权重量化被广泛用于缓解LLM推理的内存受限问题。基于码本的方法通过在极低比特场景(如2-bit)下实现较高精度,进一步推动了这一趋势。然而,现有内核依赖反量化过程——反复读取质心并重构权重,导致显著的延迟和缓存压力。本文提出CodeGEMM,一种以码本为中心的GEMM内核,其通过预计算质心与激活之间的内积并存储在轻量级Psumbook中,替代了反量化步骤。推理时,码本索引直接获取这些部分和,消除了逐元素查找并减少了片上存储占用。该内核在统一实现中支持对延迟-内存-精度权衡关系的系统性探索。
2025_NIPS_Model Editing for Vision Transformers
模型编辑为高效、精准地更新预训练Transformer中的知识提供了一种极具前景的范式,无需进行昂贵的重训练。尽管该技术在语言模型(LMs)中已得到广泛研究,但视觉Transformer(ViTs)的模型编辑仍未得到充分探索。现有方法通常通过修改多层感知机(MLP)模块来适配基于LM的技术,却忽视了ViTs的独特特性。在本研究中,我们发现ViT的预测结果受多头自注意力(MSA)模块的影响远大于MLP模块。基于这一观察,我们提出了一种用于编辑ViTs的两阶段框架。首先,识别对错误预测负主要责任的注意力头;
2025_NIPS_BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning
小型语言模型(SLM)难以学习复杂的推理行为,尤其是在高质量轨迹稀缺或难以借鉴的场景下。标准训练方法通常结合监督微调(SFT)阶段(用于蒸馏大型模型的能力)和强化学习(RL)阶段(如组相对策略优化GRPO)。本文研究了这种SFT+RL范式的根本性局限,并提出了相应的解决方法。在合适的理论模型下,我们证明当(1)专家轨迹过于复杂导致小型模型无法表达,或(2)小型模型初始化成功的概率呈指数级低时,SFT+RL策略会完全失效。
2025_NIPS_URLs Help, Topics Guide: Understanding Metadata Utility in LLM Training
大语言模型(LLMs)通常在海量文本语料上进行预训练,却未利用来源、质量或主题等上下文元数据,形成了无上下文的学习范式。尽管近期研究表明,将URL等元数据作为上下文(即不参与损失计算的辅助输入)可提升训练效率和下游任务性能,但对于哪些类型的元数据真正有效以及在何种条件下有效,相关理解仍较为有限。本研究通过系统性评估发现,并非所有元数据类型的贡献都是均等的:仅URL上下文能加速训练,而质量分数和主题/格式领域信息未带来明显收益。
2025_NIPS_Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models
视觉推理能力在理解复杂多模态数据、推动特定领域应用和人工通用智能(AGI)发展中起着至关重要的作用。现有方法通过思维链(CoT)有监督微调提升视觉语言模型(VLMs)的推理能力,利用精心标注的训练数据增强视觉推理性能。然而,这种训练范式可能导致过拟合和认知僵化,限制模型在领域迁移场景下的泛化能力,降低其实际应用价值。为解决这些局限,我们提出Reason-RFT——首个用于视觉推理的两阶段强化微调框架:(1)利用精选CoT数据进行有监督微调(SFT),激活VLMs的推理潜力;
OpenClaw-RL: Train Any Agent Simply by Talking
每个已部署的AI智能体都在收集用于自我改进的数据却又将其丢弃。每次动作ata_tat后,智能体都会收到下一状态信号st1s_{t+1}st1:用户回复、工具执行结果、GUI状态转换或测试判定。现有系统仅将其当作下一步动作的上下文。本文提出OpenClaw‑RL,一个基于简单观察构建的框架:下一状态信号具有普遍性,策略可同时从所有信号中学习。个人对话、终端执行、GUI交互、SWE任务与工具调用轨迹并非独立训练问题,它们都是可在同一循环中训练同一策略的交互。
HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided
大模型正从离线预测器转向需长期运行的部署系统。实际部署中目标并非固定:领域漂移、用户偏好变化、新任务持续出现,这让持续学习与即时个性化从可选功能升级为核心架构需求。但主流适配流程仍遵循静态权重范式:训练或适配后,推理仅执行单一参数向量,无视用户意图、领域与实例约束,将模型视为参数空间中的单点。在异构、持续演化场景中,不同目标会形成分离的可行参数区域,迫使单一共享更新陷入折中、干扰或过拟合。因此持续学习与个性化常表现为重复覆写共享权重,易导致已学能力退化。本文提出。
2025_NIPS_VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning
协调动态环境中的多个具身智能体仍是人工智能领域的核心挑战,这需要感知驱动的推理能力与可扩展的协作策略。尽管近年来已有研究利用大型语言模型(LLMs)实现多智能体规划,但仅有少数工作探索了视觉-语言模型(VLMs)在视觉推理中的应用。然而,这些基于VLM的方法在支持多样化智能体形态方面仍存在局限。本文中,我们提出VIKI-Bench——首个专为具身多智能体协作设计的分层基准测试集,包含三个结构化层级:智能体激活、任务规划和轨迹感知。
2025_NIPS_HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization
Transformer已成为众多机器学习任务(尤其是大型语言模型LLMs)的主流架构。尽管性能卓越,但深度Transformer网络的训练仍面临诸多挑战,尤其是层归一化的位置选择问题。Pre-Norm结构凭借更强的恒等路径实现了更稳定的训练,但其性能往往不及Post-Norm。本文提出HybridNorm,一种简单有效的混合归一化策略,融合了Pre-Norm和Post-Norm的优势。
2025_NIPS_ModuLM: Enabling Modular and Multimodal Molecular Relational Learning with Large Language
本文针对分子关系学习(MRL)中现有大语言模型(LLM)框架缺乏多模态输入支持和灵活架构的问题,提出模块化框架ModuLM。该框架支持1D、2D、3D分子输入格式,整合多种编码器、交互层和LLM骨干网络,可动态构建超50,000种模型配置,适用于药物-药物相互作用(DDI)、溶质-溶剂相互作用(SSI)等任务,通过增量预训练、模态对齐和灵活微调提升模型性能。分子关系学习(MRL)旨在理解分子对之间的相互作用,在推动生化研究方面发挥着关键作用。
2025_NIPS_DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking i
检索增强生成(RAG)系统将大型语言模型(LLM)与外部知识检索相结合,在知识密集型任务中表现出极高的有效性。这些系统中一个关键但常被忽视的组件是重排器。由于RAG系统中的无关文档可能会误导生成器,重排器在优化检索文档以提升生成质量和可解释性方面发挥着至关重要的作用。然而,确定重排器应选择的合适文档数量(k)具有挑战性:过少可能导致遗漏关键信息,过多则会引入噪声并降低效率。
Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
本文提出神经灌木丛(NeuralThickets)大规模预训练模型的权重邻域内,密集分布着大量多样化的任务专家解,无需梯度优化,仅通过随机扰动+筛选集成即可获得媲美PPO、GRPO等强化学习后训练方法的性能。核心发现:小模型优质解稀疏,大模型随规模提升呈现“灌木丛”特性,任务专家解密度与多样性遵循缩放律。RandOpt——随机采样N个参数扰动,选Top-K做多数投票集成,无反向传播、全并行、时间复杂度O(1)。核心结论:预训练让下游适配变“易”,后训练更像搜索而非优化。
MetaClaw: Just Talk – An Agent That Meta-Learns and Evolves in the Wild
大语言模型(LLM)智能体已迅速成为复杂多步任务的强大助手,但实际部署中的智能体大多保持静态——一次训练后便不再改变,无视用户需求的持续演化。这带来一个核心矛盾:智能体必须不间断持续服务用户,却会因真实使用中任务分布漂移而能力过时。在OpenClaw等平台上,单个智能体接入20+消息渠道并处理多样、动态变化的任务负载,现有方案要么仅存储原始轨迹而不提炼可迁移行为知识,要么维护与权重优化脱节的静态技能库,要么在重训练时导致服务停机。
ATTENTION RESIDUALS
带PreNorm的残差连接是现代大语言模型的标准组件,但它们以固定单位权重累加所有层输出。这种均匀聚合会导致隐藏态随深度无控增长,逐步稀释每层的贡献。我们提出注意力残差(AttnRes),用对前层输出的softmax注意力替代这种固定累加,让每层能以可学习、输入相关的权重选择性聚合早期表示。为解决大规模模型训练中对所有前层输出做注意力带来的内存与通信开销,我们提出块注意力残差(BlockAttnRes):将层划分为块,仅对块级表示做注意力,在保留FullAttnRes大部分收益的同时降低内存占用。
FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System
本文提出FireRedASR2S,一款达到当前最优水平的工业级一体化自动语音识别(ASR)系统。它将四个模块集成在统一流水线中:ASR、语音活动检测(VAD)、口语语种识别(LID)以及标点预测(Punc)。所有模块在评测基准上均达到SOTA性能:FireRedASR2:ASR模块包含两个变体,FireRedASR2‑LLM(8B+参数)与FireRedASR2‑AED(1B+参数),支持普通话、中国方言与口音、英语以及语码混合的语音与歌声转录。
