Loading...

2025_NIPS_Provable Scaling Laws for the Test-Time Compute of Large Language Models
我们提出两种简单、有原则且实用的算法,它们对大型语言模型(LLMs)的测试时计算具有可证明的缩放定律。第一种是两阶段淘汰赛式算法:给定一个输入问题,先生成多个候选解,再通过淘汰赛聚合这些候选解以得到最终输出。假设LLM能以非零概率生成正确解,且在比较一对正确解和错误解时表现优于随机猜测,我们从理论上证明,随着测试时计算量的增加,该算法的失败概率会呈指数级衰减或幂律衰减(取决于具体的缩放方式)。第二种是两阶段联赛式算法,其中每个候选解的评估基于其与多个对手的平均胜率,而非输给单个对手后即被淘汰。

2025_NIPS_Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?
多模态大型语言模型(Multi-modalLLM)已具备先进的对话能力,但在提供实时、交互式分步指导方面仍存在不足——这是未来AI助手的关键能力之一。有效的指导不仅需要传递指令,还需检测指令的成功执行情况,识别并提醒用户的错误,且所有这些都必须实时完成。这要求模型不再是基于回合制,而是能够异步响应视频流,同时需要包含用户执行任务(包括错误及修正过程)的视频数据。

2025_NIPS_Learning World Models for Interactive Video Generation
基础世界模型必须兼具交互性和时空一致性,才能支持基于动作选择的有效未来规划。然而,当前长视频生成模型的固有世界建模能力有限,主要受两大挑战制约:复合误差与内存机制不足。本文通过额外的动作条件和自回归框架,为图像到视频模型增强了交互能力,并揭示:自回归视频生成中的复合误差本质上难以消除,而内存机制不足会导致世界模型的不一致性。我们提出带有显式全局状态条件的视频检索增强生成(VRAG),显著降低了长期复合误差,提升了世界模型的时空一致性。

2025_NIPS_SIMWORLD: An Open-ended Simulator for Agents in Physical and Social Worlds
尽管基于LLM/VLM的智能体在数学、编程和计算机应用领域取得了快速进展,但它们在复杂物理和社交环境中的应用仍面临挑战。构建能够在现实世界中生存和发展(例如自主赚取收入)的智能体,需要在多样化场景中进行大规模交互、推理、训练和评估。然而,现有用于此类开发的世界模拟器存在不足:它们通常依赖有限的手工构建环境,模拟简化的游戏化物理和社交规则,且缺乏对LLM/VLM智能体的原生支持。

2025_NIPS_Off-policy Reinforcement Learning with Model-based Exploration Augmentation
探索是强化学习(RL)的核心基础,其决定了智能体能否有效发现并利用环境的底层结构以实现最优性能。现有探索方法大致可分为主动探索和被动探索两类:前者通过在策略中引入随机性实现探索,但在高维环境中表现不佳;后者通过自适应优先排序回放缓冲区中的转移来增强探索,却受限于样本多样性不足。为解决被动探索的局限性,本文提出模型生成式探索(MoGE),通过生成未充分探索的关键状态,并借助转移模型合成动力学一致的经验来增强探索能力。

2025_NIPS_Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchma
多模态语言分析是一个快速发展的领域,它利用多种模态来增强对人类对话话语背后高层语义的理解。尽管其意义重大,但鲜有研究探讨多模态大型语言模型(MLLM)理解认知层面语义的能力。本文中,我们提出了MMLA——一个专门设计用于填补这一空白的综合基准。MMLA包含超过61K条来自模拟场景和真实世界场景的多模态话语,覆盖多模态语义的六个核心维度:意图、情感、对话行为、情绪、说话风格和沟通行为。我们采用三种方法(零样本推理、监督微调、指令微调)评估了八个主流分支的LLM和MLLM。

2025_NIPS_Spatial-Aware Decision-Making with Ring Attractors in Reinforcement Learning Systems
环形吸引子是受神经回路动力学启发的数学模型,为提升强化学习(RL)的学习速度和准确性提供了生物学上合理的机制。作为编码空间信息和不确定性的专用类脑结构,环形吸引子在深度强化学习(DRL)场景中显式编码动作空间、促进神经活动组织,并实现空间表示在神经网络中的分布式存储。这些结构还提供时间滤波功能,在探索过程中稳定动作选择——例如,在机器人控制中保持旋转角度的连续性,或在类游戏环境中维持战术动作的关联性。环形吸引子在动作选择过程中的应用包括将动作映射到环形上的特定位置,并基于神经活动解码所选动作。

2025_NIPS_CELLVERSE: Do Large Language Models Really Understand Cell Biology?
背景与问题:现有单细胞分析方法存在缺乏统一性(需为不同多组学数据和任务设计专用模型)、用户友好性不足(依赖生物学专业知识和编程技能)、可解释性差(黑箱模型无法说明决策逻辑)三大痛点;而LLMs在科学领域的应用尚未针对单细胞分析开展全面评估。CELLVERSE基准构建数据覆盖:整合4类单细胞多组学数据(scRNA-seq、CITE-seq、ASAP-seq、scATAC-seq),包含5个子数据集;任务设计:涵盖3个层级的核心单细胞分析任务,均转化为问答(QA)格式:细胞水平:细胞类型注释(CTA)

2025_NIPS_You Only Communicate Once: One-shot Federated Low-Rank Adaptation of MLLM
多模态大语言模型(MLLMs)与联邦学习(FL)结合可快速适配隐私敏感任务,但受限于多轮通信,面临通信成本高昂和攻击风险增加等显著挑战。为解决这一问题,单轮联邦学习(OFL)应运而生,旨在通过一次客户端-服务器通信完成适配。然而,现有自适应集成类OFL方法仍需多轮通信——由于校正异质性导致的局部偏差依赖于聚合生成的全局监督信号,因此并未实现真正的单轮通信。本文首次尝试在OFL框架下为MLLMs实现真正单轮通信,核心探索仅通过隐式全局监督(即初始预训练权重而非聚合权重)能否有效校正局部训练偏差。

2025_NIPS_From Bytes to Ideas: Language Modeling with Autoregressive U-Nets
该研究针对传统语言模型中分词(Tokenization)技术的局限性(如固定粒度、预定义词汇表、孤立嵌入阻碍跨语言迁移等),提出了自回归U-Net(AU-Net)模型。AU-Net直接处理原始字节(rawbytes),通过自适应多阶段分层结构,动态将字节聚合为单词、单词对乃至4词块,形成多尺度序列表示,无需预定义词汇表和大型嵌入表。

CUA-SUITE: MASSIVE HUMAN-ANNOTATED VIDEO DEMONSTRATIONS FOR COMPUTER-USE AGENTS
本文旨在解决当前通用计算机使用代理(CUAs)在专业桌面应用程序中表现不佳的瓶颈。研究指出,现有的基于稀疏屏幕截图的数据集缺乏时间连续性,无法满足构建高级代理的需求。为此,作者提出了CUA-SUITE,这是一个为训练和评估桌面计算机代理而设计的大规模、全栈式生态系统。主要组成部分包括:目前最大的开源专家视频语料库。

UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience
随着多模态大语言模型(MLLM)的快速发展,自主移动GUI(图形用户界面)智能体受到了越来越多的关注。失败轨迹的低效学习:模型难以从失败经验中有效提取可用的学习信号。稀疏奖励下的信用分配模糊问题:在长时域GUI任务中,奖励信号稀疏,难以精确判断哪一步操作导致了成功或失败。随着多模态大语言模型(MLLM)的不断发展,自主移动GUI智能体受到了越来越广泛的关注。然而,现有方法在从失败轨迹中高效学习方面仍存在不足,同时在长时域GUI任务的稀疏奖励下面临模糊的信用分配问题。

2025_NIPS_Measure gradients, not activations! Enhancing neuronal activity in deep reinforcement lear
测量梯度而非激活值!增强深度强化学习中的神经元活性深度强化学习(RL)智能体经常遭受神经元活性丧失的问题,这会损害其适应新数据和持续学习的能力。一种量化和解决该问题的常用方法是τ-休眠神经元比率,它利用激活统计信息来衡量神经元的表达能力。尽管这种方法对基于简单MLP的智能体有效,但在更复杂的架构中会丧失统计效力。为解决这一问题,我们认为在先进的RL智能体中,维持神经元的学习能力(通过梯度更新适应的能力)比保留其表达能力更为关键。

2025_NIPS_Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models
我们提出了AudioFlamingo3(AF3),这是一款完全开源的顶尖大型音频语言模型,在语音、声音和音乐的推理与理解方面实现了技术突破。AF3具备以下特性:(i)AF-Whisper——一种统一音频编码器,通过创新策略训练,实现语音、声音、音乐三大模态的联合表征学习;(ii)灵活的按需推理能力,允许模型在回答前进行链式思维(chain-of-thought)类型的推理;(iii)多轮多音频对话功能;(iv)支持长达10分钟的长音频理解与推理(含语音);(v)语音到语音交互。

2025_NIPS_Model Provenance Testing for Large Language Models
大型语言模型正通过微调及其他适配方式被日益广泛地定制化,这给许可条款执行和下游影响管理(如知识产权保护或漏洞识别)带来了挑战。本文通过开发一套模型来源测试框架来应对这一问题。我们的方法基于一个关键观察:现实世界中的模型衍生过程会保留模型输出中的显著相似性,而这种相似性可通过统计分析检测。仅利用对模型的黑盒访问权限,我们采用多假设检验,将模型相似度与无关模型建立的基准进行对比。

2025_NIPS_Graph-KV: Breaking Sequence via Injecting Structural Biases into Large Language Models
该研究针对大型语言模型(LLMs)固有的自回归特性导致的结构化数据处理缺陷,提出了一种名为Graph-KV的新方法。核心目标是突破LLMs需将所有输入序列化的限制,通过注入结构归纳偏置,提升模型在结构化数据任务中的性能,同时解决位置偏差、计算复杂度高和上下文窗口消耗过快等问题。现代大型语言模型(LLMs)本质上是自回归的,无论输入数据是否存在结构化依赖,都要求将其序列化为扁平序列。

2025_NIPS_Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonst
该研究针对稀疏奖励强化学习中演示数据利用率低的问题,提出SPReD(SmoothPolicyRegularisationfromDemonstrations)框架。通过集成评论家网络建模Q值分布,量化演示动作与智能体当前策略动作的不确定性,采用连续权重调节行为克隆损失,而非传统二进制决策,在8个机器人任务中实现显著性能提升,复杂任务成功率最高达传统方法的14倍,且对演示数据的质量和数量具有强鲁棒性。在稀疏奖励强化学习中,演示数据可加速学习,但如何判断何时模仿演示动作仍是一大挑战。

2025_NIPS_JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation
本文提出JavisGPT,这是首个用于联合音视频(JAV)理解与生成的统一多模态大语言模型(MLLM)。该模型采用简洁的编码器-LLM-解码器架构,核心包含SyncFusion模块(用于音视频时空融合)和同步感知的可学习查询(用于衔接预训练JAV-DiT生成器)。此设计支持从多模态指令中实现时间连贯的音视频理解与生成。我们设计了高效的三阶段训练流程,包括多模态预训练、音视频微调与大规模指令调优,基于现有视觉-语言模型逐步构建多模态理解与生成能力。

2025_NIPS_Quantum speedup of non-linear Monte Carlo problems
随机变量的均值可理解为概率分布空间上的线性泛函。已知量子计算在均值估计问题中,相比经典蒙特卡洛方法能提供二次加速。本文研究了该二次加速是否可扩展到概率分布的非线性泛函估计中。我们提出一种“量子内嵌量子”算法,为嵌套期望这一类广泛的非线性估计问题实现了该加速。该算法改进了An等人(2021)提出的直接应用量子加速多层蒙特卡洛算法的方案。现有下界表明,我们的算法在多项式对数因子内是最优的。本文方法的核心创新是设计了一系列专门适用于量子计算的多层蒙特卡洛近似,这是算法实现性能提升的关键。

2025_NIPS_Optimal Control for Transformer Architectures: Enhancing Generalization, Robustness and Ef
我们从最优控制理论的角度研究Transformer,利用连续时间表述的工具,为训练和架构设计提供可落地的见解。该框架在提升现有Transformer模型性能的同时,提供了理想的理论保证,包括泛化能力和鲁棒性。我们的框架设计为即插即用模式,能够与成熟的Transformer模型无缝集成,且仅需对实现进行轻微修改。我们在文本生成、情感分析、图像分类和点云分类相关任务上进行了7项广泛实验。实验结果表明,该框架在提升基线模型测试性能的同时,具有更高的参数效率。

欢迎留下您的脚印