Loading...
可靠预测语言模型的行为(例如其输出是否正确或是否受到对抗性操纵)是一项极具挑战性的任务。由于前沿语言模型通常仅通过闭源API提供服务,仅支持黑箱访问,这一挑战变得更加严峻。本文中,我们通过发起跟进问题并将响应概率作为表征来训练可靠的预测器,从而实现对黑箱语言模型行为的预测。我们首先证明,基于这些响应训练的线性模型能够可靠且准确地预测模型在问答和推理基准测试中的正确性。令人意外的是,该方法甚至可以优于基于模型内部状态或激活的白箱线性预测器。
2025_NIPS_Reinforcement Learning for Reasoning in Large Language Models with One Training Example
我们证明,使用单个训练样本的可验证奖励强化学习(1-shotRLVR)能有效激发大语言模型(LLMs)的数学推理能力。将RLVR应用于基础模型Qwen2.5-Math-1.5B,我们发现一个单一样本可将模型在MATH500基准上的性能从36.0%提升至73.6%(较格式修正额外提升8.6%),并将6个常见数学推理基准的平均性能从17.6%提升至35.7%(非格式相关增益7.0%)。
2025_NIPS_PRESTO: Preimage-Informed Instruction Optimization for Prompting Black-Box LLMs
该研究聚焦于黑盒大语言模型(LLM)的指令优化问题——由于黑盒LLM(如GPT-4)的内部参数不可访问,直接优化其指令面临挑战。现有方法通过白盒LLM(如LLaMA3.1-8B-Instruct)优化软提示(softprompt)以生成候选指令,但存在“多对一映射”问题(不同软提示映射到相同指令),导致查询冗余、优化效率低下。研究重新解读这一“多对一映射”为有用的先验知识(即“原像结构”:生成相同指令的所有软提示构成该指令的原像),并提出PRESTO框架分数共享(ScoreSharing)
2025_NIPS_Your Pre-trained LLM is Secretly an Unsupervised Confidence Calibrator
本文聚焦后训练语言模型(PoLM)的过度自信问题,提出无监督置信度校准方法DACA(Disagreement-AwareConfidenceAlignment)。核心逻辑是利用预训练语言模型(PLM)良好的置信度校准特性,通过筛选PLM与PoLM预测一致的样本优化温度参数,避免预测分歧样本导致的校准偏差。实验表明,DACA在MMLU、MedMCQA等数据集上显著降低ECE(最高提升15.08%),适配开源与API类模型(如GPT-4o),且可扩展至开放式问答和选择性分类任务。
2025_NIPS_MIR-Bench: Can Your LLM Recognize Complicated Patterns via Many-Shot In-Context Reasoning?
从示例中识别模式并应用于新场景的能力是通用智能的核心能力,心理学和人工智能研究者已对其展开广泛研究。现有许多基准用于评估大语言模型(LLMs)的此类能力,但它们多聚焦于少示例(通常少于10个)场景,且缺乏对长上下文海量信息聚合能力的评估。另一方面,LLMs不断增长的上下文长度催生了新的多示例上下文学习(ICL)范式,无需昂贵且低效的微调,仅通过数百至数千个示例即可应对新任务。然而,多示例评估大多集中于分类任务,而“大海捞针”(NIAH)等主流长上下文LLM任务通常不需要整合海量信息的复杂智能。
2025_NIPS_Analyzing Similarity Metrics for Data Selection for Language Model Pretraining
衡量训练样本间的相似度对于构建高质量、多样化的语言模型预训练数据集至关重要。然而,相似度通常通过通用的现成嵌入模型计算,这类模型是为检索等任务训练的。这些基于嵌入的相似度度量是否适用于预训练数据筛选,在很大程度上仍未得到探索。本文提出一种新框架,专门评估相似度度量在语言模型预训练数据筛选场景中的适配性。该框架的首个评估准则旨在捕捉嵌入空间中的距离如何反映不同训练样本在预训练损失上的泛化性;
2025_NIPS_Provable Scaling Laws for the Test-Time Compute of Large Language Models
我们提出两种简单、有原则且实用的算法,它们对大型语言模型(LLMs)的测试时计算具有可证明的缩放定律。第一种是两阶段淘汰赛式算法:给定一个输入问题,先生成多个候选解,再通过淘汰赛聚合这些候选解以得到最终输出。假设LLM能以非零概率生成正确解,且在比较一对正确解和错误解时表现优于随机猜测,我们从理论上证明,随着测试时计算量的增加,该算法的失败概率会呈指数级衰减或幂律衰减(取决于具体的缩放方式)。第二种是两阶段联赛式算法,其中每个候选解的评估基于其与多个对手的平均胜率,而非输给单个对手后即被淘汰。
2025_NIPS_Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?
多模态大型语言模型(Multi-modalLLM)已具备先进的对话能力,但在提供实时、交互式分步指导方面仍存在不足——这是未来AI助手的关键能力之一。有效的指导不仅需要传递指令,还需检测指令的成功执行情况,识别并提醒用户的错误,且所有这些都必须实时完成。这要求模型不再是基于回合制,而是能够异步响应视频流,同时需要包含用户执行任务(包括错误及修正过程)的视频数据。
2025_NIPS_Learning World Models for Interactive Video Generation
基础世界模型必须兼具交互性和时空一致性,才能支持基于动作选择的有效未来规划。然而,当前长视频生成模型的固有世界建模能力有限,主要受两大挑战制约:复合误差与内存机制不足。本文通过额外的动作条件和自回归框架,为图像到视频模型增强了交互能力,并揭示:自回归视频生成中的复合误差本质上难以消除,而内存机制不足会导致世界模型的不一致性。我们提出带有显式全局状态条件的视频检索增强生成(VRAG),显著降低了长期复合误差,提升了世界模型的时空一致性。
2025_NIPS_SIMWORLD: An Open-ended Simulator for Agents in Physical and Social Worlds
尽管基于LLM/VLM的智能体在数学、编程和计算机应用领域取得了快速进展,但它们在复杂物理和社交环境中的应用仍面临挑战。构建能够在现实世界中生存和发展(例如自主赚取收入)的智能体,需要在多样化场景中进行大规模交互、推理、训练和评估。然而,现有用于此类开发的世界模拟器存在不足:它们通常依赖有限的手工构建环境,模拟简化的游戏化物理和社交规则,且缺乏对LLM/VLM智能体的原生支持。
2025_NIPS_Off-policy Reinforcement Learning with Model-based Exploration Augmentation
探索是强化学习(RL)的核心基础,其决定了智能体能否有效发现并利用环境的底层结构以实现最优性能。现有探索方法大致可分为主动探索和被动探索两类:前者通过在策略中引入随机性实现探索,但在高维环境中表现不佳;后者通过自适应优先排序回放缓冲区中的转移来增强探索,却受限于样本多样性不足。为解决被动探索的局限性,本文提出模型生成式探索(MoGE),通过生成未充分探索的关键状态,并借助转移模型合成动力学一致的经验来增强探索能力。
2025_NIPS_Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchma
多模态语言分析是一个快速发展的领域,它利用多种模态来增强对人类对话话语背后高层语义的理解。尽管其意义重大,但鲜有研究探讨多模态大型语言模型(MLLM)理解认知层面语义的能力。本文中,我们提出了MMLA——一个专门设计用于填补这一空白的综合基准。MMLA包含超过61K条来自模拟场景和真实世界场景的多模态话语,覆盖多模态语义的六个核心维度:意图、情感、对话行为、情绪、说话风格和沟通行为。我们采用三种方法(零样本推理、监督微调、指令微调)评估了八个主流分支的LLM和MLLM。
2025_NIPS_Spatial-Aware Decision-Making with Ring Attractors in Reinforcement Learning Systems
环形吸引子是受神经回路动力学启发的数学模型,为提升强化学习(RL)的学习速度和准确性提供了生物学上合理的机制。作为编码空间信息和不确定性的专用类脑结构,环形吸引子在深度强化学习(DRL)场景中显式编码动作空间、促进神经活动组织,并实现空间表示在神经网络中的分布式存储。这些结构还提供时间滤波功能,在探索过程中稳定动作选择——例如,在机器人控制中保持旋转角度的连续性,或在类游戏环境中维持战术动作的关联性。环形吸引子在动作选择过程中的应用包括将动作映射到环形上的特定位置,并基于神经活动解码所选动作。
2025_NIPS_CELLVERSE: Do Large Language Models Really Understand Cell Biology?
背景与问题:现有单细胞分析方法存在缺乏统一性(需为不同多组学数据和任务设计专用模型)、用户友好性不足(依赖生物学专业知识和编程技能)、可解释性差(黑箱模型无法说明决策逻辑)三大痛点;而LLMs在科学领域的应用尚未针对单细胞分析开展全面评估。CELLVERSE基准构建数据覆盖:整合4类单细胞多组学数据(scRNA-seq、CITE-seq、ASAP-seq、scATAC-seq),包含5个子数据集;任务设计:涵盖3个层级的核心单细胞分析任务,均转化为问答(QA)格式:细胞水平:细胞类型注释(CTA)
2025_NIPS_You Only Communicate Once: One-shot Federated Low-Rank Adaptation of MLLM
多模态大语言模型(MLLMs)与联邦学习(FL)结合可快速适配隐私敏感任务,但受限于多轮通信,面临通信成本高昂和攻击风险增加等显著挑战。为解决这一问题,单轮联邦学习(OFL)应运而生,旨在通过一次客户端-服务器通信完成适配。然而,现有自适应集成类OFL方法仍需多轮通信——由于校正异质性导致的局部偏差依赖于聚合生成的全局监督信号,因此并未实现真正的单轮通信。本文首次尝试在OFL框架下为MLLMs实现真正单轮通信,核心探索仅通过隐式全局监督(即初始预训练权重而非聚合权重)能否有效校正局部训练偏差。
2025_NIPS_From Bytes to Ideas: Language Modeling with Autoregressive U-Nets
该研究针对传统语言模型中分词(Tokenization)技术的局限性(如固定粒度、预定义词汇表、孤立嵌入阻碍跨语言迁移等),提出了自回归U-Net(AU-Net)模型。AU-Net直接处理原始字节(rawbytes),通过自适应多阶段分层结构,动态将字节聚合为单词、单词对乃至4词块,形成多尺度序列表示,无需预定义词汇表和大型嵌入表。
CUA-SUITE: MASSIVE HUMAN-ANNOTATED VIDEO DEMONSTRATIONS FOR COMPUTER-USE AGENTS
本文旨在解决当前通用计算机使用代理(CUAs)在专业桌面应用程序中表现不佳的瓶颈。研究指出,现有的基于稀疏屏幕截图的数据集缺乏时间连续性,无法满足构建高级代理的需求。为此,作者提出了CUA-SUITE,这是一个为训练和评估桌面计算机代理而设计的大规模、全栈式生态系统。主要组成部分包括:目前最大的开源专家视频语料库。
UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience
随着多模态大语言模型(MLLM)的快速发展,自主移动GUI(图形用户界面)智能体受到了越来越多的关注。失败轨迹的低效学习:模型难以从失败经验中有效提取可用的学习信号。稀疏奖励下的信用分配模糊问题:在长时域GUI任务中,奖励信号稀疏,难以精确判断哪一步操作导致了成功或失败。随着多模态大语言模型(MLLM)的不断发展,自主移动GUI智能体受到了越来越广泛的关注。然而,现有方法在从失败轨迹中高效学习方面仍存在不足,同时在长时域GUI任务的稀疏奖励下面临模糊的信用分配问题。
2025_NIPS_Measure gradients, not activations! Enhancing neuronal activity in deep reinforcement lear
测量梯度而非激活值!增强深度强化学习中的神经元活性深度强化学习(RL)智能体经常遭受神经元活性丧失的问题,这会损害其适应新数据和持续学习的能力。一种量化和解决该问题的常用方法是τ-休眠神经元比率,它利用激活统计信息来衡量神经元的表达能力。尽管这种方法对基于简单MLP的智能体有效,但在更复杂的架构中会丧失统计效力。为解决这一问题,我们认为在先进的RL智能体中,维持神经元的学习能力(通过梯度更新适应的能力)比保留其表达能力更为关键。
2025_NIPS_Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models
我们提出了AudioFlamingo3(AF3),这是一款完全开源的顶尖大型音频语言模型,在语音、声音和音乐的推理与理解方面实现了技术突破。AF3具备以下特性:(i)AF-Whisper——一种统一音频编码器,通过创新策略训练,实现语音、声音、音乐三大模态的联合表征学习;(ii)灵活的按需推理能力,允许模型在回答前进行链式思维(chain-of-thought)类型的推理;(iii)多轮多音频对话功能;(iv)支持长达10分钟的长音频理解与推理(含语音);(v)语音到语音交互。
