Loading...
我们提出了一种将冻结的纯文本大型语言模型(LLM)与预训练图像编码器和解码器模型融合的方法,通过在它们的嵌入空间之间建立映射实现这一目标。该模型展现出广泛的多模态能力:图像检索、新图像生成和多模态对话。我们的方法是首个能够基于任意交错的图像和文本输入,生成连贯图像(和文本)输出的方案。为了在图像生成任务上实现优异性能,我们设计了一个高效的映射网络,将LLM与现成的文本到图像生成模型关联起来。该映射网络将文本的隐藏表示转换为视觉模型的嵌入空间,使我们能够利用LLM强大的文本表示能力实现视觉输出。
2025_NIPS_Meta-Adapter: An Online Few-shot Learner for Vision-Language Model
对比视觉-语言预训练模型(即CLIP)在感知开放世界视觉概念方面展现出显著潜力,能够实现高效的零样本图像识别。然而,基于CLIP的少样本学习方法通常需要在少样本样本上对参数进行离线微调,导致推理时间延长,且在特定领域存在过拟合风险。为解决这些挑战,我们提出了Meta-Adapter——一种轻量级残差风格适配器,能够在在线模式下利用少样本样本引导CLIP特征的精炼。通过少量训练样本,我们的方法可赋予模型有效的少样本学习能力,且无需额外微调即可泛化到未见过的数据或任务,实现了具有竞争力的性能和高效率。
2025_NIPS_A Hierarchical Spatial Transformer for Massive Point Samples in Continuous Space
Transformer是应用广泛的深度学习架构。现有Transformer主要设计用于序列(文本或时间序列)、图像或视频以及图数据。本文提出一种新颖的Transformer模型,适用于连续空间中大规模(多达一百万)点样本。此类数据在环境科学(如传感器观测)、数值模拟(如含颗粒流、天体物理学)和基于位置的服务(如兴趣点和轨迹)中普遍存在。
2025_NIPS_MEMTO: Memory-guided Transformer for Multivariate Time Series Anomaly Detection
在现实世界的多元时间序列数据中检测异常具有挑战性,这源于复杂的时间依赖关系和变量间相关性。近年来,基于重建的深度模型已被广泛用于解决该问题,但这些方法仍存在过泛化问题,无法持续交付高性能。为解决这一问题,我们提出了MEMTO——一种基于重建方法的记忆引导Transformer。该模型引入了一种新颖的记忆模块,能够学习每个记忆项应如何根据输入数据调整更新程度。为稳定训练过程,我们采用两阶段训练范式,通过K-means聚类初始化记忆项。
2025_NIPS_Discovering Hierarchical Achievements in Reinforcement Learning via Contrastive Learning
在程序性生成环境中发现具有分层结构的成就是一项重大挑战。这要求智能体具备多种能力,包括泛化能力和长期推理能力。许多现有方法基于模型或分层架构构建,认为用于长期规划的显式模块有利于学习分层依赖关系。然而,这些方法需要过多的环境交互次数或庞大的模型规模,限制了其实际应用价值。在本研究中,我们证明了近端策略优化(PPO)——一种简单但通用的模型无关算法——在采用最新实现方案进行优化后,性能优于以往方法。此外,我们发现PPO智能体能够在一定程度上预测下一个待解锁的成就,尽管置信度有限。
2025_NIPS_TART: A plug-and-play Transformer module for task-agnostic reasoning
大语言模型(LLMs)具备上下文学习能力,无需任何任务特定训练即可完成多种任务。相比之下,微调等传统适配方法需为每个特定任务修改底层模型。然而,即便提供相同示例,上下文学习的性能也始终落后于任务特定微调方法。尽管大多数现有方法(如提示工程)专注于通过LLM的习得表征来缩小这一性能差距,但我们的实验表明,LLM的表征已包含足够做出良好预测的信息。因此,我们将重点放在LLM的推理能力上,并证明这种性能差距源于其无法完成简单的概率推理任务。这引发了一个有趣的问题:LLMs是否真的能够以任务无关的方式学习推理?
2025_NIPS_Textually Pretrained Speech Language Models
语音语言模型(SpeechLMs)仅处理和生成声学数据,无需文本监督。在本文中,我们提出TWIST方法,该方法利用预训练文本语言模型的热启动来训练SpeechLMs。通过自动评估和人类评估,我们证明TWIST在各方面均优于冷启动的SpeechLMs。我们实证分析了不同模型设计选择(如语音分词器、预训练文本模型和数据集规模)的影响,发现模型规模和数据集规模在构建性能更优的SpeechLMs中均发挥着重要作用。基于我们的观察,我们提出了(据我们所知)在参数数量和训练数据方面均最大的SpeechLM。
2025_NIPS_SatLM: Satisfiability-Aided Language Models Using Declarative Prompting
本文提出可满足性辅助语言模型(SATLM),通过声明式提示将自然语言推理问题转化为逻辑公式形式的可满足性(SAT)问题,再借助自动化定理证明器(如Z3SMT求解器)推导答案。该方法拆分推理任务为“解析-规划-执行”三步,仅让大语言模型(LLM)负责解析自然语言到声明式规范,将规划和执行交给SAT求解器,解决了传统链式思维(CoT)和程序辅助语言模型(PROGLM)在复杂约束推理中存在的规划错误和执行错误问题。
2025_NIPS_Provably Safe Reinforcement Learning with Step-wise Violation Constraints
我们研究了一种带逐步违规约束的新型安全强化学习问题。该问题与现有研究的区别在于:我们聚焦更严格的逐步违规约束,且不假设安全动作的存在。这一建模方式更适用于需在所有决策步骤保证安全、但未必始终存在安全动作的安全关键应用(如机器人控制和自动驾驶)。我们提出高效算法SUCBVI,其逐步违规可保证为OSTOST或依赖间隙的OSCgapS2AH2OSCgapS2AH2,遗憾为OH3SATOH3SAT。
2025_NIPS_Loss Dynamics of Temporal Difference Reinforcement Learning
该研究聚焦时序差分(TD)强化学习的学习动态,针对线性函数近似场景,引入统计物理概念(高斯等价假设、路径积分方法等),建立了高维渐近极限下的学习曲线理论。核心发现包括:随机半梯度噪声会导致价值误差出现显著平台期,且平台期受特征结构、学习率、折扣因子、奖励函数等参数影响;通过学习率退火和奖励塑形策略可优化学习动态;任务-特征对齐度、批量大小等因素会调控收敛速度。
2025_NIPS_Statistical Knowledge Assessment for Large Language Models
针对事实类问题的不同提示,大型语言模型(LLM)能否稳定生成事实正确的答案?现有LLM可能针对不同提示生成截然不同的响应。本文旨在研究量化LLM中蕴含的特定事实集合相关知识的问题,提出一种用于评估LLM事实知识的统计方法KaRR。其核心思想是估算:在给定主题和查询关系的多样提示下,LLM生成与答案实体对应的文本的概率,与随机生成该文本的概率之比。我们的评估套件包含994,123个实体、600种关系以及1,395,905个文本别名,规模全面。
2025_NIPS_A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect Dataset
为编目昆虫生物多样性,我们提出了一个新的大规模人工标注昆虫图像数据集——BIOSCAN-1M昆虫数据集。每条记录均由专家进行分类学归类,并附带相关遗传信息,包括原始核苷酸条形码序列和分配的条形码索引编号(BIN),后者是基于遗传特征的物种分类替代标识。本文呈现的这个经过精心整理的百万级图像数据集,主要用于训练能够提供基于图像的分类学评估的计算机视觉模型。此外,该数据集还具备诸多引人关注的特性,其相关研究将对更广泛的机器学习领域具有重要意义。受数据集固有生物特性的驱动,它呈现出典型的长尾类别不平衡分布。
2025_NIPS_Large Language Models Are Semi-Parametric Reinforcement Learning Agents
受认知科学中关于人类记忆与推理机制的见解启发,本文提出了一种新颖的可进化大语言模型(LLM)智能体框架REMEMBERER。通过为大语言模型配备长期经验记忆,REMEMBERER能够利用过往场景中的经验,即便面对不同的任务目标,也优于那些仅配备固定示例或瞬时工作记忆的大语言模型智能体。我们进一步引入带经验记忆的强化学习(RLEM)来更新记忆,因此整个系统能够从成功和失败的经验中学习,且无需微调大语言模型的参数即可进化其能力。由此,所提出的REMEMBERER构成了一种半参数化强化学习智能体。
2025_NIPS_ContiFormer: Continuous-Time Transformer for Irregular Time Series Modeling
对不规则时间序列进行连续时间动力学建模,对于解释数据的演化过程及持续存在的相关性至关重要。包括循环神经网络或Transformer在内的传统方法,通过强大的神经架构利用归纳偏置来捕捉复杂模式。然而,由于其离散特性,这些方法在泛化到连续时间数据范式时存在局限性。尽管神经常微分方程(NeuralODEs)及其变体在处理不规则时间序列方面已展现出良好前景,但它们往往难以捕捉序列内部复杂的相关性。同时建模输入数据点之间的关系与连续时间系统的动态变化,是一项具有挑战性且亟待解决的任务。
MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction
多模态大语言模型(MLLMs)的进展已将AI能力从静态离线数据处理推向实时流式交互,但仍远未达到人类水平的多模态交互。核心瓶颈不再仅是模态覆盖或延迟,而是交互范式本身:首先,感知与响应仍分离为交替阶段,模型无法在生成中融入新输入实时调整;其次,多数模型仅被动响应显式请求,无法在动态多模态环境中主动行为。本文提出MiniCPM‑o4.5,致力于实现类人多模态交互,通过实时全双工全模态交互弥补上述差距。它可实时同步看、听、说,并基于对实时场景的持续理解展现主动提醒、评论等行为。核心技术是Omni‑Flow。
2025_NIPS_Training Transitive and Commutative Multimodal Transformers with LoReTTa
多模态基础模型的训练具有挑战性,原因在于多模态数据集的可获取性有限。尽管许多公开数据集将图像与文本配对,但很少有数据集能将图像与音频或文本与音频结合,而同时对齐三种模态的数据集则更为罕见。医疗、基础设施或交通等关键领域尤其受模态缺失问题的影响,这使得难以将所有模态整合到一个大型预训练神经网络中,该网络本应能直接使用或针对不同下游任务进行微调。为此,我们提出了LoReTTa(一种利用传递性和交换性预训练策略链接模态的方法),以解决这一研究不足的问题。
2025_NIPS_Connecting Pre-trained Language Model and Downstream Task via Properties of Representation
近年来,研究人员发现大规模预训练语言模型学习到的表征在各类下游任务中具有实用价值。然而,关于预训练性能与下游任务性能之间的关联,目前尚缺乏理论层面的深入理解。本文旨在分析这种性能迁移如何依赖于下游任务的特性与表征的结构。我们考虑一种对数线性模型,其中单词可通过最后一层为softmax的网络基于其上下文进行预测。研究表明,即便下游任务具有强结构性且仅依赖于隐藏表征的简单函数,仍存在预训练损失较低但下游任务性能不佳的情况。
2025_NIPS_Inverse Reinforcement Learning with the Average Reward Criterion
我们研究了平均奖励准则下的逆强化学习(IRL)问题。其目标是在智能体仅获取经验丰富的专家智能体的状态和动作样本时,恢复未知的策略和奖励函数。以往的IRL方法假设专家在折扣奖励环境中训练,且折扣因子已知。本文通过提出一种带有高效学习算法的平均奖励框架,缓解了这一假设限制。我们开发了新颖的随机一阶方法,用于解决平均奖励设置下的IRL问题,该方法需要将平均奖励马尔可夫决策过程(AMDP)作为子问题求解。为解决此子问题,我们在一般状态和动作空间下提出了随机策略镜像下降(SPMD)方法,该方法仅需O1εO。
2025_NIPS_$SE(3)$ Equivariant Convolution and Transformer in Ray Space
这篇论文聚焦推荐系统领域,针对现有图对比学习(GCL)在推荐任务中存在的数据增强质量低、正负样本构建不合理、泛化能力弱等问题,提出一种自博弈增强的图对比学习框架(SP-GCL)。用用户-物品交互图作为基础结构,通过图神经网络学习节点表示设计自博弈(Self-Play)增强策略,让模型在训练中动态生成高质量对比视图构建自适应正负样本对,缓解传统对比学习中样本噪声与分布偏移问题在多个公开推荐数据集(MovieLens、Amazon、Yelp等)上验证,效果优于主流GCL推荐方法。
2025_NIPS_Unified Off-Policy Learning to Rank: a Reinforcement Learning Perspective
旨在利用部署日志策略收集的数据优化排序模型。然而,现有无偏排序学习方法通常对用户点击数据的生成方式(即点击模型)做出强假设,因此需要针对不同点击模型定制专属方法。本文将通用随机点击模型下的排序过程统一建模为马尔可夫决策过程(MDP),并可通过离线强化学习(RL)直接学习最优排序策略。基于此,我们利用离线强化学习技术解决无偏排序学习问题,提出点击模型无关的统一无偏排序学习方法(CUOLR),该方法可轻松应用于多种点击模型。
