Loading...
受认知科学中关于人类记忆与推理机制的见解启发,本文提出了一种新颖的可进化大语言模型(LLM)智能体框架REMEMBERER。通过为大语言模型配备长期经验记忆,REMEMBERER能够利用过往场景中的经验,即便面对不同的任务目标,也优于那些仅配备固定示例或瞬时工作记忆的大语言模型智能体。我们进一步引入带经验记忆的强化学习(RLEM)来更新记忆,因此整个系统能够从成功和失败的经验中学习,且无需微调大语言模型的参数即可进化其能力。由此,所提出的REMEMBERER构成了一种半参数化强化学习智能体。
2025_NIPS_ContiFormer: Continuous-Time Transformer for Irregular Time Series Modeling
对不规则时间序列进行连续时间动力学建模,对于解释数据的演化过程及持续存在的相关性至关重要。包括循环神经网络或Transformer在内的传统方法,通过强大的神经架构利用归纳偏置来捕捉复杂模式。然而,由于其离散特性,这些方法在泛化到连续时间数据范式时存在局限性。尽管神经常微分方程(NeuralODEs)及其变体在处理不规则时间序列方面已展现出良好前景,但它们往往难以捕捉序列内部复杂的相关性。同时建模输入数据点之间的关系与连续时间系统的动态变化,是一项具有挑战性且亟待解决的任务。
MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction
多模态大语言模型(MLLMs)的进展已将AI能力从静态离线数据处理推向实时流式交互,但仍远未达到人类水平的多模态交互。核心瓶颈不再仅是模态覆盖或延迟,而是交互范式本身:首先,感知与响应仍分离为交替阶段,模型无法在生成中融入新输入实时调整;其次,多数模型仅被动响应显式请求,无法在动态多模态环境中主动行为。本文提出MiniCPM‑o4.5,致力于实现类人多模态交互,通过实时全双工全模态交互弥补上述差距。它可实时同步看、听、说,并基于对实时场景的持续理解展现主动提醒、评论等行为。核心技术是Omni‑Flow。
2025_NIPS_Training Transitive and Commutative Multimodal Transformers with LoReTTa
多模态基础模型的训练具有挑战性,原因在于多模态数据集的可获取性有限。尽管许多公开数据集将图像与文本配对,但很少有数据集能将图像与音频或文本与音频结合,而同时对齐三种模态的数据集则更为罕见。医疗、基础设施或交通等关键领域尤其受模态缺失问题的影响,这使得难以将所有模态整合到一个大型预训练神经网络中,该网络本应能直接使用或针对不同下游任务进行微调。为此,我们提出了LoReTTa(一种利用传递性和交换性预训练策略链接模态的方法),以解决这一研究不足的问题。
2025_NIPS_Connecting Pre-trained Language Model and Downstream Task via Properties of Representation
近年来,研究人员发现大规模预训练语言模型学习到的表征在各类下游任务中具有实用价值。然而,关于预训练性能与下游任务性能之间的关联,目前尚缺乏理论层面的深入理解。本文旨在分析这种性能迁移如何依赖于下游任务的特性与表征的结构。我们考虑一种对数线性模型,其中单词可通过最后一层为softmax的网络基于其上下文进行预测。研究表明,即便下游任务具有强结构性且仅依赖于隐藏表征的简单函数,仍存在预训练损失较低但下游任务性能不佳的情况。
2025_NIPS_Inverse Reinforcement Learning with the Average Reward Criterion
我们研究了平均奖励准则下的逆强化学习(IRL)问题。其目标是在智能体仅获取经验丰富的专家智能体的状态和动作样本时,恢复未知的策略和奖励函数。以往的IRL方法假设专家在折扣奖励环境中训练,且折扣因子已知。本文通过提出一种带有高效学习算法的平均奖励框架,缓解了这一假设限制。我们开发了新颖的随机一阶方法,用于解决平均奖励设置下的IRL问题,该方法需要将平均奖励马尔可夫决策过程(AMDP)作为子问题求解。为解决此子问题,我们在一般状态和动作空间下提出了随机策略镜像下降(SPMD)方法,该方法仅需O1εO。
2025_NIPS_$SE(3)$ Equivariant Convolution and Transformer in Ray Space
这篇论文聚焦推荐系统领域,针对现有图对比学习(GCL)在推荐任务中存在的数据增强质量低、正负样本构建不合理、泛化能力弱等问题,提出一种自博弈增强的图对比学习框架(SP-GCL)。用用户-物品交互图作为基础结构,通过图神经网络学习节点表示设计自博弈(Self-Play)增强策略,让模型在训练中动态生成高质量对比视图构建自适应正负样本对,缓解传统对比学习中样本噪声与分布偏移问题在多个公开推荐数据集(MovieLens、Amazon、Yelp等)上验证,效果优于主流GCL推荐方法。
2025_NIPS_Unified Off-Policy Learning to Rank: a Reinforcement Learning Perspective
旨在利用部署日志策略收集的数据优化排序模型。然而,现有无偏排序学习方法通常对用户点击数据的生成方式(即点击模型)做出强假设,因此需要针对不同点击模型定制专属方法。本文将通用随机点击模型下的排序过程统一建模为马尔可夫决策过程(MDP),并可通过离线强化学习(RL)直接学习最优排序策略。基于此,我们利用离线强化学习技术解决无偏排序学习问题,提出点击模型无关的统一无偏排序学习方法(CUOLR),该方法可轻松应用于多种点击模型。
2025_NIPS_StateMask: Explaining Deep Reinforcement Learning through State Mask
尽管深度强化学习(DRL)智能体在众多挑战性场景中表现出良好性能,但其“黑箱”特性极大限制了其在关键领域的应用。现有研究已提出多种解释技术来理解RL中基于深度学习的策略,但大多数方法仅解释智能体为何采取单个动作,而非定位对最终奖励至关重要的关键步骤。为填补这一空白,我们提出StateMask——一种识别对智能体最终奖励最关键状态的新型方法。StateMask的核心思路是训练一个掩码网络,在部分时间步“屏蔽”目标智能体并迫使其执行随机动作,同时不损害智能体的性能。
2025_NIPS_SPQR: Controlling Q-ensemble Independence with Spiked Random Model for Reinforcement Le...
缓解高估偏差是深度强化学习在更复杂任务或含分布外数据的离线数据集上取得良好性能的关键挑战。为克服高估偏差,集成Q学习方法已被广泛研究,以利用多个Q函数的多样性。由于网络初始化是促进Q函数多样性的主要方式,文献中已提出多种启发式设计的多样性注入方法。然而,现有研究尚未从理论角度尝试实现集成的确定性独立性保障。通过引入基于随机矩阵理论的新型Q集成独立性正则化损失,我们提出用于强化学习的尖峰维格纳Q集成独立性正则化(SPQR)。
2025_NIPS_Wasserstein Quantum Monte Carlo: A Novel Approach for Solving the Quantum Many-Body Sch...
求解量子多体薛定谔方程是量子物理、量子化学和材料科学领域中一个基础性且极具挑战性的问题。量子变分蒙特卡洛(QVMC)是解决该问题的常用计算方法之一,其通过在受限的参数化波函数族中最小化系统能量来获取基态解。深度学习方法通过用神经网络表示丰富的波函数族,在一定程度上解决了传统QVMC的局限性。然而,QVMC中的优化目标向来难以最小化,需要采用自然梯度等二阶优化方法。在本文中,我们首先将能量泛函最小化问题重构到与粒子置换(反)对称波函数对应的玻恩分布空间中,而非直接在波函数空间中进行。
2025_NIPS_Recurrent Hypernetworks are Surprisingly Strong in Meta-RL
该研究聚焦元强化学习(Meta-RL)中样本效率低的核心问题,通过实证研究探索循环网络与超网络结合在元强化学习中的性能表现。研究背景:深度强化学习(RL)因样本效率低难以实际部署,元强化学习通过在相关任务分布上进行元训练,实现少样本学习以解决该问题。现有方法分为两类:一类是基于循环网络(RNN)的端到端“黑盒”方法,另一类是更复杂的任务推理(Task-Inference)方法。此前有研究称循环网络是有竞争力的基线,但存在实验证据有限、计算资源分配不均等争议。核心研究。
2025_NIPS_VOCE: Variational Optimization with Conservative Estimation for Offline Safe Reinforcem...
离线安全强化学习(RL)算法有望在不与环境交互的情况下,直接从离线数据集中学习满足安全约束的策略。这种特性在自动驾驶、机器人等采样成本高且存在潜在危险的场景中尤为重要。然而,安全约束与分布外(OOD)动作的影响,使得现有方法难以在保证安全性的同时实现高回报。本文提出一种基于保守估计的变分优化算法(VOCE),用于解决离线数据集中的安全策略优化问题。具体而言,我们利用概率推理重构离线安全RL问题,引入变分分布提升策略优化的灵活性;随后采用悲观估计方法对成本和奖励的Q值进行估计,缓解OOD动作引发的外推误差。
2025_NIPS_Parsel Algorithmic Reasoning with Language Models by Composing Decompositions
尽管大型语言模型(LLM)在推理任务中取得了近期成功,但它们在生成复杂程序等分层多步推理任务中仍面临挑战。对于这类任务,人类通常会从高层算法设计入手,逐步实现每个部分。我们提出了Parsel,一个支持通过代码LLM自动实现和验证复杂算法的框架。借助Parsel,我们能将算法任务自动分解为分层的自然语言函数描述,然后通过测试搜索可能的函数实现组合。我们证明Parsel可应用于需要分层推理的多个领域,包括程序合成和机器人规划。
2025_NIPS_Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator
文本到视频是一个快速发展的研究领域,其目标是生成语义连贯、内容一致且时间连贯的帧序列,以准确匹配输入文本提示。本研究关注零样本文本到视频生成,兼顾数据高效性与成本高效性。为了生成语义连贯的视频——即充分呈现时间语义(如花朵绽放的完整过程),而非一系列“移动的图像”——我们提出了一种新颖的Free-Bloom框架:利用大型语言模型(LLM)作为“导演”生成语义连贯的提示序列,同时以预训练的潜在扩散模型(LDM)作为“动画师”生成高保真帧。
2025_NIPS_Reinforcement Learning with Simple Sequence Priors
在强化学习(RL)中,简洁性通常是基于单个动作进行量化的——但这一时间尺度忽略了序列策略中常见的时间规律性(如重复性)。因此,我们提出一种RL算法,其学习目标是通过可压缩的动作序列解决任务。我们探索了两种简单动作序列的来源:可通过自回归模型学习的序列,以及可利用现成数据压缩算法压缩的序列。将这些偏好提炼为序列先验后,我们推导出一种新颖的信息论目标函数,该函数激励智能体学习既能最大化奖励又能符合这些先验的策略。
Nowcasting Temporal Trends Using Indirect Surveys
间接调查要求受访者提供其认识之人的相关信息,该方法已被提出用于估算(即时预测)隐私敏感或难以接触的隐藏人群规模。例如,估算地震伤亡人数、女性性工作者的生存状况、毒品使用及传染病的患病率等。网络规模扩展法(NSUM)是通过间接调查获取估算结果的经典方法,但它专为一次性调查设计,且需要满足特定假设,还需询问或估算每位受访者的个人网络人数。近年来,调查越来越多地通过在线方式开展,能够持续收集数据(例如,疫情期间Facebook上的COVID-19调查)。
2025_NIPS_Guiding Large Language Models via Directional Stimulus Prompting
这篇ICLR2025会议论文聚焦大语言模型(LLM)的高效推理与上下文扩展,针对现有长上下文LLM在推理速度慢、显存占用高、长文本建模能力受限的问题,提出一套轻量化、即插即用的优化框架,兼顾长上下文理解与低资源推理。研究对象:Transformer架构LLM的注意力机制与推理pipeline核心问题:长文本(≥8ktokens)下注意力计算复杂度O(n²)、KV缓存爆炸、推理延迟飙升解决思路:重构注意力计算逻辑,结合稀疏注意力+动态KV缓存压缩+层级上下文聚合。
2025_NIPS_MoCa: Measuring Human-Language Model Alignment on Causal and Moral Judgment Tasks
人类对物理世界和社会世界的常识性理解是围绕直觉理论构建的。这些理论支撑着人们做出因果判断和道德判断。当不好的事情发生时,我们会自然地追问:谁做了什么,以及为什么这么做?认知科学领域的大量文献已经研究了人类的因果直觉和道德直觉。这项研究揭示了许多会系统性影响人类判断的因素,例如规范的违反,以及伤害是可避免的还是不可避免的。我们从24篇认知科学论文中收集了场景故事数据集,并开发了一个系统,为每个故事标注其所研究的影响因素。
2025_NIPS_UP-DP: Unsupervised Prompt Learning for Data Pre-Selection with Vision-Language Models
在本研究中,我们探讨了数据预选择任务。该任务旨在通过单次筛选从无标签数据集中挑选出待标注样本,从而在标注预算有限的情况下,为未知的下游任务优化模型性能。以往的数据预选择方法仅依赖于从基础模型(如CLIP和BLIP-2)中提取的视觉特征,却在很大程度上忽略了文本特征的强大潜力。在本文中,我们认为,通过合理设计,视觉和文本的联合特征空间能够为数据预选择提供更优的表示。为此,我们提出了UP-DP——一种简单而有效的无监督提示学习方法,该方法可适配BLIP-2等视觉语言模型以实现数据预选择。
