Loading...

2025_NIPS_VOCE: Variational Optimization with Conservative Estimation for Offline Safe Reinforcem...
离线安全强化学习(RL)算法有望在不与环境交互的情况下,直接从离线数据集中学习满足安全约束的策略。这种特性在自动驾驶、机器人等采样成本高且存在潜在危险的场景中尤为重要。然而,安全约束与分布外(OOD)动作的影响,使得现有方法难以在保证安全性的同时实现高回报。本文提出一种基于保守估计的变分优化算法(VOCE),用于解决离线数据集中的安全策略优化问题。具体而言,我们利用概率推理重构离线安全RL问题,引入变分分布提升策略优化的灵活性;随后采用悲观估计方法对成本和奖励的Q值进行估计,缓解OOD动作引发的外推误差。

2025_NIPS_Parsel Algorithmic Reasoning with Language Models by Composing Decompositions
尽管大型语言模型(LLM)在推理任务中取得了近期成功,但它们在生成复杂程序等分层多步推理任务中仍面临挑战。对于这类任务,人类通常会从高层算法设计入手,逐步实现每个部分。我们提出了Parsel,一个支持通过代码LLM自动实现和验证复杂算法的框架。借助Parsel,我们能将算法任务自动分解为分层的自然语言函数描述,然后通过测试搜索可能的函数实现组合。我们证明Parsel可应用于需要分层推理的多个领域,包括程序合成和机器人规划。

2025_NIPS_Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator
文本到视频是一个快速发展的研究领域,其目标是生成语义连贯、内容一致且时间连贯的帧序列,以准确匹配输入文本提示。本研究关注零样本文本到视频生成,兼顾数据高效性与成本高效性。为了生成语义连贯的视频——即充分呈现时间语义(如花朵绽放的完整过程),而非一系列“移动的图像”——我们提出了一种新颖的Free-Bloom框架:利用大型语言模型(LLM)作为“导演”生成语义连贯的提示序列,同时以预训练的潜在扩散模型(LDM)作为“动画师”生成高保真帧。

2025_NIPS_Reinforcement Learning with Simple Sequence Priors
在强化学习(RL)中,简洁性通常是基于单个动作进行量化的——但这一时间尺度忽略了序列策略中常见的时间规律性(如重复性)。因此,我们提出一种RL算法,其学习目标是通过可压缩的动作序列解决任务。我们探索了两种简单动作序列的来源:可通过自回归模型学习的序列,以及可利用现成数据压缩算法压缩的序列。将这些偏好提炼为序列先验后,我们推导出一种新颖的信息论目标函数,该函数激励智能体学习既能最大化奖励又能符合这些先验的策略。

Nowcasting Temporal Trends Using Indirect Surveys
间接调查要求受访者提供其认识之人的相关信息,该方法已被提出用于估算(即时预测)隐私敏感或难以接触的隐藏人群规模。例如,估算地震伤亡人数、女性性工作者的生存状况、毒品使用及传染病的患病率等。网络规模扩展法(NSUM)是通过间接调查获取估算结果的经典方法,但它专为一次性调查设计,且需要满足特定假设,还需询问或估算每位受访者的个人网络人数。近年来,调查越来越多地通过在线方式开展,能够持续收集数据(例如,疫情期间Facebook上的COVID-19调查)。

2025_NIPS_Guiding Large Language Models via Directional Stimulus Prompting
这篇ICLR2025会议论文聚焦大语言模型(LLM)的高效推理与上下文扩展,针对现有长上下文LLM在推理速度慢、显存占用高、长文本建模能力受限的问题,提出一套轻量化、即插即用的优化框架,兼顾长上下文理解与低资源推理。研究对象:Transformer架构LLM的注意力机制与推理pipeline核心问题:长文本(≥8ktokens)下注意力计算复杂度O(n²)、KV缓存爆炸、推理延迟飙升解决思路:重构注意力计算逻辑,结合稀疏注意力+动态KV缓存压缩+层级上下文聚合。

2025_NIPS_MoCa: Measuring Human-Language Model Alignment on Causal and Moral Judgment Tasks
人类对物理世界和社会世界的常识性理解是围绕直觉理论构建的。这些理论支撑着人们做出因果判断和道德判断。当不好的事情发生时,我们会自然地追问:谁做了什么,以及为什么这么做?认知科学领域的大量文献已经研究了人类的因果直觉和道德直觉。这项研究揭示了许多会系统性影响人类判断的因素,例如规范的违反,以及伤害是可避免的还是不可避免的。我们从24篇认知科学论文中收集了场景故事数据集,并开发了一个系统,为每个故事标注其所研究的影响因素。

2025_NIPS_UP-DP: Unsupervised Prompt Learning for Data Pre-Selection with Vision-Language Models
在本研究中,我们探讨了数据预选择任务。该任务旨在通过单次筛选从无标签数据集中挑选出待标注样本,从而在标注预算有限的情况下,为未知的下游任务优化模型性能。以往的数据预选择方法仅依赖于从基础模型(如CLIP和BLIP-2)中提取的视觉特征,却在很大程度上忽略了文本特征的强大潜力。在本文中,我们认为,通过合理设计,视觉和文本的联合特征空间能够为数据预选择提供更优的表示。为此,我们提出了UP-DP——一种简单而有效的无监督提示学习方法,该方法可适配BLIP-2等视觉语言模型以实现数据预选择。

2025_NIPS_OpenAssistant Conversations - Democratizing Large Language Model Alignment
该研究聚焦于大型语言模型(LLMs)的对齐问题,核心是解决现有高质量人类反馈数据稀缺、研究被少数机构垄断的现状,通过众包方式构建并发布了OpenAssistantConversations数据集,以推动LLM对齐研究的民主化。背景与问题:LLM的人类偏好对齐(如SFT、RLHF技术)能显著提升模型可用性,但依赖高质量人类反馈数据,这类数据成本高且多为专有;现有开源数据集多为合成数据或依赖模型生成响应,存在复杂度、质量不足等问题,限制了普惠性研究。数据集构建。

2025_NIPS_Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets
该研究聚焦时序差分(TD)强化学习的学习动态,针对线性函数近似场景,引入统计物理概念(高斯等价假设、路径积分方法等),建立了高维渐近极限下的学习曲线理论。核心发现包括:随机半梯度噪声会导致价值误差出现显著平台期,且平台期受特征结构、学习率、折扣因子、奖励函数等参数影响;通过学习率退火和奖励塑形策略可优化学习动态;任务-特征对齐度、批量大小等因素会调控收敛速度。

2025_NIPS_Context Shift Reduction for Offline Meta-Reinforcement Learning
该研究聚焦离线元强化学习(OMRL)中的上下文偏移问题——元训练阶段基于行为策略收集的上下文与元测试阶段基于探索策略收集的上下文存在分布差异,导致任务推理错误,降低元策略的泛化能力。为解决该问题,作者提出一种仅依赖离线数据集的新方法元训练阶段:设计最大-最小互信息表示学习机制,通过最大化任务表示与任务信息的互信息、最小化任务表示与行为策略的互信息,减少行为策略对任务表示的干扰;元测试阶段:提出非先验上下文收集策略。

2023_NIPS_Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model
随着模型规模的快速增长,大型预训练语言模型的微调因巨大的内存开销变得日益困难。现有研究通常聚焦于减少网络中的可训练参数数量,然而,尽管模型参数确实会占用部分内存,训练过程中的主要内存瓶颈实则来自特征图(即激活值)的存储——这对梯度计算至关重要。值得注意的是,机器学习模型通常采用随机梯度下降进行训练。我们认为,在随机优化中,只要梯度估计器是无偏的且方差合理,模型就能处理带噪声的梯度。

2025_NIPS_IMP-MARL: a Suite of Environments for Large-scale Infrastructure Management Planning vi...
我们引入IMP-MARL,这是一个用于大规模基础设施管理规划(IMP)的开源多智能体强化学习(MARL)环境套件,为基准测试协作式MARL方法在实际工程应用中的可扩展性提供平台。在IMP中,多组件工程系统会因组件损伤状态而面临故障风险。具体而言,每个智能体负责特定系统组件的检测与维修规划,目标是在最小化维护成本的同时,通过协作降低系统故障风险。IMP-MARL包含多个环境(含海上风电结构系统相关环境),旨在满足当前改善管理策略、支持可持续且可靠能源系统的需求。

2025_NIPS_Doubly Robust Augmented Transfer for Meta-Reinforcement Learning
元强化学习(Meta-RL)通过利用不同任务间共享的潜在公共结构,能够快速适应新任务并学习新技能,但在稀疏奖励场景下会面临性能退化问题。现有基于事后经验的样本迁移方法,通过将其他任务中重新标记的轨迹迁移到新任务,可为目标奖励函数提供含有效信息的经验,从而缓解这一问题,但这些方法均依赖一个不切实际的假设——任务间仅奖励函数存在差异。本文提出一种双重鲁棒增强迁移(DRaT)方法,旨在解决更通用的稀疏奖励元强化学习场景,该场景中任务间同时存在动力学不匹配和奖励函数变化的情况。

2025_NIPS_On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling ...
我们旨在探究序列决策中从历史数据集实现样本高效学习的关键因素——这一问题通常被称为离线强化学习(RL)。此外,我们还关注那些在利用(价值)函数近似的同时,仍能保持样本高效性的算法。本文通过以下两方面解决这些核心问题:(i)提出一种数据多样性概念,该概念涵盖了离线RL中以往的覆盖度量;(ii)利用这一概念,将基于版本空间(VS)、正则化优化(RO)和后验采样(PS)的三类不同离线RL算法进行统一。

2023_NIPS_Does progress on ImageNet transfer to real-world datasets?
ImageNet上的进展能否迁移到真实世界数据集?我们通过在6个实际图像分类数据集上评估不同精度(57%-83%)的ImageNet预训练模型,对这一问题展开研究。具体而言,我们关注那些为解决真实世界任务而收集的数据集(例如,对相机陷阱或卫星拍摄的图像进行分类),而非为比较模型而收集的网络爬取基准数据集。在多个数据集上,ImageNet精度更高的模型并未持续带来性能提升。对于某些任务,即便不改变架构,数据增强等干预措施也能改善性能。

2025_NIPS_CQM: Curriculum Reinforcement Learning with a Quantized World Model
近年来,课程强化学习(RL)通过提出一系列替代任务,在解决复杂任务方面取得了显著进展。然而,先前的方法在高维空间中生成课程目标时往往面临挑战,因此它们通常依赖于人工指定的目标空间。为缓解这一限制并提高课程的可扩展性,我们提出了一种新颖的课程学习方法,该方法能自动定义包含课程过程关键信息的语义目标空间,并在该空间上生成课程目标。为定义语义目标空间,我们的方法通过向量量化变分自编码器(VQ-VAE)对连续观测进行离散化处理,并通过图结构恢复离散观测之间的时间关系。

2025_NIPS_Offline RL with Discrete Proxy Representations for Generalizability in POMDPs
该研究聚焦于离线强化学习(OfflineRL)在部分可观测马尔可夫决策过程(POMDPs)中的泛化性问题。现实场景中,离线RL模型通常基于完全可观测数据训练,但部署时会面临观测被遮挡、干扰等部分可观测情况,且训练阶段无法预知观测缺失的具体形式,导致模型性能大幅下降。为解决这一挑战,作者提出了ORDER(OfflineRLwithDiscrEtepRoxyrepresentations)框架离散状态表征学习。

2025_NIPS_Stable and low-precision training for large-scale vision-language models
我们提出了两种新方法,分别用于:1)加速大规模视觉语言模型的训练;2)稳定其训练过程。1)在加速方面,我们引入SwitchBack——一种适用于int8量化训练的线性层。该层在10亿参数的CLIPViT-Huge模型上(迄今为止规模最大的int8训练),实现了13%-25%的训练加速,同时精度与bfloat16训练相差不超过0.1个百分点。我们的核心关注点是int8,因为目前支持fp8的GPU硬件较为稀缺,但我们也通过模拟分析了fp8训练。SwitchBack。

2025_NIPS_Regret-Optimal Model-Free Reinforcement Learning for Discounted MDPs with Short Burn-In...
强化学习中的一个关键问题是学习最优策略。本文研究在线设置下的表格型无限时域折扣马尔可夫决策过程(MDP)。现有算法要么无法实现遗憾最优,要么需承担高昂的内存与计算成本。此外,所有现有最优算法都需要较长的预热时间才能达到最优样本效率,即除非样本量超过极高阈值,否则无法保证其最优性。本文通过提出一种融合方差缩减技术和新颖的“缓慢自适应切换”执行策略的模型无关算法,解决了这两个开放性问题。这是首个在折扣设置下实现遗憾最优的模型无关算法,同时具备短预热时间的优势。

欢迎留下您的脚印