Loading...
本文提出了一种新颖的文本可提示手术器械分割方法,以克服微创手术中手术器械多样性和区分性带来的挑战。我们将该任务重新定义为文本可提示形式,从而实现对手术器械更细致的理解,并增强对新型器械的适应性。受视觉语言模型最新进展的启发,我们采用预训练的图像和文本编码器作为模型骨干,并设计了一个包含基于注意力和卷积提示方案的文本可提示掩码解码器,用于手术器械分割预测。我们的模型通过一种新的提示混合机制,为每种手术器械引入多个文本提示,从而提升分割性能。此外,我们还引入了硬器械区域强化模块,以改善图像特征理解和分割精度。
2025_NIPS_A Definition of Continual Reinforcement Learning
在强化学习问题的标准视角中,智能体的目标是高效找到最大化长期奖励的策略。然而,这一视角基于“学习即寻找解决方案”的局限认知,而非将学习视为持续适应的过程。相比之下,持续强化学习(CRL)指的是最优智能体永不停止学习的场景。尽管CRL具有重要意义,领域内仍缺乏一个能凸显其核心承诺、明确关键概念的简洁定义。为此,本文致力于严谨定义持续强化学习问题。我们通过一套用于分析和归类智能体的新数学语言,形式化了“永不停止学习的智能体”这一概念。
2025_NIPS_The geometry of hidden representations of large transformer models
表示演化的阶段性特征:Transformer的隐藏表示演化呈现明确phases,且跨任务(蛋白质、图像)存在共性:第一阶段(早期层):数据流形扩张,ID快速上升至峰值,邻域结构频繁重组;第二阶段(中间层):ID显著收缩,形成平台期(蛋白质模型)或局部最小值(图像模型),此阶段语义信息(蛋白质远程同源性、图像类别标签)最丰富;第三阶段(末期层):ID趋于稳定或形成第二个浅峰(图像模型),邻域结构再次重组,语义信息有所下降(因模型专注于输入重建任务)。关键发现。
2025_NIPS_The Curious Price of Distributional Robustness in Reinforcement Learning with a Generat...
本文通过分布鲁棒马尔可夫决策过程(RMDPs)框架研究强化学习(RL)中的模型鲁棒性。尽管近年来相关研究不断推进,但无论采用何种不确定性集合,RMDPs的样本复杂度仍未被充分理解;具体而言,现有上下界之间存在巨大差距,且与标准RL相比,分布鲁棒性是否具有统计意义尚不明确。本文假设可获取生成模型,针对全范围不确定性水平,分别基于总变差(TV)距离和χ²散度定义不确定性集合,通过一种名为分布鲁棒值迭代的模型基算法,推导了RMDPs的样本复杂度,并建立极小极大下界以验证其紧确性。
2025_NIPS_Model-Free Active Exploration in Reinforcement Learning
我们研究强化学习中的探索问题,并提出一种新颖的模型无关解决方案。我们采用信息论视角,从识别近优策略所需收集的样本数量的实例特定下界出发。推导该下界及最优探索策略需要解决一个复杂的优化问题,且依赖于系统模型。相应地,大多数现有样本最优探索算法均依赖于模型估计。我们推导了该实例特定下界的近似表达式,其仅涉及可通过模型无关方法推断的量。利用该近似表达式,我们设计了一种基于集成的模型无关探索策略,适用于表格型和连续型马尔可夫决策过程(MDPs)。数值结果表明,我们的策略能够比当前最先进的探索方法更快地识别高效策略。
2025_NIPS_Explore to Generalize in Zero-Shot RL
我们研究强化学习中的零样本泛化问题——在一组训练任务上优化策略,使其在相似但未见过的测试任务中表现良好。为缓解过拟合,现有研究探索了不同的任务不变性概念。然而,在ProcGen迷宫(Maze)等问题中,不存在足够的任务可视化不变性解决方案,因此基于不变性的方法会失效。我们的核心洞察是:学习一种能有效探索领域的策略,比学习针对特定任务最大化奖励的策略更难被记忆,因此我们预期这种习得的行为具有良好的泛化能力;我们在多个对基于不变性方法具有挑战性的领域中,通过实证验证了这一观点。
2025_NIPS_VisIT-Bench: A Dynamic Benchmark for Evaluating Instruction-Following Vision-and-Langua...
我们提出VisIT-Bench(VisualInsTructionBenchmark),一个面向真实场景应用的视觉-语言指令跟随模型评估基准。我们的核心起点是筛选出70个“指令家族”,这些家族代表了经指令微调的视觉-语言模型应具备的核心能力。与VQAv2和COCO等传统评估基准不同,该基准的任务范围从基础识别延伸至游戏博弈和创意生成。经过筛选与构建,我们的数据集包含592个测试查询,每个查询均配有人工撰写的“指令条件描述”。
2025_NIPS_On Separate Normalization in Self-supervised Transformers
自监督Transformer训练方法已在多个领域展现出卓越性能。此前基于Transformer的模型(如掩码自编码器MAE)通常为[CLS]令牌和普通令牌采用单一归一化层。本文提出一种全新且简洁的归一化方法,对普通令牌和[CLS]令牌对应的嵌入向量分别进行归一化,以更好地捕捉它们的独特特性并提升下游任务性能。实证研究表明,通过我们的分离归一化层学习到的[CLS]嵌入能更有效地编码全局上下文信息,且在各向异性空间中分布更均匀。
2025_NIPS_Safe Exploration in Reinforcement Learning: A Generalized Formulation and Algorithms
安全探索对于强化学习(RL)在众多现实场景中的实际应用至关重要。本文提出广义安全探索(GSE)问题,将常见的安全探索问题统一为一个通用框架。随后,我们以安全探索元算法MASE的形式给出GSE问题的解决方案——该算法结合无约束RL算法与不确定性量化器,在保证当前episode安全性的同时,通过在实际安全违规前对不安全探索进行适当惩罚,以抑制未来episode中的此类行为。MASE的优势在于,在合理假设下,能够在高概率保证不违反任何安全约束的前提下优化策略。
2025_NIPS_Supervised Pretraining Can Learn In-Context Reinforcement Learning
本文提出决策预训练Transformer(DPT),通过监督预训练让Transformer基于上下文交互数据集预测最优动作,实现上下文强化学习(RL)能力。DPT无需参数更新即可在新任务中完成在线探索与离线保守决策,理论上等价于贝叶斯后验采样,且能泛化到新任务、利用潜在结构超越预训练数据性能。大型Transformer模型在多样化数据集上训练后,展现出卓越的上下文学习能力,即便未针对特定任务显式训练,也能实现优异的少样本性能。
2025_NIPS_GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction
该研究聚焦于让开源大型语言模型(LLMs)高效具备多模态工具使用能力,核心提出了GPT4Tools研究背景:现有先进专有LLMs(如GPT-3.5、GPT-4)虽能通过提示工程使用工具,但存在计算成本高、依赖私有数据的问题;而开源LLMs缺乏工具使用能力,现有相关方法或依赖专有模型、或数据多样性不足。核心方案。
2025_NIPS_Likelihood-Based Diffusion Language Models
尽管人们对基于扩散的语言模型的兴趣日益浓厚,但现有研究尚未表明这些模型能在标准语言建模基准上获得非平凡的似然值。在本文中,我们迈出了缩小自回归语言模型与基于扩散的语言模型之间似然差距的第一步,目标是构建并发布一个性能优于小型但广为人知的自回归模型的扩散模型。我们通过算法改进、缩放定律研究和算力提升来实现这一目标。在算法层面,我们为扩散语言模型的最大似然训练引入了多项方法学改进。随后,我们研究了扩散模型的缩放定律,发现其算力最优训练方案与自回归模型存在显著差异。
2025_NIPS_Efficient RL with Impaired Observability: Learning to Act with Delayed and Missing Stat...
在现实世界的强化学习(RL)系统中,各种形式的观测受损会使问题变得复杂。当智能体由于延迟或有损信道无法观测到系统的最新状态,但仍必须做出实时决策时,就会出现这些情况。本文对智能体必须在延迟和缺失状态观测下行动的控制系统中的高效强化学习进行了理论研究。我们为延迟和缺失观测场景下的强化学习建立了近优遗憾界,形式为OpolyHSAKOpolyHSAK。尽管观测受损给策略类和规划带来了重大挑战,但我们的结果表明,学习仍然是高效的,其遗憾界与原始系统的状态-动作空间大小呈最优依赖关系。
2025_NIPS_Learning Dynamic Attribute-factored World Models for Efficient Multi-object Reinforceme...
本文提出动态属性分解强化学习(DAFT-RL)框架,聚焦多目标强化学习中的组合泛化问题——即agent需与不同类型物体交互,并泛化到未见过的物体组合、数量及任务组合。框架通过物体中心表示学习提取视觉输入中的物体,结合三类图结构(类模板图、交互模式图、动态交互图),在属性层面精细分解物体的动力学和奖励函数,最终实现无需额外策略学习即可适配新环境。在许多强化学习任务中,智能体必须学会与多种不同类型的物体交互,并泛化到未见过的物体组合及数量。
2025_NIPS_MarioGPT: Open-Ended Text2Level Generation through Large Language Models
该研究提出了MarioGPT——一款基于微调后的GPT-2(DistilGPT2)模型,专门用于生成《超级马里奥兄弟》风格的瓦片式游戏关卡,核心解决程序性内容生成(PCG)中“可控性”与“开放性”不足的问题。核心目标:突破传统PCG方法难以通过自然语言控制生成结果、开放性不足的局限,实现“文本提示驱动的可控关卡生成”,同时保证关卡的可玩性、多样性和开放性。技术方案模型基础:基于DistilGPT2微调,结合冻结的BART模型编码文本提示,通过交叉注意力机制将提示信息融入关卡生成过程。
2025_NIPS_Language Models Can Improve Event Prediction by Few-Shot Abductive Reasoning
大型语言模型在各类推理任务中展现出惊人的性能。本文探讨了这些模型是否能够对现实世界事件进行推理,并助力提升事件序列模型的预测性能。我们设计了LAMP框架,将大型语言模型整合到事件预测中。具体而言,语言模型通过溯因推理为事件序列模型提供辅助:事件模型基于历史信息提出对未来事件的预测;在少量专家标注示例的指导下,语言模型学习为每个预测提议生成可能的原因;搜索模块找出与这些原因匹配的历史事件;评分函数则评估检索到的事件是否确实能引发该预测事件。
2025_NIPS_Learning to Modulate pre-trained Models in RL
强化学习(RL)已在机器人技术、游戏和仿真等多个领域取得成功。尽管RL智能体在特定任务中展现出令人印象深刻的能力,但它们对新任务的适应性不足。在监督学习中,这一适应问题通过大规模预训练后微调下游新任务来解决。近年来,多任务预训练在RL领域逐渐受到关注。然而,微调预训练模型通常会遭遇灾难性遗忘——即在新任务上微调时,预训练任务的性能会下降。
2025_NIPS_Scalable Transformer for PDE Surrogate Modeling
本文聚焦偏微分方程(PDE)代理建模,提出一种名为FactorizedTransformer(FactFormer)的高效Transformer模型。针对传统Transformer在高分辨率网格PDE建模中存在的数值不稳定和计算成本高的问题,FactFormer基于轴向分解核积分,通过可学习投影算子将高维输入函数分解为一维子函数,再利用轴向分解方案计算实例化核,实现了高效稳定的多维度PDE模拟。
Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation
本文提出,一款面向视觉理解、文生图与指令引导图像编辑的统一多模态基础模型。JoyAI-Image将空间增强的多模态大语言模型(MLLM)与多模态扩散Transformer(MMDiT)相结合,使感知与生成通过共享多模态接口实现交互。围绕该架构,我们构建了可扩展的训练方案,融合统一指令微调、长文本渲染监督、空间对齐数据,以及通用与空间编辑信号。该设计赋予模型广泛的多模态能力,同时强化几何感知推理与可控视觉合成。
2025_NIPS_Multi Time Scale World Models
智能体利用内部世界模型进行推理,并在多个尺度上预测其不同行动方案的结果[21]。设计能够让机器学习在多个时间抽象层级上运行的世界模型,同时处理复杂不确定性预测的学习范式和架构,是一项重大技术挑战[17]。在本研究中,我们提出了一种概率形式化方法来学习多时间尺度世界模型,称为多时间尺度状态空间(MTS3)模型。该模型在多个时间尺度上采用计算高效的推理方案,能够对未来数秒内的情况进行高精度长期预测和不确定性估计。
