Loading...
该研究聚焦多智能体强化学习(MARL)中的跨任务泛化问题,核心目标是解决现有MARL模型多针对单一任务优化、跨任务迁移能力弱、重新训练成本高的痛点。近年来,多智能体强化学习(MARL)技术在单一任务中取得了显著的渐近性能提升。然而,关于模型的跨任务迁移能力的探索仍较为有限。为每个任务从头训练模型可能耗时且成本高昂,尤其是在大规模多智能体系统中。因此,开发模型的跨任务泛化方法至关重要。考虑到多智能体强化学习任务中存在任务无关的子任务,能够从源任务中分解此类子任务的模型有望泛化到目标任务。
2025_NIPS_CELLE-2: Translating Proteins to Pictures and Back with a Bidirectional Text-to-Image T...
我们提出CELL-E2,这是一款新型双向Transformer模型,能够从氨基酸序列生成描述蛋白质亚细胞定位的图像(反之亦然)。蛋白质定位是一项具有挑战性的任务,需要整合序列和图像信息,而现有大多数方法均忽略了这一点。CELL-E2是对CELL-E工作的扩展,不仅能捕捉蛋白质定位的空间复杂性,在细胞核图像上生成定位概率估计,还能从图像反向生成序列,为从头蛋白质设计提供可能。
2025_NIPS_Real-World Image Variation by Aligning Diffusion Inversion Chain
该研究针对现有扩散模型在生成真实世界图像变体时存在的领域差距问题,提出了一种无需训练(training-free)的推理管道,核心目标是基于单张真实世界图像样本,生成语义一致、视觉质量高的多样化图像变体。核心问题:现有文本驱动扩散模型(如StableDiffusion)生成的图像与真实世界图像存在领域差距,根源是扩散过程中潜在变量的分布不匹配;传统方法要么需要额外训练/调优,要么无法同时保留真实图像的语义内容与低层级特征(如纹理、色调)。技术框架。
2025_NIPS_Reflexion: language agents with verbal reinforcement learning
大型语言模型(LLMs)已越来越多地被用作目标驱动的智能体,与外部环境(如游戏、编译器、API)进行交互。然而,这些语言智能体难以通过试错快速高效地学习——传统强化学习方法需要大量训练样本和昂贵的模型微调。本文提出Reflexion,一种新型框架,其并非通过更新权重,而是通过语言反馈来强化语言智能体。具体而言,Reflexion智能体对任务反馈信号进行语言反思,然后将自身的反思文本存储在情景记忆缓冲区中,以在后续尝试中引导更优的决策。
2025_NIPS_PIXIU: A Comprehensive Benchmark, Instruction Dataset and Large Language Model for Finance
尽管大型语言模型(LLMs)在金融领域的自然语言处理(NLP)任务中已展现出优异性能,但目前尚无公开可用的金融定制化LLM、指令微调数据集及评估基准,而这些对于推动金融人工智能(AI)的开源发展至关重要。本文提出PIXIU框架,该框架包含:基于LLaMA进行指令微调得到的首个金融领域LLM(FinMA)、支持微调的首个含128K数据样本的指令数据集,以及涵盖8类任务、15个数据集的评估基准。首先,我们构建了涵盖多种金融任务、金融文档类型及金融数据模态的大规模多任务指令数据集;
2025_NIPS_Leveraging Early-Stage Robustness in Diffusion Models for Efficient and High-Quality Im...
该研究聚焦扩散模型图像生成中“迭代去噪过程计算密集、采样速度慢”的核心痛点,通过分析反向扩散过程的阶段特性,提出了一种基于“早期鲁棒性”的量化策略(Robustness-AwareQuantization,RAQ),以在不损失图像质量的前提下提升计算效率。核心发现:反向扩散过程的不同阶段对计算精度需求存在显著差异早期阶段(接近1.0T):主要勾勒图像轮廓,对计算误差(如噪声、量化误差)容忍度高(鲁棒性强),即使采用低精度计算,也不会显著影响最终生成质量;
2025_NIPS_Winner Takes It All: Training Performant RL Populations for Combinatorial Optimization
将强化学习(RL)应用于组合优化问题具有很强的吸引力,因为它无需专家知识或预求解实例。然而,由于这些(通常是NP难)问题的内在复杂性,期望智能体在推理时一次性求解这些问题是不现实的。因此,主流方法通常会采用额外的搜索策略,从随机采样、束搜索到显式微调等。在本文中,我们主张学习一组互补策略的优势——这些策略可在推理时同时部署。为此,我们提出了Poppy,一种简单的种群训练流程。Poppy不依赖预定义或手工设计的多样性指标,而是通过无监督特化,仅以最大化种群性能为目标。
2025_NIPS_No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Langua...
近年来,训练基于Transformer的语言模型所需的计算量急剧增加。这一趋势推动了高效训练算法的研究,这类算法旨在比标准训练更快地提升训练、验证和下游任务性能。本文重新审视了三类此类算法:动态架构(层堆叠、层丢弃)、批量选择(选择性反向传播、RHO损失)和高效优化器(Lion、Sophia)。在使用这些方法对BERT和T5进行固定计算预算的预训练时,我们发现与采用全衰减学习率的基线模型相比,它们在训练、验证和下游任务上的增益均消失了。
2025_NIPS_FairLISA: Fair User Modeling with Limited Sensitive Attributes Information
用户建模技术通过观察到的行为刻画用户的潜在特征(如偏好),并在决策过程中发挥关键作用。然而,传统用户模型可能会无意识地从行为数据中捕捉与敏感属性(如性别)相关的偏差,即使这些敏感信息并未明确提供。这可能导致不公平问题,并基于这些敏感属性对特定群体产生歧视。近年来,已有研究通过明确解除用户建模结果与敏感属性的相关性来提升公平性。但大多数现有方法假设训练集中存在完整的敏感属性标签,而由于隐私顾虑等数据收集限制,这一假设并不现实,因此这些方法存在性能局限。
2025_NIPS_Testing Calibration in Nearly-Linear Time
在机器学习和决策制定的近期文献中,校准已成为二分类预测模型输出的一项理想且被广泛研究的统计特性。然而,测量模型校准的算法层面相关研究仍相对较少。受[BGHN23a]的启发——该研究提出了一个严谨的校准距离测量框架,我们从属性测试的视角启动了校准的算法研究。我们定义了基于样本的校准测试问题:给定来自分布D(定义在(预测值,二分类结果)上)的n个样本,目标是区分D是完全校准还是与校准状态存在ε偏差。
2025_NIPS_ChessGPT: Bridging Policy Learning and Language Modeling
在解决决策类任务时,人类通常依赖两大关键信息来源:(1)历史政策数据,提供来自环境的交互回放;(2)自然语言形式的分析洞察,揭示宝贵的思维过程或策略考量。尽管如此,大多数先前的研究仅聚焦于其中一种来源:它们要么完全使用历史回放直接学习政策或价值函数,要么仅利用语言语料库进行语言模型训练。在本文中,我们认为强大的自主智能体应同时涵盖这两种来源。因此,我们提出ChessGPT——一款通过整合国际象棋领域中这两类数据,架起政策学习与语言建模桥梁的GPT模型。
2025_NIPS_PRIOR: Personalized Prior for Reactivating the Information Overlooked in Federated Lear...
该研究聚焦联邦学习(FL)中数据异质性导致的局部模型性能退化问题,针对现有个性化联邦学习(PFL)方法忽略客户端采样信息、难以显式提取先验知识的缺陷,提出了一种基于Bregman散度的个性化联邦学习框架(pFedBreD)。问题定位:传统PFL依赖单一全局模型提供先验知识,未考虑客户端采样信息,导致局部训练需从零获取关键信息;同时现有方法对先验知识的提取多为隐式假设,限制了个性化策略的设计。框架设计。
2025_NIPS_Flocks of Stochastic Parrots: Differentially Private Prompt Learning for Large Language...
大型语言模型(LLMs)是优秀的上下文学习模型。然而,提示中包含的数据敏感性引发了隐私担忧。我们的研究首先证实了这些担忧的合理性:我们实现了一种简单但高效的成员推理攻击,专门针对用于提示LLM的数据。为解决这一漏洞,一种方案是放弃提示学习,转而采用已知的私有梯度下降算法对LLM进行微调。但这会牺牲提示学习所具备的实用性和高效性。因此,我们提出了“私有提示学习”的概念。我们首先证明,通过对下游数据进行梯度下降,可以私有地获取软提示。
2025_NIPS_SheetCopilot: Bringing Software Productivity to the Next Level through Large Language M...
计算机终端用户每年花费数十亿小时完成表格数据处理、项目时间规划等日常任务。这些任务大多具有重复性且容易出错,但大多数用户缺乏自动化这类繁琐工作的技能。随着大型语言模型(LLMs)的出现,通过自然语言指令操控软件已成为可实现的目标。本文提出SheetCopilot智能体,它能接收自然语言描述的任务并控制电子表格软件完成需求。我们设计了一套“原子动作”作为电子表格软件功能的抽象接口,并为LLMs构建了基于状态机的任务规划框架,以实现与电子表格的稳健交互。
2025_NIPS_Trust Region-Based Safe Distributional Reinforcement Learning for Multiple Constraints
本文提出一种基于信任区域的安全分布强化学习算法(SDAC),旨在解决安全关键型机器人任务中的多约束处理和低偏差风险规避约束估计问题。核心创新包括梯度整合方法(同步处理多约束以快速达成可行性)和TD(λ)目标分布(降低约束估计偏差),实验验证其在单/多约束任务中均优于现有基线,约束满足效率和违规率表现更优。在安全关键型机器人任务中,必须减少潜在故障并满足多重约束,例如避碰、限制能耗和保持平衡。因此,在这类机器人任务中应用安全强化学习(RL)需要处理多重约束,并使用风险规避约束而非风险中性约束。
2025_NIPS_Distributional Pareto-Optimal Multi-Objective Reinforcement Learning
多目标强化学习(MORL)旨在针对多竞争目标,学习适用于各种可能回报偏好的控制策略。然而,现有MORL算法未能考虑对多元回报的分布偏好——这在自动驾驶等实际场景中尤为重要。为解决该问题,我们将MORL中的帕累托最优概念扩展为分布帕累托最优,其核心关注回报分布的最优性而非仅期望值。我们提出的方法名为分布帕累托最优多目标强化学习(DPMORL),能够学习分布帕累托最优策略,在平衡多目标的同时考虑回报不确定性。
2025_NIPS_On Evaluating Adversarial Robustness of Large Vision-Language Models
大型视觉语言模型(VLMs)如GPT-4,在响应生成方面取得了前所未有的性能,尤其是在处理视觉输入时,相比ChatGPT等大型语言模型,能够实现更具创造性和适应性的交互。尽管如此,多模态生成加剧了安全担忧——攻击者可能通过巧妙操纵最脆弱的模态(例如视觉模态),成功规避整个系统。为此,我们提出在最现实且高风险的场景下评估开源大型VLMs的鲁棒性:攻击者仅拥有黑盒系统访问权限,却试图欺骗模型返回目标响应。
2025_NIPS_FlowLLM: Flow Matching for Material Generation with Large Language Models as Base Distr...
该研究针对晶体材料生成中离散原子类型与连续晶格/坐标参数难以同时建模的核心挑战,提出了混合生成模型FlowLLM。预训练与微调:基于LLaMA-2模型,在晶体材料文本表示数据集上微调,使其学习亚稳态晶体的基础分布,能够通过自然语言提示生成初始材料的文本表征(包含原子类型、分数坐标、晶格参数)。表征转换与迭代优化:将LLM生成的文本表征转换为图结构,通过RFM模型迭代优化原子坐标和晶格参数(原子类型保持不变),利用黎曼流形上的测地线和向量场学习,使生成结果更接近稳定态。实验验证。
TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification
每次调用大语言模型分类接口都会生成带标签的输入-输出对,这些数据已留存于生产日志中。它们构成了免费且持续增长的训练集:基于这些数据训练的轻量代理模型,可承担未来大量流量,边际推理成本近乎为零。目前悬而未决的问题是:代理模型何时足够可靠可部署、它能处理哪些输入、需要回退哪些输入,以及该边界如何随数据积累而演变。本文提出TRACER(基于追踪日志的自适应低成本路由),一套开源系统:它直接用大模型自身的生产追踪日志训练机器学习代理模型,并通过奇偶校验门。
2025_NIPS_Policy Optimization for Continuous Reinforcement Learning
该文章聚焦连续时间与空间下的强化学习(RL),针对无限时域折扣目标和随机微分方程(SDE)驱动的动态系统,构建了统一的策略优化理论框架。核心内容包括:定义贴现占用时/测度(离散MDP中访问频率的连续对应)和q值(瞬时优势率函数);推导性能差异公式,为后续算法提供理论基础;提出连续版策略梯度(CPG)和TRPO/PPO(CPPO)算法,无需时空离散化即可直接应用;通过线性二次(LQ)随机控制和二维最优配对交易两个实验,验证了算法的收敛性和有效性,且在部分场景下优于传统离散化方法。
