Loading...

2025_NIPS_Self-Chained Image-Language Model for Video Localization and Question Answering
近年来的研究表明,利用大规模预训练图像-语言模型解决视频问答任务取得了良好效果。尽管这些图像-语言模型能有效助力视频-语言模型的表征学习,但它们通常将均匀采样的视频帧拼接作为视觉输入,缺乏显式的语言感知时序建模。当视频中仅有部分内容与语言查询相关时,这种均匀帧采样往往会导致丢失关键视觉线索。人类通常会找到视频中相关的时刻并反复回看以回答问题,但训练查询感知的视频时刻定位器往往需要高昂的标注成本和巨大的计算开销。

2025_NIPS_BIOT: Biosignal Transformer for Cross-data Learning in the Wild
生物信号(如脑电图,EEG)在众多临床应用中发挥着关键作用,其数据格式多样且质量各异。当前基于卷积神经网络(CNN)、循环神经网络(RNN)和Transformer的生物信号深度学习模型通常针对特定数据集和临床场景设计,限制了其更广泛的适用性。本文旨在开发一种灵活的生物信号编码器架构,能够在多个数据集上进行预训练,并在不同格式的下游生物信号任务中进行微调。为克服不同格式生物信号带来的独特挑战(如通道不匹配、样本长度可变和普遍存在的缺失值),我们提出了生物信号Transformer(BIOT)。

2025_NIPS_Sample-Efficient and Safe Deep Reinforcement Learning via Reset Deep Ensemble Agents
深度强化学习(RL)通过将深度神经网络(DNNs)作为函数逼近器,在解决复杂任务方面取得了显著成功。然而,对DNNs的依赖引入了一个名为首因偏差的新挑战——这些函数逼近器倾向于优先考虑早期经验,进而导致过拟合。为缓解这种首因偏差,已有研究提出了一种重置方法:在保留回放缓冲区的同时,周期性地重置深度RL智能体的部分或全部参数。但重置方法的使用会导致重置后出现性能崩溃,这从安全强化学习和遗憾最小化的角度来看是不利的。

Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective
大型语言模型(LLMs)已在一系列自然语言处理任务中取得了令人瞩目的成果,但其生成有害内容的潜在风险引发了严重的安全担忧。当前的毒性检测器主要依赖单标签基准,无法充分捕捉真实世界毒性提示所固有的模糊性和多维度特征。这一局限性导致评估存在偏差,包括漏检有毒内容和误报等问题,进而削弱了现有检测器的可靠性。此外,收集涵盖细粒度毒性类别的全面多标签标注成本极高,进一步阻碍了有效的评估与方法研发。为解决这些问题,我们引入了三个新的多标签毒性检测基准:Q-A-MLL、R-A-MLL和H-X-MLL。

LiRA: Linguistic Robust Anchoring for Cross-lingual Large Language Models
随着大型语言模型(LLMs)的快速发展,其在高资源语言(如英语、中文)上的性能已接近饱和,但在低资源语言(如乌尔都语、泰语)上的表现仍显著滞后——这主要源于训练数据有限、机器翻译噪声以及跨语言对齐不稳定等问题。本文提出LiRA(大型语言模型的语言鲁棒锚定框架),该训练框架能在低资源条件下稳健提升跨语言表示能力,同时联合增强检索与推理性能。LiRA包含两个核心模块:(i)Arca(锚定表示组合架构),通过基于锚点的对齐和多智能体协作编码,将低资源语言锚定到英语语义空间,在共享嵌入空间中保持几何稳定性;

E2Edev: Benchmarking Large Language Models in End-to-End Software Development Task
大型语言模型(LLMs)的快速发展在端到端软件开发(E2ESD)中展现出巨大潜力。然而,现有E2ESD基准测试受限于粗粒度的需求规格和不可靠的评估协议,阻碍了对当前框架能力的真实理解。为解决这些局限,我们提出E2EDev——一个基于行为驱动开发(BDD)原则的新型基准测试框架,通过模拟真实用户交互来评估生成软件是否满足用户需求,进而衡量E2ESD框架的能力(图1)。E2EDev包含:(i)一组细粒度用户需求;(ii)每个需求对应的多个BDD测试场景及相关Python步骤实现;

MX+: Pushing the Limits of Microscaling Formats for Efficient Large Language Model Serving
低精度数据格式对于大语言模型(LLM)的高性价比部署至关重要。尽管迄今为止已推出多种低精度格式,但它们往往需要对软件框架进行侵入式修改,或因过于特殊而难以被硬件厂商广泛采用。本文转而聚焦近期由行业主导的块浮点(BFP)格式变体,通过全面分析探索其在LLM高效部署中的性能极限。分析表明,现有超低比特BFP变体因块内存在异常值,难以提供理想的语言模型性能。为解决BFP格式中的异常值问题,我们提出MX+——一种经济高效且非侵入式的扩展方案,旨在无缝集成到微缩放(MX)格式中。

2025_NIPS_Block-State Transformers
状态空间模型(SSMs)在需要建模长程依赖的任务中展现出了令人印象深刻的结果,并且凭借其子二次时间复杂度,能够高效地扩展到长序列。SSM最初是为连续信号设计的,已在视觉和音频等众多任务中表现出卓越性能;然而,在语言建模任务中,SSM的性能仍落后于Transformer。在本文中,我们提出了一种名为Block-StateTransformer(BST)的混合层,其在内部融合了用于长程上下文建模的SSM子层和用于序列短期表示的BlockTransformer子层。

2025_NIPS_LayoutGPT: Compositional Visual Planning and Generation with Large Language Models
摘要:在视觉生成中实现高度的用户可控性,通常需要布局等复杂、细粒度的输入。然而,与简单的文本输入相比,此类输入给用户带来了沉重负担。为解决这一问题,我们研究了大型语言模型(LLMs)如何通过从文本条件生成布局来充当视觉规划器,进而与视觉生成模型协作。我们提出LayoutGPT方法,该方法通过样式表语言构建上下文视觉演示示例,以增强LLMs的视觉规划能力。LayoutGPT能够在多个领域生成合理的布局,涵盖从2D图像到3D室内场景。

2025_NIPS_PLASTIC: Improving Input and Label Plasticity for Sample Efficient Reinforcement Learning
在强化学习(RL)中,提升样本效率至关重要,尤其是在数据获取成本高且存在风险的场景下。理论上,离线策略RL算法可通过对每次环境交互进行多次更新来提高样本效率。然而,这些多次更新往往导致模型过拟合早期交互数据,这种现象被称为可塑性丧失。本研究通过将可塑性分为两个方面来探究该现象的根本原因:输入可塑性(模型对输入数据变化的适应性)和标签可塑性(模型对输入-输出关系演变的适应性)。在CIFAR-10数据集上的合成实验表明,寻找损失曲面的更平滑极小值能提升输入可塑性,而优化梯度传播则可改善标签可塑性。

2025_NIPS_GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph
适配器风格的高效迁移学习(ETL)在低数据场景下的视觉语言模型(VLMs)调优中表现出优异性能——该方法仅引入少量额外参数,就能基于VLMs强大的通用表征挖掘任务特定知识。然而,大多数适配器风格的研究存在两个局限:(1)仅通过单模态建模任务特定知识;(2)忽视了下游任务中类别间关系的挖掘,导致模型性能欠佳。为缓解这些问题,我们提出一种高效的适配器风格调优策略GraphAdapter,其通过双知识图谱显式建模双模态结构知识(即文本和视觉模态中不同语义/类别的关联关系),实现文本适配器的优化。

2025_NIPS_Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement Learning
我们研究具有低秩结构的强化学习(RL)中出现的矩阵估计问题。在低秩老虎机中,待恢复矩阵指定了期望臂奖励;而在低秩马尔可夫决策过程(MDP)中,该矩阵可表征MDP的转移核等关键信息。在这两种情况下,矩阵的每个元素都承载着重要信息,因此我们寻求具有低逐元素误差的估计方法。重要的是,这些方法还需适应可用数据中固有的相关性(例如,在MDP中,数据由系统轨迹组成)。我们研究了基于简单谱方法的矩阵估计方案:结果表明,这些方法能高效恢复矩阵的奇异子空间,并实现近极小的逐元素误差。

2025_NIPS_TrojLLM: A Black-box Trojan Prompt Attack on Large Language Models
大型语言模型(LLMs)正逐渐被用作各类应用的机器学习服务和接口工具。然而,LLMs的安全隐患(尤其是对抗性攻击和特洛伊木马攻击相关隐患)尚未得到充分研究。本文提出TrojLLM,这是一个自动化的黑盒框架,能够有效生成通用且隐蔽的触发器。当这些触发器嵌入输入数据时,可对LLMs的输出进行恶意操控。此外,该框架还支持在离散提示词中植入特洛伊木马,提升触发器攻击的整体有效性和精准度。具体而言,我们提出一种触发器发现算法,通过使用少量样本查询目标LLMAPI,为多种输入生成通用触发器。

2025_NIPS_A Graph-Theoretic Framework for Understanding Open-World Semi-Supervised Learning
开放世界半监督学习旨在利用来自已知类别的有标签数据集的先验知识,推断无标签数据中的已知类和新类。尽管该问题具有重要意义,但目前缺乏相应的理论基础。本文通过构建一个专为开放世界场景设计的图论框架填补了这一空白,在该框架中,聚类可通过图因子分解进行理论刻画。我们的图论框架为实际算法提供了启发并给出了性能保证。具体而言,基于我们的图结构表述,我们应用了一种名为谱开放世界表示学习(SORL)的算法,并证明了最小化该损失函数等价于对图进行谱分解。

2025_NIPS_Text Promptable Surgical Instrument Segmentation with Vision-Language Models
本文提出了一种新颖的文本可提示手术器械分割方法,以克服微创手术中手术器械多样性和区分性带来的挑战。我们将该任务重新定义为文本可提示形式,从而实现对手术器械更细致的理解,并增强对新型器械的适应性。受视觉语言模型最新进展的启发,我们采用预训练的图像和文本编码器作为模型骨干,并设计了一个包含基于注意力和卷积提示方案的文本可提示掩码解码器,用于手术器械分割预测。我们的模型通过一种新的提示混合机制,为每种手术器械引入多个文本提示,从而提升分割性能。此外,我们还引入了硬器械区域强化模块,以改善图像特征理解和分割精度。

2025_NIPS_A Definition of Continual Reinforcement Learning
在强化学习问题的标准视角中,智能体的目标是高效找到最大化长期奖励的策略。然而,这一视角基于“学习即寻找解决方案”的局限认知,而非将学习视为持续适应的过程。相比之下,持续强化学习(CRL)指的是最优智能体永不停止学习的场景。尽管CRL具有重要意义,领域内仍缺乏一个能凸显其核心承诺、明确关键概念的简洁定义。为此,本文致力于严谨定义持续强化学习问题。我们通过一套用于分析和归类智能体的新数学语言,形式化了“永不停止学习的智能体”这一概念。

2025_NIPS_The geometry of hidden representations of large transformer models
表示演化的阶段性特征:Transformer的隐藏表示演化呈现明确phases,且跨任务(蛋白质、图像)存在共性:第一阶段(早期层):数据流形扩张,ID快速上升至峰值,邻域结构频繁重组;第二阶段(中间层):ID显著收缩,形成平台期(蛋白质模型)或局部最小值(图像模型),此阶段语义信息(蛋白质远程同源性、图像类别标签)最丰富;第三阶段(末期层):ID趋于稳定或形成第二个浅峰(图像模型),邻域结构再次重组,语义信息有所下降(因模型专注于输入重建任务)。关键发现。

2025_NIPS_The Curious Price of Distributional Robustness in Reinforcement Learning with a Generat...
本文通过分布鲁棒马尔可夫决策过程(RMDPs)框架研究强化学习(RL)中的模型鲁棒性。尽管近年来相关研究不断推进,但无论采用何种不确定性集合,RMDPs的样本复杂度仍未被充分理解;具体而言,现有上下界之间存在巨大差距,且与标准RL相比,分布鲁棒性是否具有统计意义尚不明确。本文假设可获取生成模型,针对全范围不确定性水平,分别基于总变差(TV)距离和χ²散度定义不确定性集合,通过一种名为分布鲁棒值迭代的模型基算法,推导了RMDPs的样本复杂度,并建立极小极大下界以验证其紧确性。

2025_NIPS_Model-Free Active Exploration in Reinforcement Learning
我们研究强化学习中的探索问题,并提出一种新颖的模型无关解决方案。我们采用信息论视角,从识别近优策略所需收集的样本数量的实例特定下界出发。推导该下界及最优探索策略需要解决一个复杂的优化问题,且依赖于系统模型。相应地,大多数现有样本最优探索算法均依赖于模型估计。我们推导了该实例特定下界的近似表达式,其仅涉及可通过模型无关方法推断的量。利用该近似表达式,我们设计了一种基于集成的模型无关探索策略,适用于表格型和连续型马尔可夫决策过程(MDPs)。数值结果表明,我们的策略能够比当前最先进的探索方法更快地识别高效策略。

2025_NIPS_Explore to Generalize in Zero-Shot RL
我们研究强化学习中的零样本泛化问题——在一组训练任务上优化策略,使其在相似但未见过的测试任务中表现良好。为缓解过拟合,现有研究探索了不同的任务不变性概念。然而,在ProcGen迷宫(Maze)等问题中,不存在足够的任务可视化不变性解决方案,因此基于不变性的方法会失效。我们的核心洞察是:学习一种能有效探索领域的策略,比学习针对特定任务最大化奖励的策略更难被记忆,因此我们预期这种习得的行为具有良好的泛化能力;我们在多个对基于不变性方法具有挑战性的领域中,通过实证验证了这一观点。

欢迎留下您的脚印