Loading...

2025_NIPS_STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning
近年来,模型基强化学习算法在视觉输入环境中展现出显著成效。这些方法首先通过自监督学习构建真实环境的参数化仿真世界模型,借助世界模型的“想象”能力,在不受真实环境采样约束的情况下优化智能体策略。算法性能很大程度上依赖于世界模型的序列建模与生成能力,但构建复杂未知环境的完美精确模型几乎不可能——模型与现实的差异可能导致智能体追求虚拟目标,进而在真实环境中表现不佳。在模型基强化学习中引入随机噪声已被证实有效。

2025_NIPS_Nearly Optimal Bounds for Cyclic Forgetting
我们在持续学习场景中,针对线性任务的遗忘量提供了理论边界。在该场景下,每一轮学习对应投影到一个线性子空间。对于T个任务各重复m次的循环任务排序,我们证明了遗忘量的最优已知上界为OT2mO(T^2/m)OT2m。值得注意的是,我们的边界对所有任务选择一致成立,且与环境维度无关。我们的主要技术贡献是将所有T个(实或复)投影乘积的数值范围并集刻画为正弦螺旋,这一结果本身可能具有独立的研究价值。本文针对循环任务排序的持续学习场景,提出了线性任务遗忘量的近优边界OT2m。

2025_NIPS_Action Inference by Maximising Evidence: Zero-Shot Imitation from Observation with Worl...
与大多数需要大量环境交互才能学习新行为的强化学习智能体不同,人类仅通过观察和模仿他人就能快速学习,这种能力很大程度上依赖于人类拥有自身的身体模型,使其能够推断出导致观察到的行为的最可能动作。本文提出了一种基于世界模型的“通过最大化证据进行动作推理(AIME)”方法,以复刻这种行为。AIME包含两个不同阶段:第一阶段,智能体通过最大化证据下界(ELBO),从过往经验中学习世界模型,从而理解自身的身体结构;第二阶段,智能体获得专家执行新任务的纯观察演示数据,并尝试模仿专家行为。

2025_NIPS_Large Language Models as Commonsense Knowledge for Large-Scale Task Planning
该文章聚焦于少样本学习(Few-ShotLearning,FSL)中的关键挑战——模型在有限标注样本下的泛化能力不足,尤其针对类别分布偏移和特征表示鲁棒性问题展开研究。文章提出了一种名为“XXX”(需根据全文核心方法补充,暂基于摘要推断为“基于元特征对齐与动态原型优化的少样本学习框架”)构建元学习驱动的特征对齐机制,缓解不同任务间的分布差异;设计动态原型更新策略,利用未标注样本(或辅助信息)优化类别原型表示,减少有限样本带来的估计偏差;

2025_NIPS_Time Series as Images: Vision Transformer for Irregularly Sampled Time Series
不规则采样时间序列的应用日益广泛,尤其在医疗领域。尽管已开发出多种专门方法处理此类不规则性,但有效建模其复杂动态特征和显著稀疏性仍面临挑战。本文提出一种全新视角:将不规则采样时间序列转换为折线图图像,随后利用性能强大的预训练视觉Transformer,以图像分类的方式完成时间序列分类。该方法不仅大幅简化了专用算法的设计流程,还具备成为时间序列建模通用框架的潜力。值得注意的是,尽管方法简洁,在多个主流医疗保健和人类活动数据集上,其性能仍超越了最先进的专用算法。

2025_NIPS_Large Language Models are Fixated by Red Herrings: Exploring Creative Problem Solving a...
自人工智能研究起步以来,追求类人智能的人工智能一直是经久不衰的话题。最新一代大型语言模型(LLMs)的技术演进与新兴能力,已将这一主题从学术界推向主流文化思潮。尽管近期的自然语言处理(NLP)评估基准测试考察了类人行为的部分方面(例如BIG-bench中的“类人行为”任务),但几乎没有测试关注创造性问题解决能力。人类的创造性问题解决是认知神经科学中一个研究成熟的领域,其标准化测试主要以线索词间(异质性)关联能力作为创造力的衡量指标。

2025_NIPS_WalkLM: A Uniform Language Model Fine-tuning Framework for Attributed Graph Embedding
图被广泛用于建模互联实体,并在各类真实世界应用中提升下游预测性能。然而,如今的真实世界图通常包含多种类型节点甚至边的复杂属性,难以进行统一建模;而广泛使用的图神经网络(GNNs)往往需要针对特定下游预测任务进行充分训练才能达到良好性能。本文采用与GNNs截然不同的思路,旨在同时实现对真实世界图复杂属性与灵活结构的深度联合建模,并获取不受特定下游预测限制的无监督通用图表示。我们的框架基于语言模型(LMs)与随机游走(RWs)的自然融合,简洁、高效且数据利用率高。

2025_NIPS_Active Reasoning in an Open-World Environment
近年来,视觉-语言学习领域通过整合海量世界知识,在完整信息问答数据集上取得了显著成功。然而,大多数模型均以被动方式运行,仅基于预存储的知识响应问题。与之形成鲜明对比的是,人类具备主动探索、积累信息并利用新获取知识与既有知识进行推理的能力,能够应对信息不完全的问题。为填补这一空白,我们提出了🔍Conan——一个用于评估主动推理能力的交互式开放世界环境。🔍Conan支持主动探索,并促进多轮溯因推理,其场景类似于《我的世界》等丰富的开放世界设定。

2025_NIPS_Self-Chained Image-Language Model for Video Localization and Question Answering
近年来的研究表明,利用大规模预训练图像-语言模型解决视频问答任务取得了良好效果。尽管这些图像-语言模型能有效助力视频-语言模型的表征学习,但它们通常将均匀采样的视频帧拼接作为视觉输入,缺乏显式的语言感知时序建模。当视频中仅有部分内容与语言查询相关时,这种均匀帧采样往往会导致丢失关键视觉线索。人类通常会找到视频中相关的时刻并反复回看以回答问题,但训练查询感知的视频时刻定位器往往需要高昂的标注成本和巨大的计算开销。

2025_NIPS_BIOT: Biosignal Transformer for Cross-data Learning in the Wild
生物信号(如脑电图,EEG)在众多临床应用中发挥着关键作用,其数据格式多样且质量各异。当前基于卷积神经网络(CNN)、循环神经网络(RNN)和Transformer的生物信号深度学习模型通常针对特定数据集和临床场景设计,限制了其更广泛的适用性。本文旨在开发一种灵活的生物信号编码器架构,能够在多个数据集上进行预训练,并在不同格式的下游生物信号任务中进行微调。为克服不同格式生物信号带来的独特挑战(如通道不匹配、样本长度可变和普遍存在的缺失值),我们提出了生物信号Transformer(BIOT)。

2025_NIPS_Sample-Efficient and Safe Deep Reinforcement Learning via Reset Deep Ensemble Agents
深度强化学习(RL)通过将深度神经网络(DNNs)作为函数逼近器,在解决复杂任务方面取得了显著成功。然而,对DNNs的依赖引入了一个名为首因偏差的新挑战——这些函数逼近器倾向于优先考虑早期经验,进而导致过拟合。为缓解这种首因偏差,已有研究提出了一种重置方法:在保留回放缓冲区的同时,周期性地重置深度RL智能体的部分或全部参数。但重置方法的使用会导致重置后出现性能崩溃,这从安全强化学习和遗憾最小化的角度来看是不利的。

Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective
大型语言模型(LLMs)已在一系列自然语言处理任务中取得了令人瞩目的成果,但其生成有害内容的潜在风险引发了严重的安全担忧。当前的毒性检测器主要依赖单标签基准,无法充分捕捉真实世界毒性提示所固有的模糊性和多维度特征。这一局限性导致评估存在偏差,包括漏检有毒内容和误报等问题,进而削弱了现有检测器的可靠性。此外,收集涵盖细粒度毒性类别的全面多标签标注成本极高,进一步阻碍了有效的评估与方法研发。为解决这些问题,我们引入了三个新的多标签毒性检测基准:Q-A-MLL、R-A-MLL和H-X-MLL。

LiRA: Linguistic Robust Anchoring for Cross-lingual Large Language Models
随着大型语言模型(LLMs)的快速发展,其在高资源语言(如英语、中文)上的性能已接近饱和,但在低资源语言(如乌尔都语、泰语)上的表现仍显著滞后——这主要源于训练数据有限、机器翻译噪声以及跨语言对齐不稳定等问题。本文提出LiRA(大型语言模型的语言鲁棒锚定框架),该训练框架能在低资源条件下稳健提升跨语言表示能力,同时联合增强检索与推理性能。LiRA包含两个核心模块:(i)Arca(锚定表示组合架构),通过基于锚点的对齐和多智能体协作编码,将低资源语言锚定到英语语义空间,在共享嵌入空间中保持几何稳定性;

E2Edev: Benchmarking Large Language Models in End-to-End Software Development Task
大型语言模型(LLMs)的快速发展在端到端软件开发(E2ESD)中展现出巨大潜力。然而,现有E2ESD基准测试受限于粗粒度的需求规格和不可靠的评估协议,阻碍了对当前框架能力的真实理解。为解决这些局限,我们提出E2EDev——一个基于行为驱动开发(BDD)原则的新型基准测试框架,通过模拟真实用户交互来评估生成软件是否满足用户需求,进而衡量E2ESD框架的能力(图1)。E2EDev包含:(i)一组细粒度用户需求;(ii)每个需求对应的多个BDD测试场景及相关Python步骤实现;

MX+: Pushing the Limits of Microscaling Formats for Efficient Large Language Model Serving
低精度数据格式对于大语言模型(LLM)的高性价比部署至关重要。尽管迄今为止已推出多种低精度格式,但它们往往需要对软件框架进行侵入式修改,或因过于特殊而难以被硬件厂商广泛采用。本文转而聚焦近期由行业主导的块浮点(BFP)格式变体,通过全面分析探索其在LLM高效部署中的性能极限。分析表明,现有超低比特BFP变体因块内存在异常值,难以提供理想的语言模型性能。为解决BFP格式中的异常值问题,我们提出MX+——一种经济高效且非侵入式的扩展方案,旨在无缝集成到微缩放(MX)格式中。

2025_NIPS_Block-State Transformers
状态空间模型(SSMs)在需要建模长程依赖的任务中展现出了令人印象深刻的结果,并且凭借其子二次时间复杂度,能够高效地扩展到长序列。SSM最初是为连续信号设计的,已在视觉和音频等众多任务中表现出卓越性能;然而,在语言建模任务中,SSM的性能仍落后于Transformer。在本文中,我们提出了一种名为Block-StateTransformer(BST)的混合层,其在内部融合了用于长程上下文建模的SSM子层和用于序列短期表示的BlockTransformer子层。

2025_NIPS_LayoutGPT: Compositional Visual Planning and Generation with Large Language Models
摘要:在视觉生成中实现高度的用户可控性,通常需要布局等复杂、细粒度的输入。然而,与简单的文本输入相比,此类输入给用户带来了沉重负担。为解决这一问题,我们研究了大型语言模型(LLMs)如何通过从文本条件生成布局来充当视觉规划器,进而与视觉生成模型协作。我们提出LayoutGPT方法,该方法通过样式表语言构建上下文视觉演示示例,以增强LLMs的视觉规划能力。LayoutGPT能够在多个领域生成合理的布局,涵盖从2D图像到3D室内场景。

2025_NIPS_PLASTIC: Improving Input and Label Plasticity for Sample Efficient Reinforcement Learning
在强化学习(RL)中,提升样本效率至关重要,尤其是在数据获取成本高且存在风险的场景下。理论上,离线策略RL算法可通过对每次环境交互进行多次更新来提高样本效率。然而,这些多次更新往往导致模型过拟合早期交互数据,这种现象被称为可塑性丧失。本研究通过将可塑性分为两个方面来探究该现象的根本原因:输入可塑性(模型对输入数据变化的适应性)和标签可塑性(模型对输入-输出关系演变的适应性)。在CIFAR-10数据集上的合成实验表明,寻找损失曲面的更平滑极小值能提升输入可塑性,而优化梯度传播则可改善标签可塑性。

2025_NIPS_GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph
适配器风格的高效迁移学习(ETL)在低数据场景下的视觉语言模型(VLMs)调优中表现出优异性能——该方法仅引入少量额外参数,就能基于VLMs强大的通用表征挖掘任务特定知识。然而,大多数适配器风格的研究存在两个局限:(1)仅通过单模态建模任务特定知识;(2)忽视了下游任务中类别间关系的挖掘,导致模型性能欠佳。为缓解这些问题,我们提出一种高效的适配器风格调优策略GraphAdapter,其通过双知识图谱显式建模双模态结构知识(即文本和视觉模态中不同语义/类别的关联关系),实现文本适配器的优化。

2025_NIPS_Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement Learning
我们研究具有低秩结构的强化学习(RL)中出现的矩阵估计问题。在低秩老虎机中,待恢复矩阵指定了期望臂奖励;而在低秩马尔可夫决策过程(MDP)中,该矩阵可表征MDP的转移核等关键信息。在这两种情况下,矩阵的每个元素都承载着重要信息,因此我们寻求具有低逐元素误差的估计方法。重要的是,这些方法还需适应可用数据中固有的相关性(例如,在MDP中,数据由系统轨迹组成)。我们研究了基于简单谱方法的矩阵估计方案:结果表明,这些方法能高效恢复矩阵的奇异子空间,并实现近极小的逐元素误差。

欢迎留下您的脚印