Loading...

2025_NIPS_Replicability in Reinforcement Learning
本文首次从数学角度系统研究强化学习(RL)中的可复现性问题,聚焦带生成模型的折扣表格型马尔可夫决策过程(MDP),定义了三类可复现性概念并设计对应高效算法,同时给出样本复杂度和时间复杂度的上下界。核心围绕“确保RL算法在相同环境下两次执行输出一致或近似一致”展开,通过对可复现性的不同松弛,实现复杂度的逐步优化,为解决机器学习领域的“可复现性危机”提供理论支撑。我们首次在强化学习(RL)背景下,将可复现性作为一种算法属性开展数学研究。研究聚焦带生成模型的折扣表格型马尔可夫决策过程(MDP)这一基础场景。

2025_NIPS_Adversarial Model for Offline Reinforcement Learning
我们提出一种新颖的基于模型的离线强化学习(RL)框架,名为对抗性离线强化学习模型(ARMOR)。该框架能够稳健地学习策略,以改进任意参考策略,且不受数据覆盖范围的限制。ARMOR的设计目标是通过对抗训练马尔可夫决策过程模型,优化策略在参考策略相对性能下的最坏情况表现。理论上,我们证明:当参考策略被数据覆盖时,若超参数调优得当,ARMOR能够与数据覆盖范围内的最优策略竞争;

2023_NIPS_On the Convergence of Encoder-only Shallow Transformers
该研究聚焦有限宽度下仅编码器的浅层Transformer全局收敛理论,核心解决自注意力机制中softmax的分析难题,明确了缩放方案、初始化方式和过参数化程度对收敛的影响。本文旨在从架构、初始化和有限宽度机制下的缩放视角,在真实场景中建立仅编码器的浅层Transformer全局收敛理论。其难点在于如何处理Transformer核心组件——自注意力机制中的softmax函数。

2025_NIPS_Gigastep - One Billion Steps per Second Multi-agent Reinforcement Learning
该文章针对多智能体强化学习(MARL)研究中“复杂环境计算成本高、简单环境缺乏现实迁移性”的核心矛盾,提出了一款名为Gigastep的MARL基准环境。环境设计核心:基于JAX框架实现完全向量化,支持在消费级硬件上达到每秒10亿步的运行速度,大幅降低MARL研究的硬件门槛;环境关键特性:涵盖3D动力学、随机性、部分可观测性等Dec-POMDP(去中心化部分可观测马尔可夫决策过程)核心要素,支持协作/对抗任务、连续/离散动作空间,提供特征向量和RGB图像两种观测形式;场景与定制化。

2025_NIPS_Pgx: Hardware-Accelerated Parallel Game Simulators for Reinforcement Learning
我们提出了Pgx,一套基于JAX编写、针对GPU/TPU加速器优化的棋盘游戏强化学习(RL)环境套件。借助JAX的自动向量化和加速器并行化能力,Pgx能够高效扩展至数千个同时进行的模拟任务。在NVIDIADGX-A100工作站上的实验表明,Pgx对RL环境的模拟速度比现有Python实现快10-100倍。Pgx包含了RL研究中常用的基准测试游戏环境,如双陆棋、国际象棋、将棋和围棋。此外,Pgx还提供迷你游戏集合和基线模型,以支持快速的研究周期。

2025_NIPS_Interactive Multi-fidelity Learning for Cost-effective Adaptation of Language Model wit...
大语言模型(LLMs)在各类任务中展现出卓越能力,但由于其部署时的庞大规模、易受错误信息影响的特性,更重要的是高昂的数据标注成本,它们在领域特定任务中的适用性受到限制。本文提出一种新颖的交互式多保真度学习(IMFL)框架,用于在有限标注预算下实现低成本的领域特定小模型开发。我们的方法将领域特定微调过程构建为多保真度学习问题,核心在于找到最优的样本获取策略——平衡低保真度的LLM自动标注与高保真度的人工标注,以最大化模型性能。

2025_NIPS_Tree of Thoughts: Deliberate Problem Solving with Large Language Models
语言模型正越来越多地被用于各类任务的通用问题解决,但在推理过程中仍受限于逐token、左到右的决策机制。这意味着它们在需要探索、策略性前瞻或初始决策起关键作用的任务中可能表现不佳。为克服这些挑战,我们提出了一种新的语言模型推理框架——“思维树”(TreeofThoughts,ToT),该框架对流行的“思维链”(ChainofThought)提示方法进行了泛化,允许在作为问题解决中间步骤的连贯文本单元(“思维”)上进行探索。

2025_NIPS_Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
计算机视觉模型在处理图像前将其调整为固定分辨率的普遍做法已被证明是次优的,但这一现状尚未被成功打破。然而,视觉Transformer(ViT)等模型提供了基于序列的灵活建模能力,因此支持可变的输入序列长度。我们利用这一特性提出了NaViT(原生分辨率ViT),它在训练过程中采用序列打包(Patchn’Pack)技术,能够处理任意分辨率和宽高比的输入。除了模型使用的灵活性外,我们还证明了NaViT在大规模监督预训练和对比性图像-文本预训练中具有更高的训练效率。

2025_NIPS_Safety Gymnasium: A Unified Safe Reinforcement Learning Benchmark
人工智能(AI)系统具有推动社会进步的巨大潜力。然而,由于存在重大安全隐患,其部署往往面临阻碍。安全强化学习(SafeRL)作为一种解决方案,能够在优化策略的同时遵守多项约束,从而解决了在安全关键场景中集成强化学习的难题。本文提出了一个名为Safety-Gymnasium的环境套件,该套件涵盖单智能体和多智能体场景下的安全关键任务,支持向量输入和纯视觉输入。此外,我们还提供了一个名为安全策略优化(SafePO)的算法库,包含16种最先进的SafeRL算法。这个全面的库可以作为研究社区的验证工具。

Assessing Coherency and Consistency of Code Execution Reasoning by Large Language Models
本文提出了CES任务,用于评估大型语言模型(LLMs)在模拟程序执行及将该推理应用于编程任务中的能力。除了测量执行模拟过程中变量预测的正确性外,CES还引入了“连贯性”概念,以判断模拟是否符合常识性执行逻辑——即便模拟过程中的预测值不正确。这一设计使CES能够排除因推理捷径、幻觉或潜在数据泄露导致的“可疑正确”输出预测。此外,CES还提出了一种新颖的度量标准,用于评估模型在具有相同或不同基本路径覆盖的测试用例间的推理一致性,并将其划分为强、弱、随机三个等级。

Benchmarking Multimodal Large Language Models for Face Recognition
多模态大型语言模型(MLLMs)在各类视觉-语言任务中取得了显著性能。然而,它们在人脸识别领域的潜力尚未得到充分探索。特别是开源MLLMs的性能,需要在采用相似协议的标准基准上与现有人脸识别模型进行评估和对比。本文在多个人脸识别数据集(包括LFW、CALFW、CPLFW、CFP、AgeDB和RFW)上,对最先进的MLLMs进行了系统的人脸识别基准测试。实验结果表明,尽管MLLMs能捕捉对人脸相关任务有用的丰富语义线索,但在零样本应用的高精度识别场景中,它们仍落后于专用模型。

Code-driven Number Sequence Calculation: Enhancing the inductive Reasoning Abilities of Large Lan...
大语言模型(LLMs)在推理任务中取得了显著进展。在不同的推理模式中,归纳推理因其更贴合人类学习方式而受到越来越多的关注。然而,归纳推理相关研究面临着若干挑战:首先,现有归纳数据多聚焦于表面规律,缺乏更复杂的内在模式;其次,当前研究仅通过提示LLMs或在简单的提示-响应对上进行微调,并未提供精准的思维过程,也未实现难度控制。与以往研究不同,本文通过引入CodeSeq(一个基于数字序列构建的合成后训练数据集)来应对这些挑战。我们将数字序列包装为算法问题以挖掘其通用项,并相应定义了通用项生成(GTG)任务。

Large Scale Retrieval for the LinkedIn Feed using Causal Language Models
在LinkedInFeed等大规模推荐系统中,检索阶段对于将数亿潜在候选内容筛选为可管理的排序子集至关重要。LinkedInFeed会基于成员的主题兴趣,推送其社交网络之外的推荐内容——需在数毫秒延迟预算和每秒数千查询量(QPS)的约束下,从数亿候选内容中检索出2000个候选。本文提出一种新型检索方法:将大型因果语言模型(Meta的LLaMA3)微调为双编码器,仅通过文本输入为用户(成员)和内容(物品)生成高质量嵌入向量。

2025_NIPS_Can Language Models Solve Graph Problems in Natural Language?
大型语言模型(LLMs)正日益被应用于各类含隐式图形结构的任务,例如机器人规划、多跳问答或知识探查、结构化常识推理等。尽管LLMs在这些含结构暗示的任务上取得了最先进的成果,但它们能否明确处理图和结构的文本描述、将其映射到接地概念空间并执行结构化操作,仍有待深入探索。为此,我们提出了NLGraph(自然语言图)——一个基于图的问题求解综合基准,完全以自然语言设计。NLGraph包含29,370个问题,覆盖8类图推理任务,复杂度各异:从连通性、最短路径等简单任务,到最大流、图神经网络模拟等复杂问题。

2025_NIPS_Efficient Exploration in Continuous-time Model-based Reinforcement Learning
该研究聚焦连续时间模型的强化学习,提出乐观连续时间模型基强化学习算法(OCORL)。核心是用非线性常微分方程(ODEs)建模连续时间动态,结合高斯过程(GP)捕捉认知不确定性,通过乐观原则实现高效探索。文章分析了测量选择策略(MSS)对遗憾界的影响,提出自适应MSS并验证其优越性,同时通过实验证明OCORL在机器人、医疗等多个任务中,相较于离散时间模型和传统MSS,能以更少样本实现亚线性遗憾。强化学习算法通常考虑离散时间动态,尽管底层系统往往是连续时间的。

2025_NIPS_Evaluating Cognitive Maps and Planning in Large Language Models with CogEval
近年来,大量研究声称大型语言模型(LLMs)具备涌现的认知能力。然而,这些研究大多依赖轶事证据,忽视了训练集污染问题,或缺乏包含多任务、控制条件、多轮迭代和统计稳健性检验的系统性评估。本文作出两项主要贡献:首先,我们提出CogEval协议——一种受认知科学启发的LLMs认知能力系统性评估方案,该协议可用于评估多种认知能力;

2025_NIPS_Efficient Adaptation of Large Vision Transformer via Adapter Re-Composing
高容量预训练模型的出现彻底改变了计算机视觉领域的问题解决方式,将研究重心从训练任务特定模型转向适配预训练模型。因此,以高效方式将大型预训练模型适配到下游任务已成为一个重要的研究方向。现有解决方案主要集中在设计轻量化适配器及其与预训练模型的交互方式,旨在最小化需要更新的参数数量。在本研究中,我们提出了一种新颖的适配器重组(ARC)策略,从全新视角解决预训练模型的高效适配问题。该方法充分考虑适配参数的可复用性,并引入参数共享方案。具体而言,我们利用对称下投影/上投影构建瓶颈操作,这些操作在不同层之间共享;

2025_NIPS_Fine-Tuning Language Models with Just Forward Passes
微调语言模型(LM)已在各类下游任务中取得成功,但随着模型规模扩大,反向传播所需的内存量变得难以承受。零阶(ZO)方法原则上仅需两次前向传播即可估计梯度,但理论上优化大型模型时速度会极慢。本文提出一种内存高效的零阶优化器(MeZO),对经典ZO-SGD方法进行适配以实现原地运算,从而在与推理相同的内存占用下微调语言模型。例如,使用单块A10080GBGPU时,MeZO可训练300亿参数模型,而反向传播微调在相同硬件条件下仅能训练27亿参数模型。

2025_NIPS_UDC-SIT: A Real-World Dataset for Under-Display Cameras
本文针对屏下摄像头(UDC)成像存在的低透射率、模糊、噪声、光晕等退化问题,提出了首个真实世界UDC数据集UDC-SIT。现有UDC数据集多为合成数据,无法准确反映真实退化特性,且缺乏对齐和完整标注。为此,作者设计了专用图像采集系统,通过在非UDC手机镜头上加装UDC显示屏模块(可开合),获取同一场景的无退化基准图与UDC退化图;并提出基于离散傅里叶变换(DFT)的图像对齐技术,结合空间域和频域损失函数解决采集过程中的几何错位问题。

2025_NIPS_LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large La...
大型语言模型(LLMs)的出现及其在法律界的应用引发了一个关键问题:LLMs能够执行哪些类型的法律推理?为推动这一问题的深入研究,我们提出LEGALBENCH——一个协作构建的法律推理基准,包含162个任务,覆盖六种不同类型的法律推理。LEGALBENCH通过跨学科流程构建,收集了由法律专业人士设计和手工打造的任务。由于这些领域专家主导了构建过程,任务要么测量具有实际应用价值的法律推理能力,要么测量律师认为有研究意义的推理技能。

欢迎留下您的脚印