Loading...

2025_NIPS_Provably Efficient RL under Episode-Wise Safety in Constrained MDPs with Linear Function A
本文聚焦线性约束马尔可夫决策过程(线性CMDP)中的安全强化学习问题,目标是在每一轮episode中满足期望总效用约束的前提下,最大化智能体的累积奖励。针对现有算法要么存在约束违反、要么计算成本指数级增长的缺陷,提出了OPSE-LCMDP算法,实现了次线性遗憾(OKOK​)和episode-wise零约束违反,且计算效率与状态空间大小无关。

2025_NIPS_Hogwild! Inference: Parallel LLM Generation via Concurrent Attention
大型语言模型(LLMs)已展现出通过高级推理、长文本生成和工具使用来处理日益复杂任务的能力。解决这些任务通常需要长时间的推理计算。在人类问题解决中,加速工作的常见策略是协作:将问题分解为子任务、同时探索不同策略等。近期研究表明,LLMs也可通过实现显式协作框架(如投票机制或显式创建可并行执行的独立子任务)进行并行运算。然而,这些框架并非适用于所有类型的任务,这会限制它们的适用性。

2025_NIPS_Social World Model-Augmented Mechanism Design Policy Learning
本文针对人工智能社会智能中“设计自适应机制以协调个体与集体利益”这一核心挑战,提出了一种名为的新方法。该方法基于模型的强化学习框架,核心目标是解决现实社会系统中智能体异质性(存在持久隐性特质如技能、偏好)、系统动态复杂性,以及真实交互成本高导致的样本效率不足等问题。设计自适应机制以协调个体与集体利益,仍是人工智能社会智能领域的核心挑战。现有方法往往难以建模具有持久隐性特质(如技能、偏好)的异质智能体,且难以处理复杂的多智能体系统动态。加之真实世界交互成本高昂,对高样本效率的迫切需求进一步加剧了这些挑战。

2025_NIPS_VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to
该研究聚焦无参考图像质量评估(NR-IQA)任务,提出了一种基于推理诱导的模型VisualQuality-R1,核心是通过强化学习排序(RL2R)方法训练,以契合视觉质量的内在相对性特征。研究背景:现有NR-IQA方法存在局限——基于监督微调(SFT)的VLM模型标注成本高、易过拟合且输出僵化;传统强化学习方法将质量评估视为回归任务,依赖数据集特定奖励设计,泛化性不足。核心设计。

2025_NIPS_Fast Inference for Augmented Large Language Models
增强型大型语言模型(AugmentedLargeLanguageModels,LLMs)通过API调用整合外部数据源,从而增强独立LLM的能力。在交互式应用中,高效调度对于维持较低的请求完成时间至关重要,这直接影响用户参与度。然而,这些增强功能带来了新的调度挑战:增强型请求的规模(以令牌数计)不再与执行时间成比例相关,导致最短作业优先(ShortestJobFirst)等传统基于规模的调度算法效果下降。此外,请求在API调用期间可能需要不同的处理方式,这必须纳入调度考虑范畴。

2025_NIPS_SPARTAN: A Sparse Transformer World Model Attending to What Matters
捕获实体间的结构化交互在能灵活适应环境变化的世界模型中起着核心作用。近期研究表明,明确表示交互结构并将问题转化为发现局部因果结构的模型具有显著优势。然而,本文发现在复杂场景中可靠捕捉这些关系仍面临挑战。为解决这一缺陷,我们提出稀疏性是发现此类局部结构的关键因素。为此,我们设计了稀疏Transformer世界模型(SPARTAN)——一种基于Transformer的世界模型,能够学习场景中实体间依赖上下文的交互结构。

2025_NIPS_Towards Implicit Aggregation: Robust Image Representation for Place Recognition in the Tra
本文针对视觉地点识别(VPR)任务,提出了一种名为的新型范式,摒弃了传统“骨干网络+显式聚合器”的主流框架,仅通过视觉Transformer(ViT)骨干网络本身实现隐式特征聚合,以生成鲁棒的全局图像描述符。视觉地点识别(VPR)通常被视为一项特定的图像检索任务,其核心在于将图像表示为全局描述符。过去十年中,主流VPR方法(如NetVLAD)遵循的范式是:先通过骨干网络提取输入图像的补丁特征/令牌,再通过聚合器将这些补丁特征聚合为全局描述符。

2025_NIPS_Scaling Offline RL via Efficient and Expressive Shortcut Models
本文提出可扩展离线强化学习(SORL)算法,通过引入“捷径模型”(shortcutmodels)解决传统生成模型(扩散、流模型)在离线RL中训练低效、推理耗时的问题。核心优势是单阶段训练兼顾高效性与表达力,推理时支持序列缩放(增加推理步数)和并行缩放(最优N采样),在40个离线RL任务中优于10个基线模型,且能通过更多推理计算弥补较少的训练计算。扩散模型和流模型已成为强大的生成方法,能够建模多样化和多模态行为。

2025_NIPS_Enhancing Multilingual LLM Pretraining with Model-Based Data Selection
数据集整理已成为大型语言模型(LLM)实现优异性能的基础。尽管针对英语和多语言数据集存在多种基于规则的筛选启发式方法,但基于模型的筛选技术主要集中于英语。为解决非英语语言相关研究有限所导致的性能差距问题,我们开发了一个面向多语言数据集的基于模型的筛选框架,旨在识别一组多样化的结构化和知识丰富的样本。我们的方法强调透明度、简洁性和效率,利用基于Transformer和FastText的分类器,确保该技术和数据具有广泛的可访问性。

2025_NIPS_Less Is More, but Where? Dynamic Token Compression via LLM-Guided Keyframe Prior
该研究针对视频大语言模型(VLLMs)处理长视频时的计算效率瓶颈,提出了训练无关的动态令牌压缩框架DyToK。核心是利用VLLMs注意力机制中固有的关键帧先验,为不同帧动态分配令牌预算,在保留关键语义信息的同时抑制冗余,实现效率与精度的最优平衡。近年来,视频大语言模型(VLLMs)在视频理解任务中取得了显著成果,但面对长视频的海量视觉令牌序列时,其计算量呈二次增长,存在严重的效率瓶颈。现有关键帧采样方法虽能提升时间建模效率,但在特征编码前会引入额外计算成本,且二元帧选择模式并非最优。

2025_NIPS_Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models
该研究聚焦于人工智能领域中大型语言模型(LLMs)的“策略性表现不足”(即sandbagging)问题——模型在评估中故意隐瞒真实能力,给AI系统的能力评估与监管带来挑战。研究提出了一种基于噪声注入的灰盒检测方法,核心逻辑是:正常模型在权重注入噪声后性能会可预测地下降,而sandbagging模型的噪声会破坏其“隐瞒能力的机制”,同时保留核心能力,从而出现反常的性能提升。研究通过三类sandbagging场景验证方法有效性:(1)提示诱导型(模型被指令表现不佳);

2025_NIPS_ClinicalLab: Aligning Agents for Multi-Departmental Clinical Diagnostics in the Real World
大型语言模型(LLM)在各类自然语言处理应用中取得了显著的性能提升,但在医疗领域仍难以满足准确性和可靠性的严格要求,在临床应用中面临诸多挑战。现有用于评估基于LLM的医疗代理的临床诊断评估基准存在严重局限:其一,多数医疗评估基准存在数据泄露或污染风险;其二,忽视了现代医疗多科室、高专业化的特点;其三,评估方式局限于选择题,与真实诊疗场景不符且缺乏稳健性;其四,缺乏对端到端真实临床场景的全面评估。这些基准缺陷阻碍了医疗领域LLM及代理的发展。

2025_NIPS_Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data S
有害微调对大语言模型的微调即服务构成了严重安全风险。现有防御策略通过攻击模拟预先构建鲁棒性,但存在根本性局限:(1)由于难以预测未知攻击,攻击模拟无法超出有限威胁模型的范围;(2)对不同攻击场景的适应性有限,因为模拟无法捕捉攻击的变异性和复杂性。为解决这些挑战,我们提出贝叶斯数据调度器(BDS)——一种无需攻击模拟的自适应微调阶段防御策略。BDS将有害微调防御构建为贝叶斯推理问题,基于微调数据集和对齐数据集,学习每个数据点安全属性的后验分布。

2025_NIPS_ShapeCraft: LLM Agents for Structured, Textured and Interactive 3D Modeling
GPS表示范式:提出基于图的过程化形状表示,将自然语言分解为独立的几何组件节点及空间关系,为LLM提供结构化推理框架,解决复杂空间语义理解难题。多智能体协同架构:设计Parser(解析文本生成GPS)、Coder(生成建模代码)、Evaluator(视觉评估与反馈)三类专用智能体,通过共享GPS实现高效协作与迭代优化。多路径迭代建模:引入多路径采样策略探索多样化建模方案,结合迭代反馈机制修正空间理解误差,提升建模准确性与鲁棒性。组件感知纹理生成。

2025_NIPS_Corrector Sampling in Language Models
自回归语言模型由于其固定的、不可逆的左到右token生成方式,会累积误差。为解决这一问题,我们提出了一种名为重采样先前token(Resample-Previous-Tokens,RPT)的新型采样方法。RPT通过迭代重新访问并可能替换先前生成文本窗口中的token,来减轻误差累积。仅使用100Btokens对8B参数的预训练模型进行RPT微调后,与标准采样相比,在推理和代码生成基准测试中实现了约10%的相对性能提升。

2025_NIPS_TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios
时间推理对于大型语言模型(LLMs)理解现实世界至关重要。然而,现有研究忽视了时间推理在真实场景中面临的挑战:(1)密集的时间信息,(2)快速变化的事件动态,(3)社交交互中复杂的时间依赖关系。为填补这一空白,我们提出了多级别基准测试TIME,专为真实场景下的时间推理设计。TIME包含38,522个问答对,覆盖3个级别及11个细分子任务。该基准包含3个子数据集,分别对应不同的真实世界挑战:TIME-WIKI、TIME-NEWS和TIME-DIAL。

2025_NIPS_Diffusion Transformers as Open-World Spatiotemporal Foundation Models
城市环境的特征是由多样化的人类活动及交互所产生的复杂时空动态。有效建模这些动态对于理解和优化城市系统至关重要。本文提出UrbanDiT,一种面向开放世界城市时空学习的基础模型,成功将扩散Transformer在该领域实现规模化应用。UrbanDiT开创了一种统一模型,能够整合多样化数据源和数据类型,同时学习不同城市与场景下的通用时空模式。这使得该模型能够统一多数据学习和多任务学习,有效支持各类时空应用。

2025_NIPS_ClinicalLab: Aligning Agents for Multi-Departmental Clinical Diagnostics in the Real World
大型语言模型(LLM)在各类自然语言处理应用中取得了显著的性能提升,但在医疗领域仍难以满足准确性和可靠性的严格要求,在临床应用中面临诸多挑战。现有用于评估基于LLM的医疗代理的临床诊断评估基准存在严重局限:其一,多数医疗评估基准存在数据泄露或污染风险;其二,忽视了现代医疗多科室、高专业化的特点;其三,评估方式局限于选择题,与真实诊疗场景不符且缺乏稳健性;其四,缺乏对端到端真实临床场景的全面评估。这些基准缺陷阻碍了医疗领域LLM及代理的发展。

2025_NIP_Mellow: a small audio language model for reasoning
多模态音频语言模型(ALMs)能够理解并推理音频和文本两种模态。通常,推理性能与模型规模相关,最佳结果由参数超过80亿的模型实现。然而,尽管边缘设备存在潜在应用需求,此前尚无研究探索让小型音频语言模型具备推理能力。为填补这一空白,我们提出Mellow——一款专为推理设计的小型音频语言模型。Mellow在现有小型音频语言模型中实现了最先进的性能,并在推理能力上超越了多个更大规模的模型。

2025_NIPS_FINERS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learni
多模态大语言模型(MLLMs)在各类视觉-语言任务中展现出卓越性能。然而,受限于输入分辨率,MLLMs在高分辨率图像中精准理解和定位视觉细节时面临巨大挑战——尤其是处理嵌入在复杂背景中的超小目标时。为解决这一问题,我们提出FINERS,一种基于MLLM的两阶段强化学习框架,用于联合推理和分割高分辨率场景中的极超小目标。FINERS采用“粗到细”流水线,包括全局语义探索(GSE)和局部感知细化(LPR)两个模块。

欢迎留下您的脚印