Loading...
本文针对视觉地点识别(VPR)任务,提出了一种名为的新型范式,摒弃了传统“骨干网络+显式聚合器”的主流框架,仅通过视觉Transformer(ViT)骨干网络本身实现隐式特征聚合,以生成鲁棒的全局图像描述符。视觉地点识别(VPR)通常被视为一项特定的图像检索任务,其核心在于将图像表示为全局描述符。过去十年中,主流VPR方法(如NetVLAD)遵循的范式是:先通过骨干网络提取输入图像的补丁特征/令牌,再通过聚合器将这些补丁特征聚合为全局描述符。
2025_NIPS_Scaling Offline RL via Efficient and Expressive Shortcut Models
本文提出可扩展离线强化学习(SORL)算法,通过引入“捷径模型”(shortcutmodels)解决传统生成模型(扩散、流模型)在离线RL中训练低效、推理耗时的问题。核心优势是单阶段训练兼顾高效性与表达力,推理时支持序列缩放(增加推理步数)和并行缩放(最优N采样),在40个离线RL任务中优于10个基线模型,且能通过更多推理计算弥补较少的训练计算。扩散模型和流模型已成为强大的生成方法,能够建模多样化和多模态行为。
2025_NIPS_Enhancing Multilingual LLM Pretraining with Model-Based Data Selection
数据集整理已成为大型语言模型(LLM)实现优异性能的基础。尽管针对英语和多语言数据集存在多种基于规则的筛选启发式方法,但基于模型的筛选技术主要集中于英语。为解决非英语语言相关研究有限所导致的性能差距问题,我们开发了一个面向多语言数据集的基于模型的筛选框架,旨在识别一组多样化的结构化和知识丰富的样本。我们的方法强调透明度、简洁性和效率,利用基于Transformer和FastText的分类器,确保该技术和数据具有广泛的可访问性。
2025_NIPS_Less Is More, but Where? Dynamic Token Compression via LLM-Guided Keyframe Prior
该研究针对视频大语言模型(VLLMs)处理长视频时的计算效率瓶颈,提出了训练无关的动态令牌压缩框架DyToK。核心是利用VLLMs注意力机制中固有的关键帧先验,为不同帧动态分配令牌预算,在保留关键语义信息的同时抑制冗余,实现效率与精度的最优平衡。近年来,视频大语言模型(VLLMs)在视频理解任务中取得了显著成果,但面对长视频的海量视觉令牌序列时,其计算量呈二次增长,存在严重的效率瓶颈。现有关键帧采样方法虽能提升时间建模效率,但在特征编码前会引入额外计算成本,且二元帧选择模式并非最优。
2025_NIPS_Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models
该研究聚焦于人工智能领域中大型语言模型(LLMs)的“策略性表现不足”(即sandbagging)问题——模型在评估中故意隐瞒真实能力,给AI系统的能力评估与监管带来挑战。研究提出了一种基于噪声注入的灰盒检测方法,核心逻辑是:正常模型在权重注入噪声后性能会可预测地下降,而sandbagging模型的噪声会破坏其“隐瞒能力的机制”,同时保留核心能力,从而出现反常的性能提升。研究通过三类sandbagging场景验证方法有效性:(1)提示诱导型(模型被指令表现不佳);
2025_NIPS_ClinicalLab: Aligning Agents for Multi-Departmental Clinical Diagnostics in the Real World
大型语言模型(LLM)在各类自然语言处理应用中取得了显著的性能提升,但在医疗领域仍难以满足准确性和可靠性的严格要求,在临床应用中面临诸多挑战。现有用于评估基于LLM的医疗代理的临床诊断评估基准存在严重局限:其一,多数医疗评估基准存在数据泄露或污染风险;其二,忽视了现代医疗多科室、高专业化的特点;其三,评估方式局限于选择题,与真实诊疗场景不符且缺乏稳健性;其四,缺乏对端到端真实临床场景的全面评估。这些基准缺陷阻碍了医疗领域LLM及代理的发展。
2025_NIPS_Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data S
有害微调对大语言模型的微调即服务构成了严重安全风险。现有防御策略通过攻击模拟预先构建鲁棒性,但存在根本性局限:(1)由于难以预测未知攻击,攻击模拟无法超出有限威胁模型的范围;(2)对不同攻击场景的适应性有限,因为模拟无法捕捉攻击的变异性和复杂性。为解决这些挑战,我们提出贝叶斯数据调度器(BDS)——一种无需攻击模拟的自适应微调阶段防御策略。BDS将有害微调防御构建为贝叶斯推理问题,基于微调数据集和对齐数据集,学习每个数据点安全属性的后验分布。
2025_NIPS_ShapeCraft: LLM Agents for Structured, Textured and Interactive 3D Modeling
GPS表示范式:提出基于图的过程化形状表示,将自然语言分解为独立的几何组件节点及空间关系,为LLM提供结构化推理框架,解决复杂空间语义理解难题。多智能体协同架构:设计Parser(解析文本生成GPS)、Coder(生成建模代码)、Evaluator(视觉评估与反馈)三类专用智能体,通过共享GPS实现高效协作与迭代优化。多路径迭代建模:引入多路径采样策略探索多样化建模方案,结合迭代反馈机制修正空间理解误差,提升建模准确性与鲁棒性。组件感知纹理生成。
2025_NIPS_Corrector Sampling in Language Models
自回归语言模型由于其固定的、不可逆的左到右token生成方式,会累积误差。为解决这一问题,我们提出了一种名为重采样先前token(Resample-Previous-Tokens,RPT)的新型采样方法。RPT通过迭代重新访问并可能替换先前生成文本窗口中的token,来减轻误差累积。仅使用100Btokens对8B参数的预训练模型进行RPT微调后,与标准采样相比,在推理和代码生成基准测试中实现了约10%的相对性能提升。
2025_NIPS_TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios
时间推理对于大型语言模型(LLMs)理解现实世界至关重要。然而,现有研究忽视了时间推理在真实场景中面临的挑战:(1)密集的时间信息,(2)快速变化的事件动态,(3)社交交互中复杂的时间依赖关系。为填补这一空白,我们提出了多级别基准测试TIME,专为真实场景下的时间推理设计。TIME包含38,522个问答对,覆盖3个级别及11个细分子任务。该基准包含3个子数据集,分别对应不同的真实世界挑战:TIME-WIKI、TIME-NEWS和TIME-DIAL。
2025_NIPS_Diffusion Transformers as Open-World Spatiotemporal Foundation Models
城市环境的特征是由多样化的人类活动及交互所产生的复杂时空动态。有效建模这些动态对于理解和优化城市系统至关重要。本文提出UrbanDiT,一种面向开放世界城市时空学习的基础模型,成功将扩散Transformer在该领域实现规模化应用。UrbanDiT开创了一种统一模型,能够整合多样化数据源和数据类型,同时学习不同城市与场景下的通用时空模式。这使得该模型能够统一多数据学习和多任务学习,有效支持各类时空应用。
2025_NIPS_ClinicalLab: Aligning Agents for Multi-Departmental Clinical Diagnostics in the Real World
大型语言模型(LLM)在各类自然语言处理应用中取得了显著的性能提升,但在医疗领域仍难以满足准确性和可靠性的严格要求,在临床应用中面临诸多挑战。现有用于评估基于LLM的医疗代理的临床诊断评估基准存在严重局限:其一,多数医疗评估基准存在数据泄露或污染风险;其二,忽视了现代医疗多科室、高专业化的特点;其三,评估方式局限于选择题,与真实诊疗场景不符且缺乏稳健性;其四,缺乏对端到端真实临床场景的全面评估。这些基准缺陷阻碍了医疗领域LLM及代理的发展。
2025_NIP_Mellow: a small audio language model for reasoning
多模态音频语言模型(ALMs)能够理解并推理音频和文本两种模态。通常,推理性能与模型规模相关,最佳结果由参数超过80亿的模型实现。然而,尽管边缘设备存在潜在应用需求,此前尚无研究探索让小型音频语言模型具备推理能力。为填补这一空白,我们提出Mellow——一款专为推理设计的小型音频语言模型。Mellow在现有小型音频语言模型中实现了最先进的性能,并在推理能力上超越了多个更大规模的模型。
2025_NIPS_FINERS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learni
多模态大语言模型(MLLMs)在各类视觉-语言任务中展现出卓越性能。然而,受限于输入分辨率,MLLMs在高分辨率图像中精准理解和定位视觉细节时面临巨大挑战——尤其是处理嵌入在复杂背景中的超小目标时。为解决这一问题,我们提出FINERS,一种基于MLLM的两阶段强化学习框架,用于联合推理和分割高分辨率场景中的极超小目标。FINERS采用“粗到细”流水线,包括全局语义探索(GSE)和局部感知细化(LPR)两个模块。
2025_NIPS_Better Estimation of the Kullback–Leibler Divergence Between Language Models
本文聚焦语言模型间KL散度的估计问题,针对蒙特卡洛(MC)估计器方差高、可能出现负值的缺陷,提出基于Rao-Blackwell化(RB)的改进估计器。通过理论证明RB估计器无偏且方差不超过MC估计器,同时推导了KL散度梯度的RB估计器,并在情感控制微调任务中验证:RB估计器能显著降低方差、提升RLHF训练稳定性,使模型更频繁出现在奖励-KL帕累托前沿。估计语言模型之间的Kullback-Leibler(KL)散度具有诸多应用,例如基于人类反馈的强化学习(RLHF)、可解释性研究和知识蒸馏。
2025_NIPS_Support Vector Generation: Kernelizing Zero-Shot Classifiers from Pre-Trained Language Mod
我们提出了支持向量生成(SVG)——一种基于核方法的框架,可将冻结的语言模型转化为适用于零样本和少样本学习的可解释、无需训练的分类器。SVG的工作原理是,在语言模型嵌入诱导的再生核希尔伯特空间(RKHS)中,将Metropolis-Hastings采样与支持向量机优化相结合。每个分类决策基于最多32个自然语言句子的加权组合,这些句子作为显式支持向量并提供可靠的决策依据。我们的理论分析证明,SVG在支持向量的范围内最小化经验hinge损失,且其泛化界与语言模型规模无关。
2025_NIPS_Follow-the-Perturbed-Leader Nearly Achieves Best-of-Both-Worlds for the m-Set Semi-Bandit
我们研究组合半臂赌博机问题的一个常见场景——m-集半臂赌博机,即学习者从d个臂中精确选择m个臂进行决策。在对抗性环境下,已知最优遗憾界为OnmdOnmd(n为时间步长),该界可通过经典的Follow-the-Regularized-Leader(FTRL)策略实现。但FTRL需要在每个时间步通过优化问题显式计算臂选择概率,并根据该概率进行采样。
2025_NIPS_C-LoRA: Contextual Low-Rank Adaptation for Uncertainty Estimation in Large Language Models
低秩适配(LoRA)为大语言模型(LLM)微调提供了经济高效的解决方案,但在数据稀缺的少样本场景下,它往往会产生过度自信的预测。为解决这一问题,多项经典统计学习方法已被重新用于可扩展的不确定性感知LoRA微调。然而,这些方法忽略了输入特性对预测不确定性估计的影响。为弥补这一局限,我们提出上下文低秩适配(C-LoRA),一种新颖的不确定性感知且参数高效的微调方法。该方法通过开发新的轻量级LoRA模块,将其与每个输入数据样本进行上下文关联,以动态调整不确定性估计。
2025_NIPS_Boundary to region supervision for offline safe reinforcement learning
离线安全强化学习旨在从静态数据集学习满足预定义安全约束的策略。现有基于序列模型的方法将“未来回报(RTG)”和“未来成本(CTG)”作为对称输入token来生成动作,却忽略了二者的内在不对称性:RTG是灵活的性能目标,而CTG应作为刚性的安全边界。这种对称处理导致约束满足的可靠性不足,尤其在遇到分布外成本轨迹时问题更为突出。为解决这一问题,我们提出边界到区域(Boundary-to-Region,B2R)框架,通过成本信号重对齐实现非对称条件建模。
2025_NIPS_SAFEPATH: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment
大型推理模型(LRMs)已成为复杂问题求解的强大工具,但当其暴露于有害提示时,其结构化推理路径可能导致不安全输出。现有安全对齐方法虽能减少有害输出,但会降低推理深度,在复杂多步任务中造成显著权衡,且仍易受精密的越狱攻击。为解决这一问题,我们提出SAFEPATH——一种轻量级对齐方法,通过微调LRMs,使其在响应有害提示时,在推理开头生成一个简短的8-token安全前缀(SafetyPrimer),而不对推理过程的其余部分进行监督。
