Loading...
有害微调对大语言模型的微调即服务构成了严重安全风险。现有防御策略通过攻击模拟预先构建鲁棒性,但存在根本性局限:(1)由于难以预测未知攻击,攻击模拟无法超出有限威胁模型的范围;(2)对不同攻击场景的适应性有限,因为模拟无法捕捉攻击的变异性和复杂性。为解决这些挑战,我们提出贝叶斯数据调度器(BDS)——一种无需攻击模拟的自适应微调阶段防御策略。BDS将有害微调防御构建为贝叶斯推理问题,基于微调数据集和对齐数据集,学习每个数据点安全属性的后验分布。
2025_NIPS_ShapeCraft: LLM Agents for Structured, Textured and Interactive 3D Modeling
GPS表示范式:提出基于图的过程化形状表示,将自然语言分解为独立的几何组件节点及空间关系,为LLM提供结构化推理框架,解决复杂空间语义理解难题。多智能体协同架构:设计Parser(解析文本生成GPS)、Coder(生成建模代码)、Evaluator(视觉评估与反馈)三类专用智能体,通过共享GPS实现高效协作与迭代优化。多路径迭代建模:引入多路径采样策略探索多样化建模方案,结合迭代反馈机制修正空间理解误差,提升建模准确性与鲁棒性。组件感知纹理生成。
2025_NIPS_Corrector Sampling in Language Models
自回归语言模型由于其固定的、不可逆的左到右token生成方式,会累积误差。为解决这一问题,我们提出了一种名为重采样先前token(Resample-Previous-Tokens,RPT)的新型采样方法。RPT通过迭代重新访问并可能替换先前生成文本窗口中的token,来减轻误差累积。仅使用100Btokens对8B参数的预训练模型进行RPT微调后,与标准采样相比,在推理和代码生成基准测试中实现了约10%的相对性能提升。
2025_NIPS_TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios
时间推理对于大型语言模型(LLMs)理解现实世界至关重要。然而,现有研究忽视了时间推理在真实场景中面临的挑战:(1)密集的时间信息,(2)快速变化的事件动态,(3)社交交互中复杂的时间依赖关系。为填补这一空白,我们提出了多级别基准测试TIME,专为真实场景下的时间推理设计。TIME包含38,522个问答对,覆盖3个级别及11个细分子任务。该基准包含3个子数据集,分别对应不同的真实世界挑战:TIME-WIKI、TIME-NEWS和TIME-DIAL。
2025_NIPS_Diffusion Transformers as Open-World Spatiotemporal Foundation Models
城市环境的特征是由多样化的人类活动及交互所产生的复杂时空动态。有效建模这些动态对于理解和优化城市系统至关重要。本文提出UrbanDiT,一种面向开放世界城市时空学习的基础模型,成功将扩散Transformer在该领域实现规模化应用。UrbanDiT开创了一种统一模型,能够整合多样化数据源和数据类型,同时学习不同城市与场景下的通用时空模式。这使得该模型能够统一多数据学习和多任务学习,有效支持各类时空应用。
2025_NIPS_ClinicalLab: Aligning Agents for Multi-Departmental Clinical Diagnostics in the Real World
大型语言模型(LLM)在各类自然语言处理应用中取得了显著的性能提升,但在医疗领域仍难以满足准确性和可靠性的严格要求,在临床应用中面临诸多挑战。现有用于评估基于LLM的医疗代理的临床诊断评估基准存在严重局限:其一,多数医疗评估基准存在数据泄露或污染风险;其二,忽视了现代医疗多科室、高专业化的特点;其三,评估方式局限于选择题,与真实诊疗场景不符且缺乏稳健性;其四,缺乏对端到端真实临床场景的全面评估。这些基准缺陷阻碍了医疗领域LLM及代理的发展。
2025_NIP_Mellow: a small audio language model for reasoning
多模态音频语言模型(ALMs)能够理解并推理音频和文本两种模态。通常,推理性能与模型规模相关,最佳结果由参数超过80亿的模型实现。然而,尽管边缘设备存在潜在应用需求,此前尚无研究探索让小型音频语言模型具备推理能力。为填补这一空白,我们提出Mellow——一款专为推理设计的小型音频语言模型。Mellow在现有小型音频语言模型中实现了最先进的性能,并在推理能力上超越了多个更大规模的模型。
2025_NIPS_FINERS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learni
多模态大语言模型(MLLMs)在各类视觉-语言任务中展现出卓越性能。然而,受限于输入分辨率,MLLMs在高分辨率图像中精准理解和定位视觉细节时面临巨大挑战——尤其是处理嵌入在复杂背景中的超小目标时。为解决这一问题,我们提出FINERS,一种基于MLLM的两阶段强化学习框架,用于联合推理和分割高分辨率场景中的极超小目标。FINERS采用“粗到细”流水线,包括全局语义探索(GSE)和局部感知细化(LPR)两个模块。
2025_NIPS_Better Estimation of the Kullback–Leibler Divergence Between Language Models
本文聚焦语言模型间KL散度的估计问题,针对蒙特卡洛(MC)估计器方差高、可能出现负值的缺陷,提出基于Rao-Blackwell化(RB)的改进估计器。通过理论证明RB估计器无偏且方差不超过MC估计器,同时推导了KL散度梯度的RB估计器,并在情感控制微调任务中验证:RB估计器能显著降低方差、提升RLHF训练稳定性,使模型更频繁出现在奖励-KL帕累托前沿。估计语言模型之间的Kullback-Leibler(KL)散度具有诸多应用,例如基于人类反馈的强化学习(RLHF)、可解释性研究和知识蒸馏。
2025_NIPS_Support Vector Generation: Kernelizing Zero-Shot Classifiers from Pre-Trained Language Mod
我们提出了支持向量生成(SVG)——一种基于核方法的框架,可将冻结的语言模型转化为适用于零样本和少样本学习的可解释、无需训练的分类器。SVG的工作原理是,在语言模型嵌入诱导的再生核希尔伯特空间(RKHS)中,将Metropolis-Hastings采样与支持向量机优化相结合。每个分类决策基于最多32个自然语言句子的加权组合,这些句子作为显式支持向量并提供可靠的决策依据。我们的理论分析证明,SVG在支持向量的范围内最小化经验hinge损失,且其泛化界与语言模型规模无关。
2025_NIPS_Follow-the-Perturbed-Leader Nearly Achieves Best-of-Both-Worlds for the m-Set Semi-Bandit
我们研究组合半臂赌博机问题的一个常见场景——m-集半臂赌博机,即学习者从d个臂中精确选择m个臂进行决策。在对抗性环境下,已知最优遗憾界为OnmdOnmd(n为时间步长),该界可通过经典的Follow-the-Regularized-Leader(FTRL)策略实现。但FTRL需要在每个时间步通过优化问题显式计算臂选择概率,并根据该概率进行采样。
2025_NIPS_C-LoRA: Contextual Low-Rank Adaptation for Uncertainty Estimation in Large Language Models
低秩适配(LoRA)为大语言模型(LLM)微调提供了经济高效的解决方案,但在数据稀缺的少样本场景下,它往往会产生过度自信的预测。为解决这一问题,多项经典统计学习方法已被重新用于可扩展的不确定性感知LoRA微调。然而,这些方法忽略了输入特性对预测不确定性估计的影响。为弥补这一局限,我们提出上下文低秩适配(C-LoRA),一种新颖的不确定性感知且参数高效的微调方法。该方法通过开发新的轻量级LoRA模块,将其与每个输入数据样本进行上下文关联,以动态调整不确定性估计。
2025_NIPS_Boundary to region supervision for offline safe reinforcement learning
离线安全强化学习旨在从静态数据集学习满足预定义安全约束的策略。现有基于序列模型的方法将“未来回报(RTG)”和“未来成本(CTG)”作为对称输入token来生成动作,却忽略了二者的内在不对称性:RTG是灵活的性能目标,而CTG应作为刚性的安全边界。这种对称处理导致约束满足的可靠性不足,尤其在遇到分布外成本轨迹时问题更为突出。为解决这一问题,我们提出边界到区域(Boundary-to-Region,B2R)框架,通过成本信号重对齐实现非对称条件建模。
2025_NIPS_SAFEPATH: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment
大型推理模型(LRMs)已成为复杂问题求解的强大工具,但当其暴露于有害提示时,其结构化推理路径可能导致不安全输出。现有安全对齐方法虽能减少有害输出,但会降低推理深度,在复杂多步任务中造成显著权衡,且仍易受精密的越狱攻击。为解决这一问题,我们提出SAFEPATH——一种轻量级对齐方法,通过微调LRMs,使其在响应有害提示时,在推理开头生成一个简短的8-token安全前缀(SafetyPrimer),而不对推理过程的其余部分进行监督。
2025_NIPS_Zero-shot World Models via Search in Memory
世界模型已广泛渗透到强化学习领域。其对环境过渡动力学的建模能力极大提升了在线强化学习的样本效率。其中,最具代表性的是Dreamer模型,它能在多种基于图像的环境中学习动作策略。本文利用相似性搜索和随机表征,提出一种无需训练流程即可近似世界模型的方法,并与Dreamer家族中成熟的世界模型PlaNet进行对比。我们从潜态重建质量、重建图像的感知相似度两个维度,分别在单步和长horizon动力学预测任务中对模型进行评估。研究结果表明,基于搜索的世界模型在这两类任务中均能与基于训练的世界模型相媲美。
2025_NIPS_How Does Sequence Modeling Architecture Influence Base Capabilities of Pre-trained
以Transformer为代表的预训练语言模型已被证实具备强大的基础能力,其标志性的自注意力机制已成为序列建模架构的经典之作。与现有旨在提升注意力机制效率的序列建模架构研究不同,本文聚焦于序列建模架构对基础能力的影响。具体而言,我们关注的核心问题是:序列建模架构究竟如何影响预训练语言模型的基础能力?本文首先指出,现有架构设计研究中普遍采用的混合域预训练设置,无法充分揭示不同架构间的基础能力差异。为解决这一问题,我们提出一种包含分布外测试的有限域预训练设置,成功在预训练早期阶段揭示了架构间显著的基础能力差异。
2025_NIPS_MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning
本文针对多模态大语言模型(MLLMs)在视觉数学推理中存在的视觉信息利用不足问题,提出了MINT-CoT方法。该方法通过引入“InterleaveToken”(交织令牌),在思维链(CoT)推理步骤中自适应插入细粒度视觉令牌,突破传统边界框式视觉区域选择的局限。为支撑模型训练,作者构建了含54K样本的MINT-CoT数据集,实现推理步骤与视觉令牌的精准对齐,并设计了“文本-onlyCoT微调→交织CoT微调→交织CoT强化学习”的三阶段训练策略。
2025_NIPS_Decompile-Bench: Million-Scale Binary-Source Function Pairs for Real-World Binary Decompil
该文章聚焦于开放域对话生成中的“事实一致性”问题(即模型生成内容与真实世界知识不符、存在虚构信息的问题),提出了一种名为FaithDial的解决方案。文章首先分析了现有开放域对话模型在事实准确性上的缺陷,随后构建了包含事实核查信号的对话数据集,并设计了融合事实约束的训练框架,最终通过实验验证了该方法在提升对话事实一致性、同时保持对话流畅度和相关性方面的有效性。开放域对话系统旨在生成自然、相关且符合事实的回应,但现有模型常产生与真实世界知识冲突的“幻觉”内容,这严重影响了系统的可靠性。
2025_NIPS_Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models
现有大型语言模型(LLMs)在遵循复杂指令时面临挑战,尤其是当存在多个约束且以并列、链式和分支结构组织时。一种直观的解决方案即思维链(CoT),本应普遍提升LLMs的能力。然而,我们发现原始CoT由于其仅复述指令的表层推理模式,会对性能产生负面影响。它未能拆解约束构成,以识别跨类型和维度层级的约束关系。为此,我们提出RAIF,一种通过激励推理实现测试时计算扩展,从而提升LLMs处理复杂指令能力的系统性方法。首先,我们基于现有分类法分解复杂指令,提出可复现的数据获取方法。
2025_NIPS_OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis
导航、操作和视觉模型的快速发展已使移动操作机器人能够胜任众多专门任务。然而,开放世界移动操作(OWMM)任务仍面临严峻挑战:一方面需要适应开放式指令和未知环境,另一方面需基于全局场景理解和机器人当前状态,系统性地融合高层决策与低层控制。为应对这一复杂性,我们提出一种新型多模态智能体架构,该架构维护多视角场景帧和智能体状态以支持决策,并通过函数调用控制机器人。第二个核心挑战是领域迁移引发的幻觉问题。为提升智能体性能,我们进一步引入面向OWMM任务的智能体数据合成管道,通过指令微调使VLM模型适应任务领域。
