Loading...
基于学习的目标检测算法需同时实现图像中目标的分类与定位,其性能很大程度上取决于训练所用标注数据集的质量。两类标注错误尤为常见:目标分类错误(分类噪声)和边界框位置不准确(定位噪声),且这两类错误在大规模数据集中通常同时存在。本文提出一种基于蒸馏的目标检测器训练方法,能够同时考虑分类噪声与定位噪声的影响。该方法的核心洞察是:早期学习现象(即使用含干净标签与噪声标签混合的噪声数据训练模型时,模型会先拟合干净标签,后期才记忆噪声标签)在定位噪声上的显现早于分类噪声。
2025_NIPS_Reasoning Models Hallucinate More: Factuality-Aware Reinforcement Learning for Large Reaso
大型语言模型(LLMs)通过强化学习(RL)优化,在推理任务上取得了显著进步,在各类挑战性基准测试中展现出令人瞩目的能力。然而,我们的实证分析揭示了一个关键缺陷:面向推理的RL微调会显著增加幻觉的发生率。我们从理论上分析了RL训练动态,发现高方差梯度、熵诱导随机性和对虚假局部最优的敏感性是导致幻觉的主要因素。为解决这一问题,我们提出事实感知的分步策略优化(FSPO)——一种创新的RL微调算法,在每个推理步骤中融入显式事实验证。
2025_NIPS_Doubly Robust Alignment for Large Language Models
本文研究了基于人类反馈的强化学习(RLHF),旨在使大语言模型与人类偏好对齐。尽管RLHF已展现出良好前景,但许多算法对潜在偏好模型(如布拉德利-特里模型)、参考策略或奖励函数的误设高度敏感,导致微调效果不佳。为解决模型误设问题,我们提出一种双稳健偏好优化算法,该算法在偏好模型或参考策略任一正确设定时(无需两者同时正确)仍能保持一致性。理论和实证结果表明,我们的方法相较于最先进算法,性能更优且稳健性更强。代码已开源至。
2025_NIPS_SE-GUI: Enhancing Visual Grounding for GUI Agents via Self-Evolutionary Reinforcement Lear
图形用户界面(GUI)智能体在理解和执行跨平台用户指令方面取得了显著进展。然而,将这些指令关联到精确的界面元素仍然具有挑战性——尤其是在复杂、高分辨率的专业环境中。传统的监督微调(SFT)方法通常需要大量多样化数据,且泛化能力较弱。为克服这些局限性,我们提出一种基于强化学习(RL)的框架,包含三大核心策略:(1)种子数据筛选,确保高质量训练样本;(2)密集策略梯度,基于预测准确性提供连续反馈;(3)自进化强化微调机制,利用注意力图迭代优化模型。
2025_NIPS_Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Lea...
该研究首次为鲁棒平均奖励马尔可夫决策过程(MDPs)的策略评估提供了有限样本分析,填补了此前仅存在渐近收敛保证的研究空白。核心成果是证明鲁棒贝尔曼算子在构造的半范数下具有压缩性,并提出基于截断多层蒙特卡洛(MLMC)的随机近似框架,实现了Oϵ−2Oϵ−2的最优样本复杂度,适用于污染、总变差(TV)和瓦瑟斯坦距离三类不确定性集合,为鲁棒强化学习在长期决策场景(如排队系统、网络控制)的实际应用提供了理论支撑。我们首次对鲁棒平均奖励马尔可夫决策过程(MDPs)中的策略评估进行了有限样本分析。
2025_NIPS_STAR: Efficient Preference-based Reinforcement Learning via Dual Regularization
基于偏好的强化学习(PbRL)通过从人类反馈中学习,绕过了复杂的奖励工程。然而,由于获取反馈的成本高昂,PbRL通常依赖有限的带偏好标签样本。这种数据稀缺性带来了两个关键效率问题:(1)奖励模型会过拟合于有限的反馈,导致对未见过样本的泛化能力不佳;(2)智能体会利用学到的奖励模型,加剧时序差分(TD)学习中动作价值的高估。为解决这些问题,我们提出STAR,一种高效的PbRL方法,它整合了偏好边际正则化和策略正则化。偏好边际正则化通过在奖励优化中引入有界边际来缓解过拟合,防止对特定反馈的过度偏向。
2025_NIPS_Efficient semantic uncertainty quantification in language models via diversity-steered sam
该研究聚焦于大型语言模型(LLMs)在自由形式问答(QA)任务中的语义不确定性量化问题,核心目标是解决传统方法需大量昂贵生成样本才能获得稳定估计的痛点。问题背景:LLMs生成文本流畅但存在固有的随机不确定性(aleatoricuncertainty)和认知不确定性(epistemicuncertainty),后者可能导致幻觉;而自由形式QA中,词汇不同的响应可能语义等价,传统采样方法易产生语义冗余样本,浪费计算资源。核心方法。
2025_NIPS_MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation
推理分割旨在基于人类意图和空间推理分割复杂场景中的目标物体。尽管近年来多模态大语言模型(MLLMs)在2D图像推理分割中展现出令人瞩目的性能,但将这些能力迁移至3D场景的研究仍有待深入。本文提出MLLM-For3D,一种简洁且高效的框架,用于将2DMLLMs的知识迁移至3D场景理解。具体而言,我们利用MLLMs生成多视图伪分割掩码及对应的文本嵌入,随后将2D掩码反投影至3D空间并与文本嵌入对齐。
2025_NIPS_CATransformers: Carbon Aware Transformers Through Joint Model-Hardware Optimization
机器学习解决方案正被快速采用以支持各类关键应用场景,从对话式AI助手到科学发现。这种日益广泛的应用预计将增加相关的全生命周期碳足迹,包括训练和推理过程中的运营碳,以及AI硬件制造产生的隐含碳。本文提出CATransformers——首个面向Transformer模型与硬件加速器的碳感知联合优化框架。通过在早期设计空间探索中整合运营碳与隐含碳,CATransformers支持以可持续性为导向的模型架构与硬件加速器协同设计,展现出与延迟或能耗为中心的优化方法截然不同的权衡关系。
2025_NIPS_Bits Leaked per Query: Information-Theoretic Bounds for Adversarial Attacks on LLMs
问题定位:LLM为提升透明度会暴露答案令牌、思维过程(如链式推理)、logits等可观测信号,但这些信号可能被攻击者利用,用于系统提示泄露、越狱攻击、重学习攻击(恢复模型本应遗忘的信息)等场景。目前缺乏量化信号泄露风险与攻击成本的理论依据,导致开发者难以平衡透明度与安全性。核心框架:将攻击过程建模为信息通道,定义观测信号Z与目标属性T(如攻击成功标志、隐藏系统提示)的互信息IZ;TI(Z;T)IZ;T为“每查询泄露比特数”,并证明攻击达到误差ε所需的最小查询数满足Nminε∝。
2025_NIPS_Distribution-Aligned Decoding for Efficient LLM Task Adaptation
即使采用参数高效微调(PEFT),将数十亿参数的语言模型适配到下游任务仍然成本高昂。我们将任务适配重新定义为输出分布对齐问题:其目标是在解码过程中直接引导输出分布向任务分布靠拢,而非通过权重更新间接实现。基于这一视角,我们提出了引导向量解码(SVDecode),一种轻量、兼容PEFT且有坚实理论支撑的方法。我们首先进行短期预热微调,然后从预热模型与预训练模型输出分布的KL散度梯度中提取任务感知引导向量。该引导向量随后用于指导解码过程,使模型输出分布向任务分布偏移。
2025_NIPS_Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing
大型语言模型(LLMs)在各类任务中展现出令人印象深刻的性能,但它们仍容易生成有毒内容,因此需要detoxification策略以确保安全负责任的部署。测试时detoxification方法通常在LLM表示中引入静态或动态干预,凭借其灵活性和低侵入性成为一种很有前景的解决方案。然而,现有方法往往存在干预不精准的问题,主要原因是它们对有毒和无毒输出之间的转换空间探索不足。
2025_NIPS_UniTraj: Learning a Universal Trajectory Foundation Model from Billion-Scale Worldwide ...
该研究针对现有轨迹建模方法存在的任务特异性、区域依赖性和数据敏感性问题,提出了通用轨迹基础模型UniTraj,并构建了全球轨迹数据集WorldTrace。通过创新的预训练策略和灵活的模型架构,UniTraj实现了跨任务、跨区域的泛化能力,在轨迹恢复、预测、分类和生成等任务中表现优于现有方法。构建通用轨迹基础模型是解决现有轨迹建模方法局限性的理想方案,这些局限性包括任务特异性、区域依赖性和数据敏感性。尽管潜力巨大,但数据准备、预训练策略开发和架构设计为构建该模型带来了重大挑战。
2025_NIPS_Predicting the Performance of Black-box Language Models with Follow-up Queries
可靠预测语言模型的行为(例如其输出是否正确或是否受到对抗性操纵)是一项极具挑战性的任务。由于前沿语言模型通常仅通过闭源API提供服务,仅支持黑箱访问,这一挑战变得更加严峻。本文中,我们通过发起跟进问题并将响应概率作为表征来训练可靠的预测器,从而实现对黑箱语言模型行为的预测。我们首先证明,基于这些响应训练的线性模型能够可靠且准确地预测模型在问答和推理基准测试中的正确性。令人意外的是,该方法甚至可以优于基于模型内部状态或激活的白箱线性预测器。
2025_NIPS_Reinforcement Learning for Reasoning in Large Language Models with One Training Example
我们证明,使用单个训练样本的可验证奖励强化学习(1-shotRLVR)能有效激发大语言模型(LLMs)的数学推理能力。将RLVR应用于基础模型Qwen2.5-Math-1.5B,我们发现一个单一样本可将模型在MATH500基准上的性能从36.0%提升至73.6%(较格式修正额外提升8.6%),并将6个常见数学推理基准的平均性能从17.6%提升至35.7%(非格式相关增益7.0%)。
2025_NIPS_PRESTO: Preimage-Informed Instruction Optimization for Prompting Black-Box LLMs
该研究聚焦于黑盒大语言模型(LLM)的指令优化问题——由于黑盒LLM(如GPT-4)的内部参数不可访问,直接优化其指令面临挑战。现有方法通过白盒LLM(如LLaMA3.1-8B-Instruct)优化软提示(softprompt)以生成候选指令,但存在“多对一映射”问题(不同软提示映射到相同指令),导致查询冗余、优化效率低下。研究重新解读这一“多对一映射”为有用的先验知识(即“原像结构”:生成相同指令的所有软提示构成该指令的原像),并提出PRESTO框架分数共享(ScoreSharing)
2025_NIPS_Your Pre-trained LLM is Secretly an Unsupervised Confidence Calibrator
本文聚焦后训练语言模型(PoLM)的过度自信问题,提出无监督置信度校准方法DACA(Disagreement-AwareConfidenceAlignment)。核心逻辑是利用预训练语言模型(PLM)良好的置信度校准特性,通过筛选PLM与PoLM预测一致的样本优化温度参数,避免预测分歧样本导致的校准偏差。实验表明,DACA在MMLU、MedMCQA等数据集上显著降低ECE(最高提升15.08%),适配开源与API类模型(如GPT-4o),且可扩展至开放式问答和选择性分类任务。
2025_NIPS_MIR-Bench: Can Your LLM Recognize Complicated Patterns via Many-Shot In-Context Reasoning?
从示例中识别模式并应用于新场景的能力是通用智能的核心能力,心理学和人工智能研究者已对其展开广泛研究。现有许多基准用于评估大语言模型(LLMs)的此类能力,但它们多聚焦于少示例(通常少于10个)场景,且缺乏对长上下文海量信息聚合能力的评估。另一方面,LLMs不断增长的上下文长度催生了新的多示例上下文学习(ICL)范式,无需昂贵且低效的微调,仅通过数百至数千个示例即可应对新任务。然而,多示例评估大多集中于分类任务,而“大海捞针”(NIAH)等主流长上下文LLM任务通常不需要整合海量信息的复杂智能。
2025_NIPS_Analyzing Similarity Metrics for Data Selection for Language Model Pretraining
衡量训练样本间的相似度对于构建高质量、多样化的语言模型预训练数据集至关重要。然而,相似度通常通过通用的现成嵌入模型计算,这类模型是为检索等任务训练的。这些基于嵌入的相似度度量是否适用于预训练数据筛选,在很大程度上仍未得到探索。本文提出一种新框架,专门评估相似度度量在语言模型预训练数据筛选场景中的适配性。该框架的首个评估准则旨在捕捉嵌入空间中的距离如何反映不同训练样本在预训练损失上的泛化性;
2025_NIPS_Provable Scaling Laws for the Test-Time Compute of Large Language Models
我们提出两种简单、有原则且实用的算法,它们对大型语言模型(LLMs)的测试时计算具有可证明的缩放定律。第一种是两阶段淘汰赛式算法:给定一个输入问题,先生成多个候选解,再通过淘汰赛聚合这些候选解以得到最终输出。假设LLM能以非零概率生成正确解,且在比较一对正确解和错误解时表现优于随机猜测,我们从理论上证明,随着测试时计算量的增加,该算法的失败概率会呈指数级衰减或幂律衰减(取决于具体的缩放方式)。第二种是两阶段联赛式算法,其中每个候选解的评估基于其与多个对手的平均胜率,而非输给单个对手后即被淘汰。
