Loading...
内窥镜检查是诊断和治疗内脏疾病的关键手段,多模态大语言模型(MLLMs)正日益广泛地应用于辅助内窥镜分析。然而,现有基准存在局限性:它们通常仅覆盖特定内窥镜场景和少量临床任务,无法捕捉真实世界内窥镜场景的多样性以及临床工作流所需的全部技能。为解决这些问题,我们提出EndoBench——首个专为评估MLLMs在全谱系内窥镜实践中多维度能力而设计的综合基准。
2025_NIPS_FedRW: Efficient Privacy-Preserving Data Reweighting for Enhancing Federated Learning of L
大型语料库中的数据重复往往会阻碍大型语言模型(LLMs)的性能并引发隐私问题。在关注隐私的联邦学习场景中,传统去重方法通常依赖可信第三方执行统一删除操作,这不仅可能丢失含有效信息的样本,还会引入隐私漏洞。为解决这些问题,本文提出联邦重加权框架(FedRW)——据我们所知,这是首个在联邦LLM训练中通过样本重加权而非删除实现软去重的隐私保护框架,且无需假设可信第三方的存在。FedRW的核心是通过安全多方计算设计的一种安全、频率感知的重加权协议,并结合并行调度策略以确保效率和扩展性。
2025_NIPS_SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models
实现视频中的细粒度时空理解仍是当前视频大型多模态模型(VideoLMMs)面临的主要挑战。应对这一挑战需要掌握两项核心能力:视频指代理解(捕捉视频区域的语义信息)和视频视觉接地(基于自然语言描述分割目标区域)。然而,大多数现有方法孤立处理这些任务,限制了面向统一化、指代接地式视频交互的发展。本文指出,关键瓶颈在于缺乏高质量的统一视频指令数据,以及用于评估指代接地式视频对话的综合基准。为解决这些问题,我们从三个核心方面做出贡献:数据集、模型和基准测试。
2025_NIPS_Efficient Training-Free Online Routing for High-Volume Multi-LLM Serving
对大型语言模型(LLM)服务的需求日益增长,给服务提供商带来了巨大的部署和计算成本。LLM路由通过根据模型和查询特征将查询导向最优LLM,提供了一种经济高效的解决方案。然而,现有研究主要聚焦于离线场景,难以适配高查询量和令牌预算受限的在线环境。本文提出首个适用于在线路由场景的无训练算法:利用近似最近邻搜索高效估计查询特征,并通过对少量初始查询进行一次性优化,学习指导后续路由的策略。我们提供的理论保证表明,在合理假设下,该算法的竞争比达到1-o(1)。
2025_NIPS_Robust and Scalable Autonomous Reinforcement Learning in Irreversible Environments
该研究针对强化学习(RL)在现实场景中依赖大量人工重置、难以处理不可逆环境及多样化初始/目标状态的问题,提出了一种鲁棒且可扩展的自主强化学习算法(RSA)。核心思路是通过基于智能体学习进度的信息态筛选生成课程,并基于行为编码而非任务特定知识检测不可逆状态,实现少人工重置下的高效训练。强化学习(RL)通常假设可以通过重复重置为智能体提供多样化且无偏的经验。这些重置需要大量人工干预,且在现实场景中导致训练效率低下。自主强化学习(ARL)通过联合训练前向策略和重置策略来应对这一挑战。
2025_NIPS_C3PO: Optimized Large Language Model Cascades with Probabilistic Cost Constraints for Reas
本文提出C3PO(CostControlledCascadedPredictionOptimization),一种无标签、带概率成本约束的LLM级联推理框架,核心是通过自监督学习和保形预测,在控制推理成本不超预算的前提下,最小化与最强模型(MPM)的预测偏差,解决现有级联方法依赖标注数据、缺乏理论保障的问题,在16个推理基准测试中实现了精度与成本效率的SOTA表现。大型语言模型(LLMs)在复杂推理任务上取得了令人瞩目的成果,但高昂的推理成本仍是其实际部署的主要障碍。
2025_NIPS_Less is More: Local Intrinsic Dimensions of Contextual Language Models
该研究从上下文语言模型(LLMs)嵌入空间的几何特性出发,提出通过测量局部内在维度(LocalIntrinsicDimensions,LIDs)来分析模型训练和微调的动态过程,无需依赖标签数据即可实现对模型行为的无监督诊断。研究背景:现有LLM性能评估多依赖有监督验证或任务特定探针,缺乏对嵌入空间几何结构的深入理解,而局部内在维度能反映嵌入空间的低维流形特性,且具有数据和模型特异性。核心方法。
2025_NIPS_AlgoTune: Can Language Models Speed Up General-Purpose Numerical Programs?
该研究提出AlgoTune基准测试和AlgoTuner智能体,聚焦语言模型(LM)对通用数值程序的加速能力——突破现有基准仅关注“任务是否完成”的局限,以代码运行速度为核心评估指标。AlgoTune包含154个跨数学、计算机科学、物理等13个领域的任务,参考实现源自NumPy、SciPy等主流开源库;AlgoTuner通过迭代编辑、编译、测试和性能分析优化代码,搭配前沿LM可实现平均1.72倍的速度提升,但优化多为表层调整,未出现算法创新。
2025_NIPS_SILENCER: From Discovery to Mitigation of Self-Bias in LLM-as-Benchmark-Generator
LLM作为基准生成器的方法已被广泛研究,作为人类标注者的补充用于可扩展评估,但该范式中潜在的偏置尚未得到充分探索。本文系统地定义并验证了模型在自身生成的基准上表现出性能虚高的现象(称为自偏置),并将其归因于来自问题领域、语言风格和错误标签的子偏置。在此基础上,我们提出SILENCER——一个通用框架,利用多个生成器在样本级和基准级的异质性来中和偏置,生成高质量、自偏置被抑制的基准。
2025_NIPS_EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refu
大型语言模型(LLMs)经常拒绝响应伪恶意指令:这类输入查询语义无害,但由于保守的安全对齐策略而触发不必要的LLM拒绝,严重影响用户体验。收集此类指令对于评估和缓解过度拒绝问题至关重要,但现有的指令构建方法(如人工创建或指令重写)要么缺乏可扩展性,要么无法生成足够多样化且有效的拒绝触发提示词。为解决这些局限性,我们提出EVOREFUSE——一种提示词优化方法,能够生成多样化的伪恶意指令,在不同LLM中持续引发高置信度的拒绝响应。
2025_NIPS_LoRO: Real-Time on-Device Secure Inference for LLMs via TEE-Based Low Rank Obfuscation
尽管大语言模型(LLMs)已取得显著成功,但它们在不可信边缘设备上部署时始终面临被窃取的风险。对此,基于可信执行环境(TEE)的安全推理方案被提出以保护宝贵的模型资产。然而,我们发现现有保护方法存在统计漏洞,并通过提出的带先验知识的模型窃取攻击(ModelStealingAttackwithPrior)进一步削弱了其安全性保障。为消除该漏洞,本文提出LoRO框架,利用稠密掩码对模型参数进行完全混淆。
2025_NIPS_Preference Distillation via Value based Reinforcement Learning
直接偏好优化(DPO)是一种强大的范式,通过成对比较使语言模型与人类偏好对齐。然而,其二元胜负监督对于训练容量有限的小模型往往显得不足。现有研究尝试通过行为克隆或KL散度从大型教师模型中蒸馏信息,但这些方法通常侧重于模仿当前行为,而忽视了蒸馏奖励建模。为解决这一问题,我们提出了基于教师价值的知识蒸馏(TVKD),该方法从教师模型的价值函数中引入辅助奖励,提供软指导。此辅助奖励被设计为满足势能奖励塑形(potential-basedrewardshaping),确保DPO的全局奖励结构和最优策略得以保留。
2025_NIPS-Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimo
验证码(CAPTCHA)已成为Web智能体在实际应用中部署的关键瓶颈,常阻碍其完成端到端自动化任务。尽管现代多模态大语言模型(MLLM)智能体在静态感知任务中展现出令人印象深刻的性能,但它们处理验证码这类交互式、多步骤推理挑战的能力仍未得到充分验证。为填补这一空白,我们提出OpenCaptchaWorld——首个基于Web的基准测试平台,专门设计用于通过多样化、动态的验证码谜题,评估MLLM驱动智能体的视觉推理与交互能力。
2025_NIPS_vHector and HeisenVec: Scalable Vector Graphics Generation Through Large Language Models
该研究聚焦于自然语言驱动的可缩放矢量图形(SVG)生成数据集构建:提出HeisenVec数据集,包含220万条SVG样本,每条样本搭配4个来自多模态模型(BLIP2、Florence2、Idefics3)的文本描述。通过标准化pipeline统一几何基元为路径、应用仿射变换、压缩语法等,确保数据结构一致性,支持长上下文建模(样本最长达32ktokens)。
2025_NIPS_LIFEBENCH: Evaluating Length Instruction Following in Large Language Models
尽管大型语言模型(LLMs)能够解决长上下文输入下的博士级推理问题,但它们在一项看似更简单的任务上仍存在困难:遵循明确的长度指令——例如“写一部10,000词的小说”。此外,模型通常会生成过短的输出、过早终止生成,甚至拒绝执行请求。现有基准主要侧重于评估生成质量,却常常忽视生成结果是否满足长度约束。为此,我们提出长度指令遵循评估基准(LIFEBENCH),以全面评估LLMs在不同任务和广泛指定长度下遵循长度指令的能力。
2025_NIPS_DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models
数据归因方法量化训练数据对模型输出的影响,在LLM的各类研究与应用中愈发重要,包括数据集筛选、模型可解释性分析、数据估值等。然而,针对LLM的数据归因方法缺乏系统的评估体系,仍存在关键缺口。为此,我们提出DATE-LM(DataAttributionEvaluationinLanguageModels),这一统一基准通过真实世界的LLM应用场景评估数据归因方法。DATE-LM通过三大核心任务衡量归因质量——训练数据选择、毒性/偏见过滤及事实归因。
2025_NIPS_MURKA: Multi-Reward Reinforcement Learning with Knowledge Alignment for Optimization Tasks
模块化多智能体架构:将优化建模拆解为信息提取、模型生成、验证三个阶段,解决了传统方法效率低、可解释性差的问题,适配低延迟部署需求;复合奖励强化学习:突破单一奖励模型的局限,通过四维正交评价维度(格式、约束、语义、相似度)精准优化信息提取质量,缓解语义偏移问题;知识蒸馏跨域适配:通过教师-学生模型迁移,让轻量模型具备强跨域建模能力,解决了LLM在异质优化领域适应性弱的痛点;端到端可验证流程:Checker智能体通过迭代反馈机制验证解的正确性,形成“生成-求解-验证”闭环,提升建模可靠性。
2025_NIPS_Why Do Multi-Agent LLM Systems Fail?
本文聚焦多智能体大语言模型系统(MAS)性能提升有限的问题,核心探究其失败原因。通过构建包含1642条标注执行轨迹的MAST-Data数据集(覆盖7个主流MAS框架、4类模型和编码、数学等任务),提出首个基于实证的多智能体系统失败分类法(MAST),将失败划分为系统设计问题、智能体间失准、任务验证三大类共14种模式。同时开发LLM-as-a-Judge标注流水线,实现高效标注并与人工标注高度一致(κ=0.77)。
2025_NIPS_Theoretical Benefit and Limitation of Diffusion Language Model
掩码扩散语言模型(MDM)已成为文本生成的新方法。通过在每个扩散步骤中并行采样多个token,它们似乎是自回归模型的更高效替代方案。然而,我们的观察表明,当前开源的扩散语言模型需要更多采样步骤才能在代表性任务上达到相当的准确性,导致其推理成本甚至高于自回归模型。为探究这是否为固有局限性,我们对一种广泛采用的变体——掩码扩散模型(MDM)进行了严格的理论分析。
2025_NIPS_UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning
运动意图理解:解析基础飞行语义(如“45度角移动5米”);空间上下文接地:将语言中的空间参考与视觉观测关联(如“飞向标志物右侧”)。任务包含两类指令:原始运动指令(起飞、平移、旋转等)和物体交互指令(靠近、环绕、穿越等)。无人机正演变为语言交互平台,实现更直观的人机协同。现有研究主要聚焦高层规划和长距离导航,本文将重心转向语言引导的细粒度轨迹控制——无人机响应语言指令执行短距离、反应式飞行行为。
