Loading...
该研究聚焦多模态大语言模型(MLLMs)在退化文档理解中的OCR幻觉问题,核心是解决模型在模糊、遮挡、低对比度等视觉退化场景下,因过度依赖语言先验或跨模态推理错位导致的虚假内容生成问题。问题提出:现有MLLMs在高质量文档处理中表现接近人类,但在真实场景的视觉退化条件下,存在OCR幻觉缺陷,根源在于预训练缺乏退化场景数据、指令微调忽视退化处理范式、评估缺乏专用基准三大挑战。核心贡献。
2025_NIPS_PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Model
该研究针对现有大语言模型(LLMs)推理能力评估基准的缺陷,提出了PHYBench——一个包含500道原创物理题的评估基准,涵盖高中到物理竞赛难度,涉及力学、电磁学等多个物理领域。同时引入EEDScore(表达式编辑距离分数)作为细粒度评估指标,解决传统二元评分的局限性。实验显示,即使最优模型Gemini2.5Pro的准确率仅36.9%,远低于人类专家的61.9%;PHYBench能更有效区分模型推理能力,且EEDScore将样本效率提升204%。
2025_NIPS_MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query
语义检索是现代应用中的关键任务,但在当前研究中仍未得到充分探索。现有数据集局限于单语言、单图像或单一检索条件,往往无法充分发挥视觉信息的表达能力——这一点可从“图像替换为文本描述后性能仍保持稳定”的现象中得到印证。然而,实际检索场景中频繁出现包含多图像的交错多条件查询。为此,本文提出MERIT,首个用于交错多条件语义检索的多语言数据集。该数据集包含32万条查询和13.5万件产品,覆盖5种语言和7个不同产品类别。在MERIT上的大量实验揭示了现有模型的关键局限:仅关注全局语义信息,而忽视查询中的具体条件元素。
2025_NIPS_Crucible: Quantifying the Potential of Control Algorithms through LLM Agents
本文针对现有控制算法研究忽视“调优潜力(TuningPotential)”的问题,提出了首个量化评估控制算法调优潜力的框架Crucible。核心目标是弥补算法设计与实际部署间的差距——现实中控制算法需领域专家根据具体场景调优,但现有研究多聚焦理想条件或默认参数下的性能。Crucible的核心设计包括两部分:1)基于大语言模型(LLM)的多层级专家模拟代理,通过注入领域知识、工具调用、反馈循环和差异化能力模拟,复刻不同水平开发者的调优过程;
2025_NIPS_Homogeneous Keys, Heterogeneous Values: Exploiting Local KV Cache Asymmetry for Long-Conte
近年来,大型语言模型(LLMs)的研究进展凸显了扩展上下文长度的关键重要性,但注意力机制的二次复杂度为高效长上下文建模带来了巨大挑战。KV缓存压缩已成为应对这一挑战的核心方法。通过大量实证分析,我们揭示了KV缓存中一个此前被忽视的根本性不对称性:相邻键获得相似的注意力权重(局部同质性),而相邻值则呈现显著的异质分布。这种键值不对称性暴露了现有压缩方法统一处理键和值的关键局限。为解决这一问题,我们提出一种无训练压缩框架(AsymKV),将基于同质性的键合并与数学证明的无损值压缩相结合。
2025_NIPS_SilentStriker: Toward Stealthy Bit-Flip Attacks on Large Language Models
大型语言模型(LLMs)在关键领域的快速应用,推动了对其安全问题的广泛研究。尽管输入操纵攻击(如提示注入)已得到充分探讨,但利用硬件漏洞篡改模型参数并导致严重性能降级的位翻转攻击(BFAs)却鲜受关注。现有BFA方法存在关键局限:无法平衡性能降级与输出自然度,使其易被发现。本文提出SilentStriker,这是首个针对LLMs的隐蔽性位翻转攻击,能在有效降低任务性能的同时保持输出自然度。我们的核心贡献在于解决了为输出长度可变、输出空间庞大的LLMs设计有效损失函数的挑战。
2025_NIPS_EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy A
内窥镜检查是诊断和治疗内脏疾病的关键手段,多模态大语言模型(MLLMs)正日益广泛地应用于辅助内窥镜分析。然而,现有基准存在局限性:它们通常仅覆盖特定内窥镜场景和少量临床任务,无法捕捉真实世界内窥镜场景的多样性以及临床工作流所需的全部技能。为解决这些问题,我们提出EndoBench——首个专为评估MLLMs在全谱系内窥镜实践中多维度能力而设计的综合基准。
2025_NIPS_FedRW: Efficient Privacy-Preserving Data Reweighting for Enhancing Federated Learning of L
大型语料库中的数据重复往往会阻碍大型语言模型(LLMs)的性能并引发隐私问题。在关注隐私的联邦学习场景中,传统去重方法通常依赖可信第三方执行统一删除操作,这不仅可能丢失含有效信息的样本,还会引入隐私漏洞。为解决这些问题,本文提出联邦重加权框架(FedRW)——据我们所知,这是首个在联邦LLM训练中通过样本重加权而非删除实现软去重的隐私保护框架,且无需假设可信第三方的存在。FedRW的核心是通过安全多方计算设计的一种安全、频率感知的重加权协议,并结合并行调度策略以确保效率和扩展性。
2025_NIPS_SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models
实现视频中的细粒度时空理解仍是当前视频大型多模态模型(VideoLMMs)面临的主要挑战。应对这一挑战需要掌握两项核心能力:视频指代理解(捕捉视频区域的语义信息)和视频视觉接地(基于自然语言描述分割目标区域)。然而,大多数现有方法孤立处理这些任务,限制了面向统一化、指代接地式视频交互的发展。本文指出,关键瓶颈在于缺乏高质量的统一视频指令数据,以及用于评估指代接地式视频对话的综合基准。为解决这些问题,我们从三个核心方面做出贡献:数据集、模型和基准测试。
2025_NIPS_Efficient Training-Free Online Routing for High-Volume Multi-LLM Serving
对大型语言模型(LLM)服务的需求日益增长,给服务提供商带来了巨大的部署和计算成本。LLM路由通过根据模型和查询特征将查询导向最优LLM,提供了一种经济高效的解决方案。然而,现有研究主要聚焦于离线场景,难以适配高查询量和令牌预算受限的在线环境。本文提出首个适用于在线路由场景的无训练算法:利用近似最近邻搜索高效估计查询特征,并通过对少量初始查询进行一次性优化,学习指导后续路由的策略。我们提供的理论保证表明,在合理假设下,该算法的竞争比达到1-o(1)。
2025_NIPS_Robust and Scalable Autonomous Reinforcement Learning in Irreversible Environments
该研究针对强化学习(RL)在现实场景中依赖大量人工重置、难以处理不可逆环境及多样化初始/目标状态的问题,提出了一种鲁棒且可扩展的自主强化学习算法(RSA)。核心思路是通过基于智能体学习进度的信息态筛选生成课程,并基于行为编码而非任务特定知识检测不可逆状态,实现少人工重置下的高效训练。强化学习(RL)通常假设可以通过重复重置为智能体提供多样化且无偏的经验。这些重置需要大量人工干预,且在现实场景中导致训练效率低下。自主强化学习(ARL)通过联合训练前向策略和重置策略来应对这一挑战。
2025_NIPS_C3PO: Optimized Large Language Model Cascades with Probabilistic Cost Constraints for Reas
本文提出C3PO(CostControlledCascadedPredictionOptimization),一种无标签、带概率成本约束的LLM级联推理框架,核心是通过自监督学习和保形预测,在控制推理成本不超预算的前提下,最小化与最强模型(MPM)的预测偏差,解决现有级联方法依赖标注数据、缺乏理论保障的问题,在16个推理基准测试中实现了精度与成本效率的SOTA表现。大型语言模型(LLMs)在复杂推理任务上取得了令人瞩目的成果,但高昂的推理成本仍是其实际部署的主要障碍。
2025_NIPS_Less is More: Local Intrinsic Dimensions of Contextual Language Models
该研究从上下文语言模型(LLMs)嵌入空间的几何特性出发,提出通过测量局部内在维度(LocalIntrinsicDimensions,LIDs)来分析模型训练和微调的动态过程,无需依赖标签数据即可实现对模型行为的无监督诊断。研究背景:现有LLM性能评估多依赖有监督验证或任务特定探针,缺乏对嵌入空间几何结构的深入理解,而局部内在维度能反映嵌入空间的低维流形特性,且具有数据和模型特异性。核心方法。
2025_NIPS_AlgoTune: Can Language Models Speed Up General-Purpose Numerical Programs?
该研究提出AlgoTune基准测试和AlgoTuner智能体,聚焦语言模型(LM)对通用数值程序的加速能力——突破现有基准仅关注“任务是否完成”的局限,以代码运行速度为核心评估指标。AlgoTune包含154个跨数学、计算机科学、物理等13个领域的任务,参考实现源自NumPy、SciPy等主流开源库;AlgoTuner通过迭代编辑、编译、测试和性能分析优化代码,搭配前沿LM可实现平均1.72倍的速度提升,但优化多为表层调整,未出现算法创新。
2025_NIPS_SILENCER: From Discovery to Mitigation of Self-Bias in LLM-as-Benchmark-Generator
LLM作为基准生成器的方法已被广泛研究,作为人类标注者的补充用于可扩展评估,但该范式中潜在的偏置尚未得到充分探索。本文系统地定义并验证了模型在自身生成的基准上表现出性能虚高的现象(称为自偏置),并将其归因于来自问题领域、语言风格和错误标签的子偏置。在此基础上,我们提出SILENCER——一个通用框架,利用多个生成器在样本级和基准级的异质性来中和偏置,生成高质量、自偏置被抑制的基准。
2025_NIPS_EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refu
大型语言模型(LLMs)经常拒绝响应伪恶意指令:这类输入查询语义无害,但由于保守的安全对齐策略而触发不必要的LLM拒绝,严重影响用户体验。收集此类指令对于评估和缓解过度拒绝问题至关重要,但现有的指令构建方法(如人工创建或指令重写)要么缺乏可扩展性,要么无法生成足够多样化且有效的拒绝触发提示词。为解决这些局限性,我们提出EVOREFUSE——一种提示词优化方法,能够生成多样化的伪恶意指令,在不同LLM中持续引发高置信度的拒绝响应。
2025_NIPS_LoRO: Real-Time on-Device Secure Inference for LLMs via TEE-Based Low Rank Obfuscation
尽管大语言模型(LLMs)已取得显著成功,但它们在不可信边缘设备上部署时始终面临被窃取的风险。对此,基于可信执行环境(TEE)的安全推理方案被提出以保护宝贵的模型资产。然而,我们发现现有保护方法存在统计漏洞,并通过提出的带先验知识的模型窃取攻击(ModelStealingAttackwithPrior)进一步削弱了其安全性保障。为消除该漏洞,本文提出LoRO框架,利用稠密掩码对模型参数进行完全混淆。
2025_NIPS_Preference Distillation via Value based Reinforcement Learning
直接偏好优化(DPO)是一种强大的范式,通过成对比较使语言模型与人类偏好对齐。然而,其二元胜负监督对于训练容量有限的小模型往往显得不足。现有研究尝试通过行为克隆或KL散度从大型教师模型中蒸馏信息,但这些方法通常侧重于模仿当前行为,而忽视了蒸馏奖励建模。为解决这一问题,我们提出了基于教师价值的知识蒸馏(TVKD),该方法从教师模型的价值函数中引入辅助奖励,提供软指导。此辅助奖励被设计为满足势能奖励塑形(potential-basedrewardshaping),确保DPO的全局奖励结构和最优策略得以保留。
2025_NIPS-Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimo
验证码(CAPTCHA)已成为Web智能体在实际应用中部署的关键瓶颈,常阻碍其完成端到端自动化任务。尽管现代多模态大语言模型(MLLM)智能体在静态感知任务中展现出令人印象深刻的性能,但它们处理验证码这类交互式、多步骤推理挑战的能力仍未得到充分验证。为填补这一空白,我们提出OpenCaptchaWorld——首个基于Web的基准测试平台,专门设计用于通过多样化、动态的验证码谜题,评估MLLM驱动智能体的视觉推理与交互能力。
2025_NIPS_vHector and HeisenVec: Scalable Vector Graphics Generation Through Large Language Models
该研究聚焦于自然语言驱动的可缩放矢量图形(SVG)生成数据集构建:提出HeisenVec数据集,包含220万条SVG样本,每条样本搭配4个来自多模态模型(BLIP2、Florence2、Idefics3)的文本描述。通过标准化pipeline统一几何基元为路径、应用仿射变换、压缩语法等,确保数据结构一致性,支持长上下文建模(样本最长达32ktokens)。
