Loading...
高效的大型语言模型(LLM)预训练需要精心调优的超参数(HP),包括学习率η和权重衰减λ。本文研究超参数的缩放规律:即当模型规模N、数据集规模D和批量大小B变化时,超参数的调整公式。近期研究[1]表明,AdamW时间尺度τ=B/(ηλD)应在不同训练配置中保持恒定,我们验证了在固定N和D时,最优λ随B线性缩放的推论。然而,当N和D缩放时,我们发现最优τ遵循令牌-参数比(D/N)的精确幂律。该规律为大规模训练前准确预测最优λ(λ_opt)提供了方法。
2025_NIPS_Feature-Based Instance Neighbor Discovery: Advanced Stable Test-Time Adaptation in Dynamic
尽管深度学习取得了显著进展,但深度神经网络在训练域和测试域之间存在分布偏移时,仍会出现性能下降,导致应用的体验质量(QoE)大幅降低。现有测试时自适应(TTA)方法在批量内存在动态、多测试分布的场景下面临挑战。我们观察到,不同域的特征分布本质上会聚类为具有不同均值和方差的distinct组。这种差异揭示了现有TTA中全局归一化策略的关键局限性——它们不可避免地会扭曲原始数据特征。
2025_NIPS_AC-LORA: (Almost) Training-Free Access Control-Aware Multi-Modal LLMs
企业大语言模型(LLM)在组织内部的高效知识传播与管理方面正获得广泛关注。然而,由于当前LLM易泄露敏感信息,在需要严格访问控制的场景中难以应用。为此,我们设计了AC-LORA——一款端到端的访问控制感知企业LLM聊天机器人系统,具备强大的信息隔离保障。AC-LORA为授权数据集维护独立的LoRA适配器及其微调所基于的文档嵌入。系统根据用户查询的相似度分数与权限检索精准的LoRA适配器集合,若检索到多个LoRA,则利用该相似度分数融合响应,无需为LoRA路由进行额外训练。
2025_NIPS_VaporTok: RL-Driven Adaptive Video Tokenizer with Prior & Task Awareness
近年来,视觉tokenizer在多模态大型语言模型和自回归生成模型中展现出显著有效性。然而,大多数现有视觉tokenizer在给定视觉分辨率下依赖固定下采样率,因此生成固定数量的视觉token,忽略了不同复杂度的视觉信息需要不同token预算这一事实。概率性尾截断(ProbabilisticTaildrop):提出一种新颖的尾截断机制,该机制学习基于视频视觉复杂度的截断索引采样分布。在训练和推理阶段,解码器均以自适应token长度重建视频,为复杂视频分配更多token,为简单视频分配更少token。
2025_NIPS_Quantifying Cross-Modality Memorization in Vision-Language Models
理解神经网络在训练过程中记忆什么、如何记忆至关重要——这既关系到潜在敏感信息的无意记忆问题,也影响模型为现实世界中知识密集型任务有效获取知识的能力。尽管以往研究主要探讨单模态内的记忆现象(如大型语言模型中的文本记忆或扩散模型中的图像记忆),但统一的多模态模型在实际应用中日益普及。本文聚焦跨模态记忆的独特特性,以视觉-语言模型为核心开展系统性研究。为实现受控实验,我们首先构建了一个合成角色画像数据集,包含多样化的合成人物图像和文本描述。
2025_NIPS_Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainab
Transformer模型有效可解释性工具的开发是深度学习研究中的关键课题。该领域最具前景的方法之一是层级相关性传播(LRP),其通过基于预定义规则重新分配激活值,将相关性分数反向传播至输入空间。然而,现有基于LRP的Transformer可解释性方法完全忽略了Transformer架构的核心组件——位置编码(PE),这导致守恒性被破坏,并丢失了一种与结构和位置特征相关的重要且独特的相关性信息。为解决这一局限,我们将Transformer可解释性的输入空间重构为位置-令牌对集合。
2025_NIPS_Towards Provable Emergence of In-Context Reinforcement Learning
通常,现代强化学习(RL)智能体通过更新神经网络参数来适配任务以解决问题。近年来研究发现,部分强化学习智能体在特定任务分布上预训练后,无需参数更新即可解决大量分布外新任务。在新任务评估时,预训练智能体并非更新参数,而是将策略依赖于名为“上下文”的额外输入(例如智能体在新任务中的交互历史)。随着上下文中信息的增加,智能体性能会逐步提升,而其参数保持固定。这种现象通常被称为上下文强化学习(ICRL)。智能体网络的预训练参数是ICRL现象实现的核心,但许多ICRL相关研究采用标准强化学习算法进行预训练。
2025_NIPS_What We Miss Matters: Learning from the Overlooked in Point Cloud Transformers
该研究针对点云Transformer模型过度关注显著区域、忽视潜在信息区域的问题,提出了一种名为的对比注意力学习框架,旨在通过挖掘模型的“注意力盲点”提升3D表示学习的鲁棒性和特征区分能力。核心问题:现有点云Transformer依赖自注意力机制捕捉长距离依赖,但点云数据本身稀疏且无冗余,过度聚焦显著区域会导致两个关键缺陷:(1)对噪声、旋转等扰动敏感;(2)特征区分能力不足,泛化性差。框架设计注意力盲点挖掘(ABM)
2025_NIPS_Parallel Scaling Law for Language Models
人们普遍认为,语言模型的缩放需要付出巨大的空间或时间成本,要么增加参数(参数缩放),要么增加输出tokens(推理时缩放)。本文提出另一种更具推理效率的缩放范式:在训练和推理阶段均增加模型的并行计算。我们对输入施加P种多样化且可学习的变换,并行执行模型的前向传播,并动态聚合这P个输出。这种名为并行缩放(PARSCALE)的方法,通过复用现有参数来扩展并行计算,可应用于任何模型结构、优化流程、数据或任务。我们从理论上提出了一种新的缩放定律,并通过大规模预训练进行验证。
2025_NIPS_Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models
该研究聚焦多模态大语言模型(MLLMs)在退化文档理解中的OCR幻觉问题,核心是解决模型在模糊、遮挡、低对比度等视觉退化场景下,因过度依赖语言先验或跨模态推理错位导致的虚假内容生成问题。问题提出:现有MLLMs在高质量文档处理中表现接近人类,但在真实场景的视觉退化条件下,存在OCR幻觉缺陷,根源在于预训练缺乏退化场景数据、指令微调忽视退化处理范式、评估缺乏专用基准三大挑战。核心贡献。
2025_NIPS_PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Model
该研究针对现有大语言模型(LLMs)推理能力评估基准的缺陷,提出了PHYBench——一个包含500道原创物理题的评估基准,涵盖高中到物理竞赛难度,涉及力学、电磁学等多个物理领域。同时引入EEDScore(表达式编辑距离分数)作为细粒度评估指标,解决传统二元评分的局限性。实验显示,即使最优模型Gemini2.5Pro的准确率仅36.9%,远低于人类专家的61.9%;PHYBench能更有效区分模型推理能力,且EEDScore将样本效率提升204%。
2025_NIPS_MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query
语义检索是现代应用中的关键任务,但在当前研究中仍未得到充分探索。现有数据集局限于单语言、单图像或单一检索条件,往往无法充分发挥视觉信息的表达能力——这一点可从“图像替换为文本描述后性能仍保持稳定”的现象中得到印证。然而,实际检索场景中频繁出现包含多图像的交错多条件查询。为此,本文提出MERIT,首个用于交错多条件语义检索的多语言数据集。该数据集包含32万条查询和13.5万件产品,覆盖5种语言和7个不同产品类别。在MERIT上的大量实验揭示了现有模型的关键局限:仅关注全局语义信息,而忽视查询中的具体条件元素。
2025_NIPS_Crucible: Quantifying the Potential of Control Algorithms through LLM Agents
本文针对现有控制算法研究忽视“调优潜力(TuningPotential)”的问题,提出了首个量化评估控制算法调优潜力的框架Crucible。核心目标是弥补算法设计与实际部署间的差距——现实中控制算法需领域专家根据具体场景调优,但现有研究多聚焦理想条件或默认参数下的性能。Crucible的核心设计包括两部分:1)基于大语言模型(LLM)的多层级专家模拟代理,通过注入领域知识、工具调用、反馈循环和差异化能力模拟,复刻不同水平开发者的调优过程;
2025_NIPS_Homogeneous Keys, Heterogeneous Values: Exploiting Local KV Cache Asymmetry for Long-Conte
近年来,大型语言模型(LLMs)的研究进展凸显了扩展上下文长度的关键重要性,但注意力机制的二次复杂度为高效长上下文建模带来了巨大挑战。KV缓存压缩已成为应对这一挑战的核心方法。通过大量实证分析,我们揭示了KV缓存中一个此前被忽视的根本性不对称性:相邻键获得相似的注意力权重(局部同质性),而相邻值则呈现显著的异质分布。这种键值不对称性暴露了现有压缩方法统一处理键和值的关键局限。为解决这一问题,我们提出一种无训练压缩框架(AsymKV),将基于同质性的键合并与数学证明的无损值压缩相结合。
2025_NIPS_SilentStriker: Toward Stealthy Bit-Flip Attacks on Large Language Models
大型语言模型(LLMs)在关键领域的快速应用,推动了对其安全问题的广泛研究。尽管输入操纵攻击(如提示注入)已得到充分探讨,但利用硬件漏洞篡改模型参数并导致严重性能降级的位翻转攻击(BFAs)却鲜受关注。现有BFA方法存在关键局限:无法平衡性能降级与输出自然度,使其易被发现。本文提出SilentStriker,这是首个针对LLMs的隐蔽性位翻转攻击,能在有效降低任务性能的同时保持输出自然度。我们的核心贡献在于解决了为输出长度可变、输出空间庞大的LLMs设计有效损失函数的挑战。
2025_NIPS_EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy A
内窥镜检查是诊断和治疗内脏疾病的关键手段,多模态大语言模型(MLLMs)正日益广泛地应用于辅助内窥镜分析。然而,现有基准存在局限性:它们通常仅覆盖特定内窥镜场景和少量临床任务,无法捕捉真实世界内窥镜场景的多样性以及临床工作流所需的全部技能。为解决这些问题,我们提出EndoBench——首个专为评估MLLMs在全谱系内窥镜实践中多维度能力而设计的综合基准。
2025_NIPS_FedRW: Efficient Privacy-Preserving Data Reweighting for Enhancing Federated Learning of L
大型语料库中的数据重复往往会阻碍大型语言模型(LLMs)的性能并引发隐私问题。在关注隐私的联邦学习场景中,传统去重方法通常依赖可信第三方执行统一删除操作,这不仅可能丢失含有效信息的样本,还会引入隐私漏洞。为解决这些问题,本文提出联邦重加权框架(FedRW)——据我们所知,这是首个在联邦LLM训练中通过样本重加权而非删除实现软去重的隐私保护框架,且无需假设可信第三方的存在。FedRW的核心是通过安全多方计算设计的一种安全、频率感知的重加权协议,并结合并行调度策略以确保效率和扩展性。
2025_NIPS_SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models
实现视频中的细粒度时空理解仍是当前视频大型多模态模型(VideoLMMs)面临的主要挑战。应对这一挑战需要掌握两项核心能力:视频指代理解(捕捉视频区域的语义信息)和视频视觉接地(基于自然语言描述分割目标区域)。然而,大多数现有方法孤立处理这些任务,限制了面向统一化、指代接地式视频交互的发展。本文指出,关键瓶颈在于缺乏高质量的统一视频指令数据,以及用于评估指代接地式视频对话的综合基准。为解决这些问题,我们从三个核心方面做出贡献:数据集、模型和基准测试。
2025_NIPS_Efficient Training-Free Online Routing for High-Volume Multi-LLM Serving
对大型语言模型(LLM)服务的需求日益增长,给服务提供商带来了巨大的部署和计算成本。LLM路由通过根据模型和查询特征将查询导向最优LLM,提供了一种经济高效的解决方案。然而,现有研究主要聚焦于离线场景,难以适配高查询量和令牌预算受限的在线环境。本文提出首个适用于在线路由场景的无训练算法:利用近似最近邻搜索高效估计查询特征,并通过对少量初始查询进行一次性优化,学习指导后续路由的策略。我们提供的理论保证表明,在合理假设下,该算法的竞争比达到1-o(1)。
2025_NIPS_Robust and Scalable Autonomous Reinforcement Learning in Irreversible Environments
该研究针对强化学习(RL)在现实场景中依赖大量人工重置、难以处理不可逆环境及多样化初始/目标状态的问题,提出了一种鲁棒且可扩展的自主强化学习算法(RSA)。核心思路是通过基于智能体学习进度的信息态筛选生成课程,并基于行为编码而非任务特定知识检测不可逆状态,实现少人工重置下的高效训练。强化学习(RL)通常假设可以通过重复重置为智能体提供多样化且无偏的经验。这些重置需要大量人工干预,且在现实场景中导致训练效率低下。自主强化学习(ARL)通过联合训练前向策略和重置策略来应对这一挑战。
