Loading...

2025_NIPS_Learning in Compact Spaces with Approximately Normalized Transformer
深度神经网络的成功训练需要解决过拟合、导致发散的数值不稳定性以及残差流中方差增大等挑战。一种常见解决方案是应用正则化和归一化技术,但这些方法通常需要调优额外的超参数。另一种方案是强制所有参数和表示位于超球面上,这无需正则化并能提高收敛速度,但会带来额外成本。本文中,我们受高维随机向量范数的强集中性启发,通过简单标量乘法提出了一种更全面的近似归一化方法。此外,我们不对参数进行严格归一化,而是约束其范数。这些修改同样消除了权重衰减和学习率预热的需求,且不增加归一化层的总数。

2025_NIPS_Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models
大语言模型(LLMs)在各行业的广泛应用,催生了对高质量、可定制输出的需求。然而,传统对齐方法通常需要重训练大型预训练模型,难以快速适配和优化LLMs以满足多样化应用场景。为解决这一局限,我们提出一种新颖的残差对齐模型(RAM),将对齐过程形式化为一类重要性采样。在该框架中,未对齐的上游模型作为提议分布,而对齐过程则是基于自回归对齐模块的二次采样——该模块充当重要性权重的估计器。这种设计实现了对齐模块与目标对齐模型的自然解耦,提升了灵活性和可扩展性。

2025_NIPS_Bridging Human and LLM Judgments: Understanding and Narrowing the Gap
大语言模型正越来越多地被用作评估者(LLM-as-a-Judge),以大规模评估模型输出,但它们的评估结果往往与人类判断存在系统性差异。本文提出了Bridge,这是一个统一的统计框架,能够在绝对评分和成对比较两种范式下明确连接人类和LLM的评估结果。Bridge假设每个提示-响应对存在潜在的人类偏好分数,并将LLM的偏差建模为捕捉差异来源的协变量的线性变换。这为优化LLM评分和表征人类与LLM之间的系统性差异提供了简单且原则性的框架。我们提供了一种高效的拟合算法,并为统计推断提供了渐近保证。

2025_NIPS_RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents
随着多模态大语言模型(MLLM)的快速发展,它们正日益被部署为能够完成复杂计算机任务的自主计算机使用代理。然而,一个紧迫的问题随之出现:为对话场景中的通用MLLM设计和对齐的安全风险原则,能否有效迁移到真实世界的计算机使用场景中?现有关于评估基于MLLM的计算机使用代理安全风险的研究存在若干局限:要么缺乏真实的交互环境,要么仅狭隘地聚焦于一种或少数几种特定风险类型。这些局限忽略了真实世界环境的复杂性、可变性和多样性,从而限制了对计算机使用代理的全面风险评估。

2025_NIPS_World Models Should Prioritize the Unification of Physical and Social Dynamics
该文章聚焦AI世界模型(WorldModels)的发展瓶颈与突破方向,核心观点是:当前世界模型在物理动力学(如重力、物体运动)和社会动力学(如人类情感、人际互动)的建模上处于孤立状态,无法捕捉现实世界中二者深度交织的复杂关系,因此物理与社会预测能力的双向统一是世界模型的下一个关键前沿。世界模型通过明确学习环境动力学,为规划、推理和决策奠定基础,其在预测物理动力学和社会行为方面正迅速发展,但这些进展主要局限于相互独立的领域。

2025_NIPS_Meta CLIP 2: A Worldwide Scaling Recipe
首个无依赖全球训练方案:无需机器翻译、私有数据或蒸馏现有英文模型,直接基于原生多语言图文对从零训练,具备完全透明度和可复现性。语言专属数据筛选机制:通过元数据语言隔离、动态阈值计算,解决不同语言数据规模差异导致的概念分布失衡问题,保证长尾概念覆盖。打破多语言性能权衡:通过模型容量升级(ViT-H/14)和训练样本比例优化,证明多语言数据与英文数据可双向赋能,而非相互妥协。泛化性设计。

2025_NIPS_Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Mul
本文聚焦大语言模型(LLMs)在真实世界规划任务(以旅行规划为核心场景)中的应用挑战,提出“宽视域思维”(wide-horizonthinking)替代传统“长视域思维”(long-horizonthinking),通过多维度规划框架(MAoP)解决多约束整合问题,并设计基于智能体仿真的评估基准(Travel-Sim),实现对规划方案的因果一致性与个性化评估。与通常需要深度演绎步骤序列的推理不同,复杂的真实世界规划具有需综合大量并行且潜在冲突信息与约束的特点。

2025_NIPS_Towards Large-Scale In-Context Reinforcement Learning by Meta-Training in Randomized World
本文聚焦上下文强化学习(ICRL)的规模化挑战,核心是解决现有ICRL任务集规模小、结构性偏差大、训练效率低的问题。通过提出AnyMDP规模化任务生成环境和OmniRL框架,实现了ICRL在多样化未见过任务上的泛化能力。研究证实,任务多样性(至少10K个独特任务)和长上下文建模是ICRL泛化的关键,且泛化能力需以更长的适应周期为代价,为ICRL的规模化研究提供了新范式。上下文强化学习(ICRL)使智能体能够从交互经验中自动实时学习。然而,ICRL规模化的主要挑战在于缺乏可扩展的任务集合。

2025_NIPS_IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Render
本文针对视觉语言模型(VLMs)在场景理解中多停留在表面描述(如字幕生成、视觉问答)、缺乏深度理解的问题,提出了IR3D-Bench基准测试,以“通过创造验证理解”为核心思想,构建了基于“分析-合成”范式的智能体逆渲染(agenticinverserendering)任务。核心任务设计:要求视觉语言智能体(VLAs)通过编写可执行的Python脚本(适配Blender渲染工具),从单张2D图像反向重建其背后的3D场景结构,脚本执行后需生成与原图高度匹配的渲染结果,以此测试模型的深度场景理解能力。

2025_NIPS_Code Graph Model (CGM): A Graph-Integrated Large Language Model for Repository-Level Softw
近年来,大型语言模型(LLMs)在函数级代码生成任务中展现出良好前景,但仓库级软件工程任务仍面临挑战。当前解决方案主要依赖专有LLM代理,这带来了不可预测性并限制了可访问性,同时引发了数据隐私和模型定制化方面的担忧。本文探讨了开源LLMs是否能在不依赖代理机制的情况下有效处理仓库级任务。我们通过让LLMs能够通过语义信息和结构依赖理解代码库中的函数与文件,证明了这一目标的可行性。

2025_NIPS_From Indicators to Insights: Diversity-Optimized for Medical Series-Text Decoding via LLMs
该研究聚焦医疗时间序列分析的核心挑战,提出了一种名为的知识感知进化学习框架,旨在通过大语言模型(LLMs)实现医疗时间序列与文本的精准联合解码。医疗时间序列分析与通用时间序列分析存在本质区别,其需要专业领域知识来解读复杂信号和临床背景。大型语言模型(LLMs)有望通过融合生物医学文献和临床指南中的丰富上下文知识,为医疗时间序列分析提供助力。然而,实现这一潜力依赖于精准且有意义的提示词,以引导LLM聚焦关键信息。但确定有效的提示词内容并非易事——尤其是在医疗场景中,信号解读往往依赖于专家定义的细微决策指标。

2025_NIPS_Vision Transformers Don’t Need Trained Registers
本文聚焦视觉Transformer(ViT)中高范数令牌导致注意力图噪声的问题,提出无需重新训练的测试时寄存器(test-timeregisters)方案。核心发现是稀疏的“寄存器神经元”会在低信息区域(如均匀背景)产生高范数离群令牌,干扰下游任务。通过在测试时添加额外令牌并转移寄存器神经元的高范数激活,该方法能模仿训练时寄存器的效果,在分类、分割、目标发现等任务中表现媲美甚至优于重新训练的模型,还可扩展到视觉语言模型提升可解释性。

2025_NIPS_Computational Algebra with Attention: Transformer Oracles for Border Basis Algorithms
求解多项式方程组(尤其是有限解的方程组)是众多科学领域的关键挑战。格罗比纳基和边界基等传统方法虽基础但计算成本高昂,这促使近年来深度学习方法致力于提升效率,却以牺牲输出正确性为代价。本文提出预言机边界基算法(ORACLEBORDERBASISALGORITHM),这是首个在加速边界基计算的同时保持输出保证的深度学习方法。为此,我们设计并训练了一个基于Transformer的预言机,用于识别并消除计算成本高昂的归约步骤——我们发现这些步骤主导了算法的运行时间。

2025_NIPS_Pseudo-Riemannian Graph Transformer
该研究聚焦复杂拓扑图的嵌入问题,针对现有伪黎曼流形方法存在的框架低效、架构浅层、流形选择无指导等缺陷,提出了一套完整的解决方案。核心是构建微分同胚框架,将伪黎曼流形分解为球面空间与双曲空间的笛卡尔积,既解决测地线不连通问题,又保留图的循环和层次结构;基于此框架设计伪黎曼图Transformer(Q-GT),实现线性注意力、残差连接等核心操作的泛化;同时开发轻量级空间搜索算法,通过高斯截面曲率分布与KL散度自动匹配最优伪黎曼流形。

2025_NIPS_Power Lines: Scaling Laws for Weight Decay and Batch Size in LLM Pre-training
高效的大型语言模型(LLM)预训练需要精心调优的超参数(HP),包括学习率η和权重衰减λ。本文研究超参数的缩放规律:即当模型规模N、数据集规模D和批量大小B变化时,超参数的调整公式。近期研究[1]表明,AdamW时间尺度τ=B/(ηλD)应在不同训练配置中保持恒定,我们验证了在固定N和D时,最优λ随B线性缩放的推论。然而,当N和D缩放时,我们发现最优τ遵循令牌-参数比(D/N)的精确幂律。该规律为大规模训练前准确预测最优λ(λ_opt)提供了方法。

2025_NIPS_Feature-Based Instance Neighbor Discovery: Advanced Stable Test-Time Adaptation in Dynamic
尽管深度学习取得了显著进展,但深度神经网络在训练域和测试域之间存在分布偏移时,仍会出现性能下降,导致应用的体验质量(QoE)大幅降低。现有测试时自适应(TTA)方法在批量内存在动态、多测试分布的场景下面临挑战。我们观察到,不同域的特征分布本质上会聚类为具有不同均值和方差的distinct组。这种差异揭示了现有TTA中全局归一化策略的关键局限性——它们不可避免地会扭曲原始数据特征。

2025_NIPS_AC-LORA: (Almost) Training-Free Access Control-Aware Multi-Modal LLMs
企业大语言模型(LLM)在组织内部的高效知识传播与管理方面正获得广泛关注。然而,由于当前LLM易泄露敏感信息,在需要严格访问控制的场景中难以应用。为此,我们设计了AC-LORA——一款端到端的访问控制感知企业LLM聊天机器人系统,具备强大的信息隔离保障。AC-LORA为授权数据集维护独立的LoRA适配器及其微调所基于的文档嵌入。系统根据用户查询的相似度分数与权限检索精准的LoRA适配器集合,若检索到多个LoRA,则利用该相似度分数融合响应,无需为LoRA路由进行额外训练。

2025_NIPS_VaporTok: RL-Driven Adaptive Video Tokenizer with Prior & Task Awareness
近年来,视觉tokenizer在多模态大型语言模型和自回归生成模型中展现出显著有效性。然而,大多数现有视觉tokenizer在给定视觉分辨率下依赖固定下采样率,因此生成固定数量的视觉token,忽略了不同复杂度的视觉信息需要不同token预算这一事实。概率性尾截断(ProbabilisticTaildrop):提出一种新颖的尾截断机制,该机制学习基于视频视觉复杂度的截断索引采样分布。在训练和推理阶段,解码器均以自适应token长度重建视频,为复杂视频分配更多token,为简单视频分配更少token。

2025_NIPS_Quantifying Cross-Modality Memorization in Vision-Language Models
理解神经网络在训练过程中记忆什么、如何记忆至关重要——这既关系到潜在敏感信息的无意记忆问题,也影响模型为现实世界中知识密集型任务有效获取知识的能力。尽管以往研究主要探讨单模态内的记忆现象(如大型语言模型中的文本记忆或扩散模型中的图像记忆),但统一的多模态模型在实际应用中日益普及。本文聚焦跨模态记忆的独特特性,以视觉-语言模型为核心开展系统性研究。为实现受控实验,我们首先构建了一个合成角色画像数据集,包含多样化的合成人物图像和文本描述。

2025_NIPS_Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainab
Transformer模型有效可解释性工具的开发是深度学习研究中的关键课题。该领域最具前景的方法之一是层级相关性传播(LRP),其通过基于预定义规则重新分配激活值,将相关性分数反向传播至输入空间。然而,现有基于LRP的Transformer可解释性方法完全忽略了Transformer架构的核心组件——位置编码(PE),这导致守恒性被破坏,并丢失了一种与结构和位置特征相关的重要且独特的相关性信息。为解决这一局限,我们将Transformer可解释性的输入空间重构为位置-令牌对集合。

欢迎留下您的脚印