Loading...
尽管大语言模型(LLMs)在多语言翻译中取得了显著成功,但即使在基础的单词层面,其内部核心翻译机制仍未被充分理解。为填补这一关键空白,本研究从计算组件视角出发,提出了一个系统框架来解读LLM翻译背后的机制。本文首先提出子空间干预路径修补法(subspace-intervenedpathpatching),用于精准、细粒度的因果分析,从而识别对翻译任务至关重要的组件,并以人类可解释的方式描述其行为模式。
2025_NIPS_DualCnst: Enhancing Zero-Shot Out-of-Distribution Detection via Text-Image Consistency ...
预训练视觉-语言模型(VLMs)(如CLIP)通过利用输入图像与文本标签之间的语义相似性,在零样本分布外(OOD)检测任务中展现出良好性能。然而,大多数现有方法仅专注于扩展文本域的标签空间,忽略了可进一步增强判别能力的互补视觉线索。本文提出DualCnst,一种新颖的框架,其整合了文本-图像双一致性以改进零样本OOD检测。具体而言,我们利用文本到图像生成模型,从分布内(ID)和挖掘的OOD文本标签中生成合成图像,并基于以下两点联合评估每个测试图像:(i)其与类别标签的语义相似性;
2025_NIPS_Delving into Large Language Models for Effective Time-Series Anomaly Detection
近年来,将大语言模型(LLMs)应用于时间序列异常检测(TSAD)的尝试成效有限,其性能甚至常不及简单方法。现有研究仅关注下游性能评估,而“LLMs为何在TSAD中表现不佳”这一核心问题尚未得到深入探索。本文通过详细分析,指出LLMs面临两大核心挑战:理解复杂时间动态和精准定位异常区间。为应对这些挑战,我们提出一种简单有效的方法,将统计分解与索引感知提示相结合。该方法在AnomLLM基准上超越21种现有提示策略,F1分数最高提升66.6%。
2025_NIPS_Large Language Models Miss the Multi-Agent Mark
近年来,学界对大型语言模型多智能体系统(MASLLMs)的关注日益升温,催生了众多利用多个大型语言模型(LLM)解决复杂任务的框架。然而,此类文献中多数仅借用了多智能体系统(MAS)的术语,却未深入践行其基础原理。在这篇立场论文中,我们重点指出了MAS理论与当前MASLLMs实现方案之间的关键差异,聚焦四个核心领域:智能体的社会性、环境设计、协调与通信协议,以及涌现行为的度量。
2025_NIPS_Unified Reinforcement and Imitation Learning for Vision-Language Models
该研究提出统一强化与模仿学习(RIL)框架,旨在打造高性能轻量化视觉语言模型(VLMs)。RIL融合强化学习(GRPO)与对抗性模仿学习(GAIL)优势,让小参数量学生模型(1B-8B)模仿大参数量教师模型(72B-78B)的文本生成能力,同时通过双重奖励机制保障效果:判别器提供的风格相似性奖励与LLM-as-a-Judge提供的事实准确性奖励。
2025_NIPS_Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling
该研究聚焦于解决大语言模型(LLMs)在生成优化模型时存在的错误和幻觉问题,提出了Solver-InformedReinforcementLearning(SIRL)框架——一种基于可验证奖励的强化学习方法,旨在提升LLMs生成准确、可执行优化模型的能力。数据合成:通过实例增强自一致性方法,结合LLM生成、求解器验证和过滤,构建高质量训练数据。强化学习框架:设计PartialKL替代函数,对数学建模和代码生成部分施加KL惩罚以保证稳定性,对推理部分不施加惩罚以鼓励探索。
2025_NIPS_FastVID: Dynamic Density Pruning for Fast Video Large Language Models
双视角冗余分析:首次从时序上下文(帧顺序与连续性影响语义理解)和视觉上下文(关键细节与全局结构需兼顾)两方面系统分析视频冗余,明确剪枝需同时保留时序完整性和视觉完整性。动态时序分割策略:基于帧过渡相似度自适应调整分割粒度,实现“简单场景少分割、复杂场景细分割”,同时保证时序结构和片段内冗余性。密度基token选择与融合:相比均匀采样(内容无关)和聚类融合(丢失位置信息),密度峰值token作为锚点,既保证代表性又保留位置信息,适配VideoLLMs的旋转位置编码(RoPE)需求。
2025_NIPS_Enhancing Text-to-Image Diffusion Transformer via Split-Text Conditioning
当前文本到图像扩散生成通常采用完整文本条件输入。由于句法结构复杂,扩散Transformer(DiT)本质上存在完整文本描述的理解缺陷:一次性输入完整文本要么会忽略关键语义细节,要么会因同时建模多种语义基元类型而导致语义混淆。为缓解DiT的这一缺陷,本文提出一种名为DiT-ST的新型分裂文本条件框架。该框架将完整文本描述转换为分裂文本描述(一组简化句子集合),以显式表达各类语义基元及其相互关联,并以层次化、增量式的方式将分裂文本注入DiT-ST的不同去噪阶段。
2025_NIPS_Learning Robust Vision-Language Models from Natural Latent Spaces
预训练视觉-语言模型(VLMs)对难以察觉的对抗性扰动表现出显著的脆弱性。当前先进的防御策略通常采用对抗性提示调优来提升VLMs的对抗鲁棒性,但这类方法难以在不同基准测试和下游任务中同时维持对自然样本和对抗样本的泛化能力。本文提出一种基于预训练VLMs的协作对抗性提示调优(CoAPT)方法,以构建鲁棒的VLMs。受图像掩码建模的启发,我们采用改进的实时总变差算法来抑制和消除图像的高频细节,同时保留边缘结构,从而破坏对抗性扰动空间。
2025_NIPS_Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering
该研究聚焦于视频多模态大语言模型(VideoLLMs)的幻觉问题,首次系统性探索了激活工程(ActivationEngineering)在缓解该问题中的可行性与内在机制,并提出了一种时序感知的激活工程框架。研究背景:VideoLLMs虽在视频理解任务中取得显著进展,但由于额外的时间维度,幻觉问题(生成看似合理但不准确的输出)更为严重,现有解决方案要么依赖昂贵的模型微调,要么效果有限。激活工程在文本和图像模型的幻觉缓解中已获成功,但在视频领域的应用尚未被探索。核心发现模型内部模块的幻觉敏感性与任务的。
2025_NIPS_Learning Interactive World Model for Object-Centric Reinforcement Learning
能够理解目标及其交互关系的智能体,可学习出更稳健且可迁移的策略。然而,大多数目标中心强化学习方法仅按单个目标对状态进行因子化,却将交互关系隐式化处理。本文提出因子化交互式目标中心世界模型(FIOC-WM),这是一个在世界模型中同时学习目标及其交互关系结构化表示的统一框架。FIOC-WM通过解耦且模块化的目标交互表示捕捉环境动态,提升策略学习的样本效率和泛化能力。具体而言,该模型借助预训练视觉编码器,直接从像素中学习目标中心潜变量和交互结构;
2025_NIPS_Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Informatio...
本文从信息论视角探究大型推理模型(LRMs)的内部推理机制,核心发现是互信息峰值(MIPeaks)现象——LRMs推理过程中,特定步骤的中间表示与正确答案的互信息(MI)会突然显著提升。这些峰值对应表达反思、过渡的“思考令牌”(如“Hmm”“Wait”“Therefore”),且此类令牌对推理性能至关重要。基于该发现,作者提出两种无训练优化方法:表征循环(RR)和基于思考令牌的测试时扩展(TTTS),均有效提升了LRMs在数学推理等任务上的性能。
2025_NIPS_AI Progress Should Be Measured by Capability-Per-Resource, Not Scale Alone: A Framework...
该文章批判了当前AI研究中主导的“规模至上主义”(盲目追求模型尺寸和计算量增长),指出其导致的环境负担加重与资源分配不平等问题,核心主张将AI进展的衡量标准从“单纯能力”转向“单位资源能力”(capability-per-resource),并构建了一套基于梯度引导的资源分配理论框架与实践范式。本文对主导AI研究的“规模至上主义”提出质疑——这种无节制追求模型尺寸和计算量增长的模式,已导致不可持续的环境影响和日益扩大的资源不平等。
2025_NIPS_SYMPHONY: Synergistic Multi-agent Planning with Heterogeneous Language Model Assembly
近年来的研究进展日益聚焦于利用大型语言模型(LLMs)构建自主智能体,以应对复杂问题求解任务。然而,现有方法在蒙特卡洛树搜索(MCTS)规划过程中,主要采用单智能体框架生成搜索分支并估计奖励。这种单智能体范式本质上限制了探索能力,往往导致生成分支的多样性不足,进而影响规划性能的最优性。
2025_NIPS_LOMIA: Label-Only Membership Inference Attacks against Pre-trained Large Vision-Languag...
该研究聚焦于预训练大型视觉语言模型(VLLMs)的隐私安全问题,针对现有成员推理攻击(MIA)依赖模型logits(通常在实际部署中不可获取)的局限性,提出了一种全新的仅基于标签的成员推理攻击框架(LOMIA)。大型视觉语言模型(VLLMs)推动了多模态系统的显著进步,在医疗、教育和内容生成等领域实现了广泛应用。尽管成果显著,但用于训练这些模型的大规模数据集通常包含敏感信息或个人可识别信息,引发了严重的隐私担忧。为评估并深入理解此类风险,成员推理攻击(MIA)已成为核心工具。
2025_NIPS_Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration
长时程音视频推理与细粒度像素级理解对全模态模型提出了相互冲突的要求:密集的时序覆盖需要大量低分辨率帧,而精准的定位则依赖高分辨率输入。我们通过双系统架构解决这一权衡问题:全局推理系统以低空间成本筛选含信息量的关键帧并重构任务,细节理解系统则对筛选出的高分辨率片段执行像素级定位。由于“最优”关键帧筛选和任务重构具有模糊性且难以监督,我们将其构建为强化学习问题,并提出Omni-R1——一款基于组相对策略优化的端到端强化学习框架。
2025_NIPS_LLM Meets Diffusion: A Hybrid Framework for Crystal Material Generation
本文针对晶体材料生成中离散原子类型与连续结构特征难以同时精准建模的问题,提出了一种融合大型语言模型(LLM)与扩散模型的混合框架CrysLLMGen,用于高效生成新型、稳定的周期性晶体材料。研究背景:晶体材料的发现对电池、太阳能电池等领域创新至关重要,但传统方法(如DFT模拟、实验)成本高、效率低。现有生成模型分为两类:LLM擅长处理离散原子类型(高成分有效性),但难以精准生成原子坐标、晶格参数等连续特征(低结构有效性);
2025_NIPS_Anchored Diffusion Language Model
锚定扩散语言模型(ADLM)得克萨斯大学奥斯汀分校扩散语言模型(DLMs)具有并行生成和双向上下文的优势,但在似然建模和生成文本质量上均落后于自回归(AR)模型。我们发现,这一性能差距源于正向过程中重要token(如锚定句子核心的关键词或低频词)被早期掩码,导致模型缺乏准确重建所需的上下文信息。为解决该问题,我们提出锚定扩散语言模型(ADLM)——一种新颖的两阶段框架:首先通过锚定网络预测重要token的分布,再基于这些锚定预测重建缺失token的似然。
2025_NIPS_Set-LLM: A Permutation-Invariant LLM
虽然大型语言模型(LLMs)在众多应用中展现出令人印象深刻的能力,但其鲁棒性仍是一个关键问题。本文受一个特定漏洞的启发:LLMs的顺序敏感性。这种漏洞表现为LLMs在多个可能选项中做决策时观察到的顺序偏差(例如,对第一个选项的偏好),以及当选项重新排序时LLMs提供不同答案的倾向。这种场景的应用案例不仅包括经典的多项选择题解答,还涵盖LLMs在多文档任务中的使用以及作为AI流水线中的自动评估器。我们提出Set-LLM,这是一种针对预训练LLMs的新型架构适配方案,能够处理混合集合-文本输入并保证置换不变性。
2025_NIPS_A Closer Look at Graph Transformers: Cross-Aggregation and Beyond
图转换器(GTs)能够同时有效捕捉长程依赖和结构偏差,近年来已成为传统图神经网络(GNNs)的有力替代方案。GTs利用拓扑信息的先进方法包括集成GNN模块或使用位置编码调节节点属性。然而,驱动其有效性的底层机制仍未得到充分理解。本文重新审视这些策略,发现了一种共有的底层机制——跨聚合(Cross-Aggregation),该机制能有效捕捉图拓扑结构与节点属性之间的交互作用。基于这一洞察,我们提出通用图交叉注意力转换器(UGCFormer),这是一种具有线性计算复杂度的通用GT框架。
