Loading...

2025_NIPS_Exposing Attention Glitches with Flip-Flop Language Modeling
问题聚焦:大型语言模型(LLMs)在长链推理中存在事实不准确(闭环幻觉),核心原因之一是Transformer架构的「注意力故障」(attentionglitches)——自注意力机制的归纳偏置无法稳定捕捉长程依赖推理。核心方法:提出「触发器语言建模(FFLM)」,这是一个极简的合成基准,要求模型在长序列中忽略中间tokens,复制二进制符号(模拟单比特内存的读写忽略操作),专门用于探测模型的外推推理能力。

2025_NIPS_Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcemen...
我们研究分布鲁棒离线强化学习(RL),其目标是纯从离线数据集出发找到最优鲁棒策略,该策略能在受扰动的环境中表现良好。我们提出了一个通用算法框架——双重悲观模型基策略优化(P²MPO),用于鲁棒离线RL,其核心特点是将灵活的模型估计子程序与双重悲观策略优化步骤相结合。此处的双重悲观原理对于克服两类分布偏移至关重要:一是行为策略与目标策略族的不匹配;二是名义模型的扰动。

2025_NIPS_VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks
本文提出了一种基于大型语言模型(LLM)的视觉中心任务框架VisionLLM,核心目标是打破传统视觉基础模型(VFM)受预定义任务格式限制的瓶颈,实现视觉与语言任务的统一建模,支持开放式、可定制化的视觉相关任务处理。首次实现LLM驱动的开放式视觉任务框架:将视觉中心任务定义与LLM方法论对齐,首次通过语言指令实现视觉任务的开放式、可定制化处理,打破预定义任务限制;统一语言指令设计:针对视觉仅任务(如分割、姿态估计)和视觉-语言任务设计一致的语言指令格式,解决模态差异导致的任务描述不兼容问题;

2025_NIPS_Multiplication-Free Transformer Training via Piecewise Affine Operations
该研究聚焦于神经网络训练中计算成本占比极高的乘法运算,提出通过分段仿射(PiecewiseAffine)操作替代乘法,实现无乘法的Transformer训练。核心动机:乘法运算(尤其是浮点数乘法)是神经网络训练(如Transformer架构)计算成本和能耗的主要来源,其硬件实现复杂度远高于加法,需更多逻辑门和能量。核心方法。

2025_NIPS_Cross-Episodic Curriculum for Transformer Agents
我们提出一种新算法——跨回合课程(Cross-EpisodicCurriculum,CEC),用于提升Transformer智能体的学习效率与泛化能力。CEC的核心是将跨回合经验融入Transformer的上下文,以此构建课程基础。通过对在线学习回合和混合质量演示数据进行序列结构化,CEC构建的课程能够涵盖跨回合的学习进程与熟练度提升。这种协同作用与Transformer模型强大的模式识别能力相结合,形成了高效的跨回合注意力机制。

2025_NIPS_Kiki or Bouba? Sound Symbolism in Vision-and-Language Models
尽管人类语言中语音与意义的映射被认为在很大程度上是任意的,但认知科学研究表明,不同语言和人群中特定语音与意义之间存在非平凡的相关性,这一现象被称为声音象征。在众多意义维度中,声音象征在语言与视觉领域的跨模态关联方面尤为显著且得到充分证实。本研究旨在探讨声音象征是否体现在CLIP和StableDiffusion等视觉-语言模型中。通过零样本知识探测来研究这些模型的内在知识,我们发现强有力的证据表明它们确实存在这种模式,与心理语言学中著名的kiki-bouba效应相似。

2025_NIPS_Textually Pretrained Speech Language Models
语音语言模型(SpeechLMs)仅处理和生成声学数据,无需文本监督。在本文中,我们提出TWIST方法,该方法利用预训练文本语言模型的热启动来训练SpeechLMs。通过自动评估和人类评估,我们证明TWIST在各方面均优于冷启动的SpeechLMs。我们实证分析了不同模型设计选择(如语音分词器、预训练文本模型和数据集规模)的影响,发现模型规模和数据集规模在构建性能更优的SpeechLMs中均发挥着重要作用。基于我们的观察,我们提出了(据我们所知)在参数数量和训练数据方面均最大的SpeechLM。

2025_NIPS_Transformers learn through gradual rank increase
我们发现了Transformer中的增量学习动态:训练权重与初始权重的差值秩会逐步提升。在对角权重矩阵和小初始化的简化假设下,我们对此进行了严格证明。实验结果支持该理论,且表明即便不满足这些简化假设,该现象在实际场景中依然存在。

2025_NIPS_One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based Offline Reinforc...
该研究聚焦安全关键领域的离线强化学习(RL),针对离线RL的两大核心问题——分布偏移(避免策略访问数据集外的状态-动作对)和风险规避(应对环境随机性与数据缺失带来的不确定性),提出了模型基算法1R2R。1R2R通过模型集成估计认知不确定性(数据缺失导致),结合风险度量调整合成数据的转移分布,让策略同时规避认知不确定性(解决分布偏移)和偶然不确定性(环境随机性),在确定性和随机环境基准测试中均展现出优异性能。离线强化学习(RL)适用于无法进行在线探索的安全关键领域。

2025_NIPS_Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text
上下文感知的视觉语言模型(如Flamingo[2])支持将任意交错的图像和文本序列作为输入。这种格式不仅能通过交错独立的有监督(图像、文本)示例实现少样本学习,还能支持涉及图像间交互的更复杂提示,例如“图像A和图像B有什么共同点?为支持这一接口,预训练需在包含类似交错图像+文本的网络语料库上进行。然而,迄今为止,此类大规模数据尚未公开可用。我们发布了MultimodalC4(mmc4),这是对流行的纯文本c4语料库的扩展,其中交错嵌入了图像。

2025_NIPS_HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models
深度学习的进步使自动语音识别(ASR)系统在多个公开的干净语音数据集上达到了人类水平的性能。然而,即使是最先进的ASR系统在面对复杂环境时也会出现性能下降——训练良好的声学模型对语音领域的变化(如背景噪音)非常敏感。直观来看,人类通过依赖自身语言知识解决这一问题:模糊语音术语的含义通常可通过上下文线索推断,从而减少对听觉系统的依赖。受此启发,我们提出首个开源基准测试框架,利用外部大型语言模型(LLMs)进行ASR纠错,其中N-best解码假设为真实转录预测提供了丰富信息。

2025_NIPS_Real-Time Motion Prediction via Heterogeneous Polyline Transformer with Relative Pose E...
自动驾驶系统的实际部署要求其组件能够在车载环境中实时运行,包括预测周围交通参与者未来轨迹的运动预测模块。现有以智能体为中心的方法在公开基准测试中表现出优异性能,但随着待预测智能体数量的增加,它们面临计算开销大且可扩展性差的问题。为解决这一问题,我们提出了带相对姿态编码的K近邻注意力机制(KNARPE),这是一种新型注意力机制,允许Transformer使用成对相对表示。

2025_NIPS_Hierarchical Vector Quantized Transformer for Multi-class Unsupervised Anomaly Detection
无监督图像异常检测(UAD)旨在学习正常样本的鲁棒且具有判别力的表示。尽管为每个类别单独设计解决方案会带来高昂的计算成本且泛化能力有限,但本文仍聚焦于构建适用于多类别的统一框架。在这一具有挑战性的场景下,主流的基于重建且假设潜表示为连续的网络往往会遭遇“相同捷径”问题——正常样本和异常样本均能被良好重建,导致难以区分。为解决这一核心问题,我们在概率框架下提出一种分层向量量化的原型导向Transformer。

2025_NIPS_ReDS: Offline RL With Heteroskedastic Datasets via Support Constraints
离线强化学习(RL)完全从静态数据集学习策略。离线强化学习的实际应用不可避免地需要从这样的数据集学习:在状态空间中,所展示行为的变异性呈现非均匀变化。例如,在红灯时,几乎所有人类驾驶员都会采取类似的停车行为;但在高速并线时,部分驾驶员会快速、高效且安全地并线,而许多驾驶员则会犹豫或危险地并线。我们通过理论和实证研究均表明,典型的离线强化学习方法基于分布约束,由于要求在整个状态空间中以相同程度贴近行为策略,因此无法从具有这种非均匀变异性的数据中有效学习。

2025_NIPS_Belief Projection-Based Reinforcement Learning for Environments with Delayed Feedback
我们提出一种适用于延迟反馈环境的新型演员-评论员算法,旨在解决传统方法面临的状态空间爆炸问题。传统方法通过构建“最后观测状态+自上次观测以来执行的动作”组成的增广状态,可在延迟环境中构建正确的马尔可夫决策过程(MDP);然而,随着延迟时间步的增加,增广状态空间会急剧膨胀,导致收敛缓慢。我们提出的信念投影Q学习(BPQL)算法,通过评估输入规模与原始状态空间一致(而非增广状态空间)的评论员价值函数,有效解决了状态空间爆炸问题。

2025_NIPS_AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis
记录视听场景的机器能否在新的位置和视角方向上生成逼真且匹配的视听体验?我们通过研究一项新任务——真实世界视听场景合成——以及首个基于NeRF的多模态学习方法来回答这一问题。具体而言,给定一个视听场景的视频记录,该任务旨在沿该场景中任意新的相机轨迹合成带有空间音频的新视频。我们提出一种声学感知音频生成模块,将音频传播的先验知识融入NeRF中,在该模块中,我们将音频生成与视觉环境的3D几何和材质属性进行隐式关联。

2025_NIPS_Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models
近年来,扩展大型语言模型(LLMs)的多模态能力(例如视觉-语言(VL)学习)引发了广泛关注,这被视为通用人工智能的下一个里程碑。然而,现有解决方案成本极高,不仅需要优化海量参数,还需在视觉-语言指令微调前进行另一轮大规模预训练。本文提出了一种新颖且经济高效的LLMs视觉-语言适配方案,称为混合模态适配(MMA)。与使用大型神经网络连接图像编码器和LLM不同,MMA采用轻量级模块(即适配器)来弥合LLMs与视觉-语言任务之间的鸿沟,同时支持图像模型与语言模型的联合优化。

2025_NIPS_COOM: A Game Benchmark for Continual Reinforcement Learning
文章针对持续强化学习(CRL)缺乏标准化基准、计算成本高、视觉类3D环境稀缺等问题,提出了基于ViZDoom引擎的CRL基准COOM(ContinualDOOM)。该基准包含8个视觉和目标各异的3D场景,构建了6类不同长度和模态的任务序列(跨域CD系列、跨目标CO系列、挑战型COC系列),以评估智能体的灾难性遗忘、知识迁移和样本高效学习能力。

2025_NIPS_Inference-Time Intervention: Eliciting Truthful Answers from a Language Model
我们提出推理时干预(ITI)技术,旨在提升大型语言模型(LLMs)的“真实性”。该技术通过在推理过程中调整模型激活值,沿有限注意力头的特定方向进行偏移。这种干预显著提升了LLaMA模型在TruthfulQA基准测试中的表现。在经过指令微调的LLaMA模型(名为Alpaca)上,ITI将其真实性从32.5%提升至65.1%。我们发现真实性与帮助性之间存在权衡,并展示了如何通过调整干预强度实现二者平衡。ITI具有侵入性小、计算成本低的特点。

2025_NIPS_Language Models Don‘t Always Say What They Think: Unfaithful Explanations in Chain-of-T...
大语言模型(LLMs)通过在给出最终输出前生成分步推理(通常称为思维链推理,CoT),能够在许多任务上实现优异性能。人们倾向于将这些CoT解释视为模型解决任务的过程——这种对LLMs预测的透明度提升将带来显著的安全收益。然而,我们发现CoT解释可能会系统性地歪曲模型预测的真实原因。研究表明,CoT解释会受到输入中偏差特征的严重影响(例如,通过重新排序少量样本提示中的多项选择题选项,使答案始终为“(A)”),但模型在解释中却完全不会提及这些偏差因素。

欢迎留下您的脚印