Loading...
大语言模型(LLMs)已取得显著进展。尽管成果斐然,但作为LLM训练和推理的主流方法,下一个token预测(NTP)由于其固有的序列性流程,在上下文覆盖范围和推理效率方面均受到限制。为克服这些挑战,我们提出跳跃式多token预测(L-MTP)——一种创新性的token预测方法,通过引入跳跃机制扩展了多token预测(MTP)的能力。与传统MTP生成相邻位置的多个token不同,L-MTP策略性地跳过中间token,在单次前向传播中预测非连续token。
2025_NIPS_Meta-in-context learning in large language models
该研究提出“元上下文学习(meta-in-contextlearning)”这一概念,核心是验证大型语言模型(LLMs)的上下文学习能力可通过上下文学习本身递归提升,无需参数微调。研究背景:上下文学习(少样本提示)是LLMs核心优势之一,使其无需任务特定微调就能通过少量演示提升任务表现,但此前未探索该能力能否进一步自我优化。实验设计模型:主要采用GPT-3(TEXT-DAVINCI-002),额外测试了多个开源模型(如Falcon-40b、Llama-2、mpt-30b等)。
2025_NIPS_Cognitive Predictive Processing: A Human-inspired Framework for Adaptive Exploration in...
开放世界强化学习要求智能体在广阔的探索空间中发展智能行为。近期如LS-Imagine等方法通过跳跃式状态转换扩展了想象视野,推动了该领域的发展,但仍受限于固定探索机制和静态跳跃阈值——这些机制无法在变化的任务阶段中自适应调整,导致探索效率低下且完成率较低。人类通过任务分解、选择性记忆利用和自适应不确定性调节的链式过程,在开放世界决策中展现出卓越能力。相位自适应认知控制器:将任务动态分解为探索、接近和完成阶段,并配备自适应参数;双记忆整合系统:实现双模态记忆,平衡即时上下文与选择性长期存储;
2025_NIPS_Restricted Global-Aware Graph Filters Bridging GNNs and Transformer for Node Classifica...
Transformer一直被视为突破图神经网络(GNN)性能瓶颈的潜在方向,这主要得益于其全局感受野。然而,近期一项实证研究表明,经过调优的经典GNN在标准节点分类基准测试中,性能可与甚至超越最先进的图Transformer(GT)。受此启发,我们解构了多个代表性GT模型,以探究全局注意力组件对节点表示的影响。研究发现,全局注意力模块并未带来显著的性能提升,甚至可能加剧测试误差震荡。因此,我们认为Transformer难以学习到能有效补充原始图拓扑结构的连接模式。
2025_NIPS_Confidence Regulation Neurons in Language Models
尽管大型语言模型(LLMs)应用广泛,但它们表征和调节下一个令牌预测不确定性的机制仍未被充分探索。本研究调查了两个被认为会影响这种不确定性的关键组件:最近发现的熵神经元和一组我们称之为令牌频率神经元的新组件。熵神经元的特征是异常高的权重范数,并影响最终层归一化(LayerNorm)的缩放比例,从而有效降低logit值。我们的研究表明,熵神经元通过写入非嵌入零空间发挥作用,使其能够在对logit本身产生最小直接影响的情况下,影响残差流范数。我们在一系列模型中观察到熵神经元的存在,参数规模最高达70亿。
2025_NIPS_Bayesian Ego-graph Inference for Networked Multi-Agent Reinforcement Learning
在网络化多智能体强化学习(Networked-MARL)中,去中心化智能体必须在局部可观测性和固定物理图上的通信约束下自主行动。现有方法通常假设静态邻域,限制了对动态或异构环境的适应性。虽然集中式框架能够学习动态图,但其对全局状态访问和集中式基础设施的依赖在真实世界的去中心化系统中并不实用。本文提出了一种适用于网络化多智能体强化学习的随机图基策略,其中每个智能体的决策依赖于其局部物理邻域上的采样子图。
2025_NIPS_Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling
该研究围绕Transformer在长序列、稀疏且复杂记忆的序列建模中的表达能力与机制展开系统分析,通过建立明确的逼近速率,揭示了Transformer各组件(自注意力、位置编码、前馈网络)及关键超参数的作用,为架构优化提供了理论支撑与实验验证。我们对Transformer在长序列、稀疏且复杂记忆的序列建模中的逼近特性进行了系统研究。我们探究了Transformer不同组件(如点积自注意力、位置编码和前馈网络)影响其表达能力的机制,并通过建立明确的逼近速率,分析了这些组件的组合效应。
2025_NIPS_Eyes Wide Open: Ego Proactive Video-LLM for Streaming Video
设想一种能在类人场景中运行的人工智能,它超越单纯的观察,能够主动理解、预测并对正在发生的事件做出前瞻性响应。为实现这一愿景,我们聚焦于一项创新性任务:给定自我中心流式视频输入,助手需在恰当的时机主动回答各类动态变化的问题,同时保持感知与推理的同步性。该任务具备三大核心属性:(1)主动连贯性、(2)即时响应性、(3)同步高效性。为评估和实现这些属性,我们首先提出ESTP-Bench(自我中心流式主动基准)及ESTP-F1指标——一套用于严格评估的新型框架。
2025_NIPS_VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning
VIDEORFT:通过强化微调激发多模态大语言模型的视频推理能力强化微调(RFT)在实现大语言模型(LLMs)的类人推理能力方面展现出巨大潜力,且近期已扩展至多模态大语言模型(MLLMs)。然而,视频推理作为人类智能的核心组成部分,由于视频数据固有的复杂逻辑、时间和因果结构,仍是一项持续存在的挑战。为填补这一空白,我们提出VIDEORFT——一种新颖的方法,将RFT范式扩展至MLLMs,以培养其类人视频推理能力。
2025_NIPS_Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Mu...
本文旨在解决表格图像到LaTeX代码生成的任务,目标是从视觉输入中自动重建高质量、可直接用于学术出版的表格。该任务的核心挑战在于准确处理复杂表格——即那些尺寸大、结构深度嵌套、单元格内容语义丰富或不规则的表格,而现有方法在这类表格上往往表现不佳。我们首先进行了全面分析,明确了关键挑战并指出了现有评估协议的局限性。为克服这些问题,我们提出了一种强化多模态大语言模型(MLLM)框架:在大规模表格-LaTeX数据集上对预训练MLLM进行微调。
2025_NIPS_Knowledge-Augmented Reasoning Distillation for Small Language Models in Knowledge-Inten...
大型语言模型(LLMs)在需要复合知识理解的知识密集型推理任务中展现出良好性能。然而,由于其高昂的计算需求和数据隐私方面的顾虑,LLMs在实际应用中的部署面临挑战。以往研究通过标注数据微调或蒸馏LLMs,致力于构建特定任务的小型语言模型(LMs),但这些方法因小模型记忆所需知识的能力有限,难以适配知识密集型推理任务。基于对记忆机制的理论分析,我们提出了知识增强推理蒸馏(KARD)这一新颖方法:通过外部知识库检索增强知识,微调小模型以生成源自LLMs的推理过程。
2025_NIPS_Mechanism Design for LLM Fine-tuning with Multiple Reward Models
大语言模型(LLM)微调以聚合多种偏好已引起广泛研究关注。随着聚合算法的发展,一种潜在的经济场景应运而生:向具有不同偏好的主体提供微调服务。在这种情况下,主体可能从策略性误报其偏好中获益,但这会损害聚合性能。本文通过将该问题构建为机制设计问题来解决此类激励问题:LLM提供者为主体确定微调目标(训练规则)和定价方案(支付规则)。我们主要关注在特定正则化约束下最大化社会福利的训练规则,称为SW-Max规则。首先,我们证明在大多数情况下,仅使用SW-Max规则时如实报告并非最优,因此凸显了支付规则的必要性。
2025_NIPS_Looking Beyond the Known: Towards a Data Discovery Guided Open-World Object Detection
该文章聚焦于少样本知识图谱补全(Few-ShotKnowledgeGraphCompletion,FS-KGC)任务,核心目标是在知识图谱(KG)中仅给定少量(通常1-5个)目标关系的实例(支持集)时,准确预测该关系的未连接实体对(查询集)。文章首先分析了现有FS-KGC方法的局限性:过度依赖实体级语义匹配,忽略了关系的结构特异性(不同关系在KG中呈现的局部拓扑结构差异)和推理链信息;同时,支持集与查询集的实体分布差异易导致泛化能力不足。为解决上述问题,文章提出了一种名为首先,为每个关系学习。
2025_NIPS_Zero-Shot Detection of LLM-Generated Text via Implicit Reward Model
该研究针对LLM生成文本检测问题,提出零样本检测方法IRM(ImplicitRewardModel)。IRM利用公开可得的指令微调模型和基础模型构建隐式奖励模型,通过计算文本在两个模型上的概率比值对数作为奖励分数,实现对LLM生成文本的检测(分数越高越可能是LLM生成)。在DetectRL基准测试中,IRM(基于Llama-3.2-1B家族)平均准确率达91.77%,优于现有零样本方法和有监督方法(如ReMoDetect),且在跨领域、跨模型、抗攻击等场景下表现出强鲁棒性。
2025_NIPS_AVCD: Mitigating Hallucinations in Audio-Visual Large Language Models through Contrasti...
幻觉仍是多模态大语言模型(MLLMs)面临的主要挑战。为解决这一问题,已有多种对比解码(CD)方法被提出,这些方法将原始对数概率(logits)与受扰动输入生成的幻觉对数概率进行对比。尽管CD在视觉-语言模型(VLMs)中展现出潜力,但它并不适用于音视频大语言模型(AV-LLMs)——此类模型的幻觉往往源于音频、视频和语言之间的单模态及跨模态组合。这些复杂的交互需要更具适应性和模态感知能力的解码策略。
2025_NIPS_Provably Efficient Online RLHF with One-Pass Reward Modeling
基于人类反馈的强化学习(RLHF)在使大型语言模型(LLMs)与人类偏好对齐方面取得了显著成功。传统RLHF方法依赖固定数据集,通常存在覆盖范围有限的问题。为此,在线RLHF已成为一个颇具前景的研究方向,能够实现迭代式数据收集与模型优化。尽管潜力巨大,该范式仍面临一个关键瓶颈:每次迭代都需将新数据整合到数据集中并从头重新优化模型,导致计算和存储成本随迭代次数线性增长。在本文中,我们通过提出一种单遍奖励建模方法解决这一挑战,该方法无需存储历史数据,且每次迭代仅需常数时间更新。
2025_NIPS_See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model
我们提出SEE&TREK,这是首个专为提升纯视觉约束下多模态大语言模型(MLLMs)空间理解能力设计的无训练提示框架。尽管已有研究通过整合深度图或点云等模态来改善空间推理,但纯视觉空间理解仍未得到充分探索。SEE&TREK通过聚焦两大核心原则来填补这一空白:增加视觉多样性和运动重建。在视觉多样性方面,我们采用最大语义丰富度采样,利用现成的感知模型提取能够捕捉场景结构的语义丰富关键帧。在运动重建方面,我们模拟视觉轨迹,并将相对空间位置编码到关键帧中,以同时保留空间关系和时间连贯性。
2025_NIPS_Multi-Agent Reinforcement Learning with Communication-Constrained Priors
该研究聚焦多智能体强化学习(MARL)在实际场景中面临的通信受限问题(如带宽有限、通信损耗、延迟等),现有方法在可扩展性和鲁棒性上存在不足,难以适配复杂动态环境。问题建模:将带通信约束的多智能体协作任务建模为带通信的分散式部分可观测马尔可夫决策过程(Dec-POMDP),定义二元通信链路参数表征消息可靠性,构建通用通信约束先验模型,统一刻画水下、洞穴、无线网络等不同场景的通信条件。双互信息估计器(Du-MIE)
2025_NIPS_Rethinking Memory and Communication Costs for Efficient Data Parallel Training of Large...
近年来,针对大语言模型(LLMs)的分布式训练已提出多种策略。通过将这些策略分为基础策略和复合策略,我们发现现有基础策略在特定场景下选择有限,使得训练速度仍存在较大优化空间。本文重新审视了基于数据并行技术的LLM训练中,内存开销与通信开销对训练速度的影响,并考虑了组内与组间通信性能差异的影响,提出了一套新的基础策略集——部分冗余优化器(PaRO)。PaRO数据并行(PaRO-DP)通过精细化的模型状态分区和定制化训练流程加速LLM训练;
2025_NIPS_OpenHOI: Open-World Hand-Object Interaction Synthesis with Multimodal Large Language Model
理解并合成真实的3D手-物交互(HOI)对于从沉浸式增强现实/虚拟现实(AR/VR)到灵巧机器人等应用至关重要。现有方法在泛化性方面存在局限——在闭集物体和预定义任务上表现良好,但无法处理未见物体或开放词汇指令。本文提出OpenHOI,首个面向开放世界的HOI合成框架,能够在自由形式语言指令的引导下,为新颖物体生成长时程操作序列。
