Loading...
该研究围绕Transformer在长序列、稀疏且复杂记忆的序列建模中的表达能力与机制展开系统分析,通过建立明确的逼近速率,揭示了Transformer各组件(自注意力、位置编码、前馈网络)及关键超参数的作用,为架构优化提供了理论支撑与实验验证。我们对Transformer在长序列、稀疏且复杂记忆的序列建模中的逼近特性进行了系统研究。我们探究了Transformer不同组件(如点积自注意力、位置编码和前馈网络)影响其表达能力的机制,并通过建立明确的逼近速率,分析了这些组件的组合效应。
2025_NIPS_Eyes Wide Open: Ego Proactive Video-LLM for Streaming Video
设想一种能在类人场景中运行的人工智能,它超越单纯的观察,能够主动理解、预测并对正在发生的事件做出前瞻性响应。为实现这一愿景,我们聚焦于一项创新性任务:给定自我中心流式视频输入,助手需在恰当的时机主动回答各类动态变化的问题,同时保持感知与推理的同步性。该任务具备三大核心属性:(1)主动连贯性、(2)即时响应性、(3)同步高效性。为评估和实现这些属性,我们首先提出ESTP-Bench(自我中心流式主动基准)及ESTP-F1指标——一套用于严格评估的新型框架。
2025_NIPS_VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning
VIDEORFT:通过强化微调激发多模态大语言模型的视频推理能力强化微调(RFT)在实现大语言模型(LLMs)的类人推理能力方面展现出巨大潜力,且近期已扩展至多模态大语言模型(MLLMs)。然而,视频推理作为人类智能的核心组成部分,由于视频数据固有的复杂逻辑、时间和因果结构,仍是一项持续存在的挑战。为填补这一空白,我们提出VIDEORFT——一种新颖的方法,将RFT范式扩展至MLLMs,以培养其类人视频推理能力。
2025_NIPS_Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Mu...
本文旨在解决表格图像到LaTeX代码生成的任务,目标是从视觉输入中自动重建高质量、可直接用于学术出版的表格。该任务的核心挑战在于准确处理复杂表格——即那些尺寸大、结构深度嵌套、单元格内容语义丰富或不规则的表格,而现有方法在这类表格上往往表现不佳。我们首先进行了全面分析,明确了关键挑战并指出了现有评估协议的局限性。为克服这些问题,我们提出了一种强化多模态大语言模型(MLLM)框架:在大规模表格-LaTeX数据集上对预训练MLLM进行微调。
2025_NIPS_Knowledge-Augmented Reasoning Distillation for Small Language Models in Knowledge-Inten...
大型语言模型(LLMs)在需要复合知识理解的知识密集型推理任务中展现出良好性能。然而,由于其高昂的计算需求和数据隐私方面的顾虑,LLMs在实际应用中的部署面临挑战。以往研究通过标注数据微调或蒸馏LLMs,致力于构建特定任务的小型语言模型(LMs),但这些方法因小模型记忆所需知识的能力有限,难以适配知识密集型推理任务。基于对记忆机制的理论分析,我们提出了知识增强推理蒸馏(KARD)这一新颖方法:通过外部知识库检索增强知识,微调小模型以生成源自LLMs的推理过程。
2025_NIPS_Mechanism Design for LLM Fine-tuning with Multiple Reward Models
大语言模型(LLM)微调以聚合多种偏好已引起广泛研究关注。随着聚合算法的发展,一种潜在的经济场景应运而生:向具有不同偏好的主体提供微调服务。在这种情况下,主体可能从策略性误报其偏好中获益,但这会损害聚合性能。本文通过将该问题构建为机制设计问题来解决此类激励问题:LLM提供者为主体确定微调目标(训练规则)和定价方案(支付规则)。我们主要关注在特定正则化约束下最大化社会福利的训练规则,称为SW-Max规则。首先,我们证明在大多数情况下,仅使用SW-Max规则时如实报告并非最优,因此凸显了支付规则的必要性。
2025_NIPS_Looking Beyond the Known: Towards a Data Discovery Guided Open-World Object Detection
该文章聚焦于少样本知识图谱补全(Few-ShotKnowledgeGraphCompletion,FS-KGC)任务,核心目标是在知识图谱(KG)中仅给定少量(通常1-5个)目标关系的实例(支持集)时,准确预测该关系的未连接实体对(查询集)。文章首先分析了现有FS-KGC方法的局限性:过度依赖实体级语义匹配,忽略了关系的结构特异性(不同关系在KG中呈现的局部拓扑结构差异)和推理链信息;同时,支持集与查询集的实体分布差异易导致泛化能力不足。为解决上述问题,文章提出了一种名为首先,为每个关系学习。
2025_NIPS_Zero-Shot Detection of LLM-Generated Text via Implicit Reward Model
该研究针对LLM生成文本检测问题,提出零样本检测方法IRM(ImplicitRewardModel)。IRM利用公开可得的指令微调模型和基础模型构建隐式奖励模型,通过计算文本在两个模型上的概率比值对数作为奖励分数,实现对LLM生成文本的检测(分数越高越可能是LLM生成)。在DetectRL基准测试中,IRM(基于Llama-3.2-1B家族)平均准确率达91.77%,优于现有零样本方法和有监督方法(如ReMoDetect),且在跨领域、跨模型、抗攻击等场景下表现出强鲁棒性。
2025_NIPS_AVCD: Mitigating Hallucinations in Audio-Visual Large Language Models through Contrasti...
幻觉仍是多模态大语言模型(MLLMs)面临的主要挑战。为解决这一问题,已有多种对比解码(CD)方法被提出,这些方法将原始对数概率(logits)与受扰动输入生成的幻觉对数概率进行对比。尽管CD在视觉-语言模型(VLMs)中展现出潜力,但它并不适用于音视频大语言模型(AV-LLMs)——此类模型的幻觉往往源于音频、视频和语言之间的单模态及跨模态组合。这些复杂的交互需要更具适应性和模态感知能力的解码策略。
2025_NIPS_Provably Efficient Online RLHF with One-Pass Reward Modeling
基于人类反馈的强化学习(RLHF)在使大型语言模型(LLMs)与人类偏好对齐方面取得了显著成功。传统RLHF方法依赖固定数据集,通常存在覆盖范围有限的问题。为此,在线RLHF已成为一个颇具前景的研究方向,能够实现迭代式数据收集与模型优化。尽管潜力巨大,该范式仍面临一个关键瓶颈:每次迭代都需将新数据整合到数据集中并从头重新优化模型,导致计算和存储成本随迭代次数线性增长。在本文中,我们通过提出一种单遍奖励建模方法解决这一挑战,该方法无需存储历史数据,且每次迭代仅需常数时间更新。
2025_NIPS_See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model
我们提出SEE&TREK,这是首个专为提升纯视觉约束下多模态大语言模型(MLLMs)空间理解能力设计的无训练提示框架。尽管已有研究通过整合深度图或点云等模态来改善空间推理,但纯视觉空间理解仍未得到充分探索。SEE&TREK通过聚焦两大核心原则来填补这一空白:增加视觉多样性和运动重建。在视觉多样性方面,我们采用最大语义丰富度采样,利用现成的感知模型提取能够捕捉场景结构的语义丰富关键帧。在运动重建方面,我们模拟视觉轨迹,并将相对空间位置编码到关键帧中,以同时保留空间关系和时间连贯性。
2025_NIPS_Multi-Agent Reinforcement Learning with Communication-Constrained Priors
该研究聚焦多智能体强化学习(MARL)在实际场景中面临的通信受限问题(如带宽有限、通信损耗、延迟等),现有方法在可扩展性和鲁棒性上存在不足,难以适配复杂动态环境。问题建模:将带通信约束的多智能体协作任务建模为带通信的分散式部分可观测马尔可夫决策过程(Dec-POMDP),定义二元通信链路参数表征消息可靠性,构建通用通信约束先验模型,统一刻画水下、洞穴、无线网络等不同场景的通信条件。双互信息估计器(Du-MIE)
2025_NIPS_Rethinking Memory and Communication Costs for Efficient Data Parallel Training of Large...
近年来,针对大语言模型(LLMs)的分布式训练已提出多种策略。通过将这些策略分为基础策略和复合策略,我们发现现有基础策略在特定场景下选择有限,使得训练速度仍存在较大优化空间。本文重新审视了基于数据并行技术的LLM训练中,内存开销与通信开销对训练速度的影响,并考虑了组内与组间通信性能差异的影响,提出了一套新的基础策略集——部分冗余优化器(PaRO)。PaRO数据并行(PaRO-DP)通过精细化的模型状态分区和定制化训练流程加速LLM训练;
2025_NIPS_OpenHOI: Open-World Hand-Object Interaction Synthesis with Multimodal Large Language Model
理解并合成真实的3D手-物交互(HOI)对于从沉浸式增强现实/虚拟现实(AR/VR)到灵巧机器人等应用至关重要。现有方法在泛化性方面存在局限——在闭集物体和预定义任务上表现良好,但无法处理未见物体或开放词汇指令。本文提出OpenHOI,首个面向开放世界的HOI合成框架,能够在自由形式语言指令的引导下,为新颖物体生成长时程操作序列。
2025_NIPS_Creativity or Brute Force? Using Brainteasers as a Window into the Problem-Solving Abil...
准确率仍是评估人工智能系统的标准指标,但它对模型如何得出解决方案的洞察力有限。在本研究中,我们引入了一个基于长篇叙事形式脑筋急转弯的基准,以更深入地探究模型所采用的推理策略类型。脑筋急转弯非常适合这一目标,因为它们可通过多种方法求解,例如利用创造性洞察的简短步骤解法,或采用更多暴力枚举的冗长解法。我们从多个推理层面研究大型语言模型(LLMs),不仅关注答案的正确性,还重视解决方案的质量与创造性。我们探究了推理过程的多个方面:(1)将脑筋急转弯语义解析为精确的数学竞赛式格式;
2025_NIPS_Loquetier: A Virtualized Multi-LoRA Framework for Unified LLM Fine-tuning and Serving
低秩适配(LoRA)已成为广泛采用的参数高效微调(PEFT)技术,用于将大语言模型(LLMs)适配到下游任务。尽管已有研究探索了LLM训练与服务的融合策略,但在统一基于LoRA模型的微调与推理方面仍存在缺口。本文提出Loquetier,一款虚拟化多LoRA框架,在单一运行时中无缝集成LoRA微调与服务。Loquetier包含两大核心组件:(1)虚拟化模块,隔离PEFT相关修改并支持在共享基础模型上部署多个适配器;(2)优化计算流与内核设计,在向前传播中融合微调与推理路径,实现高效批处理并最小化内核调用开销。
2025_NIPS_Steering Information Utility in Key-Value Memory for Language Model Post-Training
语言模型(LM)的最新进展标志着后训练的重要性日益凸显。然而,监督微调(SFT)等后训练方法无法保证模型有效利用预训练阶段习得的知识。为此,我们提出一种轻量级方法InfoSteer,旨在后训练阶段促进语言模型对参数化信息的利用。具体而言,InfoSteer将前馈网络(FFN)层视为关联键值记忆系统,并通过前向传播干预或反向传播过程中的正则化,推动模型调用存储的记忆向量。
2025_NIPS_DP²O-SR: Direct Perceptual Preference Optimization for Real-World Image Super-Resolution
得益于预训练的文本到图像(T2I)扩散模型,真实世界图像超分辨率(Real-ISR)方法能够合成丰富且逼真的细节。然而,由于T2I模型固有的随机性,不同的噪声输入往往会导致输出的感知质量存在差异。尽管这种随机性有时被视为一种局限,但它也带来了更广泛的感知质量范围,这一特性可被利用来提升Real-ISR的性能。为此,我们提出了适用于Real-ISR的直接感知偏好优化框架(DP²O-SR),该框架无需昂贵的人工标注即可使生成模型与感知偏好对齐。
2025_NIPS_Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection
随着ChatGPT、DeepSeek和Claude等大型语言模型(LLMs)的快速发展,AI生成文本在数字通信中的占比显著提升。这一趋势凸显了对可靠检测方法的迫切需求,以区分人类撰写与机器生成的内容。现有方法(包括零样本方法和有监督分类器)大多将该任务概念化为二进制分类问题,导致在跨领域和跨模型场景下泛化能力不佳。本文认为,这种二进制表述本质上误解了检测任务的核心——它假设人类文本存在统一的分布,而实际上人类文本并不构成单一分布,其多样性无法通过有限采样有效捕捉。
2025_NIPS_PANGEA: Projection-Based Augmentation with Non-Relevant General Data for Enhanced Domai...
现代大型语言模型(LLMs)通过零样本或少样本提示在各类自然语言处理任务中取得了具有竞争力的性能。然而,特定领域任务通常仍需要微调,而这一过程常受数据稀缺的阻碍——即收集足够的领域特定数据仍是一项实际挑战。一种被广泛采用的解决方案是利用LLMs,通过扩充少量可用的领域特定示例来生成合成数据。在本研究中,我们首先指出此类方法在数据多样性和质量方面的根本性局限,尤其是在仅依赖少量领域特定示例的情况下。
