Loading...

2025_NIPS_DAPO : Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Ad...
本文提出一种基于直接优势的策略优化(DAPO)算法,专为提升大语言模型(LLMs)的多步推理能力设计。该算法针对现有强化学习(RL)方法在推理任务中面临的奖励稀疏、训练方差高、价值估计不准确等问题,采用离线分步式强化学习框架,通过Critic网络提供细粒度的步骤级信号,优化推理过程中的每一步决策,最终在数学和代码任务的多个基准测试中实现性能提升。强化学习(RL)在提升大语言模型(LLMs)推理能力方面的作用日益显著。尽管RL在众多场景中取得成功,但在改善LLMs推理性能时仍面临诸多挑战。

2025_NIPS_Bubbleformer: Forecasting Boiling with Transformers
该研究聚焦沸腾这一混沌多相流物理过程(对能源、热管理系统至关重要),针对现有神经网络代理模型在沸腾动力学预测中存在的依赖未来输入、无法学习成核过程、难以建模流动沸腾速度场等问题,提出了基于Transformer的时空模型Bubbleformer,并构建了更全面的数据集BubbleML2.0。研究背景:沸腾是高效传热方式,广泛应用于核反应堆、数据中心冷却等场景,但物理过程混沌多尺度,传统高保真模拟计算成本极高;现有ML模型存在诸多局限,无法满足自主预测需求。核心模型Bubbleformer。

2025_NIPS_MolVision: Molecular Property Prediction with Vision Language Models
分子性质预测是计算化学中的一项基础任务,在药物发现和材料科学中具有关键应用。尽管近年来已有研究探索使用大型语言模型(LLMs)完成该任务,但这些方法主要依赖SMILES/SELFIES等文本形式的分子表示,这类表示存在歧义性且结构信息不足。本研究提出MolVision,这是一种创新方法,通过融合分子结构图像与文本描述,利用视觉-语言模型(VLMs)来提升性质预测性能。我们构建了一个涵盖10个多样化数据集的基准,包含分类、回归和描述任务。

2025_NIPS_Quantization-Free Autoregressive Action Transformer
当前基于Transformer的模仿学习方法会引入离散动作表示,并在生成的潜在编码上训练自回归Transformer解码器。然而,初始的量化过程破坏了动作空间的连续结构,从而限制了生成模型的性能。为此,我们提出一种无量化方法,该方法利用生成式无限词汇Transformer(GIVT)作为自回归Transformer的直接、连续策略参数化方式。这一方法简化了模仿学习流程,同时在各类主流模拟机器人任务中实现了最先进的性能。我们通过深入研究采样算法进一步优化了策略滚动结果,使性能得到额外提升。

2025_NIPS_MigGPT: Harnessing Large Language Models for Automated Migration of Out-of-Tree Linux K...
文章聚焦Linux内核树外补丁的跨版本迁移难题,提出了基于大语言模型(LLMs)的自动化迁移框架MIGGPT。核心目标是解决传统手动迁移耗时、现有工具适配场景有限的问题,同时克服LLMs在代码上下文理解不完整、迁移点定位不准确等挑战。MIGGPT通过创新的代码指纹(CFP)数据结构封装代码关键信息,搭配三个核心模块(检索增强模块、检索对齐模块、迁移增强模块),将迁移任务拆分为“目标代码检索”和“补丁迁移”两步。

2025_NIPS_Impact of Layer Norm on Memorization and Generalization in Transformers
层归一化(LayerNorm,LN)是Transformer中的核心组件之一,它能稳定训练过程并提升优化效果。近年来,由于梯度流动更稳定,Pre-LNTransformer已逐渐取代Post-LNTransformer成为首选架构。然而,LN在这两种架构中对学习过程和记忆化的具体影响仍不明确。本文研究了LN如何影响Pre-LN和Post-LNTransformer的记忆化与学习能力。

2025_NIPS_Exploring the Translation Mechanism of Large Language Models
尽管大语言模型(LLMs)在多语言翻译中取得了显著成功,但即使在基础的单词层面,其内部核心翻译机制仍未被充分理解。为填补这一关键空白,本研究从计算组件视角出发,提出了一个系统框架来解读LLM翻译背后的机制。本文首先提出子空间干预路径修补法(subspace-intervenedpathpatching),用于精准、细粒度的因果分析,从而识别对翻译任务至关重要的组件,并以人类可解释的方式描述其行为模式。

2025_NIPS_DualCnst: Enhancing Zero-Shot Out-of-Distribution Detection via Text-Image Consistency ...
预训练视觉-语言模型(VLMs)(如CLIP)通过利用输入图像与文本标签之间的语义相似性,在零样本分布外(OOD)检测任务中展现出良好性能。然而,大多数现有方法仅专注于扩展文本域的标签空间,忽略了可进一步增强判别能力的互补视觉线索。本文提出DualCnst,一种新颖的框架,其整合了文本-图像双一致性以改进零样本OOD检测。具体而言,我们利用文本到图像生成模型,从分布内(ID)和挖掘的OOD文本标签中生成合成图像,并基于以下两点联合评估每个测试图像:(i)其与类别标签的语义相似性;

2025_NIPS_Delving into Large Language Models for Effective Time-Series Anomaly Detection
近年来,将大语言模型(LLMs)应用于时间序列异常检测(TSAD)的尝试成效有限,其性能甚至常不及简单方法。现有研究仅关注下游性能评估,而“LLMs为何在TSAD中表现不佳”这一核心问题尚未得到深入探索。本文通过详细分析,指出LLMs面临两大核心挑战:理解复杂时间动态和精准定位异常区间。为应对这些挑战,我们提出一种简单有效的方法,将统计分解与索引感知提示相结合。该方法在AnomLLM基准上超越21种现有提示策略,F1分数最高提升66.6%。

2025_NIPS_Large Language Models Miss the Multi-Agent Mark
近年来,学界对大型语言模型多智能体系统(MASLLMs)的关注日益升温,催生了众多利用多个大型语言模型(LLM)解决复杂任务的框架。然而,此类文献中多数仅借用了多智能体系统(MAS)的术语,却未深入践行其基础原理。在这篇立场论文中,我们重点指出了MAS理论与当前MASLLMs实现方案之间的关键差异,聚焦四个核心领域:智能体的社会性、环境设计、协调与通信协议,以及涌现行为的度量。

2025_NIPS_Unified Reinforcement and Imitation Learning for Vision-Language Models
该研究提出统一强化与模仿学习(RIL)框架,旨在打造高性能轻量化视觉语言模型(VLMs)。RIL融合强化学习(GRPO)与对抗性模仿学习(GAIL)优势,让小参数量学生模型(1B-8B)模仿大参数量教师模型(72B-78B)的文本生成能力,同时通过双重奖励机制保障效果:判别器提供的风格相似性奖励与LLM-as-a-Judge提供的事实准确性奖励。

2025_NIPS_Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling
该研究聚焦于解决大语言模型(LLMs)在生成优化模型时存在的错误和幻觉问题,提出了Solver-InformedReinforcementLearning(SIRL)框架——一种基于可验证奖励的强化学习方法,旨在提升LLMs生成准确、可执行优化模型的能力。数据合成:通过实例增强自一致性方法,结合LLM生成、求解器验证和过滤,构建高质量训练数据。强化学习框架:设计PartialKL替代函数,对数学建模和代码生成部分施加KL惩罚以保证稳定性,对推理部分不施加惩罚以鼓励探索。

2025_NIPS_FastVID: Dynamic Density Pruning for Fast Video Large Language Models
双视角冗余分析:首次从时序上下文(帧顺序与连续性影响语义理解)和视觉上下文(关键细节与全局结构需兼顾)两方面系统分析视频冗余,明确剪枝需同时保留时序完整性和视觉完整性。动态时序分割策略:基于帧过渡相似度自适应调整分割粒度,实现“简单场景少分割、复杂场景细分割”,同时保证时序结构和片段内冗余性。密度基token选择与融合:相比均匀采样(内容无关)和聚类融合(丢失位置信息),密度峰值token作为锚点,既保证代表性又保留位置信息,适配VideoLLMs的旋转位置编码(RoPE)需求。

2025_NIPS_Enhancing Text-to-Image Diffusion Transformer via Split-Text Conditioning
当前文本到图像扩散生成通常采用完整文本条件输入。由于句法结构复杂,扩散Transformer(DiT)本质上存在完整文本描述的理解缺陷:一次性输入完整文本要么会忽略关键语义细节,要么会因同时建模多种语义基元类型而导致语义混淆。为缓解DiT的这一缺陷,本文提出一种名为DiT-ST的新型分裂文本条件框架。该框架将完整文本描述转换为分裂文本描述(一组简化句子集合),以显式表达各类语义基元及其相互关联,并以层次化、增量式的方式将分裂文本注入DiT-ST的不同去噪阶段。

2025_NIPS_Learning Robust Vision-Language Models from Natural Latent Spaces
预训练视觉-语言模型(VLMs)对难以察觉的对抗性扰动表现出显著的脆弱性。当前先进的防御策略通常采用对抗性提示调优来提升VLMs的对抗鲁棒性,但这类方法难以在不同基准测试和下游任务中同时维持对自然样本和对抗样本的泛化能力。本文提出一种基于预训练VLMs的协作对抗性提示调优(CoAPT)方法,以构建鲁棒的VLMs。受图像掩码建模的启发,我们采用改进的实时总变差算法来抑制和消除图像的高频细节,同时保留边缘结构,从而破坏对抗性扰动空间。

2025_NIPS_Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering
该研究聚焦于视频多模态大语言模型(VideoLLMs)的幻觉问题,首次系统性探索了激活工程(ActivationEngineering)在缓解该问题中的可行性与内在机制,并提出了一种时序感知的激活工程框架。研究背景:VideoLLMs虽在视频理解任务中取得显著进展,但由于额外的时间维度,幻觉问题(生成看似合理但不准确的输出)更为严重,现有解决方案要么依赖昂贵的模型微调,要么效果有限。激活工程在文本和图像模型的幻觉缓解中已获成功,但在视频领域的应用尚未被探索。核心发现模型内部模块的幻觉敏感性与任务的。

2025_NIPS_Learning Interactive World Model for Object-Centric Reinforcement Learning
能够理解目标及其交互关系的智能体,可学习出更稳健且可迁移的策略。然而,大多数目标中心强化学习方法仅按单个目标对状态进行因子化,却将交互关系隐式化处理。本文提出因子化交互式目标中心世界模型(FIOC-WM),这是一个在世界模型中同时学习目标及其交互关系结构化表示的统一框架。FIOC-WM通过解耦且模块化的目标交互表示捕捉环境动态,提升策略学习的样本效率和泛化能力。具体而言,该模型借助预训练视觉编码器,直接从像素中学习目标中心潜变量和交互结构;

2025_NIPS_Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Informatio...
本文从信息论视角探究大型推理模型(LRMs)的内部推理机制,核心发现是互信息峰值(MIPeaks)现象——LRMs推理过程中,特定步骤的中间表示与正确答案的互信息(MI)会突然显著提升。这些峰值对应表达反思、过渡的“思考令牌”(如“Hmm”“Wait”“Therefore”),且此类令牌对推理性能至关重要。基于该发现,作者提出两种无训练优化方法:表征循环(RR)和基于思考令牌的测试时扩展(TTTS),均有效提升了LRMs在数学推理等任务上的性能。

2025_NIPS_AI Progress Should Be Measured by Capability-Per-Resource, Not Scale Alone: A Framework...
该文章批判了当前AI研究中主导的“规模至上主义”(盲目追求模型尺寸和计算量增长),指出其导致的环境负担加重与资源分配不平等问题,核心主张将AI进展的衡量标准从“单纯能力”转向“单位资源能力”(capability-per-resource),并构建了一套基于梯度引导的资源分配理论框架与实践范式。本文对主导AI研究的“规模至上主义”提出质疑——这种无节制追求模型尺寸和计算量增长的模式,已导致不可持续的环境影响和日益扩大的资源不平等。

2025_NIPS_SYMPHONY: Synergistic Multi-agent Planning with Heterogeneous Language Model Assembly
近年来的研究进展日益聚焦于利用大型语言模型(LLMs)构建自主智能体,以应对复杂问题求解任务。然而,现有方法在蒙特卡洛树搜索(MCTS)规划过程中,主要采用单智能体框架生成搜索分支并估计奖励。这种单智能体范式本质上限制了探索能力,往往导致生成分支的多样性不足,进而影响规划性能的最优性。

欢迎留下您的脚印