Loading...

2025_NIPS_Large Language Models Think Too Fast To Explore Effectively
性能差异:多数LLMs(GPT-4o、LLaMA3.1系列)探索表现不及人类(人类500次试验平均发现42种元素),仅o1(177种)和DeepSeek-R1(85种)显著超越人类;模型规模与推理能力对探索效果影响显著,推理型模型表现更优。策略差异:人类平衡“不确定性驱动探索”(优先尝试少用元素)与“赋能探索”(选择未来组合潜力大的元素),而传统LLMs过度依赖不确定性驱动策略,几乎不运用赋能策略;仅o1能有效平衡两种策略。推理过程差异:传统LLMs(如GPT-4o)推理速度快、过程简略,令牌使用少;

2025_NIPS_Lost in Transmission: When and Why LLMs Fail to Reason Globally
尽管基于Transformer的大语言模型(LLMs)取得了诸多成功,但在需要对输入大部分内容进行复杂推理的任务中仍持续面临挑战。我们认为,这些失败源于LLM内部信息准确流动的容量限制。为形式化这一问题,我们引入有界注意力前缀预言机(BAPO)模型——一种新的计算框架,用于建模注意力头的带宽约束(注意力头是LLM内部通信的核心机制)。我们证明,图可达性等多个重要推理问题需要高通信带宽才能被BAPO解决,这类问题被称为BAPO-hard。

2025_NIPS_Efficient Low Rank Attention for Long-Context Inference in Large Language Models
随着输入文本长度的增加,大语言模型(LLMs)中的键值(KV)缓存会带来极高的GPU内存开销,限制了资源受限设备上的长上下文推理。现有方法(如KV量化和剪枝)虽能降低内存占用,但存在数值精度损失或键值对保留效果不佳的问题。本文提出低秩查询和键注意力(LRQK),这是一种两阶段框架:在预填充阶段,将全精度查询和键矩阵联合分解为紧凑的秩-r因子;在每个解码步骤,利用这些低维投影以O(lr)时间计算代理注意力分数。

2026_ICLR_TOWARDS UNDERSTANDING VALUABLE PREFERENCE DATA FOR LARGE LANGUAGE MODEL ALIGNMENT
该文章聚焦于开放域对话生成中的“一致性”问题(即对话中角色性格、事实信息、情感倾向等维度的连贯性缺失),提出了一种名为的框架。核心思路是通过“自记忆强化学习”机制,让模型在生成对话时主动记忆历史对话中的关键一致信息,并通过强化学习优化,提升长程对话中的一致性表现。文章首先分析了现有开放域对话模型的核心缺陷:现有模型多关注流畅度和相关性,缺乏对“跨轮次一致信息”的建模,导致生成内容前后矛盾(如角色身份变化、事实描述冲突等)。自记忆模块(Self-MemoryModule)

2026_ICLR_REASONING SCAFFOLDING: DISTILLING THE FLOW OF THOUGHT FROM LLMS
该文章聚焦于自然语言处理中的少样本学习(Few-ShotLearning)问题,针对现有方法在数据稀缺场景下泛化能力不足、依赖大量预训练数据或复杂提示工程的局限,提出了一种新型的少样本学习框架(具体名称需结合模型细节,文中核心围绕“高效利用有限样本+轻量化适配”展开)。

LLM Weekly(2026.3.23-2026.3.29)
研究作者引入了一个拥有40亿参数的移动端GUI智能体,采用拒绝微调(rejectionfine-tuning)技术实现模型与数据的协同进化,并通过分组相对自蒸馏(grouprelativeself-distillation)技术从失败的操作轨迹中进行信用分配(creditassignment)。在从1.6万扩展到1亿Token的过程中,MSA的性能下降不到9%,并且凭借稀疏注意力和基于文档的位置编码,它在长上下文任务上的表现优于现有前沿模型和RAG(检索增强生成)系统。指南内附详细的按步设置说明。

TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
这篇被ICLR2026接收的论文提出了一种名为TurboQuant的全新在线向量量化(VectorQuantization,VQ)算法。该研究的核心目标是解决大语言模型(LLM)在长上下文推理时面临的KVCache显存消耗瓶颈,以及大规模向量数据库在近似最近邻检索中的存储与延迟问题。有别于现有技术,TurboQuant是一种无需任何校准数据、无需训练的在线算法(Data-oblivious)。

2025_NIPS_Keeping an Eye on LLM Unlearning: The Hidden Risk and Remedy
核心问题:现有LLM遗忘技术无法约束遗忘范围,且不能区分良性token与遗忘信号,导致恶意用户可通过操纵遗忘数据发起隐蔽攻击。攻击方案(StealthyAttack,SA):通过在遗忘数据中增加“please”“then”等常见良性token的频率,诱导模型将其视为遗忘信号,使普通用户使用这些token时模型性能下降。防御方案(Scope-awareUnlearning,SU)

2025_NIPS_Scientists’ First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding,
本文来自上海人工智能实验室PrismaX团队,针对现有科学领域多模态大语言模型(MLLMs)基准测试仅侧重知识理解、忽视感知与推理能力评估的缺陷,提出了Scientists’FirstExam(SFE)基准测试。该基准旨在从三个认知层面全面评估MLLMs的科学认知能力:科学信号感知(L1,识别科学原始数据可视化中的关键组件)、科学属性理解(L2,解读领域专家知识)、科学比较推理(L3,通过多科学视觉源的结构化比较推导现象洞察)。SFE涵盖5个高价值学科(天文学、化学、地球科学、生命科学、材料科学)、

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens
长期记忆是人类智能的基石。使人工智能能够处理数以亿计token的“终生尺度(lifetime-scale)”信息,一直是该领域的长期追求。由于全注意力(full-attention)架构的限制,大型语言模型(LLM)的有效上下文长度通常被限制在100万(1M)个token以内。现有的探索,如混合线性注意力、固定大小的记忆状态(例如RNN),以及如RAG(检索增强生成)或智能体系统等外部存储方法,都试图突破这一限制。

OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis
OpenResearcher:AFullyOpenPipelineforLong-HorizonDeepResearchTrajectorySynthesis》一文主要解决的是当前“深度研究智能体(DeepResearchAgents)”在获取长视距(Long-Horizon)推理与搜索训练数据时面临的成本高、环境不稳定以及难以复现等痛点。现有的数据收集往往高度依赖诸如GoogleSearch等商业在线搜索引擎API,这使得大规模生成试错轨迹变得极其昂贵且不可控。

2025_NIPS_SafePTR : Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanis
内容警告:本文包含少量有害图像和文本!多模态大型语言模型(MLLMs)通过整合视觉输入,将大型语言模型(LLMs)的能力扩展到视觉推理领域。然而,这种整合也引入了新的漏洞,使得MLLMs易受多模态越狱攻击,阻碍了其安全部署。现有防御方法(包括图像转文本翻译、安全提示工程和多模态安全调优)试图通过将多模态输入与LLMs的内置安全机制对齐来解决该问题,但它们未能揭示多模态漏洞的根本原因,尤其是有害多模态令牌如何触发MLLMs的越狱行为?

2025_NIPS_Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows
自回归模型推动了语言建模的显著进步。它们对离散token、单向上下文和单轮解码的基础性依赖,虽为其成功奠定核心,但也启发了对可提供新建模灵活性维度的设计空间的探索。本文探索了一种替代范式,将语言建模从离散token空间转移到连续latent空间。我们提出一种新颖的TarFlowLM框架,采用基于Transformer的自回归归一化流来建模这些连续表示。该方法解锁了显著的灵活性,能够构建通过堆叠的交替方向自回归变换捕捉全局双向上下文、支持具有灵活token补丁大小的块级生成、并促进分层多轮生成过程的模型。

2025_NIPS_Partition to Evolve: Niching-enhanced Evolution with LLMs for Automated Algorithm Discover
大语言模型辅助进化搜索(LES)已成为自动化算法发现(AAD)的一种极具潜力的方法。尽管针对经典优化问题已开发出多种进化搜索策略,但LES运行于抽象语言空间,为有效应用这些策略带来了独特挑战。为解决这一问题,我们提出一种通用LES框架,其在抽象搜索空间中融入特征辅助小生境构建,实现了进化计算中基于小生境的搜索策略的无缝集成。基于该框架,我们引入PartEvo(PartitiontoEvolve)方法,该方法结合小生境协同搜索与先进提示策略,以提升算法发现效率。

2025_NIPS_Training-Free Test-Time Adaptation via Shape and Style Guidance for Vision-Language Model
预训练视觉语言模型的测试时自适应展现出优异的零样本分类能力,而无训练方法在无需任何优化开销的前提下进一步提升了性能。然而,现有无训练测试时自适应方法通常依赖熵准则选择视觉特征和更新视觉缓存,却忽略了形状敏感和风格不敏感等泛化因子。本文提出一种新颖的形状和风格引导(SSG)方法,用于视觉语言模型的无训练测试时自适应,旨在突出形状敏感(SHS)和风格不敏感(STI)因子的作用。具体而言,SSG通过形状和风格破坏操作对原始测试图像进行扰动,并将原始图像与扰动图像的预测差异定义为扰动预测差异(PPD)。

2025_NIPS_MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO
近期的文本到图像系统在处理多模态输入和复杂推理任务时面临局限。本文提出统一多模态大语言模型MindOmni,通过强化学习融入推理生成能力以应对这些挑战。MindOmni采用三阶段训练策略:1)设计含解码器式扩散模块的统一视觉语言模型;2)使用思维链(CoT)指令数据进行有监督微调;3)提出推理生成策略优化(RGPO)算法,利用多模态反馈有效引导策略更新。实验结果表明,MindOmni在理解和生成基准测试中均优于现有模型,展现出先进的细粒度推理生成能力,尤其在数学推理指令任务中表现突出。所有代码将开源于。

2025_NIPS_HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models
该研究针对多模态大型语言模型(MLLMs)训练中存在的计算资源消耗巨大、视觉与文本模态多粒度对齐不足的问题,提出了一种基于双曲空间的高效训练范式HyperET。核心背景是现有MLLMs依赖CLIP、SAM等视觉编码器,这些编码器仅能在单一粒度(如像素级或对象级)与语言对齐,导致跨模态对齐效率低下,需海量GPU资源支撑训练。而双曲空间天然具备层级建模能力,可通过双曲半径量化粒度(原点附近为低粒度视觉特征,边界附近为高粒度语义特征),为解决粒度不匹配问题提供了理论基础。

2025_NIPS_ROVER: Recursive Reasoning Over Videos with Vision-Language Models for Embodied Tasks
视觉语言模型(VLMs)在各类图像理解任务中展现出令人印象深刻的能力,但在需要对视频中的长序列相机帧进行推理的场景中仍存在不足。这限制了它们在具身场景中的实用性——此类场景要求在任务执行的每个时刻,都能基于连续的视觉输入流对长帧序列进行推理。为解决这一局限,我们提出ROVER(递归视频推理框架,ReasoningOverVidEoRecursively),该框架能使模型将长时程视频轨迹递归分解为对应轨迹内较短子任务的片段。

2025_NIPS_Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model
理解分子是理解生物体和推动药物发现进展的关键,需要化学和生物学领域的跨学科知识。尽管大型分子语言模型在任务迁移方面取得了显著成功,但由于知识储备和推理能力有限,它们往往难以准确分析分子特征。为解决这一问题,我们提出Mol-LLaMA——一款大型分子语言模型,其核心是掌握以分子为中心的通用知识,并具备可解释性和推理能力。为此,我们设计了涵盖分子基本特征的关键数据类型,同时兼顾分子推理所需的核心能力。此外,为提升分子理解效果,我们提出一种融合模块,利用分子表征的独特优势,整合来自不同分子编码器的互补信息。

2025_NIPS_RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
空间指代是实体机器人与3D物理世界交互的核心能力。然而,即便借助强大的预训练视觉语言模型(VLM),现有方法仍无法精准理解复杂3D场景,也难以对指令指示的交互位置进行动态推理。为此,我们提出RoboRefer——一种3D感知VLM,其首先通过监督微调(SFT)整合分离式专用深度编码器,实现精准空间理解;进一步通过强化微调(RFT),结合为空间指代任务定制的度量敏感过程奖励函数,提升广义多步空间推理能力。

欢迎留下您的脚印