Loading...

2025_NIPS_RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness
微调预训练模型以适配自定义数据,已产生大量面向特定任务的专家模型。将这些模型融合为一个具备多任务能力的通用模型,同时避免数据泄露,已成为研究热点。随着数据和模型规模的扩大,参数高效调优已成为高效获取任务特定模型的常规做法。然而,专门针对高效融合的方法极少,且为全量微调设计的现有融合方法在高效融合场景下效果不佳。为解决该问题,本文通过低秩分解分析揭示:融合过程中的方向鲁棒性对高效模块的融合至关重要,且弥补显著奇异值之间的差距有助于提升方向鲁棒性。

2025_NIPS_IR-OptSet: An Optimization-Sensitive Dataset for Advancing LLM-Based IR Optimizer
编译器优化对于提升程序性能至关重要,但现代编译器仍依赖于针对中间表示(IR)的手工编写转换规则。随着编译器复杂度的提升,维护这些基于规则的优化变得日益费力且难以扩展。大型语言模型(LLMs)的最新进展提供了一种极具潜力的替代方案,但其在编译器优化中的效果仍受到限制——主要原因是缺乏面向IR的数据集,无法让模型接触到真实场景中的多样化转换样本(优化敏感样本),阻碍了LLMs学习丰富且可泛化的优化策略。本文提出IR-OptSet,这是首个用于推进基于LLM的IR优化器的公开优化敏感数据集。

2025_NIPS_Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with
该研究提出一种利用大型语言模型(LLMs)生成领域依赖启发式函数的新方法,用于经典规划问题。通过向LLM输入PDDL领域描述、示例任务、其他领域启发式示例及规划器代码,生成Python格式的候选启发式函数,经训练集评估筛选最优函数后,用于解决未见的分布外测试任务。实验基于Pyperplan规划器,在IPC2023学习赛道的8个领域验证,结果显示LLM生成的启发式函数在求解任务数量、状态扩展效率上优于端到端LLM规划、传统领域无关启发式,甚至能与基于FastDownward的C++实现的最先进启发式竞争。

2025_NIPS_Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback
人类反馈强化学习(RLHF)是使大型语言模型(LLMs)与人类偏好和价值观对齐的关键技术。近年来的研究主要集中在算法改进上——例如降低计算开销或强化奖励模型以减轻奖励黑客行为——而提示数据构建及其可扩展性的关键作用却受到相对较少的关注。本文通过系统性探索当前阻碍RLHF性能缩放的数据驱动型瓶颈,重点解决奖励黑客行为和响应多样性下降带来的挑战,填补了这一研究空白。

2025_NIPS_Emergence of Linear Truth Encodings in Language Models
近期的探测研究表明,大型语言模型存在能区分真实与虚假陈述的线性子空间,但其涌现机制尚不明确。本文提出一种透明的单层Transformer玩具模型,可端到端复现此类真值子空间,并揭示其形成的一条具体路径。我们研究了真值编码涌现的一个简单场景:在数据分布中,事实陈述与其他事实陈述共现(虚假陈述同理),这种分布特性促使模型学习区分真假以降低对后续token的语言建模损失。我们通过预训练语言模型的实验验证了这一模式。

2025_NIPS_Scaling Up Active Testing to Large Language Models
该研究聚焦于解决大型语言模型(LLMs)评估中存在的计算成本高、标签效率低的问题,提出了一套可规模化的主动测试(ActiveTesting)方案。背景与问题:现有LLMs评估面临双重挑战——模型复杂度提升导致评估成本激增,且数据泄露风险要求动态获取新评估数据;传统主动测试虽能提高标签效率,但因代理模型训练、预测计算等环节的高成本,难以适配LLMs。核心优化策略代理模型训练:用少量初始测试数据通过上下文学习(in-contextlearning)构建代理模型,固定不变,避免重复梯度训练;

2025_NIPS_CGBENCH: Benchmarking Language Model Scientific Reasoning for Clinical Genetics Research
临床遗传学中,基因和变异注释是个性化医疗的核心,但传统人工方法耗时费力,且现有LLM基准多聚焦窄化任务,与真实科研场景脱节。现有LLM在科学文献解读中存在幻觉、证据强度误判等问题,缺乏针对临床遗传学复杂任务的评估工具。变异和基因解读是个性化医疗和转化生物医学的基础。然而,传统方法依赖人工且耗时费力。生成式语言模型(LMs)可助力这一过程,加速基础研究向临床可行见解的转化。尽管现有基准已尝试量化LMs解读科学数据的能力,但这些研究聚焦于无法迁移到真实科研场景的窄化任务。

2025_NIPS_Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers
随着大型语言模型在实际应用中日益普及,处理远超模型预训练上下文限制的超长文本已成为一项关键挑战。现有高效长上下文处理方法虽展现出潜力,但基于循环压缩的方法难以保证信息完整性,而随机访问方法则需要大量内存资源。本文提出REFORM,一种通过两阶段方法高效处理长上下文的新型推理框架:首先,在维护压缩KV缓存的同时增量处理输入块,构建跨层上下文嵌入,并采用早停策略提升效率;其次,通过相似度匹配识别并收集关键token,选择性地重计算KV缓存。

2025_NIPS_SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
近期发布的DeepSeek-R1已证明强化学习(RL)在提升大型语言模型(LLMs)通用推理能力方面的巨大潜力。尽管DeepSeek-R1及后续相关研究主要聚焦于将RL应用于竞赛编程和数学问题,本文仍提出了SWE-RL——首个将基于RL的LLM推理能力规模化应用于真实软件工程场景的方法。

2025_NIPS_MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs
该研究针对现有多模态大语言模型(MLLMs)评估基准局限于单视频理解、无法满足现实场景中多视频分析需求的问题,提出了首个全面的多视频理解评估基准MVU-Eval。多模态大语言模型(MLLMs)的出现将人工智能能力拓展到了视觉模态,但现有评估基准仍局限于单视频理解,忽视了现实场景(如体育分析、自动驾驶)中对多视频理解的关键需求。为填补这一重要空白,我们提出了MVU-Eval——首个用于评估MLLMs多视频理解能力的综合基准。

2025_NIPS_The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning
熵最小化(EM)训练模型将概率质量更集中于其最有信心的输出。我们表明,仅这一简单目标,无需任何标注数据,就能大幅提升大语言模型(LLMs)在高难度数学、物理和编程任务上的性能。我们探索了三种方法:(1)EM-FT类似于指令微调,最小化token级熵,但基于模型生成的无标注输出;(2)EM-RL:以负熵作为唯一最大化奖励的强化学习;(3)EM-INF:推理时调整logits以降低熵,无需任何训练数据或参数更新。

LLM Weekly(2026.3.2-2026.3.8)
部分非英语语言能力仍较弱,现已在ChatGPT与API以。

Helios: Real Real-Time Long Video Generation Model
我们提出Helios,这是首个14B参数的视频生成模型,在单张NVIDIAH100GPU上运行速度可达19.5FPS,支持分钟级视频生成,同时质量与强基线模型相当。我们在三个关键维度取得突破:(1)无需自强制、误差库或关键帧采样等常用抗漂移启发式方法,仍能保持长视频生成的稳定性;(2)无需KV缓存、稀疏/线性注意力或量化等标准加速技术,实现实时生成;(3)无需并行或分片框架即可完成训练,支持图像扩散级别的批量大小,且80GBGPU内存可同时容纳4个14B模型。

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every
随着高质量公开文本逐渐枯竭(即"数据墙"现象,Villalobos等人,2022),预训练正从追求更多令牌转向追求更高质量的令牌。然而,现有方法要么依赖忽略训练动态的启发式静态过滤器,要么使用基于原始梯度的动态但与优化器无关的标准。本文提出OPUS(优化器诱导的投影效用选择),这是一种动态数据选择框架,在优化器诱导的更新空间中定义效用。OPUS通过将现代优化器塑造的有效更新投影到来自稳定、分布内代理的目标方向,对候选样本进行评分。

THE DEVIL BEHIND MOLTBOOK: ANTHROPIC SAFETY IS ALWAYS VANISHING IN SELF-EVOLVING AI SOCIETIES
基于大型语言模型(LLMs)构建的多智能体系统,为可扩展集体智能与自进化提供了极具前景的范式。理想情况下,此类系统应能在完全闭环中实现持续自我提升,同时保持稳健的安全对齐——我们将这种组合称为“自进化三难困境”。然而,本文通过理论与实证双重证明:同时满足持续自进化、完全隔离与安全不变性的智能体社会是不可能存在的。借助信息论框架,我们将安全性形式化为与人类价值分布的偏离程度,从理论上论证了隔离式自进化会引发统计盲点,导致系统安全对齐不可逆退化。

Experiential Reinforcement Learning
带可验证奖励的强化学习(RLVR)已成为将大型语言模型(LLM)适配为交互智能体的主流范式,但该方法在稀疏与延迟反馈场景下存在显著局限。在此类场景中,智能体需从标量奖励中隐式推断行为修正方式,导致学习过程不稳定、样本效率低下。受人类体验式学习机制启发,本文提出体验式强化学习(ERL)这一新训练范式,将显式的“经验—反思—内化”循环嵌入强化学习流程。ERL首先生成初始行为尝试,接收环境反馈后,生成能够识别错误并提出改进方向的结构化反思;

Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs
大语言模型(LLMs)的下游性能高度依赖训练后数据的多样性。现有构建训练后数据的方法多采用文本层面的指标量化多样性,这类指标仅能捕捉语言表层变异,却难以反映决定下游性能的任务相关特征。本文提出特征激活覆盖率(FAC),在可解释的特征空间中量化数据多样性。基于该指标,进一步提出多样性驱动的数据合成框架:首先通过稀疏自编码器(SAE)识别种子数据集中的缺失特征,再生成明确体现这些特征的合成样本。实验表明,该方法在指令跟随、毒性检测、奖励建模和行为引导等多个任务上,持续提升数据多样性和下游性能。

Discovering Multiagent Learning Algorithms with Large Language Models
多智能体强化学习(MARL)在不完美信息博弈中的大部分进展,历来依赖于对基线算法的人工迭代优化。尽管反事实遗憾最小化(CFR)和策略空间响应预言机(PSRO)等基础算法家族拥有坚实的理论基础,但其最优变体的设计往往需要依赖人类直觉来遍历庞大的算法设计空间。本文提出使用AlphaEvolve——一款由大语言模型驱动的进化编码智能体——来自动发现新型多智能体学习算法。我们通过为两种截然不同的博弈论学习范式进化出新型变体,验证了该框架的通用性。

The Appeal and Reality of Recycling LoRAs with Adaptive Merging
本文聚焦于LoRA(低秩适配)模块的回收与自适应合并技术,核心研究如何利用公开模型仓库中用户贡献的“真实场景”LoRA模块提升下游任务性能。自适应合并的有限优势:自适应合并方法虽能优于基础模型,但与直接在目标任务数据上训练新LoRA相比,未展现出显著且稳定的性能提升。LoRA选择的无关性:当合并池包含目标任务LoRA时,随机选择LoRA与基于参数相似度、任务性能的精细化选择策略效果相当;甚至随机初始化参数的LoRA也能达到类似性能,说明其优势可能源于正则化效应而非跨任务知识迁移。正迁移的条件限制。

A Very Big Video Reasoning Suite
视频模型的快速发展主要集中在视觉质量上,其推理能力尚未得到充分探索。视频推理将智能根植于时空一致的视觉环境中,这种环境超越了文本天然能够捕捉的范畴,支持对连续性、交互性和因果关系等时空结构的直观推理。然而,由于缺乏大规模视频推理训练数据,系统研究视频推理及其缩放行为受到了阻碍。为填补这一空白,我们提出了VBVR(VeryBigVideoReasoning)数据集——一个规模空前的资源库,包含遵循原则性分类法的200个精选推理任务,以及超过100万个视频片段(规模约为现有数据集的三个数量级)。

欢迎留下您的脚印