Loading...
多智能体强化学习(MARL)在不完美信息博弈中的大部分进展,历来依赖于对基线算法的人工迭代优化。尽管反事实遗憾最小化(CFR)和策略空间响应预言机(PSRO)等基础算法家族拥有坚实的理论基础,但其最优变体的设计往往需要依赖人类直觉来遍历庞大的算法设计空间。本文提出使用AlphaEvolve——一款由大语言模型驱动的进化编码智能体——来自动发现新型多智能体学习算法。我们通过为两种截然不同的博弈论学习范式进化出新型变体,验证了该框架的通用性。
The Appeal and Reality of Recycling LoRAs with Adaptive Merging
本文聚焦于LoRA(低秩适配)模块的回收与自适应合并技术,核心研究如何利用公开模型仓库中用户贡献的“真实场景”LoRA模块提升下游任务性能。自适应合并的有限优势:自适应合并方法虽能优于基础模型,但与直接在目标任务数据上训练新LoRA相比,未展现出显著且稳定的性能提升。LoRA选择的无关性:当合并池包含目标任务LoRA时,随机选择LoRA与基于参数相似度、任务性能的精细化选择策略效果相当;甚至随机初始化参数的LoRA也能达到类似性能,说明其优势可能源于正则化效应而非跨任务知识迁移。正迁移的条件限制。
A Very Big Video Reasoning Suite
视频模型的快速发展主要集中在视觉质量上,其推理能力尚未得到充分探索。视频推理将智能根植于时空一致的视觉环境中,这种环境超越了文本天然能够捕捉的范畴,支持对连续性、交互性和因果关系等时空结构的直观推理。然而,由于缺乏大规模视频推理训练数据,系统研究视频推理及其缩放行为受到了阻碍。为填补这一空白,我们提出了VBVR(VeryBigVideoReasoning)数据集——一个规模空前的资源库,包含遵循原则性分类法的200个精选推理任务,以及超过100万个视频片段(规模约为现有数据集的三个数量级)。
The Trinity of Consistency as a Defining Principle for General World Models
构建能够学习、模拟和推理客观物理定律的世界模型,是追求人工通用智能(AGI)的核心挑战。以Sora为代表的视频生成模型近期取得的进展,展示了数据驱动的缩放定律在逼近物理动力学方面的潜力,而新兴的统一多模态模型(UMM)则为融合感知、语言和推理提供了极具前景的架构范式。尽管取得了这些进步,该领域仍缺乏一个系统性的理论框架来定义通用世界模型的核心必备属性。本文提出,世界模型必须建立在“一致性三位一体”的基础上:作为语义接口的模态一致性、作为几何基础的空间一致性,以及作为因果引擎的时间一致性。
AI Agents as Universal Task Solvers: It’s All About Time
我们将AI智能体描述为随机动力学系统,并将推理学习问题框架化为转导推理:与经典归纳学习中逼近过往数据分布不同,其目标是捕获数据的算法结构,以减少求解新任务所需的时间。在这一视角下,过往经验中的信息不仅像香农经典理论所述那样用于降低模型不确定性,更用于减少求解未预见任务的计算开销。在存在验证器或奖励函数的可验证场景中,我们建立了三大核心结果:首先,我们证明新任务的最优加速比与该任务和训练数据共享的算法信息严格相关,为推理模型中实证观察到的幂律缩放提供了理论证明;
Does Your Reasoning Model Implicitly Know When to Stop Thinking?
大型推理模型(LRMs)的最新进展通过长思维链(CoT)显著提升了复杂推理任务的性能。然而,这种方法往往导致大量冗余,损害计算效率并在实时应用中造成显著延迟。近期研究表明,更长的推理链通常与正确性无关,甚至可能影响准确率。在对这一现象的深入分析中,我们意外发现并实证验证:LRMs隐含知道合适的思考停止时机,但这一能力被当前的采样范式所掩盖。基于此观察,我们提出SAGE(自我感知引导的高效推理)——一种新型采样范式,用以释放这种高效推理潜力。
2025_NIPS_Solving Inequality Proofs with Large Language Models
不等式证明在多个科学和数学领域至关重要,它考验着发现紧边界、策略性应用定理等高级推理能力。这使其成为大型语言模型(LLMs)一个独特且具有挑战性的前沿方向,能提供超越通用数学问题求解的深刻见解。该领域的进展受限于现有数据集——它们往往数量稀缺、人为合成或形式僵化。为解决这一问题,我们提出一种非正式但可验证的任务构建方式,将不等式证明重构为两个可自动检查的子任务:边界估计和关系预测。
2025_NIPS_SymRTLO: Enhancing RTL Code Optimization with LLMs and Neuron-Inspired Symbolic Reasoning
寄存器传输级(RTL)代码优化对于在综合早期阶段提升数字电路的效率和性能至关重要。基于综合反馈的手动改写虽能产出高质量结果,但耗时且易出错。大多数现有编译器方法难以处理复杂的设计约束。基于大语言模型(LLM)的方法已成为解决这些挑战的潜在方案,但这类方法往往难以确保生成代码与给定提示(prompt)的一致性。本文提出SymRTLO,一种神经符号框架,将LLM与符号推理相结合,实现RTL代码的高效优化。
LLM Weekly(2026.1.26-2026.2.1)
谷歌DeepMind与GoogleLabs推出网页原型,由Genie3、NanoBananaPro和Gemini驱动,面向美国地区18岁以上的GoogleAIUltra订阅用户开放。用户可通过文本和图像,实时探索,并对现有场景进行二次创作。谷歌将其定位为,同时指出目前在视觉效果、控制能力和持续时长上仍有局限。
LLM Weekly(2026.2.2-2026.2.8)
Anthropic发布ClaudeOpus4.6,这是一款前沿大模型,在代码能力、长上下文推理与智能体任务表现上均有提升。该模型已开放(测试版)和。ClaudeOpus4.6在Terminal-Bench2.0、Humanity’sLastExam、GDPval-AA、BrowseComp等基准测试中领先,同时保持优秀的安全性能。Anthropic还新增了,并强化了与Excel、PowerPoint的集成能力。
LLM Weekly(2026.2.9-2026.2.15)
OpenAI推出GPT‑5.3‑Codex‑Spark,这是一款轻量化的GPT‑5.3‑Codex模型,专为在CerebrasWaferScaleEngine3上实现优化。Codex‑Spark每秒可输出超过1000个token,支持128k纯文本上下文长度,并采用独立速率限制。OpenAI还通过持久化WebSocket连接与推理栈优化,将。Z.ai发布GLM-5,一款7440亿参数的稀疏大模型,针对复杂系统工程与长周期智能体任务优化。
LLM Weekly(2026.2.16-2026.2.22)
Anthropic发布ClaudeSonnet4.6,相比4.5版本全面升级,在上均有提升,且。模型支持,性能接近Opus水平,安全性与对抗提示词注入能力更强。开发者可通过Claude.ai、ClaudeCowork、ClaudeCode、API及主流云平台使用Sonnet4.6。
LLM Weekly(2026.2.23-2026.3.1)
AnthropicCEO达里奥·阿莫迪拒绝了五角大楼的“最终提议”,称公司不能在的前提下,允许其AI模型被用于所有合法用途。Anthropic要求明确和,而与该公司签有2亿美元合同的美国国防部则要求无限制合法使用,并威胁将其列入供应链风险名单。谷歌发布NanoBanana2(即Gemini3.1FlashImage模型),图像生成比NanoBananaPro更快、更逼真,支持512px~4K分辨率与多种宽高比。
2025_NIPS_Self-alignment of Large Video Language Models with Refined Regularized Preference Optimiz
该研究针对大型视频语言模型(LVLMs)在细粒度时间理解、幻觉生成、长短视频理解等任务中的不足,提出了一套自对齐框架与优化方法。核心思路是让LVLMs从自身错误中学习:通过对视频进行时空扰动生成错误响应,构建“偏好-非偏好”响应对训练集,再利用改进的偏好优化方法RRPO(RefinedRegularizedPreferenceOptimization)实现模型对齐。
2025_NIPS_KGGen: Extracting Knowledge Graphs from Plain Text with Language Models
近年来,构建知识图谱基础模型的相关研究凸显了一个核心挑战:知识图谱数据稀缺。目前知名的知识图谱主要依赖人工标注、模式匹配或早期自然语言处理技术提取生成。尽管人工构建的知识图谱供应短缺,但自动提取的知识图谱质量又备受质疑。本文提出KGGen,一种新型文本到知识图谱生成工具,该工具利用语言模型从纯文本中提取高质量图谱,并采用创新的实体消歧方法对相关实体进行聚类,显著缓解了困扰现有提取工具的稀疏性问题。与其他知识图谱生成工具不同,KGGen通过对相关实体进行聚类和去重,减少了提取图谱中的稀疏性。
2025_NIPS_Physics-informed Value Learner for Offline Goal-Conditioned Reinforcement Learning
离线目标条件强化学习(OfflineGCRL)在自主导航和运动控制等领域具有巨大应用前景——这些领域中,收集交互数据往往成本高昂且存在安全风险。然而,由于需要从状态-动作空间覆盖有限的数据集中学习,且需泛化到长时任务,该方法在实际应用中仍面临挑战。为解决这些问题,本文提出一种基于物理信息(Pi)的正则化损失函数用于价值学习。该损失函数源于Eikonal偏微分方程(PDE),能为学到的价值函数注入几何归纳偏置。
2025_NIPS_Continuous Diffusion Model for Language Modeling
扩散模型已成为自回归模型在离散分类数据建模中的有力替代方案。然而,直接在离散数据空间运行的扩散模型无法充分发挥迭代优化的优势,因为离散状态间的转移会导致信号丢失。现有针对离散数据的连续扩散模型性能不及离散方法,且两种方法间缺乏明确关联,阻碍了离散数据扩散模型的发展。本文提出一种用于语言建模的连续扩散模型,该模型融入了底层分类分布的几何特性。我们建立了离散扩散与统计流形上连续流的关联,并基于这一对应关系,提出一种可泛化现有离散扩散模型的简单扩散过程。
2025_NIPS_Improved Representation Steering for Language Models
语言模型(LM)的引导方法旨在通过改变模型输入、权重或表征来调整行为,从而对模型生成结果进行细粒度且可解释的控制。近期研究表明,在引入或抑制特定概念等场景下,调整权重或表征的效果往往不如提示工程。本文提出无参考偏好引导(RePS)方法,通过双向偏好优化目标同时实现概念引导与抑制,以此改进表征引导技术。我们训练了三种RePS参数化模型,并在大规模模型引导基准AXBENCH上进行评估。
2025_NIPS_FGBench: A Dataset and Benchmark for Molecular Property Reasoning at Functional Group-Leve
该研究聚焦于大型语言模型(LLMs)在化学领域的分子性质推理能力,针对现有数据集多关注分子层面预测、忽略官能团(FG)细粒度信息的缺陷,提出了FGBench数据集研究背景:官能团是分子中决定物理化学性质的关键原子组,现有分子性质数据库缺乏官能团与分子性质的明确关联,导致LLMs难以进行细粒度结构-性质关系推理,限制了其在分子设计、药物发现等场景的应用。数据集构建。
2025_NIPS_Multi-Agent Debate for LLM Judges with Adaptive Stability Detection
随着大型语言模型(LLMs)推理能力的不断提升,它们越来越多地被用于复杂的评估任务,例如给学生的回答评分、验证事实性声明以及比较竞争性答案。利用多个LLM作为自动评估器,通过聚合多样化视角可以提高评估的稳健性和准确性,但现有方法通常依赖静态且简单的聚合方式(如多数投票),即便个体评估正确,也可能产生错误的最终判断。本文提出一种新颖的多智能体辩论框架,让LLMs协作推理并迭代优化判断结果,对该过程进行了数学形式化描述,并证明其相较于静态集成的优势。
